03 FC
03 FC
3 Fonctions convexes
No
The fundamental idea to be understood is that the convex
functions on Rn can be identified with certain convex subsets of
Rn+1 (their epigraphs), while the convex sets in Rn can be
identified with certain convex functions on Rn (their
indicators). These identifications make it easy to pass back and
forth between a geometric approach and an analytic approach.
R.T. Rockafellar (1970). Convex Analysis [535].
3.1 Définition
Soit E un espace vectoriel sur R. On note R := R ∪ {−∞, +∞} la droite achevée.
En analyse convexe et en optimisation, il est parfois intéressant de pouvoir considérer
des fonctions pouvant prendre des valeurs infinies. En analyse convexe, plutôt que
Pre
de définir une fonction convexe comme un couple formé d’un ensemble convexe C et
d’une fonction f définie sur C ayant une propriété bien particulière (une approche
que l’on rencontre encore parfois), il est préférable de dire que cette fonction prend
des valeurs infinies en dehors de C. On évite ainsi de devoir décrire C avant de dé-
finir f , en particulier lorsque f est construite par une des opérations non triviales
que nous verrons dans lesquels il est compliqué de déterminer l’ensemble C. C’est ce
à quoi fait allusion la seconde épigraphe de ce chapitre. De même, il peut être utile
de représenter un problème d’optimisation avec contrainte min{f (x) : x ∈ X}, où X
est une partie de E, par le problème sans contrainte équivalent min{f˜(x) : x ∈ E},
où f˜ prend les mêmes valeurs que f sur X et vaut +∞ sur le complémentaire de X.
69
m
70 3. Fonctions convexes
Cette astuce conduit à un cadre théorique permettant de traiter en même temps les
problèmes avec et sans contraintes ; nous l’utiliserons souvent.
On rappelle que le domaine effectif (ou simplement domaine) d’une fonction f :
E → R est l’ensemble des points où elle ne prend pas la valeur +∞. On le note
No
On accepte que f prenne la valeur −∞ sur son domaine pour que celui-ci soit convexe
lorsque f est convexe (proposition 3.2, ci-dessous), mais nous considérerons le plus
souvent des fonctions ne prenant pas la valeur −∞. On rappelle que l’épigraphe de f
est la partie de l’espace produit E × R qui est au-dessus de son graphe :
Définitions 3.1 On dit qu’une fonction f : E → R est convexe si son épigraphe (ou
nom
son épigraphe stricte) est convexe dans E × R. On dit que f : E → R est concave si
−f est convexe. ✷
Le fait qu’il soit équivalent de prendre l’épigraphe ou l’épigraphe stricte dans cette
définition est le sujet du point 2 de l’exercice 3.1.
zéro), même si f (x) ou f (y) valent −∞. Par ailleurs, f (x) ou f (y) ne peuvent pas
prendre la valeur +∞ (x et y ∈ dom f ) et donc on n’a jamais l’indétermination ∞−∞.
Démonstration. Supposons que f soit convexe. Soient x, y ∈ dom f , t ∈ ]0, 1[ et
α, β ∈ R tels que α > f (x) et β > f (y) (de tels α et β existent car x et y ∈
dom f ). Comme (x, α) et (y, β) sont dans l’épigraphe de f , qui est convexe, il en est
de même de (1−t)(x, α) + t(y, β) = ((1−t)x + ty, (1−t)α + tβ), ce qui se traduit par
f ((1−t)x + ty) 6 (1−t)α + tβ. Comme α > f (x) et β > f (y) sont arbitraires, on
obtient (3.2). En particulier, ((1−t)x + ty) ∈ dom f ; donc dom f est convexe.
Supposons à présent que f : E → R ∪ {+∞} vérifie (3.2) pour tout x, y ∈ dom f
et tout t ∈ ]0, 1[. Soient (x, α) et (y, β) ∈ epi f ; donc x et y ∈ dom f . D’après (3.2),
m
3.1. Définition 71
No
+∞
epi f epi f
y
x
y x
convexe non convexe
Définition 3.3 On dit que f : E → R ∪ {+∞} est strictement convexe si pour tout
nom
x, y ∈ dom f avec x 6= y et pour tout t ∈ ]0, 1[ on a
f (1−t)x + ty < (1−t)f (x) + tf (y).
et n’étant pas identiquement égale à +∞ est dite propre, sinon elle est dite impropre.
On note
Conv(E)
l’ensemble des fonctions de E → R qui sont convexes et propres. Ce n’est pas un
espace vectoriel (la différence de deux fonctions convexes n’est généralement pas con-
vexe !), ni même un cône convexe (à moins que l’on ne suppose les fonctions à valeurs
réelles, car deux fonctions de Conv(E) peuvent avoir des domaines qui ne s’intersectent
pas, auquel cas leur somme est impropre). Si f ∈ Conv(E), son épigraphe n’est pas
vide ; donc l’intérieur relatif de celui-ci non plus (proposition 2.15). Le point 3 de
l’exercice 3.1 en donne une expression explicite :
m
72 3. Fonctions convexes
(epi f )−
◦
= {(x, α) : x ∈ (dom f )−
◦
, f (x) < α}. (3.3)
No
epi f epi f f (x)
f (x)
x x
f ∈ Conv(R) f 6∈ Conv(R)
une fonction convexe fermée et à droite une fonction convexe non fermée, ne différant
de la première que par sa valeur en x. On note
nom
Conv(E)
dans lequel on cherche à minimiser une fonction f définie sur un espace topologique X
à valeurs dans R∪{+∞} (voir la section 1.1). Le résultat suivant donne des conditions
simples assurant l’unicité de la solution de (PX ).
Théorème 3.4 (unicité de solution) Si X est une partie convexe d’un espace
vectoriel E et si f est strictement convexe sur X, alors (PX ) a au plus une
solution.
3.2 Exemples
3.2.1 Indicatrice
No
(
0 si x ∈ P
IP (x) =
+∞ sinon.
a : x ∈ E 7→ a(x) = hx∗ , xi − α.
L’élément x∗ , qui représente l’application linéaire x 7→ a(x) − a(0) dans E, est appelé
la pente de a. On voit que, si l’on munit l’espace produit E × R du produit scalaire
h(x, α), (y, β)i = hx, yi + αβ, l’épigraphe de a s’écrit
qui n’est autre que le demi-espace fermé H − ((x∗ , −1), α) de E × R (notation (2.33)).
On appelle minorante affine d’une fonction f : E → R ∪ {+∞}, une fonction
affine a qui minore f sur E : pour tout x ∈ E, f (x) > a(x). L’épigraphe d’une mi-
norante affine de f est donc un demi-espace fermé de E × R qui contient l’épigraphe
de f . Forcément, si f a une minorante affine, elle ne peut pas prendre la valeur −∞.
On dit qu’une minorante affine a de f est exacte en x0 si a(x0 ) = f (x0 ). Dans ce cas,
elle s’écrit
a(x) = f (x0 ) + hx∗ , x − x0 i.
Une fonction convexe et propre a une minorante affine et celle-ci peut être choisie
exacte en un point donné de (dom f )−
◦
, c’est ce qu’affirme la proposition suivante.
m
74 3. Fonctions convexes
No
Démonstration. Observons d’abord que (x, f (x)) est sur la frontière relative de
l’ensemble convexe fermé C := adh(epi f ). En effet, (x, f (x)) est sur la fron-
tière relative de l’épigraphe de f (un convexe non nécessairement fermé), puisque
(x, f (x)) ∈ epi f et que (x, α) ∈ (aff(epi f )) \ (epi f ) pour tout α < f (x). Donc
/ (epi f )−
(x, f (x)) ∈ ◦
. Mais ce dernier ensemble est aussi C − ◦
(point 3 de la proposi-
tion 2.15). Comme (x, f (x)) appartient à C mais pas à C − ◦
, il est sur la frontière
relative de C.
La proposition 2.28 nous assure alors qu’il existe une
normale non nulle (x∗0 , ν) à C en (x, f (x)) qui est dans
l’espace vectoriel parallèle à aff(epi f ) = aff(dom f ) × R
epi f
(point 1 de l’exercice 3.1) qui est E0 ×R, où E0 est l’espace
vectoriel parallèle à aff(dom f ). Pour tout (y, α) ∈ epi f , (x, f (x))
nom
on a donc h(y, α) − (x, f (x)), (x∗0 , ν)i 6 0 ou, si l’on munit (x∗0 , ν)
E × R du produit scalaire naturel de l’espace produit :
minorante affine
∀ (y, α) ∈ epi f : hx∗0 , y − xi + ν(α − f (x)) 6 0. de f exacte en x
Comme souvent, on a obtenu des résultats confortables en des points qui ne sont
pas sur la frontière relative des ensembles convexes considérés. Dans le cas présent, si x
est sur la frontière relative du domaine de f , le résultat de la proposition précédente
ne tient plus nécessairement. Ceci est illustré par la fonction d’une variable x ∈ R
Pre
√
1 − 1 − x2 si x ∈ [−1, 1]
f (x) =
+∞ sinon.
1
Cette fonction convexe a évidemment une minorante affine (par exemple la fonction
nulle), mais n’a pas de minorante affine exacte en x = 1 (la tangente y est verticale
et celle-ci n’est pas le graphe d’une fonction affine ; ν = 0 dans la démonstration
précédente).
m
3.2. Exemples 75
No
(ξ1 , τ1 )
(y1 , β1 ) (y2 , β2 )
(x2 , α2 ) (x5 , α5 ) (ξ4 , τ4 )
(x1 , α1 ) (ξ2 , τ2 )
(x4 , α4 ) (ξ3 , τ3 )
(x3 , α3 )
Fig. 3.3. Représentation primale (à gauche) et duale (à droite) d’une fonction polyédrique
où les xi et les yj sont donnés dans E et les αi et βj sont donnés dans R. Alors
X X X X
f (x) = inf ti αi + s j βj : ti xi + sj yj = x,
16i6p 16j6q 16i6p 16j6q
X
ti = 1, ti > 0, sj > 0 . (3.4)
16i6p
Dans la représentation duale (figure 3.3, à droite), epi f est vu comme une in-
tersection d’un nombre fini de demi-espaces de E × R, qui sont des ensembles de la
forme
{(x, α) ∈ E × R : hξi , xi + τi α 6 ti },
Pre
f = max ai + IP . (3.5)
16i6k
Cette représentation permet de voir que la somme de deux fonctions convexes polyé-
driques est une fonction convexe polyédrique (exercice 3.15).
m
76 3. Fonctions convexes
Définition 3.7 On dit qu’une fonction σ : E → R ∪ {+∞} est sous-linéaire si elle est
convexe et positivement homogène de degré 1 (c’est-à-dire : pour tout t > 0 et tout
x ∈ E, on a σ(tx) = tσ(x)). ✷
No
Un exemple de fonction sous-linéaire est l’application d 7→ f ′ (x; d), dérivée direc-
tionnelle d’une fonction convexe en un point x. Nous verrons cela plus loin.
L’appellation « sous-linéaire » vient de la propriété (iii) de la proposition ci-
dessous. Elle est semblable à la condition de convexité (3.2), mais doit avoir lieu
ici, même si t1 + t2 6= 1.
Pour que σ devienne linéaire sur un sous-espace vectoriel, il suffit que l’on ait égalité
dans cette relation pour des vecteurs engendrant ce sous-espace.
No
Pm
Démonstration. Par (3.6), les −xi ∈ dom σ. Par ailleurs si x = i=1 ti xi avec des
ti ∈ R, on a
m
X
σ(x) = σ |ti | (sgn ti ) xi
i=1
m
X
6 |ti | σ (sgn ti ) xi [sous-linéarité]
i=1
Xm
= ti σ(xi ) [(3.6)].
i=1
Donc aussi m m
X X
−σ(x) 6 σ(−x) 6 ti σ(−xi ) = − ti σ(xi ).
nom
i=1 i=1
Pm
On en déduit σ(x) = i=1 ti σ(xi ), c’est-à-dire la linéarité de σ. ✷
Soit E un espace euclidien (produit scalaire h·, ·i). La fonction d’appui d’une partie
non vide P ⊆ E est la fonction σP : E → R ∪ {+∞} définie par
No
P1 6⊆ coP2 .
3) C’est une conséquence immédiate du point 2.
4) C’est une conséquence du point 3 puisque coP = co(co P ) = coP = co(coP ).
5) On note C := coP . Si d ∈/ (C ∞ )− , il existe une direction p ∈ C ∞ telle que 2α :=
∞
hd, pi > 0. Le fait que p ∈ C implique à son tour qu’il existe des suites {xk } ⊆ C et
{tk } → ∞ telles que xk /tk → p (point 1 de la proposition 2.7). Dès lors, pour k assez
grand, on a hd, xk i > tk α, ce qui implique que σC (d) > supk hd, xk i = +∞. Comme
σC = σP (point 4), l’inclusion dom σP ⊆ (C ∞ )− est démontrée.
Si P est un polyèdre convexe, il peut s’écrire P = {x ∈ E : Ax 6 b} pour une
application linéaire A : E → Rm et b ∈ Rm . On sait qu’alors P ∞ = {p ∈ E : Ap 6 0}
(point 4 de l’exercice 2.18). Soit d ∈ (P ∞ )− . Par le lemme de Farkas (proposition 2.40),
on peut écrire d = A∗ v avec v > 0 dans Rm . Alors pour tout x ∈ P , on a hd, xi =
v T (Ax) 6 v T b (var v > 0 et Ax 6 b), ce qui montre que σP (d) 6 v T b < +∞,
c’est-à-dire que d ∈ dom σP . ✷
nom
On remarquera que l’on peut avoir dom σC 6= (C ∞ )− , si C est un convexe fermé
non vide, non polyédrique. C’est le cas si C = {x ∈ R2 : x2 > x21 }, puisqu’alors
C ∞ = R+ e2 , e1 ∈ (C ∞ )− , mais que σC (e1 ) > supk (e1 )T (k 2 , k 2 ) = supk k = ∞.
Démonstration. 1) Soit d ∈ E. On a
Pm P
m
σ(Pm αi Pi )
(d) = sup hd, i=1 αi xi i = sup i=1 αi hd, xi i .
i=1 xi ∈Pi xi ∈Pi
Ci-dessus, le supremum est pris sur chaque terme séparément, si bien que l’on peut
sortir la somme du sup, ce qui conduit au résultat.
2) On a σP (A∗ h) = sup{hA∗ h, xi : x ∈ P } = sup{hh, Axi : x ∈ P } = σA(P ) (h).
✷
m
3.3. Régularité 79
3.3 Régularité
Les fonctions convexes sont régulières sur leur domaine ; plus précisément elles
sont lipschitziennes sur tout convexe compact contenu dans l’intérieur relatif de leur
No
domaine. C’est ce que nous allons montrer à la proposition 3.13 ci-dessous. Dès
lors, les accidents ne peuvent arriver que sur la frontière (relative) du domaine. Ce
sont ces accidents-frontière qui peuvent rendre la fonction non fermée ou non sous-
différentiable. Il faudra donc à l’avenir se concentrer sur le comportement de f sur la
frontière relative de son domaine.
δ ′
y ′′ := y ′ + (y − y) ∈ B̄(x, δ)
2∆
on a
2∆ ′′ δ
y′ = y + y.
2∆ + δ 2∆ + δ
Par convexité de f et sa bornitude sur B̄(x, δ), on obtient alors
2∆ δ 2∆ 4C
f (y ′ ) 6 f (y ′′ ) + f (y) = f (y) + (f (y ′′ ) − f (y)) 6 f (y) + ky − y ′ k.
2∆+δ 2∆+δ 2∆+δ δ
On obtient le résultat en inversant le rôle de y et y ′ dans l’inégalité ci-dessus. ✷
Les voisinages U sur lesquels f est lipschitzienne sont éventuellement plus petits
que le voisinage V sur lequel elle est bornée et la constante de Lipschitz sur U pourra
Pre
être d’autant plus grande que U entoure un point proche du bord de V . C’est le cas
par exemple pour la fonction convexe définie par
− log x si x > 0
+∞ si x 6 0.
Cette fonction n’est pas lipschitzienne sur ]0, ∞[, mais l’est sur ]ε, ∞[, quel que soit
ε > 0 (le module de Lipschitz peut y être pris égal à 1/ε).
m
80 3. Fonctions convexes
No
d’intérieur non vide (dans le cas contraire, on travaille sur aff(dom f ), comme dans
la démonstration de la proposition 3.6). Soient n = dim E et K un convexe compact
non vide de (dom f )◦ .
Montrons, en utilisant le lemme 3.12, que pour tout x0 ∈ K, il existe un ε0 > 0 et
une constante L > 0 tels que B(x0 , ε0 ) ⊆ (dom f )◦ et f est lipschitzienne de module L
sur B(x0 , ε0 ). Soit x0 ∈ K. Comme dans la démonstration de la proposition 2.15, on
peut construire un simplexe
Dès lors, il existe ε′0 > 0 tel que B(x0 , ε′0 ) ⊆ ∆. AlorsPf est majorée par une cons-
tante M sur cette boule, car tout x ∈ ∆ s’écrit x = ni=0 αi zi avec (α0 , . . . , αn ) ∈
∆n+1 , si bien que, par convexité de f , on a
nom
n
X
f (x) 6 αi f (zi ) =: M.
i=0
Par ailleurs, f est aussi minorée inférieurement sur B(x0 , ε′0 ), car elle a une minorante
affine (proposition 3.6). Par le lemme 3.12, il existe un ε0 ∈ ]0, ε′0 ] tel que f est
lipschitzienne sur B(x0 , ε0 ).
En utilisant la propriété de Heine-Borel pour le compact K, on peut déter-
miner des points x1 , . . . , xp ∈ K, tels qu’avec les εi déterminés comme ci-dessus,
les boules B(x0 , εi ) recouvrent K et f est Li -lipschitzienne sur B(x0 , εi ). En prenant
L = max(L1 , . . . , Lp ), on voit que f est L-lipschitzienne sur K. En effet, un segment
[x, y] ⊆ K sera divisé par ces boules en au plus p sous-segments ([x, y] intersecte
chaque boule en un unique sous-segment) sur chacun desquels f est L-lipschitzienne ;
en ordonnant ces sous-segments de [x, y], on trouve que |f (y) − f (x)| 6 Lky − xk. ✷
3.3.2 Différentiabilité
Pre
En tout point où elle prend une valeur finie, une fonction convexe admet des
dérivées directionnelles suivant toutes directions (on se rappelle que l’on n’a pas besoin
de topologie sur E pour que cette notion de différentiabilité ait un sens). C’est ce que
l’on montre avec la proposition suivante. Dans cette affirmation, la notion de dérivée
directionnelle est prise dans un sens élargi : on accepte les valeurs −∞ ou +∞. Ceci
revient à dire que la limite dans
f (x + td) − f (x)
f ′ (x; d) = lim ,
t↓0 t
qui est normalement prise dans R pour les fonctions réelles, est prise ici dans R.
m
3.3. Régularité 81
No
f (x + td) − f (x)
t ∈ R++ 7→ ∈R
t
est croissante ;
(ii) f ′ (x; d) existe dans R (elle vaut éventuellement −∞ ou +∞) ;
(iii) f ′ (x; d) vaut +∞ si, et seulement si, x + td ∈ / dom f pour tout t > 0 ;
(iv) on a
f ′ (x; d) > −f ′ (x; −d) ; (3.7)
en particulier, si l’une des deux dérivées directionnelles f ′ (x; d) ou f ′ (x; −d)
vaut −∞ l’autre vaut +∞.
x + td x − td 1 1
f (x) = f + 6 f (x + td) + f (x − td).
2 2 2 2
On en déduit (iv) par passage à la limite lorsque t ↓ 0, après avoir retranché f (x) aux
deux membres. ✷
0
√
− x si x > 0 √
f (x) = − x (3.8)
+∞ sinon
et la direction d = 1.
No
Le point (iv) montre que l’on peut comparer f ′ (x; d) et f ′ (x; −d) lorsque la fonc-
tion f est convexe. Si f n’est pas dérivable en x, en général f ′ (x; d) 6= −f ′ (x; −d).
Par exemple, si f (x) = |x|, x ∈ R, on a f ′ (0; 1) = f ′ (0; −1) = 1.
Par ailleurs, la fonction (3.8) donne un exemple d’application de la formule (3.7)
avec des valeurs infinies : f ′ (0; 1) = −∞ implique que f ′ (0; −1) = +∞.
Pour x fixé tel que f (x) ∈ R, la proposition suivante étudie les propriétés de
l’application dérivée directionnelle
δx : d ∈ E 7→ δx (d) = f ′ (x; d) ∈ R. (3.9)
1n o
= lim (1−α) f (x+td1 ) − f (x) + α f (x+td2 ) − f (x)
t↓0 t
= (1−α)δx (d1 ) + αδx (d2 ).
Montrons à présent l’homogénéité positive de degré 1 de δx . Soient d ∈ E et α > 0.
On a
f (x + tαd) − f (x) f (x + τ d) − f (x)
δx (αd) = lim α = α lim = αδx (d).
t↓0 αt τ ↓0 τ
2) On suppose à présent que x ∈ (dom f )− ◦
(donc f est propre, voir l’exercice 3.3)
et on note E0 le sous-espace vectoriel parallèle à aff(dom f ).
m
3.3. Régularité 83
No
certainement s.c.i. sur E0 .
2.c) D’après la proposition 3.13, f est localement lipschitzienne sur (dom f )−◦
.
−
◦
Comme x ∈ (dom f ) , il existe r > 0 tel que f soit lipschitzienne sur B(x, r) ∩
aff(dom f ), disons de module L > 0, Alors pour d ∈ E0 et t > 0 assez petit, |f (x +
td) − f (x)| 6 Ltkdk. En divisant par t > 0 en passant à la limite lorsque t ↓ 0, on
trouve
∀ d ∈ E0 , |δx (d)| 6 Lkdk. (3.10)
Soient d1 et d2 ∈ E0 . Dès que t > 1, la monotonie du quotient différentiel de la fonc-
tion convexe δx (proposition 3.14) et l’homogénéité positive de cette même fonction
assurent que
δx (d1 + t(d2 − d1 )) − δx (d1 )
δx (d2 ) − δx (d1 ) 6
t
1 1
nom
= δx d1 + d2 − d1 − δx d1 .
t t
Comme δx est continue sur E0 , lorsque t → ∞, le membre de droite converge vers
δx (d2 − d1 ) qui, par (3.10), est majoré par Lkd2 − d1 k. En inversant le rôle de d1 et
d2 , on obtient |δx (d2 ) − δx (d1 )| 6 Lkd2 − d1 k. ✷
f (x + d) − f (x) − hD, di
lim = 0. (3.11)
d→0 kdk
d6=0
f (x + d) − f (x) − f ′ (x; d)
lim = 0. (3.12)
No
d→0 kdk
d6=0
Démonstration. Si (3.12) n’a pas lieu, il existe un ε > 0 et une suite de directions
non nulles {dk } convergeant vers zéro, tels que
∀k > 1 : |f (x + dk ) − f (x) − f ′ (x; dk )| > εkdk k.
En extrayant une sous-suite au besoin, on peut supposer qu’avec tk := kdk k, la suite
bornée {dk /tk } converge vers un d ∈ E. Alors
1
ε 6 |f (x + dk ) − f (x + tk d)|
tk
1
+ |f (x + tk d) − f (x) − f ′ (x; tk d)|
tk
nom
1
+ |f ′ (x; tk d) − f ′ (x; dk )|.
tk
Comme x ∈ (dom f )◦ , f est lipschitzienne dans un voisinage de x (proposition 3.13)
et f ′ (x; ·) est lipschitzienne sur E (proposition 3.15), disons de même constante L > 0.
Dès lors, les premier et troisième termes du membre de droite ci-dessus sont majorés
par Lkdk /tk −dk → 0. Quant au second terme, il tend aussi vers zéro, par la définition
et la positive homogénéité de la dérivée directionnelle. On aboutit donc bien à une
contradiction puisque ε > 0. ✷
Les résultats de cette section donnent des critères (souvent même des caractérisa-
tions, c’est-à-dire des conditions nécessaires et suffisantes) de convexité d’une fonction
au moyen de ses dérivées. Ces critères sont souvent le moyen le plus rapide de vérifier
qu’une fonction régulière est convexe.
No
Pour étudier la convexité d’une fonction on est amené à examiner ses valeurs le long
des segments [x, y], pour tout x, y ∈ E. C’est la définition qui l’impose. Chaque fois que
l’on se fixe les points x et y, on se ramène à l’étude d’une fonction réelle d’une variable
réelle. Les premières caractérisations (propositions 3.18, 3.20 et 3.23) n’utilisent que
ces fonctions « réduites » aux segments [x, y]. Au contraire, les corollaires 3.19 et 3.21
et la proposition 3.25 utilisent les valeurs de la fonction sur des voisinages. On a alors
besoin d’une topologie sur E et d’avoir une fonction f dont le domaine contienne un
ouvert. Si ce n’est pas le cas, le domaine de f est toutefois d’intérieur relatif non vide.
Lorsque l’on peut représenter ce sous-espace comme l’image d’une application linéaire
continue bijective L : E0 → aff(dom f ), il est possible d’étudier la convexité de f à
partir de celle de f ◦ L sur un ouvert de l’espace normé E0 .
f
x−y
pente = −f ′ x; kx−yk
y−x
pente = f ′ y; ky−xk
y−x
pente = f ′ x; ky−xk f (y)
f (x)
x f (x) + f ′ (x; y − x)
y
Pre
No
vantes sont équivalentes :
(i) f est convexe ;
(ii) ∀ x, y ∈ dom f , x 6= y : f est continue sur ]x, y[ et f (y) > f (x)+f ′ (x; y−x) ;
(iii) ∀ x, y ∈ dom f , x 6= y : f est continue sur ]x, y[ et f ′ (y; y −x) > f ′ (x; y −x).
Ces propriétés impliquent que
(iv) ∀ x, y ∈ dom f : f ′ (x; y − x) + f ′ (y; x − y) 6 0.
Soit t1 := inf{t̄ ∈ [0, t̂] : f ((1−t)x+ty) > (1−t)f (x)+tf (y), ∀ t ∈ ]t̄, t̂]}. Par continuité
de f sur ]x, y[, un tel t1 existe. D’autre part, soit parce que t1 = 0, soit par continuité
de f sur ]x, y[, on a avec z1 := (1−t1 )x + t1 y
Remarquons que f est continue sur [z1 , ẑ]. En effet, f étant continue sur ]x, y[ par
hypothèse, il reste à montrer la continuité de f en z1 lorsque t1 = 0. Mais si t1 = 0,
lim inf t↓0 f ((1−t)x + ty) > f (x). Or lim supt→0+ f ((1−t)x + ty) ne peut être > f (x)
sinon f ′ (x; y − x), qui est supposé exister, vaudrait +∞, ce qui contredirait l’inégalité
m
3.3. Régularité 87
de (ii) (f (x) et f (y) sont finis). Donc f est continue sur [z1 , ẑ] et on peut appliquer
la version généralisée du théorème de Rolle (corollaire C.11) : il existe t2 ∈ ]t1 , t̂[ tel
que z2 := (1−t2 )x + t2 y vérifie
′ y − z2 f (ẑ) − f (z1 )
f z2 ; > .
ky − z2 k kẑ − z1 k
No
On peut alors conclure comme suit :
On peut trouver t̂1 ∈ [0, t̂] tel que ẑ1 := (1−t̂1 )x + t̂1 y vérifie
et tel que f soit continue sur [ẑ1 , ẑ]. On peut s’y prendre, par exemple, comme dans
la détermination de t1 dans la démonstration de l’implication (ii) ⇒ (i) ; ici, si t̂1 =
0, on ne peut pas avoir lim supt↓0 f ((1−t)x + ty) > f (x) car cela impliquerait que
f ′ (x; y − x) = +∞, ce qui est en contradiction avec l’hypothèse de monotonie des
dérivées directionnelles et le fait qu’il y a des points z entre x et y où f ′ (z; y − x) est
finie. Pour les mêmes raisons, on peut trouver t̂2 ∈ [t̂, 1] tel que ẑ2 := (1−t̂2 )x + t̂2 y
vérifie
m
88 3. Fonctions convexes
No
f (ẑ) − f (ẑ1 ) f (ẑ2 ) − f (ẑ)
f ′ (z1 ; y − x) > et f ′ (z2 ; y − x) 6 .
t̂ − t̂1 t̂2 − t̂
On en déduit que f ′ (z2 ; y−x) < f (y)−f (x) < f ′ (z1 ; y−x), ce qui contredit l’hypothèse
de monotonie des dérivées directionnelles dans (iii). ✷
Sans la continuité de f sur les segments ]x, y[, l’inégalité de (ii) peut très bien être
vérifiée par une fonction non convexe. En voici un exemple sur R : f (x) = 0, si x 6= 0,
et f (0) = 1 (on a f ′ (x; ±1) = 0, si x 6= 0, et f ′ (0; ±1) = −∞).
La démonstration de la proposition précédente est longue parce que nous avons
fait des hypothèses minimales sur la régularité de f . Si l’on suppose que le domaine
de f est un ouvert convexe d’un espace normé E et que f est dérivable sur cet ouvert,
on a un résultat plus simple à mémoriser et à démontrer. Nous le donnons sous forme
de corollaire.
nom
Corollaire 3.19 Soient E un espace normé, Ω un ouvert convexe de E et f :
Ω → R une fonction dérivable. Alors, les propriétés suivantes sont équivalentes :
(i) f est convexe sur Ω ;
(ii) ∀ x, y ∈ Ω : f (y) > f (x) + f ′ (x) · (y − x) ;
(iii) ∀ x, y ∈ Ω : (f ′ (y) − f ′ (x)) · (y − x) > 0.
Convexité stricte
l’inégalité stricte que l’on a pour les fonctions strictement convexes. On s’y prend
alors comme suit. Pour t ∈ ]0, 1], on a
1 ′ 1
f ′ (x; y − x) = f (x; t(y − x)) 6 f (x + t(y − x)) − f (x) < f (y) − f (x),
t t
No
où pour la première inégalité on a utilisé la proposition 3.18 (ii) et pour la seconde
on a utilisé la stricte convexité de f .
[(ii) ⇒ (iii)] Si (iii) n’a pas lieu, il existe x, y ∈ dom f , x 6= y, tels que f ′ (y; y −
x) 6 f ′ (x; y − x). Par la proposition 3.18, on a f ′ (z; y − x) = f ′ (x; y − x) pour tout
z ∈ [x, y] et cette valeur est finie. On en déduit (par exemple par le corollaire C.10,
en y prenant ϕ(t) = ±(f ((1−t)x + ty) − tf ′ (x; y − x)) pour t ∈ [0, 1]) que f (y) =
f (x) + f ′ (x; y − x), ce qui contredit (ii).
[(iii) ⇒ (i)] Si f n’est pas strictement convexe, il existe x, y ∈ dom f , x 6= y, et
t̂ ∈ ]0, 1[ tels que ẑ := (1−t̂)x + t̂y vérifie
Comme f est convexe (proposition 3.18) ceci ne peut avoir lieu que si f est affine
entre x et y. Mais alors, la stricte monotonie des dérivées directionnelles dans (iii) ne
serait pas vérifiée. ✷
nom
Énonçons également sous forme de corollaire, le résultat que donne la proposi-
tion 3.20 lorsque f est dérivable.
(iii) pour tout β > 0, il existe une fonction gβ : [0, 2β] → R+ continue, stricte-
ment croissante, vérifiant gβ (0) = 0 et
No
Démonstration. [(i) ⇒ (iii)] Soit β > 0. Au vu de la propriété désirée (3.14), il est
naturel d’introduire la fonction gβ0 : [0, 2β] → R+ définie en α ∈ [0, 2β] par
gβ0 (α) := inf f ′ (y) − f ′ (x) · (y − x).
ky−xk=α
x,y∈β B̄
Cette fonction a toutes les propriétés requises par le point (ii), hormis la continuité.
Montrons cela.
1. gβ0 (0) = 0, clairement.
2. gβ0 > 0 sur ]0, 2β], grâce à la stricte convexité de f et au point (iii) de la propo-
sition 3.20.
nom
3. gβ0 est strictement croissante sur [0, 2β]. En effet, soient 0 < α1 < α2 6 2β.
Remarquons d’abord que l’infimum dans la définition de gβ0 est atteint, car
{(x, y) ∈ β B̄ × β B̄ : ky − xk = α} est compact (E est de dimension finie)
et (x, y) 7→ (f ′ (y) − f ′ (x)) · (y − x) est continue (f est continûment différen-
tiable), puis on utilise alors le théorème de Weierstrass. Il existe donc des points
(x2 , y2 ) ∈ β B̄ × β B̄ tels que ky2 − x2 k = α2 et
gβ0 (α2 ) = f ′ (y2 ) − f ′ (x2 ) · (y2 − x2 ).
No
0
Mais x + s(y − x) ∈ β B̄ (convexité de β B̄) et (3.14) a lieu avec gβ = gβ0 , si bien que
1
f ′ (x + s(y − x)) − f ′ (x) · (y − x) > gβ0 (sky − xk).
s
qui, avec l’identité précédente donne
Z 1
′ 1 0
f (y) − f (x) > f (x) · (y − x) + g (sky − xk) ds.
0 s β
Par ailleurs, il est clair que gβ est continue, strictement croissante et vérifie gβ (0) = 0.
[(iii) ⇒ (ii)] Il s’agit de montrer que (3.14) implique (3.13). Comme ci-dessus, en
intégrant la dérivée de s 7→ f (x + s(y − x)), on obtient
Z 1
f (y) − f (x) = f ′ (x + s(y − x)) · (y − x) ds
0
Z 1
1
> f ′ (x) · (y − x) + gβ (sky − xk) ds [(3.14)]
0 s
Z 1
1
> f ′ (x) · (y − x) + gβ (sky − xk) ds [gβ > 0]
t s
> f ′ (x) · (y − x) + (1 − t) gβ (tky − xk),
Pre
car pour s ∈ [t, 1], gβ (sky − xk) > gβ (tky − xk) (croissance de gβ ) et s 6 1, si bien
que gβ (sky − xk)/s > gβ (tky − xk).
[(ii) ⇒ (i)] Soient x et y deux points distincts de E. On prend β := ky − xk,
qui est strictement positif. Par (3.13) avec t = 21 , on a f (y) − f (x) > f ′ (x) · (y −
x) + 21 gβ ( 21 ky − xk) > f ′ (x) · (y − x), car gβ ( 12 ky − xk) > 0. Donc f est strictement
convexe. ✷
m
92 3. Fonctions convexes
Convexité forte
No
Proposition 3.23 (forte convexité et dérivées premières) Soient E un
espace vectoriel euclidien (produit scalaire h·, ·i et norme associée k · k), α > 0
et f : E → R ∪ {+∞} une fonction non identiquement égale à +∞, ayant un
domaine convexe et admettant des dérivées directionnelles en tout point de son
domaine (celles-ci pouvant valoir −∞ ou +∞). Alors, les propriétés suivantes
sont équivalentes :
(i) f est fortement convexe de module α ;
(ii) pour tout x, y ∈ dom f , x 6= y : f est continue sur ]x, y[ et
f (y) > f (x) + f ′ (x; y − x) + α2 ky − xk2 ;
(iii) pour tout x, y ∈ dom f , x 6= y : f est continue sur ]x, y[ et
f ′ (y; y − x) > f ′ (x; y − x) + αky − xk2 .
D’autre part, si
No
2
où θ ∈ ]0, 1[. Comme le dernier terme est positif ou nul, on voit par la proposition
3.18 que f est convexe. Le cas où (3.16) a lieu se démontre de la même manière. ✷
Remarquons que la condition (3.16) n’est pas nécessairement vérifiée pour une
fonction strictement convexe comme le montre la fonction x ∈ R 7→ f (x) = x4 .
Bien que celle-ci soit strictement convexe, on a f ′′ (0) = 0. Par contre, pour une
fonction quadratique, (3.16) est une condition nécessaire et suffisante de convexité
stricte (point 2 de l’exercice 3.8).
Lorsque E est un espace de Hilbert, on peut traduire le résultat de la propo-
sition 3.25 en utilisant la hessienne de f : (i) f est convexe si, et seulement si, sa
hessienne ∇2 f (x) est semi-définie positive et (ii) si ∇2 f (x) est défini positif, alors f
est strictement convexe.
nom
3.3.4 Fonction asymptotique
L’épigraphe d’une fonction f ∈ Conv(E) est un convexe fermé non vide. On peut
donc considérer son cône asymptotique (epi f )∞ . Celui-ci a des propriétés intéres-
santes.
f (x + td) − f (x)
f ∞ (d) = lim , (3.17)
t→+∞ t
(iii) dom f ∞ ⊆ (dom f )∞ ,
(iv) f ∞ ∈ Conv(E) et est sous-linéaire.
Pre
f (x + td) − f (x)
δ0 = sup .
t>0 t
On en déduit que f (x + td) 6 f (x) + tδ0 , ∀ t > 0, et donc (d, δ0 ) ∈ (epi f )∞ (par
No
(3.18)).
[(ii)] Soit f ∞ la fonction dont (epi f )∞ est l’épigraphe. On a f ∞ (d) = δ0 , ou
encore (3.17), car le quotient ci-dessus est croissant avec t (de fait de la convexité
de f ).
[(iii)] D’après (3.18), si d ∈ dom f ∞ , (d, f ∞ (d)) ∈ (epi f )∞ et f (x + td) 6 α +
tf (d), qui est fini quel que soit t > 0. Donc d ∈ (dom f )∞ .
∞
[(iv)] D’une part, f ∞ est convexe fermée et non identiquement égale à +∞, parce
que son épigraphe est le convexe fermé non vide (epi f )∞ . D’autre part, f ∞ ne prend
pas la valeur −∞ car sa valeur est obtenue comme limite d’une suite croissante (voir
(3.17)). Enfin f est sous-linéaire, car son épigraphe est un cône convexe (proposi-
tion 3.8). ✷
f (x + td)
f ∞ (d) = lim , (3.19)
t→+∞ t
avec un quotient f (x + td)/t qui, contrairement au quotient différentiel dans
(3.17), n’est pas nécessairement monotone en t.
L’utilisation de la formule (3.19) est souvent le moyen le plus rapide de calculer
la valeur de la fonction asymptotique en une direction d. Insistons sur le fait que
la limite dans (3.19) ne dépend pas du point x choisi dans le domaine de f .
La formule (3.19) montre que si la fonction t 7→ f (x + td) a une asymptote à
Pre
f3
f1
f2
No
f3∞
f1∞
f2∞
Fig. 3.5. Exemples de fonctions convexes (en haut) et de leur fonction asymptotique (en
bas) ; de gauche à droite : f1 (x) = (x2 + 10)1/2 , f2 (x) = − log x et f3 (x) = x + ex
Donc si d ∈ (Nν (f ))∞ , f ∞ (d) 6 0 par passage à la limite ci-dessus (après avoir divisé
par t > 0). Inversement, si f ∞ (d) 6 0, f (x + td) 6 f (x), pour tout t > 0 (le quotient
dans (3.17) est croissant et borné par 0). Alors x ∈ Nν (f ) implique que x+td ∈ Nν (f ),
pour tout t > 0 ; donc d ∈ (Nν (f ))∞ .
L’équivalence des propriétés (i)-(iv) se déduit facilement de (3.20). ✷
No
En pratique, pour montrer que f a un ensemble non vide et borné de minimiseurs
(point (iii)), on utilise le point (iv) : quelle que soit la direction non nulle d, f ∞ (d) > 0.
Comme souvent en analyse convexe, on obtient une propriété globale (la bornitude
de l’ensemble des minimiseurs) à partir de propriétés unidirectionnelles (la stricte
positivité de la fonction asymptotique dans toutes les directions non nulles).
Dans le reste de cette section, nous énonçons quelques règles de calcul de fonctions
asymptotiques. La démonstration de la première règle est proposée à l’exercice 3.5.
No
δ↓f (d)
Pour montrer l’inégalité inverse, on prend x ∈ dom f tel que f (x) ∈ dom g. Alors,
quel que soit t > 0, f (x + td) 6 f (x) + tf ∞ (d) et comme g est croissante :
3.4 Opérations
J’ai seul la clef de cette parade sauvage.
nom
A. Rimbaud, Parade, Illuminations (1873-1875).
3.4.1 Composition
Alors, (x, α) ∈ epi(g ◦ a) si, et seulement si, (a(x), α) ∈ epi g, ce qui s’écrit
m
98 3. Fonctions convexes
Si g ∈ Conv(F), epi g est fermé, donc aussi ã−1 (epi g) = epi(g ◦ a), ce qui montre que
g ◦ a ∈ Conv(E).
3) Si g est convexe polyédrique, epi g est un polyèdre convexe, donc aussi ã−1 (epi g) =
epi(g ◦ a) (exercice 2.18), ce qui montre que g ◦ a est convexe polyédrique. ✷
No
Le second cas où la convexité est préservée par composition se situe dans le cadre
suivant. Soient E un espace vectoriel, F : E → (R ∪ {+∞})m une première fonction et
g : Rm → R une seconde fonction. Avec F pouvant prendre la valeur +∞, la fonction
composée (g ◦ F ) : E → R est définie en x ∈ E par
g(F (x)) si F (x) ∈ Rm
(g ◦ F )(x) =
+∞ sinon.
Ensuite
(g ◦ F ) (1 − t)x + ty 6 g (1 − t)F (x) + tF (y) [croissance de g]
6 (1 − t)(g ◦ F )(x) + t(g ◦ F )(y) [convexité de g].
f = sup fi : E → R,
i∈I
No
inf fi : E → R : x 7→ inf fi (x) := inf fi (x) .
i∈I i∈I i∈I
Proposition 3.33 Soit {fi }i∈I une famille quelconque de fonctions. Alors
\
epi sup fi = (epi fi ) .
i∈I i∈I
nom
On en déduit que :
1) supi∈I fi est convexe si E est un espace vectoriel et les fi sont convexes,
2) supi∈I fi est fermée si E est un espace topologique et les fi sont fermées.
x ∈ R par
fi (x) = −eix .
L’enveloppe supérieure de ces fonctions continues est nulle sur R∗− et vaut −1 sur R+ ;
elle n’est donc pas continue. Bien sûr, une fonction continue étant s.c.i., l’enveloppe
supérieure de fonctions continues est s.c.i.. Dans l’exemple ci-dessus, la valeur de
l’enveloppe supérieure en zéro est −1, pas zéro ou tout autre valeur > −1.
Le fait que l’enveloppe supérieure de fonctions convexes soit convexe se montre
aussi aisément en utilisant l’inégalité de convexité (3.2), grâce au fait que l’enveloppe
m
100 3. Fonctions convexes
supérieure d’une somme est inférieure à la somme des enveloppes supérieures. Seule
la convexité des fonctions x 7→ fi (x), à i ∈ I fixé, joue dans l’obtention de ce résultat
(il n’y a d’ailleurs pas de structure sur l’ensemble I). La situation est bien différente
pour l’enveloppe inférieure, qui ne bénéficie pas des deux propriétés numérotées de la
proposition précédente. On peut toutefois avoir la convexité de l’enveloppe inférieure
si l’on a une structure vectorielle sur I et si (x, i) ∈ E × I 7→ fi (x) est convexe. Cela
No
conduit à la notion de fonction marginale de la section suivante.
3.4.4 Inf-convolution
(f ⊎ g)(x) = inf f (y) + g(x−y) = inf{f (y) + g(z) : y + z = x}. (3.24)
y∈E
Voilà une opération bien singulière ! Observons d’abord qu’il s’agit de la fonction
marginale associée à la fonction définie sur E2 par ϕ(x, y) = f (y) + g(x−y), si bien
1
La notation f ⊎ g nous est propre, mais les autres notations ne sont guère stabilisées : on
trouve f ✷ g chez Rockafellar [535], f +
∨ g chez Hiriart-Urruty et Lemaréchal [332] et f ⊙ g
chez Borwein et Lewis [81]. Avec un peu de bonne volonté, le lecteur verra dans le symbole
⊎ le fait que l’épigraphe (symbole ∪) stricte de f ⊎ g est obtenu en sommant (symbole +)
ceux de f et g (proposition 3.35).
m
3.4. Opérations 101
qu’elle hérite des propriétés des fonctions marginales. D’autre part, si la définition
de l’inf-convolution donnée ci-dessus peut paraître obscure, son expression en termes
d’épigraphe est particulièrement simple (la démonstration de la proposition ci-dessous
est proposée à l’exercice 3.6).
No
Proposition 3.35 Soient f et g deux fonctions E → R ∪ {+∞}. Alors
En particulier :
1) dom(f ⊎ g) = dom f + dom g,
2) commutativité : f ⊎ g = g ⊎ f ,
3) associativité : (f ⊎ g) ⊎ h = f ⊎ (g ⊎ h),
4) f ⊎ g est convexe si f et g sont convexes,
5) f ⊎ g ∈ Conv(E) si f et g ∈ Conv(E) et ont une minorante affine commune.
L’identité (3.25) portant sur les épigraphes strictes n’a pas lieu si l’on utilise les
épigraphes, bien que l’on ait toujours
nom
epi(f ⊎ g) ⊇ epi f + epi g.
Le problème vient du fait que la somme de deux fermés n’est pas nécessairement
un fermé, si bien que epi f + epi g n’est pas nécessairement un épigraphe ; il peut ne
pas contenir sa « frontière inférieure », comme dans l’exemple suivant : si f = I[0,1[ et
g = Id+I[0,+∞[ , alors (x, α) ∈ epi f +epi g si, et seulement si, x > 0, α > 0 et α > x−1,
si bien que epi f + epi g n’est pas l’épigraphe d’une fonction. Cependant, en prenant
α := f (y) + g(z) dans la définition (3.24) de f ⊎ g, on a (x, α) = (y, f (y)) + (z.g(z)),
si bien que
(f ⊎ g)(x) = inf{α : (x, α) ∈ epi f + epi g}. (3.26)
L’inf-convolution d’une fonction f (éventuellement
non convexe) avec la fonction quadratique q = 12 k · k2
a un effet régularisant sur certains points de non-diffé- r=2
r=1
r = 0.1
3
f : x ∈ R 7→ |x + 1| − x+ + (x − 1)+ ∈ R,
Pre
2
qui y est représentée par la courbe en trait plein. Les courbes en tirets sont les inf-
convolutions r r
x 7→ f ⊎ q (x) = inf f (y) + ky − xk2
2 y∈R 2
pour les valeurs de r = 0.1, r = 0.2, r = 0.5, r = 1 et r = 2. On voit en prenant
y = x dans l’infimum ci-dessus, que (f ⊎ 2r q)(x) ∈ [inf f, f (x)], lorsque r > 0 ; on
verra aussi au point 3 de la proposition 13.2 que (f ⊎ r2 q)(x) croît avec r > 0 ; ces
propriétés peuvent s’observer dans la figure. Cet effet régularisant sera examiné dans
le cas d’une fonction convexe f à la section 3.7.2.
m
102 3. Fonctions convexes
No
Il s’agit donc de la valeur minimale de f sur les sous-espaces affines {x ∈ E : Ax = y}
paramétrés par y. On appellera aussi cette fonction la fonction valeur associée au
problème d’optimisation inf{f (x) : Ax = b}, où b est donné dans F. C’est un des
intérêts de cette opération.
En fait, la fonction marginale et l’inf-convolution peuvent être vues comme des
l’inf-images :
la fonction marginale de ϕ : E × F → R n’est autre que ϕ ⊻ A, où A est la
projection de E × F sur E,
si f1 et f2 : E → R, alors
f1 ⊎ f2 = f ⊻ A, (3.28)
avec f : E × E → R : et A : E × E → E définies par
nom
f (x1 , x2 ) = f1 (x1 ) + f2 (x2 ) et A(x1 , x2 ) = x1 + x2 . (3.29)
f (x) < α, ce qui revient à dire que (f ⊻ A)(y) < α ou encore que (y, α) ∈ epis (f ⊻ A).
Alors la convexité de epis f entraîne celle de epis (f ⊻ A) et donc la convexité de
f ⊻ A. ✷
2
L’appellation « inf-image de f sous A » et la notation f ⊻ A nous sont propres. Rockafel-
lar [535] et Hiriart-Urruty et Lemaréchal [332] appellent simplement cette fonction l’image
de f sous A, donc sans faire mention de l’opération de minimalité qui intervient dans la
définition, ce qui nous a paru dommage. D’autre part, leur notation « Af » nous semble
être trop proche d’une composition (chez Rockafellar [535], « f A » est la composition f ◦A,
alors que « Af » désigne l’inf-image de f sous A). La singularité de cette opération nous
a semblé mériter une notation particulière suggérant l’opération de minimalité (symbole
∨) sur des sous-espaces affines (symbole ).
m
3.4. Opérations 103
No
Démonstration. On utilise l’application linéaire B : E × R → F × R de la démon-
stration de la proposition 3.36, définie par B(x, α) = (Ax, α). Montrons que
En effet,
(y, α) ∈ B(epi f )
⇐⇒ il existe un x ∈ E tel que y = Ax et f (x) 6 α,
⇐⇒ (f ⊻ A)(y) 6 α,
⇒ clair,
⇐ le problème inf{f (x) : Ax = y} définissant (f ⊻ A)(y) s’écrit aussi
inf{t : Ax = y, f (x) 6 t} ; ce dernier consiste à minimiser une fonc-
nom
tion linéaire sur un polyèdre convexe non vide (polyédricité de f et
(f ⊻ A)(y) < +∞) ; soit il est non borné, soit il a une solution (propo-
sition 2.19) ; dans chaque cas l’implication est claire ; le même raison-
nement montre que l’infimum dans la définition de l’inf-image est atteint
lorsqu’il est fini,
⇐⇒ (y, α) ∈ epi(f ⊻ A).
La polyédricité de f ⊻ A résulte maintenant du fait que epi f est convexe polyédrique,
donc aussi B(epi f ) = epi(f ⊻ A) (proposition 2.17). ✷
f
1 − x2 si −1 < x < 1
f (x) =
+∞ sinon,
co epi f
0
co epi f = {(x, α) ∈ R2 : −1 < x < 1, α > 0}, auquel il manque le segment du fond
]0, 1[ × {0} pour que ce soit un épigraphe. On s’y prend alors comme suit.
m
104 3. Fonctions convexes
Des conditions pour qu’il s’agisse de la plus grande minorante convexe de f sont
données dans le résultat qui suit.
No
Proposition 3.38
Démonstration. ✷
3.4.7 Adhérence
No
est s.c.i. en x, f (x) 6 lim inf y→x f (y) = f¯(x) [par (3.30)] 6 f (x) [car f¯ 6 f ], donc
f (x) = f¯(x). ✷
On a nécessairement τ 6 0 (on peut prendre α aussi grand que l’on veut dans
l’inégalité ci-dessus). Si τ < 0, H − (ξ, τ, t) est l’épigraphe de la minorante affine de f
suivante x 7→ h−ξ/τ, xi + t/τ (prendre α = f (x) ci-dessus).
Que faire des demi-espaces fermés de la forme H − (ξ, 0, t) ? Par hypothèse, f ∈
Conv(E) ; elle a donc une minorante affine (proposition 3.6), dont l’épigraphe est un
certain H − (ξ0 , τ0 , t0 ), avec τ0 < 0. Si l’on établit que
\
Pre
on aura terminé la démonstration, puisque l’on aura exprimé l’intersection des demi-
espaces fermés contenant epi f comme l’intersection des epi ai . Cette identité résulte
en fait de l’équivalence triviale
hξ, xi 6 t et hξ0 , xi + τ0 α 6 t0
⇐⇒ ∀ρ > 0 : hξ0 + ρξ, xi + τ0 α 6 t0 + ρt. ✷
m
106 3. Fonctions convexes
3.5 Conjugaison
Soit f : E → R une fonction, non nécessairement convexe. Nous allons dans cette
section lui associer une autre fonction f ∗ : E → R, appelée conjuguée de Fenchel
de f . Elle est construite explicitement à partir de f . Cette construction peut paraître
abstraite et arbitraire au premier abord, mais elle est utile à plus d’un titre :
No
nous verrons à la section 3.5.2 qu’en réitérant le processus de conjugaison, on
dispose d’un moyen analytique de convexifier f ,
la conjuguée de Fenchel peut aussi être utilisée comme outil intermédiaire dans
le calcul de sous-gradient, un concept généralisant la notion de gradient pour les
fonctions convexes non différentiables, que nous verrons à la section 3.6,
enfin la conjuguée de Fenchel permet aussi d’introduire un problème d’optimisa-
tion dual d’un autre problème d’optimisation (section 14.2).
On supposera dans cette section que E est un espace euclidien, dont le produit scalaire
est noté h·, ·i.
3.5.1 Conjuguée
nom
Comme nous le signalions ci-dessus, la notion de fonction conjuguée intervient dans
la définition du sous-différentiel d’une fonction convexe f et c’est par cette notion de
sous-différentiel que nous allons motiver l’introduction de la fonction conjuguée.
On verra que le sous-différentiel ∂f (x) de f en x est l’ensemble des pentes x∗ des
minorantes affines de f exactes en x. Il définit une multifonction
∂f : x ∈ E 7→ ∂f (x) ⊆ E.
Il n’est pas toujours aisé d’expliciter cette application car, pour x ∈ E, il n’est pas
nécessairement simple de déterminer toutes les minorantes affines de f exactes en x.
Que l’on songe par exemple à la fonction valeur-propre-maximale λmax qui à une
matrice A ∈ S n fait correspondre sa valeur propre maximale λmax (A). Cette fonction
est convexe (exercice 3.32), mais quelles sont les minorantes affines de λmax qui sont
exactes en une matrice A ∈ S n donnée ? Il est parfois plus facile de déterminer la
multifonction réciproque de ∂f , à savoir
∂f −1 : x∗ ∈ E 7→ {x ∈ E : x∗ ∈ ∂f (x)}.
Pre
où α ∈ R est l’opposé de sa valeur en zéro. Pour que cette fonction affine minore f et
soit exacte en certains points, on cherche à prendre α le plus petit possible (donc −α
le plus grand possible) tout en conservant l’inégalité de minoration ax∗ ,α 6 f . Les
m
3.5. Conjugaison 107
R
f
minorante affine maximale
de pente x∗ , exacte en x
No
−f ∗ (x∗ ) pente x∗
0 x E
points où f et cette minorante affine maximale ax∗ ,α prennent les mêmes valeurs
sont les points x ∈ ∂f −1 (x∗ ) recherchés. La démarche est illustrée à la figure 3.6. De
manière plus explicite, on cherche le plus petit α ∈ R tel que
ax∗ ,α 6 f ou ∀ x ∈ E : hx∗ , xi − α 6 f (x) (3.31)
nom
ou ∀ x ∈ E : hx∗ , xi − f (x) 6 α .
ou encore (on vérifiera l’équivalence même lorsque f peut prendre des valeurs infinies)
ce qui montre que y 7→ f (x) + hx∗ , y − xi est une minorante affine de f , exacte
en x. Dès lors, les sous-différentiels de f aux points-solutions du problème en (3.32)
contiennent x∗ .
L’expression (3.32) de la conjuguée et (3.31) montrent que l’on a une relation très
simple entre les minorantes affines de f et les éléments de l’épigraphe de f ∗ :
Comme une fonction est entièrement spécifiée par son épigraphe, on peut dire que la
conjuguée f ∗ de f est la fonction qui décrit toutes les minorantes affines de f .
La convexité de f ∗ mise en évidence par la proposition ci-dessous est remarquable ;
on se rappelle en effet que f n’est, elle, pas nécessairement convexe. On note f 6≡ −∞
(resp. f 6≡ +∞) pour signifier que f n’est pas identiquement égale à −∞ (resp. +∞)
et on note f > −∞ (resp. f < +∞) pour exprimer le fait que f ne prend pas la
No
valeur −∞ (resp. +∞).
minorante affine de f .
[(3.38)] Par (3.36) et (3.37), f est propre et a une minorante affine si, et seulement
si, f ∗ est propre. Enfin, il revient au même de dire que f ∗ est propre et que f ∗ ∈
Conv(E), parce que f ∗ est toujours convexe et fermée. ✷
3.5.2 Biconjuguée
No
✷
ble Conv(E).
No
= sup hx∗ , xi − f ∗ (x∗ )
x∗ ∈E
= f ∗∗ (x).
f ∗∗ 6 f.
No
f ∗∗
0 E
Fig. 3.7. Fonction biconjuguée f ∗∗ (en trait plein) de la fonction f de la figure 3.6 (en tirets)
x∈E
Ax=y
No
Démonstration. Pour y ∗ ∈ F, on trouve
Supposons à présent que f est propre et a une minorante affine et que R(A∗ ) ∩
dom f ∗ 6= ∅. Alors, clairement, f ⊻A 6≡ +∞ (elle prend une valeur finie sur A(dom f ),
qui n’est pas vide). D’autre part, par hypothèse, il existe un x∗0 := A∗ y0∗ ∈ dom f ∗ .
Alors l’inégalité +∞ > f ∗ (x∗0 ) > hx∗0 , xi − f (x) valable pour tout x ∈ E conduit à
(f ⊻ A)(yk ) 6 αk , yk → y et αk → α.
Il suffit de montrer que (f ⊻ A)(y) 6 α. D’après la définition de f ⊻ A, on peut trouver
une suite {εk } ↓ 0 et une suite {xk } ⊆ E telles que
f (xk ) 6 αk + εk , Axk = yk , yk → y et αk → α.
No
Il s’agit de passer à la limite dans ces relations.
La suite {xk } n’étant pas nécessairement bornée, on cherche à construire une
autre suite {x̄k } ⊆ E, bornée elle, qui laisse inchangés f et A. Si l’on se donne
x∗1 ∈ R(A∗ ) ∩ dom f ∗ , qui est non vide par hypothèse, il revient au même d’imposer
f (x̄k ) − hx∗1 , x̄k i = f (xk ) − hx∗1 , xk i et Ax̄k = Axk ,
puisqu’alors f (x̄k ) = f (xk ) (en effet x∗1 ∈ R(A∗ ) et Ax̄k = Axk impliquent que
hx∗1 , x̄k i = hx∗1 , xk i). Remarquons que f (·) − hx∗1 , ·i = f ∗∗ (·) − hx∗1 , ·i n’est autre
que la conjuguée ϕ∗ de la fonction ϕ ∈ Conv(E) définie par ϕ(x∗ ) := f ∗ (x∗ + x∗1 ).
Comme 0 ∈ dom ϕ, E0 := aff dom ϕ est un sous-espace vectoriel. Soit x̄k la projection
orthogonale de xk sur E0 − R(A∗ ). D’une part, xk − x̄k ∈ R(A∗ )⊥ = N (A), si bien
que A(xk ) = A(x̄k ). D’autre part, xk − x̄k ∈ E⊥ 0 , si bien que
No
que la condition minimale R(A) ∩ dom g 6= ∅ assurant la propreté de g ◦ A.
(g ◦ A)∗∗ = g ∗∗ ◦ A.
B : E × R → F × R : (x, α) 7→ (Ax, α)
nom
qui permet d’écrire epi(h ◦ A) = B −1 (epi h), quelle que soit la fonction h : F → R.
D’après (3.3) et grâce à la condition de propreté renforcée R(A) ∩ (dom g)− ◦
6= ∅ :
B −1 ((epi g)−
◦
) = B −1 {(y, α) : y ∈ (dom g)− ◦
, g(y) < α}
= {(x, α) : Ax ∈ (dom g)−
◦
, g(Ax) < α}
6 = ∅.
Ensuite
(g ◦ A)∗ = g ∗ ⊻ A∗ . (3.43)
De plus, l’infimum dans la définition de (g ∗ ⊻ A∗ )(x∗ ) est atteint s’il est fini.
No
3) Si g ∈ Conv(F) et si R(A) ∩ (dom g)− ◦
6= ∅, alors g ◦ A ∈ Conv(E) et (3.43)
a lieu. De plus, l’infimum dans la définition de (g ∗ ⊻ A∗ )(x∗ ) est atteint s’il
est fini.
(g ∗∗ ◦ A)∗ = (g ∗ ⊻ A∗ )∗∗ .
Inf-convolution
Une inf-convolution peut se voir comme une inf-image sous une application linéaire,
voir (3.28)–(3.29). En appliquant la proposition 3.49 à cette inf-image, on obtient le
résultat suivant.
Pre
Exiger la propreté de f revient à demander celle des fi . D’autre part, f a une mino-
No
rante affine si, et seulement si, les fi ont une minorante affine. On peut alors calculer
f ∗ et A∗ (la somme des fi∗ (x∗i ) ci-dessous peut valoir +∞, mais on est sûr de ne pas
additionner +∞ et −∞) :
Somme
nom
Proposition 3.54 (conjuguée d’une somme) Soient f1 , . . . , fp : E → R ∪
{+∞} des fonctions.
1) Si les fi ∈ Conv(E) et ∩i dom fi 6= ∅, alors f1 + · · · + fp ∈ Conv(E),
f1∗ ⊎ · · · ⊎ fp∗ ∈ Conv(E) et
De plus, l’infimum dans la définition de (f1∗ ⊎· · ·⊎fp∗ )(x∗ ) est atteint lorsqu’il
est fini.
fonctions fi∗ vérifient bien les hypothèses demandées sur les fi dans la proposition 3.53.
On en déduit que f1∗ ⊎ · · · ⊎ fp∗ est propre avec une minorante affine et que (f1∗ ⊎
· · · ⊎ fp∗ )∗ = f1 + · · · + fp . Donc f1 + · · · + fp ∈ Conv(E) (proposition 3.43) et
f1∗ ⊎ · · · ⊎ fp∗ ∈ Conv(E) (f1∗ ⊎ · · · ⊎ fp∗ est aussi convexe par la proposition 3.35). En
prenant la conjuguée de la dernière identité, on obtient (3.44).
2a) Si toutes les fonctions fi sont convexes polyédriques et que l’on a seulement
∩i dom fi 6= ∅, le point 1 et l’exercice 3.15 donnent le résultat énoncé au point 2.
En effet, dans ce cas, les fi ∈ Conv(E) comme fonctions convexes polyédriques, les
fi∗ ∈ Conv(E) comme conjuguées de fonctions convexes polyédriques et f1∗ ⊎ · · · ⊎ fp∗ ∈
Conv(E) comme inf-convolution de fonctions convexes polyédriques. De plus l’infimum
dans la définition de (f1∗ ⊎ · · · ⊎ fp∗ )(x∗ ) est atteint lorsqu’il est fini.
m
3.5. Conjugaison 117
No
Il faut vérifier que R(A) ∩ (dom g)−◦
6= ∅. On a R(A) = {(x, . . . , x) : x ∈ E} et
(dom g) = (dom f1 ×· · ·×dom fp ) = (dom f1 )−
−◦ −
◦ ◦
×· · ·×(dom fp )−◦
(proposition 2.16),
si bien que R(A) ∩ (dom g) = {(x, . . . , x) : x ∈ (dom f1 ) ∩ · · · ∩ (dom fp )−
−
◦ −
◦ ◦
}, qui est
non vide par hypothèse. Dès lors f1 + · · · + fp ∈ Conv(E) et
(f1 + · · · + fp )∗ (x∗ ) = (g ◦ A)∗ (x∗ ) = (g ∗ ⊻ A∗ )(x∗ ) = inf g ∗ (x∗1 , . . . , x∗p ).
x∗ ∗
1 ,...,xp ∈E
A∗ (x∗
1 ,...,x ∗ )=x∗
p
De plus, l’infimum ci-dessus est atteint lorsqu’il est fini. On vérifie aisément que
g ∗ (x∗1 , . . . , x∗p ) = f1∗ (x∗1 ) + · · · + fp∗ (x∗p ) et que A∗ (x∗1 , . . . , x∗p ) = x∗1 + · · · + x∗p , ce qui
permet de conclure.
2c) Considérons à présent le cas mixte où les fi ∈ Conv(E), où f1 , . . . , fk sont
polyédriques (0 < k < p) et où (∩16i6k dom fi ) ∩ (∩k+16i6p (dom fi )− ◦
) 6= ∅. On note
g1 = f1 + · · · + fk et g2 = fk+1 + · · · + fp .
nom
D’après les points 2a et 2b, on a
g1∗ (y1∗ ) = inf {f1∗ (x∗1 ) + · · · + fk∗ (x∗k ) : x∗1 + · · · + x∗k = y1∗ }
g2∗ (y2∗ ) ∗
= inf {fk+1 (x∗k+1 ) + · · · + fp∗ (x∗p ) : x∗k+1 + · · · + x∗p = y2∗ },
avec des bornes inférieures atteintes lorsqu’elles sont finies. Il suffit donc de montrer
que
(g1 + g2 )∗ (x∗ ) = inf {g1∗ (y1∗ ) + g2∗ (y2∗ ) : y1∗ + y2∗ = x∗ } (3.46)
et que la borne inférieure est atteinte si elle est finie, car alors
(f1 + · · · + fp )∗ (x∗ ) = (g1 + g1 )∗ (x∗ )
∗ ∗ ∗ ∗
= inf g (y
1 1 ) + g (y
2 2 ) (3.47)
y1∗ +y2∗ =x∗
∗ ∗ ∗ ∗
= ∗
inf
∗ ∗ ∗
inf ∗ ∗
f 1 (x1 ) + · · · + f k (xk )
y1 +y2 =x x1 +···+xk =y1
∗
+ inf fk+1 (x∗k+1 ) + · · · + fp∗ (x∗p )
Pre
x∗ ∗ ∗
k+1 +···+xp =y2
= inf ∗ f1∗ (x∗1 ) + · · · + fp∗ (x∗p ) .
x∗
1 +···+xp =x
∗
De plus, si (f1 + · · · + fp )∗ (x∗ ) est fini, l’infimum en (3.47) est atteint par des yi∗ (c’est
ce que l’on démontrera), si bien que les gi (yi∗ ) sont finis et les autres bornes inférieures
sont également atteintes. Montrons donc (3.46) et l’affirmation qui suit.
On note A2 := aff dom g2 . Clairement, dom g1 = ∩16i6k dom fi et (dom g2 )− ◦
=
(∩k+16i6p dom fi )− ◦
= ∩k+16i6p (dom fi )− ◦
, car cette dernière intersection est sup-
posée non vide (proposition 2.16). Alors (dom g1 ) ∩ (dom g2 )− ◦
6= ∅, par hypothèse. Il
en découle (voir l’exercice 2.10)
m
118 3. Fonctions convexes
(A2 ∩ dom g1 )−
◦
∩ (dom g2 )−
◦
6= ∅.
h1 = g1 + IA2 ∈ Conv(E)
No
et g2 , qui ont un point commun dans l’intérieur relatif de leur domaine. Comme
g1 + g2 = h1 + g2 , on trouve
(g1 + g2 )∗ (x∗ ) = (h1 + g2 )∗ (x∗ ) = ∗ inf
∗ ∗
h ∗ ∗
(z
1 1 ) + g ∗ ∗
(z
2 2 ) ,
z1 +z2 =x
avec un infimum atteint s’il est fini. On peut aussi calculer h∗1 par le point 2a, car g1
et IA2 sont polyédriques (exercice 3.15) et ont des domaines qui s’intersectent :
h∗1 (z1∗ ) = ∗ inf
∗ ∗
g ∗ ∗
1 (y 1 ) + IA
∗
2
(z ∗
) ,
y1 +z =z1
3.6 Sous-différentiabilité
La notion de dérivée est fondamentale en analyse car elle permet d’approcher
localement des fonctions par des modèles linéaires, plus simples à étudier. Ces modèles
fournissent des renseignements sur les fonctions qu’ils approchent, si bien que de
nombreuses questions d’analyse passent par l’étude des fonctions linéarisées (stabilité,
inversibilité locale, optimalité, etc). On rencontre beaucoup de fonctions convexes qui
ne sont pas différentiables au sens classique (voir l’annexe C pour un rappel sur le
calcul différentiel), en particulier lorsque celles-ci résultent de constructions qui n’ont
rien pour assurer la différentiabilité des fonctions qu’elles produisent. Il en est ainsi
de la fonction duale associée à un problème d’optimisation sous contraintes, pour en
m
3.6. Sous-différentiabilité 119
No
tiabilité (proposition 3.68). Nous l’introduirons de trois manières différentes : à partir
des dérivées directionnelles, dont on sait qu’elles existent toujours pour les fonctions
convexes (proposition 3.14), en utilisant les minorantes affines de f (section 3.2.2) et
en faisant usage de la conjuguée f ∗ (section 3.5).
Une fonction convexe est sous-différentiable si son sous-différentiel est non vide
(définition 3.56). La propriété de sous-différentiabilité s’exprime donc sous la forme
de résultat d’existence. Appliqué à la fonction valeur d’un problème d’optimisation
cela impliquera l’existence de multiplicateurs optimaux (section 4.6.1) et donc de
solutions d’un autre problème d’optimisation, le problème dual (chapitre 14). On
dispose donc là d’une méthode originale pour montrer qu’un problème d’optimisation
a une solution : il suffit de montrer qu’il est le dual d’un problème dont la fonction
valeur est sous-différentiable en zéro (cette technique sera par exemple utilisée pour
établir le théorème 14.17).
Dans cette section, on suppose que l’on travaille sur un espace euclidien E, dont
nom
le produit scalaire est noté h·, ·i.
3.6.1 Définitions
Démonstration. [(i) ⇒ (ii)] Par convexité de f et (i) avec d = y−x, on obtient (ii) :
C’est (iii).
[(iii) ⇒ (iv)] On récrit (3.48) comme suit :
No
∀y ∈ E : hx∗ , xi − f (x) > hx∗ , yi − f (y). (3.49)
Nous donnerons à la section 3.6.3 des règles de calcul du sous-différentiel qui per-
mettent souvent de ne pas devoir recourir aux méthodes de calcul de base décrites
ci-dessus.
La figure 3.8 illustre la définition du sous-différentiel.
No
f
x1 + ∂f (x1 )
1
x1
x3
x3 + ∂f (x3 )
x2
∂f
2
1 x2 + ∂f (x2 )
1
nom
Fig. 3.8. Représentations du sous-différentiel. À gauche : la fonction x ∈ R 7→ f (x) =
max(x, x2 ) et la multifonction ∂f . À droite : quelques sous-différentiels dans R2 de x ∈ R2 7→
max(q1 (x), q2 (x), q3 (x)), où les qi sont quadratiques convexes.
No
∂f (x) = ∂δx (0).
Démonstration. On a
m
3.6. Sous-différentiabilité 123
No
Corollaire 3.60 (sous-différentiels de f et f ∗∗ ) Soient f ∈ Conv(E) et x ∈
dom f . Alors
1) ∂f (x) ⊆ ∂f ∗∗ (x),
2) ∂f (x) 6= ∅ =⇒ f (x) = f ∗∗ (x),
3) f (x) = f ∗∗ (x) =⇒ ∂f (x) = ∂f ∗∗ (x).
No
le point (i) de la proposition 3.55. La réciproque est le sujet de la proposition 3.62
ci-dessous. Une telle situation se présente pour la fonction convexe f définie par (3.8),
l’opposée de la racine carrée. Cette fonction n’est pas sous-différentiable en 0, parce
que f ′ (0; 1) = −∞. Évidemment, si f ′ (x; d) = −∞, alors f ′ (x; −d) = +∞ par (3.7),
mais ce n’est pas la valeur +∞ de la dérivée directionnelle qui empêche f d’être sous-
différentiable en x. C’est ce que montre l’exemple suivant de fonction convexe f , dont
le sous-différentiel en 0 vaut [1, +∞[ :
ex si x 6 0 ex
f (x) =
+∞ sinon. 0
x ∈ (dom f )− ◦
) et supposons qu’il existe d0 ∈ E tel que f ′ (x; d0 ) = −∞. On pose
dt := (1−t)d0 + td1 . Par convexité de f ′ (x; ·) (point 1 de la proposition 3.15), f ′ (x; dt )
vaut −∞ pour t ∈ [0, 1[ et vaut +∞ pour t > 1. Mais, pour α ∈ ]0, 1] suffisamment
petit, x + αd0 ∈ dom f (sinon la dérivée directionnelle suivant d0 ne vaudrait pas
−∞). Alors, par convexité de dom f ,
x + αdt = (1−t)[x + αd0 ] + t[x + αd1 ] ∈ dom f
pour t ∈ [0, 1] et même pour t > 1 proche de 1 (car x + αd1 ∈ (dom f )− ◦
par le
lemme 2.13). Mais alors, on ne peut avoir f ′ (x; dt ) = +∞ pour ces t > 1 (le quotient
différentiel est monotone), comme affirmé précédemment.
m
3.6. Sous-différentiabilité 125
[(iii) ⇒ (i)] Si f ′ (x; ·) est propre, cette fonction convexe a une minorante affine
(proposition 3.6) : ∃x∗ ∈ E et α ∈ R tels que pour tout d ∈ E on a
No
point (i) de la proposition 3.55, ce x∗ ∈ ∂f (x) qui est donc non vide.
Finalement, si x ∈ (dom f )− ◦
, la propriété (ii) est vérifiée en prenant y = x. ✷
et h ∈ E⊥ ′ ∗ ′ ′
0 . Alors, pour tout d ∈ E0 : f0 (0; d) > hx0 , di, f0 (0; d) = f (x; d) et hh, di = 0,
′ ∗ ′
si bien que f (x; d) > hx0 + h, di. Comme f (x; d) = +∞ si d ∈ / E0 , on a certainement
aussi f ′ (x; d) > hx∗0 + h, di, pour tout d ∈ E. Donc x∗0 + h ∈ ∂f (x).
2) Comme on a toujours f (x) + f ∗ (x∗ ) > hx∗ , xi, le sous-différentiel est donné par
Mais x∗ 7→ f ∗ (x∗ ) − hx∗ , xi est dans Conv(E) (proposition 3.43). Comme ensemble
de sous-niveau de cette fonction, ∂f (x) est donc convexe et fermé.
3) Notons d’abord que ∂f (x) est non vide lorsque x ∈ (dom f )−◦
(proposition 3.62),
donc PE0 ∂f (x) 6= ∅. Montrons à présent que cet ensemble est borné. Pour un ε > 0
m
126 3. Fonctions convexes
assez petit, on note L > 0 le module de Lipschitz de f sur B(x, 2ε) ∩ (dom f )− ◦
∗
(proposition 3.13). Soit x un élément non nul de ∂f (x) (si le sous-différentiel est
réduit à {0}, il n’y a plus rien à démontrer). En prenant y = x + εx∗ /kx∗ k au
point (ii) de la proposition 3.55, on obtient εkx∗ k 6 f (x + εx∗ /kx∗ k) − f (x) 6 Lε.
Donc kx∗ k 6 L.
On démontre l’implication inverse par l’absurde. Supposons que x ∈ (dom f ) \
No
(dom f )−◦
et que x∗ ∈ ∂f (x) qui est supposé non vide (si le sous-différentiel est vide,
il n’y a plus rien à démontrer). Il faut montrer que PE0 ∂f (x) est non borné. Par
définition de x∗ , on a f (y) > f (x) + hx∗ , y − xi pour tout y ∈ E. Soit ν ∈ E0 une
normale non nulle à dom f en x (elle existe par la proposition 2.28), qui vérifie donc
hν, y − xi 6 0 pour tout y ∈ dom f . Alors, on a f (y) > f (x) + hx∗ + tν, y − xi, pour
tout y ∈ E et pour tout t > 0. Dès lors x∗ + tν ∈ E0 ∩ ∂f (x) pour tout t > 0, ce qui
démontre que cet ensemble est non borné.
4) Si x ∈ (dom f )◦ , E0 = E et le point 3 montre que ∂f (x) est non vide et borné.
Réciproquement, si ∂f (x) est non vide et borné, E0 = E par le point 1. Alors
(dom f )−◦
= (dom f )◦ et on voit que x ∈ (dom f )◦ par le point 3. ✷
No
parce que PE0 ∂f (x) ⊆ ∂f (x) (point 1 de la proposition 3.64). On utilise alors le fait
que PE0 ∂f (x) est compact lorsque x ∈ (dom f )−
◦
(points 2 et 3 de la proposition 3.64).
✷
Comme la fonction δx : d 7→ f ′ (x; d) n’est pas fermée, elle ne peut être la fonction
d’appui d’un ensemble (point 1 de la proposition 3.10) et donc certainement pas du
sous-différentiel. D’ailleurs, ce dernier s’écrit ∂f (x) = {x∗ ∈ R2 : x∗1 6 0, x∗2 = 0} et
nom
(
0 si d1 > 0
σ∂f (x) (d) =
+∞ si d1 < 0
est l’enveloppe convexe fermée de δx . Cette propriété est tout à fait générale pour les
fonctions de Conv(E) (voir l’exercice 3.19).
On peut voir ∂f : E ⊸ E : x 7→ ∂f (x) comme la multifonction qui à un élément
de E fait correspondre le sous-différentiel ∂f (x), qui est une partie de E. En voici
quelques propriétés.
(v) (dom f ∗ )−
◦
⊆ R(∂f ),
(vi) (∂f ) = ∂f ∗ ,
−1
[(iv)] Soient x∗1 ∈ ∂f (x1 ) et x∗2 ∈ ∂f (x2 ). En additionnant les deux inégalités
f (x2 ) > f (x1 ) + hx∗1 , x2 − x1 i et f (x1 ) > f (x2 ) + hx∗2 , x1 − x2 i, on obtient hx∗2 −
x∗1 , x2 − x1 i > 0, ce qui montre la monotonie de ∂f .
[(v)] Si x∗ ∈ (dom f ∗ )− ◦
, alors x∗ ∈ dom ∂f ∗ (par le point (i)), si bien qu’il existe
No
∗ ∗
un x ∈ ∂f (x ) et par le point 2 du corollaire 3.58 (c’est ici que l’on a besoin d’avoir
f ∈ Conv(E)), x∗ ∈ ∂f (x).
[(vi)] C’est le point 2 de la proposition 3.58.
[(vii)] Soit (y, y ∗ ) ∈ E2 tel que
a une unique solution x̄ (en effet, le critère tend vers l’infini à l’infini car f a une
minorante affine ; il est aussi s.c.i. et strictement convexe). Celle-ci vérifie y ∗ + y − x̄ ∈
∂f (x̄). En prenant (x, x∗ ) = (x̄, y ∗ + y − x̄) dans (3.52), on trouve que y = x̄ et donc
nom
que y ∗ ∈ ∂f (x̄) = ∂f (y). ✷
On note que l’on peut très bien avoir R(∂f ) 6= dom f ∗ : pour la fonction x 7→
f (x) = ex , R(∂f ) = ]0, +∞[, alors que dom f ∗ = [0, +∞[.
C’est le caractère fermé de f qui rend ∂f monotone maximale. La théorie des
inéquations variationnelles étudie les opérateurs (éventuellement multivoques) qui
ne « dérivent pas d’un potentiel » (T n’est pas de la forme ∂f , pour une fonc-
tion f ∈ Conv(E)). Cette théorie englobe donc l’optimisation. Lorsque les opéra-
teurs considérés sont monotones, c’est leur caractère maximal qui leur donne une
chance d’être surjectif, comme le caractère fermé de f donne une chance au problème
inf x (f (x) − hu, xi), équivalent à u ∈ ∂f (x), d’avoir une solution. On voit que cela
ne suffit pas et qu’une hypothèse de coercivité (équivalente à la croissance de f vers
l’infini à l’infini) peut être bien utile.
La proposition suivante établit un lien entre la sous-différentiabilité et la diffé-
rentiabilité. Par différentiabilité, on entend soit la Gâteaux-différentiabilité, soit la
Fréchet-différentiabilité, deux notions identiques pour une fonction convexe (propo-
sition 3.17). Ce résultat peut être utilisé pour montrer qu’un fonction convexe est
Pre
part, si x∗0 ∈ ∂f (x), le point (i) de la proposition 3.55 montre que f ′ (x) · d > hx∗0 , di,
∀ d ∈ E. La linéarité de f ′ (x) implique que f ′ (x) · d = hx∗0 , di, ∀ d ∈ E et donc que
x∗0 = ∇f (x). On en déduit que ∂f (x) = {∇f (x)}.
Si ∂f (x) est le singleton {x∗ }, la formule du max (3.51) donne pour tout d ∈ E :
f (x; d) = hx∗ , di. Donc f est (Gâteaux-)différentiable en x et ∇f (x) = x∗ .
′
✷
No
Soit f une fonction convexe différentiable. Alors f ′ est lipschitzienne si, et seule-
ment si, f ∗ est fortement convexe. C’est ce que montre la proposition suivante [332],
qui nous sera utile dans l’analyse des algorithmes quasi-newtoniens (chapitre 11).
si bien que pour obtenir l’inégalité ci-dessus, il est utile de trouver une majoration
de f (y). En utilisant le développement de Taylor avec reste intégral, la constante de
Lipschitz de ∇f et le point (v) de la proposition 3.55, on obtient
Z 1
f (y) = f (x) + h∇f (x), y − xi + h∇f (x + t(y − x)) − ∇f (x), y − xi dt
0
L
6 f (x) + hx∗ , y − xi + ky − xk2
2
Pre
L
= − f ∗ (x∗ ) + hx∗ , yi + ky − xk2 .
2
Alors
L
f ∗ (y ∗ ) > f ∗ (x∗ ) + sup hy ∗ − x∗ , yi − ky − xk2 .
y∈E 2
La borne supérieure du membre de droite est atteinte pour y = x + L1 (y ∗ − x∗ ). Après
substitution, on obtient l’inégalité recherchée. ✷
m
130 3. Fonctions convexes
Quelques règles du calcul sous-différentiel sont données dans les propositions sui-
vantes (on en trouvera d’autres dans [332 ; 1993 ; section VI.4]). Les fonctions consid-
érées sont parfois supposées ne prendre que des valeurs finies, mais on trouvera au
corollaire 14.18 une extension de certaines règles de calcul au cas de fonctions pouvant
No
prendre la valeur +∞.
Combinaison conique
Démonstration. On note f = f1 + · · · + fp .
L’inclusion (3.54) se déduit directement de la définition du sous-différentiel: si
x∗i ∈ ∂fi (x) pour i = 1, . . . , p, alors x ∈ ∩i (dom fi ) = dom f et, pour tout h ∈ E,
Pre
f ′ (x; h) = f1′ (x; h)+· · ·+fp′ (x; h) > hx∗1 +· · ·+x∗p , hi, si bien que x∗1 +· · ·+x∗p ∈ ∂f (x).
Supposons maintenant que (3.55) a lieu et que x∗ ∈ ∂f (x) ; donc x ∈ dom f . Il
s’agit de décomposer x∗ en des sous-gradients des fi . On passe par la conjuguée de f
donnée par la proposition 3.54, point 2 : puisque f ∗ (x∗ ) est fini, on peut écrire
f ∗ (x∗ ) = (f1∗ ⊎ · · · ⊎ fp∗ )(x∗ ) = f1∗ (x∗1 ) + · · · + fp∗ (x∗p ), avec x∗ = x∗1 + · · · + x∗p .
Mais on a toujours f2 (x) + · · · + fp (x) + f2∗ (x∗2 ) + · · · + fp∗ (x∗p ) > hx∗2 + · · · + x∗p , xi, si
bien que l’identité ci-dessus donne hx∗1 , xi > f1 (x) + f1∗ (x∗1 ). Comme l’inégalité inverse
a toujours lieu, on obtient hx∗1 , xi = f1 (x) + f1∗ (x∗1 ), c’est-à-dire que x∗1 ∈ ∂f1 (x1 ). De
même pour les autres indices : x∗i ∈ ∂fi (xi ), pour tout i. Donc x∗ ∈ ∂f1 (x) + · · · +
∂fp (x). ✷
No
On ne peut pas se passer de √ la condition (3.55) pour avoir égalité en (3.54). Par
exemple, si f1 est la fonction − x définie en (3.8) et f2 = I]−∞,0] , la somme f = f1 +f2
a son domaine réduit à {0} et ∂f (0) = R, alors que ∂f1 (0) + ∂f2 (0) = ∅, parce que
∂f1 (0) = ∅.
Composition
Le cadre est le suivant. On dispose d’une fonction affine a : E → F entre deux
espaces euclidiens E et F. Celle-ci est supposée être définie en x ∈ E par
a(x) = Ax + b,
tion 3.31). Soit x∗ ∈ ∂(g ◦ a)(x) avec x ∈ dom(g ◦ a), ce qui s’écrit (proposition 3.55)
No
Corollaire 3.73 (restriction à un sous-espace affine) Soient E0 un sous-
espace vectoriel de E, PE0 le projecteur orthogonal de E sur E0 , x0 ∈ E et f ∈
Conv(E). On note f |x0 +E0 : x ∈ E0 7→ f (x0 + x) la restriction de f à x0 + E0 .
Alors en x ∈ E0 , on a
∂(f |x0 +E0 )(x) ⊇ PE0 ∂f (x0 + x) , (3.57)
par
(m )
X
∗ ∗
∂(g ◦ F )(x) = γi xi : γ ∈ ∂g(F (x)), xi ∈ ∂Fi (x), for i ∈ [1 : n] .
i=1
Démonstration. ✷
Fonction marginale
Rappelons le cadre introduit à la section 3.4.3. On dispose de deux espaces eu-
clidiens E et F et d’une fonction ϕ : E × F → R. La fonction marginale f : E → R
associée à ϕ est définie en x ∈ E par
No
f (x) = inf ϕ(x, y). (3.58)
y∈F
Remarques 3.76 1. Il faut bien noter que, si la borne inférieure inf y ϕ(x, y) est
atteinte en plusieurs yx , {x∗ : (x∗ , 0) ∈ ∂ϕ(x, yx )} ne dépend pas du minimiseur yx
choisi. C’est une conséquence de la démonstration.
On a un autre éclairage sur cette indépendance par rapport à yx en observant que ϕ
est constante sur l’ensemble M (x) := {(x, yx ) : yx minimise ϕ(x, ·)}, si bien que
Pre
∂ϕ est aussi constant sur l’intérieur relatif de M (x) (exercice 3.35). Cependant
∂ϕ(x, yx ) peut varier lorsque (x, yx ) passe de l’intérieur relatif de M (x) à son bord.
C’est le cas de la fonction définie par ϕ(x, y) = max(0, |y| − 1), dont la fonction
marginale est nulle :
{0} × [−1, 0] si y = −1
M (x) = {x} × [−1, 1] et ∂ϕ(x, yx ) = {(0, 0)} si −1 < y < 1
{0} × [0, 1] si y = 1.
Malgré cela, quel que soit le yx choisi dans [−1, 1], le sous différentiel de f en x est
toujours réduit à {0}.
m
134 3. Fonctions convexes
No
de x, que l’on écrivait f (x) = ϕ(x, η(x)) et que l’on calculait ∇f (x) par une déri-
vation en chaîne :
Enveloppe supérieure
nom
Considérons à présent le cas de l’enveloppe supérieure
f := sup fi
i∈I
On aura besoin de désigner l’ensemble des indices des fonctions fi valant f (x) en
x ∈ E:
I 0 (x) := {i ∈ I : f (x) = fi (x)}.
[
∂f (x) ⊇ co ∂fi (x) . (3.60)
i∈I 0 (x)
No
La proposition 3.77 montre en particulier, que ∂f (x) 6= ∅, si l’un des ∂fi (x) 6= ∅,
avec i ∈ I 0 (x). Il se pourrait cependant que I 0 (x) = ∅ ou que ∂fi (x) = ∅ pour tout
i ∈ I 0 (x), auxquels cas cette proposition ne donne pas d’information. Ce dernier cas
se présente, par exemple, lorsque les fonctions fi sont obtenues en divisant par i ∈ N∗
(ou en mulitpliant par i ∈ ]0, 1]) la fonction définie en (3.8) (l’opposée de la racine
carrée) : I 0 (0) = N∗ , mais tous les ∂fi (0) = ∅, alors que f est l’indicatrice de R+ et
a donc un sous-différentiel ∂f (0) = ] − ∞, 0[ non vide.
L’identification de conditions pour avoir l’égalité en (3.60) est un problème délicat.
Un des résultats les plus simples est le suivant. Pour des résultats plus fins, on pourra
consulter la section VI.4.4 dans [332 ; 1993].
Démonstration. ✷
3.7 Proximalité
Pre
1
ϕx (y) := f (y) + ky − xk2 .
2
D’après la proposition 3.6, f a une minorante affine, si bien que ϕx (y) → ∞ lorsque
kyk → ∞ ; de plus ϕx est s.c.i. et strictement convexe. Dès lors le problème ci-dessus
a une solution unique. On la note
No
xp solution unique de (3.79)
gp := x − xp . (3.64)
nom
On verra à la proposition 3.79 que ce sous-gradient n’est autre que Pf ∗ (x). L’algo-
rithme qui, en x considéré comme l’itéré courant, choisit xp comme itéré suivant est
appelé l’algorithme proximal. Nous l’étudierons à la section 7.2.
On trouvera à la figure 3.9 une illustration du concept de point proximal dans
ϕx
f f
xp x xp x
Pre
Fig. 3.9. Deux points de vue sur le point proximal associé à la fonction f = | · |
No
proposition 2.25) : Pf est monotone et contractante. La proposition affirme aussi la
contractilité de l’opérateur
Rf = Pf − Pf ∗ .
qui n’est pas sans rappeler la proposition 3.69. Il y a deux différences toutefois : il n’y
No
a pas de facteur 1/L et gpx n’est pas un sous-gradient en x mais en xp .
où xp est le point proximal de x. On observe que f˜ est bien à valeurs réelles car
xp ∈ dom f et f (xp ) > −∞ (f ne prend pas la valeur −∞).
Cette notion est illustrée en dimension 1 à la figure 3.10 lorsque f est la valeur
nom
ϕx
f
f˜
f (x) = |x|
f˜(x)
−1 xp x
(i) f ◦ Pf 6 f˜ 6 f .
(ii) inf f˜ = inf f .
(iii) arg min f˜ = arg min f = {x ∈ E : f˜(x) = f (x)} = {x ∈ E : x = xp }.
(iv) f˜ ∈ Conv(E) et f˜ est C 1,1 avec ∇f˜(x) = x − xp .
No
Démonstration. [(i)] La première inégalité se déduit du fait que f˜(x) = f (xp ) +
1
2 kxp − xk > f (xp ). Pour la seconde, on prend y = x comme argument de l’infimum
2
définissant f˜.
[(ii)] Du point (i), on a inf f˜ 6 inf f . Par le même point (i), on a f˜(x) > f (xp ) >
inf f ; donc inf f˜ > inf f .
[(iii)] Montrons d’abord les équivalences :
No
d’ensembles n’ayant, a priori, pas de structure particulière.
ȳ ȳ ȳ
x̄ x̄ x̄
Fig. 3.11. Courbes de niveau de fonctions ϕ avec point-selle (x̄, ȳ) = (0, 0) : ϕ(x, y) = x2 −y 2
à gauche, ϕ(x, y) = xy au milieu et ϕ(x, y) = (x + y)(x − y) + (x + y)3 + (x − y)3 à droite.
Pre
No
fermée.
Proximalité.
Notes
nom
Bien que long, ces deux premiers chapitres ne donnent qu’un aperçu, utile à l’opti-
misation, de l’immense théorie qu’est l’Analyse Convexe. On en apprendra davantage
en travaillant les monographies de Rockafellar [535 ; 1970], d’Hiriart-Urruty et Lema-
réchal [332 ; 1993] et de Borwein et Lewis [81 ; 2000]. Elles traitent toutes les trois
de la théorie en dimension finie et sont orientées vers l’optimisation. Elles ont été
nos trois sources d’information principales. L’ouvrage de Rockafellar est très complet,
mais difficile. On trouve chez Hiriart-Urruty et Lemaréchal à peu près tout ce dont
on a besoin d’analyse convexe en optimisation et on y apprend à manier chaque
notion avec de multiples points de vue. Le livre de Borwein et Lewis se concentre sur
l’essentiel et laisse au lecteur la possibilité de mettre à l’épreuve ses connaissances et
sa maîtrise du sujet sur de nombreux exercices instructifs et stimulants. Mentionnons
aussi la monographie d’Auslender et Teboulle [32] consacrée à l’extension des notions
de cônes et fonctions asymptotiques à l’optimisation non convexe et à l’étude des
inéquations variationnelles.
Les livres d’Ekeland et Temam [199 ; 1974] et de Barbu et Precupanu [38 ; 1975]
sont des classiques de la dimension infinie. Pour des traitements plus récents, on pourra
consulter Aubin et Ekeland [28 ; 1984], Phelps [498 ; 1993] qui synthétise les questions
Pre
touchant aux liens entre la différentiabilité des fonctions convexes et la structure des
espaces de Banach sur lesquels elles sont définies (espaces d’Asplund en particulier)
Bonnans et Shapiro [77 ; 2000] et Borwein et Vanderwerff [82 ; 2010].
La notion de fonction conjuguée fut introduite par Mandelbrojt [422 ; 1939] pour
une fonction d’une seule variable réelle ; il montre la relation f ∗∗ = f pour une fonc-
tion convexe ne prenant que des valeurs finies. L’opération de conjugaison est pré-
cisée et améliorée par Fenchel [211 ; 1949], qui l’étend aux fonctions convexes dépen-
dant d’un nombre fini de variables et qui introduit la notation f ∗ . La conjugaison
généralise une transformation de fonction introduite bien plus tôt par Legendre [403 ;
1787]. L’extension aux espaces vectoriels topologiques est due à Brondsted [96 ; 1964],
Moreau [463 ; 1967] et Rockafellar.
m
142 3. Fonctions convexes
No
Cette notion s’étend aux opérateurs monotones maximaux (voir par exemple [92, 93]).
On peut aussi prendre des pénalisations autres que la pénalisation quadratique pour
construire cette régularisée [596, 194 ; 1992-93].
Exercices
3.1. Épigraphe d’une fonction. Soit f : E → R. Alors
1) aff(epi f ) = (aff(dom f )) × R,
2) f est convexe si, et seulement si, son épigraphe stricte est convexe,
3) si f est convexe, alors (epi f )−
◦
= {(x, α) : x ∈ (dom f )−
◦
, f (x) < α}.
3.2. Autre définition d’une fonction convexe. Soit f : E → R∪{+∞} une fonction. Alors f
est convexe si, et seulement si,
nom
∀ x, y ∈ dom f, ∀t ∈
/ [0, 1] : f ((1 − t)x + ty) > (1 − t)f (x) + tf (y). (3.72)
3.6. Inf-convolution. Démontrez la proposition 3.35 sur l’inf-convolution, ainsi que les
propriétés suivantes :
1) f 6 g =⇒ f ⊎ h 6 g ⊎ h,
2) f ⊎ I{0} = f ,
3) IA ⊎ IB = IA+B .
No
3.7. Courbes de niveau d’une fonction convexe. Chaque dessin A, B et C de la figure 3.12
représente 3 courbes de niveau (iso-valeurs) d’une fonction f définie sur R2 à valeurs
1 2 3 1 2 3 1 2 3
A B C
No
∀ x ∈ X, max fi (x) − fi (x∗ ) > 0.
16i6m
On dit que x∗ ∈ X est moyennement optimal s’il existe un r ∈ Rm + , non nul, tel que
x∗ minimise x 7→ r T f (x) sur X.
1) Montrez que x∗ est Pareto optimal si, et seulement si, (f (x∗ )−Rm ++ )∩f (X) = ∅.
2) On a représenté à la figure 3.13, dans le cas où m = 2, un exemple d’ensem-
f2
f (X)
nom
f1
Fig. 3.13. Un ensemble f (X) dans R2
ble f (X). Déterminez dans celui-ci l’image par f des points Pareto optimaux et
l’image par f des points moyennement optimaux.
3) Montrez qu’un point moyennement optimal est Pareto optimal.
4) Montrez que, lorsque f (X)+Rm + est convexe (a fortiori lorsque f (X) est convexe),
un point Pareto optimal est moyennement optimal.
5) Montrez que f (X) + Rm + est convexe si X est convexe et si les fonctions fi sont
convexes ; alors que f (X) ne l’est pas nécessairement.
3.15. Propriétés particulières aux fonctions convexes polyédriques. Soient f , f1 et f2 des
fonctions convexes polyédriques. Alors
Pre
1) f1 + f2 est polyédrique,
2) f1 ⊎ f2 est polyédrique, epi f1 ⊎ f2 = epi f1 + epi f2 et l’infimum dans la définition
de (f1 ⊎ f2 )(x) est atteint pour tout x ∈ dom(f1 ⊎ f2 ) = dom f1 + dom f2 ,
3) f ∗ est polyédrique.
3.16. Calcul de fonctions conjuguées. On note h·, ·i le produit scalaire utilisé pour définir
la conjuguée.
1) Fonction quadratique strictement convexe. Soient Q une matrice auto-adjointe
définie positive (pour le produit scalaire h·, ·i), q ∈ Rn et f : Rn → R la fonction
quadratique définie par
1
f (x) = hQx, xi + hq, xi.
2
m
3.8. Point-selle et convexité-concavité 145
No
2) Si g(x) = f (x) + α, alors g ∗ (x∗ ) = f ∗ (x∗ ) − α.
3) Monotonie. Si f , g : E → R ∪ {+∞} sont propres avec une minorante affine et
f 6 g, alors f ∗ > g ∗ .
4) Enveloppe inférieure. Soient I un ensemble d’indices quelconque et, pour i ∈ I,
des fonctions fi : E → R ∪ {+∞} propres ayant une minorante affine commune,
c.-à-d., ∃ x∗0 ∈ E tel que supi∈I fi∗ (x∗0 ) < +∞. Alors leur enveloppe inférieure
finf : E → R ∪ {+∞} définie en x par finf (x) = inf i∈I fi (x) est propre avec une
minorante affine et on a
∗
finf = sup fi∗ .
i∈I
∗∗
3.17. Minimum de f et f . Soient E un espace euclidien et f : E → R une fonction non
nécessairement convexe. Montrez que
1) inf f = inf f ∗∗ ,
2) co(arg min f ) ⊆ arg min f ∗∗ (l’égalité n’a pas nécessairement lieu),
3) si f est propre et fermée, si arg min f 6= ∅ et si arg min f ∗∗ est borné, alors
co(arg min f ) = arg min f ∗∗ .
3.18. Enveloppe convexe fermée de fonctions convexes. Soient f , f1 et f2 ∈ Conv(E).
1) Si x0 ∈ (dom f )−◦
et x ∈ E, alors f ∗∗ (x) = limt↑1 f ((1−t)x0 + tx).
2) aff dom f = aff dom f ∗∗ , (dom f )−
◦
= (dom f ∗∗ )− ◦
et adh dom f = adh dom f ∗∗ .
3) Si f1 et f2 ∈ Conv(E) et (dom f1 ) ∩ (dom f2 ) 6= ∅, alors f1 + f2 ∈ Conv(E).
Si f1 et f2 ∈ Conv(E) et (dom f1 )−◦
∩(dom f2 )− ◦
6= ∅, alors (f1 +f2 )∗∗ = f1∗∗ +f2∗∗ .
3.19. Fonction d’appui du sous-différentiel. Soient f ∈ Conv(E) et x ∈ E tel que ∂f (x)
soit non vide. Alors la fonction d’appui de ∂f (x) est l’enveloppe convexe fermée de
δx (·) = f ′ (x; ·) : σ∂f (x) = δx∗∗ 6 δx .
Pre
S S C
x x
No
x
C
C C S
S x
A B C D
Fig. 3.14. Représentation du sous-différentiel d’une fonction convexe ?
3.22. Sous-différentiel de fonction fortement convexe [541 ; 1976, proposition 6]. Soient E
un espace euclidien dont le produit scalaire est noté h·, ·i, f ∈ Conv(E) et α > 0.
Alors les propriétés suivantes sont équivalentes :
(i) la fonction f est fortement convexe de module α,
(ii) la multifonction ∂f est fortement monotone de module α,
nom
(iii) ∀ x ∈ dom f , ∀ x∗ ∈ ∂f (x), ∀ y ∈ E, on a f (y) > f (x) + hx∗ , y − xi + (α/2)ky −
xk2 .
3.23. Minimum saillant [502 ; § 5.2.3]. Soient E un espace euclidien dont la norme est notée
k · k, f ∈ Conv(E), B̄ la boule unité fermée de E, x̄ ∈ dom f et α > 0 (un réel).
Montrez que les propriétés suivantes sont équivalentes :
(i) ∀ x ∈ E : f (x) > f (x̄) + αkx − x̄k,
(ii) ∀ d ∈ E : f ′ (x̄; d) > αkdk,
(iii) αB̄ ⊆ ∂f (x̄).
On dit qu’un point x̄ vérifiant ces propriétés est un minimum saillant de f ∈
Conv(E).
3.24. Ensemble saillant de minimiseurs. Soient E un espace euclidien de produit scalaire
noté h·, ·i (norme associée k · k), B̄ := {x ∈ E : kxk 6 1} la boule unité fermée de E,
f ∈ Conv(E) et fmin := inf{f (x) : x ∈ E}. On suppose que fmin est fini et que f a
un ensemble de minimiseurs S := {x ∈ E : f (x) = fmin } non vide.
Dans une première partie, on se propose de montrer que cette propriété est équiva-
lente à l’inclusion suivante (pour le même α > 0)
[
S + αB̄ ⊆ x + ∂f (x) , (3.78)
x∈S
Supposons dans un premier temps que (3.77) ait lieu et l’on se donne pour objectif
de démontrer (3.78). Soient x̄0 ∈ S, u ∈ B̄ et x̄ := PS (x̄0 + αu). On introduit
g := x̄0 + αu − x̄.
No
4) Montrez que (3.78) est vérifiée.
Supposons à présent que (3.78) ait lieu et l’on se donne pour objectif de démontrer
(3.77). Soient x ∈ E\S et x̄ := PS (x).
No
kykd 61
En particulier :
– ∂f (0) = B̄D ,
– kx∗ kd = 1 si x∗ ∈ ∂f (x) et x 6= 0,
– si E = Rn , h·, ·i est le produit scalaire euclidien, x 6= 0 et p ∈ ]1, ∞[, on a
∂(k · k1 )(x) = {x∗ ∈ Rn : x∗i = −1 si xi < 0,
x∗i ∈ [−1, +1] si xi = 0,
x∗i = +1 si xi > 0}, (3.82a)
∇(k · kp )(x) = {sgn(xi )(|xi |/kxkp )p−1 }i∈[1 : n] , (3.82b)
∂(k · k∞ )(x) = co{sgn(xi )ei : i ∈ I}, (3.82c)
où ei est le i-ième vecteur de base de Rn et I := {i ∈ [1 : n] : |xi | = kxk∞ }.
5) On déduit de la formule du max (3.51) que la dérivée directionnelle de la norme
en x ∈ E dans la direction h ∈ E s’écrit
nom
(k · k)′ (x; h) = max hx∗ , hi. (3.83)
x∗ ∈B̄D
hx∗ ,xi=kxk
Démontrez :
– (3.83) en utilisant directement la définition (C.1) de la dérivée directionnelle,
– (k · k)′ (0; h) = khk,
– si E = Rn , h·, ·i est le produit scalaire euclidien, x 6= 0 et p ∈ ]1, ∞[, on a
(k · k1 )′ (x; h) = (3.84a)
(k · kp )′ (x; h) = (3.84b)
(k · k∞ )′ (x; h) = max (sgn xi )hi , (3.84c)
i: |xi |=kxk∞
3.29. Puissance de norme. Soient E un espace euclidien dont le produit scalaire est noté
h·, ·i et k · k une norme (pas nécessairement celle associée au produit scalaire). On
note k · kd la norme duale de k · k par rapport à ce produit scalaire (voir (A.8)) et
on considère la fonction f : E → R définie en x ∈ E par
1
f (x) = kxkp ,
p
Pre
No
f (x) = kxk0 + IB̄1 (x),
où IB̄1 est l’indicatrice de B̄1 (IB̄1 (x) = 0 si x ∈ B̄1 et IB̄1 (x) = +∞ si x ∈
/ B̄1 ).
Montrez que sa conjuguée f ∗ et la biconjuguée f ∗∗ prennent les valeurs suivantes :
f ∗ (x∗ ) = (kx∗ k∞ − 1)+ . (3.85)
∗∗
f (x) = kxk1 + IB̄1 (x). (3.86)
∗ ∗ 0 si A∗ ∈ S+ n
et tr A∗ = 1
λmax (A ) =
+∞ sinon.
b) ∂λmax (0) = {S ∈ S+ n
: tr S = 1} ;
c) la dérivée directionnelle de λmax en A ∈ S n dans la direction D ∈ S n s’écrit
où V est une matrice dont les colonnes forment une base orthonormale de
No
l’espace propre associé à λmax (A).
3.33. Valeur propre maximale d’une matrice hermitienne. On note Hn [resp. Hn + ] l’ensemble
des matrices d’ordre n hermitiennes [resp. hermitiennes semi-définies positives], que
l’on munit du produit scalaire hA, Bi = tr AB. L’écriture A < 0 signifie que A ∈ Hn +.
On note λmax : Hn → R l’application valeur propre maximale, qui est bien définie
car les valeurs propres d’une matrice hermitenne sont réelles. Les résultats ci-dessous
s’appliquent bien sûr aux matrices réelles symétriques, qui sont des matrices hermi-
tiennes avec une partie imaginaire nulle.
1) Démontrez (B.17) et en déduire que la fonction λmax est convexe.
2) La conjuguée de λmax est donnée par
0 si A∗ < 0 et tr A∗ = 1
λ∗max (A∗ ) = (3.87)
+∞ sinon.
3) d∗C = IB̄D + σC .
4) ∂ dC (x) = x∗ ∈ B̄D ∩ NC (x̄) : hx∗ , x − x̄i = kx − x̄k .
On suppose à présent que la norme k · k est celle associée au produit scalaire h·, ·i.
Pre
5) Si x ∈
/ C, alors dC est différentiable en x et ∇ dC (x) = (x−x̄)/kx−x̄k ;
si x ∈ C ◦ (l’intérieur de C), alors dC est différentiable en x et ∇ dC (x) = 0 ;
si x ∈ ∂C = C \ C ◦ (la frontière de C), alors ∂ dC (x) = B̄ ∩ NC (x).
6) Montrez par un contre-exemple que si P ⊆ E n’est pas convexe, dP n’est pas
nécessairement différentiable sur le complémentaire de P .
3.35. Constance du sous-différentiel. Soit f : E → R une fonction convexe et supposons
que f soit constante sur un ensemble A. Alors ∂f est constant sur A−◦
et ce sous-
différentiel commun est inclus dans celui de tout point de A.
3.36. Ensembles de sous-niveau bornés. Soient E un espace euclidien de dimension finie et
f : E → R ∪ {+∞} une application dont on considère les propriétés suivantes :
m
3.8. Point-selle et convexité-concavité 151
f (x) f (x)
lim inf := lim inf > 0,
kxk→∞ kxk / r kxk
r→∞ x∈B
No
(iv) ∪x∈E ∂f (x) est un voisinage de 0.
Montrez que
1) (i) =⇒ (ii), mais que la réciproque n’est pas nécessairement vraie,
2) si f ∈ Conv(E), alors (i) ⇐⇒ (ii) ⇐⇒ (iii),
3) si f ∈ Conv(E), alors (i) ⇐⇒ (ii) ⇐⇒ (iii) ⇐⇒ (iv).
3.37. Proximité d’une solution et petitesse d’un sous-gradient. Soient E un espace euclidien
de dimension finie et f ∈ Conv(E). On suppose que l’ensemble S des minimiseurs de
f est non vide et borné. Montrez que, quel que soit r > 0, il existe un voisinage V
de 0 ∈ E tel que dS (x) 6 r lorsque x∗ ∈ ∂f (x) ∩ V . Montrez par un contre-exemple
que ce résultat ne tient plus si S n’est pas borné.
Remarque. Il n’y a pas de réciproque : x peut être proche de S sans qu’il y ait un
petit sous-gradient en x. La valeur absolue f = | · | sur R en est un contre-exemple :
|f ′ (x)| = 1 quel que soit x 6= 0.
nom
3.38. Croissance quadratique locale (adapté de [541, 542]). Soient E et F deux espaces
normés. On dit qu’une multifonction T : E ⊸ F est localement radialement lipschit-
zienne de module L > 0 en un point x0 ∈ E s’il existe un voisinage V de x0 tel que,
pour tout x ∈ V et pour tout y ∈ T (x), on a dT (x0 ) (y) 6 Lkx − x0 k. On considère
à présent, un espace euclidien E de dimension finie et une fonction f ∈ Conv(E)
ayant un ensemble de minimiseurs S non vide et borné. Montrez que les propriétés
suivantes sont équivalentes (L > 0).
(i) ∂f −1 est localement radialement lipschitzienne de module L en 0,
(ii) il existe un voisinage V de 0 ∈ E tel que dS (x) 6 Lkx∗ k lorsque x∗ ∈ ∂f (x)∩V ,
(iii) il existe une constante α > 0 et un rayon r > 0 tels que pour tout x ∈ S + B̄r ,
on a f (x) > inf f + α(dS (x))2 .
Si (i) ou (ii) a lieu et s’il y a un minimum unique, on peut prendre α = 1/(2L) dans
(iii). Si (iii) a lieu, on peut prendre L = 1/α dans (i) ou (ii).
3.39. Point proximal limite. Soient E un espace euclidien de dimension finie, f ∈ Conv(E)
et r > 0. On note xp (r) le point proximal de x ∈ E, défini comme l’unique solution
de
1
inf f (y) + ky − xk2 .
y∈E 2r
Pre
No
(i) x̃ = Pf,M (x) ⇐⇒ ∃ g̃ ∈ ∂f (x̃) : x̃ = x − M −1 g̃,
(ii) I − Pf,M = M −1 ◦ Pf ∗ ,M −1 ◦ M ,
(iii) pour tout x et y ∈ E, hyp −xp , y−xiM > kyp −xp k2M ,
(iv) pour tout x et y ∈ E, kyp −xp k2M + kgpy −gpx k2M −1 6 ky−xk2M , où gpx = M −1
(x−xp ) et gpy = M −1 (y−yp ).
3.41. Régularisée de Moreau-Yosida d’une fonction quadratique convexe. On suppose que
f : x ∈ E 7→ f (x) = 12 hAx, xi − hb, xi avec A symétrique définie positive et on
considère sa régularisée de Moreau-Yosida
1
x ∈ E 7→ f˜(x) = inf f (y) + ky − xk2M ,
y∈E 2