Optimisation et Analyse Avancée L3 MIASHS
Optimisation et Analyse Avancée L3 MIASHS
Roland Becker
22 juillet 2024
3 Problèmes d’optimisation 5
5 Calcul différentiel 18
6 Convexité 21
6.1 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1
1 Rappel : Analyse réelle univariée
Soit A ⊂ R.
+∞ A = ∅
inf A := −∞ A non-minoré (1.1)
plus grand minorant sinon
x ∈ R est un ≪ minorant ≫ ssi x ⩽ a pour tout a ∈ A.
≪ plus grand minorant ≫ veut dire : x∗ est ≪ plus grand minorant ≫ ssi
• pour tout a ∈ A on a x ⩽ a et
• pour tout ε > 0 il existe aε ∈ A tel que aε − ε < x.
Le plus grand minorant est unique ! (Sinon on ne pourrait définir l’infimum).
Si inf A ∈ A, on dit que la borne inférieure est atteinte et on écrit inf A = min A.
Soit A ⊂ R, A ̸= ∅. Alors il existe une suite (an )n∈N ⊂ A telle que inf A =
limn→∞ an .
Example 1.1
R(t)
f(x) = f(x0 ) + d(x − x0 ) + R(x − x0 ) et lim = 0. (1.2)
t→0
t̸=0
|t|
Alors d est unique et l’on écrit f ′ (x0 ) := d. f is dérivable sur I si f est dérivable an
tout x0 ∈ I. Dans ce cas, f ′ : I → R définie par x → f ′ (x) est la fonction dérivée.
Si elle est continue, on écrit f ∈ C1 (I).
2
Démontrer l’unicité de d dans (1.2) par contradiction. Dans le cas où x0 est une
extrémité de l’intervalle (1.2) définit la dérivée à gauche ou à droite. Montrer que
la définition est équivalente à
f(x0 + h) − f(x0 )
lim = f ′ (x0 ). (1.3)
h→0 h
h̸=0
x0 +h∈I
Proposition 1.1
Nous avons les règles suivantes. Si u, v ∈ C1 (I), alors u + λv ∈ C1 (I) pour tout
λ ∈ R, uv ∈ C1 (I) et
3
2 Rappel : Algèbre linéaire
Soit n ∈ N. L’espace vectoriel Rn est muni d’un produit scalaire ⟨·, ·⟩ : Rn ×Rn →
R qui vérifie
1. ⟨u, u⟩ ⩾ 0 ∀u ∈ Rn
2. ⟨u, u⟩ = 0 ⇒ u=0 ∀u ∈ Rn
3. ⟨u, v⟩ = ⟨v, u⟩ ∀u, v ∈ Rn
4. ⟨u, λv + µw⟩ = λ⟨u, v⟩ + µ⟨u, w⟩ ∀u, v, w ∈ Rn , ∀λ, µ ∈ R
On peut résumer les deux dernières propriétés par la bilinéarité du produit sca-
laire. On utilise différentes notations :
X
n
u · v = ⟨u, v⟩ = uT v = ui vi .
i=1
Aqi = λi qi 1 ⩽ i ⩽ n.
4
Par conséquent A est diagonalisable
3 Problèmes d’optimisation
f∗ = f(x∗ ).
5
Definition 3.5: Ensemble des solutions (minimisation)
x ∈ K et ∥x − x∗ ∥ ⩽ η ⇒ f(x∗ ) ⩽ f(x).
Remark 3.1
Remark 3.3
Il est convenable de travailler avec ±∞ :
• Minimisation :
+∞ si K = ∅
inf f(x) =
K −∞ si si le problème est non-borné inférieurement.
Le deuxième cas : il existe une suite (xk )k∈N telle que lim f(xk ) = −∞.
k→∞
6
• Maximisation :
−∞ si K = ∅
sup f(x) =
K +∞ si si le problème est non-borné supérieurement.
Le deuxième cas : il existe une suite (xk )k∈N telle que lim f(xk ) = +∞.
k→∞
On considère donc souvent f : Rn → R, R := R ∪ {+∞} ∪ {−∞}. Avec la fonction
indicatrice χK : Rn → R
+∞ si x ̸∈ K
χK =
0 six ∈ K.
nous avons
Il existe toujours un solution, que l’on peut trouver par comparaison (O(n2 )
opérations).
7
(2) Déterminer step-size tk .
(3) Mise à jour xk+1 = xk + tk pk .
(4) Si critère d’arrêt est satisfait, retour output (xk+1 ,· · · ).
(5) Incrémenter k et retour à (1).
Proposition 4.1
est borné inférieurement. Alors le problème (4.1) possède au moins une solution.
Démonstration. L’ensemble S0 est fermé, car f est continue. D’après le lemme 1.1, il
existe une suite (xk )k∈N telle que inf x∈Rn f(x) = lim f(xk ). Si la suite (f(xk ))k∈N ten-
k→∞
dait vers −∞, on aurait un N ∈ N tel que f(xk ) ⩽ f(x0 ) pour k ⩾ N, ce qui revient à
dire que xk ∈ S0 . Une contradiction.
Remark 4.1
La condition de la proposition 4.1 est satisfaite, si f est coercive, c’est à dire
R1 (t)
f(x + tp) = f(x) + t⟨∇f(x), p⟩ + R1 (t), lim = 0. (4.3)
y→x
y̸=x
|t|
Pour t petit, on peut négliger R1 et (4.3) montrer que p = −∇f(x) est un choix qui
permet de diminuer f.
Si f ∈ C2 (Rn , R), nous avons aussi
t2 2 R2 (t)
f(x + tp) = f(x) + t⟨∇f(x), p⟩ + ⟨∇ f(x)p, p⟩ + R2 (t), lim = 0. (4.4)
2 y→x
y̸=x |t|2
8
4.2 Exemples
µ 1
f(x) = ∥x∥2 + xT Ax − xT , A ∈ Rn×n (A symétrique). (4.5)
2 2
µ 1
f(x) = ∥x∥2 + ∥Ax − b∥2 , A ∈ Rm×n . (4.6)
2 2
µ X m X n
f(x) = ∥x∥2 + log(1 + exp(yi aij xj )), yi ∈ {−1, +1} . (4.7)
2
i=1 j=1
X
m X
n
!
f(x) = ρ log rk (x) , rk (x) = exp( (akj xj − bk )/ρ) (4.8)
k=1 j=1
µ X m X n
f(x) = ∥x∥2 + log(cosh(yi − aij xj )), yi ∈ {−1, +1} . (4.9)
2
i=1 j=1
9
Theorem 4.1: Condition d’ordre un nécessaire
∇f(x∗ ) = 0. (4.11)
Remark 4.2
t2 2 ∗
0 ⩽ f(x∗ + tp) − f(x∗ ) = ⟨∇ f(x )p, p⟩ + R2 (t).
2
En divisant par t2 on obtient le résultat suivant.
Remark 4.3
Le deuxième inégalité de (4.12) exprime que la hessienne ∇2 f(x∗ ) (qui est tou-
jours symétrique) est positive semi-définie. L’algèbre linéaire, théorème 2.2, nous
dit que cela est équivalent à ce que toutes ses valeurs propres sont positives ou
nulles :
λi = λi (∇2 f(x∗ )) .
λ1 ⩾ λ2 · · · ⩾ λn ⩾ 0,
10
4.5 Condition d’ordre un suffisante
Sous quelle condition ∇f(x∗ ) est suffisante ? C’est à -dire quand ∇f(x) = 0 implique
x = x∗ ? Supposons ∇f(x) = 0. Alors (4.3) donne
R1 (t)
f(x + tp) = f(x) + R1 (t), lim = 0.
y→x
y̸=x
|t|
On voit que pour déduire que f(x + tp) ⩾ f(x) il faudrait savoir que R1 (t) ⩾ 0. Cela est
le cas, si la fonction est convexe :
t2 t2
R2 (t)
f(x̄ + tp) = f(x̄) + ⟨∇2 f(x̄)p, p⟩ + R2 (t) = f(x̄) + ⟨∇2 f(x̄)p, p⟩ + 2 .
2 2 t
⟨∇2 f(x̄)p,p⟩
Supposons maintenant qu’il existe µ > 0 tel que ∥p∥2
⩾ µ pour tout p ∈ Rn \ {0}.
Alors nous avons
R2 (t) R2 (t)
⟨∇2 f(x̄)p, p⟩ + 2
⩾ µ∥p∥2 + 2 ⩾ 0 si t petit.
t t
Ici, t dépend de p. On voudrait alors savoir qu’il existe t0 de sorte que ce dernier terme
soit positif pour tout p avec ∥p∥ = 1 et t ⩽ t0 (convergence uniforme). Nous admettons
cela.
Si f ∈ C2 (Rn ) et x̄ ∈ Rn vérifie
11
Remark 4.4
Comme pour le remarque 4.3, on fait appel à théorème 2.2. On peut alors donner
une condition équivalent à (4.14) :
λi = λi (∇2 f(x̄)) .
λ1 ⩾ λ2 · · · ⩾ λn > 0,
Remark 4.5
Soit f ∈ C1 (Rn ) et que (4.2) soit borné. On suppose que le pas satisfait
1
0 < tk = t ⩽ . (4.16)
L
x, i.e. ∇f(e
Alors l’algorithme 4.2 tend vers un point stationnaire e x) = 0.
12
Remark 4.6. Ce résultat est assez faible. D’abord, il ne donne aucune estimation de la vitesse
de convergence. Ensuite, ex ne correspond par forcément à un minimum, même local. De plus, la
mise en ouvre de l’algorithme nécessite la connaissance the L.
t
f(xk+1 ) − f(xk ) ⩽ − ∥∇f(xk ∥2 , (4.17)
2
ce qui donne
X
ℓ
tX
ℓ
f(xℓ+1 ) − f(x0 ) = (f(xk+1 ) − f(xk )) ⩽ − ∥pk ∥2 ,
2
k=0 k=0
et
tX
ℓ
2 t t
∥∇f(xk )∥ ⩽ (f(x0 ) − f(xℓ+1 )) ⩽ f(x0 ) − inf f(x) .
2 2 2 x∈S0
k=0
Comme le second membre est indépendant de ℓ, nous avons démontré que la série
converge et lim ∥∇f(xk )∥ = 0. Alors on utilise
k→∞
X
ℓ+m−1 X
ℓ+m−1
xℓ+m − xℓ = (xk+1 − xk ) = −t ∇f(xk )
k=ℓ k=ℓ
X
ℓ+m−1 ∞
X
⇒ ∥xℓ+m − xℓ ∥ ⩽ t ∥∇f(xk )∥ ⩽ t ∥∇f(xk )∥.
k=ℓ k=ℓ
13
Lemma 4.1
Sous l’hypothèse (4.15) et si f est convexe nous avons
1
f(y) ⩾ f(x) + ⟨∇f(x), y − x⟩ + ∥∇f(y) − ∇f(x)∥2 ∀x, y ∈ Rn . (4.18)
2L
Proposition 4.3
Soit f convexe et ∇f est L-Lipschitz. Sous la condition (4.16) nous avons l’estima-
tion d’erreur
∥x∗ − x0 ∥2 L∥x∗ − x0 ∥2
f(xk ) − f(x∗ ) ⩽ , ∥∇f(xk )∥2 ⩽ . (4.19)
2tk tk
14
On note ensuite que
de sorte que
1
∥xk − x∗ ∥2 − ∥xk+1 − x∗ ∥2
∆fk+1 ⩽ (4.20)
2t
En additionnant nous avons
X
ℓ
1 1
∥x0 − x∗ ∥ − ∥xℓ+1 − x∗ ∥2 ⩽ ∥x0 − x∗ ∥2 .
∆fk ⩽
2t 2t
k=1
X
ℓ X
ℓ
1
∆fk ⩾ ∆fℓ = ℓ∆fℓ ⇒ ∆fℓ ⩽ ∥x0 − x∗ ∥.
2tℓ
k=1 k=1
Proposition 4.4
15
de sorte que
µ ∗
∥x − xk+1 ∥2 ⩽ ∆fk+1 . (4.23)
2
Alors on trouve
1 1 1
(µ + )∥x∗ − xk+1 ∥2 ⩽ ∥x∗ − xk ∥2 ⇒ ∥x∗ − xk+1 ∥2 ⩽ ∥x∗ − xk ∥2
t t 1 + tµ
Nous savons que t = 1/L donne une méthode monotone, la fonction décroit en
chaque itération. On peut choisir le pas plus grand.
Proposition 4.5
2
Soit f fortement µ-convexe et ∇f L-lipschitzien. Sous la condition t = µ+L nous
avons
L−µ 2
∥x∗ − xk ∥ ⩽ ρk ∥x∗ − x0 ∥, ρ = =1− . (4.24)
L+µ κf + 1
Démonstration. L’inégalité suivante est valable pour toute fonction µ-convexe avec gra-
dient L-Lipschitz
µL 1
⟨∇f(x) − ∇f(y), x − y⟩ ⩾ ∥x − y∥2 + ∥∇f(x) − ∇f(y)∥2 . (4.25)
µ+L µ+L
Alors
16
Algorithm 4.3: Méthode du gradient avec ’backtracking’
Lemma 4.2
Si le gradient de f est L-lipschitzien, la boucle dans (1) de l’algorithme 4.3 s’arrête
avec tk ⩾ ω/L.
On peut vérifier que les résultats de convergence démontrés restent valable pour
l’algorithme 4.3.
17
avec
1
Q(x, t, y) := f(y) + ⟨∇f(y), x − y⟩ + ∥x − y∥2 (t > 0).
2t
5 Calcul différentiel
Definition 5.1: Dérivées partielles
R(t)
F(y) = F(x) + D(y − x) + R(∥y − x∥) et lim = 0. (5.2)
t→0
t̸=0
|t|
18
Dans le cas m = 1, on écrit f ∈ C1 (U) et on définit le gradient
Example 5.1
∂N(x) X ∂x2i X
n n
= = xi δij = xj
∂xj 2∂xj
i=1 i=1
∂2 N(x) ∂xj
= = δjk . ⇒ ∇N2 (x) = I.
∂xk ∂xj ∂xk
2. Par la définition
1 1
∥x + h∥2 − ∥x∥2 = ⟨x, h⟩ + ∥h∥2 .
N(x + h) − N(x) =
2 2
Comme
R(h)
N(x + h) − N(x) = ⟨∇N(x), h⟩ + R(h), lim = 0.
h→0
h̸=0
∥h∥
19
Theorem 5.1: Taylor d’ordre un
R1 (x, y)
F(y) = F(x) + DF(x)(y − x) + R1 (x, y), lim = 0. (5.4)
y→x
y̸=x
∥x − y∥
1 R2 (x, y)
f(y) = f(x)+⟨∇f(x), y−x⟩+ ⟨∇2 f(x)(y−x), y−x⟩+R2 (x, y), lim = 0.
2 y→x
y̸=x
∥x − y∥2
(5.5)
Démonstration. Soit ϕ(t) := f(x + t(y − x)). Nous avons ϕ(0) = f(x), ϕ(1) = f(y) et
ϕ ′ (t) = ⟨∇f(x + t(y − x)), y − x⟩. Avec (1.6) nous avons
Z1 Z1 Z1
′ d= ′ d=
f(y) − f(x) = ϕ(1) − ϕ(0) = ϕ (t) ϕ (t) ⟨∇f(x + t(y − x)), y − x⟩ dt.
0 dt 0 dt 0
En suite nous avons ϕ ′′ (t) = ⟨∇2 f(x + t(y − x))(y − x), y − x⟩ et avec (1.7)
Z1 Z1 Z1
ϕ ′ (t) dt = ϕ ′ (t)(t − 1) ′ dt = − ϕ ′′ (t)(t − 1) dt + ϕ ′ (1)(1 − 1) − ϕ ′ (0)(0 − 1)
0 0 0
Z1
= ϕ ′′ (t)(1 − t) dt + ϕ ′ (0).
0
20
Theorem 5.4: Dérivée de la fonction composée
Example 5.2
√
Pour la norme, on pose f(x) = ∥x∥2 et g(y) = y, qui est differentiable pour
y > 0. Alors la norme h(x) = ∥x∥ est differentiable sur Rn \ {0} et
1 x
Dh(x) = p (2x)T ⇒ ∇h(x) = .
2 ∥x∥2 ∥x∥
x
Pour calculer la hessienne, on remarque d’abord que ∇∥x∥−1 = − ∥x∥3 . On ob-
tient
xxT
2 1
∇ h(x) = I− .
∥x∥ ∥x∥2
6 Convexité
6.1 Fonctions convexes
Definition 6.1: Convexité (fonction)
f((1 − t)a + tb) < (1 − t)f(a) + tf(b) ∀a, b ∈ K, a ̸= b, ∀0 < t < 1. (6.2)
21
Example 6.1
Remark 6.1
Remark 6.2
La définition de la convexité admet une interprétation graphique : le graphe de
la fonction est en-dessous de sa sécante. (6.4) signifie que le graphe est au-dessus
de la tangente.
La condition (6.5) signifie que ∇f est une application monotone (pour n = 1 la
dérivée est croissante). En général, elle implique pour µ > 0 que ∇f : Rn → Rn
est injective. Il existe alors une application inverse (sur son image).
Finalement (6.6) est équivalent à la positivité (stricte si µ > 0) des valeurs propres
de la hessienne.
22
f : K → R possède un gradient L-Lischitz ssi
Example 6.2
Proposition 6.1
L
f(y) ⩽ f(x) + ⟨∇f(x), y − x⟩ + ∥x − y∥2 ∀x, y ∈ Rn . (6.8)
2
23