0% ont trouvé ce document utile (0 vote)
66 vues142 pages

Poly Cours

Ce document présente un cours d'optimisation mathématique. Il contient des éléments d'algèbre linéaire et de calcul différentiel en introduction, puis aborde l'existence de minimiseurs, l'optimisation convexe, et les algorithmes de minimisation sans contrainte.

Transféré par

rambelo.romaric
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
66 vues142 pages

Poly Cours

Ce document présente un cours d'optimisation mathématique. Il contient des éléments d'algèbre linéaire et de calcul différentiel en introduction, puis aborde l'existence de minimiseurs, l'optimisation convexe, et les algorithmes de minimisation sans contrainte.

Transféré par

rambelo.romaric
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L3 Mathématiques Fondamentales et Appliquées - Mathématiques et Informatique 2021-2022

Optimisation

Guillaume Garrigos

Contact: [email protected] Mis à jour le 15 avril 2022


2
Guide de lecture

Prérequis : Notions d’Algèbre Linéaire et de Calcul Différentiel. Les notions dont nous
aurons besoin pour ce cours sont réunies dans le Chapitre I, qui sert d’introduction à ce
cours. En particulier, il est nécessaire d’avoir une bonne compréhension de ce que sont les
matrices (semi-)définies positives, et le gradient et la hessienne d’une fonction à valeurs
réelles.

Hors-piste : Les sections dont le titre se termine par une astérisque ∗ sont plus avancées.
Elles sont donc, par défaut, hors programme, à moins que le temps nous permette de les
traiter en cours. Elles permettent dans tout les cas d’apporter des informations complémentaires,
qui je l’espère satisferont les plus curieuses et curieux. C’est le cas des Annexes, qui
contiennent les preuves de résultats qui ont été admis pendant le cours, ainsi que des
développements un peu plus avancés.

3
4
Références

Ces notes de cours ont été rédigées entre 2020-2021, sur la base d’un polycopié d’Olivier
Bokanowski, ajourné par Matthieu Bonnivard. Au cas où le contenu de ce polycopié ne
vous suffise pas, voici quelques références qui vous permettront d’aller plus loin.

• Optimisation et analyse convexe : Exercices et problèmes corrigés, avec rappels de cours par
Jean-Baptiste Hiriart-Urruty [7]. L’auteur est un très bon pédagogue et agréable à lire.
Comme le suggère le titre, son livre contient de nombreux exercices corrigés. Attention
toutefois, son contenu est de difficulté variable, avec des chapitres qui dépassent le
cadre de ce cours. Focalisez-vous sur les 3 premiers chapitres (sauf III.2). Je ne peux que
vous inviter à lire également la section historique en fin du livre, riche en anecdotes.
• Objectif Agrégation, par Vincent Beck, Jérôme Malick et Gabriel Peyré [3]. Voici également
un livre que je trouve très bien écrit, certainement un de mes préférés. C’est un livre
généraliste (qui couvre analyse et algèbre), mais son premier chapitre donne une vi-
sion d’ensemble sur le calcul différentiel et ses applications qui je pense vaut le coup
d’œil.
• Nonlinear Programming, par Dimitri P. Bertsekas [4]. L’auteur est bon pédagogue, et ac-
compagne ses explications par des dessins et schémas très utiles à la compréhension.
Les chapitres 1.1-4 portent sur le contenu des chapitres II et IV. Le chapitre 3, en parti-
culier la partie 3.3, développe en détail le contenu du chapitre V.
• Introduction à l’analyse numérique matricielle et à l’optimisation, par Phillipe Ciarlet [5].
Un classique, mais qui a un peu vieilli. Le chapitre 1 vous fournira de bons rappels en
Algèbre Linéaire. Les chapitres 7.1-4 et 8.1-4 portent sur le contenu du cours, le reste
dépasse le cadre du cours.
• Analyse numérique et optimisation : Une introduction à la modélisation mathématique et à
la simulation numérique, par Grégoire Allaire [1]. Ce livre se focalise sur la résolution
des Équations aux Dérivées Partielles, et ses chapitres 9-10 fournissent des exemples
intéressants d’application des résultats de ce cours aux EDPs. Attention cependant,
l’auteur travaille dans le cadre d’espaces de Hilbert, et sa présentation des résultats
diffère du contenu de ce cours et parfois dépasse son cadre.

5
6
Table des matières

I Éléments d’Algèbre Linéaire et de Calcul Différentiel 9


I.I Rappels et compléments d’algèbre linéaire . . . . . . . . . . . . . . . . . . . 10
I.I.1 La structure euclidienne de R N . . . . . . . . . . . . . . . . . . . . . . 10
I.I.2 Spectre d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12
I.I.3 L’algèbre normée M M,N (R) . . . . . . . . . . . . . . . . . . . . . . . 14
I.I.4 Matrices symétriques et antisymétriques . . . . . . . . . . . . . . . . 15
I.I.5 Matrices semi-définies positives et définies positives . . . . . . . . . 17
I.II Rappels et compléments de calcul différentiel . . . . . . . . . . . . . . . . . . 23
I.II.1 Différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
I.II.2 Différentielle seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
I.II.3 Fonctions quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 27

II Existence de minimiseurs et conditions d’optimalité 29


II.I Conditions d’optimalité et Principe de Fermat . . . . . . . . . . . . . . . . . 29
II.I.1 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.I.2 Conditions d’Optimalité du 1er ordre . . . . . . . . . . . . . . . . . . 32
II.I.3 Conditions d’Optimalité du 2e ordre . . . . . . . . . . . . . . . . . . . 33
II.II Coercivité et existence de minimiseurs . . . . . . . . . . . . . . . . . . . . . . 36
II.II.1 Coercivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
II.II.2 Existence de minimiseurs . . . . . . . . . . . . . . . . . . . . . . . . . 38
II.III Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

III Optimisation convexe 43


III.I Convexité et globalité des minimiseurs . . . . . . . . . . . . . . . . . . . . . . 43
III.I.1 Ensemble convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
III.I.2 Fonction convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III.I.3 Caractérisation de la convexité pour les fonctions univariées . . . . . 46
III.I.4 Caractérisation de la convexité pour les fonctions multivariées . . . 48
III.I.5 Convexité et minimiseurs . . . . . . . . . . . . . . . . . . . . . . . . . 51
III.II Forte convexité : existence et unicité du minimiseur . . . . . . . . . . . . . . 52
III.II.1 Fonction fortement convexe . . . . . . . . . . . . . . . . . . . . . . . . 52
III.II.2 Caracterisation de la forte convexité . . . . . . . . . . . . . . . . . . . 53

7
8 TABLE DES MATIÈRES

III.II.3 Forte convexité et minimiseurs . . . . . . . . . . . . . . . . . . . . . . 54


III.III Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

IV Algorithmes de minimisation sans contrainte 57


IV.I Méthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.I.1 Algorithmes itératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.I.2 Directions de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
IV.I.3 Méthodes du gradient et de Newton . . . . . . . . . . . . . . . . . . . 61
IV.II Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
IV.II.1 Fonctions à gradient Lipschitzien . . . . . . . . . . . . . . . . . . . . . 64
IV.II.2 Conditionnement d’une fonction . . . . . . . . . . . . . . . . . . . . . 67
IV.III Méthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
IV.III.1 La méthode du gradient à pas fixe . . . . . . . . . . . . . . . . . . . . 69
IV.III.2 Méthode du gradient à pas optimal . . . . . . . . . . . . . . . . . . . 75
IV.IVRécapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

V Optimisation sous contraintes 81


V.I Introduction : Problèmes classiques . . . . . . . . . . . . . . . . . . . . . . . . 81
V.I.1 Polyèdres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.I.2 Optimisation Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
V.I.3 Optimisation Convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
V.II Théorème(s) de Lagrange-KKT . . . . . . . . . . . . . . . . . . . . . . . . . . 90
V.II.1 Contrainte d’inégalité simple et multiplicateur . . . . . . . . . . . . . 90
V.II.2 Condition d’Optimalité de KKT du 1er ordre . . . . . . . . . . . . . . 94
V.II.3 Condition d’Optimalité de KKT du 2e ordre . . . . . . . . . . . . . . 103
V.III Algorithmes pour l’optimisation sous contraintes . . . . . . . . . . . . . . . 107
V.III.1 Projection sur un convexe fermé . . . . . . . . . . . . . . . . . . . . . 107
V.III.2 Propriétés avancées de la projection . . . . . . . . . . . . . . . . . . . 112
V.III.3 Algorithme du gradient projeté . . . . . . . . . . . . . . . . . . . . . . 113
V.III.4 Algorithme de projection alternées * . . . . . . . . . . . . . . . . . . . 117
V.III.5 Pour aller plus loin * . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
V.IV Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

A Annexe : Convexité(s) et Convergence * 123


Chapitre I

Éléments d’Algèbre Linéaire et de Calcul


Différentiel

L’optimisation est une discipline qui emprunte beaucoup de notions à l’algèbre linéaire et
au calcul différentiel. Voici donc quelques rappels concernant les notions dont vous aurez
besoin dans ce cours. Les résultats qui suivent sont admis, bien que pour certains nous
reverrons leurs preuves en TD. J’en profite également pour tordre le cou à certaines idées
préconçues.

Comment lire ce chapitre ? Ceci est essentiellement un chapitre de rappels, bien qu’il
puisse contenir des choses que vous n’avez pas vues, ou simplement oubliées. Je vous
conseille donc d’en faire une première lecture en diagonale, afin de déterminer si ce qui
s’y trouve vous semble familier ou non ; puis, dans un deuxième temps, de travailler les
parties qui vous semblent les plus obscures. Vous pourrez par exemple vous tourner vers
les exercices qui sont proposés, que vous trouverez également dans la feuille de TD. Ils
ne seront pas tous traités en TD, donc n’hésitez pas à en piocher quelques-uns par vous-
mêmes.

Notations.

• N, M désigneront toujours des entiers supérieurs ou égaux à 1.


• L( E; F ) désigne l’espace des applications linéaires entre les espaces vectoriels E et F.
• B( E, F; G ) désigne l’espace des applications bilinéaires entre les espaces vectoriels E ×
F et G.
• R+ (resp. R− ) est une notation pour [0, +∞[ (resp. ] − ∞, 0]).

9
10 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

I.I Rappels et compléments d’algèbre linéaire


Dans ce cours, on note M M,N (R) l’espace vectoriel des matrices à M lignes et N colonnes.
Si M = N on écrira simplement M N (R). La transposée d’une matrice A ∈ M M,N (R) se
notera A> , ou parfois A∗ (il subsiste encore quelques doublons qu’il faut supprimer). Par
défaut, les vecteurs de R N exprimés dans la base canonique seront considérés comme des
éléments de M N,1 (R), c’est-à-dire des vecteurs  colonne .

I.I.1 La structure euclidienne de R N


I.I.1.i) Définitions de base
Le produit scalaire euclidien dans R N , noté h·, ·i : R N × R N → R, est défini par :
N
(∀ x ∈ R N )(∀y ∈ R N ) h x, yi := ∑ xi yi .
i =1

Si on regarde les vecteurs de R N comme des vecteurs colonne, on peut également écrire le
produit scalaire comme un produit matriciel entre une ligne et une colonne : h x, yi = x > y.
La norme euclidienne de R N , notée k · k : R N → R+ , est définie par :
v
q uN
(∀ x ∈ R ) k x k := h x, x i = t ∑ xi2 .
u
N
i =1

La distance euclidienne de R N , notée d(·, ·) : R N × R N → R+ , est définie par :


v
uN
(∀ x ∈ R N )(∀y ∈ R N ) d( x, y) := k x − yk = t ∑ ( xi − yi )2 .
u

i =1

Voici quelques propriétés utiles pour faire des calculs incluant des produits scalaires
et des normes :

Proposition I.1.
i) (Identité remarquable 1) Pour tous x, y ∈ R N , k x + yk2 = k x k2 + kyk2 + 2h x, yi.
ii) (Identité remarquable 2) Pour tous x, y ∈ R N , k x k2 − kyk2 = h x + y, x − yi.
iii) (Inégalité de Cauchy-Schwarz) Pour tous x, y ∈ R N , −k x kkyk ď h x, yi ď k x kkyk.
iv) (Règle de l’adjoint) Pour toute matrice A ∈ M M,N (R), x ∈ R N , y ∈ R M , h Ax, yi =
h x, A> yi.

Remarque I.2. Cette quatrième propriété est souvent méconnue/oubliée par les étudiant(e)s.
Elle est pourtant essentielle pour tout les calculs impliquant matrice et produit scalaire.
On la retrouvera régulièrement au long de ce cours. Elle permet par exemple d’écrire des
choses comme k Ax k2 = h A> Ax, x i.
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 11

I.I.1.ii) Orthogonalité
Définition I.3. On dira que deux vecteurs x et y de R N sont ORTHOGONAUX lorsque
h x, yi = 0.

Remarque I.4. C’est une notion que vous avez rencontré à de multiples reprises, par
exemple les bases orthogonales (bases dont les vecteurs sont tous orthogonaux les uns
avec les autres).

Définition I.5. Soit F ⊂ R N un sous-espace vectoriel. On dit que x ∈ R N est orthogonal à


F s’il est orthogonal avec tous les vecteurs de F. On définit l’ORTHOGONAL de F comme
étant l’ensemble de tous les vecteurs orthogonaux à F :

F ⊥ := { x ∗ ∈ R N | (∀ x ∈ F ) h x ∗ , x i = 0}.

Proposition I.6.
i) F ⊥ est un sous-espace vectoriel de R N .
ii) F et F ⊥ sont supplémentaires. En particulier, dim F + dim F ⊥ = N.
iii) ( F ⊥ )⊥ = F.

Un résultat très utile :

Proposition I.7. Soit A ∈ M N (R). Alors Ker( A)⊥ = Im( A> ) et Im( A)⊥ = Ker( A> ).

I.I.1.iii) Topologie euclidienne dans R N .


Quelques définitions :

Définition I.8. Soient x ∈ R N et r ∈]0, +∞[. On définit


• La BOULE OUVERTE centrée en x, de rayon r, par

B( x, r ) := {y ∈ R N | d( x, y) < r }.

• La BOULE FERM ÉE centrée en x, de rayon r, par

B( x, r ) := {y ∈ R N | d( x, y) ď r }.

Définition I.9.
• On dit qu’un ensemble U ⊂ R N est OUVERT si

(∀ x ∈ U )(∃r > 0) B( x, r ) ⊂ U.

• On dit qu’un ensemble F ⊂ R N est FERM É si son complémentaire R N \ F est ouvert.


12 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

• Étant donné un ensemble C ⊂ R N , on définit son INT ÉRIEUR , que l’on note int C,
comme étant l’ensemble

int C := { x ∈ C | (∃r > 0) B( x, r ) ⊂ C }.

Remarque I.10. Par définition, l’intérieur d’un ensemble est le plus petit ouvert inclus
dans cet ensemble. Ces définitions impliquent également que la boule ouverte est ouverte,
et que la boule fermée est fermée (heureusement !).

I.I.2 Spectre d’une matrice carrée


Définition I.11. On dit que λ ∈ R est une VALEUR PROPRE (réelle) de A ∈ M N (R) s’il
existe un vecteur non nul x ∈ R N tel que Ax = λx. Autrement dit, si A − λI n’est pas
inversible dans M N (R). On note specR ( A) l’ensemble des valeurs propres de A.

Proposition I.12. Les valeurs propres de A ∈ M N (R) sont les racines réelles du polynôme
caractéristique X 7→ det( XIN − A).

Remarque I.13. Une matrice A ∈ M N (R) peut ne posséder aucune valeur propre. Par
exemple la matrice
 
0 −1
1 0

dont le polynôme caractéristique est X 2 + 1.

Définition I.14. On dit que λ ∈ C est une VALEUR SPECTRALE (ou valeur propre com-
plexe) de A ∈ M N (R) s’il existe un vecteur non nul x ∈ C N tel que Ax = λx. Autrement
dit, si A − λI n’est pas inversible dans M N (C). Le SPECTRE de A, noté spec( A), est l’en-
semble des valeurs spectrales de A.

Proposition I.15. Les valeurs spectrales de A ∈ M N (R) sont les racines complexes du polynôme
caractéristique det( XIN − A).

Corollaire I.16. Pour A ∈ M N (R), specR ( A) = spec( A) ∩ R.

Remarque I.17.

• Dans certains cas, toutes les valeurs spectrales sont réelles : spec( A) = specR ( A). On
va par exemple voir que c’est le cas pour les matrices symétriques.
• Le spectre n’est jamais vide. C’est une conséquence du fait que tout polynôme réel
admet au moins une racine dans C.
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 13

Proposition I.18. Si A ∈ M N (R) est triangulaire, alors

spec( A) = specR ( A) = { A11 , · · · , A NN }.

Remarque I.19. Pour les matrices triangulaires, et en particulier pour les matrices dia-
gonales, les valeurs propres se situent donc sur la diagonale. C’est très pratique
 !
Mais
0 −1
c’est malheureusement faux en règle générale. Par exemple, le spectre de est
1 0
{−i, +i }, qui ne contient pas {0}.

Voici un résultat classique sur les valeurs spectrales d’une matrice :

Proposition I.20. Soit A ∈ M N (R), et soient λ1 , · · · , λ N les valeurs spectrales de A, comptées


avec leur multiplicité algébrique. Alors

i) tr( A) = ∑iN=1 λi ,
ii) det( A) = ∏iN=1 λi .

Remarque I.21. Il est important de prendre en compte la  multiplicité algébrique  ici !


Par exemple, considérons l’exemple très simple de la matrice 2I3 :
 
2 0 0
A = 0 2 0 .
0 0 2

Il est clair que spec( A) = {2} (et non pas (2, 2, 2) : on parle d’ensemble, pas de uplet !),
c’est à dire qu’il y a une unique valeur spectrale 2. Pour autant on voit bien que tr( A) 6= 2
et det( A) 6= 2. Pour que ce résultat marche, il nous faut prendre en compte la multipli-
cité algébrique de 2. Cette multiplicité est exactement la puissance apparaissant dans le
polynôme caractéristique de A, qui est ici ( X − 2)3 .

Définition I.22. Le RAYON SPECTRAL d’une matrice A ∈ M N (R), noté ρ( A), est défini
par
ρ( A) := max{|λ| | λ ∈ spec( A)}.

Remarque I.23. Un contre-sens classique est de penser que  le rayon spectral est la plus
grande valeur propre . Ceci est faux, pour de nombreuses raisons :

• Les valeurs propres peuvent ne pas exister. Le rayon spectral porte sur les valeurs
spectrales (ou les valeurs propres complexes).
• On ne peut pas parler de  plus grande valeur spectrale  non plus, car C n’est pas
muni d’une relation d’ordre total, contrairement à R ! On ne peut
√ pas comparer 2i et
1 + i par exemple. Par contre on peut comparer leur module 2 et 2.
14 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

• Même lorsque le spectre est réel, le rayon spectral ne maximise pas les valeurs propres
mais leur valeur absolue. Par exemple, pour la matrice
 
1 0
A=
0 −2

la plus grande valeur propre est 1 (puisque 1 > −2), mais ρ( A) = 2. Cela peut paraitre
un détail mais cela a son importance !

I.I.3 L’algèbre normée M M,N (R)


Définition I.24. La NORME D ’ OP ÉRATEUR d’une matrice A ∈ M M,N (R) (on parle aussi
de norme subordonnée euclidienne) est définie par :

k Ax k
 A := sup .
x 6 =0 kxk

Remarque I.25 (NormeS matricielleS). Il existe de nombreuses façons de munir M M,N (R)
d’une norme. Ceux parmi vous ayant suivi le cours d’Analyse Numérique Matricielle en
auront vu une palanquée (les normes d’opérateur ` p /`q , la norme de Froebenius) et il en
existe bien d’autres (citons la très utile norme nucléaire), les plus curieux pourront consul-
ter l’article Wikipédia sur le sujet1 . Néanmoins, dans ce cours nous ferons seulement appel
à la norme d’opérateur subordonnée à la norme euclidienne  ·  mentionnée ci-dessus.

Cette norme d’opérateur  ·  vérifie deux inégalités très importantes. La première est
une conséquence directe de la définition. La seconde est une propriété de sous-multiplicativité,
qui fait de  ·  ce que l’on appelle une norme d’algèbre.

Proposition I.26.

i)  ·  est une norme sur M M,N (R).


ii) Pour tout A ∈ M M,N (R), x ∈ R N , k Ax k ď  Ak x k.
iii) Pour tout A ∈ M M,N (R), B ∈ M N,P (R),  AB ď  A  B.

Exercice I.27. Soit A ∈ M N (R) telle que  A < 1. Montrer que Ak tend vers 0 (la matrice
nulle) lorsque k → +∞.

En pratique, la Définition I.24 n’est pas très sympathique à manipuler si on souhaite


calculer  A. Heureusement, on dispose d’un résultat permettant de ramener le calcul de
cette norme à un calcul de valeurs propres :
1 EnVF https://fr.wikipedia.org/wiki/Norme_matricielle ou en VA (plus complète) https://en.
wikipedia.org/wiki/Matrix_norm
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 15

Proposition I.28. Soit A ∈ M M,N (R). Alors :


q
 A = ρ ( A > A ).

I.I.4 Matrices symétriques et antisymétriques


Définition I.29. Soit A ∈ M N (R) une matrice carrée. On dit que
• A est SYM ÉTRIQUE, si A> = A.
• A est ANTISYM ÉTRIQUE, si A T = − A.

Exercice I.30. Pour toute matrice A ∈ M M,N (R), montrer que les matrices A> A ∈ M N (R)
et AA> ∈ M M (R) sont symétriques.

Exercice I.31. Soit A ∈ M N (R) une matrice antisymétrique. Montrer que, pour tout x ∈
R N , h Ax, x i = 0.

Exercice I.32. Soit A ∈ M N (R) quelconque. Montrer que A + A> est symétrique, et que
A − A> est antisymétrique.

Proposition I.33. Toute matrice A ∈ M N (R) peut se décomposer comme la somme d’une ma-
trice symétrique et d’une matrice antisymétrique. En effet :
A + A> A − AT
(∀ A ∈ M N (R)) A= + .
2 }
| {z 2 }
| {z
symétrique antisymétrique
>
Remarque I.34. On peut en fait même montrer que la matrice symétrique A+2A est la
projection orthogonale de A sur le sous-espace vectoriel des matrices symétriques.

Théorème I.35 (Théorème spectral). Soit A ∈ M N (R) une matrice symétrique. Alors il existe
• une matrice diagonale réelle D ∈ M N (R)
• une matrice inversible U ∈ M N (R) telle que U −1 = U T (une matrice orthogonale, donc)
telles que A = U > DU.

En particulier, toute matrice symétrique de M N (R) est diagonalisable dans R, et admet


N valeurs propres réelles (en comptant les éventuelles multiplicités). Ce qu’il y a d’avanta-
geux avec les matrices symétriques, c’est que de nombreuses propriétés/définitions/quantités
associées aux matrices en général peuvent se réexprimer simplement en fonctions des va-
leurs propres. Et comme les valeurs propres sont calculables2 , c’est très utile en pratique.
Par exemple :
2 Facileà la main pour N = 2, faisable à la main pour N = 3, pour le reste on laisse un programme
numérique s’en charger (approximativement).
16 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.36. Soit A ∈ M N (R) une matrice symétrique. Alors sa norme d’opérateur est
égale au rayon spectral :
 A = ρ ( A ).

Remarque I.37.  La norme d’opérateur est égale au rayon spectral  est faux en général,
puisque cela s’applique seulement aux matrices symétriques. Pour une matrice générale,
c’est la Proposition I.28 qui s’applique. Pour s’en rendre compte, considérons par exemple
   
0 1 > 1 0
A= telle que A A = .
0 0 0 0

On voit que spec( A> A) = {1, 0}, donc on déduit de la Proposition I.28 que  A = 1.
Pour autant, spec( A) = {0} (immédiat puisque A est triangulaire avec des zéros sur la
diagonale) donc ρ( A) = 0. Ici, la norme d’opérateur est bien différente du rayon spectral.

Puisque les matrices symétriques ont des valeurs propres réelles, on introduit deux
notations qui nous seront utiles par la suite :

Définition I.38. Soit A ∈ M N (R) une matrice symétrique. On note


• λmin ( A) ∈ R la plus petite valeur propre de A,
• λmax ( A) ∈ R la plus grande valeur propre de A.

Proposition I.39. Soit A ∈ M N (R) une matrice symétrique. Alors


(∀ x ∈ R N ) λmin ( A)k x k2 ď h Ax, x i ď λmax ( A)k x k2 .
Remarque I.40. Quelques commentaires sur l’utilité de ces deux inégalités :
• Si on veut borner supérieurement la quantité h Ax, x i, on peut utiliser l’inégalité de
Cauchy-Schwarz puis la définition de norme d’opérateur pour écrire :
h Ax, x i ď k Ax kk x k ď  Ak x k2 .
Or on a toujours λmax ( A) ď  A donc le résultat de la proposition est plus précis en
général.
• Cette borne inférieure est la  seule  inégalité classique dont on dispose pour borner
inférieurement des quantités faisant intervenir une matrice.

Remarque I.41 (Inégalité de l’ellipse). Lorsque la matrice symétrique A est également à


valeurs propres positives, on peut visualiser cette inégalité comme le fait de chercher les
 et circonscrit à une ellipse. Considérons par exemple dans R la matrice
cercles 2
 inscrit
1 0
A= , telle que λmin ( A) = 1 et λmax ( A) = 4. Considérons les fonctions de R2 → R
0 4
suivantes
f circ : ( x1 , x2 ) 7→ x12 + x22 , f ell : ( x1 , x2 ) 7→ x12 + 4x22 , f insc : ( x1 , x2 ) 7→ 4x12 + 4x22 .
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 17

La Proposition I.39 ne dit rien d’autre que le fait que f circ ( x1 , x2 ) ď f ell ( x1 , x2 ) ď f insc ( x1 , x2 ).
L’ordre entre ces fonctions peut se voir clairement lorsque on trace leur graphe (cf Figure
I.1).

 
1 0
F IGURE I.1 – Inégalité de la Proposition I.39 pour A = .
0 4

Attention toutefois à bien garder en tête que la Proposition I.39 est encore vraie lorsque
λmin ( A) < 0 ! Dans ce cas, cette histoire d’ellipses ne tient plus puisque la fonction qua-
dratique associée à A est dégénérée, et ses courbes de niveaux ne sont plus des ellipses
mais des hyperboles (voir Figure I.2).

I.I.5 Matrices semi-définies positives et définies positives


I.I.5.i) La théorie

Définition I.42. Soit A ∈ M N (R) une matrice. On dit que :

• A est SEMI - D ÉFINIE POSITIVE, et on note A  0, si

(∀ x ∈ R N ) h Ax, x i ě 0.

• A est D ÉFINIE POSITIVE, et on note A  0, si

(∀ x ∈ R N \ {0}) h Ax, x i > 0.


18 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

 
−1 0
F IGURE I.2 – Inégalité de la Proposition I.39 pour A = .
0 4

Remarque I.43 (Matrice semi-définie positive vs. coefficients positifs). La notion de ma-
trice semi-définie positive est parfois confondue avec la notion de  matrice-dont-les-
coefficients-sont-positifs , or ces deux notions n’ont rien en commun. Par exemple, la
matrice  
0 −1
(I.1)
1 0
possède un coefficient négatif, néanmoins elle est bien semi-définie positive puisque
        
0 −1 x x −y x
(∀( x, y) ∈ R )
2
h , i=h , i = −yx + xy = 0 ě 0.
1 0 y y x y

D’un autre côté, la matrice  


1 2
2 1
est clairement à coefficient positifs, néanmoins on peut montrer qu’elle n’est pas une ma-
trice semi-définie positive. (On reverra cet exemple plus tard)

Remarque I.44 (Matrice semi-définie positive et valeurs propres). Une autre confusion
fréquente est la suivante :

 Une matrice est semi-définie positive si et seulement si ses valeurs propres sont
positives ,
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 19

voire également :
 Une matrice est définie positive si et seulement si ses valeurs propres sont strictement
positives .

Ces deux énoncés sont faux en général. Rappelons par exemple qu’une matrice carrée
n’admet pas nécessairement de valeurs propres, c’est le cas de la matrice (I.1) qui n’admet
aucune valeur propre réelle, mais qui pourtant est bien semi-définie positive. Par contre
que ces énoncés sont vrais si la matrice en question est symétrique :

Proposition I.45. Soit A ∈ M N (R) une matrice symétrique. Alors on a les équivalences sui-
vantes :

i) A est semi-définie positive ⇔ λmin ( A) ě 0.


ii) A est définie positive ⇔ λmin ( A) > 0 ⇔ A est semi-définie positive et inversible.

Exercice I.46. Soit A ∈ M M,N (R), montrer que :

1) les matrices A> A ∈ M N (R) et AA> ∈ M M (R) sont symétriques semi-définies posi-
tives ;
2) A> A est définie positive si et seulement si A est injective ;
3) AA> est définie positive si et seulement si A est surjective.

Et pour les matrices non symétriques ? Eh bien nous pouvons toujours nous ramener
aux matrices symétriques, grâce au résultat suivant :

Proposition I.47. Soit A ∈ M N (R) une matrice carrée. Alors :


A> + A
A est (semi-) définie positive si et seulement si 2 est (semi-) définie positive .

En pratique, pour une matrice carrée A quelconque, il suffit donc de vérifier le signe
>
des valeurs propres de la matrice symétrique A 2+ A .
 
0 1
Exemple I.48. Si on considère la matrice triangulaire A = , on voit que spec( A) =
0 0
{0}. Mais on ne peut pas en déduire immédiatement que A est semi-définie  positive,
A> + A 0 1/2
puisque elle n’est pas symétrique ! Par contre on peut calculer 2 = ,
1/2 0
dont l’ensemble des valeurs propres est {±1/2}. Puisque l’une des valeurs propres est
négative, on en déduit que A n’est pas une matrice semi-définie positive.

Donc, moralement, la question de la positivité (resp. définie positivité) d’une matrice


peut toujours se ramener à celle de la positivité (resp. stricte positivité) de toutes les va-
leurs propres d’une matrice. Mais que se passe-t-il lorsque certaines de ces valeurs propres
20 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

sont négatives ? Si elles le sont toutes, on parle de matrice semi-définie négative, sinon on
parle de matrice indéfinie :

Définition I.49. On dit que A ∈ M N ( A) est :


• SEMI - D ÉFINIE N ÉGATIVE , et on note A ĺ 0, si − A est semi-définie positive :

(∀ x ∈ R N ) h Ax, x i ď 0.

• D ÉFINIE N ÉGATIVE , et on note A ă 0, si − A est définie positive :

(∀ x ∈ R N \ {0}) h Ax, x i < 0.

• IND ÉFINIE si elle n’est ni semi-définie positive ni semi-définie négative. Autrement


dit, si
(∃ x1 , x2 ∈ R N ) h Ax1 , x1 i < 0 et h Ax2 , x2 i > 0.

Exemple I.50. Il peut être intéressant de visualiser ces propriétés d’une matrice A en re-
gardant le graphe de la fonction quadratique associée q A : x 7→ h Ax, x i. Comme on peut
le voir dans la figure I.3, les formes quadratiques définies positives montent à l’infini dans
toutes les directions. Lorsque A est semi-définie positive mais pas définie positive, cela
veut dire qu’il y a un noyau non nul, ce qui se traduit par des directions où la forme qua-
dratique est constante. Lorsque A est non définie, la forme quadratique peut tendre vers
+∞ ou −∞, selon la direction dans laquelle on va. Dans ce cas on parle souvent de point
selle, qui est une notion que l’on reverra bientôt.

F IGURE I.3 – Formes quadratiques respectivement associées à une matrice définie positive,
semi-définie positive et non définie.

I.I.5.ii) La pratique
Un réflexe naturel pour déterminer la positivité d’une matrice symétrique est de calcu-
ler ses valeurs propres, puis de simplement vérifier leur signe. Or, calculer les valeurs
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 21

propres, ce n’est pas facile lorsque la dimension dépasse 3 (et déjà pour N = 3 ce n’est pas
très sympathique).
Mais en réalité nous n’avons pas besoin de calculer les valeurs propres ; tout ce dont
on a besoin est leur signe. Par exemple, pour les matrices 2 × 2 :

Exercice I.51. (Positivité d’une matrice symétrique 2 × 2) Soit A ∈ M2 (R) une matrice
symétrique. Montrer que A est semi-définie positive (resp. définie positive) si et seulement
si sa trace et son déterminant sont positifs (resp. strictement positifs).

Exercice I.52 (Matrices semi-définies positives et définies positives). Déterminer la nature


des matrices suivantes (définie positive, semi-définie positive ou non définie) :
       
1 2 2 −1 1 1 1 −1
2 1 −1 1 1 0 −1 1
       
1 4 2 0 1 3 1 −2
0 1 −2 1 −1 0 0 1

Ce critère ne vaut évidemment que pour les matrices de taille 2. Pour des matrices
plus grandes, on dispose en fait d’un critère plus général, qui passe par le calcul de
déterminants de certaines sous-matrices :

Théorème I.53 (Critère de Sylvester). Soit A ∈ M N (R) une matrice symétrique. Alors :

i) A est semi-définie positive si et seulement si tous ses mineurs principaux sont positifs.
ii) A est définie positive si et seulement si tous ses mineurs principaux sont strictement positifs.

La sous-section suivante présente la notion de mineurs principaux, si vous ne l’avez


jamais vue.

I.I.5.iii) Mineurs principaux


Définition I.54. Soit A ∈ M N (R) et I ( {1, · · · , N }. On note A I la sous-matrice de
A obtenue en lui retirant ses i-ème ligne et i-ème colonne, pour tout i ∈ I. On dit que
A I ∈ M N −| I | (R) est une sous-matrice PRINCIPALE.

Exercice I.55. Listons toutes les sous-matrices principales de la matrice


 
1 2 3
A = 4 5 6 .
7 8 9

Pour commencer, il n’y a qu’une sous-matrice principale de taille 3, qui est A elle-même.
On l’obtient avec A I en prenant I = ∅. Ensuite viennent les sous-matrices de taille 2, qui
22 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

s’obtiennent en retirant i-ème ligne et i-ème colonne pour i = 1, 2, 3 :


     
5 6 1 3 1 2
AI = , , .
8 9 7 9 4 5
| {z } | {z } | {z }
I ={1} I ={2} I ={3}

Enfin, les sous-matrices de taille 1, qui s’obtiennent en retirant deux lignes et deux co-
lonnes, et qui correspondent aux éléments diagonaux :
  
AI = 9 , 5 , 1 .
|{z} |{z} |{z}
I ={1,2} I ={1,3} I ={2,3}

Exercice I.56. Listons toutes les sous-matrices principales de la matrice


 
01 02 03 04
05 06 07 08
A= 09 10 11 12 .

13 14 15 16
Pour commencer, il n’y a qu’une sous-matrice principale de taille 4, qui est A elle-même.
Ensuite les sous-matrices de taille 3, qui s’obtiennent en retirant i-ème ligne et i-ème co-
lonne pour i = 1..4 :
       
06 07 08 01 03 04 01 02 04 01 02 03
A I = 10 11 12, 09 11 12, 05 06 08, 05 06 07 .
14 15 16 13 15 16 13 14 16 09 10 11
| {z } | {z } | {z } | {z }
I ={1} I ={2} I ={3} I ={4}

Ensuite les sous-matrices de taille 2, qui s’obtiennent en retirant une paire de lignes/colonnes
à A. On peut également les obtenir en retirant UNE ligne/colonne aux sous-matrices prin-
cipales de taille 3 :
           
11 12 06 08 06 07 01 04 01 03 01 02
AI = , , , , , .
15 16 14 16 10 11 13 16 09 11 05 06
| {z } | {z } | {z } | {z } | {z } | {z }
I ={1,2} I ={1,3} I ={1,4} I ={2,3} I ={2,4} I ={3,4}

Enfin, les sous-matrices de taille 1, qui correspondent aux éléments diagonaux :


   
A I = 16 , 11 , 06 , 01 .
|{z} |{z} |{z} |{z}
I ={1,2,3} I ={1,2,4} I ={1,3,4} I ={2,3,4}

L’ensemble des mineurs principaux d’une matrice correspond simplement à l’ensemble


des déterminants de toutes ses sous-matrices principales :

Définition I.57. Soit A ∈ M N (R). On définit l’ensemble de ses MINEURS PRINCIPAUX


par
{det( A I ) : I ( {1, · · · , N }} ⊂ R.
I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 23

I.II Rappels et compléments de calcul différentiel


La notation o ( g(h)) désigne une fonction signifie qu’il existe une fonction ε : R N → R telle
que limh→0 ε(h) = 0, et qui permette d’écrire le reste sous la forme o ( g(h)) = g(h)ε(h).
Étant donné une fonction F : U ⊂ R N → R M , on notera F1 , · · · , FM : U → R les
fonctions qui vérifient
(∀ x ∈ U ) F ( x ) = ( F1 ( x ), · · · , FM ( x )).
Une autre façon d’écrire ceci est de poser Fi ( x ) = h F ( x ), ei i où ei est le i-ème vecteur de la
base canonique de R M .

I.II.1 Différentielle
Définition I.58 (Différentielle). Soit U ⊂ R N un ouvert et F : U → R M une application.
Soit x ∈ U. On dit que F est DIFF ÉRENTIABLE au point x s’il existe une application linéaire
u ∈ L(R N ; R M ) telle que pour tout h ∈ R N t.q. x + h ∈ U,
F ( x + h) = F ( x ) + u(h) + o (khk).
Lorsque u existe, elle est unique ; on la note u = DF ( x ).
Si l’application x 7→ DF ( x ) est définie sur tout U, et y est continue, on dit alors que F est
de classe C1 sur U et on note F ∈ C1 (U ).

Définition I.59 (Dérivée directionnelle). Soit f : R N → R et d ∈ R N \ {0}. On dit que


f admet une D ÉRIV ÉE DIRECTIONNELLE dans la direction d, au point x, si l’application
t ∈ R 7→ f ( x + td) est dérivable en 0. Si c’est le cas, on note cette dérivée
∂f f ( x + td) − f ( x )
( x ) := lim .
∂d t →0 t
Si d = ei est l’un des vecteurs de la base canonique de R N , on appelle cette dérivée direc-
tionnelle la i-ème D ÉRIV ÉE PARTIELLE de f au point x, que l’on note
∂f f ( x + tei ) − f ( x ) f ( x1 , . . . , xi−1 , xi + t, xi+1 , . . . , x N ) − f ( x1 , . . . , x N )
( x ) := lim = lim .
∂xi t →0 t t →0 t
Remarque I.60 (Matrice Jacobienne). Toute application linéaire u ∈ L(R N , R M ) peut être
réprésentée par une matrice A ∈ M M,N (R) telle que u( x ) soit égale au produit matriciel
Ax. Plus précisément, cette matrice A est la matrice représentant u dans la base canonique.
Dans le cas de la différentielle DF ( x ), sa matrice associée est la matrice J ACOBIENNE, que
l’on note JF ( x ). Au vu de la définition précédente, cette matrice vérifie
F ( x + h) = F ( x ) + JF ( x )h + o (khk).
On se rappelle en général de la matrice Jacobienne comme étant  la matrice des dérivées
partielles  de F. C’est effectivement le cas, comme le prouve la prochaine Proposition :
24 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.61 (Jacobienne et dérivées partielles). Soit U ⊂ R N un ouvert et F : U → R M


une fonction différentiable en x ∈ U. Alors :

i) Pour tout i = 1, · · · , M, Fi admet des dérivées directionnelles en toute direction au point x.


En particulier, elle admet des dérivées partielles en x.
ii) Les coefficients de la matrice Jacobienne JF ( x ) sont des dérivées partielles en x :
  
∂F1 ∂F1
· · ·

∂x1 ( x ) ∂x N ( x ) JF1 ( x )
 . .. ..   .. 
JF ( x ) =  ..
 . .  = . 
∂FM
∂x ( x ) · · ·
∂FM
∂x ( x )
JFM ( x )
1 N

Remarque I.62 (Vecteur Gradient). Si f : R N → R1 (on insiste sur le fait que M = 1) est
différentiable en x, alors J f ( x ) ∈ M1,N (R) est un vecteur ligne (et D f ( x ) est une forme
linéaire). Sa transposée est donc identifiable à un vecteur (colonne), que l’on appelle le
GRADIENT de F en x : ∇ f ( x ) = J f ( x ) T .

Proposition I.63. Si f : U ⊂ R N → R est différentiable en x ∈ U, alors :

i) Elle admet des dérivées directionnelles en toute direction au point x (et en particulier, des
dérivées partielles).
ii) Le gradient de f en x s’écrit  
∂f
∂x1 ( x )

∇ f (x) =  .. 
 .  
∂f
∂x ( x )
N

iii) On a la relation suivante entre différentielle, gradient, dérivée directionnelle et dérivée partielle :
N
∂f ∂f
(∀d ∈ R N ) D f ( x )(d) = ( x ) = h∇ f ( x ), di = ∑ ( x ) di .
∂d i =1
∂xi

Remarque I.64 (Calcul du gradient). Pour calculer le gradient de f au point x, il n’est


pas toujours nécessaire de calculer explicitement toutes les dérivées partielles. Une autre
méthode consiste à établir un développement limité de f sous la forme suivante :

f (u + h) = f (u) + hw, hi + o (k hk)

où w ∈ R N est un certain vecteur fixé. Alors, on peut affirmer que f est différentiable en
u, et que
w = ∇ f ( u ).

Théorème I.65 (Règles de calcul).


I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 25

i) Soient F, G : U ⊂ R N → R M deux fonctions différentiables en x ∈ U. Alors F + G est


différentiable en x, et

D ( F + G )( x ) = DF ( x ) + DG ( x ) et J ( F + G )( x ) = JF ( x ) + JG ( x ).

ii) Soient G : R N → R M et F : R M → RP , telles que G soit différentiable en x et F soit


différentiable en G ( x ). Alors F ◦ G : R N → RP est différentiable en x, et

D ( F ◦ G )( x ) = DF ( G ( x )) ◦ DG ( x ) et J ( F ◦ G )( x ) = JF ( G ( x )) JG ( x ) .
| {z } | {z } | {z }
∈M P,N (R) ∈M P,M (R) ∈M M,N (R)

iii) Soient G : R N → R M et f : R M → R, telles que G soit différentiable en x et f soit


différentiable en G ( x ). Alors f ◦ G : R N → R est différentiable en x, et

∇( f ◦ G )( x ) = JG ( x )> ∇ f ( G ( x )) .
| {z } | {z } | {z }
∈R N ∈M N,M (R) ∈R M

Exemple I.66. Soit f : R → R. Alors ∇ f ( x ) = f 0 ( x ).

Exemple I.67. Soit f ( x ) = 12 k x k2 , alors ∇ f ( x ) = x et D f ( x ) = x T .

Exemple I.68. Si F : R N → R M est constante, alors DF ( x ) = 0.

Exemple I.69. Si F : R N → R M est linéaire, alors DF ( x ) = F.

Exercice I.70 (Dériver la trace). Soit f : M N (R) → R définie par f ( X ) = tr( X ).


1) Calculer D f ( X ), pour X ∈ M N (R).
2) On munit M N (R) du produit scalaire suivant (on admet que c’est un produit scalaire) :

(∀ X, Y ∈ M N (R)) hh X, Y ii = tr( X > Y ).


Calculer ∇ f ( X ).

Exercice I.71 (Gradient d’une composée). Soit g : R N −→ R différentiable, et f ( x ) =


g( x )2+ , où la notation x+ veut dire max{0, x } (on parle de partie positive). Calculer ∇ f ( x ).
même question avec f ( x ) = g( x )2 .

Exemple I.72. Soit f ( x ) = g( Ax + b) où A ∈ M M,N (R) et g : R M → R est différentiable.


Alors ∇ f ( x ) = A T ∇ g( Ax + b).

Exemple I.73. Si f ( x ) = 12 k Ax − bk2 , alors ∇ f ( x ) = A T ( Ax − b).

On termine avec un résultat qui n’est pas central dans ce cours, mais que l’on utilisera
par la suite dans les preuves :
26 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.74 (Théorème de Taylor-Lagrange, ordre 1). Soit a ∈ R N , U = B( a, R) une


boule ouverte de R N , et f : U → R de classe C1 (U ). Alors, pour tout x ∈ U, il existe z ∈] a, x [
tel que
f ( x ) = f ( a) + h∇ f (z), x − ai.

I.II.2 Différentielle seconde


Définition I.75 (Différentielle seconde). Soit U un ouvert de R N et F : U → R M . On dit
que F est deux fois différentiable en x ∈ U si F est différentiable sur U, et s’il existe une
application bilinéaire symétrique b ∈ B(R N , R N ; R M ) telle que

1
(∀h ∈ U − x ) F ( x + h) = F ( x ) + DF ( x )(h) + b(h, h) + o (khk2 ).
2
Dans ce cas b est uniquement définie, et c’est la différentielle seconde de F en x, notée
D2 F ( x ). Si l’application x 7→ D2 F ( x ) existe et est continue sur U, on note F ∈ C2 (U ).

Proposition I.76 (La différentielle de la différentielle). Soit F : U ⊂ R N → R M deux fois


différentiable en x ∈ U. Alors

(∀h, k ∈ R N ) D2 F ( x )(h, k ) = D ( DF )( x )(h)(k ).

Remarque I.77 (Matrice hessienne). Pour toute application bilinéaire b ∈ B(R N , R N ; R)


il existe une unique matrice B ∈ R N × N telle que b( x, y) = h Bx, yi. Cela revient à dire que
Bij = b(ei , e j ). Dans le cas de la différentielle seconde D2 f ( x ) d’une fonction f de R N → R,
la matrice associée est la matrice H ESSIENNE, notée ∇2 f ( x ), et qui vérifie les propriétés
suivantes :

Proposition I.78. Soit f : R N → R une fonction deux fois différentiable en x ∈ U. Alors :

i) (Symétrie) ∇2 f ( x ) est une matrice symétrique.


∂2 f
 
ii) (Matrice des dérivées partielles seconde) ∇2 f ( x ) = ∂xi ∂x j ( x ) ij .

iii) (Jacobienne du gradient) ∇2 f ( x ) = J (∇ f )( x ).


iv) (Taylor ordre 2) (∀h ∈ R N ) f ( x + h) = f ( x ) + h∇ f ( x ), hi + 21 h∇2 f ( x )h, hi + o (khk2 ).

Théorème I.79 (Règles de calcul).

i) Soient F, G : U ⊂ R N → R M deux fonctions deux fois différentiables en x ∈ U. Alors F + G


est deux fois différentiable en x, et

D2 ( F + G )( x ) = D2 F ( x ) + D2 G ( x ).
I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 27

ii) Soient G : R N → R M et F : R M → RP , telles que G soit deux fois différentiable en x et F soit


deux fois différentiable en G ( x ). Alors F ◦ G : R N → RP est deux fois différentiable en x, et
D2 ( F ◦ G )( x ) = D2 F ( G ( x )) ◦ ( DG ( x ) ⊗ DG ( x )) + DF ( G ( x )) ◦ D2 G ( x ),
autrement dit, pour tout h, k ∈ R N :
D2 ( F ◦ G )( x )(h, k ) = D2 F ( G ( x ))( DG ( x )(h), DG ( x )(k)) + DF ( G ( x ))( D2 G ( x )(h, k)).

iii) Soient G : R N → R M et f : R M → R, telles que G soit deux fois différentiable en x et f soit


deux fois différentiable en G ( x ). Alors f ◦ G : R N → R est deux fois différentiable en x, et
M
∂f
∇2 ( f ◦ G )( x ) = JG ( x )> ∇2 f ( G ( x )) JG ( x ) + ∑ ( G ( x ))∇2 Gi ( x ).
i =1
∂x i

Remarque I.80. La règle de calcul un peu barbare pour la différentielle seconde de la


composition est à rapprocher de celle que l’on retrouve facilement pour la dérivée seconde
de la composée de deux fonctions réelles :
( f ◦ g)00 ( x ) = ( f 0 ◦ g · g0 )0 ( x ) = f 00 ( g( x )) g0 ( x ) g0 ( x ) + f 0 ( g( x )) g00 ( x ).
Exemple I.81. Soit f : R → R. Alors ∇2 f ( x ) = f 00 ( x ).

Exemple I.82. Soit f ( x ) = 21 k x k2 , alors ∇2 f ( x ) = Id et D2 f ( x ) = h·, ·i.

Exemple I.83. Si F : R N → R M est linéaire ou affine alors D2 F ( x ) = 0.

Exemple I.84. Soit f ( x ) = g( Ax + b) où A ∈ M M,N (R) et g : R M → R est deux fois


différentiable. Alors ∇2 f ( x ) = A T ∇2 g( Ax + b) A.

Exemple I.85. Si f ( x ) = 12 k Ax − bk2 , alors ∇2 f ( x ) = A T A.

Exemple I.86. Si f ( x ) = h Ax, x i, alors ∇2 f ( x ) = ( A + A T )/2. Si A est symétrique on


obtient ∇2 f ( x ) = A.

Proposition I.87 (Théorème de Taylor-Lagrange, ordre 2). Soit a ∈ R N , U = B( a, R) une


boule ouverte de R N , et f : U → R de classe C2 (U ). Alors, pour tout x ∈ U, il existe z ∈] a, x [
tel que
1
f ( x ) = f ( a) + h∇ f ( x ), x − ai + h∇2 f (z)( x − a), x − ai.
2

I.II.3 Fonctions quadratiques


Définition I.88. (Fonction quadratique) On dira qu’une fonction f : R N → R est QUA -
DRATIQUE si elle peut s’écrire sous la forme

f ( x ) = h Ax, x i + hb, x i + c,
où A ∈ M N (R), b ∈ R N et c ∈ R.
28 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Remarque I.89. Les fonctions quadratiques sont des polynômes de degré 2 en les va-
riables x1 , . . . , x N . En effet, en notant aij et bi les coefficients de A et b, on peut écrire

N N N
f (x) = ∑ ∑ aij x j xi + ∑ bi xi + c.
i =1 j =1 i =1

Exemple I.90. Les fonctions quadratiques de R dans R sont exactement les  fonctions
du second degré  abondamment étudiées au lycée : f ( x ) = ax2 + bx + c.

Exemple I.91. f ( x, y) = 2x2 + y2 − xy + 3x − 2 est une fonction quadratique sur R2 .

Exemple I.92. f ( x, y) = 2x2 + y2 − xy2 + 3x − 2 n’est pas une fonction quadratique sur
R2 car c’est un polynôme de degré 3.

Proposition I.93. Soit f ( x ) = h Ax, x i + hb, x i + c une fonction quadratique sur R N . Alors

∇ f ( x ) = ( A + A> ) x + b et ∇2 f ( x ) = A + A > .

En particulier, si A est symétrique, on a ∇ f ( x ) = 2Ax + b et ∇2 f ( x ) = 2A.

Exercice I.94 (Moindre carrés). Soit A ∈ M M,N (R), y ∈ R M , et f : R N → R définie par

f ( x ) = k Ax − yk2 .

Montrer que f est une fonction quadratique, et calculer son gradient et sa Hessienne.
Chapitre II

Existence de minimiseurs et conditions


d’optimalité

F IGURE II.1 –  La nature agit toujours par les voies les plus courtes , Pierre de Fermat (1657).
 Lorsqu’il arrive quelque changement dans la Nature, la quantité d’action, nécessaire pour ce

changement, est la plus petite qu’il soit possible , Pierre de Maupertuis (1756).

Dans ce chapitre, on considèrera que U ⊂ R N est un ouvert, et que f : U → R, et que


C ⊂ U est non vide. On s’intéresse au problème d’optimisation suivant :

( PC ) inf f ( x )
x ∈C

Ici, on dit que C est la CONTRAINTE de notre problème d’optimisation. Lorsque C = R N ,


on parle en général d’optimisation sans contrainte.

II.I Conditions d’optimalité et Principe de Fermat


On commence ce chapitre en définissant :

29
30 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

II.I.1 Un peu de vocabulaire


Définition II.1. Soit C ⊂ R N , et f : C −→ R.

• L’INFIMUM de f , noté infC f , est défini par infC f := inf{ f ( x ) | x ∈ C } ∈ [−∞, +∞[.
• Lorsque infC f 6= −∞, on dit que f est MINOR ÉE sur C.
• On dit que x̄ ∈ C est un MINIMISEUR de f sur C, si f ( x̄ ) = infC f . Autrement dit, si

(∀ x ∈ C ) f ( x̄ ) ď f ( x ).

• On note argminC f ⊂ C l’ensemble des minimiseurs de f sur C :

argminC f = { x̄ ∈ C | f ( x̄ ) = inf f }.
C

Lorsqu’on sait qu’il existe un minimiseur, on dit que l’infimum est atteint, et au lieu
d’infimum on parle en général plutôt de MINIMUM, que l’on note minC f .
Enfin, lorsque C = R N , on omet de le mentionner, et on parlera simplement d’infimum
(inf f ), minimum (min f ), minimiseur (argmin f ).

Remarque II.2 (Vocabulaire et subtilités).

• Il arrive parfois que l’on parle de minimum, ou de minC f , sans savoir s’il existe un
minimiseur. C’est un léger abus, qu’on essaiera d’éviter dans ce cours, mais que vous
allez très certainement rencontrer ailleurs.
• Il y a une ambiguı̈té beaucoup plus problématique concernant le terme minimum, dont
le sens est souvent confondu avec celui de minimiseur. Martelons donc ici que :

◦ le minimum désigne la plus petite valeur que peut prendre une fonction,
◦ minimiseur désigne un point en lequel la fonction atteint son minimum.

Encore une fois, on essaiera dans ce cours de bien faire la différence entre les deux, et il
est probable que vous trouviez une utilisation différente de ces termes dans des livres.
• Au lieu de minimiseur, on emploiera parfois le terme de minimiseur GLOBAL, par op-
position avec la Définition II.5 à venir. Les deux termes sont légitimes, on utilisera l’un
ou l’autre en fonction du contexte.

Exemple II.3. Voici quelques exemples typiques, que je vous conseille de toujours gar-
der en tête lorsque vous vous posez des questions sur les minimiseurs/minimum d’une
fonction. Faites un dessin pour vous convaincre !

• (Pas minorée) f ( x ) = x, ou f ( x ) = ln x ne sont pas minorées : inf f = −∞ et argmin f =


∅.
II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 31

• (Minorée, pas de minimiseur) f ( x ) = e x pour laquelle inf f = 0 mais argmin f = ∅.


Même chose pour f ( x ) = 1/x sur ]0, +∞[.
• (Minimiseur unique) f ( x ) = x2 pour laquelle min f = 0 et argmin f = {0}.
• (Minimiseurs multiples mais en nombre fini) f ( x ) = (( x − 1)( x + 1))2 pour laquelle
min f = 0 et argmin f = {−1, +1}.
• (Ensemble infini de minimiseurs, mais discret) f ( x ) = cos( x ) pour laquelle min f =
−1 et argmin f = −π + 2πZ.
• (Continuum de minimiseurs) f ( x, y) = x2 pour laquelle inf f = 0 et argmin f = {0} ×
R.

Exercice II.4 (Existence de minimiseurs). Les fonctions suivantes atteignent-elles leur mi-
nimum ?
1) f ( x ) = exp(− x ) sur C = R+ , puis C = R− .
2) f ( x ) = cos(exp( x2 )) sur C = [0, 1].
3) f ( x ) = −k x k2 sur la boule fermée C = B(0, 1).
4) f ( x, y) = x6 cos y + 2y2 sur C = R2 .

Les notions introduites dans la Définition II.1 peuvent être déclinées localement :

Définition II.5 (Minimiseur local). Soit f : C ⊂ R N −→ R. On dit que x̄ ∈ C est un


MINIMISEUR LOCAL de f sur C si

(∃ R > 0)(∀ x ∈ B( x̄, R) ∩ C ) f ( x̄ ) ď f ( x ).


Lorsque C = R N , on omettra de le mentionner, et on dira simplement que x̄ est un mini-
miseur local de f .

Remarque II.6. On peut reformuler la Définition II.5 ainsi : x̄ est un minimiseur local de f
sur C si il existe un voisinage U de x̄ tel que x̄ soit un minimiseur (global) de f sur C ∩ U.

Exemple II.7. L’existence d’un minimiseur local ne prédétermine en rien l’existence de


minimiseurs globaux. Pire, on peut même avoir une fonction non minorée, comme par
fonction polynômiale f ( x ) = x ( x − 1)( x + 1) pour laquelle inf f = −∞ bien
exemple la √
que x = 1/ 3 soit un minimiseur local.

Définition II.8. Soit f : C ⊂ R N −→ R, et x̄ ∈ C. On dit que x̄ est un maximiseur (resp.


maximiseur local) de f sur C, s’il est un minimiseur (resp. minimiseur local) de − f sur C.
Si x̄ est un minimiseur ou un maximiseur (local), on dit que c’est un EXTREMA (local).

De manière plus générale, toutes les notions et propriétés que l’on va voir par la suite
porteront sur les problèmes de minimisation, et de recherche de minimiseurs, mais s’adap-
teront très facilement aux maximiseurs : il suffira de remplacer f par − f dans les énoncés.
32 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

II.I.2 Conditions d’Optimalité du 1er ordre


Le Théorème suivant est généralement connu sous le nom de Théorème de Fermat :

Théorème II.9.
On suppose que f est différentiable en un minimiseur local x̄. Alors ∇ f ( x̄ ) = 0.

Dans le cas où on est en présence d’une contrainte, et que le point que l’on considère
est à l’intérieur de la contrainte, on obtient le même résultat :

Théorème II.10 (Théorème de Fermat : Condition Nécessaire d’Optimalité du 1er ordre).


On suppose que f est différentiable en un minimiseur local x̄ sur C, et que x̄ ∈ int C. Alors :

∇ f ( x̄ ) = 0.

Remarque II.11. Le Théorème II.10 est encore vrai si on remplace  minimiseur local  par
 maximiseur local . Pour s’en convaincre, il suffit de remplacer f par − f dans l’énoncé.

Démonstration. f admet un minimiseur local en x̄, donc il existe R > 0 t.q.

(∀ x ∈ C ∩ B( x̄; R)) f ( x ) ě f ( x̄ ). (II.1)

Comme x̄ ∈ int C, quitte à réduire le rayon R, on peut supposer que BR ( x̄ ) ⊂ C. Puisque


f est différentiable en x̄, elle admet une dérivée directionnelle en x̄ dans toute direction
d ∈ R N , et :

f ( x̄ + td) − f ( x̄ )
h∇ f ( x̄ ), di = lim ě 0,
t →0 t
où l’inégalité vient du fait que, lorsque kdk|t| < R, on a x̄ + td ∈ B( x̄; R) ⊂ C et donc on
peut utiliser (II.1). On a donc montré que

(∀d ∈ R N ) h∇ f ( x̄ ), di ě 0,

Ce qui implique que ∇ f ( x̄ ) = 0. 

Remarque II.12. Le résultat n’est plus valide lorsque x̄ n’est pas à l’intérieur de la contrainte.
Un contre-exemple simple est f ( x ) = x2 , avec C = [1, 2]. Dans ce cas x̄ = 1 est un minimi-
seur global sur C, mais f 0 ( x ) = 2 6= 0.

Remarque II.13. La réciproque est fausse en général, prendre par exemple f ( x ) = x3 ,


f ( x ) = − x2 ou f ( x, y) = x2 − y2 . C’est pour cela que l’on parle de condition N ÉCESSAIRE
du premier ordre.

Définition II.14. Un point x où f est différentiable et ∇ f ( x ) = 0 est appelé POINT CRI -
TIQUE ( DU PREMIER ORDRE ). On note crit( f ) l’ensemble des points critiques de f .
II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 33

Remarque II.15 (Minimiseurs, maximiseurs, et points selle). Si x est un point critique de


f , que peut-on en dire ? Le Théorème de Fermat II.10 nous dit que tout les minimiseurs
locaux et maximiseurs locaux sont des points critiques. Donc x peut être un minimiseur
local ou un maximiseur local. Mais il est également possible que x ne soit ni minimiseur
ni maximiseur local de f , c’est-à-dire qu’il vérifie :

pour tout voisinage V de x, il existe x − ∈ V, x + ∈ V tels que f ( x − ) < f ( x ) < f ( x + ),

ce que l’on peut écrire de façon équivalente :

∃( xn+ )n∈N , ( xn− )n∈N t.q. lim xn+ = lim xn− = x et f ( xn− ) < f ( x ) < f ( xn+ ).
n→+∞ n→+∞

Un tel point est appelé un point selle. Voir la Remarque II.13 pour des exemples de points
selle.

II.I.3 Conditions d’Optimalité du 2e ordre


Théorème II.16 (Condition Nécéssaire d’Optimalité, 2e ordre).
On suppose que f est deux fois différentiable en un minimiseur local x̄ sur C, et que x̄ ∈ int C.
Alors
∇ f ( x̄ ) = 0 et ∇2 f ( x̄ )  0.

Définition II.17. Un point x où f est deux fois différentiable et tel que ∇ f ( x ) = 0 et
∇2 f ( x )  0 est un POINT CRITIQUE DU DEUXI ÈME ORDRE.

Démonstration. Avant de commencer, on note B( x̄, R) le voisinage sur lequel x̄ est un mi-
nimiseur local. Quitte à prendre R plus petit, on peut supposer que B( x̄, R) ⊂ C, puisque
x̄ ∈ int C. On sait d’après le Théorème II.10 que ∇ f ( x̄ ) = 0, on ne doit donc vérifier ici
que ∇2 f ( x̄ )  0. Nous allons raisonner par l’absurde, et supposer qu’il existe d ∈ R N tel
que
h∇2 f ( x̄ )d, di < 0.
Quitte a diviser cette inégalité par kdk, on peut supposer que kdk = 1. Dans la suite, on
notera λ := h∇2 f ( x̄ )d, di < 0.
D’après la formule de Taylor (Proposition I.78 avec h = td), et le fait que ∇ f ( x̄ ) = 0,
on peut écrire, pour tout t > 0 :

1
f ( x̄ + td) − f ( x̄ ) = h∇ f ( x̄ ), tdi + h∇2 f ( x̄ )td, tdi + o (ktdk2 )
2
1 2
= h∇ f ( x̄ )d, dit2 + o (t2 )
2
λ 2
= t + t2 ε ( t ),
2
34 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

où ε(s) est une fonction telle que lims→0 ε(s) = 0. Maintenant, on se donne t̄ < R tel que
ε(t̄) ď −λ/4. On en déduit :

f ( x̄ + t̄d) − f ( x̄ ) ď t̄2 λ/4 < 0.

On a donc trouvé x := x̄ + t̄d ∈ C ∩ B( x̄, R) tel que f ( x ) < f ( x̄ ), ce qui est une contradic-
tion avec le fait que x̄ soit un minimiseur local. 

Exemple II.18 (Réciproque). Le Théorème II.16 dit que si x̄ est un minimiseur local alors
c’est un point critique du deuxième ordre. Est-ce que la réciproque est vraie ?

• Si on prend le cas d’une fonction quadratique (cf. Exemple II.22), on a pour tout x ∈
R N que ∇2 f ( x ) = A et ∇ f ( x ) = Ax. Donc tout point critique du second ordre est un
minimiseur global. Dans ce cas la réciproque est vraie.
• Si f ( x ) = x3 , ou − x4 , en zéro on a f 0 (0) = f 00 (0) = 0 (c’est donc un point critique
du deuxième ordre, au sens de la Définition II.17), mais pour autant 0 n’est pas un
minimiseur local.

En général il est impossible, sans faire plus d’hypothèses, de caractériser entièrement les
minimiseurs locaux avec des conditions faisant intervenir les dérivées supérieures. Mais
il est possible de faire une hypothèse un peu plus forte, qui implique qu’un point est un
minimiseur local. En gros, il faut regarder la dérivée seconde autour de x pour savoir si la
fonction est localement convexe.

Théorème II.19 (Condition Suffisante d’Optimalité du 2e Ordre).


Soit f une fonction deux fois différentiable en x̄ ∈ int C. Supposons que

∇ f ( x̄ ) = 0 et ∇2 f ( x̄ )  0.

Alors x̄ est un minimiseur local de f .

Démonstration.
Soit λ = λmin (∇2 f ( x̄ )) > 0. D’après la formule de Taylor (Proposition I.78) (sachant que
∇ f ( x̄ ) = 0), il existe une fonction ε : R → R t.q. lims→0 ε(s) = 0 et
1 2
(∀d ∈ R N ) f ( x̄ + d) − f ( x̄ ) = h∇ f ( x̄ )d, di + kdk2 ε(kdk)
2
λ
ě kdk2 + kdk2 ε(kdk).
2
Par définition de ε, il existe un R > 0 tel que pour tout s ∈]0, R[, |ε(s)| ď λ/2. Si on prend
x ∈ B( x̄; R) quelconque, on a x = x̄ + d avec d = x − x̄ et kdk ď R, donc on déduit de ce
qui précède que ε(kdk) ě −λ/2, et donc que f ( x ) − f ( x̄ ) ě 0. Ceci prouve que x̄ est un
minimiseur local de f .

II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 35

Remarque II.20 (Minimiseur local vs. global). Supposons que l’on ait trouvé un point x̄
satisfaisant aux conditions suffisantes d’optimalité du 2e ordre : le Théorème II.19 nous
garantit que x̄ est un minimiseur local. Comment savoir s’il n’est que local, ou en fait
global ?
Une bonne approche consiste à calculer f ( x̄ ), et à se demander si c’est le minimum de
f . Il y a alors deux possibilités :

• Ou bien f ( x̄ ) = inf f , auquel cas x̄ est bien un minimiseur global de f ,


• ou bien f ( x̄ ) > inf f , ce qui implique alors que x̄ n’est pas un minimiseur global.
Ce deuxième cas est le plus  facile  à vérifier : il suffit en effet de réussir à trouver
n’importe quel vecteur x en lequel la fonction prend une valeur plus petite qu’en x̄ : f ( x ) <
f ( x̄ ).

Exercice II.21. Soit f : R2 → R définie par f ( x, y) = x2 + y2 cos x. Calculer le gradient et


la matrice hessienne de f en tout point ( x, y) ∈ R2 . Que pouvez-vous dire du point (0, 0) ?

Exercice II.22 (Fonction quadratique et minimiseurs). Soit f ( x ) = 21 h Ax, x i, où A est une
matrice symétrique. Montrer que f admet un minimiseur en 0 si et seulement si A  0.
Est-ce que dans ce cas le minimiseur est unique ?

Exercice II.23 (Points critiques, extrema locaux et globaux). Pour les fonctions suivantes,
trouver leurs points critiques et dire si ce sont des extrema locaux (ou globaux) :

1) f ( x, y) = x3 + y4
2) f ( x ) = (1 − x2 )2
3) f ( x, y) = x2 + y2 − xy2
4) f ( x ) = ln(1 + cos x )

Les théorèmes II.16 et II.19 nous fournissent des conditions d’optimalité vis-à-vis des
minimiseurs locaux de f . On en déduit immédiatement le corollaire suivant, qui porte sur
les maximiseurs locaux et les points selle :

Corollaire II.24 (CNO et CSO du 2e ordre - Maximiseurs et points selle). Soit f une fonction
deux fois différentiable en x̄ ∈ int C.

1) Si ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) ă 0, alors x̄ est un maximiseur local de f sur C.


2) Si x̄ est un maximiseur local de f sur C, alors ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) ĺ 0.
3) Si ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) n’est ni semi-définie positive, ni semi-définie négative, alors x̄ est un
point selle de f .

Démonstration. 1) et 2) s’obtiennent avec les Théorèmes II.16 et II.19, en remplaçant f par


− f . Pour le 3), si ∇2 f ( x̄ ) n’est pas semi-définie positive alors x̄ ne vérifie pas la CNO du
36 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

2e ordre, donc n’est pas un minimiseur local d’après II.16. De même, si ∇2 f ( x̄ ) n’est pas
semi-définie négative alors x̄ n’est pas un minimiseur local d’après le point 2). C’est donc
un point selle. 

II.II Coercivité et existence de minimiseurs


II.II.1 Coercivité
Dans l’Exemple II.3, on voit qu’une obstruction typique à l’existence de minimiseurs est
le fait que la fonction s’aplatisse indéfiniment vers l’infini, en n’atteignant jamais son infi-
mum. Afin d’avoir un résultat d’existence, on va donc faire l’hypothèse que cela n’arrive
pas. Il y a essentiellement deux manières d’y parvenir :
1) dire que la fonction  tend vers l’infini à l’infini  (du coup elle ne peut pas s’aplatir),
2) dire que la contrainte C est bornée (du coup les valeurs ne peuvent pas  tendre  vers
quelque chose).
On peut combiner ces deux approches en disant simplement que la fonction  tend vers
l’infini sur C  :

Définition II.25. Soit f : C ⊂ R N → R. On dit que f est COERCIVE sur C si

lim f ( x ) = +∞,
k x k→∞
x ∈C

ce qui est une manière condensée de dire que

∀( xn )n∈N ⊂ C, lim k xn k = +∞ ⇒ lim f ( xn ) = +∞.


n→+∞ n→+∞

Lorsque C = R N , on dira simplement que f est coercive.

Exemple II.26. f ( x ) = | x | p pour p ě 1 est coercive.

Exemple II.27. f ( x ) = e x n’est pas coercive. Par contre elle est coercive sur [0, +∞[.

Exemple II.28. f ( x, y) = x2 n’est pas coercive, car elle est constante lorsque on fixe x.

Exercice II.29 (Coercivité). Dire à propos des fonctions suivantes si elles sont coercives.

1) f ( x ) = (1 − x2 )2 .
2) f ( x, y) = x3 + 2y2 .
3) f ( x, y) = ( x − y)2 .
x2
4) f ( x, y) = y définie sur R×]0, +∞[.
II.II. COERCIVITÉ ET EXISTENCE DE MINIMISEURS 37

Remarque II.30 (Coercivité en pratique). On suppose ici C = R N pour simplifier. Déterminer


si une fonction est coercive ou non n’est pas une tâche facile : elle ne se ramène pas (tou-
jours) à un simple calcul à faire, automatique. Cela demande un peu de flair, et de bien
comprendre à quoi ressemble la fonction à laquelle on a affaire. Voici quelques approches :

• Votre fonction est une fonction univariée f : R −→ R. Dans ce cas c’est facile, car la
coercivité est équivalente à

lim f ( x ) = +∞ et lim f ( x ) = +∞.


x →−∞ x →+∞

Il suffit donc de calculer ces deux limites.


• Votre fonction est multivariée, et vous pensez qu’elle n’est pas coercive. Là encore c’est
un cas facile, car il suffit dans ce cas de contredire la Définition II.25, et de trouver une
suite ( xn )n∈N ⊂ C qui vérifie :

◦ lim k xn k = +∞,
◦ lim f ( xn ) 6= +∞.

• Votre fonction est multivariée, et vous pensez qu’elle est coercive. C’est un cas un peu
plus difficile, puisqu’il faut montrer que lim f ( xn ) = +∞ pour toute suite divergente.
Il serait tentant de penser que la coercivité équivaut à  fixer toutes les variables sauf
une que l’on fait tendre vers ±∞  :

(∀ x ∈ R N )(∀i = 1..N ) lim f ( x1 , . . . , xi , . . . , x N ) = +∞.


xi →±∞

Or ceci est faux. L’exercice suivant en fournit un contre-exemple.


Dans ce cas, la stratégie la plus simple est d’arriver à montrer que f ( x ) ě g( x ), où
g( x ) est clairement coercive. Par exemple, trouver une fonction g de la forme g( x ) =
φ(k x k), où φ : R → R. Dans ce cas on sait facilement montrer que φ est coercive, et on
en déduit immédiatement que f l’est aussi.
y
Exercice II.31. Soit f ( x, y) = x
y + x définie sur U =]0, +∞[2 .

1) Vérifier que, pour tout y > 0, lim f ( x, y) = +∞.


x →+∞
2) Vérifier que, pour tout x > 0, lim f ( x, y) = +∞.
y→+∞

3) Montrer que f n’est pas coercive sur U.

L’exercice suivant est important, et il est bon de connaitre et comprendre les résultats
qu’il contient :

Exercice II.32 (Fonction quadratique et coercivité).


38 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

1) Soient A ∈ M N (R) symétrique, b ∈ R N , c ∈ R. Montrer que la fonction quadratique


f ( x ) = 12 h Ax, x i + hb, x i + c est coercive si et seulement si A est définie positive.
2) Soient Φ ∈ M M,N (R), y ∈ R M . Montrer que le moindre carré f ( x ) = 12 kΦx − yk2 est
coercif si et seulement si Φ est injective.

On conclut cette partie avec une proposition importante, qui dit qu’une fonction est
toujours coercive sur un borné.

Proposition II.33. Soit f : C ⊂ R N → R. Si C est borné alors f est coercive sur C.

Démonstration. C’est en fait une conséquence directe de la Définition II.25, et du fait qu’une
implication A ⇒ B est toujours vraie lorsque la proposition A est fausse. En effet, si C est
bornée, il est impossible pour une suite ( xn )n∈N ⊂ C de vérifier lim k xn k = +∞. 
n→+∞

Le lien entre  coercivité  et  borné  n’est d’ailleurs pas anodin ! En effet, la Proposi-
tion suivante montre que la coercivité d’une fonction f peut entièrement être caractérisée
par le fait que ses sous-niveaux soient bornés.

Proposition II.34 (Coercivité et sous-niveaux bornés). Soient f : U ⊂ R N → R, C ⊂ U, et


notons, pour tout r ∈ R, le sous-niveau de f

[ f ď r ] : = { x ∈ U | f ( x ) ď r }.

Alors f est coercive sur C si et seulement si C ∩ [ f ď r ] est borné pour tout r ∈ R.

Démonstration. Dans cette preuve on notera Ωr := C ∩ [ f ď r ].


⇒ : Supposons que f soit coercive sur C, donnons-nous r ∈ R quelconque, et montrons
que Ωr est borné. Pour cela, raisonnons par l’absurde et supposons que Ωr ne soit pas
borné. Alors il doit exister une suite ( xn )n∈N ⊂ Ωr telle que k xn k → +∞. On a donc une
suite qui diverge, contenue dans C : notre hypothèse ( f coercive) nous permet donc de
déduire que f ( xn ) tend vers +∞. En particulier, cela veut dire qu’à partir d’un certain
rang, f ( xn ) > r, ce qui contredit xn ∈ Ωr . L’implication est donc démontrée.
⇐ : Supposons que Ωr soit borné pour tout r ∈ R, et montrons que f est coercive sur C.
Supposons donc qu’il existe une suite ( xn )n∈N ⊂ C telle que k xn k → +∞, et montrons que
f ( xn ) tend vers +∞. Fixons pour cela un r ∈ R quelconque. Puisque la suite xn diverge, et
que Ωr est borné par hypothèse, cela veut dire qu’à partir d’un certain rang, xn ∈ / Ωr . Or
Ωr = C ∩ [ f ď r ], et on sait que xn ∈ C. Donc cela veut dire qu’à partir d’un certain rang,
xn ∈ / [ f ď r ]. Autrement dit, que f ( xn ) > r. Ceci étant vrai pour tout r ∈ R, on conclut
que f ( xn ) tend vers +∞. 

II.II.2 Existence de minimiseurs


Théorème II.35 (Existence si continue coercive). Soit f : C ⊂ R N → R. Supposons que :
II.II. COERCIVITÉ ET EXISTENCE DE MINIMISEURS 39

a) C est fermé,
b) f est continue en tout point de C,
c) f est coercive sur C.
Alors f admet un minimiseur global sur C.

Remarque II.36 (Pas de réciproque). La réciproque de ce Théorème est évidemment fausse :


l’existence d’un minimiseur global n’implique pas la coercivité. Par exemple, f ( x, y) = x2
ou f ( x, y) = 18 ne sont pas coercives mais admettent des minimiseurs globaux.

Pour prouver ce résultat on aura besoin d’un Lemme élémentaire sur l’existence de
suites minimisantes :

Lemme II.37 (Suite minimisante). Pour tout ensemble C ⊂ R N et toute fonction f : C → R,


il existe une suite ( xn )n∈N ⊂ C telle que lim f ( xn ) = infC f .
n→+∞

Démonstration. On introduit l’ensemble V := { f ( x ), x ∈ C } ⊂ R, qui vérifie par définition


que inf V = infC f . Distinguons deux cas de figure :
• Cas inf V ∈ R. Par définition de l’infimum d’une partie de R, on a que, pour tout ε > 0,
il existe vε ∈ V tel que
inf V ď vε < inf V + ε.
Or, par définition de V, il existe un xε ∈ C tel que vε = f ( xε ). Ainsi, on a que pour tout
ε > 0, il existe xε ∈ C tel que

inf f ď f ( xε ) < inf f + ε.


C C

En prenant ε = 1/n et en passant à la limite, on obtient que limn→∞ f ( xn ) = infC f .


• Cas inf V = −∞. Dans ce cas, pour tout n ∈ N il existe un point qu’on note xn ∈ C tel
que f ( xn ) < −n. On en déduit que limn→∞ f ( xn ) = −∞ = infC f , qui est ce que l’on
voulait démontrer.

Démonstration du Théorème II.35. D’après le Lemme précédent, on peut invoquer une suite
minimisante, c’est-à-dire une suite ( xn )n∈N ⊂ C telle que limn f ( xn ) = infC f . On utilise
maintenant le fait que f soit coercive : puisque limn f ( xn ) 6= +∞, la Définition II.25 nous
permet de dire, par contraposée, que la propriété  lim k xn k = +∞  est fausse. En
n→+∞
d’autres termes, ( xn )n∈N admet une sous-suite bornée. Par compacité, on en déduit que
( xn )n∈N admet une (sous-)sous-suite convergente dans R N : on note ( xnk )k∈N cette sous-
suite, et x̄ sa limite dans R N . Comme C est fermé et xnk ∈ C, on sait que x̄ ∈ C. Comme
f est continue sur C, on en déduit que f ( x̄ ) = lim f ( xnk ) = lim f ( xn ) = infC f . Ceci
n→+∞ n→+∞
prouve que x̄ est un minimiseur de f sur C. 
40 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

Exercice II.38. Montrer que si on enlève la moindre des trois hypothèses du Théorème
II.35, alors la conclusion n’est plus vraie.

Le Théorème II.35 est une version plus générale de ce résultat que vous connaissez
déjà certainement :

Corollaire II.39 (Théorème des valeurs extrêmes - Bolzano, 1817). Soit f : C ⊂ R N −→ R.


Si f est continue sur C compact, alors f admet un minimiseur global sur C.

Démonstration. C’est une conséquence immédiate du Théorème II.35 et de la Proposition


II.33. 

Exercice II.40 (Existence de minimiseurs 2). Déterminer si le problème d’optimisation


sous contraintes infx∈C f ( x ) admet un minimiseur, pour les cas suivants :
1) f ( x ) = 21 h Ax, x i + hb, x i, avec A ∈ M N (R) symétrique définie positive, b ∈ R N et
C := { x ∈ R N | (∀i = 1, . . . , N ) xi ě ci }, où ci ∈ R.
2) f : R N → R est une fonction continue et C := { x ∈ R N | ∑iN=1 ai xi2 ď 1 et ∑iN=1 xi = 1}
(avec ai > 0 fixés).
3) f ( x ) = d( x, y), où y ∈ R N est fixé, et d est la distance euclidienne sur R N ; et C fermé
non vide. Comment décririez-vous les minimiseurs de f sur C ? On montrera de plus
qu’il n’y a pas en général unicité du minimiseur.

Un second exercice important sur les fonctions quadratiques, qui montre que les moindres
carrés kΦx − yk2 admettent toujours un minimiseur global :

Exercice II.41 (Fonction quadratique et minimiseurs). Soit A ∈ M N (R) une matrice


symétrique semi-définie positive.
1) Montrer que
(∀ x ∈ Ker A⊥ ) h Ax, x i ě σk x k2 ,
où σ est la plus petite valeur propre non nulle de A.
Indication : Toute matrice symétrique est diagonalisable dans une base orthogonale de
vecteurs propres. Cette question est plus difficile que les autres, n’hésitez pas à la faire
en dernier si vous bloquez.
2) Soit f ( x ) = 12 h Ax, x i + hb, x i + c, où b ∈ R N et c ∈ R. Montrer que f admet un
minimiseur sur C = Ker A⊥ .
3) Justifier que f n’admet pas nécessairement un minimiseur sur R N . A votre avis, quelle
condition sur A et b faut-il pour que cela soit vrai ? (on attend une conjecture plutôt
qu’une preuve)
4) Soit Φ ∈ M M,N (R), y ∈ R M . Montrer que f ( x ) = 21 kΦx − yk2 admet un minimiseur
sur R N .
II.III. RÉCAPITULATIF DU CHAPITRE 41

II.III Récapitulatif du Chapitre


Ici C ⊂ U ⊂ R N , où U est un ouvert de R N , et C est une contrainte non vide. On considère
une fonction f : U → R, et le problème d’optimisation associé

minimiserx∈C f ( x ).

Conditions nécessaire et suffisante d’optimalité (locale) Si x̄ ∈ int C, alors nous avons


les implications suivantes :

CSO 2e ordre minimiseur local CNO 2e ordre CNO 1er ordre

si f convexe
minimiseur global

• Condition Nécessaire d’Optimalité (CNO) d’ordre 1 : Si x̄ ∈ int C est un minimiseur


local de f sur C, alors ∇ f ( x̄ ) = 0.

◦ La réciproque est fausse en général (par exemple f ( x ) = x3 ).


◦ La condition x̄ ∈ int C est automatiquement vérifiée si il n’y a pas de contraintes
puisque C = R N est un ouvert.
◦ La condition x̄ ∈ int C est essentielle, le résultat est faux lorsque x̄ ∈ bd C.
• Condition Nécessaire d’Optimalité (CNO) d’ordre 2 : Si x̄ ∈ int C est un minimiseur
local de f sur C, alors ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ )  0.

◦ La réciproque est fausse en général (par exemple f ( x ) = − x4 ), il faut plus :


• Condition Suffisante d’Optimalité (CSO) d’ordre 2 : Si x̄ ∈ int C vérifie ∇ f ( x̄ ) = 0 et
∇2 f ( x̄ )  0, alors x̄ est un minimiseur local de f sur C.
◦ La réciproque est fausse en général (par exemple f ( x ) = x4 ).
Dans le prochain chapitre, on verra que l’hypothèse clé pour obtenir des réciproques
à ces résultats et de supposer que le problème est convexe.

Existence de minimiseurs (globaux)

• Si f est coercive sur C, alors f admet au moins un minimiseur global sur C.


• Si C est borné, alors f est coercive sur C.
42 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ
Chapitre III

Optimisation convexe

III.I Convexité et globalité des minimiseurs


III.I.1 Ensemble convexe
Définition III.1. Etant donné deux points x, y dans R N , on définit l’intervalle qui les relie
par
[ x, y] := {(1 − α) x + αy | α ∈ [0, 1]}.

Définition III.2. Soit C ⊂ R N . On dit que l’ensemble C est CONVEXE si

(∀α ∈ [0, 1])(∀( x, y) ∈ C2 ) (1 − α) x + αy ∈ C.

Autrement dit, il faut et il suffit que pour toute paire de points x, y dans C, l’intervalle
[ x, y] qui relie ces points soit également contenu dans C (cf. Figure III.1).

F IGURE III.1 – Convexité d’un ensemble

43
44 CHAPITRE III. OPTIMISATION CONVEXE

Exemple III.3. La boule unité B(0, 1) = { x ∈ R N | k x k ď 1} est convexe. La sphère unité


S(0, 1) = { x ∈ R N | k x k = 1}, elle, n’est pas convexe car elle est creuse.

Exemple III.4. Les sous-ensembles convexes de R sont les intervalles.

Exercice III.5 (Convexité et intersection). Soit N : R N → R+ une norme quelconque.


Montrer que la boule unité (fermée) pour cette norme est nécessairement convexe.

Exercice III.6. Montrer que l’intersection de deux ensembles convexes est encore convexe.
En déduire que l’intersection d’un nombre fini d’ensemble convexes est convexe.

III.I.2 Fonction convexe


Définition III.7. Soit f : U ⊂ R N → R, et C ⊂ U. On dit que f est CONVEXE sur C si C
est convexe et que

∀α ∈ [0, 1], ∀( x, y) ∈ C2 , f ((1 − α) x + αy) ď (1 − α) f ( x ) + α f (y).

On notera1 Γ0 (C ) l’ensemble des fonctions convexes sur C. Si C = R N on dira simplement


que f est convexe.

Proposition III.8. Soit f : R N → R. Alors ces deux propriétés sont équivalentes :

1) f est convexe,
2) l’épigraphe2 de f est convexe, ce dernier étant défini par :

epi f = {( x, y) ∈ R N × R | f ( x ) ď y} ⊂ R N × R.

Démonstration. Voir TD. 

On peut donner une caractérisation géométrique similaire pour la convexité d’une


fonction sur une contrainte :

Proposition III.9. Soit f : U ⊂ R N → R, et C ⊂ U. Alors ces deux propriétés sont équivalentes :

1) f est convexe sur C,

est assez difficile de retrouver d’où vient la notation Γ0 . Néanmoins il semblerait que cela remonte
1 Il

aux premiers travaux de Fenchel (1951) et Moreau (1965), dans lesquels Γ0 décrit l’ensemble des fonctions
convexes semi-continues inférieurement et propres (pas constantes à l’infini). Le choix d’utiliser la lettre Γ
semblerait être en dualité avec la lettre C (pour convexe), Γ étant également la troisième lettre de l’alphabet
grec. Quand à l’indice 0 son sens s’est perdu mais dans ce cours on va lui donner un signification (cf. Section
sur les focntions fortmeent convexes). Une discussion intéressante à ce sujet ici https://mathoverflow.
net/questions/262851/why-are-gamma-0-functions-called-this/262861
2  epi  est un préfixe qui veut dire  au-dessus . C’est l’opposé de  hypo  qui nous est plus familier.
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 45

2) l’épigraphe de f sur C est convexe, ce dernier étant défini par :

epiC f = {( x, y) ∈ R N × R | x ∈ C, f ( x ) ď y} ⊂ R N × R.

Démonstration. Voir TD. 

Proposition III.10. Soient f , g : U ⊂ R N → R, et C ⊂ U. Si f et g sont convexes sur C, alors


f + g est convexe sur C.

Démonstration. Cf. TD. 

Proposition III.11. Soit f : R M → R une fonction convexe, et A ∈ M N,M (R). Alors f ◦ A est
convexe.

Démonstration. Cf. TD. 

Proposition III.12. Soit f : U ⊂ R N → R et C ⊂ U. Si f est convexe sur C, alors argminC f


est un ensemble convexe.

Démonstration. Cf. TD. 

F IGURE III.2 – Convexité d’une fonction


46 CHAPITRE III. OPTIMISATION CONVEXE

III.I.3 Caractérisation de la convexité pour les fonctions univariées


On s’intéresse d’abord ici aux fonctions d’une seule variable. Dans cette sous-section
III.I.3, on supposera toujours que U ⊂ R est un ouvert, et que I ⊂ U est un intervalle.

Proposition III.13 (Convexité via dérivée). Soient f : U ⊂ R → R une fonction dérivable, et


I ⊂ U un intervalle. Les propriétés suivantes sont alors équivalentes :

i) f est convexe sur I, c-à-d f ∈ Γ0 ( I ) ;


ii) (∀( x, y) ∈ I 2 ) f (y) ě f ( x ) + f 0 ( x )(y − x ) ;
iii) f 0 est croissante sur I.

Remarque III.14. L’équation de l’hyperplan tangent au graphe de f , au point ( x0 , f ( x0 )) ∈


I × R, s’écrit
y = f ( x0 ) + f 0 ( x0 )( x − x0 ), pour x ∈ R, y ∈ R.

La relation ii) signifie géométriquement que le graphe de f est au-dessus de son hyperplan
tangent en tout point (cf. Figure III.3).

F IGURE III.3 – Convexité d’une fonction via l’hyperplan tangent


III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 47

Démonstration. i) ⇒ ii). Soient ( x, y) ∈ I 2 quelconques. Pour α ∈]0, 1[, on pose zα :=


(1 − α) x + αy. On a alors f (zα ) ď (1 − α) f ( x ) + α f (y) = f ( x ) + α( f (y) − f ( x )), donc
1 α →0+
f (y) − f ( x ) ě ( f (zα ) − f ( x )) → f 0 ( x )(y − x ).
α
ii) ⇒ i) : On a

f ( x ) ě f (zα ) + f 0 (zα )( x − zα ) (III.1)


f (y) ě f (zα ) + f 0 (zα )(y − zα ). (III.2)

En sommant (1 − α) fois la relation (III.1) et α fois la relation (III.2), et en utilisant le fait


que (1 − α)( x − zα ) + α(y − zα ) = 0, on obtient l’inégalité de convexité.
ii) ⇒ iii) : On écrit

f (y) ě f ( x ) + f 0 ( x )(y − x )
f ( x ) ě f (y) + f 0 (y)( x − y).

En sommant ces inégalités, on obtient l’inégalité désirée : ( f 0 (y) − f 0 ( x ))(y − x ) ě 0.


iii) ⇒ ii) : Soit g(t) := f ((1 − t) x + ty) pour t ∈ [0, 1]. Notons que g est dérivable sur
[0, 1], car f est dérivable sur un ouvert U, et que x, y appartiennent à l’intervalle I ⊂ U.
On calcule que g0 (t) = f 0 (zt )(y − x ), et en particulier que g0 (0) = f 0 ( x )(y − x ). Donc il
nous suffit de montrer que g(1) − g(0) − g0 (0) ě 0. D’après notre hypothèse, on a
1 0
g0 (t) − g0 (0) = f 0 (zt ) − f 0 ( x )(y − x ) = ( f (zt ) − f 0 ( x ))(zt − x ) ě 0.
t
D’autre part, comme g est continue sur [0, 1] et dérivable sur ]0, 1[, on peut utiliser le
g(1)− g(0)
théorème des accroissements finis qui nous dit qu’il existe c ∈]0, 1[ tel que 1 =
0 0
g (c). En combinant ces deux résultats, on en déduit que g(1) − g(0) ě g (0), ce qui donne
l’inégalité désirée. 

Lemme III.15. Soient f : U ⊂ R → R une fonction dérivable, et I ⊂ U un intervalle. Alors


f est croissante sur I ⇔ f 0 ( x ) ě 0 pour tout x ∈ I.

Démonstration. Vu en Analyse L2, on rappelle la preuve ici.


⇒ : Soit x ∈ I. Puisque I est un intervalle, il existe hn 6= 0 tel que hn → 0 et x + hn ∈ I.
f ( x +hn )− f ( x )
Puisque f est croissante sur I, on voit qu’on a hn ě 0 et ce quelque soit le signe
0
de hn . En passant à la limite, on en déduit que f ( x ) ě 0.
⇐ : Soient a < b dans I. On sait que f est dérivable sur [ a, b], donc on peut utiliser le
Théorème des accroissements finis, qui nous fournit un c ∈] a, b[ (en particulier c ∈ I) tel
que f (b) − f ( a) = f 0 (c)(b − a). On en déduit donc que f ( a) < f (b). 

Théorème III.16 (Convexité via Dérivée seconde). Soient f : U ⊂ R → R une fonction


deux fois dérivable, et I ⊂ U un intervalle. Alors les propriétés suivantes sont équivalentes :
48 CHAPITRE III. OPTIMISATION CONVEXE

i) f est convexe sur I, c-à-d f ∈ Γ0 ( I ) ;


ii) (∀ x ∈ I ) f 00 ( x ) ě 0.

Démonstration. Immédiat en combinant les deux résultats précédents. 

III.I.4 Caractérisation de la convexité pour les fonctions multivariées


Afin d’étudier la convexité des fonctions multivariées à l’aide des résultats de la section
précédente, on va utiliser le Lemme suivant :

Lemme III.17. Soit f : U ⊂ R N → R, et C ⊂ U convexe. Alors f est convexe si et seulement si

(∀ x, y ∈ C ) la fonction gx,y : t ∈ [0, 1] 7→ f ((1 − t) x + ty) est convexe sur [0, 1].

Démonstration.
⇒ Soient x, y ∈ C, et montrons que gx,y est convexe sur [0, 1]. Pour cela, on se donne
t1 , t2 ∈ [0, 1], α ∈ [0, 1], et on va montrer que

g((1 − α)t1 + αt2 ) ď (1 − α) g(t1 ) + αg(t2 ).

Le membre de gauche peut se réécrire ainsi :

g((1 − α)t1 + αt2 ) = f ([1 − (1 − α)t1 − αt2 ] x + [(1 − α)t1 + αt2 ]y)
= f ((1 − α)[(1 − t1 ) x + t1 y] + α[(1 − t2 ) x + t2 y])

En utilisant la convexité de f en les points (1 − t1 ) x + t1 y et (1 − t2 ) x + t2 y, on en conclut


que

g((1 − α)t1 + αt2 ) ď (1 − α) f ((1 − t1 ) x + t1 y) + α f ((1 − t2 ) x + t2 y)


= (1 − α) g(t1 ) + αg(t2 ).

⇐ Soient x, y ∈ C quelconques, et α ∈ [0, 1]. On peut alors utiliser la convexité de gx,y


pour écrire

f ((1 − α) x + αy) = gx,y (α) = gx,y ((1 − α).0 + α.1)


ď (1 − α) gx,y (0) + αgx,y (1)
= (1 − α ) f ( x ) + α f ( y ).

Proposition III.18 (Convexité via le gradient). Soit f : U ⊂ R N → R, différentiable sur U,


et C ⊂ U convexe. Alors f est convexe si et seulement si

(∀ x, y ∈ C ) f (y) ě f ( x ) + h∇ f ( x ), y − x i. (III.3)
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 49

Démonstration. On va réutiliser ici les notations du Lemme III.17, et son résultat.


⇒ : Supposons que f soit convexe et prouvons (III.3). Soient donc x, y ∈ C, on sait alors via
le Lemme III.17 que g := gx,y : [0, 1] → R est convexe. Par ailleurs, puisque x, y ∈ C ⊂ U
ouvert, il existe en fait un ε > 0 tel que g soit bien définie et dérivable sur ] − ε, 1 + ε[, avec
g0 (t) = h∇ f ((1 − t) x + ty), y − x i. On peut donc appliquer la Proposition III.13 qui nous
dit que
(∀ a, b ∈ [0, 1]) g(b) ě g( a) + g0 ( a)(b − a).
On voit qu’en prenant b = 1 et a = 0, on obtient bien

f (y) ě f ( x ) + h∇ f ( x ), y − x i.

⇐ : Supposons (III.3) et prouvons que f est convexe. Via le Lemme III.17, il suffit donc de
fixer x, y ∈ C et de montrer que g := gx,y : [0, 1] → R est convexe sur [0, 1]. Donc, via la
Proposition III.13, il suffit de montrer que

(∀ a, b ∈ [0, 1]) g(b) ě g( a) + g0 ( a)(b − a),

ce qui se réécrit par définition de g

f ((1 − b) x + by) ě f ((1 − a) x + ay) + h∇ f ((1 − a) x + ay), y − x i(b − a).

Or cette inégalité est exactement ce que l’on obtient lorsque dans (III.3) on remplace y par
(1 − b) x + by et x par (1 − a) x + ay. 

Théorème III.19 (Convexité via Hessienne). Soient f : U ⊂ R N → R, deux fois différentiable


sur U, et C ⊂ U convexe. Considérons les propriétés suivantes :

i) (∀ x ∈ C ) ∇2 f ( x )  0 ;
ii) f est convexe sur C, c-à-d f ∈ Γ0 (C ).

Alors i) ⇒ ii), et l’équivalence i) ⇔ ii) est vraie si C est ouvert.

Démonstration.
i) ⇒ ii). Afin de montrer que f est convexe sur C, nous allons montrer que gx,y est convexe
pour tout x, y ∈ C, puis conclure avec le Lemme III.17 précédent. D’après le Théorème
III.16, il nous suffit de montrer que g00x,y est positive, où

g00x,y (t) = h∇2 f ( x + t(y − x ))(y − x ), y − x i. (III.4)

Or notre hypothèse, combinée avec (III.4), et le fait que C est convexe, impliquent que c’est
bien le cas.
ii) ⇒ i). Soit x ∈ C. Afin de montrer que ∇2 f ( x )  0, on va prendre d ∈ R N quelconque,
et montrer que h∇2 f ( x )d, di ě 0. Puisque C est ouvert, il existe δ > 0 tel que B( x, δ) ⊂ C.
Donc y := x + εd appartient à C pour 0 < ε < δ/2kdk. On peut donc faire appel à la
50 CHAPITRE III. OPTIMISATION CONVEXE

fonction gx,y qui est convexe sur [0, 1] d’après le Lemme III.17. De plus sa dérivée seconde
est bien définie sur [0, 1] (et donnée par (III.4)) puisque x, y ∈ C ⊂ U ouvert. En particulier,
on peut utiliser le Théorème III.16, et en regardant g00 (0), on voit que

h∇2 f ( x )(y − x ), y − x i ě 0.

Or y − x = εd, d’où le résultat. 

Remarque III.20 (Cas N = 1). Pour N = 1, on retrouve le critère usuel :  f est convexe
ssi f 00 est positive .

Remarque III.21 (Positivité d’une famille de matrices). Pour une fonction multivariée,
vérifier en pratique si une fonction est convexe revient à vérifier que la matrice Hessienne
est semi-définie positive. Il est donc pour cela important d’être capable de déterminer
aisément si une matrice symétrique est semi-définie positive ou non (cf. Chapitre I). Il
également important de souligner qu’il faut vérifier la positivité d’une famille de matrices,
à savoir
{∇2 f ( x ) : x ∈ C }.
Dans le cas où C est ouvert, si une seule de ces Hessiennes échoue à être semi-définie
positive, alors la fonction ne sera pas convexe.

Remarque III.22 (Convexité sur une contrainte non ouverte). Si f ∈ Γ0 (C ), que peut-on
dire de ∇2 f ( x ) pour x ∈ C ?
• Lorsque C est ouvert, le Théorème III.19 nous garantit que ∇2 f ( x )  0.
• Lorsque int C 6= ∅ et f ∈ C2 (U ), alors on peut également conclure que ∇2 f ( x )  0.
En effet on sait que la Hessienne est semi-définie positive sur int C, en appliquant le
Théorème III.19 à int C, qui est ouvert. De plus, on suppose que ∇2 f est continue, donc
les valeurs propres de ∇2 f ( x ) sont continues en x. Puisque C ⊂ int C, on déduit en
passant à la limite que la Hessienne est également semi-définie positive sur le bord de
C.
• Lorsque int C = ∅ on ne peut pas se prononcer. En effet sur un C d’intérieur vide on
est  aveugle  par rapport à ce que fait f en dehors de C, ce qui empêche de décrire
le comportement de la Hessienne dans les directions qui  pointent  vers l’extérieur.
On peut par exemple considérer le contre-exemple de la fonction f ( x ) = x3 qui est
convexe (car constante !) sur C = {−1}, alors que f 00 ( x ) = −6 < 0 sur C. Si on veut un
exemple avec une contrainte qui ne soit pas un singleton, on peut également considérer
f ( x, y) = x3 qui est convexe sur C = {( x, y) ∈ R2 | x = −1}. On reverra ce genre de
problème lorsqu’on étudiera en détail les problèmes d’optimisation sous contraintes
dans le Chapitre V (voir en particulier la Remarque V.46).

Proposition III.23. Soit f : R N → R une fonction quadratique : f ( x ) = h Ax, x i + hb, x i + c.


Alors f est convexe si et seulement si A ∈ M N (R) est semi-définie positive.
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 51

Démonstration. Cf. TD.




III.I.5 Convexité et minimiseurs


Lorsqu’une fonction est convexe, elle ressemble à un U, et donc elle n’a pas de minimiseur
locaux, mais que des minimiseur globaux. Cela provient du fait que la notion de convexité
est une notion globale ; par exemple il faut que la Hessienne soit semi-définie positive en
tout point.

Théorème III.24 (Convexe : Minimum local = global). Soit C ⊂ R N convexe et f ∈ Γ0 (C ).


Soit x̄ ∈ C un minimiseur local de f sur C. Alors x̄ est un minimiseur global de f sur C.

Démonstration. Soit R > 0 tel que x̄ soit un minimiseur de f sur C ∩ B( x̄, R). Soit x ∈ C
quelconque, et montrons que f ( x̄ ) ď f ( x ). Pour simplifier on suppose x 6= x̄. Posons
d = x − x̄. Alors x̄ + td ∈ B( x̄, R), pourvu que 0 < tkdk < R, et donc f ( x̄ ) ď f ( x̄ + td).
Or on peut écrire x̄ + td = (1 − t) x̄ + tx, donc par convexité on a :

f ( x̄ ) ď f ( x̄ + td) ď (1 − t) f ( x̄ ) + t f ( x ),

que l’on peut réécrire :


0 ď t( f ( x ) − f ( x̄ )).
On peut alors conclure après avoir divisé par t > 0. 

Une seconde propriété très importante des fonctions convexes est que tout point cri-
tique du premier ordre est un minimiseur global. Lorsque la fonction est deux fois diffé-
rentiable, c’est une conséquence directe du Théorème II.19 et Proposition III.19.i). En fait,
cela reste vrai même si la fonction n’est pas deux fois différentiable.

Théorème III.25 (Convexe : Point critique = min global). Soit C ⊂ R N convexe et f ∈


Γ0 (C ). Si f est différentiable en x̄ ∈ int C, alors ∇ f ( x̄ ) = 0 si et seulement si x̄ est un minimiseur
global de f sur C.

Remarque III.26 (Gare au bord de la contrainte !). Comme on l’a dit précédemment, la
réciproque est fausse en général lorsque x̄ appartient au bord de la contrainte C. On verra
au chapitre V ce qu’il se passe dans ce cas.
Il faut également noter qu’il existe aussi un résultat analogue lorsque la fonction n’est pas
différentiable en x̄, mais c’est hors programme (cf. Cours du Master MIDS).

Démonstration. Comme x̄ ∈ int C, il existe R > 0 tel que B( x̄, R) ⊂ C. Pour tout x ∈
B( x̄, R), on peut écrire d’après la Proposition III.18 :

0 ď f ( x ) − f ( x̄ ) − h∇ f ( x̄ ), x − x̄ i = f ( x ) − f ( x̄ ).
52 CHAPITRE III. OPTIMISATION CONVEXE

Ceci montre donc que x̄ est un minimiseur local de f sur C. On conclut alors avec le
Théorème III.24. 

Proposition III.27 (Fonction quadratique et minimiseurs). Soit f : R N → R une fonction


quadratique : f ( x ) = 21 h Ax, x i + hb, x i + c, avec A ∈ M N (R), b ∈ R N et c ∈ R. Alors f
admet des minimiseurs si et seulement si A  0 et b ∈ Im A. Dans ce cas, argmin f = { x ∈
R N | Ax + b = 0}.

Démonstration. Cf. TD. 

III.II Forte convexité : existence et unicité du minimiseur

III.II.1 Fonction fortement convexe

Définition III.28. Soit f : U ⊂ R N → R et C ⊂ U convexe. On dit que f est FORTEMENT


CONVEXE sur C si il existe µ > 0 tel que

µ
∀α ∈ [0, 1], ∀( x, y) ∈ C2 , f ((1 − α) x + αy) + α(1 − α)k x − yk2 ď (1 − α) f ( x ) + α f (y).
2

Dans ce cas on dit aussi que f est µ-convexe sur C, et que µ est le coefficient de forte
convexité de f sur C. On notera Γµ (C ) l’ensemble des fonctions fortement convexes sur C.

Remarque III.29. Lorsque µ = 0, on retombe sur la définition de convexité.

Proposition III.30. Soit f ( x ) = g( x ) + 2 k x k2 . Alors f ∈ Γµ (C ) si et seulement si g ∈ Γ0 (C ).


µ

Autrement dit, toute fonction fortement convexe est la somme d’une fonction convexe et d’une
norme au carré.

Démonstration. Ici on note comme précédemment zα = (1 − α) x + αy :

f ∈ Γµ (C )
µ
⇔ ∀α ∀ x, y, f (zα ) + α(1 − α)k x − yk2 ď (1 − α) f ( x ) + α f (y)
2
µ µ
⇔ ∀α ∀ x, y, g(zα ) + kzα k2 + α(1 − α)k x − yk2
2 2
µ µ
ď (1 − α) g( x ) + αg(y) + (1 − α) k x k2 + α kyk2 .
2 2
III.II. FORTE CONVEXITÉ : EXISTENCE ET UNICITÉ DU MINIMISEUR 53

Si on regroupe tous les termes proportionnels à µ, on voit que :


1 1 1 1
kzα k2 + α(1 − α)k x − yk2 − (1 − α) k x k2 − α kyk2
2 2 2 2
= (1 − α) k x k + α kyk + 2α(1 − α)h x, yi + α(1 − α)k x k2 + α(1 − α)kyk2 − 2α(1 − α)h x, yi
2 2 2 2

− (1 − α)k x |2 − αkyk2
   
2 2 2 2
= k x k (1 − α ) + α (1 − α ) − (1 − α ) + k y k α + α (1 − α ) − α
= 0.
Donc tous les termes en µ disparaissent, et ce qui reste est exactement la définition pour g
d’être convexe. 

Proposition III.31. La somme d’une fonction fortement convexe et d’une fonction convexe est
fortement convexe.

Démonstration. Laissé en exercice. 

Proposition III.32. La composition d’une fonction fortement convexe avec une application affine
injective est fortement convexe.

Démonstration. Laissé en exercice. 

III.II.2 Caracterisation de la forte convexité


Proposition III.33 (Forte convexité via Hessienne). Soit f : U ⊂ R N → R, deux fois
différentiable sur U, et C ⊂ U convexe et ouvert. Alors les propriétés suivantes sont équivalentes,
pour µ > 0 :
i) f est fortement convexe sur C, c-à-d f ∈ Γµ (C ) ;
ii) (∀ x ∈ C ) λmin (∇2 f ( x )) ě µ.

Démonstration. Soit µ > 0 et f = g + (µ/2)k · k2 . En particulier on a ∇2 f ( x ) = ∇2 g( x ) +


µI sur C. Donc λmin (∇2 f ( x )) = λmin (∇2 g( x )) + µ. On conclut donc avec les Propositions
III.30 et III.19. 

Remarque III.34. La forte convexité requiert donc une borne inférieure uniforme sur les
valeurs propres de la Hessienne. Au contraire de la stricte convexité qui n’a besoin que de
la définie positivité en ( presque ) tout point. Il est essentiel ici de bien faire la distinction
entre la caractérisation de la forte convexité :
(∃µ > 0)(∀ x ∈ C ) λmin (∇2 f ( x )) ě µ,
et la propriété beaucoup plus faible :
(∀ x ∈ C )(∃µ > 0) λmin (∇2 f ( x )) ě µ,
54 CHAPITRE III. OPTIMISATION CONVEXE

qui est en fait équivalente à

(∀ x ∈ C ) λmin (∇2 f ( x )) > 0,

qui implique la stricte convexité seulement.

Exemple III.35. f ( x ) = e x est strictement convexe mais n’est pas fortement convexe. On
le voit par exemple en notant que f n’est pas coercive, ou bien que f 00 tend vers 0 en −∞.

Proposition III.36. Soit f : R N → R une fonction quadratique : f ( x ) = h Ax, x i + hb, x i + c.


Alors f est fortement convexe si et seulement si A ∈ M N (R) est définie positive.

Démonstration. cf. TD 

III.II.3 Forte convexité et minimiseurs


Théorème III.37. Toute fonction fortement convexe est coercive.

Démonstration. On va supposer3 par simplicité qu’il existe un point x0 ∈ R N tel que f


soit différentiable en x0 . D’après la Proposition III.30, on peut écrire f = g + 2 k · k2 , où
µ

g ∈ Γ0 (C ), et g est différentiable en x0 par hypothèse. D’après la Proposition III.18, on a


également
(∀ x ∈ C ) g( x ) ě g( x0 ) + h∇ g( x0 ), x − x0 i.
On en déduit, via l’inégalité de Cauchy-Schwartz et l’inégalité triangulaire :
µ
(∀ x ∈ C ) f ( x ) ě g( x0 ) − k∇ g( x0 )k(k x k + k x0 k) + k x k2 .
2

Comme le membre de droite est un polynome d’ordre 2 en k x k, dont le coefficient prin-


cipal est strictement positif, on en déduit qu’il tend vers +∞ lorsque k x k → +∞. D’où le
résultat. 

Corollaire III.38. Soit f : U → R une fonction continue et fortement convexe sur C ⊂ U fermé.
Alors f admet un unique minimiseur global sur C.

Démonstration. D’après le Théorème III.37 f est coercive, donc on peut appliquer le Théorème
II.35 et déduire l’existence d’un minimiseur. L’unicité va également découler de la forte
3 Lerésultat reste vrai sans cette hypothèse ! Mais pour le pouver on aurait besoin d’autres outils. Au
choix : Montrer que les fonctions convexes sont localement Lipschitziennes, et donc différentiables presque
partout (Théorème de Rademacher) ; Utiliser le Théorème de Hahn-Banach pour séparer l’épigraphe d’un
point quelconque sous l’épigraphe, et en déduire l’existence d’une minorante affine ; Projeter ce point sur
l’épigraphe et utiliser la caractérisation variationnelle de la projection (cf. dernier chapitre).
III.II. FORTE CONVEXITÉ : EXISTENCE ET UNICITÉ DU MINIMISEUR 55

convexité. En effet, s’il existait deux minimiseurs x1∗ , x2∗ , on aurait via la Définition III.28
que
1 1 x ∗ + x2∗ µ
f ( x1∗ ) + f ( x2∗ ) ě f ( 1 ) + k x1∗ − x2∗ k2 ,
2 2 2 8
x1∗ + x2∗
où 12 f ( x1∗ ) + 12 f ( x2∗ ) = minC f par définition de x1∗ , x2∗ , et f ( 2 ) ě minC f . Ceci implique
donc que 8 k x1∗ − x2∗ k2 ď 0, c-à-d que x1∗ = x2∗ .
µ

56 CHAPITRE III. OPTIMISATION CONVEXE

III.III Récapitulatif du Chapitre


Ici C ⊂ U ⊂ R N , où U est un ouvert de R N , et C est une contrainte fermée non vide. On
considère une fonction f : U → R, et le problème d’optimisation associé

minimiserx∈C f ( x ).

Unicité des minimiseurs

• Si f est fortement convexe et C convexe alors f admet un unique minimiseur global


sur C.

La convexité donne une réciproque au Théorème de Fermat Si f est convexe sur C et C


convexe, et que x ∈ int C, alors ces propriétés sont équivalentes :

• x est un minimiseur global de f sur C


• x est un minimiseur local de f sur C
• ∇ f ( x ) = 0.

Utiliser la Hessienne

• Si C convexe et ouvert, alors f est convexe sur C si et seulement si

(∀ x ∈ C ) λmin (∇2 f ( x )) ě 0.

• Si C convexe et ouvert, et µ > 0, alors f est µ-fortement convexe sur C si et seulement


si
(∀ x ∈ C ) λmin (∇2 f ( x )) ě µ.
Chapitre IV

Algorithmes de minimisation sans


contrainte

Dans tout ce chapitre, nous allons considérer une fonction différentiable f : R N → R, que
l’on supposera convexe sauf mention du contraire. Rappelons dans ce cas (cf. Théorème
III.25) que tout minimiseur x̄ ∈ argmin f est caractérisé par
∇ f ( x̄ ) = 0.
Cependant, en général, il n’est pas possible de déterminer une formule explicite pour x̄
à partir de ∇ f ( x̄ ) = 0, car ces équations peuvent être non linéaires. C’est pourquoi en
pratique on est amené à chercher une valeur approchée de x̄. C’est tout l’objet de ce cha-
pitre que de présenter une classe de méthodes classiques pour obtenir de telles solutions
approchées : les algorithmes itératifs.

IV.I Méthodes de descente


IV.I.1 Algorithmes itératifs
Comme son nom l’indique, le but d’une méthode itérative est de générer une suite de
vecteurs ( xk )k∈N ⊂ R N telle que, lorsque k → +∞, xk converge vers la solution de notre
problème. On peut définir de manière formelle ce qu’est une méthode itérative :

Définition IV.1. Un ALGORITHME IT ÉRATIF d’ordre p ě 1 sur R N est la donnée d’une


instruction A : (R N ) p −→ R N , telle que le nouvel itéré dépende des p itérés précédents
(∀k ∈ N) xk+1 = A( xk , · · · , xk− p+1 ).
On dit alors que ( xk )k∈N est générée par l’algorithme A.
En particulier, un algorithme itératif est dit DU PREMIER ORDRE sur R N si, à chaque
itération, le nouvel itéré ne dépend que du précédent ; c’est-à-dire qu’il existe une ap-
plication A : R N → R N telle que xk+1 = A( xk ).

57
58 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Exemple IV.2. Les suites arithmétique xk+1 = xk + r ou géométrique xk+1 = rxk sont
définies par des algorithmes itératifs du premier ordre sur R (ici r ∈ R).

Exemple IV.3. La suite de Fibonacci définie par

x0 = 0, x1 = 1, x k +1 = x k + x k −1

est générée par un algorithme itératif du deuxième ordre sur R. Par contre elle n’est pas
générée par un algorithme itératif du premier ordre sur R.

Toute méthode du premier ordre peut se réécrire sous la forme

xk+1 = xk + ρk dk , ρk > 0, dk ∈ R N , (IV.1)

où ρk et dk dépendent de xk . On dit alors que dk est la direction de l’algorithme au k-ème


itéré, et que ρk est le pas de l’algorithme. Le choix et le rôle donnés à ρk et dk dépendent
de l’algorithme.

Remarque IV.4. Faisons le point, et listons ce que l’on peut espérer d’un tel algorithme
dans le cadre de notre problème d’optimisation :

• Comme on l’a dit, on souhaite que limk xk = x ∗ ∈ argmin f . C’est la convergence des
itérés de la suite vers une solution.
• Au vu de la définition IV.1, et si ρk ne tend pas vers 0, on voit que dk doit tendre vers 0.
Or on souhaite à la limite avoir ∇ f ( x ) = 0. Donc il est raisonnable que dk soit construit
à base d’informations sur les dérivées partielles de f .
• On peut également souhaiter la convergence de la suite des valeurs : limk f ( xk ) = inf f .
De plus, puisque en pratique on va s’arrêter avec k fini, on peut espérer qu’à chaque
itération les valeurs s’améliorent, c’est-à-dire f ( xk+1 ) ď f ( xk ).
• On peut également vouloir en savoir plus sur la convergence, d’un point de vu quanti-
tatif. Par example la VITESSE DE CONVERGENCE des itérés vers une solution, ou des va-
leurs vers inf f , ou de k∇ f ( xk )k vers 0. On distingue généralement trois  classes  de
vitesses :

Définition IV.5. Soit (rk )k∈N ⊂ [0, +∞[ une suite qui tend vers 0 lorsque k → +∞. On dit
que

• rk converge LIN ÉAIREMENT si

(∃θ ∈ [0, 1[)(∀k ∈ N) rk+1 ď θrk .

• rk converge SUPERLIN ÉAIREMENT si

(∃θ ∈ [0, 1[)(∃ β ∈]1, +∞[)(∀k ∈ N) rk+1 ď θrk .


β
IV.I. MÉTHODES DE DESCENTE 59

• rk converge SOUSLIN ÉAIREMENT si

C
(∃C ∈ [0, 1[)(∃α ∈]0, +∞[)(∀k ∈ N) rk ď .

Remarque IV.6. La convergence linéaire est parfois appelée convergence G ÉOM ÉTRIQUE,
pour des raisons évidentes. Une suite convergeant linéairement vérifie en particulier que

r k ď θ k r0 ,

c’est-à-dire qu’elle converge exponentiellement.

Remarque IV.7. La convergence superlinéaire est plus rapide que la convergence linéaire.
Par récurrence, on voit qu’une telle suite vérifie (rappelons que rk → 0)
k i βk
r k ď θ ∑i β r0 .
k
Donc à partir d’un certain rang, la suite tend vers 0 à une vitesse r β ce qui est très rapide !
Pour β = 2 on parle de convergence QUADRATIQUE, c’est en général le mieux que l’on
puisse espérer.

Remarque IV.8. La convergence souslinéaire est moins rapide que la convergence linéaire.

IV.I.2 Directions de descente


On s’intéresse ici aux méthodes itératives d’ordre 1 xk+1 = xk + ρk dk , et on va s’intéresser
à des choix particuliers de dk qui permettent de garantir que l’algorithme converge vers
un minimiseur de la fonction.
Pour cela, on va commencer par répondre à la question : comment s’assurer que

f ( x k +1 ) < f ( x k ) ?

Définition IV.9. Soit f : R N → R différentiable, et x ∈ R N . On dit que d ∈ R N est une


DIRECTION DE DESCENTE en x si la dérivée directionnelle en x dans la direction d est
strictement négative :
∂f
( x ) < 0.
∂d
Remarque IV.10. Rappelons d’après la Proposition I.63 que cela équivaut à h∇ f ( x ), di <
0, c’est-à-dire former un angle strictement obtus avec ∇ f ( x ).

Proposition IV.11 (Existence de directions de descente). Soit f : R N → R différentiable,


et x ∈ R N . Alors il existe une direction de descente en x si et seulement si x n’est pas un point
critique.
60 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Démonstration. Si x n’est pas un point critique, i.e. ∇ f ( x ) 6= 0, alors avec d = −∇ f ( x ) on


a h∇ f ( x ), di = −k∇ f ( x )k2 < 0. Si x admet une direction de descente d, alors ∇ f ( x ) ne
peut être égal à 0 sinon on aurait h∇ f ( x ), di = 0. 

Proposition IV.12 (Décroissance d’Armijo pour les directions de descente). Soit f : R N →


R différentiable, x ∈ R N , et d une direction de descente en x. Alors :

1) (∀ β ∈]0, 1[)(∃ρ > 0)(∀t ∈]0, ρ[) f ( x + td) ď f ( x ) + tβh∇ f ( x ), di.


2) (∃ρ > 0)(∀t ∈]0, ρ[) f ( x + td) < f ( x ).

Démonstration. Au vu de la définition de direction de descente, on voit que i) implique


trivialement ii). Donc il suffit maintenant de vérifier i). Soit donc β ∈]0, 1[ quelconque.
D’après Proposition I.63, on a

f ( x + td) − f ( x )
lim = h∇ f ( x ), di < 0.
t →0 t
Donc, d’après la définition de la limite, il existe ρ > 0 tel que pour tout |t| < ρ,

f ( x + td) − f ( x )
< βh∇ f ( x ), di.
t

Cette proposition suggère donc que les directions de descente sont des candidates de
directions dk à suivre dans notre algorithme IV.1, puisqu’elle permettent de faire décroitre
les valeurs de la fonction, pourvu que le pas choisi soit suffisamment petit.

Définition IV.13. Soit f : R N → R différentiable. Une M ÉTHODE DE DESCENTE pour f


est un algorithme itératif du premier ordre de la forme (IV.1), où dk est une direction de
descente en xk .

La plupart des résultats concernant les directions de descente que l’on vient de voir
peuvent s’interpréter de manière géométrique. On peut donc s’aider d’un dessin pour
comprendre de quoi il s’agit.
Considérons une fonction f : R N → R différentiable, et x ∈ R N . On peut alors définir
son ENSEMBLE DE NIVEAU en f ( x )

[ f = f ( x )] := { x 0 ∈ R N | f ( x 0 ) = f ( x )}.

ENSEMBLE DE SOUS - NIVEAU en f ( x ) (voir Figure IV.1) :

[ f ď f ( x )] := { x 0 ∈ R N | f ( x 0 ) ď f ( x )}.

On a alors le résultat suivant (énoncé informellement, voir le prochain Chapitre pour plus
de détails) :
IV.I. MÉTHODES DE DESCENTE 61

Théorème IV.14. Soit f : R N → R différentiable, et x ∈ R N un point non critique de f . Alors :

1) L’espace tangent à [ f = f ( x )] est égal à l’ensemble des directions d ∈ R N dont la dérivée


directionnelle D f ( x )(d) s’annule.
2) L’espace normal à [ f = f ( x )] est la droite vectorielle engendrée par ∇ f ( x ).

F IGURE IV.1 – Le gradient est normal aux ensembles de sous-niveau et pointe vers
l’extérieur.

On peut voir que :

1) Le gradient ∇ f ( x ) est perpendiculaire à la courbe de niveau et  pointe  vers l’extérieur.


2) Les directions de descente sont les vecteurs qui  pointent  vers l’intérieur de l’en-
semble de sous-niveau.
3) Quelque soit la direction de descente suivie, on n’a la descente garantie que si le pas
est suffisamment petit. Il faut bien sur déterminer qu’est-ce que ça veut dire en pratique
(cf. prochaine section).

IV.I.3 Méthodes du gradient et de Newton


On va ici maintenant à définir des méthodes de descente. On a vu dans la preuve de
la Proposition IV.11 que −∇ f ( x ) est une direction de descente en x. Ceci nous pousse
donc naturellement à définir la méthode du gradient, que l’on étudiera en détail dans la
prochaine section :
62 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Définition IV.15. Soit f : R N → R différentiable. La M ÉTHODE DU GRADIENT est la


méthode de descente où l’on choisit dk = −∇ f ( xk ) , c’est-à-dire :

xk+1 = xk − ρk ∇ f ( xk ), ρk > 0.

On pourrait se demander si cette méthode est bonne, et si l’on peut trouver mieux. Par
exemple, on a vu dans la Proposition IV.12.i) que plus la dérivée directionnelle h∇ f ( x ), di
est négative, et plus on pourra faire décroitre les valeurs de la fonction dans cette direction.
Il est donc naturel de chercher la direction d qui minimise la dérivée directionnelle en x.
On peut en fait montrer que c’est exactement −∇ f ( x ), ce qui explique qu’on dise parfois
que −∇ f ( x ) est la DIRECTION DE LA PLUS GRANDE PENTE :

Proposition IV.16. Soit f : R N → R différentiable, et x ∈ R N un point non critique. Alors


−∇ f ( x )
∈ argmin h∇ f ( x ), di.
k∇ f ( x )k kdk=1

Démonstration. D’après l’inégalité de Cauchy-Schwarz, on a pour tout kdk = 1 :

h∇ f ( x ), di ě −k∇ f ( x )kkdk = −k∇ f ( x )k.


−∇ f ( x )
Par ailleurs, cette borne inférieure est atteinte si on prend d = k∇ f ( x )k
. C’est donc par
définition un minimiseur de d 7→ h∇ f ( x ), di. 
La Proposition IV.16 nous fournit également une nouvelle interprétation de la méthode
du gradient : faire un pas de la méthode du gradient à partir d’un point x, c’est équivalent
à minimiser l’approximation de Taylor de f en x à l’ordre 1 sur un voisinage de x. Plus
précisément :

Proposition IV.17. Soit f : R N → R différentiable, et x ∈ R N un point non critique. Soit


ρ > 0, et x + = x − ρ∇ f ( x ) le point obtenu après avoir fait un pas de la méthode du gradient en
partant de x. Alors
x+ ∈ argmin f ( x ) + h∇ f ( x ), x 0 − x i.
x 0 ∈B( x,ρk∇ f ( x )k)

Démonstration. D’après l’inégalité de Cauchy-Schwarz, on a pour tout x 0 ∈ B ( x, ρk∇ f ( x )k) :

h∇ f ( x ), x 0 − x i ě −k∇ f ( x )kk x 0 − x k ě −ρk∇ f ( x )k2 .


Par ailleurs, cette borne inférieure est atteinte si on prend x 0 = x − ρ∇ f ( x ). C’est donc par
définition un minimiseur de x 0 7→ f ( x ) + h∇ f ( x ), x 0 − x i. 
On voit donc que la méthode du gradient exploite au mieux l’information du premier
ordre de f en x pour trouver une direction de descente optimale. Du coup il est légitime
de se demander ce que l’on obtient lorsque on minimise l’approximation de Taylor de f
en x au deuxième ordre. C’est résumé dans le résultat suivant :
IV.I. MÉTHODES DE DESCENTE 63

Proposition IV.18. Soit f : R N → R deux fois différentiable, et x ∈ R N un point non critique,


tel que ∇2 f ( x )  0. Alors

1
x − ∇2 f ( x )−1 ∇ f ( x ) = argmin f ( x ) + h∇ f ( x ), x 0 − x i + h∇2 f ( x )( x 0 − x ), ( x 0 − x )i.
x 0 ∈R N
2

De plus, −∇2 f ( x )−1 ∇ f ( x ) est une direction de descente pour f en x.

Démonstration. On est en train de minimiser la fonction (prendre garde au fait que x est
une constante ici !)
1
φ( x 0 ) := f ( x ) + h∇ f ( x ), x 0 − x i + h∇2 f ( x )( x 0 − x ), ( x 0 − x )i.
2
On voit que c’est une fonction quadratique, telle que

∇φ( x 0 ) = ∇ f ( x ) + ∇2 f ( x )( x 0 − x ) et ∇2 φ ( x 0 ) = ∇2 f ( x ).

Par hypothèse ∇2 f ( x ) est définie positive donc φ est fortement convexe (voir Proposi-
tion III.36). Donc elle admet un unique minimiseur (voir Théorème III.38) que l’on notera
x + . Par convexité de φ, ce minimiseur x + est caractérisé par la condition d’optimalité du
premier ordre ∇φ( x + ) = 0, qui devient ici

∇2 f ( x )( x + − x ) + ∇ f ( x ) = 0.

Puisque on a supposé que ∇2 f ( x ) est inversible, on trouve que la solution de ce système


linéaire est x + = x − ∇2 f ( x )−1 ∇ f ( x ). Pour voir que d = −∇2 f ( x )−1 ∇ f ( x ) est une direc-
tion de descente, on utilise la Proposition I.39 :

h∇ f ( x ), −∇2 f ( x )−1 ∇ f ( x )i = −h∇2 f ( x )∇2 f ( x )−1 ∇ f ( x ), ∇2 f ( x )−1 ∇ f ( x )i


ď −λmin (∇2 f ( x ))k∇2 f ( x )−1 ∇ f ( x )k2 < 0.


On peut donc définir une nouvelle méthode de descente :

Définition IV.19. Soit f : R N → R deux fois différentiable, et telle que ∇2 f ( x )  0


pour tout x ∈ R N . La M ÉTHODE DE N EWTON est la méthode de descente où l’on choisit
dk = −∇2 f ( x )−1 ∇ f ( xk ) et ρk = 1, c’est-à-dire :

x k +1 = x k − ∇ 2 f ( x k ) −1 ∇ f ( x k ).

Remarque IV.20 (Newton). Quelques observation sur la méthode de Newton :

• La méthode de Newton requiert le calcul de la Hessienne de f (ce qui peut couter


cher), et son inversion (ce qui peut couter encore plus cher).
64 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

• Beaucoup de méthodes très efficaces son définies en remplaçant ∇2 f ( xk )−1 par une
matrice Hk qui est une approximation facile à calculer de ∇2 f ( xk )−1 . Cette famille de
méthodes s’appelle les méthodes de Quasi-Newton (voir exercice IV.21).
• On n’étudiera pas cet algorithme, dont l’analyse est compliquées. Plus de détails en M1
dans l’UE Optimisation (OP8). On peut néanmoins citer (cf. TP) que 1) l’algorithme
est très sensible aux conditions initiales (choix de x0 ) et que 2) quand l’algorithme
fonctionne, il converge très vite (plus précisément : superlinéairement).

Exercice IV.21 (Une méthode de Quasi-Newton). Soit f ∈ C2 (R N ) ∩ CL1,1 (R N ) ∩ Γµ (R N ).


On considère la méthode xk+1 = xk − Dk−1 ∇ f ( xk ), où Dk ∈ M N (R) est une matrice
∂2 f
diagonale dont les coefficients valent Di,i = ∂xi2
( x k ).

1) Montrer que spec( Dk ) ⊂ [µ, L].


2) En déduire que dk := − Dk−1 ∇ f ( xk ) est une direction de descente pour f en xk s’il n’est
pas un point critique.

Pour conclure, il est intéressant de noter que la méthode du gradient, tout comme la
méthode de Newton, peut se voir comme la minimisation d’une approximation quadra-
tique de f . Mais ici on parle d’une approximation quadratique qui ignore l’information du
second ordre de f :

Exercice IV.22 (Une autre caractérisation de la méthode du gradient). Soit f : R N → R


différentiable, ρ > 0 et x ∈ R N un point non critique. Montrer que
1 0
x − ρ∇ f ( x ) = argmin f ( x ) + h∇ f ( x ), x 0 − x i + k x − x k2 .
x 0 ∈R N

IV.II Conditionnement des fonctions convexes à gradient


Lipschitzien
IV.II.1 Fonctions à gradient Lipschitzien
Définition IV.23. Soit F : R N → R M . On dit que F est L IPSCHITZIENNE si
(∃ L ∈ [0, +∞[)(∀ x, y ∈ R N ) k F ( x ) − F (y)k ď Lk x − yk.
Dans ce cas, on dira parfois que F est L-Lipschitzienne.

Remarque IV.24. On notera Lip( F ) la meilleure (la plus petite) constante de Lipschitz
possible pour F. Elle se définit comme :
k F ( x ) − F (y)k
Lip( F ) := sup ∈ [0, +∞].
x 6 = y ∈R N
k x − yk
IV.II. CONDITIONNEMENT 65

On voit alors immédiatement que F est Lipschitzienne si et seulement si Lip( F ) < +∞, ce
qui implique en particulier que F est Lip( F )-Lipschitzienne.
k F ( x )− F (y)k
Le quotient k x−yk qui apparait dans la remarque ci-dessus n’est pas sans rappeler
la définition de la différentielle. Ce n’est pas une simple coı̈ncidence : il se trouve que
pour les fonctions différentiables, la constante de Lipschitz se calcule directement à partir
de la différentielle (plus précisément, à partir de la jacobienne, qui est la matrice de la
différentielle) :

Proposition IV.25 (Lipschitz via la jacobienne). Soit F : R N → R M une application différentiable


sur R N . Alors :
Lip( F ) = sup  JF ( x ).
x ∈R N

Démonstration. Commençons par définir L := sup  JF ( x ), et montrons que Lip( F ) = L


x ∈R N
avec deux inégalités.
Si L = +∞, on a forcément Lip( F ) ď L. Si L < +∞, alors on peut utiliser l’inégalité
des accroissements finis :

k F ( x ) − F (y)k ď sup  JF (z)k x − yk = Lk x − yk.


z ∈R N

On déduit alors que F est L-Lipschitzienne, ce qui veut dire que Lip( F ) ď L.
Si Lip( F ) = +∞, on a forcément Lip( F ) ě L. Si Lip( F ) < +∞, alors F est Lip( F )-
Lipschitzienne. Si on utilise le fait que (cf. Proposition I.63)

F ( x + td) − F ( x )
DF ( x )(d) = lim ,
t →0 t

on peut écrire pour tout x ∈ R N :

k F ( x + td) − F ( x )k
 JF ( x ) =  DF ( x ) = sup k DF ( x )(d)k = sup lim ď Lip( F ).
kdk=1 kdk=1 t→0 t

On en déduit que Lip( F ) ě L. 


Cette proposition nous permet donc de calculer/estimer la constante de Lipschitz
d’une application F en pratique. En effet, il suffit de calculer la matrice Jacobienne de
F en tout point x, de calculer la norme subordonnée euclidienne de la matrice JF ( x ),
puis de trouver une borne supérieure uniforme pour cette norme, au sens où elle soit
indépendante de x.

Définition IV.26. On note CL1,1 (R N ) l’ensemble des fonctions f : R N −→ R différentiables


et dont le gradient est L-Lipschitzien.
66 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Proposition IV.27. Soit f ∈ Γ0 (R N ) ∩ C2 (R N ), et L > 0. Alors les propriétés suivantes sont


équivalentes :

i) f ∈ CL1,1 (R N ) (autrement dit, ∇ f est L-Lipschitzien).


ii) (∀ x ∈ R N ) λmax (∇2 f ( x )) ď L.

Démonstration. Soit F = ∇ f , qui, par hypothèse, est de classe C1 (R N ). La Proposition


I.78.iii) nous dit que JF = ∇2 f , et la Proposition I.78.i) nous garantit que la Hessienne est
symétrique, ce qui nous permet d’écrire en vertu de la Proposition I.36 pour tout x ∈ R N
que ∇2 f ( x ) = ρ(∇2 f ( x )). De plus, f est supposée convexe, donc le Théorème III.19
nous garantit que les valeurs propres de la Hessienne sont positives, ce qui veut dire que
ρ(∇2 f ( x )) = λmax (∇2 f ( x )). On conclut alors avec la Proposition IV.25. 

On voit donc ici une propriété en quelque sorte duale1 du Théorème III.33 : une borne
uniforme inférieure sur le spectre de la Hessienne équivaut à la forte convexite, tandis
qu’ici on voit qu’une forte uniforme supérieure équivaut à la Lipschitzianité du gradient.
On en déduit d’ailleurs immédiatement que :

Proposition IV.28. Si f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ) avec µ, L > 0, alors L ě µ.

Démonstration. C’est une directe conséquence des Propositions IV.27 et III.33. 

Exercice IV.29 (Constante de Lipschitz). Dans cet exercice nous allons calculer (ou esti-
mer) la constante de lipschitz de ∇ f : Rn → Rn , pour certaines fonctions f : Rn → R.
Soient A ∈ Rm×n , et b ∈ Rm .

1) Soit f ( x ) = k Ax − bk2 . Calculer la Hessienne de f , puis en déduire la constante de


Lipschitz de ∇ f .
2) Soit f ( x ) = g( x ) + 2 k x k2 , où g : Rn → R est une fonction de classe C2 et de gradient
µ

L-Lipschitzien. Calculer la constante de Lipschitz de ∇ f .


3) Soit f ( x ) = m1 ∑im=1 ln(1 + e−bi h x,ai i ), où ai est le vecteur apparaissant à la i-ième ligne
de la matrice A, et on suppose ici que |bi | = 1.

a) Soit f i ( x ) = ln(1 + e−bi h x,ai i ). Calculer son gradient et sa Hessienne.


b) Vérifier que pour tout t ∈ R, (1+t t)2 ď 41 . En déduire que ∇ f i est Li -Lipschitzien,
avec Li ď k ai k2 /4.
c) En déduire que ∇ f est L-Lipschitzien, avec L ď 1
4m ∑im=1 k ai k2 .
1 Il
existe d’ailleurs une très jolie théorie de la dualité en analyse convexe qui permet entre autres
choses de formellement justifier que  forte convexité  et  différentiable à gradient Lipschitzien  sont
les deux facettes d’une même pièce. C’est en quelque sorte un résultat analogue à la correspondance entre
 régularité  et  décroissance  via la transformée de Fourier. Mais cela est évidemment hors-programme

...
IV.II. CONDITIONNEMENT 67

IV.II.2 Conditionnement d’une fonction

Définition IV.30. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ), pour L ě µ > 0. Le CONDITIONNEMENT


de f , noté cond( f ), est défini par le ratio µL ∈ [1, +∞[.

Remarque IV.31. Le fait que le conditionnement soit un nombre plus grand que 1 vient
de la Proposition IV.28 qui garantit que L ě µ.

1
Exemple IV.32. Soit A une matrice symétrique définie positive, et f ( x ) = 2 h Ax, x i +
hb, x i + c une fonction quadratique. Alors

λmax ( A)
cond( f ) = = cond( A).
λmin ( A)

On retrouve ici la notion de conditionnement d’une matrice cond( A), qui est très impor-
tante en Calcul Matriciel : on sait qu’elle contrôle plusieurs choses comme :

• La stabilité des algorithmes par rapport aux erreurs

• La vitesse de convergence des méthodes de résolution des systèmes linéaires associés

On verra qu’il se passe la même chose pour les fonctions fortement convexes à gradient
Lipschitzien : plus le conditionnement sera proche de 1, et meilleurs seront les résultats.

F IGURE IV.2 – Ensembles de niveau pour une fonction quadratique ayant un conditionne-
ment cond( f ) = 1, 10, 100 (de gauche à droite).
68 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.3 – Graphe d’une fonction quadratique ayant un conditionnement cond( f ) =


1, 10, 100 (de gauche à droite).

Exercice IV.33 (Conditionnement d’une fonction vs. de la Hessienne). Soit f ∈ Γµ (R N ) ∩


CL1,1 (R N ) ∩ C2 (R N ), pour L ě µ > 0. Montrer que

cond( f ) ě sup cond(∇2 f ( x )).


x ∈R N

Trouver un exemple de fonction pour laquelle cette inégalité est stricte.


IV.III. MÉTHODE DU GRADIENT 69

IV.III Méthode du gradient

IV.III.1 La méthode du gradient à pas fixe

On considère ici l’algorithme du gradient où le pas est fixé tout au long de l’algorithme,
c’est à dire
xk+1 = xk − ρ∇ f ( xk ), ρ > 0.

Dans toute la suite de ce chapitre, on utilisera la notation suivante

(∀ x ∈ R N ) x + := x − ρ∇ f ( x ),

où x + désigne le point que l’on obtient en appliquant un pas de la méthode du gradient à
x. Observer que la notation est ambigüe par rapport à la valeur de ρ mais on fera attention
à toujours l’utiliser dans un contexte où on sait ce que vaut ρ.
Une question essentielle à propos de cet algorithme est : comment choisir ρ ? On a
vu dans la Proposition IV.12 qu’il fallait que ρ soit suffisamment petit pour garantir que
l’algorithme fait décroitre les valeurs de f . Mais d’un autre coté on imagine bien que si
le pas est trop petit, on va faire des tout petits pas, donc l’algorithme va être lent et peu
efficace. Il faut donc bien analyser ce qui se passe pour pouvoir prendre le meilleur pas
possible.

Proposition IV.34 (Décroissance de la méthode du gradient). Soient L > 0, f ∈ CL1,1 (R N )


et ρ > 0. Soit x ∈ R N , et notons x + := x − ρ∇ f ( x ). Alors :

 

i) f ( x + ) − f ( x ) ď −ρ 1 − 2 k∇ f ( x )k2 .

ii) Si ρ < 2/L et x n’est pas un point critique, alors f ( x + ) < f ( x ).

Remarque IV.35 (Choix du pas fixe et conditionnement). La condition ρ < 2/L nous
garantit que le pas est suffisamment petit pour que la fonction décroisse après un pas de
l’algorithme. Mais il faut garder en tête que cette contrainte correspond en quelque sorte
à un  pire des cas  : si on prend un pas plus grand, il se peut que quelque part, il y ait
un point où l’on va aller  trop loin  et faire réaugmenter les valeurs de la fonctions. En
conséquence, cela veut dire aussi que cette condition peut parfois être trop stricte, car il y
a des points où on pourrait prendre un pas plus grand. On le voit très bien sur la Figure
IV.4, où pour une fonction avec cond( f ) = 10, on voit qu’en le point y, le pas ρ < 2/L
ne nous permet pas d’aller très loin. Mais on ne peut pas non plus prendre un pas plus
grand, car en le point x un pas supérieur à 2/L nous ferait sortir du sous-niveau.
70 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.4 – Fonctions quadratiques avec un conditionnement de cond( f ) = 1, 10 res-


pectivement. En noir, un point x (resp. y) appartenant à l’espace propre de la plus grande
(resp. plus petite) valeur propre de la Hessienne. En rouge, les gradients en ces points. En
rose, l’ensemble des points que l’on peut atteindre en prenant un pas ρ < 2/L.

Remarque IV.36. Pour contourner ce problème mentionné dans la précédente remarque,


on pourrait penser à prendre un pas ρk qui dépend du point xk et s’adapte à la géométrie
locale de la fonction. On en reparlera dans la prochaine section.

Démonstration de la Proposition IV.34. Soient x, y ∈ R N quelconques. Posons g(t) = f (zt )


où zt = (1 − t) x + ty, telle que g0 (t) = h∇ f (zt ), y − x i. On peut alors écrire :
Z 1 Z 1
f ( y ) − f ( x ) = g (1) − g (0) = g0 (t) dt = h∇ f (zt ), y − x i dt.
0 0
IV.III. MÉTHODE DU GRADIENT 71

Afin de pouvoir utiliser la Lipschitzianité de ∇ f , on va faire apparaitre un ∇ f ( x ) puis


utiliser l’inégalité de Cauchy-Schwarz :
Z 1
f (y) − f ( x ) = h∇ f (zt ) − ∇ f ( x ), y − x i dt + h∇ f ( x ), y − x i
0
Z 1
ď k∇ f (zt ) − ∇ f ( x )kky − x k dt + h∇ f ( x ), y − x i
0
Z 1
ď Lkzt − x kky − x k dt + h∇ f ( x ), y − x i.
0

Si on utilise le fait que, par définition, zt − x = t(y − x ), on obtient alors :

L
(∀ x, y ∈ R N ) f (y) − f ( x ) ď ky − x k2 + h∇ f ( x ), y − x i. (IV.2)
2
Prenons maintenant y = x + = x − ρ∇ f ( x ) :
 
+ L 2
f (x ) − f (x) ď ρ − ρ k∇ f ( x )k2 . (IV.3)
2
2
/ crit f garantit k∇ f ( x )k2 > 0, et 0 < ρ <
On conclut en observant que x ∈ L implique que
L 2

2 ρ − ρ < 0. 

On a donc vu qu’un pas ρ ∈]0, 2/L[ est nécessaire pour garantir la décroissance de la
fonction le long des itérés de l’algorithme. Mais ceci ne garantit pas la convergence de l’al-
gorithme. Pour cela, on va faire l’hypothèse supplémentaire que la fonction est fortement
convexe.

Théorème IV.37 (Convergence linéaire des itérés (cas fortement convexe)). Soient L ě µ >
0 et f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ). On note x ∗ = argmin f , et on considère la méthode du
gradient avec un pas constant ρ ∈]0, 2/L[. Alors

i) La suite xk converge vers x ∗ .


ii) La suite (k xk − x ∗ k)k∈N converge linéairement, c’est-à-dire que :

(∃θ ∈ [0, 1[)(∀k ∈ N) k xk+1 − x ∗ k ď θ k xk − x ∗ k .

iii) Plus précisément, on peut montrer que


(
2
1 − ρµ si ρ ď µ+ L
θ = max{|1 − ρµ|; |1 − ρL|} = 2
(IV.4)
ρL − 1 si ρ ě µ+ L ,

iv) Le taux de convergence linéaire θ est minimal lorsque ρ = 2/(µ + L).


72 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

On voit donc que la vitesse de convergence ne dépend que du choix de ρ et du condi-


tionnement de f .

Remarque IV.38 (Pas optimal). La meilleure vitesse est atteinte lorsque θ est le plus petit
possible. Au vu de la définition de θ, il est minimal lorsque ρ = 2/(µ + L), auquel cas
L−µ
θ = L+µ (voir aussi Figure IV.III.1). On dit parfois que ce choix de pas est le PAS OPTI -
MAL . Attention à ne pas confondre avec la Section IV.III.2 ! Il est également possible de
L−µ
montrer que cette vitesse linéaire en L+µ est la meilleure que l’on puisse espérer avec la
méthode du gradient (hors programme). L’inconvénient néanmoins de ce choix de pas est
qu’il nécessite la connaissance de µ, ce qui n’est pas toujours le cas en pratique, où L est
beaucoup plus facile à estimer.

Exemple IV.39. Il est possible √ de montrer que pour la fonction quadratique f ( x1 , x2 ) =



(µ/2) x12 + ( L/2) x22 et x = ( L, µ) et ρ = 2/(µ + L),
L−µ
k x+ − x∗ k = k x − x ∗ k,
L+µ
donc on ne peut pas améliorer cette vitesse.

Remarque IV.40 (Pas court). Le choix le plus populaire, lorsqu’on ne connait pas µ, est
de prendre ρ = 1/L. Dans ce cas, θ = 1 − µ/L. C’est un choix raisonnable, au sens où
il donne la meilleure contraction qu’on puisse garantir avec cet algorithme, lorsqu’on ne
connait pas µ. En effet, sur ]0, 1/L], θ est décroissant, tandis que 2/(µ + L) est toujours
supérieur à 1/L, mais peut être arbitrairement proche voire égal à 1/L. On parle parfois
de PAS COURT pour désigner ce choix de pas.

Démonstration du Théorème IV.37. Ici on suppose pour simplifier la preuve que f est également
de classe C2 (R N ), bien que ce ne soit pas nécessaire. Une preuve sans cette hypothèse est
disponible dans la Section A.II.1 en Annexe. On cherche donc à montrer que

(∃θ ∈ [0, 1[)(∀ x ∈ R N ) k x + − x ∗ k ď θ k x − x ∗ k.


IV.III. MÉTHODE DU GRADIENT 73

On définit le champ de vecteurs associé à l’algorithme : A : R N → R N , A( x ) = x + =


x − ρ∇ f ( x ). En observant que x ∗ est un point fixe de A (A( x ∗ ) = x ∗ ), on peut réécrire le
problème comme
(∃θ ∈ [0, 1[)(∀ x ∈ R N ) kA( x ) − A( x ∗ )k ď θ k x − x ∗ k.
On voit alors qu’il suffit de montrer que A est Lipschitzienne, avec une constante Lip(A)
strictement plus petite que 1. Or f étant C2 , a fortiori A est de classe C1 , et donc on peut
utiliser la caractérisation de la Proposition IV.25 qui nous dit que
Lip(A) = sup  JA( x ).
x ∈R N

Pour tout x ∈ R N , on peut calculer JA( x ) = I − ρ∇2 f ( x ), qui est une matrice symétrique,
donc sa norme peut être calculée via ses valeurs propres :
 
Lip(A) = sup max | spec I − ρ∇2 f ( x ) | = sup max |1 − ρλ|.
2
x ∈R N x ∈R N λ∈spec(∇ f ( x ))

Or on sait via Proposition IV.27 et III.33 que spec(∇2 f ( x )) ⊂ [µ, L]. Donc nécessairement :
(∀λ ∈ spec(∇2 f ( x ))) |1 − ρλ| ď max{|1 − ρµ|, |1 − ρL|},
et on déduit de tout ce qui précède que l’énoncé du Théorème est vrai avec θ := max{|1 −
ρµ|, |1 − ρL|}. Il reste maintenant à étudier θ.
Tout d’abord, c’est un simple exercice (non trivial, faire un dessin aide beaucoup, cf.
Figure IV.III.1) que de vérifier que
(
|1 − ρµ| si ρ ď µ+2 L
max{|1 − ρµ|, |1 − ρL|} =
|ρL − 1| si ρ ě µ+2 L .
D’autre part, puisque 2/(µ + L) ∈ [1/L, 2/L[, on en déduit que 1 − ρµ ∈ [0, 1[ et ρL − 1 ∈
[0, 1[. 

Remarque IV.41. Ce Théorème IV.37 et sa preuve nécessitent l’hypothèse que f soit de


classe C2 , ce qui nous permet d’exploiter les propriétés de la Hessienne, et des matrices
symétriques. Sachez qu’on peut tout à fait se passer de cette double différentiabilité, et
simplement supposer que f est convexe, différentiable, et à gradient Lipschitzien. Cela
requiert évidemment un preuve différente, qui est un peu plus longue, et que l’on omettra
donc ici.

Théorème IV.42 (Convergence linéaire des valeurs (cas fortement convexe)). Soient L ě
µ > 0 et f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ). On considère la méthode du gradient avec un pas
constant ρ ∈]0, 2/L[. Alors ( f ( xk ) − inf f )k∈N converge linéairement, c’est-à-dire :
(∃θ ∈ [0, 1[)(∀k ∈ N) f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).
Plus précisément, on peut montrer que θ est le même que celui défini dans le Théorème IV.37.iii).
74 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Démonstration. Admis. Une démonstration est disponible dans l’Annexe (Section A.II.1).


Exemple IV.43. Soit f ( x ) = x2 /2, tel que µ = L = 1. Alors, pour tout x ∈ R et ρ ∈]0, 2[,
on a :
1 1
f ( x + ) = (1 − ρ)2 x2 et f ( x ) = x2 .
2 2
Donc on a ici θ = (1 − ρ). On voit donc que le θ du Théorème est difficilement améliorable.

Pour conclure sur la convergence de la méthode du gradient, il est bon de savoir


que même lorsque la fonction n’est pas fortemement convexe, l’algorithme du gradient
converge. Par contre sa performance est moindre, on passe d’une convergence linéaire
pour les valeurs à une convergence souslinéaire. Nous admettons ici sa preuve, qui est un
peu longue, étant donné que nous avons déjà bien traité le cas fortement convexe.

Théorème IV.44 (Convergence de la méthode du gradient, cas convexe). Soit f ∈ Γ0 (R N ) ∩


CL1,1 (R N ), pour L > 0, telle que argmin f 6= ∅. On considère la méthode du gradient avec un pas
constant ρ ∈]0, 2/L[. Alors
i) xk converge vers x ∗ ∈ argmin f .
ii) f ( xk ) converge vers inf f .
 
1
iii) Plus précisément, f ( xk ) − inf f = O k .

Démonstration. Admis. La démonstration complète est disponible dans l’Annexe (voir


Section A.II.2). 

Remarque IV.45. Il n’y a pas de vitesses pour les itérés dans ce Théorème, car ils peuvent
tendre vers 0 de manière arbitrairement lente. Pour le voir il suffit de considérer des fonc-
tions qui ressemblent à f ( x ) = | x | p pour p → +∞.

Remarque IV.46. L’hypothèse argmin f 6= ∅ est importante. S Si il n’y a pas de mini-


miseurs, l’algorithme diverge et f ( xk ) tend vers inf f avec une vitesse qui peut être ar-
bitrairement faible. Pour le voir il suffit de considérer des fonctions qui ressemblent à
f ( x ) = 1/| x | p , pour p → +∞ : dans ce cas la fonction est de plus en plus plate au voisi-
nage de 0, donc le gradient devient très petit, et l’algorithme met de plus en plus de temps
à progresser.

Remarque IV.47 (Adaptivité à la forte convexité). On dit que la méthode du gradient


à pas constant est adaptive à la forte convexité. En effet : si on dispose d’une fonction
f ∈ CL1,1 (R N ) ∩ Γ0 (R N ), alors on peut choisir ρ < L2 et être garantit que l’algorithme va
converger, avec une vitesse qui sera au pire de l’ordre de 1t pour les valeurs (Théorème
IV.44). Mais ! Si il s’avère que la fonction f est fortement convexe (sans qu’on le sache),
alors cet algorithme va converger plus vite que prévu, c’est-à-dire linéairement (Théorème
IV.III. MÉTHODE DU GRADIENT 75

IV.42). Il est remarquable que l’algorithme soit capable d’exploiter cette propriété de forte
convexité sans qu’on ait besoin de le lui dire. C’est pour cela qu’on parle d’adaptivité.

F IGURE IV.5 – Convergence lente de la méthode du gradient pour des fonctions qui s’apla-
tissent.

IV.III.2 Méthode du gradient à pas optimal


Dans la section précédente, on a vu qu’on pouvait garantir

(∀ x ∈ R N ) f ( x+ ) − inf f ď θ 2 ( f ( x ) − inf f ),

pourvu qu’on choisisse bien ρ. Mais il y a quelques problèmes à cela :

1) Pour que cela marche un tant soit peu (c’est-à-dire pour que les valeurs décroissent), la
Proposition IV.34 nous dit qu’il faut prendre ρ < 2/L. Ce qui nécessite de connaitre L,
ce qui n’est pas toujours le cas. Idéalement on voudrait une méthode qui ne requière
aucune connaissance préalable sur la fonction f : c’est-à-dire qu’elle soit adaptive à L.
2) Pour que cela marche bien, il faut prendre le pas optimal ρ = 2/(µ + L), mais ici
encore, µ n’est pas toujours accessible.
3) Même si on avait accès à µ et L, nos résultats de contraction des vitesse est vrai en
tout x ∈ R N . Ce qui veut dire que la contraction que l’on a est un  pire des cas ,
au sens où il y a des mauvais x pour lesquels on va avoir une contraction θ, mais rien
n’empêche que pour un autre  bon  x la contraction soit meilleure.

Cela suggère donc que l’on choisisse ρk en boucle ouverte, c’est-à-dire que le choix de
ρk va être spécifique à xk . Une façon de faire est de carrément choisir parmi tous les pas
possibles celui qui va donner un point xk+1 qui va le plus faire décroitre la fonction :
76 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Définition IV.48. L’algorithme du gradient À PAS OPTIMAL est défini par

x k +1 = x k − ρ k ∇ f ( x k ) où ρk = argminρ>0 f ( xk − ρ∇ f ( xk )).

Remarque IV.49. Ne pas confondre cette méthode du gradient à pas optimal avec la
méthode du gradient à pas constant optimal, vu dans la précédente section, où ρ =
2/(µ + L).

Remarque IV.50. C’est ce que l’on appelle une méthode de recherche en ligne : on cherche
le long de l’espace unidimensionel { x − ρ∇ f ( x ) | ρ ∈ R} un bon successeur à x. Il existe
de nombreuses autres méthodes de ce type (voir l’exercice suivant).

Exercice IV.51 (Recherche en ligne naı̈ve). On considère la méthode du gradient xk+1 =


xk − ρk ∇ f ( xk ) où ρk > 0 est calculé à chaque itération selon la règle naı̈ve suivante : on
accepte n’importe quelle valeur de ρk , pourvu que l’on ait f ( xk+1 ) < f ( xk ).
 
+1
1) Prouver la formule suivante pour tout k ě 1 : ∏kt= 2 1 − 1
t2
= 12 kk+ 2
+1 .

2) Soit f ( x ) = 12 x2 , et x0 6= 0. On considère le choix de pas ρk = 1


k2

a) Exprimer xk+1 en fonction de xk . Vérifier que ρk respecte notre règle naı̈ve.


b) Montrer que xk converge vers x20 . Que pouvez-vous en déduire ?
1
3) Même question avec cette fois-ci ρk = 2 − k2
.

Une des propriétés importantes de la méthode du gradient à pas optimal est qu’elle
génère des trajectoires en zig-zag :

Proposition IV.52 (Propriété du zig-zag). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), pour L > 0, telle


que argmin f 6= ∅. On considère la méthode du gradient à pas optimal. Alors,

(∀k ∈ N) h∇ f ( xk ), ∇ f ( xk+1 )i = 0.

/ argmin f , et g : [0, +∞[→ R, t 7→ f ( x − t∇ f ( x )). Puisque x n’est


Démonstration. Soit x ∈
pas un minimiseur de f , on a forcément ∇ f ( x ) 6= 0. Donc −∇ f ( x ) est une direction de
descente, donc d’après la Proposition IV.12, 0 n’est pas un minimiseur de g. Donc ρ est
dans l’ouvert ]0, +∞[, donc g0 (ρ) = 0. Or, on peut calculer

g0 (t) = h∇ f ( x − t∇ f ( x )), −∇ f ( x )i. 

Remarque IV.53. Calculer le pas optimal nécéssite donc de résoudre un problème d’opti-
misation à chaque itération. Pour que ce soit rentable, il faudrait vraiment que l’algorithme
soit très efficace, i.e. qu’il converge très rapidement. C’est donc pour cela qu’on va analy-
ser sa convergence plus bas. De toute façon, en pratique :
IV.III. MÉTHODE DU GRADIENT 77

• On ne minimise pas exactement f ( xk − ρ∇ f ( xk )), mais on cherche un ρ qui soit  pas


trop mal , et il y a plein de façons de définir ce que  pas trop mal  veut dire.
• Dans le cas particulier des fonctions quadratiques, on dispose d’une formule explicite
pour exprimer ρk :

Proposition IV.54. Soit A ∈ M M,N (R) inversible, y ∈ R M et f ( x ) := 12 k Ax − yk2 . Alors,


pour tout xk ∈
/ argmin f , le pas optimal vaut :

k∇ f ( xk )k2
ρk = .
k A∇ f ( xk )k2

Remarque IV.55. Si on préfère écrire la fonction quadratique sous la forme f ( x ) = 12 hSx, x i +


hb, x i + c avec S ∈ S N (R), alors le pas optimal vaut

k∇ f ( xk )k2
ρk = .
hS∇ f ( xk ), ∇ f ( xk )i

Démonstration. On cherche donc à trouver t qui minimise g. Tout d’abord, observons que
g(t) = f ( x − t∇ f (t)) est la composition d’une fonction fortement convexe avec une fonc-
tion affine injective, donc g est fortement convexe. Donc elle admet un unique minimiseur,
qu’on note ρ. Puisque f est une fonction quadratique, la propriété du zig-zag g0 (ρ) = 0
est équivalente à :

0 = h A> ( A( x − ρA> ( Ax − b)) − b), A> ( Ax − b)i


= k A> ( Ax − b)k2 − ρk AA> ( Ax − b)k2 ,

et la conclusion suit. 

F IGURE IV.6 – Méthode du gradient optimal (GPO) pour diverses fonctions et points ini-
tiaux.
78 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.7 – Méthode du gradient optimal (GPO) pour une fonction mal conditionnée
et des points initiaux perturbés.

Remarque IV.56 (Pas optimal et zig-zag). Comme on peut le voir sur la Figure IV.6, la
méthode fonctionne mieux sur des fonctions bien conditionnées ; dans le cas contraire la
méthode est ralentie par l’effet zig-zag. Comme on peut le voir également sur la Figure
IV.7, l’effet zig-zag est également impacté par le choix du point initial. En particulier, on
voit que lorsque on perturbe un peu un point initial situé dans l’espace propre de λmax , la
trajectoire change peu, tandis que pour un point initial situé dans l’espace propre de λmin ,
la trajectoire est instable et très vite ralentie par les zig-zag.

Théorème IV.57 (Convergence de la méthode du gradient à pas optimal). Soit f ∈ Γµ (R N ) ∩


L−µ
CL1,1 (R N ), pour L > 0. On considère la méthode du gradient à pas optimal. Alors, pour θ = L+µ ,
on a pour tout k ∈ N :

f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).

Démonstration. Admis. Une preuve est disponible en Annexe, dans la Section A.II.4. 
Démonstration dans le cas quadratique. Cf. TD. 

Remarque IV.58 (Adaptivité à la Lipschitzianité du gradient). Notez que l’on obtient


exactement les mêmes vitesses que pour l’algorithme du gradient à pas fixe optimal (Théorèmes
i) et IV.42) ! C’est d’autant plus remarquable qu’ici on ne définit aucun pas de temps ρk
en fonction de L ou µ : on n’a pas besoin de connaitre ces constantes pour l’algorithme
fonctionne bien. On dit alors que la méthode du gradient à pas optimal est adaptive à la
Lipschitzianité du gradient, au sens où elle n’a pas besoin de  savoir  que f ∈ CL1,1 (R N )
pour bien fonctionner.
IV.IV. RÉCAPITULATIF DU CHAPITRE 79

IV.IV Récapitulatif du Chapitre IV


On considère une fonction f : R N → R, et le problème d’optimisation associé
minimiserx∈RN f ( x ).

Méthodes de descente
• d ∈ R N est une direction de descente pour f en x ∈ R N si h∇ f ( x ), di < 0.
• Une méthode de descente est un algorithme de la forme
x k +1 = x k + ρ k d k
où dk est une direction de descente pour f en xk .
• Une direction de descente de choix est dk = −∇ f ( xk ) : cela donne la méthode du
gradient.

Méthode du gradient à pas fixe (GPF)


• Si f ∈ Γµ (R N ) ∩ CL1,1 (R N ) , et que l’on prend un pas fixe ρ ∈]0, 2/L[, alors
1) La suite des itérés ( xk )k∈N générés par GPF converge vers un minimiseur x ∗ de f .
2) La suite des valeurs f ( xk ) est décroissante et converge vers inf f .
3) Les itérés et les valeurs convergent linéairement : il existe θ ∈ [0, 1[ tel que
k x k +1 − x ∗ k ď θ k x k − x ∗ k et f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).

4) Le taux de convergence θ ne dépend que de ρ et du conditionnement de la fonction


L/µ.
5) Le meilleur taux est obtenu lorsque ρ = 2/( L + µ).
• Si f n’est que convexe, la méthode marche encore mais elle converge moins vite.

Méthode du gradient à pas optimal (GPO)


• Ici on choisit ρk comme étant le pas qui fait décroitre le plus possible la fonction :
ρk = argminρ>0 f ( xk − ρ∇ f ( xk )).

• Les trajectoires générées zig-zaguent : h∇ f ( xk ), ∇ f ( xk+1 )i = 0.


• L’algorithme a exactement les mêmes propriétés de convergence que GPF avec le meilleur
choix de pas ρ = 2/( L + µ).
• Pour une fonction quadratique, on peut calculer explicitement ρk sans avoir à connaitre
L ou µ.
80 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE
Chapitre V

Optimisation sous contraintes

Dans ce chapitre nous nous intéressons aux problèmes d’optimisation avec contrainte :

( PC ) inf f ( x ),
x ∈C

f : U → R, C ⊂ U est non vide, où U ⊂ R N est un ouvert. Jusqu’à présent nous avons
plutôt ignoré la contrainte C :
• Dans le Chapitre II nous avons donné une Condition Nécessaire d’Optimalité lorsque
x̄ est un minimiseur de f sur C qui se trouve être dans l’intérieur de la contrainte

∇ f ( x̄ ) = 0.

Mais nous n’avons pas de CNO générale lorsque x̄ peut se trouver sur le bord de la
contrainte. Or, en pratique, cette situation est la plus courante !
• Nous allons voir que de manière générale on peut décrire une CNO ayant la forme
suivante :
∇ f ( x̄ ) + truc( x̄, C ) = 0,
où truc( x̄, C ) va être un nouvel objet dépendant de C et de x̄, que l’on pourra in-
terpréter comme  le gradient de C en x̄ , et qui bien sur s’annule lorsque x̄ ∈ int C.
Dans ce chapitre nous nous focaliserons sur le cas où la contrainte C peut s’écrire sous
la forme d’équations et/ou inéquations.

V.I Introduction : Problèmes classiques


Pour des raisons historiques et pratiques, on tend à classer les problèmes d’optimisation
sous contrainte en fonction de la nature la contrainte et de celle de f . Cette classification
va, en gros, des problèmes les plus  simples  aux plus  compliqués1 .
1 En réalité c’est un peu plus complexe que cela mais on se limitera ici à cette présentation simplifiée.

81
82 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.I.1 Polyèdres
Définition V.1. On munit R M d’un ordre partiel dit canonique, noté ĺ M , défini par

x ĺM y ⇔ (∀i ∈ {1, . . . , M}) xi ď yi .

Lorsqu’il n’y aura pas d’ambiguı̈té, on notera simplement ĺ.

Remarque V.2. On manipule donc plusieurs relations d’ordre dans ce cours :

• L’ordre canonique dans R : 1 ď 2


• L’ordre canonique dans R M : (0, 2) ĺ (1, 3)
• L’ordre matriciel dans M N (R) : A  0.

Définition V.3 (Polyèdre). On dit que C ⊂ R N est un POLY ÈDRE 2 s’il existe M ∈ N,
A ∈ M M,N (R) et b ∈ R M tels que C = [ Ax ĺ M b].

Remarque V.4 (Polyèdre = Inégalités affines). On sait que une contrainte d’égalité linéaire
de la forme [ Ax = b] décrit un sous-espace affine. Mais nous sommes moins familiers avec
une contrainte d’inégalité affine [ Ax ĺ M b] telle qu’elle apparait dans la définition d’un
polyèdre. A quoi ressemble cet ensemble ? Si on note a1 , . . . , a M ∈ R N tels que

a1>
 

A =  ...  ,
 

a> M

on voit que la contrainte peut s’écrire comme l’intersection de M ensembles :

M
[ Ax ĺ b] = { x ∈ R N | ∀i ∈ {1, . . . , M}, h ai , x i ď bi } =
\
[h ai , ·i ď bi ].
i =1

On sait que les solutions de [h ai , ·i = bi ] constituent un hyperplan, porté par le vecteur


ai . On peut donc également facilement se convaincre (et c’est vrai) que [h ai , ·i ď bi ] est un
demi-espace, délimité par l’hyperplan susmentionné (cf. Figures V.1). Donc un polyèdre,
ce n’est rien d’autre qu’une intersection (finie) de demi-espaces.

2 Prendregarde au fait que, dans la littérature française tant qu’anglophone, le terme polyèdre peut
désigner des notions légèrement différentes. Il faut également faire attention à ne pas confondre avec po-
lygone et polytope.
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 83

F IGURE V.1 – Gauche : En bleu, le demi-espace {z = ( x, y) ∈ R2 | x + y ď 1}, que l’on


peut décrire comme [h a1 , ·i ď b1 ] = {z = ( x, y) | h a1 , zi ď b1 } avec a1 = (1, 1)> , b1 = 1 ;
En gras, l’hyperplan supporté par a1 . Droite : Trois demi-espaces de la forme [h ai , ·i ď bi ]
avec a1 = (1, 1)> , b1 = 1, a2 = (−1, 1), b2 = 1 et a3 = (0, −1), b3 = 0 ; et leur intersection,
un triangle (en noir).

Exemple V.5 (Polyèdres). Faisons un peu de zoologie :

F IGURE V.2 – Quelques polyèdres bornés dans R2 . Ce sont des polygones convexes.

F IGURE V.3 – Ces polygones du plan ne sont pas des polyèdres.


84 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.4 – Cinq polyèdres bornés dans R3 (connus comme les cinq solides de Platon).

F IGURE V.5 – Un polyèdre de R3 qui est également un cône (non borné). Le cône a été
tronqué afin de ne pas occuper un espace infini.

Remarque V.6 (Intersections de demi-espaces). Les polyèdres sont donc les ensembles
que l’on obtient en intersectant un nombre fini de demi-espaces. On pourrait se deman-
der ce qui se passe lorsque on prend une intersection infinie de demi-espaces ? La réponse
est : cette procédure nous donne exactement tous les ensembles convexes ! C’est hors-
programme, mais rien ne vous empêche de faire des dessins dans R2 pour vous en convaincre !

Exercice V.7 (Polyèdre et équation affine). Soient A ∈ M M,N (R), b ∈ R M . Montrer que
l’ensemble des solutions du problème linéaire associé

[ Ax = b] = { x ∈ R N | Ax = b}

est un polyèdre.

Exercice V.8 (Polyèdre et espace affine). Montrer que tout sous-espace affine de R N est
un polyèdre. On pourra commencer par le prouver pour un sous-espace vectoriel.

Exercice V.9 (Optimisation linéaire : Contrainte de boı̂te). Soient α, β ∈ R N . Montrer que


la boı̂te suivante :
C = { x ∈ R N | ∀i = 1, . . . , M, αi ď xi ď β i },
est un polyèdre.

Exercice V.10 (Polyèdre et convexité). Montrer que tout polyèdre est convexe.
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 85

V.I.2 Optimisation Linéaire

Les problèmes dits d’optimisation linaire (Linear Programming, ou LP en VO) sont des
problèmes d’optimisation où toutes les composantes sont linéaires. On cherche à minimi-
ser une fonction linéaire sous une contrainte d’égalités ou inégalités affines3 .

Définition V.11 (Optimisation linéaire). On dit qu’un problème d’optimisation est un


problème d’OPTIMISATION LIN ÉAIRE s’il existe A ∈ M M,N (R), b ∈ R M , c ∈ R N tels
que le problème s’écrive

minimiser hc, x i tel que Ax ĺ M b. (V.1)


x ∈R N

Exercice V.12 (Optimisation Linéaire : Contrainte de sous-niveaux). Soient g0 , g1 , . . . , g M :


R N −→ R des fonctions affines. Montrer que le problème

minimiser g0 ( x ) tel que g1 ( x ) ď 0, . . . , g M ( x ) ď 0,


x ∈R N

est un problème d’optimisation linéaire.

Exemple V.13 (Le problème du transport optimal). Le problème du transport optimal


consiste à trouver comment transporter, de la façon la plus efficace/économe possible,
un objet d’un point A vers un point B. Ou, plus exactement, de nombreux objets depuis
tout un tas de points de départ Ai vers des points d’arrivée Bi (cf. Figure V.6). Introduit
à l’origine par Monge pour résoudre un problème de déplacement de tas de sable, ce
problème permet de nos jours de répondre à des questions sur le  déplacement  d’objets
plus abstraits, comme des images (cf. Figure V.7).
Ce problème peut être modélisé comme un problème d’optimisation, et plus précisément
comme un problème de programmation linéaire. Pour plus de détails sur cette modélisation,
vous pouvez lire cet et cet article.

3 Onpourrait se demander pourquoi on parle d’optimisation linéaire au lieu d’optimisation affine. Je


pense que cela est du au fait que Kantorovich et Dantzig, fondateurs de la théorie, l’ont appelé ainsi et le
nom est resté.
86 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.6 – Si chaque point bleu doit aller sur un point rouge, lequel doit aller où pour
minimiser la somme des trajets à vol d’oiseau ? Et surtout : comment répondre à cette
question sans avoir à tester les n! combinaisons ?

F IGURE V.7 – Application du Transport optimal : Une fois calculé un chemin optimal entre
deux images (ici aux extrémités) on peut trouver au milieu de ce chemin une image (ici au
centre) qui combine la forme d’une image avec le style de l’autre. Tout l’art ici consiste à
définir correctement ce que  optimal  veut dire, qui est un problème beaucoup plus dif-
ficile que résoudre le problème de transport en lui-même. Extrait de l’article Style transfer
by relaxed optimal transport and self-similarity par Kolkin et al., 2019 [11].

Exercice V.14 (Optimisation linéaire : forme standard). Soient A ∈ M M,N (R), b ∈ R M , c ∈


R N . Montrer que le problème

minimiser hc, x i tel que Ax = b et x  M 0, (V.2)


x ∈R N

est équivalent à un problème d’optimisation linéaire. On appelle ce cas particulier un


problème d’optimisation linéaire sous forme standard.

Exercice V.15 (Optimisation linéaire : canonique ⇔ standard). Soient A ∈ M M,N (R), b ∈


R M , c ∈ R N fixés. On considère les problèmes de programmation linéaire
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 87

• sous forme canonique associé à A, b, c : minimiser hc, x i tel que Ax ĺ b,


x ∈R N
• sous forme standard associé à A, b, c : minimiser hc, x i tel que Ax = b et x  0.
x ∈R N

1) Montrer que { x ∈ R N | Ax ĺ b} = { x ∈ R N | ∃y ∈ R M : Ax + y = b et y  0}.


2) Supposons que l’on veuille résoudre le problème sous forme canonique associé à A, b, c.
Montrer qu’il existe un problème sous forme standard, dépendant de Â, b̂, ĉ (à trouver),
tel que, si on le résolvait, nous donnerait immédiatement accès à la solution de notre
problème sous forme canonique.
3) En déduire que les formes canonique et standard de l’optimisation linéaire sont équivalentes.

V.I.3 Optimisation Convexe


Définition V.16 (Optimisation convexe). On dit qu’un problème d’optimisation est un
problème d’OPTIMISATION CONVEXE s’il existe C ⊂ R N convexe et f ∈ Γ0 (C ) tels que le
problème s’écrive
minimiser f ( x ) tel que x ∈ C.
x ∈R N

Le problème ci-dessus est dit sous forme canonique. Il est souvent bien pratique d’écrire
un problème d’optimisation convexe sous sa forme standard :

Exercice V.17 (Optimisation convexe : forme standard). Soient f , g1 , . . . , g p : Rn −→ R


convexes et h1 , . . . , gq : Rn −→ R affines.
1) Montrer que le problème
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f (x) tel que
x ∈R
n
h1 ( x ) = 0, . . . , hq ( x ) = 0,

est un problème d’optimisation convexe.


2) Montrer que ce n’est pas forcément le cas si on suppose que les h j sont convexes, en
exhibant un contre-exemple.
3) Montrer que les problèmes d’optimisation linéaire sont convexes.

Exercice V.18 (Optimisation convexe : forme standard II). Montrer que pour tout problème
d’optimisation convexe, il existe des fonctions f , h : R N −→ R telles que le problème
puisse se réécrire sous la forme

minimiser f (x) tel que h( x ) = 0.


x ∈R
n

Même question avec


minimiser f (x) tel que g( x ) ď 0.
x ∈R
n
88 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.19 (Vocabulaire). On parlera parfois de

• problème d’optimisation convexe sous contrainte d’égalité pour désigner

minimiser f (x) tel que h1 ( x ) = 0, . . . , hq ( x ) = 0,


x ∈R
n

• problème d’optimisation convexe sous contrainte d’inégalité pour désigner

minimiser f (x) tel que g1 ( x ) ď 0, . . . , g p ( x ) ď 0,


x ∈R
n

• problème d’optimisation convexe sous contrainte mixtes pour désigner la forme stan-
dard
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f ( x ) tel que
x ∈R n
h1 ( x ) = 0, . . . , hq ( x ) = 0.

Au vu de l’Exercice V.18, il est légitime de se demander quel est l’intérêt de faire la


différence entre toutes ces formes puisqu’elles sont équivalentes. D’une part, ce n’est pas
parce que des problèmes sont équivalents qu’ils sont tous autant pratiques à résoudre.
Prenons par exemple le cas des fonctions k x k − 1 et k x k2 − 1 qui ont les mêmes sous-
niveaux, mais dont l’une est différentiable et pas l’autre. D’autre part, d’un point de vue
théorique, on verra qu’on aura besoin de vérifier des hypothèses, qui ne seront pas tou-
jours vérifiées quelque soit la forme équivalente du problème.

Exemple V.20 (Problème de classification). On suppose que l’on dispose d’un certain type
de données, et on veut être capable de les classer en deux groupes. Ce type de problème
peut être très facile à réaliser pour un humain, mais toute la question est de savoir com-
ment automatiser cette prise de décision pour l’implémenter sur une machine.

F IGURE V.8 – Classifier deux groupes de points dans R2 , relativement facile.


V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 89

F IGURE V.9 – Classifier des nombres écrits à la main, difficulté moyenne. Issu du jeu de
données MNIST, utilisé abondamment pour tester les réseaux de neurones.

F IGURE V.10 – Classifier des photos dans R N , N > 106 , en deux catégories (chat/chien),
très difficile.

F IGURE V.11 – Classifier des visages humains, très très difficile.

Or, il est possible de modéliser ce problème en le transformant en un problème d’opti-


misation convexe, ayant la forme suivante :

minimiser k x k2 tel que Ax ĺ b,


x ∈R N
90 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

où A et b sont construites à partir des données à classer. Dans ce contexte, ce problème est
communément appelé Machine à vecteur de support (Support Vector Machine, ou SVM).
Si le temps le permet, nous verrons comment modéliser et résoudre un tel problème (cf.
feuille de TD5, et le TP associé).

V.II Théorème(s) de Lagrange-KKT pour l’optimisation sous


contraintes d’égalités et inégalités
Dans cette section, on va s’intéresser aux problèmes s’écrivant sous la forme
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f (x) tel que
x ∈R
n
h1 ( x ) = 0, . . . , hq ( x ) = 0,

où les fonctions en jeu seront convexes, affines ou quelconques, selon les besoins. Notre
objectif est d’obtenir des Conditions d’Optimalité pour ces problèmes :

• Quel est l’équivalent de la CNO du 1er ordre que l’on avait dans le Théorème II.9 ? La
réponse se trouve dans le Théorème V.34.
• Est-ce que cette CNO devient une CSO lorsque le problème est convexe, comme on
l’avait vu dans le Théorème III.25 ? La réponse est : oui, voir le Théorème V.39.
• Est-ce que l’on peut avoir une CSO du 2e ordre, comme dans le Théorème II.19 ? Encore
une fois, oui, cf. Théorème V.44.

Ces Théorèmes vont donc nous permettre de calculer à la main des minimiseurs lo-
caux/globaux de problèmes d’optimisation sous contrainte, en résolvant des équations,
de la même manière que l’on résolvait ∇ f ( x ) = 0 dans les premiers chapitres.

V.II.1 Contrainte d’inégalité simple et multiplicateur


On va commencer dans cette section par s’intéresser au problème simple où la contrainte
s’écrit comme une contrainte d’inégalité. Autrement dit, lorsque

C = [ g ď 0],

pour g : U ⊂ R N −→ R différentiable.

Proposition V.21. Soient U ⊂ R N ouvert, f , g : U −→ R et C = [ g ď 0]. Supposons que x̄


soit un minimiseur local de f sur C. Si ∇ g( x̄ ) 6= 0, alors

g( x̄ ) ď 0 et (∃α ě 0) ∇ f ( x̄ ) + α∇ g( x̄ ) = 0 et αg( x̄ ) = 0. (V.3)


V.II. THÉORÈME(S) DE LAGRANGE-KKT 91

Démonstration. Pour commencer, observons que le résultat est immédiat si ∇ f ( x̄ ) = 0,


puisqu’il suffit de prendre α = 0. Dans la preuve on supposera donc ∇ f ( x̄ ) 6= 0.
On va procéder en considérant deux cas : commençons par supposer que g( x̄ ) < 0, on
va voir qu’on aboutit à une contradiction. En effet, ∇ f ( x̄ ) 6= 0 implique via la Proposition
IV.11 qu’il existe une direction de descente d ∈ R N en x̄, i.e. telle que h∇ f ( x̄ ), di < 0.
D’après le Lemme d’Armijo IV.12, cela veut dire que

(∃δ > 0)(∀t ∈]0, δ[) f ( x̄ + td) < f ( x̄ ).

D’autre part, puisque g est continue et g( x̄ ) < 0, on sait que pour t petit on aura encore
g( x̄ + td) < 0. Autrement dit, x̄ + td ∈ C et f ( x̄ + td) < f ( x̄ ), ce qui contredit le fait que x̄
soit un minimiseur local. Ceci conclut la preuve dans le cas g( x̄ ) < 0.
Supposons maintenant que g( x̄ ) = 0. Dans un premier temps, nous allons montrer que
∇ f ( x̄ ) ∈ Vect (∇ g( x̄ )). Raisonnons par l’absurde, et supposons que ∇ f ( x̄ ) ∈
/ Vect (∇ g( x̄ )).
Puisque on a supposé que ∇ g( x̄ ) 6= 0, cela veut dire que la famille {∇ f ( x̄ ), ∇ g( x̄ )} est
libre. Définissons la matrice dont les lignes sont ces gradients

∇ f ( x̄ )>
 
A= ∈ M2,N (R).
∇ g( x̄ )>

Ses lignes étant libres, nous en déduisons que A est surjective. Donc il existe un d ∈ R N
tel que Ad = e, où e = (−1, −1)> . Autrement dit, il existe un d ∈ R N tel que

h∇ f ( x̄ ), di = −1 et h∇ g( x̄ ), di = −1. (V.4)

On a donc une direction de descente commune pour ces fonctions ! D’après le Lemme
d’Armijo IV.12 appliqué à f et g, cela veut dire qu’il existe un δ > 0 commun tel que

(∀t ∈]0, δ[) f ( x̄ + td) < f ( x̄ ) et g( x̄ + td) < g( x̄ ) ď 0.

Autrement dit, pour un tel choix de t ∈]0, δ[, on a x̄ + td qui est toujours dans la contrainte
[ g ď 0] (puisque g( x̄ + td) < 0), mais qui est meilleur que x̄ au sens où f ( x̄ + td) < f ( x̄ ).
On se rend alors compte que ceci est en contradiction avec le fait que x̄ soit un minimiseur
local de f sur C.
Nous avons donc montré par l’absurde que ∇ f ( x̄ )et ∇ g( x̄ ) sont colinéaires. Autre-
ment dit, qu’il existe un α ∈ R tel que

∇ f ( x̄ ) + α∇ g( x̄ ) = 0. (V.5)

Il ne nous reste donc plus qu’à prouver α ě 0. Encore une fois, raisonnons par l’absurde
et supposons que α < 0. Si on pose d0 = −∇ f ( x̄ ), on voit que
−1 1
h∇ f ( x̄ ), d0 i = −k∇ f ( x̄ )k2 < 0 et h∇ g( x̄ ), d0 i = h∇ f ( x̄ ), d0 i = k∇ f ( x̄ )k2 < 0.
α α
On voit que l’on a encore une direction de descente d0 commune pour f et g, ce qui va
impliquer pour les mêmes raisons que précédemment, une contradiction. 
92 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.22 (Vocabulaire). Il y a beaucoup de choses dans cette Proposition V.21. Il va


être utile par la suite de bien nommer les ingrédients de ce résultat :

• La condition ∇ g( x̄ ) 6= 0, qui est essentielle pour garantir le résultat, est appelée condi-
tion de qualification de la contrainte. On parle par exemple de contrainte qualifiée.
• La propriété g( x̄ ) ď 0 ne fait que traduire le fait que x̄ appartient à la contrainte C =
[ g ď 0]. Autrement dit, que le vecteur x̄ est admissible (au sens où il ne viole pas la
contrainte). C’est pour cela que l’on parle en général de condition d’ADMISSIBILIT É.
• On distinguera souvent le fait que x̄ vérifie g( x̄ ) = 0 ou g( x̄ ) < 0. Lorsque g( x̄ ) = 0,
on dira que la contrainte [ g ď 0] est active en x̄, ce qui traduit que l’on est sur le bord
du sous-niveau. Dans le cas où g( x̄ ) < 0, on parlera de contrainte inactive.
• Le coefficient α que l’on voit apparaitre est appelé le multiplicateur de Lagrange as-
socié à la contrainte. On voit ici que α est positif ; on verra d’autres contextes dans
lequel le multiplicateur n’a pas de signe prescrit.
• La condition ∇ f ( x̄ ) + α∇ g( x̄ ) = 0 est appelée la condition de stationnarité du problème.
On vient de voir ici que c’est une condition nécessaire pour x̄ d’être un minimiseur local.
• La propriété αg( x̄ ) = 0 est la condition de complémentarité de la contrainte. Elle peut
se reformuler de façon équivalente en :

Si g( x̄ ) < 0 alors α = 0.

En d’autres termes, si la contrainte est inactive en x̄, alors le multiplicateur de Lagrange


est nul. Observer que dans ce cas la condition de stationnarité de Lagrange se réduit
à ∇ f ( x̄ ) = 0. On voit que ∇ g( x̄ ) a disparu de la condition de stationnarité, ce qui
traduit le fait que la contrainte est inactive.

Remarque V.23 (Le système d’(in)équations de Lagrange-KKT). En pratique, lorsque on


cherche un minimiseur de f sur [ g ď 0], il faut donc chercher un couple ( x, α) ∈ R N × R
solution du système :



 ∇ f ( x ) + α∇ g( x ) = 0 (Condition de stationnarité)

 g( x ) ď 0 (Condition d’admissibilité)
.


 α ě 0 (Multiplicateur)

αg( x ) = 0 (Condition de complémentarité)

Une fois qu’on dispose de ces solutions, déterminer si elles sont des minimiseurs ou pas
se fait exactement (aussi difficilement donc) comme on le fait pour les problèmes sans
contraintes.

Exercice V.24 (Fonction quadratique sous contrainte d’inégalité linéaire). Soient f ( x, y) =


2 ( x + y ) − 2x et C = {( x, y ) ∈ R | x + y ď 1}.
1 2 2 2
V.II. THÉORÈME(S) DE LAGRANGE-KKT 93

1) Montrer que f admet un unique minimiseur sur C.


2) Écrire les conditions d’optimalité pour ce problème, et trouver le minimiseur en résolvant
le système associé.
3) La contrainte est elle active4 en cette solution ?

Exercice V.25 (Fonction quadratique sous contrainte d’inégalité linéaire II). Soient f ( x, y) =
2x − y et C = {( x, y) ∈ R2 | 12 x2 + y2 ď 1}.

1) Montrer que f admet un minimiseur sur C.


2) Montrer que la contrainte est forcément qualifiée en ce minimiseur.
3) Écrire les conditions d’optimalité pour ce problème, les résoudre, et en déduire l’unique
minimiseur de f sur C.
4) La contrainte est elle active en cette solution ?

Exercice V.26 (Problème non régulier). Soit f ( x ) = − x2 et g( x ) = (| x | − 1)2+ .

1) Tracer le graphe de g, et calculer C := [ g ď 0].


2) Tracer le graphe de f , et en déduire quels sont les minimiseurs de f sur C.
3) Vérifier que la condition d’optimalité de Lagrange-KKT n’est pas vérifiée en ces points,
et expliquer pourquoi.

Exercice V.27 (Minimiser sur une boule). Soit f : R N −→ R différentiable, a ∈ R N quel-


conque, et C = B( a, δ) une boule fermée centrée en a de rayon δ > 0. On suppose que
x̄ est un minimiseur local de f sur C, et on va essayer d’écrire sa condition nécessaire
d’optimalité.

1) Vérifier que C = [ g ď 0], pour g( x ) = k x − ak2 − δ2 , et calculer ∇ g.


2) On suppose que la contrainte n’est pas qualifiée en x̄ (c-à-d. ∇ g( x̄ ) = 0). Montrer que
∇ f ( x̄ ) = 0.
3) On suppose que la contrainte est qualifiée en x̄ (c-à-d. ∇ g( x̄ ) 6= 0). Prouver que
(
si k x − ak < δ alors ∇ f ( x ) = 0,
si k x − ak = δ alors (∃α ě 0) ∇ f ( x ) + α( x − a) = 0.

4) En déduire qu’il existe α ě 0 tel que ∇ f ( x̄ ) + α( x − a) = 0.

(∃α ě 0) ∇ f ( x ) + α( x − a) = 0.
4 On rappelle que pour une contrainte d’inégalité [ g ď 0], la contrainte est dite active en x si g( x ) = 0 (en
d’autres termes on est sur le bord de la contrainte).
94 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.II.2 Condition d’Optimalité de KKT du 1er ordre


V.II.2.i) Introduction et définitions

On a vu dans la Proposition V.21 que pour minimiser une fonction f en présence d’une
contrainte d’inégalité simple
g( x ) ď 0,
une condition nécessaire d’optimalité est (V.3), qui demande en particulier la condition de
stationnarité
∇ f ( x̄ ) + α∇ g( x̄ ) = 0.
On peut donc se demander ce qui se passe lorsqu’on a affaire à plusieurs inégalités

g1 ( x ) ď 0, · · · , g p ( x ) ď 0 ?

Ou à plusieurs égalités
h1 ( x ) = 0, · · · , hq ( x ) = 0 ?
Ou à une combinaison des deux (on parle de contrainte mixte) :

C = { x ∈ R N | g1 ( x ) ď 0, · · · , g p ( x ) ď 0, h1 ( x ) = 0, · · · , hq ( x ) = 0}? (V.6)

En extrapolant un peu, il est raisonnable d’espérer que la condition de stationnarité de-


vienne :

∇ f ( x̄ ) + α1 ∇ g1 ( x̄ ) + · · · + α p ∇ g p ( x̄ ) + β 1 ∇h1 ( x̄ ) + . . . β q ∇hq ( x̄ ) = 0.

Comme nous allons le voir, cela est essentiellement vrai, les différences principales avec
la Proposition V.21 étant que :

• les multiplicateurs β j associés aux contraintes d’égalité n’ont pas de signe imposé,
• l’hypothèse de contrainte qualifiée (∇ g( x̄ ) 6= 0) va devenir un peu plus compliquée.

Avant d’énoncer notre premier Théorème V.34, donnons quelques définitions qui vont
nous permettre d’exprimer une hypothèse de contrainte qualifiée.

Définition V.28. Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables, soit C = ∩i [ gi ď


0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On définit l’ensemble des
CONTRAINTES ACTIVES en x par

I ( x ) = {i ∈ {1, · · · , p} | gi ( x ) = 0}.

Remarque V.29 (Contraintes actives). Il faut noter que la notion de  contrainte active  ne
vaut que pour les contraintes d’inégalité.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 95

Définition V.30. Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables, soit C = ∩i [ gi ď


0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On dit que la contrainte mixte C
est QUALIFI ÉE en x si la famille de gradients

{∇ gi ( x ), ∇h j ( x )}i∈ I (x),1ďjďq

est linéairement indépendante.

Remarque V.31 (Contraintes actives 2). Si la famille de tous les vecteurs {∇ gi ( x ), ∇h j ( x )}1ďiďp,1ďjďq
est libre, alors il n’y a pas besoin de calculer I ( x ) puisque toute sous-famille sera également
libre. Mais en pratique, il arrive souvent que I ( x ) soit beaucoup plus petite que {1, . . . , p},
ce qui fait qu’il est plus facile ainsi de vérifier que les contraintes sont qualifiées.

Remarque V.32 (Qualification pour une unique contrainte). Si la contrainte est unique,
alors la condition de qualification de la contrainte est drastiquement simplifiée :

• si on parle d’une contrainte d’égalité [h = 0], que la famille {∇h( x )} soit libre est
équivalent à ce que ∇h( x ) 6= 0 ;

• si on parle d’une contrainte d’inégalité [ g ď 0], une condition suffisante pour que la
contrainte soit qualifiée est que ∇ g( x ) 6= 0.

Noter que ∇ g( x ) 6= 0 est exactement l’hypothèse de qualification que l’on a faite dans la
Proposition V.21 !

Définition V.33 (Contrainte régulière). Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables,


soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On dit que la
contrainte mixte C est R ÉGULI ÈRE en x si l’une des deux propriétés est vérifiée :

• toutes les fonctions g1 , · · · , g p , h1 , · · · , hq sont affines ;


• la contrainte est qualifiée en x.

V.II.2.ii) Résultats principaux et commentaires

Nous sommes est maintenant prêts à énoncer le premier Théorème de cette section, qui
établit la Condition Nécessaire d’Optimalité de KKT du 1er ordre :

Théorème V.34 (Théorème de Lagrange-KKT : CNO du 1er ordre).


Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R de classe C1 . Soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la
contrainte mixte associée. Supposons que x̄ soit un minimiseur local de f sur C. Si la contrainte
96 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

est régulière en x̄, alors x̄ vérifie la Condition Nécessaire d’Optimalité de KKT du 1er ordre :

 p q
∇ f ( x̄ ) + ∑ ∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0
 α

 i i
i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

i
(∃α ∈ R p )(∃ β ∈ Rq ) (V.7)

 ∀ j = 1, . . . , q h j ( x̄ ) = 0

∀i = 1, . . . , p αi ě 0





∀i = 1, . . . , p αi gi ( x̄ ) = 0.

Remarque V.35 (Point critique). On dira que x̄ est un point critique du problème si il
vérifie la Condition Nécessaire d’Optimalité de KKT du 1er ordre. Le Théorème précédent
nous dit donc que les points critiques sont de bons candidats à être des minimiseurs lo-
caux.

Remarque V.36 (Le système d’(in)équations de KKT II). En pratique, lorsque on cherche
un minimiseur de f sur une contrainte mixte, il faut donc chercher ( x, α1 , . . . , α p , β 1 , . . . , β q ) ∈
R N × R p × Rq solution du système :

 p q
∇ f ( x ) + ∑ i i∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0 (Condition de stationnarité)

 α

i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

(Condition d’admissibilité : inégalités)
i
∀ j = 1, . . . , q h j ( x̄ ) = 0
 (Condition d’admissibilité : égalités)

∀i = 1, . . . , p αi ě 0 (Multiplicateur : inégalités)





∀i = 1, . . . , p αi gi ( x̄ ) = 0 (Condition de complémentarité)

Remarque V.37 (Historique et vocabulaire). Dans la littérature, ces conditions d’optima-


lités sont appelées conditions de Lagrange, ou parfois conditions de KKT (pour Karush-
Kuhn-Tucker). Les raisons sont essentiellement historiques :

• Joseph-Louis Lagrange s’intéresse vers la fin du 18e siècle à des problèmes de mécanique,
qui l’amènent à minimiser certaines quantités sous des contraintes d’égalité (voir Fi-
gure V.37). Il énonce alors une version du Théorème V.34 pour des contraintes d’égalité,
introduisant l’idée de ces variables supplémentaires que l’on appelle désormais les
multiplicateurs de Lagrange. On cite parfois ce résultat comme le Théorème des multi-
plicateurs de Lagrange, mais également comme le Théorème des extrémas liés.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 97

F IGURE V.12 – Extrait du traité de Mécanique Analytique de Lagrange (1788) [13]. En


français dans le texte.

• Au milieu du 20e siècle, la question de résoudre des problèmes d’optimisation sous


contraintes générales d’inégalité se pose. En 1951, Harold Kuhn et Albert Tucker5 pu-
blient un article (intitulé Nonlinear Programming [12]) proposant des conditions d’opti-
malité pour ce problème. Cet article connaitra un grand succès et aura beaucoup d’in-
fluence dans les décennies qui ont suivi, donnant naissance à un champ de recherche
connu comme l’optimisation non-linéaire, et s’appliquant dans de nombreux domaines,
allant de l’économie à l’ingénierie.

De manière surprenante, on se rendra compte près de 20 ans plus tard que ce résultat
avait déjà été obtenu par William Karush dans . . . son mémoire de Master [9] datant de
1939 ! Depuis lors, les conditions d’optimalité (V.7) sont connues comme les conditions
de Karush-Kuhn-Tucker, ou simplement KKT.

5 Vous connaissez certainement déjà Tucker sans le savoir, puisqu’il est à l’origine du fameux  dilemne
du prisonnier . Il a beaucoup travaillé sur la Théorie des Jeux, et a notamment dirigé la thèse de John Nash
sur ce sujet (1950), qui vaudra à ce dernier un prix Nobel en sciences économiques (1994).
98 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.13 – Extrait d’un échange de courrier entre Kuhn et Karush, dans lequel Kuhn
s’engage à lui donner la reconnaissance qu’il mérite, et s’étonne que Karush ne se soit pas
manifesté plus tôt [10].

Pour ces raisons, dans ce cours, nous parlerons toujours de conditions de KKT pour les
problèmes d’optimisation sous contraintes mixtes.

F IGURE V.14 – De gauche à droite : Lagrange, Karush, Kuhn et Tucker.

Remarque V.38 (Pourquoi les contraintes d’égalité ne se comportent pas comme les contraintes
d’inégalité ?). Si on regarde les conditions nécessaires d’optimalité de KKT, on voit qu’il
y a une asymétrie entre les contraintes d’égalité et d’inégalité : les contraintes d’égalité
n’ont pas

• de condition de compatibilité β j h j ( x̄ ) = 0,
• de condition sur les multiplicateurs β j ě 0.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 99

Il est en fait assez facile de se convaincre qu’en fait ces deux conditions sont  triviale-
ment  vérifiées, et n’ont donc pas lieu d’apparaı̂tre dans la condition nécessaire. En effet :

• la condition d’admissibilité h j ( x̄ ) = 0 implique que β j h j ( x̄ ) = 0 ! Notez la différence


avec les contraintes d’inégalité, pour lesquelles la condition d’admissibilité est gi ( x̄ ) ď
0, et pour laquelle on ne sait pas si gi ( x̄ ) = 0. D’où l’importance pour ces dernières de
faire la distinctions entre contraintes actives et non actives.
• on peut toujours forcer la contrainte β j ě 0 à être vérifiée, quitte à remplacer la fonction
h j par −h j . Cela ne change rien au problème puisque [h j = 0] = [−h j = 0]. Notez la
différence avec les contraintes d’inégalité, pour lesquelles on ne peut pas remplacer gi
par − gi sans changer la contrainte !

Voyons maintenant que cette CNO de KKT du 1er ordre est en fait une CSO globale
lorsque le problème est convexe.

Théorème V.39 (Théorème de Lagrange-KKT : Réciproque convexe).


Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables. Soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la
contrainte mixte associée. Supposons que f , g1 , · · · , g p soient convexes, et que h1 , · · · , hq soient
affines. Alors tout point x̄ ∈ C qui vérifie la Condition Nécessaire d’Optimalité de KKT du 1er
ordre (V.7) est un minimiseur global de f sur C.

On retrouve ainsi un analogue -sous contraintes- du Théorème III.25.

V.II.2.iii) Preuve des Théorèmes V.34 et V.39

Ici on considèrera toujours que f , g1 , · · · , g p , h1 , · · · , hq : R N → R sont de classe C1 , et que


C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] est la contrainte mixte associée.

Lemme V.40 (de la pénalisation quadratique). Soit x̄ un minimiseur local de f sur C, et I ( x̄ )


les contraintes d’inégalités actives en x̄. On considère pour tout k ∈ N :
q
k k 1
φk ( x ) := f ( x ) + ∑
2 i∈ I ( x̄)
gi ( x )2+ +
2 ∑ h j (x)2 + 2 kx − x̄k2.
j =1

Alors il existe une suite xk → x̄, telle que ∇φk ( xk ) = 0.

Démonstration. Soit x̄ un minimiseur local de f sur C. Par définition, il existe un ε > 0


tel que x̄ soit un minimiseur de f sur B( x̄, ε). Il est clair que φk est une fonction continue,
donc elle admet pour tout k ∈ N un minimiseur sur B( x̄, ε), que l’on notera xk . Notre
objectif va être de montrer que lim xk = x̄. Par définition cette suite est bornée, puisque
k →+∞
contenue dans B( x̄, ε). Il nous suffit donc de montrer que toute valeur d’adhérence de xk
est égale à x̄.
100 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Soit x∞ une valeur d’adhérence de xk . Commençons par vérifier que x∞ ∈ C. D’une


part, pour tout i ∈ / I ( x̄ ), on a gi ( x̄ ) < 0. Donc, par continuité de gi , et quitte à prendre ε
plus petit, on a également gi ( xk ) < 0. D’autre part, l’optimalité de xk nous permet d’écrire
que

φk ( xk ) ď φk ( x̄ ) car xk minimise φk sur B( x̄, ε).


= f ( x̄ ) car gi ( x̄ ) = 0, h j ( x̄ ) = 0.

Donc
q
k k
f ( x̄ ) ě φk ( xk ) ě f ( xk ) + ∑
2 i∈ I ( x̄)
gi ( x )2+ +
2 ∑ h j ( x )2 .
j =1

Or f ( xk ) est minorée par infB( x̄,ε) f , qui est indépendant de k. On voit donc que

q
k k
0ď ∑
2 i∈ I ( x̄)
gi ( xk )2+ +
2 ∑ h j ( x k )2 ď f ( x̄ ) − inf f < +∞.
B( x̄,ε)
j =1

Après division par k, on en déduit que les gi ( xk )2+ et h j ( xk )2 tendent vers 0, ce qui implique
que gi ( x∞ )2+ = 0 et h j ( x∞ )2 = 0. Autrement dit, gi ( x∞ ) ď 0 et h j ( x∞ ) = 0. On a donc bien
montré que x∞ ∈ C. Maintenant, on écrit

1
f ( x̄ ) ě φk ( xk ) ě f ( xk ) + k xk − x̄ k2 ,
2
et en passant à la limite on obtient

1
f ( x̄ ) ě f ( x∞ ) + k x∞ − x̄ k2 .
2

Or x∞ ∈ C ∩ B( x̄, ε) et x̄ est un minimiseur local de f sur C. Donc f ( x∞ ) ě f ( x̄ ), et on en


déduit que x∞ = x̄.
Maintenant qu’on sait que xk tend vers x̄, on peut dire que (à partir d’un certain rang)
xk ∈ int B( x̄, ε). On peut donc appliquer le Théorème de Fermat II.10, qui nous dit dans
ce cas que ∇φk ( xk ) = 0. 

Lemme V.41 (de Fritz John). Soit x̄ un minimiseur local de f sur C, et I ( x̄ ) les contraintes
d’inégalités actives en x̄. Alors
q
λ∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0, (V.8)
i ∈ I ( x̄ ) j =1

| I ( x̄ )|
où les multiplicateurs λ ∈ R+ , α ∈ R+ , β ∈ Rq sont non tous nuls.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 101

Démonstration. Considérons le résultat du Lemme V.40 précédent. Après calcul du gra-


dient, on obtient :
q
0 = ∇φk ( xk ) = ∇ f ( xk ) + ∑ kgi ( xk )+ ∇ gi ( xk ) + ∑ kh j ( xk )∇h j ( xk ) + ( xk − x̄ ).
i ∈ I ( x̄ ) j =1

Posons α̂i,k := kgi ( xk )+ ∈ R+ , β̂ j,k := kh j ( xk ) ∈ R. Alors :


q
0 = ∇ f ( xk ) + ∑ α̂i,k ∇ gi ( xk ) + ∑ β̂ j,k ∇h j ( xk ) + ( xk − x̄ ). (V.9)
i ∈ I ( x̄ ) j =1

Considérons le vecteur réunissant les multiplicateurs π̂k := (1, α̂i,k , β̂ j,k , 1). Alors kπ̂k k2 =
1 + ∑ α̂2i,k + ∑ β2j,k + 1 est non nul. On peut donc définir πk := π̂k /kπ̂k k, constitué des
coefficients (λk , αi,k , β j,k , λk ), avec λk = 1/kπ̂k k, etc. Si on divise (V.9) par kπ̂k k, on obtient
donc
q
0 = λk ∇ f ( xk ) + ∑ αi,k ∇ gi ( xk ) + ∑ β j,k ∇h j ( xk ) + λk ( xk − x̄ ).
i ∈ I ( x̄ ) j =1

Maintenant, on observe que, par construction, kπk k = 1, donc quitte à prendre une sous-
suite, πk converge vers un vecteur π = (λ, αi , β j , λ) de norme 1 lui aussi. Par ailleurs xk
converge vers x̄, et les gradients sont continus. On peut donc passer à la limite et obtenir
q
0 = λ∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ),
i ∈ I ( x̄ ) j =1

qui est exactement (V.8).


Pour conclure il nous faut vérifier quelques propriétés sur les muliplicateurs. D’une
part, on a par définition que α̂i,k ě 0, donc αi,k ě 0, et par passage à la limite αi ě 0. De
même, λk = 1/kπ̂k k ě 0 donc λ ě 0 aussi. D’autre part, on sait que π = (λ, αi , β j , λ) est
de norme 1, donc non nul. D’où (λ, α, β) 6= 0. 

Lemme V.42 (Cas des contraintes qualifiées). Considérons les hypothèses du Lemme V.41 de
Fritz John. Supposons de plus que les contraintes sont qualifiées en x̄. Alors λ > 0.

Démonstration. On sait déjà d’après le Lemme V.41 que λ ě 0. Supposons par l’absurde
que λ = 0. Alors la condition d’optimalité (V.8) combinée avec λ = 0 veut dire que
q
∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
i ∈ I ( x̄ ) j =1

Or la contrainte est qualifiée en x̄, ce qui veut dire que la famille des gradients dans cette
équation est libre. Le fait qu’on ait une combinaison linéaire nulle veut dire que l’on a
forcément αi = 0 et β j = 0. En d’autres termes (λ, α, β) = 0. Ceci contredit le Lemme V.41
qui dit que les multiplicateurs (λ, α, β) sont non tous nuls. 
102 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Lemme V.43 (Cas des contraintes affines). Considérons les hypothèses du Lemme V.41 de Fritz
John. Supposons de plus que les contraintes sont affines. Alors λ > 0.

Démonstration. Ici aussi, supposons par l’absurde que λ = 0. Considérons x ∈ R N quel-


conque, et utilisons le fait que les contraintes soient affines pour écrire :
q
∑ α i gi ( x ) + ∑ β j h j ( x ) (V.10)
i ∈ I ( x̄ ) j =1
q
= ∑ αi gi ( x̄ ) + αi h∇ gi ( x̄ ), x − x̄ i + ∑ β j h j ( x̄ ) + β j h∇h j ( x̄ ), x − x̄ i
i ∈ I ( x̄ ) j =1
 
q
= h ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) , x − x̄ i
i ∈ I ( x̄ ) j =1
= 0,
les deux dernières égalités venant du fait que h j ( x̄ ) = gi ( x̄ ) = 0, et du fait que λ = 0
dans (V.8). Nous allons maintenant montrer que la suite xk introduite dans le Lemme V.40
viole cette égalité, ce qui nous permettra de conclure. Pour ce faire, nous allons revenir à
comment cette suite et les multiplicateurs αi , β j ont été définis.
• Supposons qu’il existe i ∈ I ( x̄ ) tel que αi 6= 0. Alors αi > 0. Or αi a été défini comme
la limite de αi,k = kgi ( xk )+ /kπ̂k k. Donc forcément, à partir d’un certain rang, αi,k > 0,
ce qui implique que gi ( xk )+ > 0. Cette dernière inégalité est équivalente à dire que
gi ( xk ) > 0. Nous en déduisons que αi gi ( xk ) > 0.
• Supposons qu’il existe j tel que β j 6= 0. On a défini β j comme la limite des β j,k .
Donc, à partir d’un certain rang, β j,k est non nul, et de même signe que β j . Or β j,k =
kh j ( xk )/kπ̂k k. Donc, à partir d’un certain rang, h j ( xk ) est non nul, et de même signe
que β j . On en déduit que β j h j ( xk ) > 0.
On vient donc de montrer que si (α, β) 6= 0 alors
q
∑ αi gi ( xk ) + ∑ β j h j ( xk ) > 0,
i ∈ I ( x̄ ) j =1

ce qui contredit (V.10). Cela veut donc dire que (α, β) = 0. Or on a supposé que λ = 0,
donc en fait (λ, α, β) = 0, ce qui contredit le Lemme de Fritz John V.41. 
Démonstration du Théorème V.34. Tout d’abord, observons que x̄ ∈ C garantit déjà que
gi ( x̄ ) ď 0 et h j ( x̄ ) = 0. Ensuite, observons que la condition de complémentarité αi gi ( x̄ ) =
0 est équivalente à dire que  αi = 0 ou i ∈ I ( x̄ ) . Autrement dit, montrer (V.7) est
équivalent à montrer que :
q
∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
p
(∃α ∈ R+ )(∃ β ∈ Rq ) ∇ f ( x̄ ) +
i ∈ I ( x̄ ) j =1
V.II. THÉORÈME(S) DE LAGRANGE-KKT 103

On fait appel au Lemme de Fritz John V.41 pour obtenir (V.8). On utilise ensuite le fait que
la contrainte est régulière en x̄, avec le Lemme V.42 ou V.43, pour obtenir que λ > 0. On
peut alors diviser (V.8) par λ, et conclure. 

Démonstration du Théorème V.39. On peut écrire


q
f ( x̄ ) ď f ( x̄ ) + ∑ αi ( gi ( x̄ ) − gi (c)) + ∑ β j (h j ( x̄ ) − h j (c))
i ∈ I ( x̄ ) j =1

car αi ě 0, gi (c) ď 0 par définition de C, gi ( x̄ ) = 0 par définition de I ( x̄ ), h j ( x̄ ) = h j (c) = 0


par définition de C. Puisque on suppose les gi convexes, on peut utiliser la caractérisation
par les hyperplans tangents de la Proposition III.18 pour en déduire
q
f ( x̄ ) ď f ( x̄ ) − ∑ αi h∇ gi ( x̄ ), c − x̄ i − ∑ β j (h j ( x̄ ) − h j (c)).
i ∈ I ( x̄ ) j =1

Puisque on suppose également les h j affines, on peut également écrire

q
f ( x̄ ) ď f ( x̄ ) − ∑ αi h∇ gi ( x̄ ), c − x̄ i − ∑ β j h∇h j ( x̄ ), c − x̄ i.
i ∈ I ( x̄ ) j =1

En utilisant maintenant la condition de KKT, avec la Proposition III.18 appliquée à f , on


obtient
f ( x̄ ) ď f ( x̄ ) + h∇ f ( x̄ ), c − x̄ i ď f (c).
Ceci étant vrai pour tout c ∈ C, on conclut que x̄ est un minimiseur global de f sur C. 

V.II.3 Condition d’Optimalité de KKT du 2e ordre


Passons maintenant à la Condition Suffisante d’Optimalité de KKT du 2e ordre, qui
comme on se doute va faire intervenir une combinaison des hessiennes des contraintes :

Théorème V.44 (Théorème de Lagrange-KKT : CSO du 2e ordre).


Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R deux fois différentiables. Soit C = ∩i [ gi ď 0] ∩
∩ j [h j = 0] la contrainte mixte associée. Supposons que x̄ vérifie :

a) la Condition Nécessaire d’Optimalité de KKT du 1er ordre (V.7) avec des multiplicateurs ᾱ ∈
R p , β̄ ∈ Rq ;
b) la définie positivité de la Hessienne Lagrangienne :
p q
∇ f ( x̄ ) + ∑ ᾱi ∇ gi ( x̄ ) + ∑ β̄ j ∇2 h j ( x̄ )  0;
2 2
i =1 j =1
104 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

c) la condition de complémentarité stricte : i ∈ I ( x̄ ) ⇔ ᾱi > 0.

Alors x̄ est un minimiseur local de f sur C.

Remarque V.45 (Complémentarité stricte). Que veut dire cette complémentarité stricte ?
Rappelons si nécessaire que dans la condition d’optimalité de KKT du 1er ordre, on de-
mande une condition de complémentarité qui s’écrit

αi gi ( x̄ ) = 0.

Comme on l’a déjà dit précédemment, ceci est équivalent à dire que

αi 6= 0 ⇒ gi ( x̄ ) = 0.

Or, puisque on sait que αi ě 0, et au vu de la définition de contrainte active, on voit que la


condition de complémentarité est encore équivalente à

αi > 0 ⇒ i ∈ I ( x̄ ).

Cette complémentarité stricte demande donc un peu plus, à savoir l’équivalence entre ces
deux propriétés.

Démonstration du Théorème V.44 sans inégalités. On commence par prouver ce résultat lors-
qu’on a seulement des contraintes d’égalité. On introduit alors le Laplacien :
q
L ( x ) = f ( x ) + ∑ β j h j ( x ),
j =1

qui vérifie f = L sur C. Puisque x̄ vérifie la CNO de KKT du 1er ordre, on peut écrire :
q
∇ L( x̄ ) = ∇ f ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
j =1

De plus, b) nous donne :


q
∇2 L( x̄ ) = ∇2 f ( x̄ ) + ∑ β j ∇2 h j ( x̄ )  0.
j =1

On voit alors que x̄ vérifie les conditions suffisantes d’optimalité du 2e ordre (sans contraintes)
vues dans le Théorème II.19, ce qui implique que x̄ est un minimiseur local de L. Donc,
pour tout x ∈ C au voisinage de x̄, on a

f ( x̄ ) = L( x̄ ) ď L( x ) = f ( x ).

On en déduit donc que x̄ est un minimiseur local de f sur C. 


V.II. THÉORÈME(S) DE LAGRANGE-KKT 105

Démonstration du Théorème V.44 : cas général. Maintenant passons au cas général avec des
inégalités, et montrons qu’on peut se ramener au cas d’égalités seules. Quitte a réordonner
les inégalités, et ce pour simplifier les notations, on va supposer que les premières corres-
pondent aux contraintes actives. Autrement dit, I ( x̄ ) = {1, . . . , p̄} avec p̄ ď p. On va
définir un nouveau problème dans R N + p̄ : on introduit
p̄ q
fˆ( x, z) = f ( x ), gi ( x ) + z2i ,
\ \
ĝi ( x, z) = ĥ j ( x, z) = h j ( x ), Ĉ = [ ĝi = 0] ∩ [ĥ j = 0].
i =1 j =1

On va s’intéresser au problème de minimiser fˆ sur Ĉ. Notons p que Ĉ n’est défini que par
des égalités ! De plus, il est facile de voir (en prenant zi = − gi ( x )) que
gi ( x ) ď 0 si et seulement si il existe zi ∈ R tel que ĝi ( x, zi ) = 0.
On en déduit alors que x est un minimiseur local de f sur C si et seulement si il existe
z ∈ R p̄ tel que ( x, z) soit minimiseur local de fˆ sur Ĉ.
Considérons maintenant le x̄ de notre théorème, et définissons z̄ ∈ R p̄ par z̄i = − gi ( x̄ ).
p

Nous allons montrer que ( x̄, z̄) est un minimiseur local de fˆ sur Ĉ, ce qui terminera la
preuve. Pour cela, il nous suffit de montrer que la condition suffisante du second ordre
pour les contraintes d’égalités est vérifiée puisque on vient de le prouver ! On voit en
particulier que si i ∈ I ( x̄ ) alors z̄i = 0. Grâce à notre hypothèse a), on peut écrire
q
∇ fˆ( x̄, ẑ) + ∑ αi ∇ ĝi ( x̄, z̄) + ∑ β j ∇ĥ j ( x̄, z̄)
i ∈ I ( x̄ ) j =1
q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ j=1 β j ∇h j ( x̄ )
 
 i ∈ I ( x̄ )   
 .. 
0N
= 
 . =

.
 2αi z̄i  0 p̄
 
..
.

On voit donc que ( x̄, z̄) vérifie les conditions d’optimalité de KKT pour le problème de
minimiser fˆ sur Ĉ. On peut également écrire :
q
∇2 fˆ( x̄, ẑ) + ∑ αi ∇2 ĝi ( x̄, z̄) + ∑ β j ∇2 ĥ j ( x̄, z̄)
i ∈ I ( x̄ ) j =1
q
 
∇2 f ( x̄ ) + ∑ αi ∇2 gi ( x̄ ) + ∑ j=1 β j ∇2 h j ( x̄ ) 0
=  i ∈ I ( x̄ ) 
0 2Diag(αi ).

On a ici une matrice diagonale par blocs, dont le premier bloc est défini positif à cause de
l’hypothèse b) ; et le deuxième bloc est la matrice diagonale Diag(αi ) qui est bien définie
positive au vu de la condition de complémentarité stricte c) . Donc cette grosse matrice
106 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

est bien définie positive. On voit donc que ( x̄, z̄) vérifie la condition suffisante du second
ordre pour le Théorème avec les contraintes d’égalité, que l’on a montré dans la première
partie de la preuve. On en déduit donc que ( x̄, z̄) est un minimiseur local de fˆ sur Ĉ, ce
qui implique que x̄ est un minimiseur local de f sur C. 

Remarque V.46 (Sur une CNO de KKT du 2e ordre). Si on compare ces Théorèmes avec
ceux que l’on a obtenus dans le cas sans contrainte, on voit qu’il nous en manque un :
un analogue de la Condition Nécessaire d’Optimalité d’ordre 2 (cf. Théorème II.16). On
s’attend à ce qu’il existe un résultat disant que : si x̄ est un minimiseur local de f sur C, et
sous hypothèse que la contrainte soit régulière, alors non seulement la CNO de KKT du
1er ordre est satisfaite
p q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0,
i =1 j =1

mais de plus la combinaison de toutes ces Hessiennes sera semi-définie positive :


p q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇2 h j ( x̄ )  0.
2 2
(V.11)
i =1 j =1

Le problème est qu’un tel résultat n’existe pas, malheureusement. Plus précisément :
• On peut trouver un contre-exemple avec un point qui est minimiseur local mais pour
lequel la matrice dans (V.11) n’est pas semi-définie positive (voir Exemple V.47 sui-
vant).
• On peut montrer un résultat un peu plus faible que (V.11), mais qui n’est pas vraiment
facile à utiliser en pratique :  la matrice dans (V.11) est semi-définie positive dans les
directions tangentes à la contrainte . On ne s’étendra pas sur ce que cela veut dire, car
cela dépasse le programme de ce cours.

Exemple V.47 (Un contre-exemple à l’existence d’une CNO de KKT 2e du ordre). Soit
f ( x, y) = x2 + y2 et C = [h = 0] avec h( x, y) = y.
1) On a C = {( x, y) ∈ R2 | y = 0}, ce qui nous permet de voir que sur la contrainte,
f ( x, y) = x2 . On en déduit donc immédiatement que f admet un unique minimiseur
sur C, qui est ( x, y) = (0, 0).
2) On voit que la contrainte est qualifiée en (0, 0), puisque ∇ g(0, 0) = (0, 1)> 6= (0, 0)> .
Donc la CNO de KKT du 1er ordre s’applique, et on obtient que ∇ f (0, 0) + β∇ g(0, 0) =
0, pour un certain β ∈ R. Puisque ∇ f (0, 0) = (0, 0)> et ∇ g(0, 0) = (0, 1)> , on voit
immédiatement que le multiplicateur β est nul.
3) On peut calculer  
2 2 2 0
∇ f (0, 0) + β∇ g(0, 0) = ,
0 −2
et on se rend compte que cette matrice n’est pas semi-définie positive.
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 107

On voit donc bien qu’une condition telle que (V.11) n’est pas vraie en général.

Exercice V.48 (Utilisation de la CSO de KKT du 2e ordre). Soient f ( x, y) = − x, et C =


{( x, y) ∈ R2 | x2 + y2 ď 1, ( x − 1)3 − y = 0}.

1) En utilisant la Condition Suffisante d’Optimalité du 2e ordre de KKT, montrer que


(1, 0) est un minimiseur local de f sur C.
2) Vérifier que f ( x, y) ě −1 pour tout ( x, y) ∈ C. En déduire que (1, 0) est un minimiseur
de f sur C.
3) Optionnel : Dessinez C dans le plan, et convainquez-vous graphiquement que (1, 0) est
l’unique minimiseur de f sur C.

V.III Algorithmes pour l’optimisation sous contraintes


V.III.1 Projection sur un convexe fermé
Définition V.49. Soit C ⊂ R N un ensemble non vide, et x ∈ R N . On définit la PROJEC -
TION de x sur C comme étant le sous-ensemble de C (possiblement vide) défini par :

projC ( x ) := argmin dist(c, x ).


c∈C

Remarque V.50 (Points fixes de la projection). Observer que x appartient à C si et seule-


ment si projC ( x ) = x.

F IGURE V.16 – Encore quelques projections


sur des convexes.
F IGURE V.15 – Diverses projections sur
un carré. Des points différents (en rouge)
peuvent se projeter sur le même point (en
vert).
108 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.17 – Un ensemble convexe C, un


point x (en rouge) et sa projection p =
projC ( x ) sur C (en vert), qui est le point de F IGURE V.18 – Divers points x (en rouge) et
C qui est le plus proche possible de x. Pour leurs projections p = projC ( x ) (en vert) sur
trouver cette projection on peut imaginer l’orthant positif C = R2+ . Dans ce cas la pro-
une boule centrée en x dont le rayon gros- jection a pour effet de mettre tous les coeffi-
sit jusqu’à toucher C : lorsque l’intersection cients négatifs à zéro.
entre cette boule et C est réduite à un point,
alors ce point est exactement projC ( x ).

F IGURE V.19 – La projection n’est pas bien définie si C n’est pas convexe ! Ici deux en-
sembles C non convexes, une patate et un cercle (cercle 6= disque) pour lesquels le point
rouge peut trouver plus d’un point vert dans C qui minimise la distance.
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 109

Lorsque C est convexe fermé, la fonction projC : R N −→ C est bien définie :

Proposition V.51 (La projection est bien définie sur les convexes fermés). Soit C ⊂ R N un
ensemble non vide.

i) Si C est fermé, alors projC ( x ) est non vide pour tout x ∈ R N .


ii) Si C est fermé et convexe, alors projC ( x ) est réduit à exactement un unique point, pour tout
x ∈ RN .

Démonstration. On écrit

projC ( x ) = argmin dist(c, x ) = argmin kc − x k2 .


c∈C c∈C

On observe que x 0 7→ k x 0 − x k2 est fortement convexe et continue sur R N . D’après le


Théorème III.38, on sait que x 0 7→ k x 0 − x k2 est coercive sur R N .

i) Si on suppose que C est fermé, alors projC ( x ) est l’ensemble des minimiseurs d’une
fonction continue coercive sur un fermé. D’après le Théorème II.35, on sait que cet
ensemble de minimiseurs est non vide.
ii) Si on suppose de plus que C est convexe, alors on peut dire que x 0 7→ k x 0 − x k2 est
fortement convexe sur C. Donc d’après le Théorème III.38, on sait qu’il y a exactement
un minimiseur. 

Exercice V.52. Calculer l’opérateur de projection pour les ensembles suivants :

1) C = { x ∈ R N | k x k ď 1}
2) C = C1 × · · · × CN ⊂ R N , où C1 , ..., CN ⊂ R.
3) C = R+
N = { x = ( x , · · · , x ) ∈ R N | x ě 0}, parfois appelé l’orthant positif.
1 N i

4) C = {( x, y) ∈ R2 | y = 0}.

Le point projeté p de x sur C peut également se caractériser comme étant l’unique point
tel que le vecteur x − p forme un angle obtus6 avec tous les vecteurs entrants c − p, pour
c ∈ C (cf. Figures V.20 et V.21) :

Proposition V.53 (Caractérisation de la projection via les angles). Soit C ⊂ R N un ensemble


convexe fermé non vide. Soit x ∈ R N et p ∈ C. Alors p = projC ( x ) si et seulement si

(∀c ∈ C ) hc − p, x − pi ď 0. (V.12)
6 On rappelle que deux vecteurs x et y forment un angle obtus si et seulement si h x, yi ď 0.
110 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.20 – Caractérisation de la projec- F IGURE V.21 – Caractérisation de la projec-


tion par les angles : on voit que si p = tion par les angles : on voit que si q 6=
projC ( x ), alors pour tout c ∈ C, le vecteur projC ( x ), alors il existe un c ∈ C tel que le
c − p forme un angle obtus avec x − p. vecteur c − q forme un angle aigu avec x − q.

Démonstration. On va faire la preuve en deux temps. Supposons que p = projC ( x ) et


montrons que (V.12) est vérifiée. On se donne donc c ∈ C quelconque, et pour tout α ∈]0, 1[
on considère (1 − α) p + αc qui appartient à C par convexité. Alors, par définition de la
projection,

k x − pk2 ď k x − (1 − α) p − αck2 = k x − pk2 + α2 kc − pk2 + 2αh x − p, p − ci.

En simplifiant et en divisant par α > 0, on obtient

0 ď αkc − pk2 + 2h x − p, p − ci.

Puisque ceci est vrai pour tout α ∈]0, 1[, on peut faire tendre α → 0, ce qui nous donne
bien
0 ď h x − p, p − ci.
Supposons maintenant que p ∈ C est un vecteur vérifiant (V.12), et montrons que c’est
projC ( x ). Par hypothèse, on a pour tout c ∈ C :

0 ě h x − p, c − pi = h x − p, c − x + x − pi = h x − p, c − x i + k x − pk2 .

En utilisant l’inégalité de Cauchy-Schwarz, et en divisant par k x − pk2 (on peut le faire


sauf si p = x mais dans ce cas p = projC ( x ) est trivial) on obtient :

0 ě −k x − pkkc − x k + k x − pk2 ⇒ 0 ě k x − pk − kc − x k.

Ceci étant vrai pour tout c ∈ C, on en déduit que p est la projection de x sur C. 

Exercice V.54. Soit C l’hyperplan affine défini par C = { x ∈ R N | h a, x i = b}. Vérifier, à


l’aide de la caractérisation de la projection via les angles, que :

h a, x i − b
projC ( x ) = x − a
k a k2
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 111

F IGURE V.22 – Projection sur une droite af- F IGURE V.23 – Projection sur un sous-espace
fine portée par a. vectoriel (ici un hyperplan). On peut voir
que les vecteurs x − p et c − p forment un
angle droit.

On déduit de la Proposition V.53 un corollaire sur la projection sur un espace vecto-


riel, caractérisée par le fait que x − p doit former un angle droit avec tous les vecteurs de
l’espace (Figure V.23) :

Corollaire V.55. Soit F un sous-espace vectoriel non vide de R N . Soient x ∈ R N et p ∈ F. Alors


p = projF ( x ) si et seulement si

(∀c ∈ F ) hc, x − pi = 0.

Démonstration. On vient de voir que p = projF ( x ) si et seulement si

(∀c ∈ F ) hc − p, x − pi ď 0.

Or p ∈ F donc par linéarité, c ∈ F ⇔ c − p ∈ F. Donc l’inégalité ci-dessus devient

(∀c ∈ F ) hc, x − pi ď 0.

Mais de plus, c ∈ F ⇔ −c ∈ F par linéarité, donc cette inégalité devient égalité :

(∀c ∈ F ) hc, x − pi = 0. 

Exercice V.56. Soit F un sous-espace vectoriel de R N non vide, et soit p = projF . Montrer
que p est une application linéaire, et que p est la projection orthogonale sur F, au sens où :

p◦p = p et  p ď 1.
112 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.III.2 Propriétés avancées de la projection


Les algorithmes pour résoudre des problèmes d’optimisation sous contrainte comportent
souvent des projections à réaliser sur la contrainte. Nous allons donc avoir besoin de
quelques propriétés sur la projection.

Lemme V.57 (Non-expasion ferme de la projection). Soit C ⊂ R N convexe fermé non vide.
Alors la projection projC : R N → R N est fermement non-expansive :
(∀ x, y ∈ R N ) k projC (y) − projC ( x )k2 ď ky − x k2 − k(y − x ) − (projC (y) − projC ( x ))k2 .
Démonstration. (Voir [8, Proposition III.3.1.3]) Commençons par développer la norme au
carré, en faisant apparaitre les termes de projection :
k y − x k2
= k(y − x ) − (projC (y) − projC ( x )) + (projC (y) − projC ( x ))k2
= k(y − x ) − (projC (y) − projC ( x ))k2 + k projC (y) − projC ( x )k2
+2h(y − x ) − (projC (y) − projC ( x )), projC (y) − projC ( x )i.
On voit que le Lemme sera prouvé pourvu qu’on arrive à monter que le produit scalaire
est positif. Coupons ce terme en deux :
h(y − x ) − (projC (y) − projC ( x )), projC (y) − projC ( x )i
= −hy − projC (y), projC ( x ) − projC (y)i − h x − projC ( x ), projC (y) − projC ( x )i.
On voit alors que chacun de ces deux produits scalaires est négatif, grâce à la caractérisation
de la projection par les angles. D’où le résultat. 

Théorème V.58 (La projection est 1-Lipschitzienne). Soit C ⊂ R N convexe fermé non vide.
Alors la projection projC : R N → R N est 1-Lipschitzienne (on dit aussi non-expansive) :
(∀ x, y ∈ R N ) k projC (y) − projC ( x )k ď ky − x k.
Démonstration. C’est une conséquence directe du Lemme de non-expansivité ferme V.57,
où on élimine le terme négatif du second membre et on enlève les carrés. 

Remarque V.59 (Contraction des distances). Cela veut dire que si on prend deux points
puis qu’on les projette, les projections seront plus rapprochées que ne l’étaient les points
de départ. On peut bien voir ce phénomène sur les Figures V.15 et V.16.

On termine avec un résultat montrant que la projection est liée à la dérivée de la fonc-
tion distance.

Proposition V.60 (Gradient de la distance au carré). Soit C un ensemble convexe fermé non
vide, et f : R N → R définie par f ( x ) = 12 dist( x, C )2 . Alors f ∈ C11,1 (R N ), avec
∇ f ( x ) = x − projC ( x ).
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 113

Démonstration. Soient x, y ∈ R N quelconques. Dans cette preuve on notera p x := projC ( x )


et py := projC (y). On définira aussi la fonction A : R N → R N , telle que Ax := x −
projC ( x ). Observons déjà que A = I − projC est 1-Lipschitzienne, d’après le Lemme V.57
de non-expansion ferme de la projection. Notre objectif est maintenant de prouver que
Ax = ∇ f ( x ), en vérifiant la formule de Taylor :

f (y) − f ( x ) − h Ax, y − x i = o (ky − x k). (V.13)

Commençons par montrer que

f (y) − f ( x ) − h Ax, y − x i ě 0. (V.14)

Pour cela, on observe que la définition de la projection nous permet d’écrire que f ( x ) =
(1/2)k x − p x k2 = (1/2)k Ax k2 . On peut alors écrire

f (y) − f ( x ) − h Ax, y − x i
1 1
= k Ayk2 − k Ax k2 − h Ax, y − x i
2 2
1 1
= k Ayk − k Ax k2 − h Ax, Ay − Ax i − h Ax, py − p x i car x = Ax + p x
2
2 2
1
= k Ay − Ax k2 − h x − p x , py − p x i en réorganisant les termes.
2
Or ici on a k Ay − Ax k2 ě 0, et d’autre part via la caractérisation de la projection par
les angles (Proposition V.53), on a h x − p x , py − p x i ď 0. On a donc bien prouvé (V.14).
Maintenant on va conclure que (V.13) est vraie. Pour cela on écrit

f (y) − f ( x ) − h Ax, y − x i
ď −h Ay, x − yi − h Ax, y − x i avec (V.14) en échangeant les rôles de x, y
= h Ay − Ax, y − x i
ď k Ay − Ax kky − x k par Cauchy-Schwarz
ď ky − x k2 = o (ky − x k),

où dans la dernière inégalité on a utilisé le fait que A est 1-Lipschitzienne. 

V.III.3 Algorithme du gradient projeté


Ici on considère le problème de minimiser une fonction f ∈ Γ0 (R N ) ∩ CL1,1 (R N ) sur une
contrainte C ⊂ R N convexe fermée non vide.
Au chapitre IV nous avons vu l’algorithme du gradient. Cet algorithme a la propriété
que, à chaque itération, l’algorithme progresse vers la solution. On a vu que cela se traduit
par :
f ( x k +1 ) ď f ( x k )
114 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Étant donné un point xk ∈ C dans la contrainte, on pourrait essayer de l’améliorer en y


appliquant une étape de l’algorithme du gradient :

x̂k+1 = xk − ρ∇ f ( xk ).

En faisant cela, on obtient un point qui fait décroitre la valeur de f . Mais rien ne garantit
que x̂k+1 soit encore dans C ! Or c’est un problème puisque on cherche le minimiseur de
f sur C. On se retrouve donc avec un point x̂k+1 sur les bras, qui est  bon  du point de
vue de f , mais à priori mauvais vis-à-vis de C.
Une approche consiste alors à dire : au lieu de prendre x̂k+1 , on va chercher parmi les
points de C celui qui est le plus proche de x̂k+1 , autrement dit la projection de x̂k+1 sur C. Par
définition il sera dans la contrainte, et comme il sera  pas trop loin  de x̂k+1 , on espère
qu’il aura la même propriété de faire décroitre f (spoiler : oui).

Définition V.61 (Gradient projeté). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), et C ⊂ R N une contrainte


convexe fermée non vide. L’ALGORITHME DU GRADIENT PROJET É appliqué à ce problème
consiste à choisir un point initial x0 ∈ C, puis à appliquer :
(
x̂k+1 = xk − ρ∇ f ( xk )
xk+1 = projC ( x̂k+1 )

En d’autres termes, l’algorithme du gradient projeté alterne une étape de l’algorithme du


gradient par rapport à f , et une étape de projection par rapport à C. Comme son nom
l’indique.

Remarque V.62 (Avantages et limitations de cette approche). L’efficacité de cette méthode


est totalement dépendante de notre capacité à savoir projeter facilement, rapidement sur
C. Il est illusoire de penser que ceci est possible pour tout ensemble, mais certaines contraintes
comme le simplexe, l’orthant positif, des contraintes linéaires, peuvent être traitées en
temps raisonnable.

Exemple V.63 (Contrainte linéaire sous forme standard). Considérons le problème de


trouver un x ∈ R N tel que
N
Φx = y et x ∈ R+ ,
où Φ ∈ M M,N (R) et y ∈ R M . Si ce problème admet une solution, alors il est équivalent
à minimiser f sur C, où C = R+ N et f ( x ) : = 1 k Φx − y k2 . Dans ce cas l’algorithme du
2
gradient projeté devient

2
xk+1 = ( xk − ρΦ> (Φxk − y))+ , ρ< .
k Φ k2

Vérifions maintenant que cet algorithme est raisonnable, au sens où les solutions du
problème sont des points stationnaires :
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 115

Proposition V.64 (Points fixes du gradient projeté). Soient f ∈ Γ0 (R N ) différentiable, C ⊂


R N convexe fermé non vide, et x ∗ ∈ argminC f . Alors projC ( x ∗ − ρ∇ f ( x ∗ )) = x ∗ pour tout
ρ > 0.

Démonstration. Au vu de la caractérisation de la projection par les angles (Proposition


V.53), il nous suffit de montrer que

(∀c ∈ C ) h x ∗ − ρ∇ f ( x ∗ ) − x ∗ , c − x ∗ i ď 0.
Puisque ρ > 0, ceci est équivalent à montrer que

(∀c ∈ C ) h∇ f ( x ∗ ), c − x ∗ i ě 0.
Prenons donc un c ∈ C quelconque. On peut alors calculer

∗ ∗ f ( x ∗ + t(c − x ∗ )) − f ( x ∗ )
h∇ f ( x ), c − x i = lim ,
t →0 t
et cette fraction est bien positive ! En effet, pour t ∈]0, 1[ on a par convexité que x ∗ + t(c −
x ∗ ) ∈ C, et puisque x ∗ ∈ argminC f on a forcément f ( x ∗ + t(c − x ∗ )) ě f ( x ∗ ). D’où le
résultat. 
Vérifions que le gradient projeté fait bien décroitre les valeurs de f :

Proposition V.65 (Décroissance de la méthode du gradient projeté). Soit f ∈ Γ0 (R N ) ∩


CL1,1 (R N ), pour L > 0, et C ⊂ R N convexe fermé non vide. On considère la méthode du gradient
projeté avec un pas constant ρ ∈]0, 2/L[. Alors :

(∀k ∈ N) f ( x k +1 ) ď f ( x k ).

Démonstration. On va commencer exactement comme pour la preuve de la Proposition


IV.34, où l’on avait prouvé la chose suivante (IV.2) :
L
(∀ x, y ∈ R N ) f (y) − f ( x ) ď ky − x k2 + h∇ f ( x ), y − x i. (V.15)
2
Avec x = xk et y = xk+1 , on a donc
L
f ( x k +1 ) − f ( x k ) ď kx − xk k2 + h∇ f ( xk ), xk+1 − xk i.
2 k +1
En rappelant que x̂k+1 = xk − ρ∇ f ( xk ), et en utilisant la caractérisation de la projection
par les angles (Proposition V.53), on peut écrire

k x k +1 − x k k 2 = hprojC ( x̂k+1 ) − xk , projC ( x̂k+1 ) − xk i


= hprojC ( x̂k+1 ) − x̂k+1 , projC ( x̂k+1 ) − xk i + h x̂k+1 − xk , projC ( x̂k+1 ) − xk i
ď h x̂k+1 − xk , projC ( x̂k+1 ) − xk i (Proposition V.53) et xk ∈ C)
= −ρh∇ f ( xk ), xk+1 − xk i.
116 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

On a donc obtenu que


 

f ( x k +1 ) − f ( x k ) ď 1− h∇ f ( xk ), xk+1 − xk i.
2

D’une part, le fait que ρ ∈]0, 2/L[ garantit que 1 − 2 > 0. D’autre part, la convexité de f et
l’inégalité de l’hyperplan tangent, qui nous dit que h∇ f ( xk ), xk+1 − xk i ď f ( xk+1 ) − f ( xk ),
nous permet donc de conclure que
 

f ( x k +1 ) − f ( x k ) ď 1 − ( f ( xk+1 ) − f ( xk )) ,
2

d’où f ( xk+1 ) − f ( xk ) ď 0. 
Nous énonçons maintenant le Théorème principal de cet algorithme :

Théorème V.66 (Convergence linéaire : Cas fortement convexe). Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ),


pour L ě µ > 0, et C ⊂ R N convexe fermé non vide. On note x ∗ = argminC f , et on considère
la méthode du gradient projeté avec un pas constant ρ ∈]0, 2/L[. Alors (k xk − x ∗ k)k∈N converge
linéairement, c’est-à-dire que :

(∃θ ∈ [0, 1[)(∀ x ∈ R N ) k xk+1 − x ∗ k ď θ k xk − x ∗ k

Plus précisément, on peut montrer que


(
2
1 − ρµ si ρ ď µ+ L
θ = max{|1 − ρµ|; |1 − ρL|} = 2
(V.16)
ρL − 1 si ρ ě µ+ L ,

qui est minimal lorsque ρ = 2/(µ + L). En particulier, xk converge vers x ∗ .

La preuve de ce résultat va combiner deux ingrédients : les résultats sur l’algorithme


du gradient vus au Chapitre IV, et la 1-Lipschitzianité de la projection :
Démonstration. On peut utiliser la propriété de Lipschitz de la projection (Théorème V.58),
avec le fait que x ∗ est un point fixe de l’algorithme (Proposition V.64) :

k xk+1 − x ∗ k = k projC ( xk − ρ∇ f ( xk )) − projC ( x ∗ − ρ∇ f ( x ∗ ))k


ď k( xk − ρ∇ f ( xk )) − ( x ∗ − ρ∇ f ( x ∗ ))k.

Or on a vu dans la preuve du Théorème IV.37 que l’étape de la méthode du gradient est


θ-Lipschitzienne, ce qui permet de conclure que

k xk+1 − x ∗ k ď k( xk − ρ∇ f ( xk )) − ( x ∗ − ρ∇ f ( x ∗ ))k ď θ k xk − x ∗ k.


V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 117

Tout comme pour la méthode du gradient à pas constant, on a toujours convergence


si f n’est que convexe. Dans ce cas on perd en vitesse de convergence, et on retombe sur
une vitesse sous-linéaire (comparer avec le Théorème IV.44) :

Théorème V.67 (Convergence : cas convexe). Soient f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), pour L > 0,


et C ⊂ R N convexe fermé non vide. On suppose que argminC f 6= ∅. On considère la méthode du
gradient projeté avec un pas constant ρ ∈]0, 2/L[. Alors :

1) xk converge vers x ∗ ∈ argminC f ,


 
2) f ( xk ) − infC f = O 1k .

Démonstration. Admis. Une preuve est disponible dans la Section A.II.3 de l’Annexe. 

V.III.4 Algorithme de projection alternées *


Ici on s’intéresse au problème de faisabilité, qui consiste à être capable de trouver un point
dans l’intersection de différentes contraintes :

Trouver x ∈ C := C1 ∩ · · · ∩ Cr . (V.17)

Pour ce genre de problèmes, typiquement chaque contrainte Ci est  simple , alors que C
est plus compliquée.
Par exemple, on pourrait considérer que trouver la solution d’un système linéaire
Ax = b est difficile. Or cette égalité vectorielle est équivalente à vérifier des équations
réelles (on note ai les lignes de la matrice A) :

Ax = b ⇔ ∀i, h ai , x i = bi .

Or, trouver une solution de h ai , x i = bi est très facile pour chaque i ! On sait même projeter
sur cet hyperplan ! C’est trouver une solution commune qui est compliqué.
Un autre exemple consiste à dire que, ok, résoudre un système linéaire c’est facile, mais
que pour des problèmes concrets on a souvent des contraintes naturelles qui s’ajoutent.
Bien souvent, on veut que la solution de Ax = b soit un vecteur de coordonnées positives.
Autrement dit, on veut à la fois
N
Ax = b et x ∈ R+ .

Pas facile à priori ! Faut-il/Peut-on modifier le pivot de Gauss pour garantir des coeffi-
cients positifs ? (non)
Donc dans cette section on va proposer un algorithme capable de résoudre le problème
de faisabilité. L’idée est simple : on va projeter alternativement entre tous les Ci !
118 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Définition V.68 (Algorithme de projection alternée). Soient C1 , . . . , Cr ⊂ R N des ensembles


convexes fermés non vides, et C leur intersection. On définit L’ ALGORITHME DE PROJEC -
TION ALTERN ÉE ainsi :
(
x0 ∈ Cr ,
xk+1 = (projCr ◦ · · · ◦ projC1 )( xk ).

Théorème V.69 (Convergence de la projection alternée). Soient C1 , . . . , Cr des ensembles


convexes fermés non vides de R N , et C = C1 ∩ · · · ∩ Cr leur intersection. Si C est non vide,
alors toute suite générée par l’algorithme de projection alternée converge vers un point de C.

Démonstration. Ici on notera pC au lieu de projC pour simplifier. Soit ( xk )k∈N la suite
générée par l’algorithme de projection alternée, qui vérifie par définition xk+1 = pCr ◦
· · · ◦ pC1 ( xk ). On va avoir besoin de donner un nom à toutes les suites intermédiaires,
donc on définit pour tout k ∈ N et i = 1, . . . , r :

x̂k0 := xk et x̂ki := pCi ( x̂ki−1 ).

Avec ces notations on voit que x̂kr = xk+1 , et x̂ki ∈ Ci .


Pour commencer, fixons un c ∈ C quelconque. Puisque c est dans l’intersection, il
vérifie pour tout i que pCi (c) = c. On peut donc utiliser le fait que la projection est non-
expansive (Théorème V.58) pour écrire pour tout k :

k xk+1 − ck = k x̂kr − ck = k pCr ( x̂kr−1 ) − pCr (c)k ď k x̂kr−1 − ck ď · · · ď k x̂k0 − ck = k xk − ck.

On en déduit que, pour tout i = 1, . . . , r, la suite (k x̂ki − ck)k∈N est décroissante, et que
toutes ces suites ont la même limite :

(∃` ě 0)(∀i = 1, . . . , r ) lim k x̂ki − ck = `. (V.18)


k→+∞

On en déduit également que les suites ( x̂ki )k∈N sont bornées, donc il existe une sous-suite
k n commune telle que toutes les sous-suites ( x̂ki n )k∈N soient convergentes. On notera x∞ i
i ∈ C puisque x i ∈ C et que les C sont fermés.
leur limite, dont on sait que x∞ i k i i
Maintenant, on utilise le Lemme V.57 avec x = x̂ki et y = c pour obtenir :

k xki+1 − xki k2 = k(c − xki ) − ( pCi (c) − pCi ( xki ))k2


ď kc − xki k2 − k pCi (c) − pCi ( xki )k2
= kc − xki k2 − kc − xki+1 k2 .

En passant à la limite lorsque k n → +∞, on obtient alors


i +1 i 2 i 2 i +1 2
k x∞ − x∞ k ď kc − x∞ k − kc − x∞ k = ` − ` = 0,
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 119

ce qui veut dire que x∞ i +1 = x i . Ceci étant vrai pour tout i, on en déduit que toutes ces

limites de sous-suites sont en fait le même point, que l’on note c∞ , qui vérifie donc c∞ ∈ C.
On peut maintenant conclure, en observant maintenant que si on prend c = c∞ , alors
lim k x̂ki n − c∞ k = 0. Autrement dit, la constante ` dans l’équation (V.18) est nulle. Ceci
k n →+∞
implique donc que c’est bien toute la suite xki qui converge vers c∞ . En particulier, xk =
x̂kr −1 → c∞ . 

Remarque V.70 (Vitesse de convergence pour l’algorithme de projection alternée). Dans


le Chapitre IV on s’est évertués à non seulement établir la convergence de la méthode du
gradient mais aussi préciser quelle est sa vitesse de convergence, en fonction notamment
de la difficulté du problème (à travers la valeur du conditionnement cond( f ).
Ici dans le Théorème V.69 nous n’avons que la convergence. Que peut-on alors dire
des vitesses ? La réponse est hors-programme, mais voici quelques indications pour les
plus curieuses. Essentiellement : l’algorithme converge plus vite lorsque le problème est
 facile .

• Un problème de faisabilité (V.17) est facile si les ensembles Ci  s’intersectent bien .


Plus précisément, lorsque ces ensembles ont une intersection régulière. Si on parle de
contraintes d’égalités affines et d’inégalités convexes, alors  regulière  est à prendre
au sens de la Définition V.33. Dans ce cas il est possible de montrer que les itérés xk
convergent vers une solution à vitesse linéaire, et que le taux de convergence linéaire
θ dépend de l’angle formé entre les ensembles aux points où ils s’intersectent.
• De manière générale, lorsque l’intersection n’est pas régulière, la convergence des
itérés peut être arbitrairement lente : sans hypothèse, on ne peut pas garantir de vi-
tesse de convergence pour les itérés.

Remarque V.71 (La projection alternée est un gradient projeté). Considérons le problème
de trouver un x ∈ C ∩ D 6= ∅, où C et D sont deux ensembles convexes fermés. Alors
ce problème est équivalent à minimiser f sur C, où f ( x ) = 21 dist( x, D )2 . D’après la Pro-
position V.60, on a pour cette fonction que Lip(∇ f ) = 1 et ∇ f ( x ) = x − projD ( x ). Alors
l’algorithme du gradient projeté s’écrit dans ce cas

xk+1 = projC ( xk − ρ( xk − projD ( xk ))), 0 < ρ < 2.

On observe qu’en prenant un pas court ρ = 1, on obtient xk+1 = projC (projD ( xk )) qui est
exactement l’algorithme de la projection alternée pour une intersection de deux contraintes !
Qu’est-ce que cela implique du point de vue des vitesses de convergence ? Ici f n’est pas
fortement convexe7 donc on doit appliquer le Théorème V.67. On obtient alors que les
valeurs f ( xk ) = dist( xk , D ) tendent vers 0 avec une vitesse O( 1k ), et que les itérés tendent
vers une solution x ∗ ∈ C ∩ D. Mais on ne peut rien dire de plus sur la vitesse de k xk − x ∗ k,
ou de dist( xk , C ∩ D ), conformément à la Remarque V.70.
7A moins que D soit réduit à un singleton. Saurez-vous voir pourquoi c’est évident ?
120 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.72 (La projection alternée n’est pas un gradient projeté). En présence de
deux contraintes, on a vu dans la Remarque V.71 que la méthode de projection alternée
est un cas particulier du gradient projeté. Malheureusement cela n’est pas vrai en général.
En effet il est possible de montrer que la méthode de projection alternée pour r ě 3
contraintes ne peut en aucun cas être écrite comme un cas particulier de la méthode du
gradient projeté avec un choix intelligent de f .8

V.III.5 Pour aller plus loin *


On conclut ce chapitre avec quelques remarques. Ce sont essentiellement des remarques
d’ouverture, pour votre culture, qui sont totalement hors-programme.

Remarque V.73 (Au delà du gradient projeté). Un des problèmes évidents de la méthode
du gradient projeté est qu’il faut savoir ... projeter ! Comme on l’a vu en début de cha-
pitre, la projection est très facile à calculer pour certains ensembles : boules euclidiennes,
l’orthant positif. Mais il n’existe pas de recette générale  miracle  pour projeter sur un
ensemble quelconque. Voici quelques classes de problèmes que l’on rencontre typique-
ment en pratique :

• Les problèmes de programmation linéaire9 , où f est affine, et la contrainte est définie
par des égalités et inégalités affines. Ces problèmes apparaissent naturellement dans
les sciences de la décision et de la planification. Un exemple célèbre est le problème du
transport optimal10 . Dans ce cas on pourra utiliser l’algorithme du simplexe11 (1947).
• Les problèmes de programation quadratique, où cette fois-ci f est quadratique12 (les
contraintes restent affines). Une famille d’algorithmes très efficaces (et même opti-
males en un certain sens) pour les résoudre sont les méthodes dites de point intérieur13
(1980-1999). Elles sont d’ailleurs si efficaces qu’elles permettent également de résoudre
des problèmes beaucoup plus difficiles (programmation semi-définie).
• Les problèmes de programmation convexe, où f est convexe et les contraintes sont
des inégalités convexes et égalités affines. Dans ce cas le problème est trop général,
mais selon la structure du problème on peut toujours trouver un algorithme adapté.
Citons par exemple la famille des méthodes dites d’éclatement (algorithmes du gra-
dient proximal, de Douglas-Rachford, ... ), très en vogue depuis les années 2000 pour
résoudre les problèmes de traitement d’image (défloutage d’image, augmenter la résolution,
diminuer le bruit, etc..). Ces méthodes sont en particulier très efficaces pour résoudre
8 C’est un résultat qui date de 2012, dû à J.-B. Baillon, P.L. Combettes et R. Cominetti.
9 https://fr.wikipedia.org/wiki/Optimisation_lin%C3%A9aire
10 https://images.math.cnrs.fr/Le-transport-optimal-numerique-et-ses-applications-Partie-1.

html?lang=fr
11 https://fr.wikipedia.org/wiki/Algorithme_du_simplexe
12 https://fr.wikipedia.org/wiki/Optimisation_quadratique
13 https://en.wikipedia.org/wiki/Interior-point_method
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 121

des problèmes non-lisses, comme par exemple le problème de régression parcimo-


nieuse14 qui apparait en traitement du signal, traitement de l’image, ainsi qu’en statis-
tiques :
1
min αk x k1 + k Ax − yk22 .
x ∈R N 2

Remarque V.74 (Problème général). Ici on vient de voir que la méthode du gradient pro-
jeté converge si f est lisse, convexe, et C convexe. Que se passe-t-il si ces hypothèses ne
sont pas vérifiées ?

• f non convexe : Sans convexité, et même lorsqu’il n’y a pas de contrainte, cela se com-
plique. Déjà on sait que même si on converge on risque d’être coincé dans un minimi-
seur local voire un point critique (cf. x3 ). On sait également depuis longtemps (1950
environ) que sans convexité il est possible que l’algorithme du gradient ne converge
pas : les trajectoires peuvent tourner en rond.15 Mais récemment (2005-2015) on s’est
rendu compte que ce phénomène n’arrivait pas  souvent . Pour des fonctions non-
convexes  normales16  (polynomiales par exemple) la convergence vers un point
critique est garantie.
• C non convexe : Dans ce cas, la projection n’est plus définie de manière unique (cf.
Figure V.19). Mais on pourrait toujours implémenter l’algorithme en prenant à chaque
itération  une projection  quelconque. Dans ce cas on a les mêmes résultats que pour
f non convexe : la convergence vers un point critique du problème est garantie pour
des ensembles  normaux .

14 https://fr.wikipedia.org/wiki/Lasso_(statistiques)
15 Les plus curieux pourront aller regarder ce GIF qui illustre ce fait avec une fonction non-convexe
connue sur le nom de  mexican hat  : https://raw.githubusercontent.com/Guillaume-Garrigos/
guillaume-garrigos.github.io/master/assets/maths/images/mex_trajectoire.gif
16 La définition de  normale  est un peu compliquée, mais pourrait être résumée par :  sa définition ne

contient rien qui ait à voir de près ou de loin avec sin( x ). 


122 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.IV Récapitulatif du Chapitre V


On considère une fonction f : R N → R, et un ensemble de contraintes défini par des
inégalités et égalités :

C = { x ∈ R N | g1 ( x ) ď 0, . . . , g p ( x ) ď 0, h1 ( x ) = 0, . . . , hq ( x )}

et le problème d’optimisation associé : minimiserx∈C f ( x ). Les Théorèmes de Lagrange-


KKT nous donnent les implications suivantes :

régulière
CSO KKT 2e ordre minimiseur local CNO KKT 1er ordre

si problème convexe
minimiseur global

Condition Nécessaire d’Optimalité de KKT du 1er ordre


 p q
∇ f ( x ) + ∑ ∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0 (Condition de stationnarité)
 α

 i i
i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

(Condition d’admissibilité : inégalités)
i

 ∀ j = 1, . . . , q h j ( x̄ ) = 0 (Condition d’admissibilité : égalités)

∀i = 1, . . . , p αi ě 0 (Multiplicateur : inégalités)





∀i = 1, . . . , p αi gi ( x̄ ) = 0 (Condition de complémentarité : inégalités)

Pour que l’implication  minimiseur local =⇒ CNO KKT 1er ordre  ait lieu, il faut que
la contrainte soit régulière en x̄, c’est-à-dire qu’elle vérifie l’une des deux propriétés :

• linéaire (les gi et h j sont affines) ;


• qualifiée : {∇ gi ( x ), ∇h j ( x )} i∈ I (x̄) est libre. I ( x̄ ) désigne les contraintes actives en x̄.
1ďjďq

Condition Suffisante d’Optimalité de KKT du 2e ordre

1) La CNO de KKT du 1er ordre est vérifiée, avec des muliplicateurs αi , β j ;


p q
2) La Hessienne Lagrangienne ∇2 f ( x̄ ) + ∑ αi ∇2 gi ( x̄ ) + ∑ β j ∇2 h j ( x̄ ) est  0 ;
i =1 j =1

3) La complémentarité stricte : αi 6= 0 ⇔ gi ( x̄ ) = 0 pour i = 1, . . . , p.


Annexe A

Convexité(s) et Convergence de
méthodes de descente

Sommaire
A.I Un peu plus d’Analyse variationnelle . . . . . . . . . . . . . . . . . . . . . 124
A.I.1 Convexité(s) et monotonie(s) . . . . . . . . . . . . . . . . . . . . . . 124
A.I.2 Caractérisation de la convexité via la Hessienne . . . . . . . . . . . 126
A.I.3 Lipschitzianité et cocoercivité . . . . . . . . . . . . . . . . . . . . . . 127
A.II Convergence(s) de la méthode du gradient . . . . . . . . . . . . . . . . . . 130
A.II.1 Méthode du gradient : cas fortement convexe non C2 . . . . . . . . 130
A.II.2 Méthode du gradient : cas convexe . . . . . . . . . . . . . . . . . . . 132
A.II.3 Méthode du gradient projeté : cas convexe . . . . . . . . . . . . . . 137
A.II.4 Méthode du gradient optimal . . . . . . . . . . . . . . . . . . . . . . 139

Dans cette annexe nous commençons par montrer quelques caractérisations supplémentaires
de la convexité, forte convexité, et Lipschitzianité du gradient. Cela nous permet dans un
second temps de prouver des résultats laissés admis jusque là, ou tout simplement de
donner une preuve plus directe à certains Théorèmes :

• Preuve directe de la caractérisation de la convexité via la Hessienne qui ne nécessite


pas de passer par le cas univarié, comme cela est fait dans la preuve du Théorème
III.33. Cf. Section A.I.2.
• Preuve de la convergence linéaire des itérés pour la méthode du gradient, pour les
fonctions fortement convexes (Théorème IV.37), sans faire l’hypothèse que la fonction
f est de classe C2 . Cf. Section A.II.1.
• Preuve de la convergence linéaire des valeurs pour la méthode du gradient, pour les
fonctions fortement convexes (Théorème IV.42). Cf. Section A.II.1.

123
124 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

• Preuves de la convergence sous-linéaire de la méthode du gradient (projeté) pour les


fonctions convexes (Théorèmes IV.44 et V.67). Cf. Sections A.II.2 et A.II.3.
• Preuve de la convergence linéaire de la méthode du gradient à pas optimal, pour les
fonctions fortement convexes (Théorème IV.57). Cf. Section A.II.4.

A.I Un peu plus d’Analyse variationnelle


A.I.1 Convexité(s) et monotonie(s)
Remarque A.1 (Croissance et Monotonie). Pour les fonctions univariées, on a vu dans la
Proposition III.13 que la convexité était équivalent à la croissance de la dérivée. Or il n’y a
pas de notion de  croissance  pour le gradient, car la relation d’ordre canonique sur R N
n’est pas un ordre total. Mais il existe une notion un peu plus générale, celle de fonction
monotone. En effet, la croissance d’une fonction univariée f : R → R s’écrit

(∀ x, y ∈ R) x ď y ⇒ f ( x ) ď f (y).
Cette propriété est en fait équivalente à dire que y − x et f (y) − f ( x ) ont le même signe.
Autrement dit :
(∀ x, y ∈ R) ( f (y) − f ( x ))(y − x ) ě 0.
On peut alors étendre cette relation aux champs de vecteurs, et dire que F : R N → R N est
monotone si :
(∀ x, y ∈ R) h F (y) − F ( x ), y − x i ě 0.
On peut alors montrer (Proposition suivante) que la convexité d’une fonction f : R N −→
R est équivalente à la monotonie de son gradient ∇ f : R N −→ R N .

Proposition A.2 (Convexité via le gradient). Soit f : U ⊂ R N → R une fonction différentiable


sur U, et C ⊂ U convexe non vide. Les propriétés suivantes sont alors équivalentes :
i) f est convexe sur C, càd f ∈ Γ0 (C ) ;
ii) (∀( x, y) ∈ C2 ) f (y) ě f ( x ) + h∇ f ( x ), y − x i ;
iii) (∀( x, y) ∈ C2 ) h∇ f (y) − ∇ f ( x ), y − x i ě 0.

Démonstration. i) ⇒ ii). Soient ( x, y) ∈ C2 quelconques. Pour α ∈]0, 1[, on pose zα :=


(1 − α) x + αy. On a alors f (zα ) ď (1 − α) f ( x ) + α f (y) = f ( x ) + α( f (y) − f ( x )), donc
1 α →0+
f (y) − f ( x ) ě ( f (zα ) − f ( x )) → D f ( x )(y − x ) = h∇ f ( x ), y − x i.
α
ii) ⇒ i) : On a

f ( x ) ě f (zα ) + h∇ f (zα ), x − zα i (A.1)


f (y) ě f (zα ) + h∇ f (zα ), y − zα i. (A.2)
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 125

En sommant (1 − α) fois la relation (A.1) et α fois la relation (A.2), et en utilisant le fait que
(1 − α)( x − zα ) + α(y − zα ) = 0, on obtient l’inégalité de convexité.
ii) ⇒ iii) : On écrit

f (y) ě f ( x ) + h∇ f ( x ), y − x i
f ( x ) ě f (y) + h∇ f (y), x − yi.

En sommant on obtient l’inégalité désirée.


iii) ⇒ ii) : Soit g(t) := f ((1 − t) x + ty) pour t ∈ [0, 1]. On remarque que g0 (t) = h∇ f (zt ), y −
x i, et en particulier que g0 (0) = h∇ f ( x ), y − x i. Donc il nous suffit de montrer que
g(1) − g(0) − g0 (0) ě 0. D’après notre hypothèse, on a
1
g0 (t) − g0 (0) = h∇ f (zt ) − ∇ f ( x ), y − x i = h∇ f (zt ) − ∇ f ( x ), zt − x i ě 0.
t
D’autre part, comme g est continue sur [0, 1] et dérivable sur ]0, 1[, on peut utiliser le
g(1)− g(0)
théorème des accroissements finis qui nous dit qu’il existe c ∈]0, 1[ tel que 1 =
0 0
g (c). En combinant ces deux résultats, on en déduit que g(1) − g(0) ě g (0), ce qui donne
l’inégalité désirée. 
Un analogue à la Proposition A.2 pour les fonctions fortement convexes :

Proposition A.3 (Forte convexité via gradient). Soient C ⊂ R N convexe, f : C → R


une fonction différentiable en tout point de C, et µ > 0. Les propriétés suivantes sont alors
équivalentes :
i) f est fortement convexe sur C, càd f ∈ Γµ (C ) ;
ii) (∀( x, y) ∈ C2 ) f (y) − f ( x ) − h∇ f ( x ), y − x i ě 2 k x − yk2 ;
µ

iii) (∀( x, y) ∈ C2 ) h∇ f (y) − ∇ f ( x ), y − x i ě µky − x k2 .

Démonstration. Soit µ > 0 et f = g + (µ/2)k · k2 . En particulier on a ∇ f ( x ) = ∇ g( x ) + µx


sur C.
i) ⇔ ii) On peut écrire :

f (y) − f ( x ) − h∇ f ( x ), y − x i
= g(y) − g( x ) − h∇ g( x ), y − x i + (µ/2)kyk2 − (µ/2)k x k2 − hµx, y − x i
= g(y) − g( x ) − h∇ g( x ), y − x i + (µ/2)ky − x k2 .
On conclut donc avec les Propositions III.30 et A.2.
i) ⇔ iii) On peut écrire :

h∇ f (y) − ∇ f ( x ), y − x i
= h∇ g(y) − ∇ g( x ), y − x i + µky − x k2 .
On conclut donc avec les Propositions III.30 et A.2. 
126 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Un résultat en quelque sorte  dual  de la Proposition A.3.

Proposition A.4 (Forte convexité via gradient II). Soit f ∈ Γµ (R N ) une fonction différentiable,
avec µ > 0. Alors les propriétés suivantes ont lieu :
1) (∀ x, y ∈ R N ) 1
2µ k∇ f ( y ) − ∇ f ( x )k
2 ě f (y) − f ( x ) − h∇ f ( x ), y − x i ;
2) (∀ x, y ∈ R N ) 1
µ k∇ f ( y ) − ∇ f ( x )k
2 ě h∇ f (y) − ∇ f ( x ), y − x i.

Démonstration. i) (voir [15, Theorem 2.1.10]) Soit x ∈ R N fixé, et soit φ(y) := f (y) −
h∇ f ( x ), yi. Puisque f ∈ Γµ (R N ) alors φ ∈ Γµ (R N ) aussi, comme somme d’un fonction
fortement convexe et d’une fonction convexe (car linéaire). On calcule ∇φ(y) = ∇ f (y) −
∇ f ( x ), et on en déduit que argminφ = { x }. On peut donc écrire d’après ii) que pour tout
y ∈ RN :
µ
φ( x ) = min φ(v) ě min φ(y) + h∇φ(y), v − yi + kv − yk2 .
v ∈R N v ∈R N 2
Or le terme de droite est un problème d’optimisation en v, fortement convexe, dont l’unique
solution v∗ vérifie la CNO du 1er ordre : ∇φ(y) + µ(v∗ − y) = 0. Autrement dit, v∗ =
y − µ1 ∇φ(y). On a donc

µ ∗
φ( x ) ě φ(y) + h∇φ(y), v∗ − yi + k v − y k2
2
1 1
= φ(y) − k∇φ(y)k2 + k∇φ(y)k2
µ 2µ
1
= φ(y) − k∇φ(y)k2

On a donc bien montré que
1
k∇φ(y)k2 ě φ(y) − φ( x ),

où φ(y) − φ( x ) = f (y) − f ( x ) − h∇ f ( x ), y − x i et ∇φ(y) = ∇ f (y) − ∇ f ( x ).


ii) Il suffit d’appliquer i), puis de nouveau i) en inversant les rôles de x et y, puis d’en faire
la somme. 

A.I.2 Caractérisation de la convexité via la Hessienne


Rappelons ici le Théorème III.19 qui caractérise la convexité avec la positivité de la Hes-
sienne :

Théorème A.5 (Convexité via Hessienne). Soit f : U ⊂ R N → R, deux fois différentiable sur
U, et C ⊂ U convexe et ouvert. Alors les propriétés suivantes sont équivalentes :
i) f est convexe sur C, càd f ∈ Γ0 (C ) ;
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 127

ii) (∀ x ∈ C ) ∇2 f ( x )  0.

Voici une preuve directe de ce résultat, qui ne passe pas par le cas univarié étudié dans
la Section III.I.3, mais utilise plutôt la monotonie du gradient :

Démonstration.
ii) ⇒ i) : Soit x ∈ C, et d ∈ R N quelconque ; il nous faut montrer que h∇2 f ( x )d, di ě 0.
D’après la Proposition I.78.iii), on a ∇2 f ( x ) = J (∇ f )( x ), donc :

h∇2 f ( x )d, di = h J (∇ f )( x )d, di = d T J (∇ f )( x )d.

D’autre part, J (∇ f )( x )d est la dérivée directionnelle de ∇ f en x dans la direction d, donc :

∇ f ( x + td) − ∇ f ( x ) hd, ∇ f ( x + td) − ∇ f ( x )i


d T J (∇ f )( x )d = d T lim = lim
t →0 t t →0 t
h( x + td) − x, ∇ f ( x + td) − ∇ f ( x )i
= lim ě0,
t →0 t2
la dernière inégalité provenant de la Proposition A.2.iii), et du fait que pour t suffisam-
ment petit, on a x + td ∈ C puisque C est ouvert.
i) ⇒ ii) : Soient x, y ∈ C fixés. Soit g : U → R définie par g(z) = h∇ f (z), y − x i. Elle est
différentiable comme f , et ∇ g(z) = ∇2 f (z)(y − x ). En utilisant le Théorème de Taylor-
Lagrange, on sait qu’il existe zα ∈] x, y[ tel que :

h∇ f (y) − ∇ f ( x ), y − x i = g(y) − g( x ) = h∇ g(zα ), y − x i = h∇2 f (zα )(y − x ), y − x i ě 0,

où α ∈]0, 1[, et la dernière inégalité vient de l’hypothèse, et du fait que zα ∈ C par
convexité. On conclut donc avec la Proposition A.2. 

A.I.3 Lipschitzianité et cocoercivité


Quelques caractérisations de CL1,1 (R N ) pour les fonctions convexes, qui ne font pas inter-
venir l’hypothèse de double différentiabilité :

Proposition A.6 (Lipschitzianité via le gradient). Soit f ∈ Γ0 (R N ) différentiable. Alors les


propriétés suivantes sont équivalentes :

i) ∇ f est L-Lipschitzien : (∀ x, y ∈ R N ) k∇ f (y) − ∇ f ( x )k ď Lky − x k.


ii) (∀ x, y ∈ R N ) h∇ f (y) − ∇ f ( x ), y − x i ď Lky − x k2 .
iii) (∀ x, y ∈ R N ) f (y) − f ( x ) − h∇ f ( x ), y − x i ď L2 ky − x k2 .
iv) (∀ x, y ∈ R N ) 1 2
2L k∇ f ( y ) − ∇ f ( x )k ď f ( y ) − f ( x ) − h∇ f ( x ), y − x i.
v) (∀ x, y ∈ R N ) 1 2
L k∇ f ( y ) − ∇ f ( x )k ď h∇ f ( y ) − ∇ f ( x ), y − x i.
128 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Remarque A.7 (Cocoercivité). La propriété v) est bien plus forte et précise que la simple
monotonie de ∇ f (voir Proposition A.2.iii)). Cette propriété s’appelle la cocoercivité de
∇ f . Plus précisément, on dit que ∇ f est L1 -cocoercive. L’équivalence entre  ∇ f est Lip-
schitzienne  et  ∇ f est cocoercive  est connue sous le nom du Théorème de Baillon-
Haddad [16, Theorem 3.13].

Remarque A.8 (Dualité). Si on compare la Proposition A.6 avec les Propositions A.3 et
A.4, on voit qu’il y a beaucoup de propriétés similaires, mais en fait opposées. Par exemples
les termes en ∇ f (y) − ∇ f ( x ) s’échangent avec des termes en ky − x k et µ s’échange avec
1,1
L . C’est en fait une conséquence d’un principe de dualité entre Γµ (R ) et C 1 (R ), qui
1 N N
µ
n’est pas au programme.

Démonstration. (Voir [16, Lemma 1.30] ou [15, Theorem 2.1.5])


i) ⇒ ii) : Il suffit d’utiliser l’inégalité de Cauchy-Schwarz, et i).
ii) ⇒ iii) : Soit x, y ∈ R N , et posons g(t) = f (zt ) où zt = (1 − t) x + ty. Alors g0 (t) =
h∇ f (zt ), y − x i, et :

f (y) − f ( x ) − h∇ f ( x ), y − x i = g(1) − g(0) − h∇ f ( x ), y − x i


Z 1
= g0 (t) dt − h∇ f ( x ), y − x i
0
Z 1
= h∇ f (zt ) − ∇ f ( x ), y − x i dt
0
Z 1
L
ď Ltky − x k2 = k y − x k2 .
0 2

iii) ⇒ iv) : Soit x, y ∈ R N , et posons g(y) = f (y) − h∇ f ( x ), yi. Puisque ∇ g(y) = ∇ f (y) −
∇ f ( x ), on en déduit que g ∈ CL1,1 (R N ). De plus, g est la somme d’une fonction convexe
et d’une forme linéaire, donc elle est convexe aussi. On voit que ∇ g( x ) = 0, donc x ∈
argmin g. On peut applique maintenant iii) à g, en les points y − L1 ∇ g(y) et y :

1 1 L 1
∇ g(y)) − g(y) − h∇ g(y), − ∇ g(y)i ď k − ∇ g(y)k2
g(y −
L L 2 L
1 1 1
⇔ g(y − ∇ g(y)) − g(y) + k∇ f (y) − ∇ f ( x )k2 ď k∇ f (y) − ∇ f ( x )k2
L L 2L
Puisque x ∈ argmin g, donc on obtient :
1 1
⇒ g( x ) − g(y) + k∇ f (y) − ∇ f ( x )k2 ď k∇ f (y) − ∇ f ( x )k2
L 2L
−1
⇔ f ( x ) − f (y) − h∇ f ( x ), x − yi ď k∇ f (y) − ∇ f ( x )k2 .
2L
iv) ⇒ v) : Il suffit d’utiliser iv) deux fois d’affilée en inversant les roles de x et y, et de faire
la somme.
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 129

v) ⇒ i) : Il suffit d’utiliser l’inégalité de Cauchy-Schwarz, et de diviser par k∇ f (y) −


∇ f ( x )k. 

Proposition A.9. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ) avec µ, L > 0. Alors L ě µ.

Démonstration. D’après les Propositions A.3.ii) et A.6.iii), on a

µ L
(∀ x, y ∈ R N ) ky − x k2 ď f (y) − f ( x ) − h∇ f ( x ), y − x i ď ky − x k2 . (A.3)
2 2

Proposition A.10. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ) avec µ = L. Alors il existe b ∈ R N , c ∈ R


tels que f ( x ) = 2 k x k2 + hb, x i + c.
µ

Démonstration. On reprend (A.3) où les inégalités deviennent ici des égalités, et on conclut
avec b = ∇ f (0) et c = f (0). 

Remarque A.11 (Γµ et CL1,1 combinés). Lorsque on a une fonction dans Γµ (R N ) ∩ CL1,1 (R N ),
on peut combiner leurs propriétés ! Par exemple en combinant Proposition A.6.v) et A.3.iii),
on obtient

µ 1
h∇ f (y) − ∇ f ( x ), y − x i ě ky − x k2 + k∇ f (y) − ∇ f ( x )k2 .
2 2L

Mais le fait est que l’on a ici en quelque sorte utilisé séparément la forte convexité et le
gradient Lipschitz. Lorsque les deux sont réunis, on peut obtenir des constantes un peu
meilleures (ce qui aura de l’importance par la suite).

Proposition A.12. Soit f ∈ Γµ (R N ) avec µ > 0, et soit L > µ. Alors les propriétés suivantes
sont équivalentes :

i) ∇ f est L-Lipschitzien.

ii) (∀ x, y ∈ R N ) x k2 + 1 2
µL
h∇ f (y) − ∇ f ( x ), y − x i ě µ+ L k y − µ+ L k∇ f ( y ) − ∇ f ( x )k .

Démonstration. (voir [15, Theorem 2.1.12]) Soit g( x ) = f ( x ) − 2 k x k2 . Puisque f ∈ Γµ (R N )


µ

alors g ∈ Γ0 (R N ) d’après la Proposition III.30. On peut également écrire que f ∈ CL1,1 (R N ) ⇔


g ∈ CL1,1
−µ (R ), ceci découlant de
N

µ
0 ď g(y) − g( x ) − h∇ g( x ), y − x i = f (y) − f ( x ) − h∇ f ( x ), y − x i − k y − x k2
2

et de la Proposition A.6. On considère maintenant deux cas :


130 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Cas µ = L : Dans ce cas on a i) ⇔ g ∈ C01,1 (R N ), ce qui est équivalent à dire que ∇ g est
constante. D’autre part, ii) est équivalente à :
1 √ 1 √ 1 1
h √ (∇ f (y) − ∇ f ( x )), µ(y − x )i ě k µ(y − x )k2 + k √ (∇ f (y) − ∇ f ( x ))k2
µ 2 2 µ
1 √ 1
⇔ 0 ě k µ(y − x ) − √ (∇ f (y) − ∇ f ( x ))k2
2 µ
√ 1
⇔ µ(y − x ) = √ (∇ f (y) − ∇ f ( x ))
µ
⇔ ∇ g ( y ) = ∇ g ( x ),
cette dernière propriété voulant dire que ∇ g est constante.
Cas L > µ : On utilise la Proposition A.6.v) pour écrire que g ∈ CL1,1
−µ (R ) est équivalent
N

à, pour tout x, y ∈ R N :


1
h∇ g(y) − ∇ g( x ), y − x i ě k∇ g(y) − ∇ g( x )k2
L−µ
1
⇔ h∇ f (y) − ∇ f ( x ), y − x i − µky − x k2 ě k∇ f (y) − ∇ f ( x ) − µ(y − x )k2
L−µ
2µ 1 µ2
⇔ (1 + )h∇ f (y) − ∇ f ( x ), y − x i ě k∇ f (y) − ∇ f ( x )k2 + (µ + )ky − x k2
L−µ L−µ L−µ
L+µ 1 µL
⇔ h∇ f (y) − ∇ f ( x ), y − x i ě k∇ f (y) − ∇ f ( x )k2 + k y − x k2 ,
L−µ L−µ L−µ
qui est équivalent à ii). 

A.II Convergence(s) de la méthode du gradient


A.II.1 Méthode du gradient : cas fortement convexe non C2
Ici on prouve le Théorème IV.37 sur la convergence linéaire de la méthode du gradient
pour une fonction fortement convexe, sans utiliser l’hypothèse que f est de classe C2 .
Démonstration du Théorème IV.37. (Voir [15, Theorem 2.1.15] ou [17, Theorem 3.1]) Soit x ∈
R N et x + = x − ρ∇ f ( x ). On utilise le fait que ∇ f ( x ∗ ) = 0 (voir Théorème II.9) pour
écrire :

k x + − x ∗ k2 = k x − x ∗ − ρ∇ f ( x )k2 = k x − x ∗ k2 + ρ2 k∇ f ( x )k2 − 2ρh x − x ∗ , ∇ f ( x )i.


Comme ρ ∈]0, 2/L[, on peut écrire ρ = 2α/(µ + L), où α ∈]0, 1 + µ/L[. On écrit alors :

k x + − x ∗ k2 = k x − x ∗ k2 + ρ2 k∇ f ( x )k2 − 2ραh x − x ∗ , ∇ f ( x )i − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i.


(A.4)
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 131

Puisque f est fortement convexe et à gradient Lipschitzien, on peut utiliser la caractérisation


de la Proposition A.12.ii) (on rappelle que ∇ f ( x ∗ ) = 0) :

µL 1
h∇ f ( x ), x − x ∗ i ě k x − x ∗ k2 + k∇ f ( x )k2 .
µ+L µ+L

En insérant cette inégalité dans (A.4) (sur le terme proportionnel à α > 0), et en utilisant
la définition de α, on obtient :
   
+ ∗ 2 ∗ 2 µL 2 2 1
k x − x k ď k x − x k 1 − α2ρ + k∇ f ( x )k ρ − α2ρ
µ+L µ+L

−2ρ(1 − α)h x − x , ∇ f ( x )i
= k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i.

On va maintenant majorer le dernier terme proportionnel à (1 − α), dont on ne connait


pas le signe. Puisque f est fortement convexe et à gradient Lipschitzien, on peut utiliser
les Propositions A.3.iii) et A.6.ii) pour écrire

(∀ x ∈ R N ) µk x − x ∗ k2 ď h∇ f ( x ), x − x ∗ i ď Lk x − x ∗ k2 . (A.5)

On considère maintenant deux cas :


Cas ρ ď 2/(µ + L) : Ici on a (1 − α) ě 0. On peut donc utiliser la première inégalité de
(A.5) pour écrire

k x + − x ∗ k2 ď k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i ď θ 2 k x − x ∗ k2 ,

où θ 2 = 1 − µLρ2 − 2ρ(1 − α)µ = (1 − ρµ)2 .


Cas ρ ě 2/(µ + L) : Ici on a (1 − α) ď 0. On peut donc utiliser la deuxième inégalité de
(A.5) pour écrire

k x + − x ∗ k2 ď k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i ď θ 2 k x − x ∗ k2 ,

où θ 2 = 1 − µLρ2 − 2ρ(1 − α) L = (1 − ρL)2 . 


On passe ensuite Au Théorème IV.42, qui porte sur la vitesse de convergence linéaire
de f ( xk ) − inf f . Nous proposons ici une preuve simplifiée : nous allons montrer que
f ( xk ) − inf f converge linéairement, mais nous n’allons pas vérifier que le taux de contrac-
tion est exactement le même θ que celui du Théorème IV.37.iii). On aura un θ un peu moins
bon.

Démonstration du Théorème IV.42 avec un θ quelconque. Reprenons la preuve de la Proposi-


tion IV.34, où l’on avait montré que :

Lρ2
 
+
f ( x ) − inf f ď f ( x ) − inf f − ρ − k∇ f ( x )k2 .
2
132 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Puisque f est fortement convexe, on peut utiliser la Proposition A.4.i) qui nous donne :
1 1
f ( x ) − inf f = f ( x ) − f ( x ∗ ) − h∇ f ( x ∗ ), x − x ∗ i ď k∇ f ( x ) − ∇ f ( x ∗ )k2 = k∇ f ( x )k2 .
2µ 2µ
En combinant ces deux dernières inégalités, et en utilisant le fait que ρ = α/L avec α ∈
]0, 2[, on obtient :
1  µ 
f ( x + ) − inf f ď f ( x ) − inf f − α(2 − α)k∇ f ( x )k2 ď ( f ( x ) − inf f ) 1 − α(2 − α) .
2L L
On conclut avec le fait que α(2 − α) ∈]0, 1[. 
Démonstration du Théorème IV.42 avec le bon θ. La preuve exacte de ce résultat est assez tech-
nique, et peut être trouvée dans [17, Theorem 3.3]. 

A.II.2 Méthode du gradient : cas convexe


Dans le cas fortement convexe on a essentiellement utilisé le fait que l’algorithme est θ-
Lipschitzien avec θ < 1. Cela nous permet de prouver facilement par récurrence que les
itérés convergent Lorsque f n’est que convexe, le problème est que l’algorithme devient
seulement 1-Lipschitzien :

Lemme A.13 (Non-expansivité de la méthode du gradient). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ).


Soit Aρ : R N → R N , x 7→ x − ρ∇ f ( x ). Alors, pour tout ρ ∈ [0, 2/L], Aρ est 1-Lipschitzienne :

(∀ x, y ∈ R N ) kAρ x − Aρ yk ď k x − yk.
Démonstration. Si on regarde la preuve du Théorème IV.37 (dans le Chapitre IV ou dans
la Section A.II.1), on voit qu’elle marche encore si µ = 0 (ce qui est notre cas ici) et si
ρ ∈ [0, 2/L]. On en déduit donc que pour tout ρ ∈ [0, 2/L], Aρ est θ-Lipschitzienne, avec

θ = max{|1 − ρ 0|; |1 − ρL|} = max{1; |1 − ρL|} = 1. 


Donc tout ce que l’on peut dire c’est que

k x k +1 − x ∗ k ď k x k − x ∗ k . (A.6)

Or le fait que cette suite soit décroissante ne veut pas dire qu’elle tend vers 0. Il va donc
falloir obtenir des inégalités plus précises pour améliorer (A.6).

A.II.2.i) Convergence des valeurs en O(1/k ) : pas court ρ ď 1/L

Lemme A.14 (Variations de la distance aux solutions). Soient f ∈ Γ0 (R N ) ∩ CL1,1 (R N ) et


x ∗ ∈ argmin f . Soient x ∈ R N quelconque et x+ := x − ρ∇ f ( x ), avec ρL ∈]0, 2]. Alors :

k x+ − x ∗ k2 − k x − x ∗ k2 ď ( Lρ − 1)k x+ − x k2 − 2ρ( f ( x+ ) − inf f ).


A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 133

Démonstration. On calcule :
1 1
k x + − x ∗ k2 − k x − x ∗ k2
2ρ 2ρ
1 1
= − k x − x+ k2 − h x − x+ , x+ − x ∗ i en développant les carrés
2ρ ρ
1
= − k x − x+ k2 − h∇ f ( x ), x+ − x ∗ i d’après la définition de x+ (A.7)

1
= − k x − x+ k2 + h∇ f ( x ), x ∗ − x i − h∇ f ( x ), x+ − x i en faisant ± x.

D’une part, on sait via la convexité de f et l’inégalité des hyperplans (Proposition III.13.ii))
que

h∇ f ( x ), x ∗ − x i ď f ( x ∗ ) − f ( x k )

D’autre part on sait via la Lipschitzianité de ∇ f et (IV.2) que

L
−h∇ f ( x ), x+ − x i ď k x + − x k2 + f ( x ) − f ( x + ).
2
En combinant tout cela on en déduit que
 
1 1 L 1
k x + − x ∗ k2 − k x − x ∗ k2 ď f ( x ∗ ) − f ( x + ) + − k x + − x k2 .
2ρ 2ρ 2 2ρ

Démonstration du Théorème IV.44 pour un pas court. On suppose ici que ρL ∈]0, 1]. L’idée de
la preuve va être de montrer qu’une certaine  énergie  décroit au cours des itérations. On
connait déjà deux quantités qui décroissent : f ( xk ) − inf f (cf. Proposition IV.34), ainsi que
k xk − x ∗ k2 (cf. Lemme A.14). Dans cette preuve on va considérer une certaine combinaison
de ces deux quantités :

1
Ek := k ( f ( xk ) − inf f ) + ck xk − x ∗ k2 , avec c= . (A.8)

Pour montrer que l’énergie Ek décroı̂t, nous allons montrer que sa variation est négative :

Ek+1 − Ek (A.9)
∗ 2 ∗ 2
= (k + 1)( f ( xk+1 ) − inf f ) − k( f ( xk ) − inf f ) + ck xk+1 − x k − ck xk − x k
 
= f ( xk+1 ) − inf f + k( f ( xk+1 − f ( xk )) + c k xk+1 − x ∗ k2 − k xk − x ∗ k2
 
∗ 2 ∗ 2
ď f ( xk+1 ) − inf f + c k xk+1 − x k − k xk − x k ,
134 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

où dans la dernière inégalité on utilise le fait que f ( xk+1 ) − f ( xk ) ď 0 (cf. Proposition
IV.34). Avec le résultat du Lemme A.14 on obtient

Ek+1 − Ek ď f ( xk+1 ) − inf f + c( Lρ − 1)k xk+1 − xk k2 − 2ρc( f ( xk+1 ) − inf f ).

Puisque ρL ď 1 et 2ρc = 1, on conclut que Ek est bien décroissante.


Cela nous permet alors d’écrire que

k ( f ( xk ) − inf f ) ď Ek ď E0 = ck x0 − x ∗ k2 .

En divisant cette inégalité par k, on obtient bien que

k x0 − x ∗ k2
(∀k ě 1) f ( xk ) − inf f ď .
2ρk

A.II.2.ii) Convergence des valeurs en O(1/k) : Pas long ρ ě 1/L

Lemme A.15 (Égalité du parallélogramme généralisée). Soient x, y ∈ R N et α ∈ R. Alors

k(1 − α) x + αyk2 = (1 − α)k x k2 + αkyk2 − α(1 − α)k x − yk2 .

Démonstration. On développe les carrés pour écrire :

k(1 − α) x + αyk2 = (1 − α)2 k x k2 + α2 kyk2 + 2α(1 − α)h x, yi.

Ensuite on utilise le fait que

2h x, yi = k x k2 + kyk2 − k x − yk2

ainsi que le fait que α2 + α(1 − α) = α et (1 − α)2 + (1 − α)α = (1 − α) pour conclure. 

Le résultat suivant montre que la méthode du gradient est un peu mieux que 1-Lipschitzienne.
C’est un résultat analogue au Lemme V.57 pour la projection.

Lemme A.16 (Non-expansivité de la méthode du gradient : avancé). Soient f ∈ Γ0 (R N ) ∩


CL1,1 (R N ) et x ∗ ∈ argmin f . Soit Aρ : x 7→ x − ρ∇ f ( x ), avec ρL ∈]0, 2]. Alors :

(∀ x, y ∈ R N ) kAρ x − Aρ yk2 ď k x − yk2 − γk( I − Aρ ) x − ( I − Aρ )yk2 , (A.10)

2−ρL
avec γ = ρL .
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 135

Démonstration. On a vu dans le Lemme A.13 que Aρ est 1-Lipschitzienne. On va par la


suite utiliser une décomposition astucieuse de Aρ (qui se vérifie immédiatement à la
main) :
ρL
Aρ = (1 − α) I + αT, où α = ∈]0, 1[ et T = A2/L .
2
L’idée est de voir que A2/L n’est que 1-Lipschitzienne, mais l’identité I est très  gentille ,
donc si Aρ est une combinaison convexe de A2/L et I, alors Aρ devrait être un peu mieux
que 1-Lipschitzienne. Cela nous permet d’écrire :

k Aρ x − Aρ y k 2
= k(1 − α)( x − y) + α( Tx − Ty)k car Aρ = (1 − α) I + αT
= (1 − α)k x − yk + αk Tx − Tyk − α(1 − α)k( I − T ) x − ( I − T )yk2 .
2 2
(Lemme A.15)

D’une part, on sait que T = A2/L est 1-Lipschitzienne (Lemme A.13), donc on a

(1 − α)k x − yk2 + αk Tx − Tyk2 ď (1 − α)k x − yk2 + αk x − yk2 = k x − yk2 .

D’autre part, nous avons par définition de T que I − T = α1 ( I − Aρ ), donc

(1 − α )
α(1 − α)k( I − T ) x − ( I − T )yk2 = k( I − Aρ ) x − ( I − Aρ )yk2 .
α
En combinant toutes ces inégalités on conclut que

1−α
k Aρ x − Aρ y k 2 ď k x − y k 2 − k( I − Aρ ) x − ( I − Aρ )yk2 .
α
1− α 2−ρL
où α = ρL . 

Démonstration du Théorème IV.44 pour un pas long. On suppose ici que ρL ∈ [1, 2[. Ici nous
allons considérer la même énergie qu’en (A.8), mais avec une constante différente :

ρL − 1
 
∗ 2 1
Ek := k ( f ( xk ) − inf f ) + ck xk − x k , avec c= 1+ > 0, (A.11)
2ρ γ

où γ > 0 est la constante apparaissant dans le Lemme A.16. Pour montrer que l’énergie
Ek décroı̂t, on commence comme pour le pas court et on obtient la même chose que (A.9) :
 
∗ 2 ∗ 2
Ek+1 − Ek ď f ( xk+1 ) − inf f + c k xk+1 − x k − k xk − x k . (A.12)

Le Lemme A.14 nous dit que

k xk+1 − x ∗ k2 − k xk − x ∗ k2 ď (ρL − 1)k xk+1 − xk k2 − 2ρ( f ( xk+1 ) − inf f ). (A.13)


136 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

On a aussi le Lemme A.16, que l’on peut utiliser avec x = xk et y = x ∗ , en exploitant le


fait que Aρ x ∗ = x ∗ − ρ∇ f ( x ∗ ) = x ∗ , ce qui nous donne :

k x k +1 − x ∗ k 2 − k x k − x ∗ k 2 ď − γ k x k +1 − x k k 2 . (A.14)
γ
Posons σ := γ+ρL −1 . C’est un simple exercice que de vérifier que, puisque ρL ∈ [1, 2[,
alors γ > 0 et σ ∈]0, 1]. On va donc multiplier (A.13) par σ, et (A.14) par (1 − σ), pour
obtenir

k x k +1 − x ∗ k 2 − k x k − x ∗ k 2 (A.15)
2 2
ď −σ2ρ( f ( xk+1 ) − inf f ) + σ(ρL − 1)k xk+1 − xk k − (1 − σ )γk xk+1 − xk k
= −σ2ρ( f ( xk+1 ) − inf f ) + (σ(ρL − 1) − (1 − σ)γ) k xk+1 − xk k2 .

On peut calculer que


γ ρL − 1
σ(ρL − 1) − (1 − σ )γ = (ρL − 1) − γ = 0,
γ + ρL − 1 γ + ρL − 1
d’où  
∗ 2 ∗ 2
c k x k +1 − x k − k x k − x k ď −cσ2ρ( f ( xk+1 ) − inf f ).
Or cσ2ρ = 1, donc si on combine cette inégalité avec (A.12), on en déduit que Ek est
décroissante. On peut alors conclure, comme pour le pas court :

c k x0 − x ∗ k2
(∀k ě 1) f ( xk ) − inf f ď ,
k
1+(ρL−1)2
 
1
où ici c = 2ρ 2−ρL . 

A.II.2.iii) Convergence des itérés


Lemme A.17 (d’Opial). Soit C ⊂ R N convexe fermé non vide. Soit ( xk )k∈N ⊂ R N une suite
telle que :
1) pour tout x ∗ ∈ C, la suite k xk − x ∗ k converge,
2) toute valeur d’adhérence de ( xk )k∈N appartient à C.
Alors xk converge vers un x ∗ ∈ C.

Démonstration. (Voir [16, Lemma 5.2]) D’après i), on sait que la suite xk est bornée. Donc il
existe une sous-suite convergente xnk → x∞ , avec x∞ ∈ C d’après ii). Puisque x∞ ∈ C on
peut utiliser i) pour dire que toute la suite k xn − x∞ k2 tend vers une limite, notons-là `. Si
c’est vrai pour toute la suite, ça l’est aussi pour notre sous-suite : k xnk − x∞ k2 → `. Or on
sait que k xnk − x∞ k2 → 0 ; donc ` = 0. D’où k xn − x∞ k2 → 0, et donc xn converge vers un
élément de C. 
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 137

Démonstration du Théorème IV.44 : convergence de xk . Notons que l’hypothèse du Théorème


IV.44 nous dit que argmin f est non vide. Par ailleurs, puisque f est convexe continue,
alors on sait que argmin f est un ensemble convexe fermé. On va donc pouvoir appliquer
le Lemme d’Opial A.17 à notre suite, avec C = argmin f . Pour conclure il nous faut vérifier
ses deux hypothèses.
Premièrement, soit x ∗ ∈ argmin f , et montrons que la suite k xk − x ∗ k converge. Avec
par exemple (A.14) on voit que cette suite est décroissante, donc elle converge bien. Deuxièmement,
supposons qu’il existe une sous-suite xkn qui converge vers un vecteur x ∗ . Alors on peut
utiliser le fait qu’on a déjà prouvé que f ( xk ) converge vers inf f . En particulier, la sous-
suite f ( xkn ) converge aussi vers inf f . Or f est continue, donc f ( xkn ) converge vers f ( x ∗ ).
On a donc montré que f ( x ∗ ) = inf f , ce qui veut bien dire que x ∗ ∈ argmin f . 

A.II.3 Méthode du gradient projeté : cas convexe


L’opérateur de la méthode du gradient projeté vaut A = projC ◦Aρ , où projC est l’opérateur
de projection sur C, et Aρ est l’opérateur correspondant à la méthode du gradient, que
l’on a bien étudié dans la section précédente. Sans forte convexité, on ne peut pas espérer
beaucoup plus que la 1-Lipschitzianité de A :

Lemme A.18 (Non-expansivité de la méthode du gradient projeté). Soit f ∈ Γ0 (R N ) ∩


CL1,1 (R N ). Soit A : R N → R N , x 7→ projC ( x − ρ∇ f ( x )). Alors, pour tout ρ ∈ [0, 2/L], A est
1-Lipschitzienne :
(∀ x, y ∈ R N ) kAx − Ayk ď k x − yk.

Démonstration. Il suffit d’utiliser le fait que A = projC ◦Aρ , où projC et Aρ sont
1-Lipschitziennes (Théorème V.58 et Lemme A.13). 

A.II.3.i) Convergence des valeurs en O(1/k ) : pas court ρ ď 1/L

Pour un pas court on peut obtenir la même estimation que pour la méthode du gradient :

Lemme A.19 (Gradient projeté : Variations de la distance aux solutions). Soient f ∈ Γ0 (R N ) ∩


CL1,1 (R N ), C ⊂ R N convexe fermé non vide, et x ∗ ∈ argminC f . Soient x ∈ R N quelconque et
x+ := projC ( x − ρ∇ f ( x )), avec ρL ∈]0, 2]. Alors :

k x+ − x ∗ k2 − k x − x ∗ k2 ď ( Lρ − 1)k x+ − x k2 − 2ρ( f ( x+ ) − inf f ). (A.16)

Démonstration. On va reprendre les mêmes arguments que pour la preuve du Lemme


A.14. On développe les carrés pour obtenir

1 1 1 1
k x + − x ∗ k2 − k x − x ∗ k2 = − k x − x + k2 − h x − x + , x + − x ∗ i.
2ρ 2ρ 2ρ ρ
138 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Maintenant il nous faut exprimer comment x et x+ sont reliés. Pour cela on revient à la
définition x+ := projC ( x − ρ∇ f ( x )), et on applique la caractérisation de la projection par
les angles (Proposition V.53) pour écrire

h x ∗ − x+ , ( x − ρ∇ f ( x )) − x+ i ď 0
⇔ h x ∗ − x+ , x − x+ i ď ρh x ∗ − x+ , ∇ f ( x )i
1
⇔ − h x − x+ , x+ − x ∗ i ď −h x+ − x ∗ , ∇ f ( x )i.
ρ

On a donc obtenu la même inégalité qu’en (A.7). On peut donc continuer de la même
façon que dans la preuve du Lemme A.14, et conclure. 

Démonstration du Théorème IV.44 pour un pas court. La preuve est exactement la même que
pour la méthode du gradient avec pas court (voir la Section A.II.2). La seule différence
est qu’il faudra utiliser les variations du Lemme A.19, et le fait que f ( xk ) est décroissante
(Proposition V.65). 

A.II.3.ii) Convergence des valeurs en O(1/k ) : pas long ρ ě 1/L

Lemme A.20 (Non-expansivité de la méthode du gradient projeté : avancé). Soient f ∈


Γ0 (R N ) ∩ CL1,1 (R N ), C ⊂ R N convexe fermé non vide, et x ∗ ∈ argminC f . Soit A : x 7→
2−ρL
projC ( x − ρ∇ f ( x )), avec ρL ∈]0, 2]. Alors, avec γ = 2 :

(∀ x, y ∈ R N ) kAx − Ayk2 ď k x − yk2 − γk( I − A) x − ( I − A)yk2 . (A.17)

Démonstration. (Adapté de [2, Proposition 4.44]) On écrit A = projC ◦Aρ où Aρ x =


x − ρ∇ f ( x ). On commence par utiliser successivement les résultats du Lemme V.57 pour
projC , et du Lemme A.16 pour Aρ , pour écrire

kAx − Ayk2
= k projC ◦Aρ x − projC ◦Aρ yk2
ď kAρ x − Aρ yk2 − k( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ yk2
2 − ρL
ď k x − y k2 − k( I − Aρ ) x − ( I − Aρ )yk2 − k( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ yk2
ρL

Il nous reste à étudier le terme négatif du membre de droite. Pour simplifier les notations,
on pose u = ( I − Aρ ) x − ( I − Aρ )y et v = ( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ y, de telle
manière que le terme qui nous intéresse est :

2 − ρL
βkuk2 + kvk2 , où β = > 0.
ρL
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 139

On va normaliser cette quantité en la divisant par 1 + β, afin d’avoir une combinaison


convexe, qui nous autorisera à utiliser l’égalité du parallélogramme :

β 1 1
k u k2 + kvk2 = (1 − t)kuk2 + tkvk2 avec t = ∈ [0, 1]
1+β 1+β 1+β
= k(1 − t)u + tvk2 + t(1 − t)ku − vk2 (Lemme A.15)
ě t(1 − t)ku − vk2
= t(1 − t)k( I − A) x − ( I − A)yk2 ,

où la dernière égalité vient directement de la définition de u et v, et de la simplification de


termes dans le calcul de u − v. On a donc prouvé que

kAx − Ayk2 ď k x − yk2 − (1 + β)t(1 − t)k( I − A) x − ( I − A)yk2 ,


2−ρL
et on conclut en calculant (1 + β)t(1 − t) = (1 − t) = 2 . 

Démonstration du Théorème V.67 pour un pas long. On suppose ici que ρL ∈ [1, 2[. La preuve
est exactement la même que pour la méthode du gradient avec pas long (voir la Section
A.II.2). La première différence est qu’on utilisera les Lemmes A.20 et A.19 au lieu des A.16
et A.14. En particulier la valeur de γ va changer, ce qui ne change rien à la preuve, mis à
part la valeur de la constante c, qui vaut ici 2(2−L ρL) . La deuxième différence est que pour
une solution x ∗ ∈ argminC f , on a besoin du fait que Ax ∗ = x ∗ . Ceci a déjà été vérifié dans
la Proposition V.64. 

A.II.4 Méthode du gradient optimal


Comme pour l’algorithme du gradient à pas fixe (Théorème IV.42, prouvé dans la Section
A.II.1) on va ici se contenter de prouver le résultat avec un θ sous-optimal.

Démonstration du Théorème IV.57 avec un θ quelconque. (Voir [14, Eq. (8.47), p.238]) Ici on note
ρk le pas optimal calculé à l’itération k. D’après le Lemme de Descente (IV.2), on sait que
pour tout ρ > 0 on a

L
f ( xk − ρ∇ f ( xk )) ď f ( xk ) + h∇ f ( xk ), −ρ∇ f ( xk )i + kρ∇ f ( xk )k2 .
2
Si on minimise le terme de gauche par rapport à ρ, on obtient par définition f ( xk+1 ). D’un
autre côté si on minimise le terme de droite par rapport à ρ, on voit que c’est un polynôme
du second degré en ρ. Il est alors facile de voir que le ρ optimal pour le membre de droite
est ρ = L1 , ce qui nous donne

1
f ( x k +1 ) ď f ( x k ) − k∇ f ( xk )k2 .
2L
140 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

D’autre part on sait d’après la Proposition A.4.i) que

1
f ( xk ) − inf f ď k∇ f ( xk )k2 .

Si on combine ces deux inégalités, on obtient que

1 µ
f ( xk+1 ) − inf f ď f ( xk ) − inf f − k∇ f ( xk )k2 ď (1 − )( f ( xk ) − inf f ).
2L L
µ
D’où le résultat avec θ = 1 − L . 
Démonstration du Théorème IV.57 avec le bon θ. Voir [6, Theorem 1.2]. 
Bibliographie

[1] G. A LLAIRE, Analyse Numérique et Optimisation : Une Introduction à La Modélisation


Mathématique et à La Simulation Numérique, Editions Ecole Polytechnique, 2005.

[2] H. H. B AUSCHKE AND P. L. C OMBETTES, Convex Analysis and Monotone Operator


Theory in Hilbert Spaces, Springer, 2nd edition ed., 2017.

[3] V. B ECK , J. M ALICK , AND G. P EYR É, Objectif Agrégation, H&K, 2004.

[4] D. P. B ERTSEKAS, Nonlinear Programming, Athena Scientific, 1995.

[5] P. G. C IARLET, Introduction à l’analyse numérique matricielle et à l’optimisation - 5ème


édition, Dunod, Paris, 2007.

[6] E. DE K LERK , F. G LINEUR , AND A. B. TAYLOR, On the worst-case complexity of the


gradient method with exact line search for smooth strongly convex functions, Optimization
Letters, 11 (2017), pp. 1185–1199.

[7] J.-B. H IRIART-U RRUTY, Optimisation et analyse convexe : Exercices et problèmes corrigés,
avec rappels de cours, EDP Sciences, Ulis, France, 2009.

[8] J.-B. H IRIART-U RRUTY AND C. L EMARECHAL, Convex Analysis and Minimization Al-
gorithms I : Part 1 : Fundamentals, Springer Science & Business Media, 1996.

[9] W. K ARUSH, Minima of functions of several variables with inequalities as side constraints,
M. Sc. Dissertation. Dept. of Mathematics, Univ. of Chicago, (1939).

[10] T. H. K JELDSEN, A contextualized historical analysis of the Kuhn–Tucker theorem in non-


linear programming : The impact of World War II, Historia mathematica, 27 (2000),
pp. 331–361.

[11] N. K OLKIN , J. S ALAVON , AND G. S HAKHNAROVICH, Style transfer by relaxed optimal


transport and self-similarity, in Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition, 2019, pp. 10051–10060.

[12] H. W. K UHN AND A. W. T UCKER, Nonlinear Programming, in Proceedings of the Se-


cond Berkeley Symposium on Mathematical Statistics and Probability, The Regents
of the University of California, 1951.

141
142 BIBLIOGRAPHIE

[13] J.-L. L AGRANGE, Manière plus simple et plus générale de faire usage de la formule de
l’équilibre donnée dans la section deuxième, in Mécanique Analytique, vol. 1, 1788,
pp. 77–112.

[14] D. G. L UENBERGER AND Y. Y E, Linear and Nonlinear Programming, vol. 2, Springer,


1984.

[15] Y. N ESTEROV, Introductory Lectures on Convex Optimization, vol. 87, Springer Science
& Business Media, 2004.

[16] J. P EYPOUQUET, Convex Optimization in Normed Spaces, SpringerBriefs in Optimiza-


tion, Springer International Publishing, Cham, 2015.

[17] A. B. TAYLOR , J. M. H ENDRICKX , AND F. G LINEUR, Exact Worst-Case Convergence


Rates of the Proximal Gradient Method for Composite Convex Minimization, Journal of
Optimization Theory and Applications, 178 (2018), pp. 455–476.

Vous aimerez peut-être aussi