0% ont trouvé ce document utile (0 vote)

66 vues142 pages

Poly Cours

Ce document présente un cours d'optimisation mathématique. Il contient des éléments d'algèbre linéaire et de calcul différentiel en introduction, puis aborde l'existence de minimiseurs, l'optimisation convexe, et les algorithmes de minimisation sans contrainte.

Transféré par

rambelo.romaric

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

66 vues142 pages

Poly Cours

Transféré par

rambelo.romaric

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L3 Mathématiques Fondamentales et Appliquées - Mathématiques et Informatique 2021-2022

Optimisation

Guillaume Garrigos

Contact: [email protected] Mis à jour le 15 avril 2022

2
Guide de lecture

Prérequis : Notions d’Algèbre Linéaire et de Calcul Différentiel. Les notions dont nous
aurons besoin pour ce cours sont réunies dans le Chapitre I, qui sert d’introduction à ce
cours. En particulier, il est nécessaire d’avoir une bonne compréhension de ce que sont les
matrices (semi-)définies positives, et le gradient et la hessienne d’une fonction à valeurs
réelles.

Hors-piste : Les sections dont le titre se termine par une astérisque ∗ sont plus avancées.
Elles sont donc, par défaut, hors programme, à moins que le temps nous permette de les
traiter en cours. Elles permettent dans tout les cas d’apporter des informations complémentaires,
qui je l’espère satisferont les plus curieuses et curieux. C’est le cas des Annexes, qui
contiennent les preuves de résultats qui ont été admis pendant le cours, ainsi que des
développements un peu plus avancés.

3
4
Références

Ces notes de cours ont été rédigées entre 2020-2021, sur la base d’un polycopié d’Olivier
Bokanowski, ajourné par Matthieu Bonnivard. Au cas où le contenu de ce polycopié ne
vous suffise pas, voici quelques références qui vous permettront d’aller plus loin.

• Optimisation et analyse convexe : Exercices et problèmes corrigés, avec rappels de cours par
Jean-Baptiste Hiriart-Urruty [7]. L’auteur est un très bon pédagogue et agréable à lire.
Comme le suggère le titre, son livre contient de nombreux exercices corrigés. Attention
toutefois, son contenu est de difficulté variable, avec des chapitres qui dépassent le
cadre de ce cours. Focalisez-vous sur les 3 premiers chapitres (sauf III.2). Je ne peux que
vous inviter à lire également la section historique en fin du livre, riche en anecdotes.
• Objectif Agrégation, par Vincent Beck, Jérôme Malick et Gabriel Peyré [3]. Voici également
un livre que je trouve très bien écrit, certainement un de mes préférés. C’est un livre
généraliste (qui couvre analyse et algèbre), mais son premier chapitre donne une vi-
sion d’ensemble sur le calcul différentiel et ses applications qui je pense vaut le coup
d’œil.
• Nonlinear Programming, par Dimitri P. Bertsekas [4]. L’auteur est bon pédagogue, et ac-
compagne ses explications par des dessins et schémas très utiles à la compréhension.
Les chapitres 1.1-4 portent sur le contenu des chapitres II et IV. Le chapitre 3, en parti-
culier la partie 3.3, développe en détail le contenu du chapitre V.
• Introduction à l’analyse numérique matricielle et à l’optimisation, par Phillipe Ciarlet [5].
Un classique, mais qui a un peu vieilli. Le chapitre 1 vous fournira de bons rappels en
Algèbre Linéaire. Les chapitres 7.1-4 et 8.1-4 portent sur le contenu du cours, le reste
dépasse le cadre du cours.
• Analyse numérique et optimisation : Une introduction à la modélisation mathématique et à
la simulation numérique, par Grégoire Allaire [1]. Ce livre se focalise sur la résolution
des Équations aux Dérivées Partielles, et ses chapitres 9-10 fournissent des exemples
intéressants d’application des résultats de ce cours aux EDPs. Attention cependant,
l’auteur travaille dans le cadre d’espaces de Hilbert, et sa présentation des résultats
diffère du contenu de ce cours et parfois dépasse son cadre.

5
6
Table des matières

I Éléments d’Algèbre Linéaire et de Calcul Différentiel 9

I.I Rappels et compléments d’algèbre linéaire . . . . . . . . . . . . . . . . . . . 10
I.I.1 La structure euclidienne de R N . . . . . . . . . . . . . . . . . . . . . . 10
I.I.2 Spectre d’une matrice carrée . . . . . . . . . . . . . . . . . . . . . . . 12
I.I.3 L’algèbre normée M M,N (R) . . . . . . . . . . . . . . . . . . . . . . . 14
I.I.4 Matrices symétriques et antisymétriques . . . . . . . . . . . . . . . . 15
I.I.5 Matrices semi-définies positives et définies positives . . . . . . . . . 17
I.II Rappels et compléments de calcul différentiel . . . . . . . . . . . . . . . . . . 23
I.II.1 Différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
I.II.2 Différentielle seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
I.II.3 Fonctions quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 27

II Existence de minimiseurs et conditions d’optimalité 29

II.I Conditions d’optimalité et Principe de Fermat . . . . . . . . . . . . . . . . . 29
II.I.1 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II.I.2 Conditions d’Optimalité du 1er ordre . . . . . . . . . . . . . . . . . . 32
II.I.3 Conditions d’Optimalité du 2e ordre . . . . . . . . . . . . . . . . . . . 33
II.II Coercivité et existence de minimiseurs . . . . . . . . . . . . . . . . . . . . . . 36
II.II.1 Coercivité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
II.II.2 Existence de minimiseurs . . . . . . . . . . . . . . . . . . . . . . . . . 38
II.III Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

III Optimisation convexe 43

III.I Convexité et globalité des minimiseurs . . . . . . . . . . . . . . . . . . . . . . 43
III.I.1 Ensemble convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
III.I.2 Fonction convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III.I.3 Caractérisation de la convexité pour les fonctions univariées . . . . . 46
III.I.4 Caractérisation de la convexité pour les fonctions multivariées . . . 48
III.I.5 Convexité et minimiseurs . . . . . . . . . . . . . . . . . . . . . . . . . 51
III.II Forte convexité : existence et unicité du minimiseur . . . . . . . . . . . . . . 52
III.II.1 Fonction fortement convexe . . . . . . . . . . . . . . . . . . . . . . . . 52
III.II.2 Caracterisation de la forte convexité . . . . . . . . . . . . . . . . . . . 53

7
8 TABLE DES MATIÈRES

III.II.3 Forte convexité et minimiseurs . . . . . . . . . . . . . . . . . . . . . . 54

III.III Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

IV Algorithmes de minimisation sans contrainte 57

IV.I Méthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.I.1 Algorithmes itératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
IV.I.2 Directions de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
IV.I.3 Méthodes du gradient et de Newton . . . . . . . . . . . . . . . . . . . 61
IV.II Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
IV.II.1 Fonctions à gradient Lipschitzien . . . . . . . . . . . . . . . . . . . . . 64
IV.II.2 Conditionnement d’une fonction . . . . . . . . . . . . . . . . . . . . . 67
IV.III Méthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
IV.III.1 La méthode du gradient à pas fixe . . . . . . . . . . . . . . . . . . . . 69
IV.III.2 Méthode du gradient à pas optimal . . . . . . . . . . . . . . . . . . . 75
IV.IVRécapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

V Optimisation sous contraintes 81

V.I Introduction : Problèmes classiques . . . . . . . . . . . . . . . . . . . . . . . . 81
V.I.1 Polyèdres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.I.2 Optimisation Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
V.I.3 Optimisation Convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
V.II Théorème(s) de Lagrange-KKT . . . . . . . . . . . . . . . . . . . . . . . . . . 90
V.II.1 Contrainte d’inégalité simple et multiplicateur . . . . . . . . . . . . . 90
V.II.2 Condition d’Optimalité de KKT du 1er ordre . . . . . . . . . . . . . . 94
V.II.3 Condition d’Optimalité de KKT du 2e ordre . . . . . . . . . . . . . . 103
V.III Algorithmes pour l’optimisation sous contraintes . . . . . . . . . . . . . . . 107
V.III.1 Projection sur un convexe fermé . . . . . . . . . . . . . . . . . . . . . 107
V.III.2 Propriétés avancées de la projection . . . . . . . . . . . . . . . . . . . 112
V.III.3 Algorithme du gradient projeté . . . . . . . . . . . . . . . . . . . . . . 113
V.III.4 Algorithme de projection alternées * . . . . . . . . . . . . . . . . . . . 117
V.III.5 Pour aller plus loin * . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
V.IV Récapitulatif du Chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

A Annexe : Convexité(s) et Convergence * 123

Chapitre I

Éléments d’Algèbre Linéaire et de Calcul

Différentiel

L’optimisation est une discipline qui emprunte beaucoup de notions à l’algèbre linéaire et
au calcul différentiel. Voici donc quelques rappels concernant les notions dont vous aurez
besoin dans ce cours. Les résultats qui suivent sont admis, bien que pour certains nous
reverrons leurs preuves en TD. J’en profite également pour tordre le cou à certaines idées
préconçues.

Comment lire ce chapitre ? Ceci est essentiellement un chapitre de rappels, bien qu’il
puisse contenir des choses que vous n’avez pas vues, ou simplement oubliées. Je vous
conseille donc d’en faire une première lecture en diagonale, afin de déterminer si ce qui
s’y trouve vous semble familier ou non ; puis, dans un deuxième temps, de travailler les
parties qui vous semblent les plus obscures. Vous pourrez par exemple vous tourner vers
les exercices qui sont proposés, que vous trouverez également dans la feuille de TD. Ils
ne seront pas tous traités en TD, donc n’hésitez pas à en piocher quelques-uns par vous-
mêmes.

Notations.

• N, M désigneront toujours des entiers supérieurs ou égaux à 1.

• L( E; F ) désigne l’espace des applications linéaires entre les espaces vectoriels E et F.
• B( E, F; G ) désigne l’espace des applications bilinéaires entre les espaces vectoriels E ×
F et G.
• R+ (resp. R− ) est une notation pour [0, +∞[ (resp. ] − ∞, 0]).

9
10 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

I.I Rappels et compléments d’algèbre linéaire

Dans ce cours, on note M M,N (R) l’espace vectoriel des matrices à M lignes et N colonnes.
Si M = N on écrira simplement M N (R). La transposée d’une matrice A ∈ M M,N (R) se
notera A> , ou parfois A∗ (il subsiste encore quelques doublons qu’il faut supprimer). Par
défaut, les vecteurs de R N exprimés dans la base canonique seront considérés comme des
éléments de M N,1 (R), c’est-à-dire des vecteurs colonne .

I.I.1 La structure euclidienne de R N

I.I.1.i) Définitions de base
Le produit scalaire euclidien dans R N , noté h·, ·i : R N × R N → R, est défini par :
N
(∀ x ∈ R N )(∀y ∈ R N ) h x, yi := ∑ xi yi .
i =1

Si on regarde les vecteurs de R N comme des vecteurs colonne, on peut également écrire le
produit scalaire comme un produit matriciel entre une ligne et une colonne : h x, yi = x > y.
La norme euclidienne de R N , notée k · k : R N → R+ , est définie par :
v
q uN
(∀ x ∈ R ) k x k := h x, x i = t ∑ xi2 .
u
N
i =1

La distance euclidienne de R N , notée d(·, ·) : R N × R N → R+ , est définie par :

v
uN
(∀ x ∈ R N )(∀y ∈ R N ) d( x, y) := k x − yk = t ∑ ( xi − yi )2 .
u

i =1

Voici quelques propriétés utiles pour faire des calculs incluant des produits scalaires
et des normes :

Proposition I.1.
i) (Identité remarquable 1) Pour tous x, y ∈ R N , k x + yk2 = k x k2 + kyk2 + 2h x, yi.
ii) (Identité remarquable 2) Pour tous x, y ∈ R N , k x k2 − kyk2 = h x + y, x − yi.
iii) (Inégalité de Cauchy-Schwarz) Pour tous x, y ∈ R N , −k x kkyk ď h x, yi ď k x kkyk.
iv) (Règle de l’adjoint) Pour toute matrice A ∈ M M,N (R), x ∈ R N , y ∈ R M , h Ax, yi =
h x, A> yi.

Remarque I.2. Cette quatrième propriété est souvent méconnue/oubliée par les étudiant(e)s.
Elle est pourtant essentielle pour tout les calculs impliquant matrice et produit scalaire.
On la retrouvera régulièrement au long de ce cours. Elle permet par exemple d’écrire des
choses comme k Ax k2 = h A> Ax, x i.
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 11

I.I.1.ii) Orthogonalité
Définition I.3. On dira que deux vecteurs x et y de R N sont ORTHOGONAUX lorsque
h x, yi = 0.

Remarque I.4. C’est une notion que vous avez rencontré à de multiples reprises, par
exemple les bases orthogonales (bases dont les vecteurs sont tous orthogonaux les uns
avec les autres).

Définition I.5. Soit F ⊂ R N un sous-espace vectoriel. On dit que x ∈ R N est orthogonal à

F s’il est orthogonal avec tous les vecteurs de F. On définit l’ORTHOGONAL de F comme
étant l’ensemble de tous les vecteurs orthogonaux à F :

F ⊥ := { x ∗ ∈ R N | (∀ x ∈ F ) h x ∗ , x i = 0}.

Proposition I.6.
i) F ⊥ est un sous-espace vectoriel de R N .
ii) F et F ⊥ sont supplémentaires. En particulier, dim F + dim F ⊥ = N.
iii) ( F ⊥ )⊥ = F.

Un résultat très utile :

Proposition I.7. Soit A ∈ M N (R). Alors Ker( A)⊥ = Im( A> ) et Im( A)⊥ = Ker( A> ).

I.I.1.iii) Topologie euclidienne dans R N .

Quelques définitions :

Définition I.8. Soient x ∈ R N et r ∈]0, +∞[. On définit

• La BOULE OUVERTE centrée en x, de rayon r, par

B( x, r ) := {y ∈ R N | d( x, y) < r }.

• La BOULE FERM ÉE centrée en x, de rayon r, par

B( x, r ) := {y ∈ R N | d( x, y) ď r }.

Définition I.9.
• On dit qu’un ensemble U ⊂ R N est OUVERT si

(∀ x ∈ U )(∃r > 0) B( x, r ) ⊂ U.

• On dit qu’un ensemble F ⊂ R N est FERM É si son complémentaire R N \ F est ouvert.

12 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

• Étant donné un ensemble C ⊂ R N , on définit son INT ÉRIEUR , que l’on note int C,
comme étant l’ensemble

int C := { x ∈ C | (∃r > 0) B( x, r ) ⊂ C }.

Remarque I.10. Par définition, l’intérieur d’un ensemble est le plus petit ouvert inclus
dans cet ensemble. Ces définitions impliquent également que la boule ouverte est ouverte,
et que la boule fermée est fermée (heureusement !).

I.I.2 Spectre d’une matrice carrée

Définition I.11. On dit que λ ∈ R est une VALEUR PROPRE (réelle) de A ∈ M N (R) s’il
existe un vecteur non nul x ∈ R N tel que Ax = λx. Autrement dit, si A − λI n’est pas
inversible dans M N (R). On note specR ( A) l’ensemble des valeurs propres de A.

Proposition I.12. Les valeurs propres de A ∈ M N (R) sont les racines réelles du polynôme
caractéristique X 7→ det( XIN − A).

Remarque I.13. Une matrice A ∈ M N (R) peut ne posséder aucune valeur propre. Par
exemple la matrice

0 −1
1 0

dont le polynôme caractéristique est X 2 + 1.

Définition I.14. On dit que λ ∈ C est une VALEUR SPECTRALE (ou valeur propre com-
plexe) de A ∈ M N (R) s’il existe un vecteur non nul x ∈ C N tel que Ax = λx. Autrement
dit, si A − λI n’est pas inversible dans M N (C). Le SPECTRE de A, noté spec( A), est l’en-
semble des valeurs spectrales de A.

Proposition I.15. Les valeurs spectrales de A ∈ M N (R) sont les racines complexes du polynôme
caractéristique det( XIN − A).

Corollaire I.16. Pour A ∈ M N (R), specR ( A) = spec( A) ∩ R.

Remarque I.17.

• Dans certains cas, toutes les valeurs spectrales sont réelles : spec( A) = specR ( A). On
va par exemple voir que c’est le cas pour les matrices symétriques.
• Le spectre n’est jamais vide. C’est une conséquence du fait que tout polynôme réel
admet au moins une racine dans C.
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 13

Proposition I.18. Si A ∈ M N (R) est triangulaire, alors

spec( A) = specR ( A) = { A11 , · · · , A NN }.

Remarque I.19. Pour les matrices triangulaires, et en particulier pour les matrices dia-
gonales, les valeurs propres se situent donc sur la diagonale. C’est très pratique
!
Mais
0 −1
c’est malheureusement faux en règle générale. Par exemple, le spectre de est
1 0
{−i, +i }, qui ne contient pas {0}.

Voici un résultat classique sur les valeurs spectrales d’une matrice :

Proposition I.20. Soit A ∈ M N (R), et soient λ1 , · · · , λ N les valeurs spectrales de A, comptées

avec leur multiplicité algébrique. Alors

i) tr( A) = ∑iN=1 λi ,
ii) det( A) = ∏iN=1 λi .

Remarque I.21. Il est important de prendre en compte la multiplicité algébrique ici !

Par exemple, considérons l’exemple très simple de la matrice 2I3 :
 
2 0 0
A = 0 2 0 .
0 0 2

Il est clair que spec( A) = {2} (et non pas (2, 2, 2) : on parle d’ensemble, pas de uplet !),
c’est à dire qu’il y a une unique valeur spectrale 2. Pour autant on voit bien que tr( A) 6= 2
et det( A) 6= 2. Pour que ce résultat marche, il nous faut prendre en compte la multipli-
cité algébrique de 2. Cette multiplicité est exactement la puissance apparaissant dans le
polynôme caractéristique de A, qui est ici ( X − 2)3 .

Définition I.22. Le RAYON SPECTRAL d’une matrice A ∈ M N (R), noté ρ( A), est défini
par
ρ( A) := max{|λ| | λ ∈ spec( A)}.

Remarque I.23. Un contre-sens classique est de penser que le rayon spectral est la plus
grande valeur propre . Ceci est faux, pour de nombreuses raisons :

• Les valeurs propres peuvent ne pas exister. Le rayon spectral porte sur les valeurs
spectrales (ou les valeurs propres complexes).
• On ne peut pas parler de plus grande valeur spectrale non plus, car C n’est pas
muni d’une relation d’ordre total, contrairement à R ! On ne peut
√ pas comparer 2i et
1 + i par exemple. Par contre on peut comparer leur module 2 et 2.
14 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

• Même lorsque le spectre est réel, le rayon spectral ne maximise pas les valeurs propres
mais leur valeur absolue. Par exemple, pour la matrice

1 0
A=
0 −2

la plus grande valeur propre est 1 (puisque 1 > −2), mais ρ( A) = 2. Cela peut paraitre
un détail mais cela a son importance !

I.I.3 L’algèbre normée M M,N (R)

Définition I.24. La NORME D ’ OP ÉRATEUR d’une matrice A ∈ M M,N (R) (on parle aussi
de norme subordonnée euclidienne) est définie par :

k Ax k
A := sup .
x 6 =0 kxk

Remarque I.25 (NormeS matricielleS). Il existe de nombreuses façons de munir M M,N (R)
d’une norme. Ceux parmi vous ayant suivi le cours d’Analyse Numérique Matricielle en
auront vu une palanquée (les normes d’opérateur ` p /`q , la norme de Froebenius) et il en
existe bien d’autres (citons la très utile norme nucléaire), les plus curieux pourront consul-
ter l’article Wikipédia sur le sujet1 . Néanmoins, dans ce cours nous ferons seulement appel
à la norme d’opérateur subordonnée à la norme euclidienne · mentionnée ci-dessus.

Cette norme d’opérateur · vérifie deux inégalités très importantes. La première est
une conséquence directe de la définition. La seconde est une propriété de sous-multiplicativité,
qui fait de · ce que l’on appelle une norme d’algèbre.

Proposition I.26.

i) · est une norme sur M M,N (R).

ii) Pour tout A ∈ M M,N (R), x ∈ R N , k Ax k ď Ak x k.
iii) Pour tout A ∈ M M,N (R), B ∈ M N,P (R), AB ď A B.

Exercice I.27. Soit A ∈ M N (R) telle que A < 1. Montrer que Ak tend vers 0 (la matrice
nulle) lorsque k → +∞.

En pratique, la Définition I.24 n’est pas très sympathique à manipuler si on souhaite

calculer A. Heureusement, on dispose d’un résultat permettant de ramener le calcul de
cette norme à un calcul de valeurs propres :
1 EnVF https://fr.wikipedia.org/wiki/Norme_matricielle ou en VA (plus complète) https://en.
wikipedia.org/wiki/Matrix_norm
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 15

Proposition I.28. Soit A ∈ M M,N (R). Alors :

q
A = ρ ( A > A ).

I.I.4 Matrices symétriques et antisymétriques

Définition I.29. Soit A ∈ M N (R) une matrice carrée. On dit que
• A est SYM ÉTRIQUE, si A> = A.
• A est ANTISYM ÉTRIQUE, si A T = − A.

Exercice I.30. Pour toute matrice A ∈ M M,N (R), montrer que les matrices A> A ∈ M N (R)
et AA> ∈ M M (R) sont symétriques.

Exercice I.31. Soit A ∈ M N (R) une matrice antisymétrique. Montrer que, pour tout x ∈
R N , h Ax, x i = 0.

Exercice I.32. Soit A ∈ M N (R) quelconque. Montrer que A + A> est symétrique, et que
A − A> est antisymétrique.

Proposition I.33. Toute matrice A ∈ M N (R) peut se décomposer comme la somme d’une ma-
trice symétrique et d’une matrice antisymétrique. En effet :
A + A> A − AT
(∀ A ∈ M N (R)) A= + .
2 }
| {z 2 }
| {z
symétrique antisymétrique
>
Remarque I.34. On peut en fait même montrer que la matrice symétrique A+2A est la
projection orthogonale de A sur le sous-espace vectoriel des matrices symétriques.

Théorème I.35 (Théorème spectral). Soit A ∈ M N (R) une matrice symétrique. Alors il existe
• une matrice diagonale réelle D ∈ M N (R)
• une matrice inversible U ∈ M N (R) telle que U −1 = U T (une matrice orthogonale, donc)
telles que A = U > DU.

En particulier, toute matrice symétrique de M N (R) est diagonalisable dans R, et admet

N valeurs propres réelles (en comptant les éventuelles multiplicités). Ce qu’il y a d’avanta-
geux avec les matrices symétriques, c’est que de nombreuses propriétés/définitions/quantités
associées aux matrices en général peuvent se réexprimer simplement en fonctions des va-
leurs propres. Et comme les valeurs propres sont calculables2 , c’est très utile en pratique.
Par exemple :
2 Facileà la main pour N = 2, faisable à la main pour N = 3, pour le reste on laisse un programme
numérique s’en charger (approximativement).
16 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.36. Soit A ∈ M N (R) une matrice symétrique. Alors sa norme d’opérateur est
égale au rayon spectral :
A = ρ ( A ).

Remarque I.37. La norme d’opérateur est égale au rayon spectral est faux en général,
puisque cela s’applique seulement aux matrices symétriques. Pour une matrice générale,
c’est la Proposition I.28 qui s’applique. Pour s’en rendre compte, considérons par exemple

0 1 > 1 0
A= telle que A A = .
0 0 0 0

On voit que spec( A> A) = {1, 0}, donc on déduit de la Proposition I.28 que A = 1.
Pour autant, spec( A) = {0} (immédiat puisque A est triangulaire avec des zéros sur la
diagonale) donc ρ( A) = 0. Ici, la norme d’opérateur est bien différente du rayon spectral.

Puisque les matrices symétriques ont des valeurs propres réelles, on introduit deux
notations qui nous seront utiles par la suite :

Définition I.38. Soit A ∈ M N (R) une matrice symétrique. On note

• λmin ( A) ∈ R la plus petite valeur propre de A,
• λmax ( A) ∈ R la plus grande valeur propre de A.

Proposition I.39. Soit A ∈ M N (R) une matrice symétrique. Alors

(∀ x ∈ R N ) λmin ( A)k x k2 ď h Ax, x i ď λmax ( A)k x k2 .
Remarque I.40. Quelques commentaires sur l’utilité de ces deux inégalités :
• Si on veut borner supérieurement la quantité h Ax, x i, on peut utiliser l’inégalité de
Cauchy-Schwarz puis la définition de norme d’opérateur pour écrire :
h Ax, x i ď k Ax kk x k ď Ak x k2 .
Or on a toujours λmax ( A) ď A donc le résultat de la proposition est plus précis en
général.
• Cette borne inférieure est la seule inégalité classique dont on dispose pour borner
inférieurement des quantités faisant intervenir une matrice.

Remarque I.41 (Inégalité de l’ellipse). Lorsque la matrice symétrique A est également à

valeurs propres positives, on peut visualiser cette inégalité comme le fait de chercher les
et circonscrit à une ellipse. Considérons par exemple dans R la matrice
cercles 2
inscrit
1 0
A= , telle que λmin ( A) = 1 et λmax ( A) = 4. Considérons les fonctions de R2 → R
0 4
suivantes
f circ : ( x1 , x2 ) 7→ x12 + x22 , f ell : ( x1 , x2 ) 7→ x12 + 4x22 , f insc : ( x1 , x2 ) 7→ 4x12 + 4x22 .
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 17

La Proposition I.39 ne dit rien d’autre que le fait que f circ ( x1 , x2 ) ď f ell ( x1 , x2 ) ď f insc ( x1 , x2 ).
L’ordre entre ces fonctions peut se voir clairement lorsque on trace leur graphe (cf Figure
I.1).

1 0
F IGURE I.1 – Inégalité de la Proposition I.39 pour A = .
0 4

Attention toutefois à bien garder en tête que la Proposition I.39 est encore vraie lorsque
λmin ( A) < 0 ! Dans ce cas, cette histoire d’ellipses ne tient plus puisque la fonction qua-
dratique associée à A est dégénérée, et ses courbes de niveaux ne sont plus des ellipses
mais des hyperboles (voir Figure I.2).

I.I.5 Matrices semi-définies positives et définies positives

I.I.5.i) La théorie

Définition I.42. Soit A ∈ M N (R) une matrice. On dit que :

• A est SEMI - D ÉFINIE POSITIVE, et on note A 0, si

(∀ x ∈ R N ) h Ax, x i ě 0.

• A est D ÉFINIE POSITIVE, et on note A 0, si

(∀ x ∈ R N \ {0}) h Ax, x i > 0.

18 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

−1 0
F IGURE I.2 – Inégalité de la Proposition I.39 pour A = .
0 4

Remarque I.43 (Matrice semi-définie positive vs. coefficients positifs). La notion de ma-
trice semi-définie positive est parfois confondue avec la notion de matrice-dont-les-
coefficients-sont-positifs , or ces deux notions n’ont rien en commun. Par exemple, la
matrice
0 −1
(I.1)
1 0
possède un coefficient négatif, néanmoins elle est bien semi-définie positive puisque

0 −1 x x −y x
(∀( x, y) ∈ R )
2
h , i=h , i = −yx + xy = 0 ě 0.
1 0 y y x y

D’un autre côté, la matrice

1 2
2 1
est clairement à coefficient positifs, néanmoins on peut montrer qu’elle n’est pas une ma-
trice semi-définie positive. (On reverra cet exemple plus tard)

Remarque I.44 (Matrice semi-définie positive et valeurs propres). Une autre confusion
fréquente est la suivante :

Une matrice est semi-définie positive si et seulement si ses valeurs propres sont
positives ,
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 19

voire également :
Une matrice est définie positive si et seulement si ses valeurs propres sont strictement
positives .

Ces deux énoncés sont faux en général. Rappelons par exemple qu’une matrice carrée
n’admet pas nécessairement de valeurs propres, c’est le cas de la matrice (I.1) qui n’admet
aucune valeur propre réelle, mais qui pourtant est bien semi-définie positive. Par contre
que ces énoncés sont vrais si la matrice en question est symétrique :

Proposition I.45. Soit A ∈ M N (R) une matrice symétrique. Alors on a les équivalences sui-
vantes :

i) A est semi-définie positive ⇔ λmin ( A) ě 0.

ii) A est définie positive ⇔ λmin ( A) > 0 ⇔ A est semi-définie positive et inversible.

Exercice I.46. Soit A ∈ M M,N (R), montrer que :

1) les matrices A> A ∈ M N (R) et AA> ∈ M M (R) sont symétriques semi-définies posi-
tives ;
2) A> A est définie positive si et seulement si A est injective ;
3) AA> est définie positive si et seulement si A est surjective.

Et pour les matrices non symétriques ? Eh bien nous pouvons toujours nous ramener
aux matrices symétriques, grâce au résultat suivant :

Proposition I.47. Soit A ∈ M N (R) une matrice carrée. Alors :

A> + A
A est (semi-) définie positive si et seulement si 2 est (semi-) définie positive .

En pratique, pour une matrice carrée A quelconque, il suffit donc de vérifier le signe
>
des valeurs propres de la matrice symétrique A 2+ A .

0 1
Exemple I.48. Si on considère la matrice triangulaire A = , on voit que spec( A) =
0 0
{0}. Mais on ne peut pas en déduire immédiatement que A est semi-définie positive,
A> + A 0 1/2
puisque elle n’est pas symétrique ! Par contre on peut calculer 2 = ,
1/2 0
dont l’ensemble des valeurs propres est {±1/2}. Puisque l’une des valeurs propres est
négative, on en déduit que A n’est pas une matrice semi-définie positive.

Donc, moralement, la question de la positivité (resp. définie positivité) d’une matrice

peut toujours se ramener à celle de la positivité (resp. stricte positivité) de toutes les va-
leurs propres d’une matrice. Mais que se passe-t-il lorsque certaines de ces valeurs propres
20 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

sont négatives ? Si elles le sont toutes, on parle de matrice semi-définie négative, sinon on
parle de matrice indéfinie :

Définition I.49. On dit que A ∈ M N ( A) est :

• SEMI - D ÉFINIE N ÉGATIVE , et on note A ĺ 0, si − A est semi-définie positive :

(∀ x ∈ R N ) h Ax, x i ď 0.

• D ÉFINIE N ÉGATIVE , et on note A ă 0, si − A est définie positive :

(∀ x ∈ R N \ {0}) h Ax, x i < 0.

• IND ÉFINIE si elle n’est ni semi-définie positive ni semi-définie négative. Autrement

dit, si
(∃ x1 , x2 ∈ R N ) h Ax1 , x1 i < 0 et h Ax2 , x2 i > 0.

Exemple I.50. Il peut être intéressant de visualiser ces propriétés d’une matrice A en re-
gardant le graphe de la fonction quadratique associée q A : x 7→ h Ax, x i. Comme on peut
le voir dans la figure I.3, les formes quadratiques définies positives montent à l’infini dans
toutes les directions. Lorsque A est semi-définie positive mais pas définie positive, cela
veut dire qu’il y a un noyau non nul, ce qui se traduit par des directions où la forme qua-
dratique est constante. Lorsque A est non définie, la forme quadratique peut tendre vers
+∞ ou −∞, selon la direction dans laquelle on va. Dans ce cas on parle souvent de point
selle, qui est une notion que l’on reverra bientôt.

F IGURE I.3 – Formes quadratiques respectivement associées à une matrice définie positive,
semi-définie positive et non définie.

I.I.5.ii) La pratique
Un réflexe naturel pour déterminer la positivité d’une matrice symétrique est de calcu-
ler ses valeurs propres, puis de simplement vérifier leur signe. Or, calculer les valeurs
I.I. RAPPELS ET COMPLÉMENTS D’ALGÈBRE LINÉAIRE 21

propres, ce n’est pas facile lorsque la dimension dépasse 3 (et déjà pour N = 3 ce n’est pas
très sympathique).
Mais en réalité nous n’avons pas besoin de calculer les valeurs propres ; tout ce dont
on a besoin est leur signe. Par exemple, pour les matrices 2 × 2 :

Exercice I.51. (Positivité d’une matrice symétrique 2 × 2) Soit A ∈ M2 (R) une matrice
symétrique. Montrer que A est semi-définie positive (resp. définie positive) si et seulement
si sa trace et son déterminant sont positifs (resp. strictement positifs).

Exercice I.52 (Matrices semi-définies positives et définies positives). Déterminer la nature

des matrices suivantes (définie positive, semi-définie positive ou non définie) :

1 2 2 −1 1 1 1 −1
2 1 −1 1 1 0 −1 1

1 4 2 0 1 3 1 −2
0 1 −2 1 −1 0 0 1

Ce critère ne vaut évidemment que pour les matrices de taille 2. Pour des matrices
plus grandes, on dispose en fait d’un critère plus général, qui passe par le calcul de
déterminants de certaines sous-matrices :

Théorème I.53 (Critère de Sylvester). Soit A ∈ M N (R) une matrice symétrique. Alors :

i) A est semi-définie positive si et seulement si tous ses mineurs principaux sont positifs.
ii) A est définie positive si et seulement si tous ses mineurs principaux sont strictement positifs.

La sous-section suivante présente la notion de mineurs principaux, si vous ne l’avez

jamais vue.

I.I.5.iii) Mineurs principaux

Définition I.54. Soit A ∈ M N (R) et I ( {1, · · · , N }. On note A I la sous-matrice de
A obtenue en lui retirant ses i-ème ligne et i-ème colonne, pour tout i ∈ I. On dit que
A I ∈ M N −| I | (R) est une sous-matrice PRINCIPALE.

Exercice I.55. Listons toutes les sous-matrices principales de la matrice

 
1 2 3
A = 4 5 6 .
7 8 9

Pour commencer, il n’y a qu’une sous-matrice principale de taille 3, qui est A elle-même.
On l’obtient avec A I en prenant I = ∅. Ensuite viennent les sous-matrices de taille 2, qui
22 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

s’obtiennent en retirant i-ème ligne et i-ème colonne pour i = 1, 2, 3 :

5 6 1 3 1 2
AI = , , .
8 9 7 9 4 5
| {z } | {z } | {z }
I ={1} I ={2} I ={3}

Enfin, les sous-matrices de taille 1, qui s’obtiennent en retirant deux lignes et deux co-
lonnes, et qui correspondent aux éléments diagonaux :

AI = 9 , 5 , 1 .
|{z} |{z} |{z}
I ={1,2} I ={1,3} I ={2,3}

Exercice I.56. Listons toutes les sous-matrices principales de la matrice

 
01 02 03 04
05 06 07 08
A= 09 10 11 12 .


13 14 15 16
Pour commencer, il n’y a qu’une sous-matrice principale de taille 4, qui est A elle-même.
Ensuite les sous-matrices de taille 3, qui s’obtiennent en retirant i-ème ligne et i-ème co-
lonne pour i = 1..4 :
       
06 07 08 01 03 04 01 02 04 01 02 03
A I = 10 11 12, 09 11 12, 05 06 08, 05 06 07 .
14 15 16 13 15 16 13 14 16 09 10 11
| {z } | {z } | {z } | {z }
I ={1} I ={2} I ={3} I ={4}

Ensuite les sous-matrices de taille 2, qui s’obtiennent en retirant une paire de lignes/colonnes
à A. On peut également les obtenir en retirant UNE ligne/colonne aux sous-matrices prin-
cipales de taille 3 :

11 12 06 08 06 07 01 04 01 03 01 02
AI = , , , , , .
15 16 14 16 10 11 13 16 09 11 05 06
| {z } | {z } | {z } | {z } | {z } | {z }
I ={1,2} I ={1,3} I ={1,4} I ={2,3} I ={2,4} I ={3,4}

Enfin, les sous-matrices de taille 1, qui correspondent aux éléments diagonaux :

A I = 16 , 11 , 06 , 01 .
|{z} |{z} |{z} |{z}
I ={1,2,3} I ={1,2,4} I ={1,3,4} I ={2,3,4}

L’ensemble des mineurs principaux d’une matrice correspond simplement à l’ensemble

des déterminants de toutes ses sous-matrices principales :

Définition I.57. Soit A ∈ M N (R). On définit l’ensemble de ses MINEURS PRINCIPAUX

par
{det( A I ) : I ( {1, · · · , N }} ⊂ R.
I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 23

I.II Rappels et compléments de calcul différentiel

La notation o ( g(h)) désigne une fonction signifie qu’il existe une fonction ε : R N → R telle
que limh→0 ε(h) = 0, et qui permette d’écrire le reste sous la forme o ( g(h)) = g(h)ε(h).
Étant donné une fonction F : U ⊂ R N → R M , on notera F1 , · · · , FM : U → R les
fonctions qui vérifient
(∀ x ∈ U ) F ( x ) = ( F1 ( x ), · · · , FM ( x )).
Une autre façon d’écrire ceci est de poser Fi ( x ) = h F ( x ), ei i où ei est le i-ème vecteur de la
base canonique de R M .

I.II.1 Différentielle
Définition I.58 (Différentielle). Soit U ⊂ R N un ouvert et F : U → R M une application.
Soit x ∈ U. On dit que F est DIFF ÉRENTIABLE au point x s’il existe une application linéaire
u ∈ L(R N ; R M ) telle que pour tout h ∈ R N t.q. x + h ∈ U,
F ( x + h) = F ( x ) + u(h) + o (khk).
Lorsque u existe, elle est unique ; on la note u = DF ( x ).
Si l’application x 7→ DF ( x ) est définie sur tout U, et y est continue, on dit alors que F est
de classe C1 sur U et on note F ∈ C1 (U ).

Définition I.59 (Dérivée directionnelle). Soit f : R N → R et d ∈ R N \ {0}. On dit que

f admet une D ÉRIV ÉE DIRECTIONNELLE dans la direction d, au point x, si l’application
t ∈ R 7→ f ( x + td) est dérivable en 0. Si c’est le cas, on note cette dérivée
∂f f ( x + td) − f ( x )
( x ) := lim .
∂d t →0 t
Si d = ei est l’un des vecteurs de la base canonique de R N , on appelle cette dérivée direc-
tionnelle la i-ème D ÉRIV ÉE PARTIELLE de f au point x, que l’on note
∂f f ( x + tei ) − f ( x ) f ( x1 , . . . , xi−1 , xi + t, xi+1 , . . . , x N ) − f ( x1 , . . . , x N )
( x ) := lim = lim .
∂xi t →0 t t →0 t
Remarque I.60 (Matrice Jacobienne). Toute application linéaire u ∈ L(R N , R M ) peut être
réprésentée par une matrice A ∈ M M,N (R) telle que u( x ) soit égale au produit matriciel
Ax. Plus précisément, cette matrice A est la matrice représentant u dans la base canonique.
Dans le cas de la différentielle DF ( x ), sa matrice associée est la matrice J ACOBIENNE, que
l’on note JF ( x ). Au vu de la définition précédente, cette matrice vérifie
F ( x + h) = F ( x ) + JF ( x )h + o (khk).
On se rappelle en général de la matrice Jacobienne comme étant la matrice des dérivées
partielles de F. C’est effectivement le cas, comme le prouve la prochaine Proposition :
24 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.61 (Jacobienne et dérivées partielles). Soit U ⊂ R N un ouvert et F : U → R M

une fonction différentiable en x ∈ U. Alors :

i) Pour tout i = 1, · · · , M, Fi admet des dérivées directionnelles en toute direction au point x.

En particulier, elle admet des dérivées partielles en x.
ii) Les coefficients de la matrice Jacobienne JF ( x ) sont des dérivées partielles en x :
  
∂F1 ∂F1
· · ·

∂x1 ( x ) ∂x N ( x ) JF1 ( x )
 . .. ..   .. 
JF ( x ) =  ..
 . .  = . 
∂FM
∂x ( x ) · · ·
∂FM
∂x ( x )
JFM ( x )
1 N

Remarque I.62 (Vecteur Gradient). Si f : R N → R1 (on insiste sur le fait que M = 1) est
différentiable en x, alors J f ( x ) ∈ M1,N (R) est un vecteur ligne (et D f ( x ) est une forme
linéaire). Sa transposée est donc identifiable à un vecteur (colonne), que l’on appelle le
GRADIENT de F en x : ∇ f ( x ) = J f ( x ) T .

Proposition I.63. Si f : U ⊂ R N → R est différentiable en x ∈ U, alors :

i) Elle admet des dérivées directionnelles en toute direction au point x (et en particulier, des
dérivées partielles).
ii) Le gradient de f en x s’écrit  
∂f
∂x1 ( x )

∇ f (x) =  .. 
 .  
∂f
∂x ( x )
N

iii) On a la relation suivante entre différentielle, gradient, dérivée directionnelle et dérivée partielle :
N
∂f ∂f
(∀d ∈ R N ) D f ( x )(d) = ( x ) = h∇ f ( x ), di = ∑ ( x ) di .
∂d i =1
∂xi

Remarque I.64 (Calcul du gradient). Pour calculer le gradient de f au point x, il n’est

pas toujours nécessaire de calculer explicitement toutes les dérivées partielles. Une autre
méthode consiste à établir un développement limité de f sous la forme suivante :

f (u + h) = f (u) + hw, hi + o (k hk)

où w ∈ R N est un certain vecteur fixé. Alors, on peut affirmer que f est différentiable en
u, et que
w = ∇ f ( u ).

Théorème I.65 (Règles de calcul).

I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 25

i) Soient F, G : U ⊂ R N → R M deux fonctions différentiables en x ∈ U. Alors F + G est

différentiable en x, et

D ( F + G )( x ) = DF ( x ) + DG ( x ) et J ( F + G )( x ) = JF ( x ) + JG ( x ).

ii) Soient G : R N → R M et F : R M → RP , telles que G soit différentiable en x et F soit

différentiable en G ( x ). Alors F ◦ G : R N → RP est différentiable en x, et

D ( F ◦ G )( x ) = DF ( G ( x )) ◦ DG ( x ) et J ( F ◦ G )( x ) = JF ( G ( x )) JG ( x ) .
| {z } | {z } | {z }
∈M P,N (R) ∈M P,M (R) ∈M M,N (R)

iii) Soient G : R N → R M et f : R M → R, telles que G soit différentiable en x et f soit

différentiable en G ( x ). Alors f ◦ G : R N → R est différentiable en x, et

∇( f ◦ G )( x ) = JG ( x )> ∇ f ( G ( x )) .
| {z } | {z } | {z }
∈R N ∈M N,M (R) ∈R M

Exemple I.66. Soit f : R → R. Alors ∇ f ( x ) = f 0 ( x ).

Exemple I.67. Soit f ( x ) = 12 k x k2 , alors ∇ f ( x ) = x et D f ( x ) = x T .

Exemple I.68. Si F : R N → R M est constante, alors DF ( x ) = 0.

Exemple I.69. Si F : R N → R M est linéaire, alors DF ( x ) = F.

Exercice I.70 (Dériver la trace). Soit f : M N (R) → R définie par f ( X ) = tr( X ).

1) Calculer D f ( X ), pour X ∈ M N (R).
2) On munit M N (R) du produit scalaire suivant (on admet que c’est un produit scalaire) :

(∀ X, Y ∈ M N (R)) hh X, Y ii = tr( X > Y ).

Calculer ∇ f ( X ).

Exercice I.71 (Gradient d’une composée). Soit g : R N −→ R différentiable, et f ( x ) =

g( x )2+ , où la notation x+ veut dire max{0, x } (on parle de partie positive). Calculer ∇ f ( x ).
même question avec f ( x ) = g( x )2 .

Exemple I.72. Soit f ( x ) = g( Ax + b) où A ∈ M M,N (R) et g : R M → R est différentiable.

Alors ∇ f ( x ) = A T ∇ g( Ax + b).

Exemple I.73. Si f ( x ) = 12 k Ax − bk2 , alors ∇ f ( x ) = A T ( Ax − b).

On termine avec un résultat qui n’est pas central dans ce cours, mais que l’on utilisera
par la suite dans les preuves :
26 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Proposition I.74 (Théorème de Taylor-Lagrange, ordre 1). Soit a ∈ R N , U = B( a, R) une

boule ouverte de R N , et f : U → R de classe C1 (U ). Alors, pour tout x ∈ U, il existe z ∈] a, x [
tel que
f ( x ) = f ( a) + h∇ f (z), x − ai.

I.II.2 Différentielle seconde

Définition I.75 (Différentielle seconde). Soit U un ouvert de R N et F : U → R M . On dit
que F est deux fois différentiable en x ∈ U si F est différentiable sur U, et s’il existe une
application bilinéaire symétrique b ∈ B(R N , R N ; R M ) telle que

1
(∀h ∈ U − x ) F ( x + h) = F ( x ) + DF ( x )(h) + b(h, h) + o (khk2 ).
2
Dans ce cas b est uniquement définie, et c’est la différentielle seconde de F en x, notée
D2 F ( x ). Si l’application x 7→ D2 F ( x ) existe et est continue sur U, on note F ∈ C2 (U ).

Proposition I.76 (La différentielle de la différentielle). Soit F : U ⊂ R N → R M deux fois

différentiable en x ∈ U. Alors

(∀h, k ∈ R N ) D2 F ( x )(h, k ) = D ( DF )( x )(h)(k ).

Remarque I.77 (Matrice hessienne). Pour toute application bilinéaire b ∈ B(R N , R N ; R)

il existe une unique matrice B ∈ R N × N telle que b( x, y) = h Bx, yi. Cela revient à dire que
Bij = b(ei , e j ). Dans le cas de la différentielle seconde D2 f ( x ) d’une fonction f de R N → R,
la matrice associée est la matrice H ESSIENNE, notée ∇2 f ( x ), et qui vérifie les propriétés
suivantes :

Proposition I.78. Soit f : R N → R une fonction deux fois différentiable en x ∈ U. Alors :

i) (Symétrie) ∇2 f ( x ) est une matrice symétrique.

∂2 f

ii) (Matrice des dérivées partielles seconde) ∇2 f ( x ) = ∂xi ∂x j ( x ) ij .

iii) (Jacobienne du gradient) ∇2 f ( x ) = J (∇ f )( x ).

iv) (Taylor ordre 2) (∀h ∈ R N ) f ( x + h) = f ( x ) + h∇ f ( x ), hi + 21 h∇2 f ( x )h, hi + o (khk2 ).

Théorème I.79 (Règles de calcul).

i) Soient F, G : U ⊂ R N → R M deux fonctions deux fois différentiables en x ∈ U. Alors F + G

est deux fois différentiable en x, et

D2 ( F + G )( x ) = D2 F ( x ) + D2 G ( x ).
I.II. RAPPELS ET COMPLÉMENTS DE CALCUL DIFFÉRENTIEL 27

ii) Soient G : R N → R M et F : R M → RP , telles que G soit deux fois différentiable en x et F soit

deux fois différentiable en G ( x ). Alors F ◦ G : R N → RP est deux fois différentiable en x, et
D2 ( F ◦ G )( x ) = D2 F ( G ( x )) ◦ ( DG ( x ) ⊗ DG ( x )) + DF ( G ( x )) ◦ D2 G ( x ),
autrement dit, pour tout h, k ∈ R N :
D2 ( F ◦ G )( x )(h, k ) = D2 F ( G ( x ))( DG ( x )(h), DG ( x )(k)) + DF ( G ( x ))( D2 G ( x )(h, k)).

iii) Soient G : R N → R M et f : R M → R, telles que G soit deux fois différentiable en x et f soit

deux fois différentiable en G ( x ). Alors f ◦ G : R N → R est deux fois différentiable en x, et
M
∂f
∇2 ( f ◦ G )( x ) = JG ( x )> ∇2 f ( G ( x )) JG ( x ) + ∑ ( G ( x ))∇2 Gi ( x ).
i =1
∂x i

Remarque I.80. La règle de calcul un peu barbare pour la différentielle seconde de la

composition est à rapprocher de celle que l’on retrouve facilement pour la dérivée seconde
de la composée de deux fonctions réelles :
( f ◦ g)00 ( x ) = ( f 0 ◦ g · g0 )0 ( x ) = f 00 ( g( x )) g0 ( x ) g0 ( x ) + f 0 ( g( x )) g00 ( x ).
Exemple I.81. Soit f : R → R. Alors ∇2 f ( x ) = f 00 ( x ).

Exemple I.82. Soit f ( x ) = 21 k x k2 , alors ∇2 f ( x ) = Id et D2 f ( x ) = h·, ·i.

Exemple I.83. Si F : R N → R M est linéaire ou affine alors D2 F ( x ) = 0.

Exemple I.84. Soit f ( x ) = g( Ax + b) où A ∈ M M,N (R) et g : R M → R est deux fois

différentiable. Alors ∇2 f ( x ) = A T ∇2 g( Ax + b) A.

Exemple I.85. Si f ( x ) = 12 k Ax − bk2 , alors ∇2 f ( x ) = A T A.

Exemple I.86. Si f ( x ) = h Ax, x i, alors ∇2 f ( x ) = ( A + A T )/2. Si A est symétrique on

obtient ∇2 f ( x ) = A.

Proposition I.87 (Théorème de Taylor-Lagrange, ordre 2). Soit a ∈ R N , U = B( a, R) une

boule ouverte de R N , et f : U → R de classe C2 (U ). Alors, pour tout x ∈ U, il existe z ∈] a, x [
tel que
1
f ( x ) = f ( a) + h∇ f ( x ), x − ai + h∇2 f (z)( x − a), x − ai.
2

I.II.3 Fonctions quadratiques

Définition I.88. (Fonction quadratique) On dira qu’une fonction f : R N → R est QUA -
DRATIQUE si elle peut s’écrire sous la forme

f ( x ) = h Ax, x i + hb, x i + c,
où A ∈ M N (R), b ∈ R N et c ∈ R.
28 CHAPITRE I. ÉLÉMENTS D’ALGÈBRE LINÉAIRE ET DE CALCUL DIFFÉRENTIEL

Remarque I.89. Les fonctions quadratiques sont des polynômes de degré 2 en les va-
riables x1 , . . . , x N . En effet, en notant aij et bi les coefficients de A et b, on peut écrire

N N N
f (x) = ∑ ∑ aij x j xi + ∑ bi xi + c.
i =1 j =1 i =1

Exemple I.90. Les fonctions quadratiques de R dans R sont exactement les fonctions
du second degré abondamment étudiées au lycée : f ( x ) = ax2 + bx + c.

Exemple I.91. f ( x, y) = 2x2 + y2 − xy + 3x − 2 est une fonction quadratique sur R2 .

Exemple I.92. f ( x, y) = 2x2 + y2 − xy2 + 3x − 2 n’est pas une fonction quadratique sur
R2 car c’est un polynôme de degré 3.

Proposition I.93. Soit f ( x ) = h Ax, x i + hb, x i + c une fonction quadratique sur R N . Alors

∇ f ( x ) = ( A + A> ) x + b et ∇2 f ( x ) = A + A > .

En particulier, si A est symétrique, on a ∇ f ( x ) = 2Ax + b et ∇2 f ( x ) = 2A.

Exercice I.94 (Moindre carrés). Soit A ∈ M M,N (R), y ∈ R M , et f : R N → R définie par

f ( x ) = k Ax − yk2 .

Montrer que f est une fonction quadratique, et calculer son gradient et sa Hessienne.
Chapitre II

Existence de minimiseurs et conditions

d’optimalité

F IGURE II.1 – La nature agit toujours par les voies les plus courtes , Pierre de Fermat (1657).
Lorsqu’il arrive quelque changement dans la Nature, la quantité d’action, nécessaire pour ce

changement, est la plus petite qu’il soit possible , Pierre de Maupertuis (1756).

Dans ce chapitre, on considèrera que U ⊂ R N est un ouvert, et que f : U → R, et que

C ⊂ U est non vide. On s’intéresse au problème d’optimisation suivant :

( PC ) inf f ( x )
x ∈C

Ici, on dit que C est la CONTRAINTE de notre problème d’optimisation. Lorsque C = R N ,

on parle en général d’optimisation sans contrainte.

II.I Conditions d’optimalité et Principe de Fermat

On commence ce chapitre en définissant :

29
30 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

II.I.1 Un peu de vocabulaire

Définition II.1. Soit C ⊂ R N , et f : C −→ R.

• L’INFIMUM de f , noté infC f , est défini par infC f := inf{ f ( x ) | x ∈ C } ∈ [−∞, +∞[.
• Lorsque infC f 6= −∞, on dit que f est MINOR ÉE sur C.
• On dit que x̄ ∈ C est un MINIMISEUR de f sur C, si f ( x̄ ) = infC f . Autrement dit, si

(∀ x ∈ C ) f ( x̄ ) ď f ( x ).

• On note argminC f ⊂ C l’ensemble des minimiseurs de f sur C :

argminC f = { x̄ ∈ C | f ( x̄ ) = inf f }.
C

Lorsqu’on sait qu’il existe un minimiseur, on dit que l’infimum est atteint, et au lieu
d’infimum on parle en général plutôt de MINIMUM, que l’on note minC f .
Enfin, lorsque C = R N , on omet de le mentionner, et on parlera simplement d’infimum
(inf f ), minimum (min f ), minimiseur (argmin f ).

Remarque II.2 (Vocabulaire et subtilités).

• Il arrive parfois que l’on parle de minimum, ou de minC f , sans savoir s’il existe un
minimiseur. C’est un léger abus, qu’on essaiera d’éviter dans ce cours, mais que vous
allez très certainement rencontrer ailleurs.
• Il y a une ambiguı̈té beaucoup plus problématique concernant le terme minimum, dont
le sens est souvent confondu avec celui de minimiseur. Martelons donc ici que :

◦ le minimum désigne la plus petite valeur que peut prendre une fonction,
◦ minimiseur désigne un point en lequel la fonction atteint son minimum.

Encore une fois, on essaiera dans ce cours de bien faire la différence entre les deux, et il
est probable que vous trouviez une utilisation différente de ces termes dans des livres.
• Au lieu de minimiseur, on emploiera parfois le terme de minimiseur GLOBAL, par op-
position avec la Définition II.5 à venir. Les deux termes sont légitimes, on utilisera l’un
ou l’autre en fonction du contexte.

Exemple II.3. Voici quelques exemples typiques, que je vous conseille de toujours gar-
der en tête lorsque vous vous posez des questions sur les minimiseurs/minimum d’une
fonction. Faites un dessin pour vous convaincre !

• (Pas minorée) f ( x ) = x, ou f ( x ) = ln x ne sont pas minorées : inf f = −∞ et argmin f =

∅.
II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 31

• (Minorée, pas de minimiseur) f ( x ) = e x pour laquelle inf f = 0 mais argmin f = ∅.

Même chose pour f ( x ) = 1/x sur ]0, +∞[.
• (Minimiseur unique) f ( x ) = x2 pour laquelle min f = 0 et argmin f = {0}.
• (Minimiseurs multiples mais en nombre fini) f ( x ) = (( x − 1)( x + 1))2 pour laquelle
min f = 0 et argmin f = {−1, +1}.
• (Ensemble infini de minimiseurs, mais discret) f ( x ) = cos( x ) pour laquelle min f =
−1 et argmin f = −π + 2πZ.
• (Continuum de minimiseurs) f ( x, y) = x2 pour laquelle inf f = 0 et argmin f = {0} ×
R.

Exercice II.4 (Existence de minimiseurs). Les fonctions suivantes atteignent-elles leur mi-
nimum ?
1) f ( x ) = exp(− x ) sur C = R+ , puis C = R− .
2) f ( x ) = cos(exp( x2 )) sur C = [0, 1].
3) f ( x ) = −k x k2 sur la boule fermée C = B(0, 1).
4) f ( x, y) = x6 cos y + 2y2 sur C = R2 .

Les notions introduites dans la Définition II.1 peuvent être déclinées localement :

Définition II.5 (Minimiseur local). Soit f : C ⊂ R N −→ R. On dit que x̄ ∈ C est un

MINIMISEUR LOCAL de f sur C si

(∃ R > 0)(∀ x ∈ B( x̄, R) ∩ C ) f ( x̄ ) ď f ( x ).

Lorsque C = R N , on omettra de le mentionner, et on dira simplement que x̄ est un mini-
miseur local de f .

Remarque II.6. On peut reformuler la Définition II.5 ainsi : x̄ est un minimiseur local de f
sur C si il existe un voisinage U de x̄ tel que x̄ soit un minimiseur (global) de f sur C ∩ U.

Exemple II.7. L’existence d’un minimiseur local ne prédétermine en rien l’existence de

minimiseurs globaux. Pire, on peut même avoir une fonction non minorée, comme par
fonction polynômiale f ( x ) = x ( x − 1)( x + 1) pour laquelle inf f = −∞ bien
exemple la √
que x = 1/ 3 soit un minimiseur local.

Définition II.8. Soit f : C ⊂ R N −→ R, et x̄ ∈ C. On dit que x̄ est un maximiseur (resp.

maximiseur local) de f sur C, s’il est un minimiseur (resp. minimiseur local) de − f sur C.
Si x̄ est un minimiseur ou un maximiseur (local), on dit que c’est un EXTREMA (local).

De manière plus générale, toutes les notions et propriétés que l’on va voir par la suite
porteront sur les problèmes de minimisation, et de recherche de minimiseurs, mais s’adap-
teront très facilement aux maximiseurs : il suffira de remplacer f par − f dans les énoncés.
32 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

II.I.2 Conditions d’Optimalité du 1er ordre

Le Théorème suivant est généralement connu sous le nom de Théorème de Fermat :

Théorème II.9.
On suppose que f est différentiable en un minimiseur local x̄. Alors ∇ f ( x̄ ) = 0.

Dans le cas où on est en présence d’une contrainte, et que le point que l’on considère
est à l’intérieur de la contrainte, on obtient le même résultat :

Théorème II.10 (Théorème de Fermat : Condition Nécessaire d’Optimalité du 1er ordre).

On suppose que f est différentiable en un minimiseur local x̄ sur C, et que x̄ ∈ int C. Alors :

∇ f ( x̄ ) = 0.

Remarque II.11. Le Théorème II.10 est encore vrai si on remplace minimiseur local par
maximiseur local . Pour s’en convaincre, il suffit de remplacer f par − f dans l’énoncé.

Démonstration. f admet un minimiseur local en x̄, donc il existe R > 0 t.q.

(∀ x ∈ C ∩ B( x̄; R)) f ( x ) ě f ( x̄ ). (II.1)

Comme x̄ ∈ int C, quitte à réduire le rayon R, on peut supposer que BR ( x̄ ) ⊂ C. Puisque

f est différentiable en x̄, elle admet une dérivée directionnelle en x̄ dans toute direction
d ∈ R N , et :

f ( x̄ + td) − f ( x̄ )
h∇ f ( x̄ ), di = lim ě 0,
t →0 t
où l’inégalité vient du fait que, lorsque kdk|t| < R, on a x̄ + td ∈ B( x̄; R) ⊂ C et donc on
peut utiliser (II.1). On a donc montré que

(∀d ∈ R N ) h∇ f ( x̄ ), di ě 0,

Ce qui implique que ∇ f ( x̄ ) = 0.

Remarque II.12. Le résultat n’est plus valide lorsque x̄ n’est pas à l’intérieur de la contrainte.
Un contre-exemple simple est f ( x ) = x2 , avec C = [1, 2]. Dans ce cas x̄ = 1 est un minimi-
seur global sur C, mais f 0 ( x ) = 2 6= 0.

Remarque II.13. La réciproque est fausse en général, prendre par exemple f ( x ) = x3 ,

f ( x ) = − x2 ou f ( x, y) = x2 − y2 . C’est pour cela que l’on parle de condition N ÉCESSAIRE
du premier ordre.

Définition II.14. Un point x où f est différentiable et ∇ f ( x ) = 0 est appelé POINT CRI -
TIQUE ( DU PREMIER ORDRE ). On note crit( f ) l’ensemble des points critiques de f .
II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 33

Remarque II.15 (Minimiseurs, maximiseurs, et points selle). Si x est un point critique de

f , que peut-on en dire ? Le Théorème de Fermat II.10 nous dit que tout les minimiseurs
locaux et maximiseurs locaux sont des points critiques. Donc x peut être un minimiseur
local ou un maximiseur local. Mais il est également possible que x ne soit ni minimiseur
ni maximiseur local de f , c’est-à-dire qu’il vérifie :

pour tout voisinage V de x, il existe x − ∈ V, x + ∈ V tels que f ( x − ) < f ( x ) < f ( x + ),

ce que l’on peut écrire de façon équivalente :

∃( xn+ )n∈N , ( xn− )n∈N t.q. lim xn+ = lim xn− = x et f ( xn− ) < f ( x ) < f ( xn+ ).
n→+∞ n→+∞

Un tel point est appelé un point selle. Voir la Remarque II.13 pour des exemples de points
selle.

II.I.3 Conditions d’Optimalité du 2e ordre

Théorème II.16 (Condition Nécéssaire d’Optimalité, 2e ordre).
On suppose que f est deux fois différentiable en un minimiseur local x̄ sur C, et que x̄ ∈ int C.
Alors
∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) 0.

Définition II.17. Un point x où f est deux fois différentiable et tel que ∇ f ( x ) = 0 et
∇2 f ( x ) 0 est un POINT CRITIQUE DU DEUXI ÈME ORDRE.

Démonstration. Avant de commencer, on note B( x̄, R) le voisinage sur lequel x̄ est un mi-
nimiseur local. Quitte à prendre R plus petit, on peut supposer que B( x̄, R) ⊂ C, puisque
x̄ ∈ int C. On sait d’après le Théorème II.10 que ∇ f ( x̄ ) = 0, on ne doit donc vérifier ici
que ∇2 f ( x̄ ) 0. Nous allons raisonner par l’absurde, et supposer qu’il existe d ∈ R N tel
que
h∇2 f ( x̄ )d, di < 0.
Quitte a diviser cette inégalité par kdk, on peut supposer que kdk = 1. Dans la suite, on
notera λ := h∇2 f ( x̄ )d, di < 0.
D’après la formule de Taylor (Proposition I.78 avec h = td), et le fait que ∇ f ( x̄ ) = 0,
on peut écrire, pour tout t > 0 :

1
f ( x̄ + td) − f ( x̄ ) = h∇ f ( x̄ ), tdi + h∇2 f ( x̄ )td, tdi + o (ktdk2 )
2
1 2
= h∇ f ( x̄ )d, dit2 + o (t2 )
2
λ 2
= t + t2 ε ( t ),
2
34 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

où ε(s) est une fonction telle que lims→0 ε(s) = 0. Maintenant, on se donne t̄ < R tel que
ε(t̄) ď −λ/4. On en déduit :

f ( x̄ + t̄d) − f ( x̄ ) ď t̄2 λ/4 < 0.

On a donc trouvé x := x̄ + t̄d ∈ C ∩ B( x̄, R) tel que f ( x ) < f ( x̄ ), ce qui est une contradic-
tion avec le fait que x̄ soit un minimiseur local.

Exemple II.18 (Réciproque). Le Théorème II.16 dit que si x̄ est un minimiseur local alors
c’est un point critique du deuxième ordre. Est-ce que la réciproque est vraie ?

• Si on prend le cas d’une fonction quadratique (cf. Exemple II.22), on a pour tout x ∈
R N que ∇2 f ( x ) = A et ∇ f ( x ) = Ax. Donc tout point critique du second ordre est un
minimiseur global. Dans ce cas la réciproque est vraie.
• Si f ( x ) = x3 , ou − x4 , en zéro on a f 0 (0) = f 00 (0) = 0 (c’est donc un point critique
du deuxième ordre, au sens de la Définition II.17), mais pour autant 0 n’est pas un
minimiseur local.

En général il est impossible, sans faire plus d’hypothèses, de caractériser entièrement les
minimiseurs locaux avec des conditions faisant intervenir les dérivées supérieures. Mais
il est possible de faire une hypothèse un peu plus forte, qui implique qu’un point est un
minimiseur local. En gros, il faut regarder la dérivée seconde autour de x pour savoir si la
fonction est localement convexe.

Théorème II.19 (Condition Suffisante d’Optimalité du 2e Ordre).

Soit f une fonction deux fois différentiable en x̄ ∈ int C. Supposons que

∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) 0.

Alors x̄ est un minimiseur local de f .

Démonstration.
Soit λ = λmin (∇2 f ( x̄ )) > 0. D’après la formule de Taylor (Proposition I.78) (sachant que
∇ f ( x̄ ) = 0), il existe une fonction ε : R → R t.q. lims→0 ε(s) = 0 et
1 2
(∀d ∈ R N ) f ( x̄ + d) − f ( x̄ ) = h∇ f ( x̄ )d, di + kdk2 ε(kdk)
2
λ
ě kdk2 + kdk2 ε(kdk).
2
Par définition de ε, il existe un R > 0 tel que pour tout s ∈]0, R[, |ε(s)| ď λ/2. Si on prend
x ∈ B( x̄; R) quelconque, on a x = x̄ + d avec d = x − x̄ et kdk ď R, donc on déduit de ce
qui précède que ε(kdk) ě −λ/2, et donc que f ( x ) − f ( x̄ ) ě 0. Ceci prouve que x̄ est un
minimiseur local de f .

II.I. CONDITIONS D’OPTIMALITÉ ET PRINCIPE DE FERMAT 35

Remarque II.20 (Minimiseur local vs. global). Supposons que l’on ait trouvé un point x̄
satisfaisant aux conditions suffisantes d’optimalité du 2e ordre : le Théorème II.19 nous
garantit que x̄ est un minimiseur local. Comment savoir s’il n’est que local, ou en fait
global ?
Une bonne approche consiste à calculer f ( x̄ ), et à se demander si c’est le minimum de
f . Il y a alors deux possibilités :

• Ou bien f ( x̄ ) = inf f , auquel cas x̄ est bien un minimiseur global de f ,

• ou bien f ( x̄ ) > inf f , ce qui implique alors que x̄ n’est pas un minimiseur global.
Ce deuxième cas est le plus facile à vérifier : il suffit en effet de réussir à trouver
n’importe quel vecteur x en lequel la fonction prend une valeur plus petite qu’en x̄ : f ( x ) <
f ( x̄ ).

Exercice II.21. Soit f : R2 → R définie par f ( x, y) = x2 + y2 cos x. Calculer le gradient et

la matrice hessienne de f en tout point ( x, y) ∈ R2 . Que pouvez-vous dire du point (0, 0) ?

Exercice II.22 (Fonction quadratique et minimiseurs). Soit f ( x ) = 21 h Ax, x i, où A est une
matrice symétrique. Montrer que f admet un minimiseur en 0 si et seulement si A 0.
Est-ce que dans ce cas le minimiseur est unique ?

Exercice II.23 (Points critiques, extrema locaux et globaux). Pour les fonctions suivantes,
trouver leurs points critiques et dire si ce sont des extrema locaux (ou globaux) :

1) f ( x, y) = x3 + y4
2) f ( x ) = (1 − x2 )2
3) f ( x, y) = x2 + y2 − xy2
4) f ( x ) = ln(1 + cos x )

Les théorèmes II.16 et II.19 nous fournissent des conditions d’optimalité vis-à-vis des
minimiseurs locaux de f . On en déduit immédiatement le corollaire suivant, qui porte sur
les maximiseurs locaux et les points selle :

Corollaire II.24 (CNO et CSO du 2e ordre - Maximiseurs et points selle). Soit f une fonction
deux fois différentiable en x̄ ∈ int C.

1) Si ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) ă 0, alors x̄ est un maximiseur local de f sur C.

2) Si x̄ est un maximiseur local de f sur C, alors ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) ĺ 0.
3) Si ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) n’est ni semi-définie positive, ni semi-définie négative, alors x̄ est un
point selle de f .

Démonstration. 1) et 2) s’obtiennent avec les Théorèmes II.16 et II.19, en remplaçant f par

− f . Pour le 3), si ∇2 f ( x̄ ) n’est pas semi-définie positive alors x̄ ne vérifie pas la CNO du
36 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

2e ordre, donc n’est pas un minimiseur local d’après II.16. De même, si ∇2 f ( x̄ ) n’est pas
semi-définie négative alors x̄ n’est pas un minimiseur local d’après le point 2). C’est donc
un point selle.

II.II Coercivité et existence de minimiseurs

II.II.1 Coercivité
Dans l’Exemple II.3, on voit qu’une obstruction typique à l’existence de minimiseurs est
le fait que la fonction s’aplatisse indéfiniment vers l’infini, en n’atteignant jamais son infi-
mum. Afin d’avoir un résultat d’existence, on va donc faire l’hypothèse que cela n’arrive
pas. Il y a essentiellement deux manières d’y parvenir :
1) dire que la fonction tend vers l’infini à l’infini (du coup elle ne peut pas s’aplatir),
2) dire que la contrainte C est bornée (du coup les valeurs ne peuvent pas tendre vers
quelque chose).
On peut combiner ces deux approches en disant simplement que la fonction tend vers
l’infini sur C :

Définition II.25. Soit f : C ⊂ R N → R. On dit que f est COERCIVE sur C si

lim f ( x ) = +∞,
k x k→∞
x ∈C

ce qui est une manière condensée de dire que

∀( xn )n∈N ⊂ C, lim k xn k = +∞ ⇒ lim f ( xn ) = +∞.

n→+∞ n→+∞

Lorsque C = R N , on dira simplement que f est coercive.

Exemple II.26. f ( x ) = | x | p pour p ě 1 est coercive.

Exemple II.27. f ( x ) = e x n’est pas coercive. Par contre elle est coercive sur [0, +∞[.

Exemple II.28. f ( x, y) = x2 n’est pas coercive, car elle est constante lorsque on fixe x.

Exercice II.29 (Coercivité). Dire à propos des fonctions suivantes si elles sont coercives.

1) f ( x ) = (1 − x2 )2 .
2) f ( x, y) = x3 + 2y2 .
3) f ( x, y) = ( x − y)2 .
x2
4) f ( x, y) = y définie sur R×]0, +∞[.
II.II. COERCIVITÉ ET EXISTENCE DE MINIMISEURS 37

Remarque II.30 (Coercivité en pratique). On suppose ici C = R N pour simplifier. Déterminer

si une fonction est coercive ou non n’est pas une tâche facile : elle ne se ramène pas (tou-
jours) à un simple calcul à faire, automatique. Cela demande un peu de flair, et de bien
comprendre à quoi ressemble la fonction à laquelle on a affaire. Voici quelques approches :

• Votre fonction est une fonction univariée f : R −→ R. Dans ce cas c’est facile, car la
coercivité est équivalente à

lim f ( x ) = +∞ et lim f ( x ) = +∞.

x →−∞ x →+∞

Il suffit donc de calculer ces deux limites.

• Votre fonction est multivariée, et vous pensez qu’elle n’est pas coercive. Là encore c’est
un cas facile, car il suffit dans ce cas de contredire la Définition II.25, et de trouver une
suite ( xn )n∈N ⊂ C qui vérifie :

◦ lim k xn k = +∞,
◦ lim f ( xn ) 6= +∞.

• Votre fonction est multivariée, et vous pensez qu’elle est coercive. C’est un cas un peu
plus difficile, puisqu’il faut montrer que lim f ( xn ) = +∞ pour toute suite divergente.
Il serait tentant de penser que la coercivité équivaut à fixer toutes les variables sauf
une que l’on fait tendre vers ±∞ :

(∀ x ∈ R N )(∀i = 1..N ) lim f ( x1 , . . . , xi , . . . , x N ) = +∞.

xi →±∞

Or ceci est faux. L’exercice suivant en fournit un contre-exemple.

Dans ce cas, la stratégie la plus simple est d’arriver à montrer que f ( x ) ě g( x ), où
g( x ) est clairement coercive. Par exemple, trouver une fonction g de la forme g( x ) =
φ(k x k), où φ : R → R. Dans ce cas on sait facilement montrer que φ est coercive, et on
en déduit immédiatement que f l’est aussi.
y
Exercice II.31. Soit f ( x, y) = x
y + x définie sur U =]0, +∞[2 .

1) Vérifier que, pour tout y > 0, lim f ( x, y) = +∞.

x →+∞
2) Vérifier que, pour tout x > 0, lim f ( x, y) = +∞.
y→+∞

3) Montrer que f n’est pas coercive sur U.

L’exercice suivant est important, et il est bon de connaitre et comprendre les résultats
qu’il contient :

Exercice II.32 (Fonction quadratique et coercivité).

38 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

1) Soient A ∈ M N (R) symétrique, b ∈ R N , c ∈ R. Montrer que la fonction quadratique

f ( x ) = 12 h Ax, x i + hb, x i + c est coercive si et seulement si A est définie positive.
2) Soient Φ ∈ M M,N (R), y ∈ R M . Montrer que le moindre carré f ( x ) = 12 kΦx − yk2 est
coercif si et seulement si Φ est injective.

On conclut cette partie avec une proposition importante, qui dit qu’une fonction est
toujours coercive sur un borné.

Proposition II.33. Soit f : C ⊂ R N → R. Si C est borné alors f est coercive sur C.

Démonstration. C’est en fait une conséquence directe de la Définition II.25, et du fait qu’une
implication A ⇒ B est toujours vraie lorsque la proposition A est fausse. En effet, si C est
bornée, il est impossible pour une suite ( xn )n∈N ⊂ C de vérifier lim k xn k = +∞.
n→+∞

Le lien entre coercivité et borné n’est d’ailleurs pas anodin ! En effet, la Proposi-
tion suivante montre que la coercivité d’une fonction f peut entièrement être caractérisée
par le fait que ses sous-niveaux soient bornés.

Proposition II.34 (Coercivité et sous-niveaux bornés). Soient f : U ⊂ R N → R, C ⊂ U, et

notons, pour tout r ∈ R, le sous-niveau de f

[ f ď r ] : = { x ∈ U | f ( x ) ď r }.

Alors f est coercive sur C si et seulement si C ∩ [ f ď r ] est borné pour tout r ∈ R.

Démonstration. Dans cette preuve on notera Ωr := C ∩ [ f ď r ].

⇒ : Supposons que f soit coercive sur C, donnons-nous r ∈ R quelconque, et montrons
que Ωr est borné. Pour cela, raisonnons par l’absurde et supposons que Ωr ne soit pas
borné. Alors il doit exister une suite ( xn )n∈N ⊂ Ωr telle que k xn k → +∞. On a donc une
suite qui diverge, contenue dans C : notre hypothèse ( f coercive) nous permet donc de
déduire que f ( xn ) tend vers +∞. En particulier, cela veut dire qu’à partir d’un certain
rang, f ( xn ) > r, ce qui contredit xn ∈ Ωr . L’implication est donc démontrée.
⇐ : Supposons que Ωr soit borné pour tout r ∈ R, et montrons que f est coercive sur C.
Supposons donc qu’il existe une suite ( xn )n∈N ⊂ C telle que k xn k → +∞, et montrons que
f ( xn ) tend vers +∞. Fixons pour cela un r ∈ R quelconque. Puisque la suite xn diverge, et
que Ωr est borné par hypothèse, cela veut dire qu’à partir d’un certain rang, xn ∈ / Ωr . Or
Ωr = C ∩ [ f ď r ], et on sait que xn ∈ C. Donc cela veut dire qu’à partir d’un certain rang,
xn ∈ / [ f ď r ]. Autrement dit, que f ( xn ) > r. Ceci étant vrai pour tout r ∈ R, on conclut
que f ( xn ) tend vers +∞.

II.II.2 Existence de minimiseurs

Théorème II.35 (Existence si continue coercive). Soit f : C ⊂ R N → R. Supposons que :
II.II. COERCIVITÉ ET EXISTENCE DE MINIMISEURS 39

a) C est fermé,
b) f est continue en tout point de C,
c) f est coercive sur C.
Alors f admet un minimiseur global sur C.

Remarque II.36 (Pas de réciproque). La réciproque de ce Théorème est évidemment fausse :

l’existence d’un minimiseur global n’implique pas la coercivité. Par exemple, f ( x, y) = x2
ou f ( x, y) = 18 ne sont pas coercives mais admettent des minimiseurs globaux.

Pour prouver ce résultat on aura besoin d’un Lemme élémentaire sur l’existence de
suites minimisantes :

Lemme II.37 (Suite minimisante). Pour tout ensemble C ⊂ R N et toute fonction f : C → R,

il existe une suite ( xn )n∈N ⊂ C telle que lim f ( xn ) = infC f .
n→+∞

Démonstration. On introduit l’ensemble V := { f ( x ), x ∈ C } ⊂ R, qui vérifie par définition

que inf V = infC f . Distinguons deux cas de figure :
• Cas inf V ∈ R. Par définition de l’infimum d’une partie de R, on a que, pour tout ε > 0,
il existe vε ∈ V tel que
inf V ď vε < inf V + ε.
Or, par définition de V, il existe un xε ∈ C tel que vε = f ( xε ). Ainsi, on a que pour tout
ε > 0, il existe xε ∈ C tel que

inf f ď f ( xε ) < inf f + ε.

C C

En prenant ε = 1/n et en passant à la limite, on obtient que limn→∞ f ( xn ) = infC f .

• Cas inf V = −∞. Dans ce cas, pour tout n ∈ N il existe un point qu’on note xn ∈ C tel
que f ( xn ) < −n. On en déduit que limn→∞ f ( xn ) = −∞ = infC f , qui est ce que l’on
voulait démontrer.

Démonstration du Théorème II.35. D’après le Lemme précédent, on peut invoquer une suite
minimisante, c’est-à-dire une suite ( xn )n∈N ⊂ C telle que limn f ( xn ) = infC f . On utilise
maintenant le fait que f soit coercive : puisque limn f ( xn ) 6= +∞, la Définition II.25 nous
permet de dire, par contraposée, que la propriété lim k xn k = +∞ est fausse. En
n→+∞
d’autres termes, ( xn )n∈N admet une sous-suite bornée. Par compacité, on en déduit que
( xn )n∈N admet une (sous-)sous-suite convergente dans R N : on note ( xnk )k∈N cette sous-
suite, et x̄ sa limite dans R N . Comme C est fermé et xnk ∈ C, on sait que x̄ ∈ C. Comme
f est continue sur C, on en déduit que f ( x̄ ) = lim f ( xnk ) = lim f ( xn ) = infC f . Ceci
n→+∞ n→+∞
prouve que x̄ est un minimiseur de f sur C.
40 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ

Exercice II.38. Montrer que si on enlève la moindre des trois hypothèses du Théorème
II.35, alors la conclusion n’est plus vraie.

Le Théorème II.35 est une version plus générale de ce résultat que vous connaissez
déjà certainement :

Corollaire II.39 (Théorème des valeurs extrêmes - Bolzano, 1817). Soit f : C ⊂ R N −→ R.

Si f est continue sur C compact, alors f admet un minimiseur global sur C.

Démonstration. C’est une conséquence immédiate du Théorème II.35 et de la Proposition

II.33.

Exercice II.40 (Existence de minimiseurs 2). Déterminer si le problème d’optimisation

sous contraintes infx∈C f ( x ) admet un minimiseur, pour les cas suivants :
1) f ( x ) = 21 h Ax, x i + hb, x i, avec A ∈ M N (R) symétrique définie positive, b ∈ R N et
C := { x ∈ R N | (∀i = 1, . . . , N ) xi ě ci }, où ci ∈ R.
2) f : R N → R est une fonction continue et C := { x ∈ R N | ∑iN=1 ai xi2 ď 1 et ∑iN=1 xi = 1}
(avec ai > 0 fixés).
3) f ( x ) = d( x, y), où y ∈ R N est fixé, et d est la distance euclidienne sur R N ; et C fermé
non vide. Comment décririez-vous les minimiseurs de f sur C ? On montrera de plus
qu’il n’y a pas en général unicité du minimiseur.

Un second exercice important sur les fonctions quadratiques, qui montre que les moindres
carrés kΦx − yk2 admettent toujours un minimiseur global :

Exercice II.41 (Fonction quadratique et minimiseurs). Soit A ∈ M N (R) une matrice

symétrique semi-définie positive.
1) Montrer que
(∀ x ∈ Ker A⊥ ) h Ax, x i ě σk x k2 ,
où σ est la plus petite valeur propre non nulle de A.
Indication : Toute matrice symétrique est diagonalisable dans une base orthogonale de
vecteurs propres. Cette question est plus difficile que les autres, n’hésitez pas à la faire
en dernier si vous bloquez.
2) Soit f ( x ) = 12 h Ax, x i + hb, x i + c, où b ∈ R N et c ∈ R. Montrer que f admet un
minimiseur sur C = Ker A⊥ .
3) Justifier que f n’admet pas nécessairement un minimiseur sur R N . A votre avis, quelle
condition sur A et b faut-il pour que cela soit vrai ? (on attend une conjecture plutôt
qu’une preuve)
4) Soit Φ ∈ M M,N (R), y ∈ R M . Montrer que f ( x ) = 21 kΦx − yk2 admet un minimiseur
sur R N .
II.III. RÉCAPITULATIF DU CHAPITRE 41

II.III Récapitulatif du Chapitre

Ici C ⊂ U ⊂ R N , où U est un ouvert de R N , et C est une contrainte non vide. On considère
une fonction f : U → R, et le problème d’optimisation associé

minimiserx∈C f ( x ).

Conditions nécessaire et suffisante d’optimalité (locale) Si x̄ ∈ int C, alors nous avons

les implications suivantes :

CSO 2e ordre minimiseur local CNO 2e ordre CNO 1er ordre

si f convexe
minimiseur global

• Condition Nécessaire d’Optimalité (CNO) d’ordre 1 : Si x̄ ∈ int C est un minimiseur

local de f sur C, alors ∇ f ( x̄ ) = 0.

◦ La réciproque est fausse en général (par exemple f ( x ) = x3 ).

◦ La condition x̄ ∈ int C est automatiquement vérifiée si il n’y a pas de contraintes
puisque C = R N est un ouvert.
◦ La condition x̄ ∈ int C est essentielle, le résultat est faux lorsque x̄ ∈ bd C.
• Condition Nécessaire d’Optimalité (CNO) d’ordre 2 : Si x̄ ∈ int C est un minimiseur
local de f sur C, alors ∇ f ( x̄ ) = 0 et ∇2 f ( x̄ ) 0.

◦ La réciproque est fausse en général (par exemple f ( x ) = − x4 ), il faut plus :

• Condition Suffisante d’Optimalité (CSO) d’ordre 2 : Si x̄ ∈ int C vérifie ∇ f ( x̄ ) = 0 et
∇2 f ( x̄ ) 0, alors x̄ est un minimiseur local de f sur C.
◦ La réciproque est fausse en général (par exemple f ( x ) = x4 ).
Dans le prochain chapitre, on verra que l’hypothèse clé pour obtenir des réciproques
à ces résultats et de supposer que le problème est convexe.

Existence de minimiseurs (globaux)

• Si f est coercive sur C, alors f admet au moins un minimiseur global sur C.

• Si C est borné, alors f est coercive sur C.
42 CHAPITRE II. EXISTENCE DE MINIMISEURS ET CONDITIONS D’OPTIMALITÉ
Chapitre III

Optimisation convexe

III.I Convexité et globalité des minimiseurs

III.I.1 Ensemble convexe
Définition III.1. Etant donné deux points x, y dans R N , on définit l’intervalle qui les relie
par
[ x, y] := {(1 − α) x + αy | α ∈ [0, 1]}.

Définition III.2. Soit C ⊂ R N . On dit que l’ensemble C est CONVEXE si

(∀α ∈ [0, 1])(∀( x, y) ∈ C2 ) (1 − α) x + αy ∈ C.

Autrement dit, il faut et il suffit que pour toute paire de points x, y dans C, l’intervalle
[ x, y] qui relie ces points soit également contenu dans C (cf. Figure III.1).

F IGURE III.1 – Convexité d’un ensemble

43
44 CHAPITRE III. OPTIMISATION CONVEXE

Exemple III.3. La boule unité B(0, 1) = { x ∈ R N | k x k ď 1} est convexe. La sphère unité

S(0, 1) = { x ∈ R N | k x k = 1}, elle, n’est pas convexe car elle est creuse.

Exemple III.4. Les sous-ensembles convexes de R sont les intervalles.

Exercice III.5 (Convexité et intersection). Soit N : R N → R+ une norme quelconque.

Montrer que la boule unité (fermée) pour cette norme est nécessairement convexe.

Exercice III.6. Montrer que l’intersection de deux ensembles convexes est encore convexe.
En déduire que l’intersection d’un nombre fini d’ensemble convexes est convexe.

III.I.2 Fonction convexe

Définition III.7. Soit f : U ⊂ R N → R, et C ⊂ U. On dit que f est CONVEXE sur C si C
est convexe et que

∀α ∈ [0, 1], ∀( x, y) ∈ C2 , f ((1 − α) x + αy) ď (1 − α) f ( x ) + α f (y).

On notera1 Γ0 (C ) l’ensemble des fonctions convexes sur C. Si C = R N on dira simplement

que f est convexe.

Proposition III.8. Soit f : R N → R. Alors ces deux propriétés sont équivalentes :

1) f est convexe,
2) l’épigraphe2 de f est convexe, ce dernier étant défini par :

epi f = {( x, y) ∈ R N × R | f ( x ) ď y} ⊂ R N × R.

Démonstration. Voir TD.

On peut donner une caractérisation géométrique similaire pour la convexité d’une

fonction sur une contrainte :

Proposition III.9. Soit f : U ⊂ R N → R, et C ⊂ U. Alors ces deux propriétés sont équivalentes :

1) f est convexe sur C,

est assez difficile de retrouver d’où vient la notation Γ0 . Néanmoins il semblerait que cela remonte
1 Il

aux premiers travaux de Fenchel (1951) et Moreau (1965), dans lesquels Γ0 décrit l’ensemble des fonctions
convexes semi-continues inférieurement et propres (pas constantes à l’infini). Le choix d’utiliser la lettre Γ
semblerait être en dualité avec la lettre C (pour convexe), Γ étant également la troisième lettre de l’alphabet
grec. Quand à l’indice 0 son sens s’est perdu mais dans ce cours on va lui donner un signification (cf. Section
sur les focntions fortmeent convexes). Une discussion intéressante à ce sujet ici https://mathoverflow.
net/questions/262851/why-are-gamma-0-functions-called-this/262861
2 epi est un préfixe qui veut dire au-dessus . C’est l’opposé de hypo qui nous est plus familier.
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 45

2) l’épigraphe de f sur C est convexe, ce dernier étant défini par :

epiC f = {( x, y) ∈ R N × R | x ∈ C, f ( x ) ď y} ⊂ R N × R.

Démonstration. Voir TD.

Proposition III.10. Soient f , g : U ⊂ R N → R, et C ⊂ U. Si f et g sont convexes sur C, alors

f + g est convexe sur C.

Démonstration. Cf. TD.

Proposition III.11. Soit f : R M → R une fonction convexe, et A ∈ M N,M (R). Alors f ◦ A est
convexe.

Démonstration. Cf. TD.

Proposition III.12. Soit f : U ⊂ R N → R et C ⊂ U. Si f est convexe sur C, alors argminC f

est un ensemble convexe.

Démonstration. Cf. TD.

F IGURE III.2 – Convexité d’une fonction

46 CHAPITRE III. OPTIMISATION CONVEXE

III.I.3 Caractérisation de la convexité pour les fonctions univariées

On s’intéresse d’abord ici aux fonctions d’une seule variable. Dans cette sous-section
III.I.3, on supposera toujours que U ⊂ R est un ouvert, et que I ⊂ U est un intervalle.

Proposition III.13 (Convexité via dérivée). Soient f : U ⊂ R → R une fonction dérivable, et

I ⊂ U un intervalle. Les propriétés suivantes sont alors équivalentes :

i) f est convexe sur I, c-à-d f ∈ Γ0 ( I ) ;

ii) (∀( x, y) ∈ I 2 ) f (y) ě f ( x ) + f 0 ( x )(y − x ) ;
iii) f 0 est croissante sur I.

Remarque III.14. L’équation de l’hyperplan tangent au graphe de f , au point ( x0 , f ( x0 )) ∈

I × R, s’écrit
y = f ( x0 ) + f 0 ( x0 )( x − x0 ), pour x ∈ R, y ∈ R.

La relation ii) signifie géométriquement que le graphe de f est au-dessus de son hyperplan
tangent en tout point (cf. Figure III.3).

F IGURE III.3 – Convexité d’une fonction via l’hyperplan tangent

III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 47

Démonstration. i) ⇒ ii). Soient ( x, y) ∈ I 2 quelconques. Pour α ∈]0, 1[, on pose zα :=

(1 − α) x + αy. On a alors f (zα ) ď (1 − α) f ( x ) + α f (y) = f ( x ) + α( f (y) − f ( x )), donc
1 α →0+
f (y) − f ( x ) ě ( f (zα ) − f ( x )) → f 0 ( x )(y − x ).
α
ii) ⇒ i) : On a

f ( x ) ě f (zα ) + f 0 (zα )( x − zα ) (III.1)

f (y) ě f (zα ) + f 0 (zα )(y − zα ). (III.2)

En sommant (1 − α) fois la relation (III.1) et α fois la relation (III.2), et en utilisant le fait

que (1 − α)( x − zα ) + α(y − zα ) = 0, on obtient l’inégalité de convexité.
ii) ⇒ iii) : On écrit

f (y) ě f ( x ) + f 0 ( x )(y − x )
f ( x ) ě f (y) + f 0 (y)( x − y).

En sommant ces inégalités, on obtient l’inégalité désirée : ( f 0 (y) − f 0 ( x ))(y − x ) ě 0.

iii) ⇒ ii) : Soit g(t) := f ((1 − t) x + ty) pour t ∈ [0, 1]. Notons que g est dérivable sur
[0, 1], car f est dérivable sur un ouvert U, et que x, y appartiennent à l’intervalle I ⊂ U.
On calcule que g0 (t) = f 0 (zt )(y − x ), et en particulier que g0 (0) = f 0 ( x )(y − x ). Donc il
nous suffit de montrer que g(1) − g(0) − g0 (0) ě 0. D’après notre hypothèse, on a
1 0
g0 (t) − g0 (0) = f 0 (zt ) − f 0 ( x )(y − x ) = ( f (zt ) − f 0 ( x ))(zt − x ) ě 0.
t
D’autre part, comme g est continue sur [0, 1] et dérivable sur ]0, 1[, on peut utiliser le
g(1)− g(0)
théorème des accroissements finis qui nous dit qu’il existe c ∈]0, 1[ tel que 1 =
0 0
g (c). En combinant ces deux résultats, on en déduit que g(1) − g(0) ě g (0), ce qui donne
l’inégalité désirée.

Lemme III.15. Soient f : U ⊂ R → R une fonction dérivable, et I ⊂ U un intervalle. Alors

f est croissante sur I ⇔ f 0 ( x ) ě 0 pour tout x ∈ I.

Démonstration. Vu en Analyse L2, on rappelle la preuve ici.

⇒ : Soit x ∈ I. Puisque I est un intervalle, il existe hn 6= 0 tel que hn → 0 et x + hn ∈ I.
f ( x +hn )− f ( x )
Puisque f est croissante sur I, on voit qu’on a hn ě 0 et ce quelque soit le signe
0
de hn . En passant à la limite, on en déduit que f ( x ) ě 0.
⇐ : Soient a < b dans I. On sait que f est dérivable sur [ a, b], donc on peut utiliser le
Théorème des accroissements finis, qui nous fournit un c ∈] a, b[ (en particulier c ∈ I) tel
que f (b) − f ( a) = f 0 (c)(b − a). On en déduit donc que f ( a) < f (b).

Théorème III.16 (Convexité via Dérivée seconde). Soient f : U ⊂ R → R une fonction

deux fois dérivable, et I ⊂ U un intervalle. Alors les propriétés suivantes sont équivalentes :
48 CHAPITRE III. OPTIMISATION CONVEXE

i) f est convexe sur I, c-à-d f ∈ Γ0 ( I ) ;

ii) (∀ x ∈ I ) f 00 ( x ) ě 0.

Démonstration. Immédiat en combinant les deux résultats précédents.

III.I.4 Caractérisation de la convexité pour les fonctions multivariées

Afin d’étudier la convexité des fonctions multivariées à l’aide des résultats de la section
précédente, on va utiliser le Lemme suivant :

Lemme III.17. Soit f : U ⊂ R N → R, et C ⊂ U convexe. Alors f est convexe si et seulement si

(∀ x, y ∈ C ) la fonction gx,y : t ∈ [0, 1] 7→ f ((1 − t) x + ty) est convexe sur [0, 1].

Démonstration.
⇒ Soient x, y ∈ C, et montrons que gx,y est convexe sur [0, 1]. Pour cela, on se donne
t1 , t2 ∈ [0, 1], α ∈ [0, 1], et on va montrer que

g((1 − α)t1 + αt2 ) ď (1 − α) g(t1 ) + αg(t2 ).

Le membre de gauche peut se réécrire ainsi :

g((1 − α)t1 + αt2 ) = f ([1 − (1 − α)t1 − αt2 ] x + [(1 − α)t1 + αt2 ]y)
= f ((1 − α)[(1 − t1 ) x + t1 y] + α[(1 − t2 ) x + t2 y])

En utilisant la convexité de f en les points (1 − t1 ) x + t1 y et (1 − t2 ) x + t2 y, on en conclut

que

g((1 − α)t1 + αt2 ) ď (1 − α) f ((1 − t1 ) x + t1 y) + α f ((1 − t2 ) x + t2 y)

= (1 − α) g(t1 ) + αg(t2 ).

⇐ Soient x, y ∈ C quelconques, et α ∈ [0, 1]. On peut alors utiliser la convexité de gx,y

pour écrire

f ((1 − α) x + αy) = gx,y (α) = gx,y ((1 − α).0 + α.1)

ď (1 − α) gx,y (0) + αgx,y (1)
= (1 − α ) f ( x ) + α f ( y ).

Proposition III.18 (Convexité via le gradient). Soit f : U ⊂ R N → R, différentiable sur U,

et C ⊂ U convexe. Alors f est convexe si et seulement si

(∀ x, y ∈ C ) f (y) ě f ( x ) + h∇ f ( x ), y − x i. (III.3)
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 49

Démonstration. On va réutiliser ici les notations du Lemme III.17, et son résultat.

⇒ : Supposons que f soit convexe et prouvons (III.3). Soient donc x, y ∈ C, on sait alors via
le Lemme III.17 que g := gx,y : [0, 1] → R est convexe. Par ailleurs, puisque x, y ∈ C ⊂ U
ouvert, il existe en fait un ε > 0 tel que g soit bien définie et dérivable sur ] − ε, 1 + ε[, avec
g0 (t) = h∇ f ((1 − t) x + ty), y − x i. On peut donc appliquer la Proposition III.13 qui nous
dit que
(∀ a, b ∈ [0, 1]) g(b) ě g( a) + g0 ( a)(b − a).
On voit qu’en prenant b = 1 et a = 0, on obtient bien

f (y) ě f ( x ) + h∇ f ( x ), y − x i.

⇐ : Supposons (III.3) et prouvons que f est convexe. Via le Lemme III.17, il suffit donc de
fixer x, y ∈ C et de montrer que g := gx,y : [0, 1] → R est convexe sur [0, 1]. Donc, via la
Proposition III.13, il suffit de montrer que

(∀ a, b ∈ [0, 1]) g(b) ě g( a) + g0 ( a)(b − a),

ce qui se réécrit par définition de g

f ((1 − b) x + by) ě f ((1 − a) x + ay) + h∇ f ((1 − a) x + ay), y − x i(b − a).

Or cette inégalité est exactement ce que l’on obtient lorsque dans (III.3) on remplace y par
(1 − b) x + by et x par (1 − a) x + ay.

Théorème III.19 (Convexité via Hessienne). Soient f : U ⊂ R N → R, deux fois différentiable

sur U, et C ⊂ U convexe. Considérons les propriétés suivantes :

i) (∀ x ∈ C ) ∇2 f ( x ) 0 ;
ii) f est convexe sur C, c-à-d f ∈ Γ0 (C ).

Alors i) ⇒ ii), et l’équivalence i) ⇔ ii) est vraie si C est ouvert.

Démonstration.
i) ⇒ ii). Afin de montrer que f est convexe sur C, nous allons montrer que gx,y est convexe
pour tout x, y ∈ C, puis conclure avec le Lemme III.17 précédent. D’après le Théorème
III.16, il nous suffit de montrer que g00x,y est positive, où

g00x,y (t) = h∇2 f ( x + t(y − x ))(y − x ), y − x i. (III.4)

Or notre hypothèse, combinée avec (III.4), et le fait que C est convexe, impliquent que c’est
bien le cas.
ii) ⇒ i). Soit x ∈ C. Afin de montrer que ∇2 f ( x ) 0, on va prendre d ∈ R N quelconque,
et montrer que h∇2 f ( x )d, di ě 0. Puisque C est ouvert, il existe δ > 0 tel que B( x, δ) ⊂ C.
Donc y := x + εd appartient à C pour 0 < ε < δ/2kdk. On peut donc faire appel à la
50 CHAPITRE III. OPTIMISATION CONVEXE

fonction gx,y qui est convexe sur [0, 1] d’après le Lemme III.17. De plus sa dérivée seconde
est bien définie sur [0, 1] (et donnée par (III.4)) puisque x, y ∈ C ⊂ U ouvert. En particulier,
on peut utiliser le Théorème III.16, et en regardant g00 (0), on voit que

h∇2 f ( x )(y − x ), y − x i ě 0.

Or y − x = εd, d’où le résultat.

Remarque III.20 (Cas N = 1). Pour N = 1, on retrouve le critère usuel : f est convexe
ssi f 00 est positive .

Remarque III.21 (Positivité d’une famille de matrices). Pour une fonction multivariée,
vérifier en pratique si une fonction est convexe revient à vérifier que la matrice Hessienne
est semi-définie positive. Il est donc pour cela important d’être capable de déterminer
aisément si une matrice symétrique est semi-définie positive ou non (cf. Chapitre I). Il
également important de souligner qu’il faut vérifier la positivité d’une famille de matrices,
à savoir
{∇2 f ( x ) : x ∈ C }.
Dans le cas où C est ouvert, si une seule de ces Hessiennes échoue à être semi-définie
positive, alors la fonction ne sera pas convexe.

Remarque III.22 (Convexité sur une contrainte non ouverte). Si f ∈ Γ0 (C ), que peut-on
dire de ∇2 f ( x ) pour x ∈ C ?
• Lorsque C est ouvert, le Théorème III.19 nous garantit que ∇2 f ( x ) 0.
• Lorsque int C 6= ∅ et f ∈ C2 (U ), alors on peut également conclure que ∇2 f ( x ) 0.
En effet on sait que la Hessienne est semi-définie positive sur int C, en appliquant le
Théorème III.19 à int C, qui est ouvert. De plus, on suppose que ∇2 f est continue, donc
les valeurs propres de ∇2 f ( x ) sont continues en x. Puisque C ⊂ int C, on déduit en
passant à la limite que la Hessienne est également semi-définie positive sur le bord de
C.
• Lorsque int C = ∅ on ne peut pas se prononcer. En effet sur un C d’intérieur vide on
est aveugle par rapport à ce que fait f en dehors de C, ce qui empêche de décrire
le comportement de la Hessienne dans les directions qui pointent vers l’extérieur.
On peut par exemple considérer le contre-exemple de la fonction f ( x ) = x3 qui est
convexe (car constante !) sur C = {−1}, alors que f 00 ( x ) = −6 < 0 sur C. Si on veut un
exemple avec une contrainte qui ne soit pas un singleton, on peut également considérer
f ( x, y) = x3 qui est convexe sur C = {( x, y) ∈ R2 | x = −1}. On reverra ce genre de
problème lorsqu’on étudiera en détail les problèmes d’optimisation sous contraintes
dans le Chapitre V (voir en particulier la Remarque V.46).

Proposition III.23. Soit f : R N → R une fonction quadratique : f ( x ) = h Ax, x i + hb, x i + c.

Alors f est convexe si et seulement si A ∈ M N (R) est semi-définie positive.
III.I. CONVEXITÉ ET GLOBALITÉ DES MINIMISEURS 51

Démonstration. Cf. TD.

III.I.5 Convexité et minimiseurs

Lorsqu’une fonction est convexe, elle ressemble à un U, et donc elle n’a pas de minimiseur
locaux, mais que des minimiseur globaux. Cela provient du fait que la notion de convexité
est une notion globale ; par exemple il faut que la Hessienne soit semi-définie positive en
tout point.

Théorème III.24 (Convexe : Minimum local = global). Soit C ⊂ R N convexe et f ∈ Γ0 (C ).

Soit x̄ ∈ C un minimiseur local de f sur C. Alors x̄ est un minimiseur global de f sur C.

Démonstration. Soit R > 0 tel que x̄ soit un minimiseur de f sur C ∩ B( x̄, R). Soit x ∈ C
quelconque, et montrons que f ( x̄ ) ď f ( x ). Pour simplifier on suppose x 6= x̄. Posons
d = x − x̄. Alors x̄ + td ∈ B( x̄, R), pourvu que 0 < tkdk < R, et donc f ( x̄ ) ď f ( x̄ + td).
Or on peut écrire x̄ + td = (1 − t) x̄ + tx, donc par convexité on a :

f ( x̄ ) ď f ( x̄ + td) ď (1 − t) f ( x̄ ) + t f ( x ),

que l’on peut réécrire :

0 ď t( f ( x ) − f ( x̄ )).
On peut alors conclure après avoir divisé par t > 0.

Une seconde propriété très importante des fonctions convexes est que tout point cri-
tique du premier ordre est un minimiseur global. Lorsque la fonction est deux fois diffé-
rentiable, c’est une conséquence directe du Théorème II.19 et Proposition III.19.i). En fait,
cela reste vrai même si la fonction n’est pas deux fois différentiable.

Théorème III.25 (Convexe : Point critique = min global). Soit C ⊂ R N convexe et f ∈

Γ0 (C ). Si f est différentiable en x̄ ∈ int C, alors ∇ f ( x̄ ) = 0 si et seulement si x̄ est un minimiseur
global de f sur C.

Remarque III.26 (Gare au bord de la contrainte !). Comme on l’a dit précédemment, la
réciproque est fausse en général lorsque x̄ appartient au bord de la contrainte C. On verra
au chapitre V ce qu’il se passe dans ce cas.
Il faut également noter qu’il existe aussi un résultat analogue lorsque la fonction n’est pas
différentiable en x̄, mais c’est hors programme (cf. Cours du Master MIDS).

Démonstration. Comme x̄ ∈ int C, il existe R > 0 tel que B( x̄, R) ⊂ C. Pour tout x ∈
B( x̄, R), on peut écrire d’après la Proposition III.18 :

0 ď f ( x ) − f ( x̄ ) − h∇ f ( x̄ ), x − x̄ i = f ( x ) − f ( x̄ ).
52 CHAPITRE III. OPTIMISATION CONVEXE

Ceci montre donc que x̄ est un minimiseur local de f sur C. On conclut alors avec le
Théorème III.24.

Proposition III.27 (Fonction quadratique et minimiseurs). Soit f : R N → R une fonction

quadratique : f ( x ) = 21 h Ax, x i + hb, x i + c, avec A ∈ M N (R), b ∈ R N et c ∈ R. Alors f
admet des minimiseurs si et seulement si A 0 et b ∈ Im A. Dans ce cas, argmin f = { x ∈
R N | Ax + b = 0}.

Démonstration. Cf. TD.

III.II Forte convexité : existence et unicité du minimiseur

III.II.1 Fonction fortement convexe

Définition III.28. Soit f : U ⊂ R N → R et C ⊂ U convexe. On dit que f est FORTEMENT

CONVEXE sur C si il existe µ > 0 tel que

µ
∀α ∈ [0, 1], ∀( x, y) ∈ C2 , f ((1 − α) x + αy) + α(1 − α)k x − yk2 ď (1 − α) f ( x ) + α f (y).
2

Dans ce cas on dit aussi que f est µ-convexe sur C, et que µ est le coefficient de forte
convexité de f sur C. On notera Γµ (C ) l’ensemble des fonctions fortement convexes sur C.

Remarque III.29. Lorsque µ = 0, on retombe sur la définition de convexité.

Proposition III.30. Soit f ( x ) = g( x ) + 2 k x k2 . Alors f ∈ Γµ (C ) si et seulement si g ∈ Γ0 (C ).

Autrement dit, toute fonction fortement convexe est la somme d’une fonction convexe et d’une
norme au carré.

Démonstration. Ici on note comme précédemment zα = (1 − α) x + αy :

f ∈ Γµ (C )
µ
⇔ ∀α ∀ x, y, f (zα ) + α(1 − α)k x − yk2 ď (1 − α) f ( x ) + α f (y)
2
µ µ
⇔ ∀α ∀ x, y, g(zα ) + kzα k2 + α(1 − α)k x − yk2
2 2
µ µ
ď (1 − α) g( x ) + αg(y) + (1 − α) k x k2 + α kyk2 .
2 2
III.II. FORTE CONVEXITÉ : EXISTENCE ET UNICITÉ DU MINIMISEUR 53

Si on regroupe tous les termes proportionnels à µ, on voit que :

1 1 1 1
kzα k2 + α(1 − α)k x − yk2 − (1 − α) k x k2 − α kyk2
2 2 2 2
= (1 − α) k x k + α kyk + 2α(1 − α)h x, yi + α(1 − α)k x k2 + α(1 − α)kyk2 − 2α(1 − α)h x, yi
2 2 2 2

− (1 − α)k x |2 − αkyk2

2 2 2 2
= k x k (1 − α ) + α (1 − α ) − (1 − α ) + k y k α + α (1 − α ) − α
= 0.
Donc tous les termes en µ disparaissent, et ce qui reste est exactement la définition pour g
d’être convexe.

Proposition III.31. La somme d’une fonction fortement convexe et d’une fonction convexe est
fortement convexe.

Démonstration. Laissé en exercice.

Proposition III.32. La composition d’une fonction fortement convexe avec une application affine
injective est fortement convexe.

Démonstration. Laissé en exercice.

III.II.2 Caracterisation de la forte convexité

Proposition III.33 (Forte convexité via Hessienne). Soit f : U ⊂ R N → R, deux fois
différentiable sur U, et C ⊂ U convexe et ouvert. Alors les propriétés suivantes sont équivalentes,
pour µ > 0 :
i) f est fortement convexe sur C, c-à-d f ∈ Γµ (C ) ;
ii) (∀ x ∈ C ) λmin (∇2 f ( x )) ě µ.

Démonstration. Soit µ > 0 et f = g + (µ/2)k · k2 . En particulier on a ∇2 f ( x ) = ∇2 g( x ) +

µI sur C. Donc λmin (∇2 f ( x )) = λmin (∇2 g( x )) + µ. On conclut donc avec les Propositions
III.30 et III.19.

Remarque III.34. La forte convexité requiert donc une borne inférieure uniforme sur les
valeurs propres de la Hessienne. Au contraire de la stricte convexité qui n’a besoin que de
la définie positivité en ( presque ) tout point. Il est essentiel ici de bien faire la distinction
entre la caractérisation de la forte convexité :
(∃µ > 0)(∀ x ∈ C ) λmin (∇2 f ( x )) ě µ,
et la propriété beaucoup plus faible :
(∀ x ∈ C )(∃µ > 0) λmin (∇2 f ( x )) ě µ,
54 CHAPITRE III. OPTIMISATION CONVEXE

qui est en fait équivalente à

(∀ x ∈ C ) λmin (∇2 f ( x )) > 0,

qui implique la stricte convexité seulement.

Exemple III.35. f ( x ) = e x est strictement convexe mais n’est pas fortement convexe. On
le voit par exemple en notant que f n’est pas coercive, ou bien que f 00 tend vers 0 en −∞.

Proposition III.36. Soit f : R N → R une fonction quadratique : f ( x ) = h Ax, x i + hb, x i + c.

Alors f est fortement convexe si et seulement si A ∈ M N (R) est définie positive.

Démonstration. cf. TD

III.II.3 Forte convexité et minimiseurs

Théorème III.37. Toute fonction fortement convexe est coercive.

Démonstration. On va supposer3 par simplicité qu’il existe un point x0 ∈ R N tel que f

soit différentiable en x0 . D’après la Proposition III.30, on peut écrire f = g + 2 k · k2 , où
µ

g ∈ Γ0 (C ), et g est différentiable en x0 par hypothèse. D’après la Proposition III.18, on a

également
(∀ x ∈ C ) g( x ) ě g( x0 ) + h∇ g( x0 ), x − x0 i.
On en déduit, via l’inégalité de Cauchy-Schwartz et l’inégalité triangulaire :
µ
(∀ x ∈ C ) f ( x ) ě g( x0 ) − k∇ g( x0 )k(k x k + k x0 k) + k x k2 .
2

Comme le membre de droite est un polynome d’ordre 2 en k x k, dont le coefficient prin-

cipal est strictement positif, on en déduit qu’il tend vers +∞ lorsque k x k → +∞. D’où le
résultat.

Corollaire III.38. Soit f : U → R une fonction continue et fortement convexe sur C ⊂ U fermé.
Alors f admet un unique minimiseur global sur C.

Démonstration. D’après le Théorème III.37 f est coercive, donc on peut appliquer le Théorème
II.35 et déduire l’existence d’un minimiseur. L’unicité va également découler de la forte
3 Lerésultat reste vrai sans cette hypothèse ! Mais pour le pouver on aurait besoin d’autres outils. Au
choix : Montrer que les fonctions convexes sont localement Lipschitziennes, et donc différentiables presque
partout (Théorème de Rademacher) ; Utiliser le Théorème de Hahn-Banach pour séparer l’épigraphe d’un
point quelconque sous l’épigraphe, et en déduire l’existence d’une minorante affine ; Projeter ce point sur
l’épigraphe et utiliser la caractérisation variationnelle de la projection (cf. dernier chapitre).
III.II. FORTE CONVEXITÉ : EXISTENCE ET UNICITÉ DU MINIMISEUR 55

convexité. En effet, s’il existait deux minimiseurs x1∗ , x2∗ , on aurait via la Définition III.28
que
1 1 x ∗ + x2∗ µ
f ( x1∗ ) + f ( x2∗ ) ě f ( 1 ) + k x1∗ − x2∗ k2 ,
2 2 2 8
x1∗ + x2∗
où 12 f ( x1∗ ) + 12 f ( x2∗ ) = minC f par définition de x1∗ , x2∗ , et f ( 2 ) ě minC f . Ceci implique
donc que 8 k x1∗ − x2∗ k2 ď 0, c-à-d que x1∗ = x2∗ .
µ

56 CHAPITRE III. OPTIMISATION CONVEXE

III.III Récapitulatif du Chapitre

Ici C ⊂ U ⊂ R N , où U est un ouvert de R N , et C est une contrainte fermée non vide. On
considère une fonction f : U → R, et le problème d’optimisation associé

minimiserx∈C f ( x ).

Unicité des minimiseurs

• Si f est fortement convexe et C convexe alors f admet un unique minimiseur global

sur C.

La convexité donne une réciproque au Théorème de Fermat Si f est convexe sur C et C

convexe, et que x ∈ int C, alors ces propriétés sont équivalentes :

• x est un minimiseur global de f sur C

• x est un minimiseur local de f sur C
• ∇ f ( x ) = 0.

Utiliser la Hessienne

• Si C convexe et ouvert, alors f est convexe sur C si et seulement si

(∀ x ∈ C ) λmin (∇2 f ( x )) ě 0.

• Si C convexe et ouvert, et µ > 0, alors f est µ-fortement convexe sur C si et seulement

si
(∀ x ∈ C ) λmin (∇2 f ( x )) ě µ.
Chapitre IV

Algorithmes de minimisation sans

contrainte

Dans tout ce chapitre, nous allons considérer une fonction différentiable f : R N → R, que
l’on supposera convexe sauf mention du contraire. Rappelons dans ce cas (cf. Théorème
III.25) que tout minimiseur x̄ ∈ argmin f est caractérisé par
∇ f ( x̄ ) = 0.
Cependant, en général, il n’est pas possible de déterminer une formule explicite pour x̄
à partir de ∇ f ( x̄ ) = 0, car ces équations peuvent être non linéaires. C’est pourquoi en
pratique on est amené à chercher une valeur approchée de x̄. C’est tout l’objet de ce cha-
pitre que de présenter une classe de méthodes classiques pour obtenir de telles solutions
approchées : les algorithmes itératifs.

IV.I Méthodes de descente

IV.I.1 Algorithmes itératifs
Comme son nom l’indique, le but d’une méthode itérative est de générer une suite de
vecteurs ( xk )k∈N ⊂ R N telle que, lorsque k → +∞, xk converge vers la solution de notre
problème. On peut définir de manière formelle ce qu’est une méthode itérative :

Définition IV.1. Un ALGORITHME IT ÉRATIF d’ordre p ě 1 sur R N est la donnée d’une

instruction A : (R N ) p −→ R N , telle que le nouvel itéré dépende des p itérés précédents
(∀k ∈ N) xk+1 = A( xk , · · · , xk− p+1 ).
On dit alors que ( xk )k∈N est générée par l’algorithme A.
En particulier, un algorithme itératif est dit DU PREMIER ORDRE sur R N si, à chaque
itération, le nouvel itéré ne dépend que du précédent ; c’est-à-dire qu’il existe une ap-
plication A : R N → R N telle que xk+1 = A( xk ).

57
58 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Exemple IV.2. Les suites arithmétique xk+1 = xk + r ou géométrique xk+1 = rxk sont
définies par des algorithmes itératifs du premier ordre sur R (ici r ∈ R).

Exemple IV.3. La suite de Fibonacci définie par

x0 = 0, x1 = 1, x k +1 = x k + x k −1

est générée par un algorithme itératif du deuxième ordre sur R. Par contre elle n’est pas
générée par un algorithme itératif du premier ordre sur R.

Toute méthode du premier ordre peut se réécrire sous la forme

xk+1 = xk + ρk dk , ρk > 0, dk ∈ R N , (IV.1)

où ρk et dk dépendent de xk . On dit alors que dk est la direction de l’algorithme au k-ème

itéré, et que ρk est le pas de l’algorithme. Le choix et le rôle donnés à ρk et dk dépendent
de l’algorithme.

Remarque IV.4. Faisons le point, et listons ce que l’on peut espérer d’un tel algorithme
dans le cadre de notre problème d’optimisation :

• Comme on l’a dit, on souhaite que limk xk = x ∗ ∈ argmin f . C’est la convergence des
itérés de la suite vers une solution.
• Au vu de la définition IV.1, et si ρk ne tend pas vers 0, on voit que dk doit tendre vers 0.
Or on souhaite à la limite avoir ∇ f ( x ) = 0. Donc il est raisonnable que dk soit construit
à base d’informations sur les dérivées partielles de f .
• On peut également souhaiter la convergence de la suite des valeurs : limk f ( xk ) = inf f .
De plus, puisque en pratique on va s’arrêter avec k fini, on peut espérer qu’à chaque
itération les valeurs s’améliorent, c’est-à-dire f ( xk+1 ) ď f ( xk ).
• On peut également vouloir en savoir plus sur la convergence, d’un point de vu quanti-
tatif. Par example la VITESSE DE CONVERGENCE des itérés vers une solution, ou des va-
leurs vers inf f , ou de k∇ f ( xk )k vers 0. On distingue généralement trois classes de
vitesses :

Définition IV.5. Soit (rk )k∈N ⊂ [0, +∞[ une suite qui tend vers 0 lorsque k → +∞. On dit
que

• rk converge LIN ÉAIREMENT si

(∃θ ∈ [0, 1[)(∀k ∈ N) rk+1 ď θrk .

• rk converge SUPERLIN ÉAIREMENT si

(∃θ ∈ [0, 1[)(∃ β ∈]1, +∞[)(∀k ∈ N) rk+1 ď θrk .

β
IV.I. MÉTHODES DE DESCENTE 59

• rk converge SOUSLIN ÉAIREMENT si

C
(∃C ∈ [0, 1[)(∃α ∈]0, +∞[)(∀k ∈ N) rk ď .
kα

Remarque IV.6. La convergence linéaire est parfois appelée convergence G ÉOM ÉTRIQUE,
pour des raisons évidentes. Une suite convergeant linéairement vérifie en particulier que

r k ď θ k r0 ,

c’est-à-dire qu’elle converge exponentiellement.

Remarque IV.7. La convergence superlinéaire est plus rapide que la convergence linéaire.
Par récurrence, on voit qu’une telle suite vérifie (rappelons que rk → 0)
k i βk
r k ď θ ∑i β r0 .
k
Donc à partir d’un certain rang, la suite tend vers 0 à une vitesse r β ce qui est très rapide !
Pour β = 2 on parle de convergence QUADRATIQUE, c’est en général le mieux que l’on
puisse espérer.

Remarque IV.8. La convergence souslinéaire est moins rapide que la convergence linéaire.

IV.I.2 Directions de descente

On s’intéresse ici aux méthodes itératives d’ordre 1 xk+1 = xk + ρk dk , et on va s’intéresser
à des choix particuliers de dk qui permettent de garantir que l’algorithme converge vers
un minimiseur de la fonction.
Pour cela, on va commencer par répondre à la question : comment s’assurer que

f ( x k +1 ) < f ( x k ) ?

Définition IV.9. Soit f : R N → R différentiable, et x ∈ R N . On dit que d ∈ R N est une

DIRECTION DE DESCENTE en x si la dérivée directionnelle en x dans la direction d est
strictement négative :
∂f
( x ) < 0.
∂d
Remarque IV.10. Rappelons d’après la Proposition I.63 que cela équivaut à h∇ f ( x ), di <
0, c’est-à-dire former un angle strictement obtus avec ∇ f ( x ).

Proposition IV.11 (Existence de directions de descente). Soit f : R N → R différentiable,

et x ∈ R N . Alors il existe une direction de descente en x si et seulement si x n’est pas un point
critique.
60 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Démonstration. Si x n’est pas un point critique, i.e. ∇ f ( x ) 6= 0, alors avec d = −∇ f ( x ) on

a h∇ f ( x ), di = −k∇ f ( x )k2 < 0. Si x admet une direction de descente d, alors ∇ f ( x ) ne
peut être égal à 0 sinon on aurait h∇ f ( x ), di = 0.

Proposition IV.12 (Décroissance d’Armijo pour les directions de descente). Soit f : R N →

R différentiable, x ∈ R N , et d une direction de descente en x. Alors :

1) (∀ β ∈]0, 1[)(∃ρ > 0)(∀t ∈]0, ρ[) f ( x + td) ď f ( x ) + tβh∇ f ( x ), di.

2) (∃ρ > 0)(∀t ∈]0, ρ[) f ( x + td) < f ( x ).

Démonstration. Au vu de la définition de direction de descente, on voit que i) implique

trivialement ii). Donc il suffit maintenant de vérifier i). Soit donc β ∈]0, 1[ quelconque.
D’après Proposition I.63, on a

f ( x + td) − f ( x )
lim = h∇ f ( x ), di < 0.
t →0 t
Donc, d’après la définition de la limite, il existe ρ > 0 tel que pour tout |t| < ρ,

f ( x + td) − f ( x )
< βh∇ f ( x ), di.
t

Cette proposition suggère donc que les directions de descente sont des candidates de
directions dk à suivre dans notre algorithme IV.1, puisqu’elle permettent de faire décroitre
les valeurs de la fonction, pourvu que le pas choisi soit suffisamment petit.

Définition IV.13. Soit f : R N → R différentiable. Une M ÉTHODE DE DESCENTE pour f

est un algorithme itératif du premier ordre de la forme (IV.1), où dk est une direction de
descente en xk .

La plupart des résultats concernant les directions de descente que l’on vient de voir
peuvent s’interpréter de manière géométrique. On peut donc s’aider d’un dessin pour
comprendre de quoi il s’agit.
Considérons une fonction f : R N → R différentiable, et x ∈ R N . On peut alors définir
son ENSEMBLE DE NIVEAU en f ( x )

[ f = f ( x )] := { x 0 ∈ R N | f ( x 0 ) = f ( x )}.

ENSEMBLE DE SOUS - NIVEAU en f ( x ) (voir Figure IV.1) :

[ f ď f ( x )] := { x 0 ∈ R N | f ( x 0 ) ď f ( x )}.

On a alors le résultat suivant (énoncé informellement, voir le prochain Chapitre pour plus
de détails) :
IV.I. MÉTHODES DE DESCENTE 61

Théorème IV.14. Soit f : R N → R différentiable, et x ∈ R N un point non critique de f . Alors :

1) L’espace tangent à [ f = f ( x )] est égal à l’ensemble des directions d ∈ R N dont la dérivée

directionnelle D f ( x )(d) s’annule.
2) L’espace normal à [ f = f ( x )] est la droite vectorielle engendrée par ∇ f ( x ).

F IGURE IV.1 – Le gradient est normal aux ensembles de sous-niveau et pointe vers
l’extérieur.

On peut voir que :

1) Le gradient ∇ f ( x ) est perpendiculaire à la courbe de niveau et pointe vers l’extérieur.

2) Les directions de descente sont les vecteurs qui pointent vers l’intérieur de l’en-
semble de sous-niveau.
3) Quelque soit la direction de descente suivie, on n’a la descente garantie que si le pas
est suffisamment petit. Il faut bien sur déterminer qu’est-ce que ça veut dire en pratique
(cf. prochaine section).

IV.I.3 Méthodes du gradient et de Newton

On va ici maintenant à définir des méthodes de descente. On a vu dans la preuve de
la Proposition IV.11 que −∇ f ( x ) est une direction de descente en x. Ceci nous pousse
donc naturellement à définir la méthode du gradient, que l’on étudiera en détail dans la
prochaine section :
62 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Définition IV.15. Soit f : R N → R différentiable. La M ÉTHODE DU GRADIENT est la

méthode de descente où l’on choisit dk = −∇ f ( xk ) , c’est-à-dire :

xk+1 = xk − ρk ∇ f ( xk ), ρk > 0.

On pourrait se demander si cette méthode est bonne, et si l’on peut trouver mieux. Par
exemple, on a vu dans la Proposition IV.12.i) que plus la dérivée directionnelle h∇ f ( x ), di
est négative, et plus on pourra faire décroitre les valeurs de la fonction dans cette direction.
Il est donc naturel de chercher la direction d qui minimise la dérivée directionnelle en x.
On peut en fait montrer que c’est exactement −∇ f ( x ), ce qui explique qu’on dise parfois
que −∇ f ( x ) est la DIRECTION DE LA PLUS GRANDE PENTE :

Proposition IV.16. Soit f : R N → R différentiable, et x ∈ R N un point non critique. Alors

−∇ f ( x )
∈ argmin h∇ f ( x ), di.
k∇ f ( x )k kdk=1

Démonstration. D’après l’inégalité de Cauchy-Schwarz, on a pour tout kdk = 1 :

h∇ f ( x ), di ě −k∇ f ( x )kkdk = −k∇ f ( x )k.

−∇ f ( x )
Par ailleurs, cette borne inférieure est atteinte si on prend d = k∇ f ( x )k
. C’est donc par
définition un minimiseur de d 7→ h∇ f ( x ), di.
La Proposition IV.16 nous fournit également une nouvelle interprétation de la méthode
du gradient : faire un pas de la méthode du gradient à partir d’un point x, c’est équivalent
à minimiser l’approximation de Taylor de f en x à l’ordre 1 sur un voisinage de x. Plus
précisément :

Proposition IV.17. Soit f : R N → R différentiable, et x ∈ R N un point non critique. Soit

ρ > 0, et x + = x − ρ∇ f ( x ) le point obtenu après avoir fait un pas de la méthode du gradient en
partant de x. Alors
x+ ∈ argmin f ( x ) + h∇ f ( x ), x 0 − x i.
x 0 ∈B( x,ρk∇ f ( x )k)

Démonstration. D’après l’inégalité de Cauchy-Schwarz, on a pour tout x 0 ∈ B ( x, ρk∇ f ( x )k) :

h∇ f ( x ), x 0 − x i ě −k∇ f ( x )kk x 0 − x k ě −ρk∇ f ( x )k2 .

Par ailleurs, cette borne inférieure est atteinte si on prend x 0 = x − ρ∇ f ( x ). C’est donc par
définition un minimiseur de x 0 7→ f ( x ) + h∇ f ( x ), x 0 − x i.
On voit donc que la méthode du gradient exploite au mieux l’information du premier
ordre de f en x pour trouver une direction de descente optimale. Du coup il est légitime
de se demander ce que l’on obtient lorsque on minimise l’approximation de Taylor de f
en x au deuxième ordre. C’est résumé dans le résultat suivant :
IV.I. MÉTHODES DE DESCENTE 63

Proposition IV.18. Soit f : R N → R deux fois différentiable, et x ∈ R N un point non critique,

tel que ∇2 f ( x ) 0. Alors

1
x − ∇2 f ( x )−1 ∇ f ( x ) = argmin f ( x ) + h∇ f ( x ), x 0 − x i + h∇2 f ( x )( x 0 − x ), ( x 0 − x )i.
x 0 ∈R N
2

De plus, −∇2 f ( x )−1 ∇ f ( x ) est une direction de descente pour f en x.

Démonstration. On est en train de minimiser la fonction (prendre garde au fait que x est
une constante ici !)
1
φ( x 0 ) := f ( x ) + h∇ f ( x ), x 0 − x i + h∇2 f ( x )( x 0 − x ), ( x 0 − x )i.
2
On voit que c’est une fonction quadratique, telle que

∇φ( x 0 ) = ∇ f ( x ) + ∇2 f ( x )( x 0 − x ) et ∇2 φ ( x 0 ) = ∇2 f ( x ).

Par hypothèse ∇2 f ( x ) est définie positive donc φ est fortement convexe (voir Proposi-
tion III.36). Donc elle admet un unique minimiseur (voir Théorème III.38) que l’on notera
x + . Par convexité de φ, ce minimiseur x + est caractérisé par la condition d’optimalité du
premier ordre ∇φ( x + ) = 0, qui devient ici

∇2 f ( x )( x + − x ) + ∇ f ( x ) = 0.

Puisque on a supposé que ∇2 f ( x ) est inversible, on trouve que la solution de ce système

linéaire est x + = x − ∇2 f ( x )−1 ∇ f ( x ). Pour voir que d = −∇2 f ( x )−1 ∇ f ( x ) est une direc-
tion de descente, on utilise la Proposition I.39 :

h∇ f ( x ), −∇2 f ( x )−1 ∇ f ( x )i = −h∇2 f ( x )∇2 f ( x )−1 ∇ f ( x ), ∇2 f ( x )−1 ∇ f ( x )i

ď −λmin (∇2 f ( x ))k∇2 f ( x )−1 ∇ f ( x )k2 < 0.

On peut donc définir une nouvelle méthode de descente :

Définition IV.19. Soit f : R N → R deux fois différentiable, et telle que ∇2 f ( x ) 0

pour tout x ∈ R N . La M ÉTHODE DE N EWTON est la méthode de descente où l’on choisit
dk = −∇2 f ( x )−1 ∇ f ( xk ) et ρk = 1, c’est-à-dire :

x k +1 = x k − ∇ 2 f ( x k ) −1 ∇ f ( x k ).

Remarque IV.20 (Newton). Quelques observation sur la méthode de Newton :

• La méthode de Newton requiert le calcul de la Hessienne de f (ce qui peut couter

cher), et son inversion (ce qui peut couter encore plus cher).
64 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

• Beaucoup de méthodes très efficaces son définies en remplaçant ∇2 f ( xk )−1 par une
matrice Hk qui est une approximation facile à calculer de ∇2 f ( xk )−1 . Cette famille de
méthodes s’appelle les méthodes de Quasi-Newton (voir exercice IV.21).
• On n’étudiera pas cet algorithme, dont l’analyse est compliquées. Plus de détails en M1
dans l’UE Optimisation (OP8). On peut néanmoins citer (cf. TP) que 1) l’algorithme
est très sensible aux conditions initiales (choix de x0 ) et que 2) quand l’algorithme
fonctionne, il converge très vite (plus précisément : superlinéairement).

Exercice IV.21 (Une méthode de Quasi-Newton). Soit f ∈ C2 (R N ) ∩ CL1,1 (R N ) ∩ Γµ (R N ).

On considère la méthode xk+1 = xk − Dk−1 ∇ f ( xk ), où Dk ∈ M N (R) est une matrice
∂2 f
diagonale dont les coefficients valent Di,i = ∂xi2
( x k ).

1) Montrer que spec( Dk ) ⊂ [µ, L].

2) En déduire que dk := − Dk−1 ∇ f ( xk ) est une direction de descente pour f en xk s’il n’est
pas un point critique.

Pour conclure, il est intéressant de noter que la méthode du gradient, tout comme la
méthode de Newton, peut se voir comme la minimisation d’une approximation quadra-
tique de f . Mais ici on parle d’une approximation quadratique qui ignore l’information du
second ordre de f :

Exercice IV.22 (Une autre caractérisation de la méthode du gradient). Soit f : R N → R

différentiable, ρ > 0 et x ∈ R N un point non critique. Montrer que
1 0
x − ρ∇ f ( x ) = argmin f ( x ) + h∇ f ( x ), x 0 − x i + k x − x k2 .
x 0 ∈R N
2ρ

IV.II Conditionnement des fonctions convexes à gradient

Lipschitzien
IV.II.1 Fonctions à gradient Lipschitzien
Définition IV.23. Soit F : R N → R M . On dit que F est L IPSCHITZIENNE si
(∃ L ∈ [0, +∞[)(∀ x, y ∈ R N ) k F ( x ) − F (y)k ď Lk x − yk.
Dans ce cas, on dira parfois que F est L-Lipschitzienne.

Remarque IV.24. On notera Lip( F ) la meilleure (la plus petite) constante de Lipschitz
possible pour F. Elle se définit comme :
k F ( x ) − F (y)k
Lip( F ) := sup ∈ [0, +∞].
x 6 = y ∈R N
k x − yk
IV.II. CONDITIONNEMENT 65

On voit alors immédiatement que F est Lipschitzienne si et seulement si Lip( F ) < +∞, ce
qui implique en particulier que F est Lip( F )-Lipschitzienne.
k F ( x )− F (y)k
Le quotient k x−yk qui apparait dans la remarque ci-dessus n’est pas sans rappeler
la définition de la différentielle. Ce n’est pas une simple coı̈ncidence : il se trouve que
pour les fonctions différentiables, la constante de Lipschitz se calcule directement à partir
de la différentielle (plus précisément, à partir de la jacobienne, qui est la matrice de la
différentielle) :

Proposition IV.25 (Lipschitz via la jacobienne). Soit F : R N → R M une application différentiable

sur R N . Alors :
Lip( F ) = sup JF ( x ).
x ∈R N

Démonstration. Commençons par définir L := sup JF ( x ), et montrons que Lip( F ) = L

x ∈R N
avec deux inégalités.
Si L = +∞, on a forcément Lip( F ) ď L. Si L < +∞, alors on peut utiliser l’inégalité
des accroissements finis :

k F ( x ) − F (y)k ď sup JF (z)k x − yk = Lk x − yk.

z ∈R N

On déduit alors que F est L-Lipschitzienne, ce qui veut dire que Lip( F ) ď L.
Si Lip( F ) = +∞, on a forcément Lip( F ) ě L. Si Lip( F ) < +∞, alors F est Lip( F )-
Lipschitzienne. Si on utilise le fait que (cf. Proposition I.63)

F ( x + td) − F ( x )
DF ( x )(d) = lim ,
t →0 t

on peut écrire pour tout x ∈ R N :

k F ( x + td) − F ( x )k
JF ( x ) = DF ( x ) = sup k DF ( x )(d)k = sup lim ď Lip( F ).
kdk=1 kdk=1 t→0 t

On en déduit que Lip( F ) ě L.

Cette proposition nous permet donc de calculer/estimer la constante de Lipschitz
d’une application F en pratique. En effet, il suffit de calculer la matrice Jacobienne de
F en tout point x, de calculer la norme subordonnée euclidienne de la matrice JF ( x ),
puis de trouver une borne supérieure uniforme pour cette norme, au sens où elle soit
indépendante de x.

Définition IV.26. On note CL1,1 (R N ) l’ensemble des fonctions f : R N −→ R différentiables

et dont le gradient est L-Lipschitzien.
66 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Proposition IV.27. Soit f ∈ Γ0 (R N ) ∩ C2 (R N ), et L > 0. Alors les propriétés suivantes sont

équivalentes :

i) f ∈ CL1,1 (R N ) (autrement dit, ∇ f est L-Lipschitzien).

ii) (∀ x ∈ R N ) λmax (∇2 f ( x )) ď L.

Démonstration. Soit F = ∇ f , qui, par hypothèse, est de classe C1 (R N ). La Proposition

I.78.iii) nous dit que JF = ∇2 f , et la Proposition I.78.i) nous garantit que la Hessienne est
symétrique, ce qui nous permet d’écrire en vertu de la Proposition I.36 pour tout x ∈ R N
que ∇2 f ( x ) = ρ(∇2 f ( x )). De plus, f est supposée convexe, donc le Théorème III.19
nous garantit que les valeurs propres de la Hessienne sont positives, ce qui veut dire que
ρ(∇2 f ( x )) = λmax (∇2 f ( x )). On conclut alors avec la Proposition IV.25.

On voit donc ici une propriété en quelque sorte duale1 du Théorème III.33 : une borne
uniforme inférieure sur le spectre de la Hessienne équivaut à la forte convexite, tandis
qu’ici on voit qu’une forte uniforme supérieure équivaut à la Lipschitzianité du gradient.
On en déduit d’ailleurs immédiatement que :

Proposition IV.28. Si f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ) avec µ, L > 0, alors L ě µ.

Démonstration. C’est une directe conséquence des Propositions IV.27 et III.33.

Exercice IV.29 (Constante de Lipschitz). Dans cet exercice nous allons calculer (ou esti-
mer) la constante de lipschitz de ∇ f : Rn → Rn , pour certaines fonctions f : Rn → R.
Soient A ∈ Rm×n , et b ∈ Rm .

1) Soit f ( x ) = k Ax − bk2 . Calculer la Hessienne de f , puis en déduire la constante de

Lipschitz de ∇ f .
2) Soit f ( x ) = g( x ) + 2 k x k2 , où g : Rn → R est une fonction de classe C2 et de gradient
µ

L-Lipschitzien. Calculer la constante de Lipschitz de ∇ f .

3) Soit f ( x ) = m1 ∑im=1 ln(1 + e−bi h x,ai i ), où ai est le vecteur apparaissant à la i-ième ligne
de la matrice A, et on suppose ici que |bi | = 1.

a) Soit f i ( x ) = ln(1 + e−bi h x,ai i ). Calculer son gradient et sa Hessienne.

b) Vérifier que pour tout t ∈ R, (1+t t)2 ď 41 . En déduire que ∇ f i est Li -Lipschitzien,
avec Li ď k ai k2 /4.
c) En déduire que ∇ f est L-Lipschitzien, avec L ď 1
4m ∑im=1 k ai k2 .
1 Il
existe d’ailleurs une très jolie théorie de la dualité en analyse convexe qui permet entre autres
choses de formellement justifier que forte convexité et différentiable à gradient Lipschitzien sont
les deux facettes d’une même pièce. C’est en quelque sorte un résultat analogue à la correspondance entre
régularité et décroissance via la transformée de Fourier. Mais cela est évidemment hors-programme

...
IV.II. CONDITIONNEMENT 67

IV.II.2 Conditionnement d’une fonction

Définition IV.30. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ), pour L ě µ > 0. Le CONDITIONNEMENT

de f , noté cond( f ), est défini par le ratio µL ∈ [1, +∞[.

Remarque IV.31. Le fait que le conditionnement soit un nombre plus grand que 1 vient
de la Proposition IV.28 qui garantit que L ě µ.

1
Exemple IV.32. Soit A une matrice symétrique définie positive, et f ( x ) = 2 h Ax, x i +
hb, x i + c une fonction quadratique. Alors

λmax ( A)
cond( f ) = = cond( A).
λmin ( A)

On retrouve ici la notion de conditionnement d’une matrice cond( A), qui est très impor-
tante en Calcul Matriciel : on sait qu’elle contrôle plusieurs choses comme :

• La stabilité des algorithmes par rapport aux erreurs

• La vitesse de convergence des méthodes de résolution des systèmes linéaires associés

On verra qu’il se passe la même chose pour les fonctions fortement convexes à gradient
Lipschitzien : plus le conditionnement sera proche de 1, et meilleurs seront les résultats.

F IGURE IV.2 – Ensembles de niveau pour une fonction quadratique ayant un conditionne-
ment cond( f ) = 1, 10, 100 (de gauche à droite).
68 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.3 – Graphe d’une fonction quadratique ayant un conditionnement cond( f ) =

1, 10, 100 (de gauche à droite).

Exercice IV.33 (Conditionnement d’une fonction vs. de la Hessienne). Soit f ∈ Γµ (R N ) ∩

CL1,1 (R N ) ∩ C2 (R N ), pour L ě µ > 0. Montrer que

cond( f ) ě sup cond(∇2 f ( x )).

x ∈R N

Trouver un exemple de fonction pour laquelle cette inégalité est stricte.

IV.III. MÉTHODE DU GRADIENT 69

IV.III Méthode du gradient

IV.III.1 La méthode du gradient à pas fixe

On considère ici l’algorithme du gradient où le pas est fixé tout au long de l’algorithme,
c’est à dire
xk+1 = xk − ρ∇ f ( xk ), ρ > 0.

Dans toute la suite de ce chapitre, on utilisera la notation suivante

(∀ x ∈ R N ) x + := x − ρ∇ f ( x ),

où x + désigne le point que l’on obtient en appliquant un pas de la méthode du gradient à
x. Observer que la notation est ambigüe par rapport à la valeur de ρ mais on fera attention
à toujours l’utiliser dans un contexte où on sait ce que vaut ρ.
Une question essentielle à propos de cet algorithme est : comment choisir ρ ? On a
vu dans la Proposition IV.12 qu’il fallait que ρ soit suffisamment petit pour garantir que
l’algorithme fait décroitre les valeurs de f . Mais d’un autre coté on imagine bien que si
le pas est trop petit, on va faire des tout petits pas, donc l’algorithme va être lent et peu
efficace. Il faut donc bien analyser ce qui se passe pour pouvoir prendre le meilleur pas
possible.

Proposition IV.34 (Décroissance de la méthode du gradient). Soient L > 0, f ∈ CL1,1 (R N )

et ρ > 0. Soit x ∈ R N , et notons x + := x − ρ∇ f ( x ). Alors :

Lρ
i) f ( x + ) − f ( x ) ď −ρ 1 − 2 k∇ f ( x )k2 .

ii) Si ρ < 2/L et x n’est pas un point critique, alors f ( x + ) < f ( x ).

Remarque IV.35 (Choix du pas fixe et conditionnement). La condition ρ < 2/L nous
garantit que le pas est suffisamment petit pour que la fonction décroisse après un pas de
l’algorithme. Mais il faut garder en tête que cette contrainte correspond en quelque sorte
à un pire des cas : si on prend un pas plus grand, il se peut que quelque part, il y ait
un point où l’on va aller trop loin et faire réaugmenter les valeurs de la fonctions. En
conséquence, cela veut dire aussi que cette condition peut parfois être trop stricte, car il y
a des points où on pourrait prendre un pas plus grand. On le voit très bien sur la Figure
IV.4, où pour une fonction avec cond( f ) = 10, on voit qu’en le point y, le pas ρ < 2/L
ne nous permet pas d’aller très loin. Mais on ne peut pas non plus prendre un pas plus
grand, car en le point x un pas supérieur à 2/L nous ferait sortir du sous-niveau.
70 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.4 – Fonctions quadratiques avec un conditionnement de cond( f ) = 1, 10 res-

pectivement. En noir, un point x (resp. y) appartenant à l’espace propre de la plus grande
(resp. plus petite) valeur propre de la Hessienne. En rouge, les gradients en ces points. En
rose, l’ensemble des points que l’on peut atteindre en prenant un pas ρ < 2/L.

Remarque IV.36. Pour contourner ce problème mentionné dans la précédente remarque,

on pourrait penser à prendre un pas ρk qui dépend du point xk et s’adapte à la géométrie
locale de la fonction. On en reparlera dans la prochaine section.

Démonstration de la Proposition IV.34. Soient x, y ∈ R N quelconques. Posons g(t) = f (zt )

où zt = (1 − t) x + ty, telle que g0 (t) = h∇ f (zt ), y − x i. On peut alors écrire :
Z 1 Z 1
f ( y ) − f ( x ) = g (1) − g (0) = g0 (t) dt = h∇ f (zt ), y − x i dt.
0 0
IV.III. MÉTHODE DU GRADIENT 71

Afin de pouvoir utiliser la Lipschitzianité de ∇ f , on va faire apparaitre un ∇ f ( x ) puis

utiliser l’inégalité de Cauchy-Schwarz :
Z 1
f (y) − f ( x ) = h∇ f (zt ) − ∇ f ( x ), y − x i dt + h∇ f ( x ), y − x i
0
Z 1
ď k∇ f (zt ) − ∇ f ( x )kky − x k dt + h∇ f ( x ), y − x i
0
Z 1
ď Lkzt − x kky − x k dt + h∇ f ( x ), y − x i.
0

Si on utilise le fait que, par définition, zt − x = t(y − x ), on obtient alors :

L
(∀ x, y ∈ R N ) f (y) − f ( x ) ď ky − x k2 + h∇ f ( x ), y − x i. (IV.2)
2
Prenons maintenant y = x + = x − ρ∇ f ( x ) :

+ L 2
f (x ) − f (x) ď ρ − ρ k∇ f ( x )k2 . (IV.3)
2
2
/ crit f garantit k∇ f ( x )k2 > 0, et 0 < ρ <
On conclut en observant que x ∈ L implique que
L 2

2 ρ − ρ < 0.

On a donc vu qu’un pas ρ ∈]0, 2/L[ est nécessaire pour garantir la décroissance de la
fonction le long des itérés de l’algorithme. Mais ceci ne garantit pas la convergence de l’al-
gorithme. Pour cela, on va faire l’hypothèse supplémentaire que la fonction est fortement
convexe.

Théorème IV.37 (Convergence linéaire des itérés (cas fortement convexe)). Soient L ě µ >
0 et f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ). On note x ∗ = argmin f , et on considère la méthode du
gradient avec un pas constant ρ ∈]0, 2/L[. Alors

i) La suite xk converge vers x ∗ .

ii) La suite (k xk − x ∗ k)k∈N converge linéairement, c’est-à-dire que :

(∃θ ∈ [0, 1[)(∀k ∈ N) k xk+1 − x ∗ k ď θ k xk − x ∗ k .

iii) Plus précisément, on peut montrer que

(
2
1 − ρµ si ρ ď µ+ L
θ = max{|1 − ρµ|; |1 − ρL|} = 2
(IV.4)
ρL − 1 si ρ ě µ+ L ,

iv) Le taux de convergence linéaire θ est minimal lorsque ρ = 2/(µ + L).

72 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

On voit donc que la vitesse de convergence ne dépend que du choix de ρ et du condi-

tionnement de f .

Remarque IV.38 (Pas optimal). La meilleure vitesse est atteinte lorsque θ est le plus petit
possible. Au vu de la définition de θ, il est minimal lorsque ρ = 2/(µ + L), auquel cas
L−µ
θ = L+µ (voir aussi Figure IV.III.1). On dit parfois que ce choix de pas est le PAS OPTI -
MAL . Attention à ne pas confondre avec la Section IV.III.2 ! Il est également possible de
L−µ
montrer que cette vitesse linéaire en L+µ est la meilleure que l’on puisse espérer avec la
méthode du gradient (hors programme). L’inconvénient néanmoins de ce choix de pas est
qu’il nécessite la connaissance de µ, ce qui n’est pas toujours le cas en pratique, où L est
beaucoup plus facile à estimer.

Exemple IV.39. Il est possible √ de montrer que pour la fonction quadratique f ( x1 , x2 ) =

√
(µ/2) x12 + ( L/2) x22 et x = ( L, µ) et ρ = 2/(µ + L),
L−µ
k x+ − x∗ k = k x − x ∗ k,
L+µ
donc on ne peut pas améliorer cette vitesse.

Remarque IV.40 (Pas court). Le choix le plus populaire, lorsqu’on ne connait pas µ, est
de prendre ρ = 1/L. Dans ce cas, θ = 1 − µ/L. C’est un choix raisonnable, au sens où
il donne la meilleure contraction qu’on puisse garantir avec cet algorithme, lorsqu’on ne
connait pas µ. En effet, sur ]0, 1/L], θ est décroissant, tandis que 2/(µ + L) est toujours
supérieur à 1/L, mais peut être arbitrairement proche voire égal à 1/L. On parle parfois
de PAS COURT pour désigner ce choix de pas.

Démonstration du Théorème IV.37. Ici on suppose pour simplifier la preuve que f est également
de classe C2 (R N ), bien que ce ne soit pas nécessaire. Une preuve sans cette hypothèse est
disponible dans la Section A.II.1 en Annexe. On cherche donc à montrer que

(∃θ ∈ [0, 1[)(∀ x ∈ R N ) k x + − x ∗ k ď θ k x − x ∗ k.

IV.III. MÉTHODE DU GRADIENT 73

On définit le champ de vecteurs associé à l’algorithme : A : R N → R N , A( x ) = x + =

x − ρ∇ f ( x ). En observant que x ∗ est un point fixe de A (A( x ∗ ) = x ∗ ), on peut réécrire le
problème comme
(∃θ ∈ [0, 1[)(∀ x ∈ R N ) kA( x ) − A( x ∗ )k ď θ k x − x ∗ k.
On voit alors qu’il suffit de montrer que A est Lipschitzienne, avec une constante Lip(A)
strictement plus petite que 1. Or f étant C2 , a fortiori A est de classe C1 , et donc on peut
utiliser la caractérisation de la Proposition IV.25 qui nous dit que
Lip(A) = sup JA( x ).
x ∈R N

Pour tout x ∈ R N , on peut calculer JA( x ) = I − ρ∇2 f ( x ), qui est une matrice symétrique,
donc sa norme peut être calculée via ses valeurs propres :

Lip(A) = sup max | spec I − ρ∇2 f ( x ) | = sup max |1 − ρλ|.
2
x ∈R N x ∈R N λ∈spec(∇ f ( x ))

Or on sait via Proposition IV.27 et III.33 que spec(∇2 f ( x )) ⊂ [µ, L]. Donc nécessairement :
(∀λ ∈ spec(∇2 f ( x ))) |1 − ρλ| ď max{|1 − ρµ|, |1 − ρL|},
et on déduit de tout ce qui précède que l’énoncé du Théorème est vrai avec θ := max{|1 −
ρµ|, |1 − ρL|}. Il reste maintenant à étudier θ.
Tout d’abord, c’est un simple exercice (non trivial, faire un dessin aide beaucoup, cf.
Figure IV.III.1) que de vérifier que
(
|1 − ρµ| si ρ ď µ+2 L
max{|1 − ρµ|, |1 − ρL|} =
|ρL − 1| si ρ ě µ+2 L .
D’autre part, puisque 2/(µ + L) ∈ [1/L, 2/L[, on en déduit que 1 − ρµ ∈ [0, 1[ et ρL − 1 ∈
[0, 1[.

Remarque IV.41. Ce Théorème IV.37 et sa preuve nécessitent l’hypothèse que f soit de

classe C2 , ce qui nous permet d’exploiter les propriétés de la Hessienne, et des matrices
symétriques. Sachez qu’on peut tout à fait se passer de cette double différentiabilité, et
simplement supposer que f est convexe, différentiable, et à gradient Lipschitzien. Cela
requiert évidemment un preuve différente, qui est un peu plus longue, et que l’on omettra
donc ici.

Théorème IV.42 (Convergence linéaire des valeurs (cas fortement convexe)). Soient L ě
µ > 0 et f ∈ C2 (R N ) ∩ Γµ (R N ) ∩ CL1,1 (R N ). On considère la méthode du gradient avec un pas
constant ρ ∈]0, 2/L[. Alors ( f ( xk ) − inf f )k∈N converge linéairement, c’est-à-dire :
(∃θ ∈ [0, 1[)(∀k ∈ N) f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).
Plus précisément, on peut montrer que θ est le même que celui défini dans le Théorème IV.37.iii).
74 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Démonstration. Admis. Une démonstration est disponible dans l’Annexe (Section A.II.1).

Exemple IV.43. Soit f ( x ) = x2 /2, tel que µ = L = 1. Alors, pour tout x ∈ R et ρ ∈]0, 2[,
on a :
1 1
f ( x + ) = (1 − ρ)2 x2 et f ( x ) = x2 .
2 2
Donc on a ici θ = (1 − ρ). On voit donc que le θ du Théorème est difficilement améliorable.

Pour conclure sur la convergence de la méthode du gradient, il est bon de savoir

que même lorsque la fonction n’est pas fortemement convexe, l’algorithme du gradient
converge. Par contre sa performance est moindre, on passe d’une convergence linéaire
pour les valeurs à une convergence souslinéaire. Nous admettons ici sa preuve, qui est un
peu longue, étant donné que nous avons déjà bien traité le cas fortement convexe.

Théorème IV.44 (Convergence de la méthode du gradient, cas convexe). Soit f ∈ Γ0 (R N ) ∩

CL1,1 (R N ), pour L > 0, telle que argmin f 6= ∅. On considère la méthode du gradient avec un pas
constant ρ ∈]0, 2/L[. Alors
i) xk converge vers x ∗ ∈ argmin f .
ii) f ( xk ) converge vers inf f .

1
iii) Plus précisément, f ( xk ) − inf f = O k .

Démonstration. Admis. La démonstration complète est disponible dans l’Annexe (voir

Section A.II.2).

Remarque IV.45. Il n’y a pas de vitesses pour les itérés dans ce Théorème, car ils peuvent
tendre vers 0 de manière arbitrairement lente. Pour le voir il suffit de considérer des fonc-
tions qui ressemblent à f ( x ) = | x | p pour p → +∞.

Remarque IV.46. L’hypothèse argmin f 6= ∅ est importante. S Si il n’y a pas de mini-

miseurs, l’algorithme diverge et f ( xk ) tend vers inf f avec une vitesse qui peut être ar-
bitrairement faible. Pour le voir il suffit de considérer des fonctions qui ressemblent à
f ( x ) = 1/| x | p , pour p → +∞ : dans ce cas la fonction est de plus en plus plate au voisi-
nage de 0, donc le gradient devient très petit, et l’algorithme met de plus en plus de temps
à progresser.

Remarque IV.47 (Adaptivité à la forte convexité). On dit que la méthode du gradient

à pas constant est adaptive à la forte convexité. En effet : si on dispose d’une fonction
f ∈ CL1,1 (R N ) ∩ Γ0 (R N ), alors on peut choisir ρ < L2 et être garantit que l’algorithme va
converger, avec une vitesse qui sera au pire de l’ordre de 1t pour les valeurs (Théorème
IV.44). Mais ! Si il s’avère que la fonction f est fortement convexe (sans qu’on le sache),
alors cet algorithme va converger plus vite que prévu, c’est-à-dire linéairement (Théorème
IV.III. MÉTHODE DU GRADIENT 75

IV.42). Il est remarquable que l’algorithme soit capable d’exploiter cette propriété de forte
convexité sans qu’on ait besoin de le lui dire. C’est pour cela qu’on parle d’adaptivité.

F IGURE IV.5 – Convergence lente de la méthode du gradient pour des fonctions qui s’apla-
tissent.

IV.III.2 Méthode du gradient à pas optimal

Dans la section précédente, on a vu qu’on pouvait garantir

(∀ x ∈ R N ) f ( x+ ) − inf f ď θ 2 ( f ( x ) − inf f ),

pourvu qu’on choisisse bien ρ. Mais il y a quelques problèmes à cela :

1) Pour que cela marche un tant soit peu (c’est-à-dire pour que les valeurs décroissent), la
Proposition IV.34 nous dit qu’il faut prendre ρ < 2/L. Ce qui nécessite de connaitre L,
ce qui n’est pas toujours le cas. Idéalement on voudrait une méthode qui ne requière
aucune connaissance préalable sur la fonction f : c’est-à-dire qu’elle soit adaptive à L.
2) Pour que cela marche bien, il faut prendre le pas optimal ρ = 2/(µ + L), mais ici
encore, µ n’est pas toujours accessible.
3) Même si on avait accès à µ et L, nos résultats de contraction des vitesse est vrai en
tout x ∈ R N . Ce qui veut dire que la contraction que l’on a est un pire des cas ,
au sens où il y a des mauvais x pour lesquels on va avoir une contraction θ, mais rien
n’empêche que pour un autre bon x la contraction soit meilleure.

Cela suggère donc que l’on choisisse ρk en boucle ouverte, c’est-à-dire que le choix de
ρk va être spécifique à xk . Une façon de faire est de carrément choisir parmi tous les pas
possibles celui qui va donner un point xk+1 qui va le plus faire décroitre la fonction :
76 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

Définition IV.48. L’algorithme du gradient À PAS OPTIMAL est défini par

x k +1 = x k − ρ k ∇ f ( x k ) où ρk = argminρ>0 f ( xk − ρ∇ f ( xk )).

Remarque IV.49. Ne pas confondre cette méthode du gradient à pas optimal avec la
méthode du gradient à pas constant optimal, vu dans la précédente section, où ρ =
2/(µ + L).

Remarque IV.50. C’est ce que l’on appelle une méthode de recherche en ligne : on cherche
le long de l’espace unidimensionel { x − ρ∇ f ( x ) | ρ ∈ R} un bon successeur à x. Il existe
de nombreuses autres méthodes de ce type (voir l’exercice suivant).

Exercice IV.51 (Recherche en ligne naı̈ve). On considère la méthode du gradient xk+1 =

xk − ρk ∇ f ( xk ) où ρk > 0 est calculé à chaque itération selon la règle naı̈ve suivante : on
accepte n’importe quelle valeur de ρk , pourvu que l’on ait f ( xk+1 ) < f ( xk ).

+1
1) Prouver la formule suivante pour tout k ě 1 : ∏kt= 2 1 − 1
t2
= 12 kk+ 2
+1 .

2) Soit f ( x ) = 12 x2 , et x0 6= 0. On considère le choix de pas ρk = 1

a) Exprimer xk+1 en fonction de xk . Vérifier que ρk respecte notre règle naı̈ve.

b) Montrer que xk converge vers x20 . Que pouvez-vous en déduire ?
1
3) Même question avec cette fois-ci ρk = 2 − k2
.

Une des propriétés importantes de la méthode du gradient à pas optimal est qu’elle
génère des trajectoires en zig-zag :

Proposition IV.52 (Propriété du zig-zag). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), pour L > 0, telle

que argmin f 6= ∅. On considère la méthode du gradient à pas optimal. Alors,

(∀k ∈ N) h∇ f ( xk ), ∇ f ( xk+1 )i = 0.

/ argmin f , et g : [0, +∞[→ R, t 7→ f ( x − t∇ f ( x )). Puisque x n’est

Démonstration. Soit x ∈
pas un minimiseur de f , on a forcément ∇ f ( x ) 6= 0. Donc −∇ f ( x ) est une direction de
descente, donc d’après la Proposition IV.12, 0 n’est pas un minimiseur de g. Donc ρ est
dans l’ouvert ]0, +∞[, donc g0 (ρ) = 0. Or, on peut calculer

g0 (t) = h∇ f ( x − t∇ f ( x )), −∇ f ( x )i.

Remarque IV.53. Calculer le pas optimal nécéssite donc de résoudre un problème d’opti-
misation à chaque itération. Pour que ce soit rentable, il faudrait vraiment que l’algorithme
soit très efficace, i.e. qu’il converge très rapidement. C’est donc pour cela qu’on va analy-
ser sa convergence plus bas. De toute façon, en pratique :
IV.III. MÉTHODE DU GRADIENT 77

• On ne minimise pas exactement f ( xk − ρ∇ f ( xk )), mais on cherche un ρ qui soit pas

trop mal , et il y a plein de façons de définir ce que pas trop mal veut dire.
• Dans le cas particulier des fonctions quadratiques, on dispose d’une formule explicite
pour exprimer ρk :

Proposition IV.54. Soit A ∈ M M,N (R) inversible, y ∈ R M et f ( x ) := 12 k Ax − yk2 . Alors,

pour tout xk ∈
/ argmin f , le pas optimal vaut :

k∇ f ( xk )k2
ρk = .
k A∇ f ( xk )k2

Remarque IV.55. Si on préfère écrire la fonction quadratique sous la forme f ( x ) = 12 hSx, x i +

hb, x i + c avec S ∈ S N (R), alors le pas optimal vaut

k∇ f ( xk )k2
ρk = .
hS∇ f ( xk ), ∇ f ( xk )i

Démonstration. On cherche donc à trouver t qui minimise g. Tout d’abord, observons que
g(t) = f ( x − t∇ f (t)) est la composition d’une fonction fortement convexe avec une fonc-
tion affine injective, donc g est fortement convexe. Donc elle admet un unique minimiseur,
qu’on note ρ. Puisque f est une fonction quadratique, la propriété du zig-zag g0 (ρ) = 0
est équivalente à :

0 = h A> ( A( x − ρA> ( Ax − b)) − b), A> ( Ax − b)i

= k A> ( Ax − b)k2 − ρk AA> ( Ax − b)k2 ,

et la conclusion suit.

F IGURE IV.6 – Méthode du gradient optimal (GPO) pour diverses fonctions et points ini-
tiaux.
78 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE

F IGURE IV.7 – Méthode du gradient optimal (GPO) pour une fonction mal conditionnée
et des points initiaux perturbés.

Remarque IV.56 (Pas optimal et zig-zag). Comme on peut le voir sur la Figure IV.6, la
méthode fonctionne mieux sur des fonctions bien conditionnées ; dans le cas contraire la
méthode est ralentie par l’effet zig-zag. Comme on peut le voir également sur la Figure
IV.7, l’effet zig-zag est également impacté par le choix du point initial. En particulier, on
voit que lorsque on perturbe un peu un point initial situé dans l’espace propre de λmax , la
trajectoire change peu, tandis que pour un point initial situé dans l’espace propre de λmin ,
la trajectoire est instable et très vite ralentie par les zig-zag.

Théorème IV.57 (Convergence de la méthode du gradient à pas optimal). Soit f ∈ Γµ (R N ) ∩

L−µ
CL1,1 (R N ), pour L > 0. On considère la méthode du gradient à pas optimal. Alors, pour θ = L+µ ,
on a pour tout k ∈ N :

f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).

Démonstration. Admis. Une preuve est disponible en Annexe, dans la Section A.II.4.
Démonstration dans le cas quadratique. Cf. TD.

Remarque IV.58 (Adaptivité à la Lipschitzianité du gradient). Notez que l’on obtient

exactement les mêmes vitesses que pour l’algorithme du gradient à pas fixe optimal (Théorèmes
i) et IV.42) ! C’est d’autant plus remarquable qu’ici on ne définit aucun pas de temps ρk
en fonction de L ou µ : on n’a pas besoin de connaitre ces constantes pour l’algorithme
fonctionne bien. On dit alors que la méthode du gradient à pas optimal est adaptive à la
Lipschitzianité du gradient, au sens où elle n’a pas besoin de savoir que f ∈ CL1,1 (R N )
pour bien fonctionner.
IV.IV. RÉCAPITULATIF DU CHAPITRE 79

IV.IV Récapitulatif du Chapitre IV

On considère une fonction f : R N → R, et le problème d’optimisation associé
minimiserx∈RN f ( x ).

Méthodes de descente
• d ∈ R N est une direction de descente pour f en x ∈ R N si h∇ f ( x ), di < 0.
• Une méthode de descente est un algorithme de la forme
x k +1 = x k + ρ k d k
où dk est une direction de descente pour f en xk .
• Une direction de descente de choix est dk = −∇ f ( xk ) : cela donne la méthode du
gradient.

Méthode du gradient à pas fixe (GPF)

• Si f ∈ Γµ (R N ) ∩ CL1,1 (R N ) , et que l’on prend un pas fixe ρ ∈]0, 2/L[, alors
1) La suite des itérés ( xk )k∈N générés par GPF converge vers un minimiseur x ∗ de f .
2) La suite des valeurs f ( xk ) est décroissante et converge vers inf f .
3) Les itérés et les valeurs convergent linéairement : il existe θ ∈ [0, 1[ tel que
k x k +1 − x ∗ k ď θ k x k − x ∗ k et f ( xk+1 ) − inf f ď θ 2 ( f ( xk ) − inf f ).

4) Le taux de convergence θ ne dépend que de ρ et du conditionnement de la fonction

L/µ.
5) Le meilleur taux est obtenu lorsque ρ = 2/( L + µ).
• Si f n’est que convexe, la méthode marche encore mais elle converge moins vite.

Méthode du gradient à pas optimal (GPO)

• Ici on choisit ρk comme étant le pas qui fait décroitre le plus possible la fonction :
ρk = argminρ>0 f ( xk − ρ∇ f ( xk )).

• Les trajectoires générées zig-zaguent : h∇ f ( xk ), ∇ f ( xk+1 )i = 0.

• L’algorithme a exactement les mêmes propriétés de convergence que GPF avec le meilleur
choix de pas ρ = 2/( L + µ).
• Pour une fonction quadratique, on peut calculer explicitement ρk sans avoir à connaitre
L ou µ.
80 CHAPITRE IV. ALGORITHMES DE MINIMISATION SANS CONTRAINTE
Chapitre V

Optimisation sous contraintes

Dans ce chapitre nous nous intéressons aux problèmes d’optimisation avec contrainte :

( PC ) inf f ( x ),
x ∈C

f : U → R, C ⊂ U est non vide, où U ⊂ R N est un ouvert. Jusqu’à présent nous avons
plutôt ignoré la contrainte C :
• Dans le Chapitre II nous avons donné une Condition Nécessaire d’Optimalité lorsque
x̄ est un minimiseur de f sur C qui se trouve être dans l’intérieur de la contrainte

∇ f ( x̄ ) = 0.

Mais nous n’avons pas de CNO générale lorsque x̄ peut se trouver sur le bord de la
contrainte. Or, en pratique, cette situation est la plus courante !
• Nous allons voir que de manière générale on peut décrire une CNO ayant la forme
suivante :
∇ f ( x̄ ) + truc( x̄, C ) = 0,
où truc( x̄, C ) va être un nouvel objet dépendant de C et de x̄, que l’on pourra in-
terpréter comme le gradient de C en x̄ , et qui bien sur s’annule lorsque x̄ ∈ int C.
Dans ce chapitre nous nous focaliserons sur le cas où la contrainte C peut s’écrire sous
la forme d’équations et/ou inéquations.

V.I Introduction : Problèmes classiques

Pour des raisons historiques et pratiques, on tend à classer les problèmes d’optimisation
sous contrainte en fonction de la nature la contrainte et de celle de f . Cette classification
va, en gros, des problèmes les plus simples aux plus compliqués1 .
1 En réalité c’est un peu plus complexe que cela mais on se limitera ici à cette présentation simplifiée.

81
82 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.I.1 Polyèdres
Définition V.1. On munit R M d’un ordre partiel dit canonique, noté ĺ M , défini par

x ĺM y ⇔ (∀i ∈ {1, . . . , M}) xi ď yi .

Lorsqu’il n’y aura pas d’ambiguı̈té, on notera simplement ĺ.

Remarque V.2. On manipule donc plusieurs relations d’ordre dans ce cours :

• L’ordre canonique dans R : 1 ď 2

• L’ordre canonique dans R M : (0, 2) ĺ (1, 3)
• L’ordre matriciel dans M N (R) : A 0.

Définition V.3 (Polyèdre). On dit que C ⊂ R N est un POLY ÈDRE 2 s’il existe M ∈ N,
A ∈ M M,N (R) et b ∈ R M tels que C = [ Ax ĺ M b].

Remarque V.4 (Polyèdre = Inégalités affines). On sait que une contrainte d’égalité linéaire
de la forme [ Ax = b] décrit un sous-espace affine. Mais nous sommes moins familiers avec
une contrainte d’inégalité affine [ Ax ĺ M b] telle qu’elle apparait dans la définition d’un
polyèdre. A quoi ressemble cet ensemble ? Si on note a1 , . . . , a M ∈ R N tels que

a1>
 

A =  ...  ,
 

a> M

on voit que la contrainte peut s’écrire comme l’intersection de M ensembles :

M
[ Ax ĺ b] = { x ∈ R N | ∀i ∈ {1, . . . , M}, h ai , x i ď bi } =
\
[h ai , ·i ď bi ].
i =1

On sait que les solutions de [h ai , ·i = bi ] constituent un hyperplan, porté par le vecteur

ai . On peut donc également facilement se convaincre (et c’est vrai) que [h ai , ·i ď bi ] est un
demi-espace, délimité par l’hyperplan susmentionné (cf. Figures V.1). Donc un polyèdre,
ce n’est rien d’autre qu’une intersection (finie) de demi-espaces.

2 Prendregarde au fait que, dans la littérature française tant qu’anglophone, le terme polyèdre peut
désigner des notions légèrement différentes. Il faut également faire attention à ne pas confondre avec po-
lygone et polytope.
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 83

F IGURE V.1 – Gauche : En bleu, le demi-espace {z = ( x, y) ∈ R2 | x + y ď 1}, que l’on

peut décrire comme [h a1 , ·i ď b1 ] = {z = ( x, y) | h a1 , zi ď b1 } avec a1 = (1, 1)> , b1 = 1 ;
En gras, l’hyperplan supporté par a1 . Droite : Trois demi-espaces de la forme [h ai , ·i ď bi ]
avec a1 = (1, 1)> , b1 = 1, a2 = (−1, 1), b2 = 1 et a3 = (0, −1), b3 = 0 ; et leur intersection,
un triangle (en noir).

Exemple V.5 (Polyèdres). Faisons un peu de zoologie :

F IGURE V.2 – Quelques polyèdres bornés dans R2 . Ce sont des polygones convexes.

F IGURE V.3 – Ces polygones du plan ne sont pas des polyèdres.

84 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.4 – Cinq polyèdres bornés dans R3 (connus comme les cinq solides de Platon).

F IGURE V.5 – Un polyèdre de R3 qui est également un cône (non borné). Le cône a été
tronqué afin de ne pas occuper un espace infini.

Remarque V.6 (Intersections de demi-espaces). Les polyèdres sont donc les ensembles
que l’on obtient en intersectant un nombre fini de demi-espaces. On pourrait se deman-
der ce qui se passe lorsque on prend une intersection infinie de demi-espaces ? La réponse
est : cette procédure nous donne exactement tous les ensembles convexes ! C’est hors-
programme, mais rien ne vous empêche de faire des dessins dans R2 pour vous en convaincre !

Exercice V.7 (Polyèdre et équation affine). Soient A ∈ M M,N (R), b ∈ R M . Montrer que
l’ensemble des solutions du problème linéaire associé

[ Ax = b] = { x ∈ R N | Ax = b}

est un polyèdre.

Exercice V.8 (Polyèdre et espace affine). Montrer que tout sous-espace affine de R N est
un polyèdre. On pourra commencer par le prouver pour un sous-espace vectoriel.

Exercice V.9 (Optimisation linéaire : Contrainte de boı̂te). Soient α, β ∈ R N . Montrer que

la boı̂te suivante :
C = { x ∈ R N | ∀i = 1, . . . , M, αi ď xi ď β i },
est un polyèdre.

Exercice V.10 (Polyèdre et convexité). Montrer que tout polyèdre est convexe.
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 85

V.I.2 Optimisation Linéaire

Les problèmes dits d’optimisation linaire (Linear Programming, ou LP en VO) sont des
problèmes d’optimisation où toutes les composantes sont linéaires. On cherche à minimi-
ser une fonction linéaire sous une contrainte d’égalités ou inégalités affines3 .

Définition V.11 (Optimisation linéaire). On dit qu’un problème d’optimisation est un

problème d’OPTIMISATION LIN ÉAIRE s’il existe A ∈ M M,N (R), b ∈ R M , c ∈ R N tels
que le problème s’écrive

minimiser hc, x i tel que Ax ĺ M b. (V.1)

x ∈R N

Exercice V.12 (Optimisation Linéaire : Contrainte de sous-niveaux). Soient g0 , g1 , . . . , g M :

R N −→ R des fonctions affines. Montrer que le problème

minimiser g0 ( x ) tel que g1 ( x ) ď 0, . . . , g M ( x ) ď 0,

x ∈R N

est un problème d’optimisation linéaire.

Exemple V.13 (Le problème du transport optimal). Le problème du transport optimal

consiste à trouver comment transporter, de la façon la plus efficace/économe possible,
un objet d’un point A vers un point B. Ou, plus exactement, de nombreux objets depuis
tout un tas de points de départ Ai vers des points d’arrivée Bi (cf. Figure V.6). Introduit
à l’origine par Monge pour résoudre un problème de déplacement de tas de sable, ce
problème permet de nos jours de répondre à des questions sur le déplacement d’objets
plus abstraits, comme des images (cf. Figure V.7).
Ce problème peut être modélisé comme un problème d’optimisation, et plus précisément
comme un problème de programmation linéaire. Pour plus de détails sur cette modélisation,
vous pouvez lire cet et cet article.

3 Onpourrait se demander pourquoi on parle d’optimisation linéaire au lieu d’optimisation affine. Je

pense que cela est du au fait que Kantorovich et Dantzig, fondateurs de la théorie, l’ont appelé ainsi et le
nom est resté.
86 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.6 – Si chaque point bleu doit aller sur un point rouge, lequel doit aller où pour
minimiser la somme des trajets à vol d’oiseau ? Et surtout : comment répondre à cette
question sans avoir à tester les n! combinaisons ?

F IGURE V.7 – Application du Transport optimal : Une fois calculé un chemin optimal entre
deux images (ici aux extrémités) on peut trouver au milieu de ce chemin une image (ici au
centre) qui combine la forme d’une image avec le style de l’autre. Tout l’art ici consiste à
définir correctement ce que optimal veut dire, qui est un problème beaucoup plus dif-
ficile que résoudre le problème de transport en lui-même. Extrait de l’article Style transfer
by relaxed optimal transport and self-similarity par Kolkin et al., 2019 [11].

Exercice V.14 (Optimisation linéaire : forme standard). Soient A ∈ M M,N (R), b ∈ R M , c ∈

R N . Montrer que le problème

minimiser hc, x i tel que Ax = b et x M 0, (V.2)

x ∈R N

est équivalent à un problème d’optimisation linéaire. On appelle ce cas particulier un

problème d’optimisation linéaire sous forme standard.

Exercice V.15 (Optimisation linéaire : canonique ⇔ standard). Soient A ∈ M M,N (R), b ∈

R M , c ∈ R N fixés. On considère les problèmes de programmation linéaire
V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 87

• sous forme canonique associé à A, b, c : minimiser hc, x i tel que Ax ĺ b,

x ∈R N
• sous forme standard associé à A, b, c : minimiser hc, x i tel que Ax = b et x 0.
x ∈R N

1) Montrer que { x ∈ R N | Ax ĺ b} = { x ∈ R N | ∃y ∈ R M : Ax + y = b et y 0}.

2) Supposons que l’on veuille résoudre le problème sous forme canonique associé à A, b, c.
Montrer qu’il existe un problème sous forme standard, dépendant de Â, b̂, ĉ (à trouver),
tel que, si on le résolvait, nous donnerait immédiatement accès à la solution de notre
problème sous forme canonique.
3) En déduire que les formes canonique et standard de l’optimisation linéaire sont équivalentes.

V.I.3 Optimisation Convexe

Définition V.16 (Optimisation convexe). On dit qu’un problème d’optimisation est un
problème d’OPTIMISATION CONVEXE s’il existe C ⊂ R N convexe et f ∈ Γ0 (C ) tels que le
problème s’écrive
minimiser f ( x ) tel que x ∈ C.
x ∈R N

Le problème ci-dessus est dit sous forme canonique. Il est souvent bien pratique d’écrire
un problème d’optimisation convexe sous sa forme standard :

Exercice V.17 (Optimisation convexe : forme standard). Soient f , g1 , . . . , g p : Rn −→ R

convexes et h1 , . . . , gq : Rn −→ R affines.
1) Montrer que le problème
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f (x) tel que
x ∈R
n
h1 ( x ) = 0, . . . , hq ( x ) = 0,

est un problème d’optimisation convexe.

2) Montrer que ce n’est pas forcément le cas si on suppose que les h j sont convexes, en
exhibant un contre-exemple.
3) Montrer que les problèmes d’optimisation linéaire sont convexes.

Exercice V.18 (Optimisation convexe : forme standard II). Montrer que pour tout problème
d’optimisation convexe, il existe des fonctions f , h : R N −→ R telles que le problème
puisse se réécrire sous la forme

minimiser f (x) tel que h( x ) = 0.

x ∈R
n

Même question avec

minimiser f (x) tel que g( x ) ď 0.
x ∈R
n
88 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.19 (Vocabulaire). On parlera parfois de

• problème d’optimisation convexe sous contrainte d’égalité pour désigner

minimiser f (x) tel que h1 ( x ) = 0, . . . , hq ( x ) = 0,

x ∈R
n

• problème d’optimisation convexe sous contrainte d’inégalité pour désigner

minimiser f (x) tel que g1 ( x ) ď 0, . . . , g p ( x ) ď 0,

x ∈R
n

• problème d’optimisation convexe sous contrainte mixtes pour désigner la forme stan-
dard
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f ( x ) tel que
x ∈R n
h1 ( x ) = 0, . . . , hq ( x ) = 0.

Au vu de l’Exercice V.18, il est légitime de se demander quel est l’intérêt de faire la

différence entre toutes ces formes puisqu’elles sont équivalentes. D’une part, ce n’est pas
parce que des problèmes sont équivalents qu’ils sont tous autant pratiques à résoudre.
Prenons par exemple le cas des fonctions k x k − 1 et k x k2 − 1 qui ont les mêmes sous-
niveaux, mais dont l’une est différentiable et pas l’autre. D’autre part, d’un point de vue
théorique, on verra qu’on aura besoin de vérifier des hypothèses, qui ne seront pas tou-
jours vérifiées quelque soit la forme équivalente du problème.

Exemple V.20 (Problème de classification). On suppose que l’on dispose d’un certain type
de données, et on veut être capable de les classer en deux groupes. Ce type de problème
peut être très facile à réaliser pour un humain, mais toute la question est de savoir com-
ment automatiser cette prise de décision pour l’implémenter sur une machine.

F IGURE V.8 – Classifier deux groupes de points dans R2 , relativement facile.

V.I. INTRODUCTION : PROBLÈMES CLASSIQUES 89

F IGURE V.9 – Classifier des nombres écrits à la main, difficulté moyenne. Issu du jeu de
données MNIST, utilisé abondamment pour tester les réseaux de neurones.

F IGURE V.10 – Classifier des photos dans R N , N > 106 , en deux catégories (chat/chien),
très difficile.

F IGURE V.11 – Classifier des visages humains, très très difficile.

Or, il est possible de modéliser ce problème en le transformant en un problème d’opti-

misation convexe, ayant la forme suivante :

minimiser k x k2 tel que Ax ĺ b,

x ∈R N
90 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

où A et b sont construites à partir des données à classer. Dans ce contexte, ce problème est
communément appelé Machine à vecteur de support (Support Vector Machine, ou SVM).
Si le temps le permet, nous verrons comment modéliser et résoudre un tel problème (cf.
feuille de TD5, et le TP associé).

V.II Théorème(s) de Lagrange-KKT pour l’optimisation sous

contraintes d’égalités et inégalités
Dans cette section, on va s’intéresser aux problèmes s’écrivant sous la forme
(
g1 ( x ) ď 0, . . . , g p ( x ) ď 0
minimiser f (x) tel que
x ∈R
n
h1 ( x ) = 0, . . . , hq ( x ) = 0,

où les fonctions en jeu seront convexes, affines ou quelconques, selon les besoins. Notre
objectif est d’obtenir des Conditions d’Optimalité pour ces problèmes :

• Quel est l’équivalent de la CNO du 1er ordre que l’on avait dans le Théorème II.9 ? La
réponse se trouve dans le Théorème V.34.
• Est-ce que cette CNO devient une CSO lorsque le problème est convexe, comme on
l’avait vu dans le Théorème III.25 ? La réponse est : oui, voir le Théorème V.39.
• Est-ce que l’on peut avoir une CSO du 2e ordre, comme dans le Théorème II.19 ? Encore
une fois, oui, cf. Théorème V.44.

Ces Théorèmes vont donc nous permettre de calculer à la main des minimiseurs lo-
caux/globaux de problèmes d’optimisation sous contrainte, en résolvant des équations,
de la même manière que l’on résolvait ∇ f ( x ) = 0 dans les premiers chapitres.

V.II.1 Contrainte d’inégalité simple et multiplicateur

On va commencer dans cette section par s’intéresser au problème simple où la contrainte
s’écrit comme une contrainte d’inégalité. Autrement dit, lorsque

C = [ g ď 0],

pour g : U ⊂ R N −→ R différentiable.

Proposition V.21. Soient U ⊂ R N ouvert, f , g : U −→ R et C = [ g ď 0]. Supposons que x̄

soit un minimiseur local de f sur C. Si ∇ g( x̄ ) 6= 0, alors

g( x̄ ) ď 0 et (∃α ě 0) ∇ f ( x̄ ) + α∇ g( x̄ ) = 0 et αg( x̄ ) = 0. (V.3)

V.II. THÉORÈME(S) DE LAGRANGE-KKT 91

Démonstration. Pour commencer, observons que le résultat est immédiat si ∇ f ( x̄ ) = 0,

puisqu’il suffit de prendre α = 0. Dans la preuve on supposera donc ∇ f ( x̄ ) 6= 0.
On va procéder en considérant deux cas : commençons par supposer que g( x̄ ) < 0, on
va voir qu’on aboutit à une contradiction. En effet, ∇ f ( x̄ ) 6= 0 implique via la Proposition
IV.11 qu’il existe une direction de descente d ∈ R N en x̄, i.e. telle que h∇ f ( x̄ ), di < 0.
D’après le Lemme d’Armijo IV.12, cela veut dire que

(∃δ > 0)(∀t ∈]0, δ[) f ( x̄ + td) < f ( x̄ ).

D’autre part, puisque g est continue et g( x̄ ) < 0, on sait que pour t petit on aura encore
g( x̄ + td) < 0. Autrement dit, x̄ + td ∈ C et f ( x̄ + td) < f ( x̄ ), ce qui contredit le fait que x̄
soit un minimiseur local. Ceci conclut la preuve dans le cas g( x̄ ) < 0.
Supposons maintenant que g( x̄ ) = 0. Dans un premier temps, nous allons montrer que
∇ f ( x̄ ) ∈ Vect (∇ g( x̄ )). Raisonnons par l’absurde, et supposons que ∇ f ( x̄ ) ∈
/ Vect (∇ g( x̄ )).
Puisque on a supposé que ∇ g( x̄ ) 6= 0, cela veut dire que la famille {∇ f ( x̄ ), ∇ g( x̄ )} est
libre. Définissons la matrice dont les lignes sont ces gradients

∇ f ( x̄ )>

A= ∈ M2,N (R).
∇ g( x̄ )>

Ses lignes étant libres, nous en déduisons que A est surjective. Donc il existe un d ∈ R N
tel que Ad = e, où e = (−1, −1)> . Autrement dit, il existe un d ∈ R N tel que

h∇ f ( x̄ ), di = −1 et h∇ g( x̄ ), di = −1. (V.4)

On a donc une direction de descente commune pour ces fonctions ! D’après le Lemme
d’Armijo IV.12 appliqué à f et g, cela veut dire qu’il existe un δ > 0 commun tel que

(∀t ∈]0, δ[) f ( x̄ + td) < f ( x̄ ) et g( x̄ + td) < g( x̄ ) ď 0.

Autrement dit, pour un tel choix de t ∈]0, δ[, on a x̄ + td qui est toujours dans la contrainte
[ g ď 0] (puisque g( x̄ + td) < 0), mais qui est meilleur que x̄ au sens où f ( x̄ + td) < f ( x̄ ).
On se rend alors compte que ceci est en contradiction avec le fait que x̄ soit un minimiseur
local de f sur C.
Nous avons donc montré par l’absurde que ∇ f ( x̄ )et ∇ g( x̄ ) sont colinéaires. Autre-
ment dit, qu’il existe un α ∈ R tel que

∇ f ( x̄ ) + α∇ g( x̄ ) = 0. (V.5)

Il ne nous reste donc plus qu’à prouver α ě 0. Encore une fois, raisonnons par l’absurde
et supposons que α < 0. Si on pose d0 = −∇ f ( x̄ ), on voit que
−1 1
h∇ f ( x̄ ), d0 i = −k∇ f ( x̄ )k2 < 0 et h∇ g( x̄ ), d0 i = h∇ f ( x̄ ), d0 i = k∇ f ( x̄ )k2 < 0.
α α
On voit que l’on a encore une direction de descente d0 commune pour f et g, ce qui va
impliquer pour les mêmes raisons que précédemment, une contradiction.
92 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.22 (Vocabulaire). Il y a beaucoup de choses dans cette Proposition V.21. Il va

être utile par la suite de bien nommer les ingrédients de ce résultat :

• La condition ∇ g( x̄ ) 6= 0, qui est essentielle pour garantir le résultat, est appelée condi-
tion de qualification de la contrainte. On parle par exemple de contrainte qualifiée.
• La propriété g( x̄ ) ď 0 ne fait que traduire le fait que x̄ appartient à la contrainte C =
[ g ď 0]. Autrement dit, que le vecteur x̄ est admissible (au sens où il ne viole pas la
contrainte). C’est pour cela que l’on parle en général de condition d’ADMISSIBILIT É.
• On distinguera souvent le fait que x̄ vérifie g( x̄ ) = 0 ou g( x̄ ) < 0. Lorsque g( x̄ ) = 0,
on dira que la contrainte [ g ď 0] est active en x̄, ce qui traduit que l’on est sur le bord
du sous-niveau. Dans le cas où g( x̄ ) < 0, on parlera de contrainte inactive.
• Le coefficient α que l’on voit apparaitre est appelé le multiplicateur de Lagrange as-
socié à la contrainte. On voit ici que α est positif ; on verra d’autres contextes dans
lequel le multiplicateur n’a pas de signe prescrit.
• La condition ∇ f ( x̄ ) + α∇ g( x̄ ) = 0 est appelée la condition de stationnarité du problème.
On vient de voir ici que c’est une condition nécessaire pour x̄ d’être un minimiseur local.
• La propriété αg( x̄ ) = 0 est la condition de complémentarité de la contrainte. Elle peut
se reformuler de façon équivalente en :

Si g( x̄ ) < 0 alors α = 0.

En d’autres termes, si la contrainte est inactive en x̄, alors le multiplicateur de Lagrange

est nul. Observer que dans ce cas la condition de stationnarité de Lagrange se réduit
à ∇ f ( x̄ ) = 0. On voit que ∇ g( x̄ ) a disparu de la condition de stationnarité, ce qui
traduit le fait que la contrainte est inactive.

Remarque V.23 (Le système d’(in)équations de Lagrange-KKT). En pratique, lorsque on

cherche un minimiseur de f sur [ g ď 0], il faut donc chercher un couple ( x, α) ∈ R N × R
solution du système :



 ∇ f ( x ) + α∇ g( x ) = 0 (Condition de stationnarité)

 g( x ) ď 0 (Condition d’admissibilité)
.


 α ě 0 (Multiplicateur)

αg( x ) = 0 (Condition de complémentarité)

Une fois qu’on dispose de ces solutions, déterminer si elles sont des minimiseurs ou pas
se fait exactement (aussi difficilement donc) comme on le fait pour les problèmes sans
contraintes.

Exercice V.24 (Fonction quadratique sous contrainte d’inégalité linéaire). Soient f ( x, y) =

2 ( x + y ) − 2x et C = {( x, y ) ∈ R | x + y ď 1}.
1 2 2 2
V.II. THÉORÈME(S) DE LAGRANGE-KKT 93

1) Montrer que f admet un unique minimiseur sur C.

2) Écrire les conditions d’optimalité pour ce problème, et trouver le minimiseur en résolvant
le système associé.
3) La contrainte est elle active4 en cette solution ?

Exercice V.25 (Fonction quadratique sous contrainte d’inégalité linéaire II). Soient f ( x, y) =
2x − y et C = {( x, y) ∈ R2 | 12 x2 + y2 ď 1}.

1) Montrer que f admet un minimiseur sur C.

2) Montrer que la contrainte est forcément qualifiée en ce minimiseur.
3) Écrire les conditions d’optimalité pour ce problème, les résoudre, et en déduire l’unique
minimiseur de f sur C.
4) La contrainte est elle active en cette solution ?

Exercice V.26 (Problème non régulier). Soit f ( x ) = − x2 et g( x ) = (| x | − 1)2+ .

1) Tracer le graphe de g, et calculer C := [ g ď 0].

2) Tracer le graphe de f , et en déduire quels sont les minimiseurs de f sur C.
3) Vérifier que la condition d’optimalité de Lagrange-KKT n’est pas vérifiée en ces points,
et expliquer pourquoi.

Exercice V.27 (Minimiser sur une boule). Soit f : R N −→ R différentiable, a ∈ R N quel-

conque, et C = B( a, δ) une boule fermée centrée en a de rayon δ > 0. On suppose que
x̄ est un minimiseur local de f sur C, et on va essayer d’écrire sa condition nécessaire
d’optimalité.

1) Vérifier que C = [ g ď 0], pour g( x ) = k x − ak2 − δ2 , et calculer ∇ g.

2) On suppose que la contrainte n’est pas qualifiée en x̄ (c-à-d. ∇ g( x̄ ) = 0). Montrer que
∇ f ( x̄ ) = 0.
3) On suppose que la contrainte est qualifiée en x̄ (c-à-d. ∇ g( x̄ ) 6= 0). Prouver que
(
si k x − ak < δ alors ∇ f ( x ) = 0,
si k x − ak = δ alors (∃α ě 0) ∇ f ( x ) + α( x − a) = 0.

4) En déduire qu’il existe α ě 0 tel que ∇ f ( x̄ ) + α( x − a) = 0.

(∃α ě 0) ∇ f ( x ) + α( x − a) = 0.
4 On rappelle que pour une contrainte d’inégalité [ g ď 0], la contrainte est dite active en x si g( x ) = 0 (en
d’autres termes on est sur le bord de la contrainte).
94 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.II.2 Condition d’Optimalité de KKT du 1er ordre

V.II.2.i) Introduction et définitions

On a vu dans la Proposition V.21 que pour minimiser une fonction f en présence d’une
contrainte d’inégalité simple
g( x ) ď 0,
une condition nécessaire d’optimalité est (V.3), qui demande en particulier la condition de
stationnarité
∇ f ( x̄ ) + α∇ g( x̄ ) = 0.
On peut donc se demander ce qui se passe lorsqu’on a affaire à plusieurs inégalités

g1 ( x ) ď 0, · · · , g p ( x ) ď 0 ?

Ou à plusieurs égalités
h1 ( x ) = 0, · · · , hq ( x ) = 0 ?
Ou à une combinaison des deux (on parle de contrainte mixte) :

C = { x ∈ R N | g1 ( x ) ď 0, · · · , g p ( x ) ď 0, h1 ( x ) = 0, · · · , hq ( x ) = 0}? (V.6)

En extrapolant un peu, il est raisonnable d’espérer que la condition de stationnarité de-

vienne :

∇ f ( x̄ ) + α1 ∇ g1 ( x̄ ) + · · · + α p ∇ g p ( x̄ ) + β 1 ∇h1 ( x̄ ) + . . . β q ∇hq ( x̄ ) = 0.

Comme nous allons le voir, cela est essentiellement vrai, les différences principales avec
la Proposition V.21 étant que :

• les multiplicateurs β j associés aux contraintes d’égalité n’ont pas de signe imposé,
• l’hypothèse de contrainte qualifiée (∇ g( x̄ ) 6= 0) va devenir un peu plus compliquée.

Avant d’énoncer notre premier Théorème V.34, donnons quelques définitions qui vont
nous permettre d’exprimer une hypothèse de contrainte qualifiée.

Définition V.28. Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables, soit C = ∩i [ gi ď

0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On définit l’ensemble des
CONTRAINTES ACTIVES en x par

I ( x ) = {i ∈ {1, · · · , p} | gi ( x ) = 0}.

Remarque V.29 (Contraintes actives). Il faut noter que la notion de contrainte active ne
vaut que pour les contraintes d’inégalité.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 95

Définition V.30. Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables, soit C = ∩i [ gi ď

0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On dit que la contrainte mixte C
est QUALIFI ÉE en x si la famille de gradients

{∇ gi ( x ), ∇h j ( x )}i∈ I (x),1ďjďq

est linéairement indépendante.

Remarque V.31 (Contraintes actives 2). Si la famille de tous les vecteurs {∇ gi ( x ), ∇h j ( x )}1ďiďp,1ďjďq
est libre, alors il n’y a pas besoin de calculer I ( x ) puisque toute sous-famille sera également
libre. Mais en pratique, il arrive souvent que I ( x ) soit beaucoup plus petite que {1, . . . , p},
ce qui fait qu’il est plus facile ainsi de vérifier que les contraintes sont qualifiées.

Remarque V.32 (Qualification pour une unique contrainte). Si la contrainte est unique,
alors la condition de qualification de la contrainte est drastiquement simplifiée :

• si on parle d’une contrainte d’égalité [h = 0], que la famille {∇h( x )} soit libre est
équivalent à ce que ∇h( x ) 6= 0 ;

• si on parle d’une contrainte d’inégalité [ g ď 0], une condition suffisante pour que la
contrainte soit qualifiée est que ∇ g( x ) 6= 0.

Noter que ∇ g( x ) 6= 0 est exactement l’hypothèse de qualification que l’on a faite dans la
Proposition V.21 !

Définition V.33 (Contrainte régulière). Soient g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables,

soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la contrainte mixte associée, et soit x ∈ C. On dit que la
contrainte mixte C est R ÉGULI ÈRE en x si l’une des deux propriétés est vérifiée :

• toutes les fonctions g1 , · · · , g p , h1 , · · · , hq sont affines ;

• la contrainte est qualifiée en x.

V.II.2.ii) Résultats principaux et commentaires

Nous sommes est maintenant prêts à énoncer le premier Théorème de cette section, qui
établit la Condition Nécessaire d’Optimalité de KKT du 1er ordre :

Théorème V.34 (Théorème de Lagrange-KKT : CNO du 1er ordre).

Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R de classe C1 . Soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la
contrainte mixte associée. Supposons que x̄ soit un minimiseur local de f sur C. Si la contrainte
96 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

est régulière en x̄, alors x̄ vérifie la Condition Nécessaire d’Optimalité de KKT du 1er ordre :

 p q
∇ f ( x̄ ) + ∑ ∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0
 α

 i i
i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

i
(∃α ∈ R p )(∃ β ∈ Rq ) (V.7)

 ∀ j = 1, . . . , q h j ( x̄ ) = 0

∀i = 1, . . . , p αi ě 0





∀i = 1, . . . , p αi gi ( x̄ ) = 0.


Remarque V.35 (Point critique). On dira que x̄ est un point critique du problème si il
vérifie la Condition Nécessaire d’Optimalité de KKT du 1er ordre. Le Théorème précédent
nous dit donc que les points critiques sont de bons candidats à être des minimiseurs lo-
caux.

Remarque V.36 (Le système d’(in)équations de KKT II). En pratique, lorsque on cherche
un minimiseur de f sur une contrainte mixte, il faut donc chercher ( x, α1 , . . . , α p , β 1 , . . . , β q ) ∈
R N × R p × Rq solution du système :

 p q
∇ f ( x ) + ∑ i i∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0 (Condition de stationnarité)

 α

i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

(Condition d’admissibilité : inégalités)
i
∀ j = 1, . . . , q h j ( x̄ ) = 0
 (Condition d’admissibilité : égalités)

∀i = 1, . . . , p αi ě 0 (Multiplicateur : inégalités)





∀i = 1, . . . , p αi gi ( x̄ ) = 0 (Condition de complémentarité)


Remarque V.37 (Historique et vocabulaire). Dans la littérature, ces conditions d’optima-

lités sont appelées conditions de Lagrange, ou parfois conditions de KKT (pour Karush-
Kuhn-Tucker). Les raisons sont essentiellement historiques :

• Joseph-Louis Lagrange s’intéresse vers la fin du 18e siècle à des problèmes de mécanique,
qui l’amènent à minimiser certaines quantités sous des contraintes d’égalité (voir Fi-
gure V.37). Il énonce alors une version du Théorème V.34 pour des contraintes d’égalité,
introduisant l’idée de ces variables supplémentaires que l’on appelle désormais les
multiplicateurs de Lagrange. On cite parfois ce résultat comme le Théorème des multi-
plicateurs de Lagrange, mais également comme le Théorème des extrémas liés.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 97

F IGURE V.12 – Extrait du traité de Mécanique Analytique de Lagrange (1788) [13]. En

français dans le texte.

• Au milieu du 20e siècle, la question de résoudre des problèmes d’optimisation sous

contraintes générales d’inégalité se pose. En 1951, Harold Kuhn et Albert Tucker5 pu-
blient un article (intitulé Nonlinear Programming [12]) proposant des conditions d’opti-
malité pour ce problème. Cet article connaitra un grand succès et aura beaucoup d’in-
fluence dans les décennies qui ont suivi, donnant naissance à un champ de recherche
connu comme l’optimisation non-linéaire, et s’appliquant dans de nombreux domaines,
allant de l’économie à l’ingénierie.

De manière surprenante, on se rendra compte près de 20 ans plus tard que ce résultat
avait déjà été obtenu par William Karush dans . . . son mémoire de Master [9] datant de
1939 ! Depuis lors, les conditions d’optimalité (V.7) sont connues comme les conditions
de Karush-Kuhn-Tucker, ou simplement KKT.

5 Vous connaissez certainement déjà Tucker sans le savoir, puisqu’il est à l’origine du fameux dilemne
du prisonnier . Il a beaucoup travaillé sur la Théorie des Jeux, et a notamment dirigé la thèse de John Nash
sur ce sujet (1950), qui vaudra à ce dernier un prix Nobel en sciences économiques (1994).
98 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.13 – Extrait d’un échange de courrier entre Kuhn et Karush, dans lequel Kuhn
s’engage à lui donner la reconnaissance qu’il mérite, et s’étonne que Karush ne se soit pas
manifesté plus tôt [10].

Pour ces raisons, dans ce cours, nous parlerons toujours de conditions de KKT pour les
problèmes d’optimisation sous contraintes mixtes.

F IGURE V.14 – De gauche à droite : Lagrange, Karush, Kuhn et Tucker.

Remarque V.38 (Pourquoi les contraintes d’égalité ne se comportent pas comme les contraintes
d’inégalité ?). Si on regarde les conditions nécessaires d’optimalité de KKT, on voit qu’il
y a une asymétrie entre les contraintes d’égalité et d’inégalité : les contraintes d’égalité
n’ont pas

• de condition de compatibilité β j h j ( x̄ ) = 0,
• de condition sur les multiplicateurs β j ě 0.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 99

Il est en fait assez facile de se convaincre qu’en fait ces deux conditions sont triviale-
ment vérifiées, et n’ont donc pas lieu d’apparaı̂tre dans la condition nécessaire. En effet :

• la condition d’admissibilité h j ( x̄ ) = 0 implique que β j h j ( x̄ ) = 0 ! Notez la différence

avec les contraintes d’inégalité, pour lesquelles la condition d’admissibilité est gi ( x̄ ) ď
0, et pour laquelle on ne sait pas si gi ( x̄ ) = 0. D’où l’importance pour ces dernières de
faire la distinctions entre contraintes actives et non actives.
• on peut toujours forcer la contrainte β j ě 0 à être vérifiée, quitte à remplacer la fonction
h j par −h j . Cela ne change rien au problème puisque [h j = 0] = [−h j = 0]. Notez la
différence avec les contraintes d’inégalité, pour lesquelles on ne peut pas remplacer gi
par − gi sans changer la contrainte !

Voyons maintenant que cette CNO de KKT du 1er ordre est en fait une CSO globale
lorsque le problème est convexe.

Théorème V.39 (Théorème de Lagrange-KKT : Réciproque convexe).

Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R différentiables. Soit C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] la
contrainte mixte associée. Supposons que f , g1 , · · · , g p soient convexes, et que h1 , · · · , hq soient
affines. Alors tout point x̄ ∈ C qui vérifie la Condition Nécessaire d’Optimalité de KKT du 1er
ordre (V.7) est un minimiseur global de f sur C.

On retrouve ainsi un analogue -sous contraintes- du Théorème III.25.

V.II.2.iii) Preuve des Théorèmes V.34 et V.39

Ici on considèrera toujours que f , g1 , · · · , g p , h1 , · · · , hq : R N → R sont de classe C1 , et que

C = ∩i [ gi ď 0] ∩ ∩ j [h j = 0] est la contrainte mixte associée.

Lemme V.40 (de la pénalisation quadratique). Soit x̄ un minimiseur local de f sur C, et I ( x̄ )

les contraintes d’inégalités actives en x̄. On considère pour tout k ∈ N :
q
k k 1
φk ( x ) := f ( x ) + ∑
2 i∈ I ( x̄)
gi ( x )2+ +
2 ∑ h j (x)2 + 2 kx − x̄k2.
j =1

Alors il existe une suite xk → x̄, telle que ∇φk ( xk ) = 0.

Démonstration. Soit x̄ un minimiseur local de f sur C. Par définition, il existe un ε > 0

tel que x̄ soit un minimiseur de f sur B( x̄, ε). Il est clair que φk est une fonction continue,
donc elle admet pour tout k ∈ N un minimiseur sur B( x̄, ε), que l’on notera xk . Notre
objectif va être de montrer que lim xk = x̄. Par définition cette suite est bornée, puisque
k →+∞
contenue dans B( x̄, ε). Il nous suffit donc de montrer que toute valeur d’adhérence de xk
est égale à x̄.
100 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Soit x∞ une valeur d’adhérence de xk . Commençons par vérifier que x∞ ∈ C. D’une

part, pour tout i ∈ / I ( x̄ ), on a gi ( x̄ ) < 0. Donc, par continuité de gi , et quitte à prendre ε
plus petit, on a également gi ( xk ) < 0. D’autre part, l’optimalité de xk nous permet d’écrire
que

φk ( xk ) ď φk ( x̄ ) car xk minimise φk sur B( x̄, ε).

= f ( x̄ ) car gi ( x̄ ) = 0, h j ( x̄ ) = 0.

Donc
q
k k
f ( x̄ ) ě φk ( xk ) ě f ( xk ) + ∑
2 i∈ I ( x̄)
gi ( x )2+ +
2 ∑ h j ( x )2 .
j =1

Or f ( xk ) est minorée par infB( x̄,ε) f , qui est indépendant de k. On voit donc que

q
k k
0ď ∑
2 i∈ I ( x̄)
gi ( xk )2+ +
2 ∑ h j ( x k )2 ď f ( x̄ ) − inf f < +∞.
B( x̄,ε)
j =1

Après division par k, on en déduit que les gi ( xk )2+ et h j ( xk )2 tendent vers 0, ce qui implique
que gi ( x∞ )2+ = 0 et h j ( x∞ )2 = 0. Autrement dit, gi ( x∞ ) ď 0 et h j ( x∞ ) = 0. On a donc bien
montré que x∞ ∈ C. Maintenant, on écrit

1
f ( x̄ ) ě φk ( xk ) ě f ( xk ) + k xk − x̄ k2 ,
2
et en passant à la limite on obtient

1
f ( x̄ ) ě f ( x∞ ) + k x∞ − x̄ k2 .
2

Or x∞ ∈ C ∩ B( x̄, ε) et x̄ est un minimiseur local de f sur C. Donc f ( x∞ ) ě f ( x̄ ), et on en

déduit que x∞ = x̄.
Maintenant qu’on sait que xk tend vers x̄, on peut dire que (à partir d’un certain rang)
xk ∈ int B( x̄, ε). On peut donc appliquer le Théorème de Fermat II.10, qui nous dit dans
ce cas que ∇φk ( xk ) = 0.

Lemme V.41 (de Fritz John). Soit x̄ un minimiseur local de f sur C, et I ( x̄ ) les contraintes
d’inégalités actives en x̄. Alors
q
λ∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0, (V.8)
i ∈ I ( x̄ ) j =1

| I ( x̄ )|
où les multiplicateurs λ ∈ R+ , α ∈ R+ , β ∈ Rq sont non tous nuls.
V.II. THÉORÈME(S) DE LAGRANGE-KKT 101

Démonstration. Considérons le résultat du Lemme V.40 précédent. Après calcul du gra-

dient, on obtient :
q
0 = ∇φk ( xk ) = ∇ f ( xk ) + ∑ kgi ( xk )+ ∇ gi ( xk ) + ∑ kh j ( xk )∇h j ( xk ) + ( xk − x̄ ).
i ∈ I ( x̄ ) j =1

Posons α̂i,k := kgi ( xk )+ ∈ R+ , β̂ j,k := kh j ( xk ) ∈ R. Alors :

q
0 = ∇ f ( xk ) + ∑ α̂i,k ∇ gi ( xk ) + ∑ β̂ j,k ∇h j ( xk ) + ( xk − x̄ ). (V.9)
i ∈ I ( x̄ ) j =1

Considérons le vecteur réunissant les multiplicateurs π̂k := (1, α̂i,k , β̂ j,k , 1). Alors kπ̂k k2 =
1 + ∑ α̂2i,k + ∑ β2j,k + 1 est non nul. On peut donc définir πk := π̂k /kπ̂k k, constitué des
coefficients (λk , αi,k , β j,k , λk ), avec λk = 1/kπ̂k k, etc. Si on divise (V.9) par kπ̂k k, on obtient
donc
q
0 = λk ∇ f ( xk ) + ∑ αi,k ∇ gi ( xk ) + ∑ β j,k ∇h j ( xk ) + λk ( xk − x̄ ).
i ∈ I ( x̄ ) j =1

Maintenant, on observe que, par construction, kπk k = 1, donc quitte à prendre une sous-
suite, πk converge vers un vecteur π = (λ, αi , β j , λ) de norme 1 lui aussi. Par ailleurs xk
converge vers x̄, et les gradients sont continus. On peut donc passer à la limite et obtenir
q
0 = λ∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ),
i ∈ I ( x̄ ) j =1

qui est exactement (V.8).

Pour conclure il nous faut vérifier quelques propriétés sur les muliplicateurs. D’une
part, on a par définition que α̂i,k ě 0, donc αi,k ě 0, et par passage à la limite αi ě 0. De
même, λk = 1/kπ̂k k ě 0 donc λ ě 0 aussi. D’autre part, on sait que π = (λ, αi , β j , λ) est
de norme 1, donc non nul. D’où (λ, α, β) 6= 0.

Lemme V.42 (Cas des contraintes qualifiées). Considérons les hypothèses du Lemme V.41 de
Fritz John. Supposons de plus que les contraintes sont qualifiées en x̄. Alors λ > 0.

Démonstration. On sait déjà d’après le Lemme V.41 que λ ě 0. Supposons par l’absurde
que λ = 0. Alors la condition d’optimalité (V.8) combinée avec λ = 0 veut dire que
q
∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
i ∈ I ( x̄ ) j =1

Or la contrainte est qualifiée en x̄, ce qui veut dire que la famille des gradients dans cette
équation est libre. Le fait qu’on ait une combinaison linéaire nulle veut dire que l’on a
forcément αi = 0 et β j = 0. En d’autres termes (λ, α, β) = 0. Ceci contredit le Lemme V.41
qui dit que les multiplicateurs (λ, α, β) sont non tous nuls.
102 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Lemme V.43 (Cas des contraintes affines). Considérons les hypothèses du Lemme V.41 de Fritz
John. Supposons de plus que les contraintes sont affines. Alors λ > 0.

Démonstration. Ici aussi, supposons par l’absurde que λ = 0. Considérons x ∈ R N quel-

conque, et utilisons le fait que les contraintes soient affines pour écrire :
q
∑ α i gi ( x ) + ∑ β j h j ( x ) (V.10)
i ∈ I ( x̄ ) j =1
q
= ∑ αi gi ( x̄ ) + αi h∇ gi ( x̄ ), x − x̄ i + ∑ β j h j ( x̄ ) + β j h∇h j ( x̄ ), x − x̄ i
i ∈ I ( x̄ ) j =1
 
q
= h ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) , x − x̄ i
i ∈ I ( x̄ ) j =1
= 0,
les deux dernières égalités venant du fait que h j ( x̄ ) = gi ( x̄ ) = 0, et du fait que λ = 0
dans (V.8). Nous allons maintenant montrer que la suite xk introduite dans le Lemme V.40
viole cette égalité, ce qui nous permettra de conclure. Pour ce faire, nous allons revenir à
comment cette suite et les multiplicateurs αi , β j ont été définis.
• Supposons qu’il existe i ∈ I ( x̄ ) tel que αi 6= 0. Alors αi > 0. Or αi a été défini comme
la limite de αi,k = kgi ( xk )+ /kπ̂k k. Donc forcément, à partir d’un certain rang, αi,k > 0,
ce qui implique que gi ( xk )+ > 0. Cette dernière inégalité est équivalente à dire que
gi ( xk ) > 0. Nous en déduisons que αi gi ( xk ) > 0.
• Supposons qu’il existe j tel que β j 6= 0. On a défini β j comme la limite des β j,k .
Donc, à partir d’un certain rang, β j,k est non nul, et de même signe que β j . Or β j,k =
kh j ( xk )/kπ̂k k. Donc, à partir d’un certain rang, h j ( xk ) est non nul, et de même signe
que β j . On en déduit que β j h j ( xk ) > 0.
On vient donc de montrer que si (α, β) 6= 0 alors
q
∑ αi gi ( xk ) + ∑ β j h j ( xk ) > 0,
i ∈ I ( x̄ ) j =1

ce qui contredit (V.10). Cela veut donc dire que (α, β) = 0. Or on a supposé que λ = 0,
donc en fait (λ, α, β) = 0, ce qui contredit le Lemme de Fritz John V.41.
Démonstration du Théorème V.34. Tout d’abord, observons que x̄ ∈ C garantit déjà que
gi ( x̄ ) ď 0 et h j ( x̄ ) = 0. Ensuite, observons que la condition de complémentarité αi gi ( x̄ ) =
0 est équivalente à dire que αi = 0 ou i ∈ I ( x̄ ) . Autrement dit, montrer (V.7) est
équivalent à montrer que :
q
∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
p
(∃α ∈ R+ )(∃ β ∈ Rq ) ∇ f ( x̄ ) +
i ∈ I ( x̄ ) j =1
V.II. THÉORÈME(S) DE LAGRANGE-KKT 103

On fait appel au Lemme de Fritz John V.41 pour obtenir (V.8). On utilise ensuite le fait que
la contrainte est régulière en x̄, avec le Lemme V.42 ou V.43, pour obtenir que λ > 0. On
peut alors diviser (V.8) par λ, et conclure.

Démonstration du Théorème V.39. On peut écrire

q
f ( x̄ ) ď f ( x̄ ) + ∑ αi ( gi ( x̄ ) − gi (c)) + ∑ β j (h j ( x̄ ) − h j (c))
i ∈ I ( x̄ ) j =1

car αi ě 0, gi (c) ď 0 par définition de C, gi ( x̄ ) = 0 par définition de I ( x̄ ), h j ( x̄ ) = h j (c) = 0

par définition de C. Puisque on suppose les gi convexes, on peut utiliser la caractérisation
par les hyperplans tangents de la Proposition III.18 pour en déduire
q
f ( x̄ ) ď f ( x̄ ) − ∑ αi h∇ gi ( x̄ ), c − x̄ i − ∑ β j (h j ( x̄ ) − h j (c)).
i ∈ I ( x̄ ) j =1

Puisque on suppose également les h j affines, on peut également écrire

q
f ( x̄ ) ď f ( x̄ ) − ∑ αi h∇ gi ( x̄ ), c − x̄ i − ∑ β j h∇h j ( x̄ ), c − x̄ i.
i ∈ I ( x̄ ) j =1

En utilisant maintenant la condition de KKT, avec la Proposition III.18 appliquée à f , on

obtient
f ( x̄ ) ď f ( x̄ ) + h∇ f ( x̄ ), c − x̄ i ď f (c).
Ceci étant vrai pour tout c ∈ C, on conclut que x̄ est un minimiseur global de f sur C.

V.II.3 Condition d’Optimalité de KKT du 2e ordre

Passons maintenant à la Condition Suffisante d’Optimalité de KKT du 2e ordre, qui
comme on se doute va faire intervenir une combinaison des hessiennes des contraintes :

Théorème V.44 (Théorème de Lagrange-KKT : CSO du 2e ordre).

Soient f , g1 , · · · , g p , h1 , · · · , hq : R N → R deux fois différentiables. Soit C = ∩i [ gi ď 0] ∩
∩ j [h j = 0] la contrainte mixte associée. Supposons que x̄ vérifie :

a) la Condition Nécessaire d’Optimalité de KKT du 1er ordre (V.7) avec des multiplicateurs ᾱ ∈
R p , β̄ ∈ Rq ;
b) la définie positivité de la Hessienne Lagrangienne :
p q
∇ f ( x̄ ) + ∑ ᾱi ∇ gi ( x̄ ) + ∑ β̄ j ∇2 h j ( x̄ ) 0;
2 2
i =1 j =1
104 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

c) la condition de complémentarité stricte : i ∈ I ( x̄ ) ⇔ ᾱi > 0.

Alors x̄ est un minimiseur local de f sur C.

Remarque V.45 (Complémentarité stricte). Que veut dire cette complémentarité stricte ?
Rappelons si nécessaire que dans la condition d’optimalité de KKT du 1er ordre, on de-
mande une condition de complémentarité qui s’écrit

αi gi ( x̄ ) = 0.

Comme on l’a déjà dit précédemment, ceci est équivalent à dire que

αi 6= 0 ⇒ gi ( x̄ ) = 0.

Or, puisque on sait que αi ě 0, et au vu de la définition de contrainte active, on voit que la

condition de complémentarité est encore équivalente à

αi > 0 ⇒ i ∈ I ( x̄ ).

Cette complémentarité stricte demande donc un peu plus, à savoir l’équivalence entre ces
deux propriétés.

Démonstration du Théorème V.44 sans inégalités. On commence par prouver ce résultat lors-
qu’on a seulement des contraintes d’égalité. On introduit alors le Laplacien :
q
L ( x ) = f ( x ) + ∑ β j h j ( x ),
j =1

qui vérifie f = L sur C. Puisque x̄ vérifie la CNO de KKT du 1er ordre, on peut écrire :
q
∇ L( x̄ ) = ∇ f ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0.
j =1

De plus, b) nous donne :

q
∇2 L( x̄ ) = ∇2 f ( x̄ ) + ∑ β j ∇2 h j ( x̄ ) 0.
j =1

On voit alors que x̄ vérifie les conditions suffisantes d’optimalité du 2e ordre (sans contraintes)
vues dans le Théorème II.19, ce qui implique que x̄ est un minimiseur local de L. Donc,
pour tout x ∈ C au voisinage de x̄, on a

f ( x̄ ) = L( x̄ ) ď L( x ) = f ( x ).

On en déduit donc que x̄ est un minimiseur local de f sur C.

V.II. THÉORÈME(S) DE LAGRANGE-KKT 105

Démonstration du Théorème V.44 : cas général. Maintenant passons au cas général avec des
inégalités, et montrons qu’on peut se ramener au cas d’égalités seules. Quitte a réordonner
les inégalités, et ce pour simplifier les notations, on va supposer que les premières corres-
pondent aux contraintes actives. Autrement dit, I ( x̄ ) = {1, . . . , p̄} avec p̄ ď p. On va
définir un nouveau problème dans R N + p̄ : on introduit
p̄ q
fˆ( x, z) = f ( x ), gi ( x ) + z2i ,
\ \
ĝi ( x, z) = ĥ j ( x, z) = h j ( x ), Ĉ = [ ĝi = 0] ∩ [ĥ j = 0].
i =1 j =1

On va s’intéresser au problème de minimiser fˆ sur Ĉ. Notons p que Ĉ n’est défini que par
des égalités ! De plus, il est facile de voir (en prenant zi = − gi ( x )) que
gi ( x ) ď 0 si et seulement si il existe zi ∈ R tel que ĝi ( x, zi ) = 0.
On en déduit alors que x est un minimiseur local de f sur C si et seulement si il existe
z ∈ R p̄ tel que ( x, z) soit minimiseur local de fˆ sur Ĉ.
Considérons maintenant le x̄ de notre théorème, et définissons z̄ ∈ R p̄ par z̄i = − gi ( x̄ ).
p

Nous allons montrer que ( x̄, z̄) est un minimiseur local de fˆ sur Ĉ, ce qui terminera la
preuve. Pour cela, il nous suffit de montrer que la condition suffisante du second ordre
pour les contraintes d’égalités est vérifiée puisque on vient de le prouver ! On voit en
particulier que si i ∈ I ( x̄ ) alors z̄i = 0. Grâce à notre hypothèse a), on peut écrire
q
∇ fˆ( x̄, ẑ) + ∑ αi ∇ ĝi ( x̄, z̄) + ∑ β j ∇ĥ j ( x̄, z̄)
i ∈ I ( x̄ ) j =1
q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ j=1 β j ∇h j ( x̄ )
 
 i ∈ I ( x̄ ) 
 .. 
0N
= 
 . =

.
 2αi z̄i  0 p̄
 
..
.

On voit donc que ( x̄, z̄) vérifie les conditions d’optimalité de KKT pour le problème de
minimiser fˆ sur Ĉ. On peut également écrire :
q
∇2 fˆ( x̄, ẑ) + ∑ αi ∇2 ĝi ( x̄, z̄) + ∑ β j ∇2 ĥ j ( x̄, z̄)
i ∈ I ( x̄ ) j =1
q
 
∇2 f ( x̄ ) + ∑ αi ∇2 gi ( x̄ ) + ∑ j=1 β j ∇2 h j ( x̄ ) 0
=  i ∈ I ( x̄ ) 
0 2Diag(αi ).

On a ici une matrice diagonale par blocs, dont le premier bloc est défini positif à cause de
l’hypothèse b) ; et le deuxième bloc est la matrice diagonale Diag(αi ) qui est bien définie
positive au vu de la condition de complémentarité stricte c) . Donc cette grosse matrice
106 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

est bien définie positive. On voit donc que ( x̄, z̄) vérifie la condition suffisante du second
ordre pour le Théorème avec les contraintes d’égalité, que l’on a montré dans la première
partie de la preuve. On en déduit donc que ( x̄, z̄) est un minimiseur local de fˆ sur Ĉ, ce
qui implique que x̄ est un minimiseur local de f sur C.

Remarque V.46 (Sur une CNO de KKT du 2e ordre). Si on compare ces Théorèmes avec
ceux que l’on a obtenus dans le cas sans contrainte, on voit qu’il nous en manque un :
un analogue de la Condition Nécessaire d’Optimalité d’ordre 2 (cf. Théorème II.16). On
s’attend à ce qu’il existe un résultat disant que : si x̄ est un minimiseur local de f sur C, et
sous hypothèse que la contrainte soit régulière, alors non seulement la CNO de KKT du
1er ordre est satisfaite
p q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0,
i =1 j =1

mais de plus la combinaison de toutes ces Hessiennes sera semi-définie positive :

p q
∇ f ( x̄ ) + ∑ αi ∇ gi ( x̄ ) + ∑ β j ∇2 h j ( x̄ ) 0.
2 2
(V.11)
i =1 j =1

Le problème est qu’un tel résultat n’existe pas, malheureusement. Plus précisément :
• On peut trouver un contre-exemple avec un point qui est minimiseur local mais pour
lequel la matrice dans (V.11) n’est pas semi-définie positive (voir Exemple V.47 sui-
vant).
• On peut montrer un résultat un peu plus faible que (V.11), mais qui n’est pas vraiment
facile à utiliser en pratique : la matrice dans (V.11) est semi-définie positive dans les
directions tangentes à la contrainte . On ne s’étendra pas sur ce que cela veut dire, car
cela dépasse le programme de ce cours.

Exemple V.47 (Un contre-exemple à l’existence d’une CNO de KKT 2e du ordre). Soit
f ( x, y) = x2 + y2 et C = [h = 0] avec h( x, y) = y.
1) On a C = {( x, y) ∈ R2 | y = 0}, ce qui nous permet de voir que sur la contrainte,
f ( x, y) = x2 . On en déduit donc immédiatement que f admet un unique minimiseur
sur C, qui est ( x, y) = (0, 0).
2) On voit que la contrainte est qualifiée en (0, 0), puisque ∇ g(0, 0) = (0, 1)> 6= (0, 0)> .
Donc la CNO de KKT du 1er ordre s’applique, et on obtient que ∇ f (0, 0) + β∇ g(0, 0) =
0, pour un certain β ∈ R. Puisque ∇ f (0, 0) = (0, 0)> et ∇ g(0, 0) = (0, 1)> , on voit
immédiatement que le multiplicateur β est nul.
3) On peut calculer
2 2 2 0
∇ f (0, 0) + β∇ g(0, 0) = ,
0 −2
et on se rend compte que cette matrice n’est pas semi-définie positive.
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 107

On voit donc bien qu’une condition telle que (V.11) n’est pas vraie en général.

Exercice V.48 (Utilisation de la CSO de KKT du 2e ordre). Soient f ( x, y) = − x, et C =

{( x, y) ∈ R2 | x2 + y2 ď 1, ( x − 1)3 − y = 0}.

1) En utilisant la Condition Suffisante d’Optimalité du 2e ordre de KKT, montrer que

(1, 0) est un minimiseur local de f sur C.
2) Vérifier que f ( x, y) ě −1 pour tout ( x, y) ∈ C. En déduire que (1, 0) est un minimiseur
de f sur C.
3) Optionnel : Dessinez C dans le plan, et convainquez-vous graphiquement que (1, 0) est
l’unique minimiseur de f sur C.

V.III Algorithmes pour l’optimisation sous contraintes

V.III.1 Projection sur un convexe fermé
Définition V.49. Soit C ⊂ R N un ensemble non vide, et x ∈ R N . On définit la PROJEC -
TION de x sur C comme étant le sous-ensemble de C (possiblement vide) défini par :

projC ( x ) := argmin dist(c, x ).

c∈C

Remarque V.50 (Points fixes de la projection). Observer que x appartient à C si et seule-

ment si projC ( x ) = x.

F IGURE V.16 – Encore quelques projections

sur des convexes.
F IGURE V.15 – Diverses projections sur
un carré. Des points différents (en rouge)
peuvent se projeter sur le même point (en
vert).
108 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.17 – Un ensemble convexe C, un

point x (en rouge) et sa projection p =
projC ( x ) sur C (en vert), qui est le point de F IGURE V.18 – Divers points x (en rouge) et
C qui est le plus proche possible de x. Pour leurs projections p = projC ( x ) (en vert) sur
trouver cette projection on peut imaginer l’orthant positif C = R2+ . Dans ce cas la pro-
une boule centrée en x dont le rayon gros- jection a pour effet de mettre tous les coeffi-
sit jusqu’à toucher C : lorsque l’intersection cients négatifs à zéro.
entre cette boule et C est réduite à un point,
alors ce point est exactement projC ( x ).

F IGURE V.19 – La projection n’est pas bien définie si C n’est pas convexe ! Ici deux en-
sembles C non convexes, une patate et un cercle (cercle 6= disque) pour lesquels le point
rouge peut trouver plus d’un point vert dans C qui minimise la distance.
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 109

Lorsque C est convexe fermé, la fonction projC : R N −→ C est bien définie :

Proposition V.51 (La projection est bien définie sur les convexes fermés). Soit C ⊂ R N un
ensemble non vide.

i) Si C est fermé, alors projC ( x ) est non vide pour tout x ∈ R N .

ii) Si C est fermé et convexe, alors projC ( x ) est réduit à exactement un unique point, pour tout
x ∈ RN .

Démonstration. On écrit

projC ( x ) = argmin dist(c, x ) = argmin kc − x k2 .

c∈C c∈C

On observe que x 0 7→ k x 0 − x k2 est fortement convexe et continue sur R N . D’après le

Théorème III.38, on sait que x 0 7→ k x 0 − x k2 est coercive sur R N .

i) Si on suppose que C est fermé, alors projC ( x ) est l’ensemble des minimiseurs d’une
fonction continue coercive sur un fermé. D’après le Théorème II.35, on sait que cet
ensemble de minimiseurs est non vide.
ii) Si on suppose de plus que C est convexe, alors on peut dire que x 0 7→ k x 0 − x k2 est
fortement convexe sur C. Donc d’après le Théorème III.38, on sait qu’il y a exactement
un minimiseur.

Exercice V.52. Calculer l’opérateur de projection pour les ensembles suivants :

1) C = { x ∈ R N | k x k ď 1}
2) C = C1 × · · · × CN ⊂ R N , où C1 , ..., CN ⊂ R.
3) C = R+
N = { x = ( x , · · · , x ) ∈ R N | x ě 0}, parfois appelé l’orthant positif.
1 N i

4) C = {( x, y) ∈ R2 | y = 0}.

Le point projeté p de x sur C peut également se caractériser comme étant l’unique point
tel que le vecteur x − p forme un angle obtus6 avec tous les vecteurs entrants c − p, pour
c ∈ C (cf. Figures V.20 et V.21) :

Proposition V.53 (Caractérisation de la projection via les angles). Soit C ⊂ R N un ensemble

convexe fermé non vide. Soit x ∈ R N et p ∈ C. Alors p = projC ( x ) si et seulement si

(∀c ∈ C ) hc − p, x − pi ď 0. (V.12)
6 On rappelle que deux vecteurs x et y forment un angle obtus si et seulement si h x, yi ď 0.
110 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

F IGURE V.20 – Caractérisation de la projec- F IGURE V.21 – Caractérisation de la projec-

tion par les angles : on voit que si p = tion par les angles : on voit que si q 6=
projC ( x ), alors pour tout c ∈ C, le vecteur projC ( x ), alors il existe un c ∈ C tel que le
c − p forme un angle obtus avec x − p. vecteur c − q forme un angle aigu avec x − q.

Démonstration. On va faire la preuve en deux temps. Supposons que p = projC ( x ) et

montrons que (V.12) est vérifiée. On se donne donc c ∈ C quelconque, et pour tout α ∈]0, 1[
on considère (1 − α) p + αc qui appartient à C par convexité. Alors, par définition de la
projection,

k x − pk2 ď k x − (1 − α) p − αck2 = k x − pk2 + α2 kc − pk2 + 2αh x − p, p − ci.

En simplifiant et en divisant par α > 0, on obtient

0 ď αkc − pk2 + 2h x − p, p − ci.

Puisque ceci est vrai pour tout α ∈]0, 1[, on peut faire tendre α → 0, ce qui nous donne
bien
0 ď h x − p, p − ci.
Supposons maintenant que p ∈ C est un vecteur vérifiant (V.12), et montrons que c’est
projC ( x ). Par hypothèse, on a pour tout c ∈ C :

0 ě h x − p, c − pi = h x − p, c − x + x − pi = h x − p, c − x i + k x − pk2 .

En utilisant l’inégalité de Cauchy-Schwarz, et en divisant par k x − pk2 (on peut le faire

sauf si p = x mais dans ce cas p = projC ( x ) est trivial) on obtient :

0 ě −k x − pkkc − x k + k x − pk2 ⇒ 0 ě k x − pk − kc − x k.

Ceci étant vrai pour tout c ∈ C, on en déduit que p est la projection de x sur C.

Exercice V.54. Soit C l’hyperplan affine défini par C = { x ∈ R N | h a, x i = b}. Vérifier, à

l’aide de la caractérisation de la projection via les angles, que :

h a, x i − b
projC ( x ) = x − a
k a k2
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 111

F IGURE V.22 – Projection sur une droite af- F IGURE V.23 – Projection sur un sous-espace
fine portée par a. vectoriel (ici un hyperplan). On peut voir
que les vecteurs x − p et c − p forment un
angle droit.

On déduit de la Proposition V.53 un corollaire sur la projection sur un espace vecto-

riel, caractérisée par le fait que x − p doit former un angle droit avec tous les vecteurs de
l’espace (Figure V.23) :

Corollaire V.55. Soit F un sous-espace vectoriel non vide de R N . Soient x ∈ R N et p ∈ F. Alors

p = projF ( x ) si et seulement si

(∀c ∈ F ) hc, x − pi = 0.

Démonstration. On vient de voir que p = projF ( x ) si et seulement si

(∀c ∈ F ) hc − p, x − pi ď 0.

Or p ∈ F donc par linéarité, c ∈ F ⇔ c − p ∈ F. Donc l’inégalité ci-dessus devient

(∀c ∈ F ) hc, x − pi ď 0.

Mais de plus, c ∈ F ⇔ −c ∈ F par linéarité, donc cette inégalité devient égalité :

(∀c ∈ F ) hc, x − pi = 0.

Exercice V.56. Soit F un sous-espace vectoriel de R N non vide, et soit p = projF . Montrer
que p est une application linéaire, et que p est la projection orthogonale sur F, au sens où :

p◦p = p et p ď 1.
112 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.III.2 Propriétés avancées de la projection

Les algorithmes pour résoudre des problèmes d’optimisation sous contrainte comportent
souvent des projections à réaliser sur la contrainte. Nous allons donc avoir besoin de
quelques propriétés sur la projection.

Lemme V.57 (Non-expasion ferme de la projection). Soit C ⊂ R N convexe fermé non vide.
Alors la projection projC : R N → R N est fermement non-expansive :
(∀ x, y ∈ R N ) k projC (y) − projC ( x )k2 ď ky − x k2 − k(y − x ) − (projC (y) − projC ( x ))k2 .
Démonstration. (Voir [8, Proposition III.3.1.3]) Commençons par développer la norme au
carré, en faisant apparaitre les termes de projection :
k y − x k2
= k(y − x ) − (projC (y) − projC ( x )) + (projC (y) − projC ( x ))k2
= k(y − x ) − (projC (y) − projC ( x ))k2 + k projC (y) − projC ( x )k2
+2h(y − x ) − (projC (y) − projC ( x )), projC (y) − projC ( x )i.
On voit que le Lemme sera prouvé pourvu qu’on arrive à monter que le produit scalaire
est positif. Coupons ce terme en deux :
h(y − x ) − (projC (y) − projC ( x )), projC (y) − projC ( x )i
= −hy − projC (y), projC ( x ) − projC (y)i − h x − projC ( x ), projC (y) − projC ( x )i.
On voit alors que chacun de ces deux produits scalaires est négatif, grâce à la caractérisation
de la projection par les angles. D’où le résultat.

Théorème V.58 (La projection est 1-Lipschitzienne). Soit C ⊂ R N convexe fermé non vide.
Alors la projection projC : R N → R N est 1-Lipschitzienne (on dit aussi non-expansive) :
(∀ x, y ∈ R N ) k projC (y) − projC ( x )k ď ky − x k.
Démonstration. C’est une conséquence directe du Lemme de non-expansivité ferme V.57,
où on élimine le terme négatif du second membre et on enlève les carrés.

Remarque V.59 (Contraction des distances). Cela veut dire que si on prend deux points
puis qu’on les projette, les projections seront plus rapprochées que ne l’étaient les points
de départ. On peut bien voir ce phénomène sur les Figures V.15 et V.16.

On termine avec un résultat montrant que la projection est liée à la dérivée de la fonc-
tion distance.

Proposition V.60 (Gradient de la distance au carré). Soit C un ensemble convexe fermé non
vide, et f : R N → R définie par f ( x ) = 12 dist( x, C )2 . Alors f ∈ C11,1 (R N ), avec
∇ f ( x ) = x − projC ( x ).
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 113

Démonstration. Soient x, y ∈ R N quelconques. Dans cette preuve on notera p x := projC ( x )

et py := projC (y). On définira aussi la fonction A : R N → R N , telle que Ax := x −
projC ( x ). Observons déjà que A = I − projC est 1-Lipschitzienne, d’après le Lemme V.57
de non-expansion ferme de la projection. Notre objectif est maintenant de prouver que
Ax = ∇ f ( x ), en vérifiant la formule de Taylor :

f (y) − f ( x ) − h Ax, y − x i = o (ky − x k). (V.13)

Commençons par montrer que

f (y) − f ( x ) − h Ax, y − x i ě 0. (V.14)

Pour cela, on observe que la définition de la projection nous permet d’écrire que f ( x ) =
(1/2)k x − p x k2 = (1/2)k Ax k2 . On peut alors écrire

f (y) − f ( x ) − h Ax, y − x i
1 1
= k Ayk2 − k Ax k2 − h Ax, y − x i
2 2
1 1
= k Ayk − k Ax k2 − h Ax, Ay − Ax i − h Ax, py − p x i car x = Ax + p x
2
2 2
1
= k Ay − Ax k2 − h x − p x , py − p x i en réorganisant les termes.
2
Or ici on a k Ay − Ax k2 ě 0, et d’autre part via la caractérisation de la projection par
les angles (Proposition V.53), on a h x − p x , py − p x i ď 0. On a donc bien prouvé (V.14).
Maintenant on va conclure que (V.13) est vraie. Pour cela on écrit

f (y) − f ( x ) − h Ax, y − x i
ď −h Ay, x − yi − h Ax, y − x i avec (V.14) en échangeant les rôles de x, y
= h Ay − Ax, y − x i
ď k Ay − Ax kky − x k par Cauchy-Schwarz
ď ky − x k2 = o (ky − x k),

où dans la dernière inégalité on a utilisé le fait que A est 1-Lipschitzienne.

V.III.3 Algorithme du gradient projeté

Ici on considère le problème de minimiser une fonction f ∈ Γ0 (R N ) ∩ CL1,1 (R N ) sur une
contrainte C ⊂ R N convexe fermée non vide.
Au chapitre IV nous avons vu l’algorithme du gradient. Cet algorithme a la propriété
que, à chaque itération, l’algorithme progresse vers la solution. On a vu que cela se traduit
par :
f ( x k +1 ) ď f ( x k )
114 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Étant donné un point xk ∈ C dans la contrainte, on pourrait essayer de l’améliorer en y

appliquant une étape de l’algorithme du gradient :

x̂k+1 = xk − ρ∇ f ( xk ).

En faisant cela, on obtient un point qui fait décroitre la valeur de f . Mais rien ne garantit
que x̂k+1 soit encore dans C ! Or c’est un problème puisque on cherche le minimiseur de
f sur C. On se retrouve donc avec un point x̂k+1 sur les bras, qui est bon du point de
vue de f , mais à priori mauvais vis-à-vis de C.
Une approche consiste alors à dire : au lieu de prendre x̂k+1 , on va chercher parmi les
points de C celui qui est le plus proche de x̂k+1 , autrement dit la projection de x̂k+1 sur C. Par
définition il sera dans la contrainte, et comme il sera pas trop loin de x̂k+1 , on espère
qu’il aura la même propriété de faire décroitre f (spoiler : oui).

Définition V.61 (Gradient projeté). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), et C ⊂ R N une contrainte

convexe fermée non vide. L’ALGORITHME DU GRADIENT PROJET É appliqué à ce problème
consiste à choisir un point initial x0 ∈ C, puis à appliquer :
(
x̂k+1 = xk − ρ∇ f ( xk )
xk+1 = projC ( x̂k+1 )

En d’autres termes, l’algorithme du gradient projeté alterne une étape de l’algorithme du

gradient par rapport à f , et une étape de projection par rapport à C. Comme son nom
l’indique.

Remarque V.62 (Avantages et limitations de cette approche). L’efficacité de cette méthode

est totalement dépendante de notre capacité à savoir projeter facilement, rapidement sur
C. Il est illusoire de penser que ceci est possible pour tout ensemble, mais certaines contraintes
comme le simplexe, l’orthant positif, des contraintes linéaires, peuvent être traitées en
temps raisonnable.

Exemple V.63 (Contrainte linéaire sous forme standard). Considérons le problème de

trouver un x ∈ R N tel que
N
Φx = y et x ∈ R+ ,
où Φ ∈ M M,N (R) et y ∈ R M . Si ce problème admet une solution, alors il est équivalent
à minimiser f sur C, où C = R+ N et f ( x ) : = 1 k Φx − y k2 . Dans ce cas l’algorithme du
2
gradient projeté devient

2
xk+1 = ( xk − ρΦ> (Φxk − y))+ , ρ< .
k Φ k2

Vérifions maintenant que cet algorithme est raisonnable, au sens où les solutions du
problème sont des points stationnaires :
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 115

Proposition V.64 (Points fixes du gradient projeté). Soient f ∈ Γ0 (R N ) différentiable, C ⊂

R N convexe fermé non vide, et x ∗ ∈ argminC f . Alors projC ( x ∗ − ρ∇ f ( x ∗ )) = x ∗ pour tout
ρ > 0.

Démonstration. Au vu de la caractérisation de la projection par les angles (Proposition

V.53), il nous suffit de montrer que

(∀c ∈ C ) h x ∗ − ρ∇ f ( x ∗ ) − x ∗ , c − x ∗ i ď 0.
Puisque ρ > 0, ceci est équivalent à montrer que

(∀c ∈ C ) h∇ f ( x ∗ ), c − x ∗ i ě 0.
Prenons donc un c ∈ C quelconque. On peut alors calculer

∗ ∗ f ( x ∗ + t(c − x ∗ )) − f ( x ∗ )
h∇ f ( x ), c − x i = lim ,
t →0 t
et cette fraction est bien positive ! En effet, pour t ∈]0, 1[ on a par convexité que x ∗ + t(c −
x ∗ ) ∈ C, et puisque x ∗ ∈ argminC f on a forcément f ( x ∗ + t(c − x ∗ )) ě f ( x ∗ ). D’où le
résultat.
Vérifions que le gradient projeté fait bien décroitre les valeurs de f :

Proposition V.65 (Décroissance de la méthode du gradient projeté). Soit f ∈ Γ0 (R N ) ∩

CL1,1 (R N ), pour L > 0, et C ⊂ R N convexe fermé non vide. On considère la méthode du gradient
projeté avec un pas constant ρ ∈]0, 2/L[. Alors :

(∀k ∈ N) f ( x k +1 ) ď f ( x k ).

Démonstration. On va commencer exactement comme pour la preuve de la Proposition

IV.34, où l’on avait prouvé la chose suivante (IV.2) :
L
(∀ x, y ∈ R N ) f (y) − f ( x ) ď ky − x k2 + h∇ f ( x ), y − x i. (V.15)
2
Avec x = xk et y = xk+1 , on a donc
L
f ( x k +1 ) − f ( x k ) ď kx − xk k2 + h∇ f ( xk ), xk+1 − xk i.
2 k +1
En rappelant que x̂k+1 = xk − ρ∇ f ( xk ), et en utilisant la caractérisation de la projection
par les angles (Proposition V.53), on peut écrire

k x k +1 − x k k 2 = hprojC ( x̂k+1 ) − xk , projC ( x̂k+1 ) − xk i

= hprojC ( x̂k+1 ) − x̂k+1 , projC ( x̂k+1 ) − xk i + h x̂k+1 − xk , projC ( x̂k+1 ) − xk i
ď h x̂k+1 − xk , projC ( x̂k+1 ) − xk i (Proposition V.53) et xk ∈ C)
= −ρh∇ f ( xk ), xk+1 − xk i.
116 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

On a donc obtenu que

Lρ
f ( x k +1 ) − f ( x k ) ď 1− h∇ f ( xk ), xk+1 − xk i.
2
Lρ
D’une part, le fait que ρ ∈]0, 2/L[ garantit que 1 − 2 > 0. D’autre part, la convexité de f et
l’inégalité de l’hyperplan tangent, qui nous dit que h∇ f ( xk ), xk+1 − xk i ď f ( xk+1 ) − f ( xk ),
nous permet donc de conclure que

Lρ
f ( x k +1 ) − f ( x k ) ď 1 − ( f ( xk+1 ) − f ( xk )) ,
2

d’où f ( xk+1 ) − f ( xk ) ď 0.
Nous énonçons maintenant le Théorème principal de cet algorithme :

Théorème V.66 (Convergence linéaire : Cas fortement convexe). Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ),

pour L ě µ > 0, et C ⊂ R N convexe fermé non vide. On note x ∗ = argminC f , et on considère
la méthode du gradient projeté avec un pas constant ρ ∈]0, 2/L[. Alors (k xk − x ∗ k)k∈N converge
linéairement, c’est-à-dire que :

(∃θ ∈ [0, 1[)(∀ x ∈ R N ) k xk+1 − x ∗ k ď θ k xk − x ∗ k

Plus précisément, on peut montrer que

(
2
1 − ρµ si ρ ď µ+ L
θ = max{|1 − ρµ|; |1 − ρL|} = 2
(V.16)
ρL − 1 si ρ ě µ+ L ,

qui est minimal lorsque ρ = 2/(µ + L). En particulier, xk converge vers x ∗ .

La preuve de ce résultat va combiner deux ingrédients : les résultats sur l’algorithme

du gradient vus au Chapitre IV, et la 1-Lipschitzianité de la projection :
Démonstration. On peut utiliser la propriété de Lipschitz de la projection (Théorème V.58),
avec le fait que x ∗ est un point fixe de l’algorithme (Proposition V.64) :

k xk+1 − x ∗ k = k projC ( xk − ρ∇ f ( xk )) − projC ( x ∗ − ρ∇ f ( x ∗ ))k

ď k( xk − ρ∇ f ( xk )) − ( x ∗ − ρ∇ f ( x ∗ ))k.

Or on a vu dans la preuve du Théorème IV.37 que l’étape de la méthode du gradient est

θ-Lipschitzienne, ce qui permet de conclure que

k xk+1 − x ∗ k ď k( xk − ρ∇ f ( xk )) − ( x ∗ − ρ∇ f ( x ∗ ))k ď θ k xk − x ∗ k.

V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 117

Tout comme pour la méthode du gradient à pas constant, on a toujours convergence

si f n’est que convexe. Dans ce cas on perd en vitesse de convergence, et on retombe sur
une vitesse sous-linéaire (comparer avec le Théorème IV.44) :

Théorème V.67 (Convergence : cas convexe). Soient f ∈ Γ0 (R N ) ∩ CL1,1 (R N ), pour L > 0,

et C ⊂ R N convexe fermé non vide. On suppose que argminC f 6= ∅. On considère la méthode du
gradient projeté avec un pas constant ρ ∈]0, 2/L[. Alors :

1) xk converge vers x ∗ ∈ argminC f ,

2) f ( xk ) − infC f = O 1k .

Démonstration. Admis. Une preuve est disponible dans la Section A.II.3 de l’Annexe.

V.III.4 Algorithme de projection alternées *

Ici on s’intéresse au problème de faisabilité, qui consiste à être capable de trouver un point
dans l’intersection de différentes contraintes :

Trouver x ∈ C := C1 ∩ · · · ∩ Cr . (V.17)

Pour ce genre de problèmes, typiquement chaque contrainte Ci est simple , alors que C
est plus compliquée.
Par exemple, on pourrait considérer que trouver la solution d’un système linéaire
Ax = b est difficile. Or cette égalité vectorielle est équivalente à vérifier des équations
réelles (on note ai les lignes de la matrice A) :

Ax = b ⇔ ∀i, h ai , x i = bi .

Or, trouver une solution de h ai , x i = bi est très facile pour chaque i ! On sait même projeter
sur cet hyperplan ! C’est trouver une solution commune qui est compliqué.
Un autre exemple consiste à dire que, ok, résoudre un système linéaire c’est facile, mais
que pour des problèmes concrets on a souvent des contraintes naturelles qui s’ajoutent.
Bien souvent, on veut que la solution de Ax = b soit un vecteur de coordonnées positives.
Autrement dit, on veut à la fois
N
Ax = b et x ∈ R+ .

Pas facile à priori ! Faut-il/Peut-on modifier le pivot de Gauss pour garantir des coeffi-
cients positifs ? (non)
Donc dans cette section on va proposer un algorithme capable de résoudre le problème
de faisabilité. L’idée est simple : on va projeter alternativement entre tous les Ci !
118 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Définition V.68 (Algorithme de projection alternée). Soient C1 , . . . , Cr ⊂ R N des ensembles

convexes fermés non vides, et C leur intersection. On définit L’ ALGORITHME DE PROJEC -
TION ALTERN ÉE ainsi :
(
x0 ∈ Cr ,
xk+1 = (projCr ◦ · · · ◦ projC1 )( xk ).

Théorème V.69 (Convergence de la projection alternée). Soient C1 , . . . , Cr des ensembles

convexes fermés non vides de R N , et C = C1 ∩ · · · ∩ Cr leur intersection. Si C est non vide,
alors toute suite générée par l’algorithme de projection alternée converge vers un point de C.

Démonstration. Ici on notera pC au lieu de projC pour simplifier. Soit ( xk )k∈N la suite
générée par l’algorithme de projection alternée, qui vérifie par définition xk+1 = pCr ◦
· · · ◦ pC1 ( xk ). On va avoir besoin de donner un nom à toutes les suites intermédiaires,
donc on définit pour tout k ∈ N et i = 1, . . . , r :

x̂k0 := xk et x̂ki := pCi ( x̂ki−1 ).

Avec ces notations on voit que x̂kr = xk+1 , et x̂ki ∈ Ci .

Pour commencer, fixons un c ∈ C quelconque. Puisque c est dans l’intersection, il
vérifie pour tout i que pCi (c) = c. On peut donc utiliser le fait que la projection est non-
expansive (Théorème V.58) pour écrire pour tout k :

k xk+1 − ck = k x̂kr − ck = k pCr ( x̂kr−1 ) − pCr (c)k ď k x̂kr−1 − ck ď · · · ď k x̂k0 − ck = k xk − ck.

On en déduit que, pour tout i = 1, . . . , r, la suite (k x̂ki − ck)k∈N est décroissante, et que
toutes ces suites ont la même limite :

(∃` ě 0)(∀i = 1, . . . , r ) lim k x̂ki − ck = `. (V.18)

k→+∞

On en déduit également que les suites ( x̂ki )k∈N sont bornées, donc il existe une sous-suite
k n commune telle que toutes les sous-suites ( x̂ki n )k∈N soient convergentes. On notera x∞ i
i ∈ C puisque x i ∈ C et que les C sont fermés.
leur limite, dont on sait que x∞ i k i i
Maintenant, on utilise le Lemme V.57 avec x = x̂ki et y = c pour obtenir :

k xki+1 − xki k2 = k(c − xki ) − ( pCi (c) − pCi ( xki ))k2

ď kc − xki k2 − k pCi (c) − pCi ( xki )k2
= kc − xki k2 − kc − xki+1 k2 .

En passant à la limite lorsque k n → +∞, on obtient alors

i +1 i 2 i 2 i +1 2
k x∞ − x∞ k ď kc − x∞ k − kc − x∞ k = ` − ` = 0,
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 119

ce qui veut dire que x∞ i +1 = x i . Ceci étant vrai pour tout i, on en déduit que toutes ces
∞
limites de sous-suites sont en fait le même point, que l’on note c∞ , qui vérifie donc c∞ ∈ C.
On peut maintenant conclure, en observant maintenant que si on prend c = c∞ , alors
lim k x̂ki n − c∞ k = 0. Autrement dit, la constante ` dans l’équation (V.18) est nulle. Ceci
k n →+∞
implique donc que c’est bien toute la suite xki qui converge vers c∞ . En particulier, xk =
x̂kr −1 → c∞ .

Remarque V.70 (Vitesse de convergence pour l’algorithme de projection alternée). Dans

le Chapitre IV on s’est évertués à non seulement établir la convergence de la méthode du
gradient mais aussi préciser quelle est sa vitesse de convergence, en fonction notamment
de la difficulté du problème (à travers la valeur du conditionnement cond( f ).
Ici dans le Théorème V.69 nous n’avons que la convergence. Que peut-on alors dire
des vitesses ? La réponse est hors-programme, mais voici quelques indications pour les
plus curieuses. Essentiellement : l’algorithme converge plus vite lorsque le problème est
facile .

• Un problème de faisabilité (V.17) est facile si les ensembles Ci s’intersectent bien .

Plus précisément, lorsque ces ensembles ont une intersection régulière. Si on parle de
contraintes d’égalités affines et d’inégalités convexes, alors regulière est à prendre
au sens de la Définition V.33. Dans ce cas il est possible de montrer que les itérés xk
convergent vers une solution à vitesse linéaire, et que le taux de convergence linéaire
θ dépend de l’angle formé entre les ensembles aux points où ils s’intersectent.
• De manière générale, lorsque l’intersection n’est pas régulière, la convergence des
itérés peut être arbitrairement lente : sans hypothèse, on ne peut pas garantir de vi-
tesse de convergence pour les itérés.

Remarque V.71 (La projection alternée est un gradient projeté). Considérons le problème
de trouver un x ∈ C ∩ D 6= ∅, où C et D sont deux ensembles convexes fermés. Alors
ce problème est équivalent à minimiser f sur C, où f ( x ) = 21 dist( x, D )2 . D’après la Pro-
position V.60, on a pour cette fonction que Lip(∇ f ) = 1 et ∇ f ( x ) = x − projD ( x ). Alors
l’algorithme du gradient projeté s’écrit dans ce cas

xk+1 = projC ( xk − ρ( xk − projD ( xk ))), 0 < ρ < 2.

On observe qu’en prenant un pas court ρ = 1, on obtient xk+1 = projC (projD ( xk )) qui est
exactement l’algorithme de la projection alternée pour une intersection de deux contraintes !
Qu’est-ce que cela implique du point de vue des vitesses de convergence ? Ici f n’est pas
fortement convexe7 donc on doit appliquer le Théorème V.67. On obtient alors que les
valeurs f ( xk ) = dist( xk , D ) tendent vers 0 avec une vitesse O( 1k ), et que les itérés tendent
vers une solution x ∗ ∈ C ∩ D. Mais on ne peut rien dire de plus sur la vitesse de k xk − x ∗ k,
ou de dist( xk , C ∩ D ), conformément à la Remarque V.70.
7A moins que D soit réduit à un singleton. Saurez-vous voir pourquoi c’est évident ?
120 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

Remarque V.72 (La projection alternée n’est pas un gradient projeté). En présence de
deux contraintes, on a vu dans la Remarque V.71 que la méthode de projection alternée
est un cas particulier du gradient projeté. Malheureusement cela n’est pas vrai en général.
En effet il est possible de montrer que la méthode de projection alternée pour r ě 3
contraintes ne peut en aucun cas être écrite comme un cas particulier de la méthode du
gradient projeté avec un choix intelligent de f .8

V.III.5 Pour aller plus loin *

On conclut ce chapitre avec quelques remarques. Ce sont essentiellement des remarques
d’ouverture, pour votre culture, qui sont totalement hors-programme.

Remarque V.73 (Au delà du gradient projeté). Un des problèmes évidents de la méthode
du gradient projeté est qu’il faut savoir ... projeter ! Comme on l’a vu en début de cha-
pitre, la projection est très facile à calculer pour certains ensembles : boules euclidiennes,
l’orthant positif. Mais il n’existe pas de recette générale miracle pour projeter sur un
ensemble quelconque. Voici quelques classes de problèmes que l’on rencontre typique-
ment en pratique :

• Les problèmes de programmation linéaire9 , où f est affine, et la contrainte est définie
par des égalités et inégalités affines. Ces problèmes apparaissent naturellement dans
les sciences de la décision et de la planification. Un exemple célèbre est le problème du
transport optimal10 . Dans ce cas on pourra utiliser l’algorithme du simplexe11 (1947).
• Les problèmes de programation quadratique, où cette fois-ci f est quadratique12 (les
contraintes restent affines). Une famille d’algorithmes très efficaces (et même opti-
males en un certain sens) pour les résoudre sont les méthodes dites de point intérieur13
(1980-1999). Elles sont d’ailleurs si efficaces qu’elles permettent également de résoudre
des problèmes beaucoup plus difficiles (programmation semi-définie).
• Les problèmes de programmation convexe, où f est convexe et les contraintes sont
des inégalités convexes et égalités affines. Dans ce cas le problème est trop général,
mais selon la structure du problème on peut toujours trouver un algorithme adapté.
Citons par exemple la famille des méthodes dites d’éclatement (algorithmes du gra-
dient proximal, de Douglas-Rachford, ... ), très en vogue depuis les années 2000 pour
résoudre les problèmes de traitement d’image (défloutage d’image, augmenter la résolution,
diminuer le bruit, etc..). Ces méthodes sont en particulier très efficaces pour résoudre
8 C’est un résultat qui date de 2012, dû à J.-B. Baillon, P.L. Combettes et R. Cominetti.
9 https://fr.wikipedia.org/wiki/Optimisation_lin%C3%A9aire
10 https://images.math.cnrs.fr/Le-transport-optimal-numerique-et-ses-applications-Partie-1.

html?lang=fr
11 https://fr.wikipedia.org/wiki/Algorithme_du_simplexe
12 https://fr.wikipedia.org/wiki/Optimisation_quadratique
13 https://en.wikipedia.org/wiki/Interior-point_method
V.III. ALGORITHMES POUR L’OPTIMISATION SOUS CONTRAINTES 121

des problèmes non-lisses, comme par exemple le problème de régression parcimo-

nieuse14 qui apparait en traitement du signal, traitement de l’image, ainsi qu’en statis-
tiques :
1
min αk x k1 + k Ax − yk22 .
x ∈R N 2

Remarque V.74 (Problème général). Ici on vient de voir que la méthode du gradient pro-
jeté converge si f est lisse, convexe, et C convexe. Que se passe-t-il si ces hypothèses ne
sont pas vérifiées ?

• f non convexe : Sans convexité, et même lorsqu’il n’y a pas de contrainte, cela se com-
plique. Déjà on sait que même si on converge on risque d’être coincé dans un minimi-
seur local voire un point critique (cf. x3 ). On sait également depuis longtemps (1950
environ) que sans convexité il est possible que l’algorithme du gradient ne converge
pas : les trajectoires peuvent tourner en rond.15 Mais récemment (2005-2015) on s’est
rendu compte que ce phénomène n’arrivait pas souvent . Pour des fonctions non-
convexes normales16 (polynomiales par exemple) la convergence vers un point
critique est garantie.
• C non convexe : Dans ce cas, la projection n’est plus définie de manière unique (cf.
Figure V.19). Mais on pourrait toujours implémenter l’algorithme en prenant à chaque
itération une projection quelconque. Dans ce cas on a les mêmes résultats que pour
f non convexe : la convergence vers un point critique du problème est garantie pour
des ensembles normaux .

14 https://fr.wikipedia.org/wiki/Lasso_(statistiques)
15 Les plus curieux pourront aller regarder ce GIF qui illustre ce fait avec une fonction non-convexe
connue sur le nom de mexican hat : https://raw.githubusercontent.com/Guillaume-Garrigos/
guillaume-garrigos.github.io/master/assets/maths/images/mex_trajectoire.gif
16 La définition de normale est un peu compliquée, mais pourrait être résumée par : sa définition ne

contient rien qui ait à voir de près ou de loin avec sin( x ).

122 CHAPITRE V. OPTIMISATION SOUS CONTRAINTES

V.IV Récapitulatif du Chapitre V

On considère une fonction f : R N → R, et un ensemble de contraintes défini par des
inégalités et égalités :

C = { x ∈ R N | g1 ( x ) ď 0, . . . , g p ( x ) ď 0, h1 ( x ) = 0, . . . , hq ( x )}

et le problème d’optimisation associé : minimiserx∈C f ( x ). Les Théorèmes de Lagrange-

KKT nous donnent les implications suivantes :

régulière
CSO KKT 2e ordre minimiseur local CNO KKT 1er ordre

si problème convexe
minimiseur global

Condition Nécessaire d’Optimalité de KKT du 1er ordre

 p q
∇ f ( x ) + ∑ ∇ g ( x̄ ) + ∑ β j ∇h j ( x̄ ) = 0 (Condition de stationnarité)
 α

 i i
i =1 j =1




∀i = 1, . . . , p g ( x̄ ) ď 0

(Condition d’admissibilité : inégalités)
i

 ∀ j = 1, . . . , q h j ( x̄ ) = 0 (Condition d’admissibilité : égalités)

∀i = 1, . . . , p αi ě 0 (Multiplicateur : inégalités)





∀i = 1, . . . , p αi gi ( x̄ ) = 0 (Condition de complémentarité : inégalités)


Pour que l’implication minimiseur local =⇒ CNO KKT 1er ordre ait lieu, il faut que
la contrainte soit régulière en x̄, c’est-à-dire qu’elle vérifie l’une des deux propriétés :

• linéaire (les gi et h j sont affines) ;

• qualifiée : {∇ gi ( x ), ∇h j ( x )} i∈ I (x̄) est libre. I ( x̄ ) désigne les contraintes actives en x̄.
1ďjďq

Condition Suffisante d’Optimalité de KKT du 2e ordre

1) La CNO de KKT du 1er ordre est vérifiée, avec des muliplicateurs αi , β j ;

p q
2) La Hessienne Lagrangienne ∇2 f ( x̄ ) + ∑ αi ∇2 gi ( x̄ ) + ∑ β j ∇2 h j ( x̄ ) est 0 ;
i =1 j =1

3) La complémentarité stricte : αi 6= 0 ⇔ gi ( x̄ ) = 0 pour i = 1, . . . , p.

Annexe A

Convexité(s) et Convergence de
méthodes de descente

Sommaire
A.I Un peu plus d’Analyse variationnelle . . . . . . . . . . . . . . . . . . . . . 124
A.I.1 Convexité(s) et monotonie(s) . . . . . . . . . . . . . . . . . . . . . . 124
A.I.2 Caractérisation de la convexité via la Hessienne . . . . . . . . . . . 126
A.I.3 Lipschitzianité et cocoercivité . . . . . . . . . . . . . . . . . . . . . . 127
A.II Convergence(s) de la méthode du gradient . . . . . . . . . . . . . . . . . . 130
A.II.1 Méthode du gradient : cas fortement convexe non C2 . . . . . . . . 130
A.II.2 Méthode du gradient : cas convexe . . . . . . . . . . . . . . . . . . . 132
A.II.3 Méthode du gradient projeté : cas convexe . . . . . . . . . . . . . . 137
A.II.4 Méthode du gradient optimal . . . . . . . . . . . . . . . . . . . . . . 139

Dans cette annexe nous commençons par montrer quelques caractérisations supplémentaires
de la convexité, forte convexité, et Lipschitzianité du gradient. Cela nous permet dans un
second temps de prouver des résultats laissés admis jusque là, ou tout simplement de
donner une preuve plus directe à certains Théorèmes :

• Preuve directe de la caractérisation de la convexité via la Hessienne qui ne nécessite

pas de passer par le cas univarié, comme cela est fait dans la preuve du Théorème
III.33. Cf. Section A.I.2.
• Preuve de la convergence linéaire des itérés pour la méthode du gradient, pour les
fonctions fortement convexes (Théorème IV.37), sans faire l’hypothèse que la fonction
f est de classe C2 . Cf. Section A.II.1.
• Preuve de la convergence linéaire des valeurs pour la méthode du gradient, pour les
fonctions fortement convexes (Théorème IV.42). Cf. Section A.II.1.

123
124 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

• Preuves de la convergence sous-linéaire de la méthode du gradient (projeté) pour les

fonctions convexes (Théorèmes IV.44 et V.67). Cf. Sections A.II.2 et A.II.3.
• Preuve de la convergence linéaire de la méthode du gradient à pas optimal, pour les
fonctions fortement convexes (Théorème IV.57). Cf. Section A.II.4.

A.I Un peu plus d’Analyse variationnelle

A.I.1 Convexité(s) et monotonie(s)
Remarque A.1 (Croissance et Monotonie). Pour les fonctions univariées, on a vu dans la
Proposition III.13 que la convexité était équivalent à la croissance de la dérivée. Or il n’y a
pas de notion de croissance pour le gradient, car la relation d’ordre canonique sur R N
n’est pas un ordre total. Mais il existe une notion un peu plus générale, celle de fonction
monotone. En effet, la croissance d’une fonction univariée f : R → R s’écrit

(∀ x, y ∈ R) x ď y ⇒ f ( x ) ď f (y).
Cette propriété est en fait équivalente à dire que y − x et f (y) − f ( x ) ont le même signe.
Autrement dit :
(∀ x, y ∈ R) ( f (y) − f ( x ))(y − x ) ě 0.
On peut alors étendre cette relation aux champs de vecteurs, et dire que F : R N → R N est
monotone si :
(∀ x, y ∈ R) h F (y) − F ( x ), y − x i ě 0.
On peut alors montrer (Proposition suivante) que la convexité d’une fonction f : R N −→
R est équivalente à la monotonie de son gradient ∇ f : R N −→ R N .

Proposition A.2 (Convexité via le gradient). Soit f : U ⊂ R N → R une fonction différentiable

sur U, et C ⊂ U convexe non vide. Les propriétés suivantes sont alors équivalentes :
i) f est convexe sur C, càd f ∈ Γ0 (C ) ;
ii) (∀( x, y) ∈ C2 ) f (y) ě f ( x ) + h∇ f ( x ), y − x i ;
iii) (∀( x, y) ∈ C2 ) h∇ f (y) − ∇ f ( x ), y − x i ě 0.

Démonstration. i) ⇒ ii). Soient ( x, y) ∈ C2 quelconques. Pour α ∈]0, 1[, on pose zα :=

(1 − α) x + αy. On a alors f (zα ) ď (1 − α) f ( x ) + α f (y) = f ( x ) + α( f (y) − f ( x )), donc
1 α →0+
f (y) − f ( x ) ě ( f (zα ) − f ( x )) → D f ( x )(y − x ) = h∇ f ( x ), y − x i.
α
ii) ⇒ i) : On a

f ( x ) ě f (zα ) + h∇ f (zα ), x − zα i (A.1)

f (y) ě f (zα ) + h∇ f (zα ), y − zα i. (A.2)
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 125

En sommant (1 − α) fois la relation (A.1) et α fois la relation (A.2), et en utilisant le fait que
(1 − α)( x − zα ) + α(y − zα ) = 0, on obtient l’inégalité de convexité.
ii) ⇒ iii) : On écrit

f (y) ě f ( x ) + h∇ f ( x ), y − x i
f ( x ) ě f (y) + h∇ f (y), x − yi.

En sommant on obtient l’inégalité désirée.

iii) ⇒ ii) : Soit g(t) := f ((1 − t) x + ty) pour t ∈ [0, 1]. On remarque que g0 (t) = h∇ f (zt ), y −
x i, et en particulier que g0 (0) = h∇ f ( x ), y − x i. Donc il nous suffit de montrer que
g(1) − g(0) − g0 (0) ě 0. D’après notre hypothèse, on a
1
g0 (t) − g0 (0) = h∇ f (zt ) − ∇ f ( x ), y − x i = h∇ f (zt ) − ∇ f ( x ), zt − x i ě 0.
t
D’autre part, comme g est continue sur [0, 1] et dérivable sur ]0, 1[, on peut utiliser le
g(1)− g(0)
théorème des accroissements finis qui nous dit qu’il existe c ∈]0, 1[ tel que 1 =
0 0
g (c). En combinant ces deux résultats, on en déduit que g(1) − g(0) ě g (0), ce qui donne
l’inégalité désirée.
Un analogue à la Proposition A.2 pour les fonctions fortement convexes :

Proposition A.3 (Forte convexité via gradient). Soient C ⊂ R N convexe, f : C → R

une fonction différentiable en tout point de C, et µ > 0. Les propriétés suivantes sont alors
équivalentes :
i) f est fortement convexe sur C, càd f ∈ Γµ (C ) ;
ii) (∀( x, y) ∈ C2 ) f (y) − f ( x ) − h∇ f ( x ), y − x i ě 2 k x − yk2 ;
µ

iii) (∀( x, y) ∈ C2 ) h∇ f (y) − ∇ f ( x ), y − x i ě µky − x k2 .

Démonstration. Soit µ > 0 et f = g + (µ/2)k · k2 . En particulier on a ∇ f ( x ) = ∇ g( x ) + µx

sur C.
i) ⇔ ii) On peut écrire :

f (y) − f ( x ) − h∇ f ( x ), y − x i
= g(y) − g( x ) − h∇ g( x ), y − x i + (µ/2)kyk2 − (µ/2)k x k2 − hµx, y − x i
= g(y) − g( x ) − h∇ g( x ), y − x i + (µ/2)ky − x k2 .
On conclut donc avec les Propositions III.30 et A.2.
i) ⇔ iii) On peut écrire :

h∇ f (y) − ∇ f ( x ), y − x i
= h∇ g(y) − ∇ g( x ), y − x i + µky − x k2 .
On conclut donc avec les Propositions III.30 et A.2.
126 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Un résultat en quelque sorte dual de la Proposition A.3.

Proposition A.4 (Forte convexité via gradient II). Soit f ∈ Γµ (R N ) une fonction différentiable,
avec µ > 0. Alors les propriétés suivantes ont lieu :
1) (∀ x, y ∈ R N ) 1
2µ k∇ f ( y ) − ∇ f ( x )k
2 ě f (y) − f ( x ) − h∇ f ( x ), y − x i ;
2) (∀ x, y ∈ R N ) 1
µ k∇ f ( y ) − ∇ f ( x )k
2 ě h∇ f (y) − ∇ f ( x ), y − x i.

Démonstration. i) (voir [15, Theorem 2.1.10]) Soit x ∈ R N fixé, et soit φ(y) := f (y) −
h∇ f ( x ), yi. Puisque f ∈ Γµ (R N ) alors φ ∈ Γµ (R N ) aussi, comme somme d’un fonction
fortement convexe et d’une fonction convexe (car linéaire). On calcule ∇φ(y) = ∇ f (y) −
∇ f ( x ), et on en déduit que argminφ = { x }. On peut donc écrire d’après ii) que pour tout
y ∈ RN :
µ
φ( x ) = min φ(v) ě min φ(y) + h∇φ(y), v − yi + kv − yk2 .
v ∈R N v ∈R N 2
Or le terme de droite est un problème d’optimisation en v, fortement convexe, dont l’unique
solution v∗ vérifie la CNO du 1er ordre : ∇φ(y) + µ(v∗ − y) = 0. Autrement dit, v∗ =
y − µ1 ∇φ(y). On a donc

µ ∗
φ( x ) ě φ(y) + h∇φ(y), v∗ − yi + k v − y k2
2
1 1
= φ(y) − k∇φ(y)k2 + k∇φ(y)k2
µ 2µ
1
= φ(y) − k∇φ(y)k2
2µ
On a donc bien montré que
1
k∇φ(y)k2 ě φ(y) − φ( x ),
2µ

où φ(y) − φ( x ) = f (y) − f ( x ) − h∇ f ( x ), y − x i et ∇φ(y) = ∇ f (y) − ∇ f ( x ).

ii) Il suffit d’appliquer i), puis de nouveau i) en inversant les rôles de x et y, puis d’en faire
la somme.

A.I.2 Caractérisation de la convexité via la Hessienne

Rappelons ici le Théorème III.19 qui caractérise la convexité avec la positivité de la Hes-
sienne :

Théorème A.5 (Convexité via Hessienne). Soit f : U ⊂ R N → R, deux fois différentiable sur
U, et C ⊂ U convexe et ouvert. Alors les propriétés suivantes sont équivalentes :
i) f est convexe sur C, càd f ∈ Γ0 (C ) ;
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 127

ii) (∀ x ∈ C ) ∇2 f ( x ) 0.

Voici une preuve directe de ce résultat, qui ne passe pas par le cas univarié étudié dans
la Section III.I.3, mais utilise plutôt la monotonie du gradient :

Démonstration.
ii) ⇒ i) : Soit x ∈ C, et d ∈ R N quelconque ; il nous faut montrer que h∇2 f ( x )d, di ě 0.
D’après la Proposition I.78.iii), on a ∇2 f ( x ) = J (∇ f )( x ), donc :

h∇2 f ( x )d, di = h J (∇ f )( x )d, di = d T J (∇ f )( x )d.

D’autre part, J (∇ f )( x )d est la dérivée directionnelle de ∇ f en x dans la direction d, donc :

∇ f ( x + td) − ∇ f ( x ) hd, ∇ f ( x + td) − ∇ f ( x )i

d T J (∇ f )( x )d = d T lim = lim
t →0 t t →0 t
h( x + td) − x, ∇ f ( x + td) − ∇ f ( x )i
= lim ě0,
t →0 t2
la dernière inégalité provenant de la Proposition A.2.iii), et du fait que pour t suffisam-
ment petit, on a x + td ∈ C puisque C est ouvert.
i) ⇒ ii) : Soient x, y ∈ C fixés. Soit g : U → R définie par g(z) = h∇ f (z), y − x i. Elle est
différentiable comme f , et ∇ g(z) = ∇2 f (z)(y − x ). En utilisant le Théorème de Taylor-
Lagrange, on sait qu’il existe zα ∈] x, y[ tel que :

h∇ f (y) − ∇ f ( x ), y − x i = g(y) − g( x ) = h∇ g(zα ), y − x i = h∇2 f (zα )(y − x ), y − x i ě 0,

où α ∈]0, 1[, et la dernière inégalité vient de l’hypothèse, et du fait que zα ∈ C par
convexité. On conclut donc avec la Proposition A.2.

A.I.3 Lipschitzianité et cocoercivité

Quelques caractérisations de CL1,1 (R N ) pour les fonctions convexes, qui ne font pas inter-
venir l’hypothèse de double différentiabilité :

Proposition A.6 (Lipschitzianité via le gradient). Soit f ∈ Γ0 (R N ) différentiable. Alors les

propriétés suivantes sont équivalentes :

i) ∇ f est L-Lipschitzien : (∀ x, y ∈ R N ) k∇ f (y) − ∇ f ( x )k ď Lky − x k.

ii) (∀ x, y ∈ R N ) h∇ f (y) − ∇ f ( x ), y − x i ď Lky − x k2 .
iii) (∀ x, y ∈ R N ) f (y) − f ( x ) − h∇ f ( x ), y − x i ď L2 ky − x k2 .
iv) (∀ x, y ∈ R N ) 1 2
2L k∇ f ( y ) − ∇ f ( x )k ď f ( y ) − f ( x ) − h∇ f ( x ), y − x i.
v) (∀ x, y ∈ R N ) 1 2
L k∇ f ( y ) − ∇ f ( x )k ď h∇ f ( y ) − ∇ f ( x ), y − x i.
128 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Remarque A.7 (Cocoercivité). La propriété v) est bien plus forte et précise que la simple
monotonie de ∇ f (voir Proposition A.2.iii)). Cette propriété s’appelle la cocoercivité de
∇ f . Plus précisément, on dit que ∇ f est L1 -cocoercive. L’équivalence entre ∇ f est Lip-
schitzienne et ∇ f est cocoercive est connue sous le nom du Théorème de Baillon-
Haddad [16, Theorem 3.13].

Remarque A.8 (Dualité). Si on compare la Proposition A.6 avec les Propositions A.3 et
A.4, on voit qu’il y a beaucoup de propriétés similaires, mais en fait opposées. Par exemples
les termes en ∇ f (y) − ∇ f ( x ) s’échangent avec des termes en ky − x k et µ s’échange avec
1,1
L . C’est en fait une conséquence d’un principe de dualité entre Γµ (R ) et C 1 (R ), qui
1 N N
µ
n’est pas au programme.

Démonstration. (Voir [16, Lemma 1.30] ou [15, Theorem 2.1.5])

i) ⇒ ii) : Il suffit d’utiliser l’inégalité de Cauchy-Schwarz, et i).
ii) ⇒ iii) : Soit x, y ∈ R N , et posons g(t) = f (zt ) où zt = (1 − t) x + ty. Alors g0 (t) =
h∇ f (zt ), y − x i, et :

f (y) − f ( x ) − h∇ f ( x ), y − x i = g(1) − g(0) − h∇ f ( x ), y − x i

Z 1
= g0 (t) dt − h∇ f ( x ), y − x i
0
Z 1
= h∇ f (zt ) − ∇ f ( x ), y − x i dt
0
Z 1
L
ď Ltky − x k2 = k y − x k2 .
0 2

iii) ⇒ iv) : Soit x, y ∈ R N , et posons g(y) = f (y) − h∇ f ( x ), yi. Puisque ∇ g(y) = ∇ f (y) −
∇ f ( x ), on en déduit que g ∈ CL1,1 (R N ). De plus, g est la somme d’une fonction convexe
et d’une forme linéaire, donc elle est convexe aussi. On voit que ∇ g( x ) = 0, donc x ∈
argmin g. On peut applique maintenant iii) à g, en les points y − L1 ∇ g(y) et y :

1 1 L 1
∇ g(y)) − g(y) − h∇ g(y), − ∇ g(y)i ď k − ∇ g(y)k2
g(y −
L L 2 L
1 1 1
⇔ g(y − ∇ g(y)) − g(y) + k∇ f (y) − ∇ f ( x )k2 ď k∇ f (y) − ∇ f ( x )k2
L L 2L
Puisque x ∈ argmin g, donc on obtient :
1 1
⇒ g( x ) − g(y) + k∇ f (y) − ∇ f ( x )k2 ď k∇ f (y) − ∇ f ( x )k2
L 2L
−1
⇔ f ( x ) − f (y) − h∇ f ( x ), x − yi ď k∇ f (y) − ∇ f ( x )k2 .
2L
iv) ⇒ v) : Il suffit d’utiliser iv) deux fois d’affilée en inversant les roles de x et y, et de faire
la somme.
A.I. UN PEU PLUS D’ANALYSE VARIATIONNELLE 129

v) ⇒ i) : Il suffit d’utiliser l’inégalité de Cauchy-Schwarz, et de diviser par k∇ f (y) −

∇ f ( x )k.

Proposition A.9. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ) avec µ, L > 0. Alors L ě µ.

Démonstration. D’après les Propositions A.3.ii) et A.6.iii), on a

µ L
(∀ x, y ∈ R N ) ky − x k2 ď f (y) − f ( x ) − h∇ f ( x ), y − x i ď ky − x k2 . (A.3)
2 2

Proposition A.10. Soit f ∈ Γµ (R N ) ∩ CL1,1 (R N ) avec µ = L. Alors il existe b ∈ R N , c ∈ R

tels que f ( x ) = 2 k x k2 + hb, x i + c.
µ

Démonstration. On reprend (A.3) où les inégalités deviennent ici des égalités, et on conclut
avec b = ∇ f (0) et c = f (0).

Remarque A.11 (Γµ et CL1,1 combinés). Lorsque on a une fonction dans Γµ (R N ) ∩ CL1,1 (R N ),
on peut combiner leurs propriétés ! Par exemple en combinant Proposition A.6.v) et A.3.iii),
on obtient

µ 1
h∇ f (y) − ∇ f ( x ), y − x i ě ky − x k2 + k∇ f (y) − ∇ f ( x )k2 .
2 2L

Mais le fait est que l’on a ici en quelque sorte utilisé séparément la forte convexité et le
gradient Lipschitz. Lorsque les deux sont réunis, on peut obtenir des constantes un peu
meilleures (ce qui aura de l’importance par la suite).

Proposition A.12. Soit f ∈ Γµ (R N ) avec µ > 0, et soit L > µ. Alors les propriétés suivantes
sont équivalentes :

i) ∇ f est L-Lipschitzien.

ii) (∀ x, y ∈ R N ) x k2 + 1 2
µL
h∇ f (y) − ∇ f ( x ), y − x i ě µ+ L k y − µ+ L k∇ f ( y ) − ∇ f ( x )k .

Démonstration. (voir [15, Theorem 2.1.12]) Soit g( x ) = f ( x ) − 2 k x k2 . Puisque f ∈ Γµ (R N )

alors g ∈ Γ0 (R N ) d’après la Proposition III.30. On peut également écrire que f ∈ CL1,1 (R N ) ⇔

g ∈ CL1,1
−µ (R ), ceci découlant de
N

µ
0 ď g(y) − g( x ) − h∇ g( x ), y − x i = f (y) − f ( x ) − h∇ f ( x ), y − x i − k y − x k2
2

et de la Proposition A.6. On considère maintenant deux cas :

130 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Cas µ = L : Dans ce cas on a i) ⇔ g ∈ C01,1 (R N ), ce qui est équivalent à dire que ∇ g est
constante. D’autre part, ii) est équivalente à :
1 √ 1 √ 1 1
h √ (∇ f (y) − ∇ f ( x )), µ(y − x )i ě k µ(y − x )k2 + k √ (∇ f (y) − ∇ f ( x ))k2
µ 2 2 µ
1 √ 1
⇔ 0 ě k µ(y − x ) − √ (∇ f (y) − ∇ f ( x ))k2
2 µ
√ 1
⇔ µ(y − x ) = √ (∇ f (y) − ∇ f ( x ))
µ
⇔ ∇ g ( y ) = ∇ g ( x ),
cette dernière propriété voulant dire que ∇ g est constante.
Cas L > µ : On utilise la Proposition A.6.v) pour écrire que g ∈ CL1,1
−µ (R ) est équivalent
N

à, pour tout x, y ∈ R N :

1
h∇ g(y) − ∇ g( x ), y − x i ě k∇ g(y) − ∇ g( x )k2
L−µ
1
⇔ h∇ f (y) − ∇ f ( x ), y − x i − µky − x k2 ě k∇ f (y) − ∇ f ( x ) − µ(y − x )k2
L−µ
2µ 1 µ2
⇔ (1 + )h∇ f (y) − ∇ f ( x ), y − x i ě k∇ f (y) − ∇ f ( x )k2 + (µ + )ky − x k2
L−µ L−µ L−µ
L+µ 1 µL
⇔ h∇ f (y) − ∇ f ( x ), y − x i ě k∇ f (y) − ∇ f ( x )k2 + k y − x k2 ,
L−µ L−µ L−µ
qui est équivalent à ii).

A.II Convergence(s) de la méthode du gradient

A.II.1 Méthode du gradient : cas fortement convexe non C2
Ici on prouve le Théorème IV.37 sur la convergence linéaire de la méthode du gradient
pour une fonction fortement convexe, sans utiliser l’hypothèse que f est de classe C2 .
Démonstration du Théorème IV.37. (Voir [15, Theorem 2.1.15] ou [17, Theorem 3.1]) Soit x ∈
R N et x + = x − ρ∇ f ( x ). On utilise le fait que ∇ f ( x ∗ ) = 0 (voir Théorème II.9) pour
écrire :

k x + − x ∗ k2 = k x − x ∗ − ρ∇ f ( x )k2 = k x − x ∗ k2 + ρ2 k∇ f ( x )k2 − 2ρh x − x ∗ , ∇ f ( x )i.

Comme ρ ∈]0, 2/L[, on peut écrire ρ = 2α/(µ + L), où α ∈]0, 1 + µ/L[. On écrit alors :

k x + − x ∗ k2 = k x − x ∗ k2 + ρ2 k∇ f ( x )k2 − 2ραh x − x ∗ , ∇ f ( x )i − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i.

(A.4)
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 131

Puisque f est fortement convexe et à gradient Lipschitzien, on peut utiliser la caractérisation

de la Proposition A.12.ii) (on rappelle que ∇ f ( x ∗ ) = 0) :

µL 1
h∇ f ( x ), x − x ∗ i ě k x − x ∗ k2 + k∇ f ( x )k2 .
µ+L µ+L

En insérant cette inégalité dans (A.4) (sur le terme proportionnel à α > 0), et en utilisant
la définition de α, on obtient :

+ ∗ 2 ∗ 2 µL 2 2 1
k x − x k ď k x − x k 1 − α2ρ + k∇ f ( x )k ρ − α2ρ
µ+L µ+L
∗
−2ρ(1 − α)h x − x , ∇ f ( x )i
= k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i.

On va maintenant majorer le dernier terme proportionnel à (1 − α), dont on ne connait

pas le signe. Puisque f est fortement convexe et à gradient Lipschitzien, on peut utiliser
les Propositions A.3.iii) et A.6.ii) pour écrire

(∀ x ∈ R N ) µk x − x ∗ k2 ď h∇ f ( x ), x − x ∗ i ď Lk x − x ∗ k2 . (A.5)

On considère maintenant deux cas :

Cas ρ ď 2/(µ + L) : Ici on a (1 − α) ě 0. On peut donc utiliser la première inégalité de
(A.5) pour écrire

k x + − x ∗ k2 ď k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i ď θ 2 k x − x ∗ k2 ,

où θ 2 = 1 − µLρ2 − 2ρ(1 − α)µ = (1 − ρµ)2 .

Cas ρ ě 2/(µ + L) : Ici on a (1 − α) ď 0. On peut donc utiliser la deuxième inégalité de
(A.5) pour écrire

k x + − x ∗ k2 ď k x − x ∗ k2 (1 − µLρ2 ) − 2ρ(1 − α)h x − x ∗ , ∇ f ( x )i ď θ 2 k x − x ∗ k2 ,

où θ 2 = 1 − µLρ2 − 2ρ(1 − α) L = (1 − ρL)2 .

On passe ensuite Au Théorème IV.42, qui porte sur la vitesse de convergence linéaire
de f ( xk ) − inf f . Nous proposons ici une preuve simplifiée : nous allons montrer que
f ( xk ) − inf f converge linéairement, mais nous n’allons pas vérifier que le taux de contrac-
tion est exactement le même θ que celui du Théorème IV.37.iii). On aura un θ un peu moins
bon.

Démonstration du Théorème IV.42 avec un θ quelconque. Reprenons la preuve de la Proposi-

tion IV.34, où l’on avait montré que :

Lρ2

+
f ( x ) − inf f ď f ( x ) − inf f − ρ − k∇ f ( x )k2 .
2
132 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Puisque f est fortement convexe, on peut utiliser la Proposition A.4.i) qui nous donne :
1 1
f ( x ) − inf f = f ( x ) − f ( x ∗ ) − h∇ f ( x ∗ ), x − x ∗ i ď k∇ f ( x ) − ∇ f ( x ∗ )k2 = k∇ f ( x )k2 .
2µ 2µ
En combinant ces deux dernières inégalités, et en utilisant le fait que ρ = α/L avec α ∈
]0, 2[, on obtient :
1 µ
f ( x + ) − inf f ď f ( x ) − inf f − α(2 − α)k∇ f ( x )k2 ď ( f ( x ) − inf f ) 1 − α(2 − α) .
2L L
On conclut avec le fait que α(2 − α) ∈]0, 1[.
Démonstration du Théorème IV.42 avec le bon θ. La preuve exacte de ce résultat est assez tech-
nique, et peut être trouvée dans [17, Theorem 3.3].

A.II.2 Méthode du gradient : cas convexe

Dans le cas fortement convexe on a essentiellement utilisé le fait que l’algorithme est θ-
Lipschitzien avec θ < 1. Cela nous permet de prouver facilement par récurrence que les
itérés convergent Lorsque f n’est que convexe, le problème est que l’algorithme devient
seulement 1-Lipschitzien :

Lemme A.13 (Non-expansivité de la méthode du gradient). Soit f ∈ Γ0 (R N ) ∩ CL1,1 (R N ).

Soit Aρ : R N → R N , x 7→ x − ρ∇ f ( x ). Alors, pour tout ρ ∈ [0, 2/L], Aρ est 1-Lipschitzienne :

(∀ x, y ∈ R N ) kAρ x − Aρ yk ď k x − yk.
Démonstration. Si on regarde la preuve du Théorème IV.37 (dans le Chapitre IV ou dans
la Section A.II.1), on voit qu’elle marche encore si µ = 0 (ce qui est notre cas ici) et si
ρ ∈ [0, 2/L]. On en déduit donc que pour tout ρ ∈ [0, 2/L], Aρ est θ-Lipschitzienne, avec

θ = max{|1 − ρ 0|; |1 − ρL|} = max{1; |1 − ρL|} = 1.

Donc tout ce que l’on peut dire c’est que

k x k +1 − x ∗ k ď k x k − x ∗ k . (A.6)

Or le fait que cette suite soit décroissante ne veut pas dire qu’elle tend vers 0. Il va donc
falloir obtenir des inégalités plus précises pour améliorer (A.6).

A.II.2.i) Convergence des valeurs en O(1/k ) : pas court ρ ď 1/L

Lemme A.14 (Variations de la distance aux solutions). Soient f ∈ Γ0 (R N ) ∩ CL1,1 (R N ) et

x ∗ ∈ argmin f . Soient x ∈ R N quelconque et x+ := x − ρ∇ f ( x ), avec ρL ∈]0, 2]. Alors :

k x+ − x ∗ k2 − k x − x ∗ k2 ď ( Lρ − 1)k x+ − x k2 − 2ρ( f ( x+ ) − inf f ).

A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 133

Démonstration. On calcule :
1 1
k x + − x ∗ k2 − k x − x ∗ k2
2ρ 2ρ
1 1
= − k x − x+ k2 − h x − x+ , x+ − x ∗ i en développant les carrés
2ρ ρ
1
= − k x − x+ k2 − h∇ f ( x ), x+ − x ∗ i d’après la définition de x+ (A.7)
2ρ
1
= − k x − x+ k2 + h∇ f ( x ), x ∗ − x i − h∇ f ( x ), x+ − x i en faisant ± x.
2ρ

D’une part, on sait via la convexité de f et l’inégalité des hyperplans (Proposition III.13.ii))
que

h∇ f ( x ), x ∗ − x i ď f ( x ∗ ) − f ( x k )

D’autre part on sait via la Lipschitzianité de ∇ f et (IV.2) que

L
−h∇ f ( x ), x+ − x i ď k x + − x k2 + f ( x ) − f ( x + ).
2
En combinant tout cela on en déduit que

1 1 L 1
k x + − x ∗ k2 − k x − x ∗ k2 ď f ( x ∗ ) − f ( x + ) + − k x + − x k2 .
2ρ 2ρ 2 2ρ

Démonstration du Théorème IV.44 pour un pas court. On suppose ici que ρL ∈]0, 1]. L’idée de
la preuve va être de montrer qu’une certaine énergie décroit au cours des itérations. On
connait déjà deux quantités qui décroissent : f ( xk ) − inf f (cf. Proposition IV.34), ainsi que
k xk − x ∗ k2 (cf. Lemme A.14). Dans cette preuve on va considérer une certaine combinaison
de ces deux quantités :

1
Ek := k ( f ( xk ) − inf f ) + ck xk − x ∗ k2 , avec c= . (A.8)
2ρ

Pour montrer que l’énergie Ek décroı̂t, nous allons montrer que sa variation est négative :

Ek+1 − Ek (A.9)
∗ 2 ∗ 2
= (k + 1)( f ( xk+1 ) − inf f ) − k( f ( xk ) − inf f ) + ck xk+1 − x k − ck xk − x k

= f ( xk+1 ) − inf f + k( f ( xk+1 − f ( xk )) + c k xk+1 − x ∗ k2 − k xk − x ∗ k2

∗ 2 ∗ 2
ď f ( xk+1 ) − inf f + c k xk+1 − x k − k xk − x k ,
134 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

où dans la dernière inégalité on utilise le fait que f ( xk+1 ) − f ( xk ) ď 0 (cf. Proposition
IV.34). Avec le résultat du Lemme A.14 on obtient

Ek+1 − Ek ď f ( xk+1 ) − inf f + c( Lρ − 1)k xk+1 − xk k2 − 2ρc( f ( xk+1 ) − inf f ).

Puisque ρL ď 1 et 2ρc = 1, on conclut que Ek est bien décroissante.

Cela nous permet alors d’écrire que

k ( f ( xk ) − inf f ) ď Ek ď E0 = ck x0 − x ∗ k2 .

En divisant cette inégalité par k, on obtient bien que

k x0 − x ∗ k2
(∀k ě 1) f ( xk ) − inf f ď .
2ρk

A.II.2.ii) Convergence des valeurs en O(1/k) : Pas long ρ ě 1/L

Lemme A.15 (Égalité du parallélogramme généralisée). Soient x, y ∈ R N et α ∈ R. Alors

k(1 − α) x + αyk2 = (1 − α)k x k2 + αkyk2 − α(1 − α)k x − yk2 .

Démonstration. On développe les carrés pour écrire :

k(1 − α) x + αyk2 = (1 − α)2 k x k2 + α2 kyk2 + 2α(1 − α)h x, yi.

Ensuite on utilise le fait que

2h x, yi = k x k2 + kyk2 − k x − yk2

ainsi que le fait que α2 + α(1 − α) = α et (1 − α)2 + (1 − α)α = (1 − α) pour conclure.

Le résultat suivant montre que la méthode du gradient est un peu mieux que 1-Lipschitzienne.
C’est un résultat analogue au Lemme V.57 pour la projection.

Lemme A.16 (Non-expansivité de la méthode du gradient : avancé). Soient f ∈ Γ0 (R N ) ∩

CL1,1 (R N ) et x ∗ ∈ argmin f . Soit Aρ : x 7→ x − ρ∇ f ( x ), avec ρL ∈]0, 2]. Alors :

(∀ x, y ∈ R N ) kAρ x − Aρ yk2 ď k x − yk2 − γk( I − Aρ ) x − ( I − Aρ )yk2 , (A.10)

2−ρL
avec γ = ρL .
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 135

Démonstration. On a vu dans le Lemme A.13 que Aρ est 1-Lipschitzienne. On va par la

suite utiliser une décomposition astucieuse de Aρ (qui se vérifie immédiatement à la
main) :
ρL
Aρ = (1 − α) I + αT, où α = ∈]0, 1[ et T = A2/L .
2
L’idée est de voir que A2/L n’est que 1-Lipschitzienne, mais l’identité I est très gentille ,
donc si Aρ est une combinaison convexe de A2/L et I, alors Aρ devrait être un peu mieux
que 1-Lipschitzienne. Cela nous permet d’écrire :

k Aρ x − Aρ y k 2
= k(1 − α)( x − y) + α( Tx − Ty)k car Aρ = (1 − α) I + αT
= (1 − α)k x − yk + αk Tx − Tyk − α(1 − α)k( I − T ) x − ( I − T )yk2 .
2 2
(Lemme A.15)

D’une part, on sait que T = A2/L est 1-Lipschitzienne (Lemme A.13), donc on a

(1 − α)k x − yk2 + αk Tx − Tyk2 ď (1 − α)k x − yk2 + αk x − yk2 = k x − yk2 .

D’autre part, nous avons par définition de T que I − T = α1 ( I − Aρ ), donc

(1 − α )
α(1 − α)k( I − T ) x − ( I − T )yk2 = k( I − Aρ ) x − ( I − Aρ )yk2 .
α
En combinant toutes ces inégalités on conclut que

1−α
k Aρ x − Aρ y k 2 ď k x − y k 2 − k( I − Aρ ) x − ( I − Aρ )yk2 .
α
1− α 2−ρL
où α = ρL .

Démonstration du Théorème IV.44 pour un pas long. On suppose ici que ρL ∈ [1, 2[. Ici nous
allons considérer la même énergie qu’en (A.8), mais avec une constante différente :

ρL − 1

∗ 2 1
Ek := k ( f ( xk ) − inf f ) + ck xk − x k , avec c= 1+ > 0, (A.11)
2ρ γ

où γ > 0 est la constante apparaissant dans le Lemme A.16. Pour montrer que l’énergie
Ek décroı̂t, on commence comme pour le pas court et on obtient la même chose que (A.9) :

∗ 2 ∗ 2
Ek+1 − Ek ď f ( xk+1 ) − inf f + c k xk+1 − x k − k xk − x k . (A.12)

Le Lemme A.14 nous dit que

k xk+1 − x ∗ k2 − k xk − x ∗ k2 ď (ρL − 1)k xk+1 − xk k2 − 2ρ( f ( xk+1 ) − inf f ). (A.13)

136 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

On a aussi le Lemme A.16, que l’on peut utiliser avec x = xk et y = x ∗ , en exploitant le

fait que Aρ x ∗ = x ∗ − ρ∇ f ( x ∗ ) = x ∗ , ce qui nous donne :

k x k +1 − x ∗ k 2 − k x k − x ∗ k 2 ď − γ k x k +1 − x k k 2 . (A.14)
γ
Posons σ := γ+ρL −1 . C’est un simple exercice que de vérifier que, puisque ρL ∈ [1, 2[,
alors γ > 0 et σ ∈]0, 1]. On va donc multiplier (A.13) par σ, et (A.14) par (1 − σ), pour
obtenir

k x k +1 − x ∗ k 2 − k x k − x ∗ k 2 (A.15)
2 2
ď −σ2ρ( f ( xk+1 ) − inf f ) + σ(ρL − 1)k xk+1 − xk k − (1 − σ )γk xk+1 − xk k
= −σ2ρ( f ( xk+1 ) − inf f ) + (σ(ρL − 1) − (1 − σ)γ) k xk+1 − xk k2 .

On peut calculer que

γ ρL − 1
σ(ρL − 1) − (1 − σ )γ = (ρL − 1) − γ = 0,
γ + ρL − 1 γ + ρL − 1
d’où
∗ 2 ∗ 2
c k x k +1 − x k − k x k − x k ď −cσ2ρ( f ( xk+1 ) − inf f ).
Or cσ2ρ = 1, donc si on combine cette inégalité avec (A.12), on en déduit que Ek est
décroissante. On peut alors conclure, comme pour le pas court :

c k x0 − x ∗ k2
(∀k ě 1) f ( xk ) − inf f ď ,
k
1+(ρL−1)2

1
où ici c = 2ρ 2−ρL .

A.II.2.iii) Convergence des itérés

Lemme A.17 (d’Opial). Soit C ⊂ R N convexe fermé non vide. Soit ( xk )k∈N ⊂ R N une suite
telle que :
1) pour tout x ∗ ∈ C, la suite k xk − x ∗ k converge,
2) toute valeur d’adhérence de ( xk )k∈N appartient à C.
Alors xk converge vers un x ∗ ∈ C.

Démonstration. (Voir [16, Lemma 5.2]) D’après i), on sait que la suite xk est bornée. Donc il
existe une sous-suite convergente xnk → x∞ , avec x∞ ∈ C d’après ii). Puisque x∞ ∈ C on
peut utiliser i) pour dire que toute la suite k xn − x∞ k2 tend vers une limite, notons-là `. Si
c’est vrai pour toute la suite, ça l’est aussi pour notre sous-suite : k xnk − x∞ k2 → `. Or on
sait que k xnk − x∞ k2 → 0 ; donc ` = 0. D’où k xn − x∞ k2 → 0, et donc xn converge vers un
élément de C.
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 137

Démonstration du Théorème IV.44 : convergence de xk . Notons que l’hypothèse du Théorème

IV.44 nous dit que argmin f est non vide. Par ailleurs, puisque f est convexe continue,
alors on sait que argmin f est un ensemble convexe fermé. On va donc pouvoir appliquer
le Lemme d’Opial A.17 à notre suite, avec C = argmin f . Pour conclure il nous faut vérifier
ses deux hypothèses.
Premièrement, soit x ∗ ∈ argmin f , et montrons que la suite k xk − x ∗ k converge. Avec
par exemple (A.14) on voit que cette suite est décroissante, donc elle converge bien. Deuxièmement,
supposons qu’il existe une sous-suite xkn qui converge vers un vecteur x ∗ . Alors on peut
utiliser le fait qu’on a déjà prouvé que f ( xk ) converge vers inf f . En particulier, la sous-
suite f ( xkn ) converge aussi vers inf f . Or f est continue, donc f ( xkn ) converge vers f ( x ∗ ).
On a donc montré que f ( x ∗ ) = inf f , ce qui veut bien dire que x ∗ ∈ argmin f .

A.II.3 Méthode du gradient projeté : cas convexe

L’opérateur de la méthode du gradient projeté vaut A = projC ◦Aρ , où projC est l’opérateur
de projection sur C, et Aρ est l’opérateur correspondant à la méthode du gradient, que
l’on a bien étudié dans la section précédente. Sans forte convexité, on ne peut pas espérer
beaucoup plus que la 1-Lipschitzianité de A :

Lemme A.18 (Non-expansivité de la méthode du gradient projeté). Soit f ∈ Γ0 (R N ) ∩

CL1,1 (R N ). Soit A : R N → R N , x 7→ projC ( x − ρ∇ f ( x )). Alors, pour tout ρ ∈ [0, 2/L], A est
1-Lipschitzienne :
(∀ x, y ∈ R N ) kAx − Ayk ď k x − yk.

Démonstration. Il suffit d’utiliser le fait que A = projC ◦Aρ , où projC et Aρ sont
1-Lipschitziennes (Théorème V.58 et Lemme A.13).

A.II.3.i) Convergence des valeurs en O(1/k ) : pas court ρ ď 1/L

Pour un pas court on peut obtenir la même estimation que pour la méthode du gradient :

Lemme A.19 (Gradient projeté : Variations de la distance aux solutions). Soient f ∈ Γ0 (R N ) ∩

CL1,1 (R N ), C ⊂ R N convexe fermé non vide, et x ∗ ∈ argminC f . Soient x ∈ R N quelconque et
x+ := projC ( x − ρ∇ f ( x )), avec ρL ∈]0, 2]. Alors :

k x+ − x ∗ k2 − k x − x ∗ k2 ď ( Lρ − 1)k x+ − x k2 − 2ρ( f ( x+ ) − inf f ). (A.16)

Démonstration. On va reprendre les mêmes arguments que pour la preuve du Lemme

A.14. On développe les carrés pour obtenir

1 1 1 1
k x + − x ∗ k2 − k x − x ∗ k2 = − k x − x + k2 − h x − x + , x + − x ∗ i.
2ρ 2ρ 2ρ ρ
138 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

Maintenant il nous faut exprimer comment x et x+ sont reliés. Pour cela on revient à la
définition x+ := projC ( x − ρ∇ f ( x )), et on applique la caractérisation de la projection par
les angles (Proposition V.53) pour écrire

h x ∗ − x+ , ( x − ρ∇ f ( x )) − x+ i ď 0
⇔ h x ∗ − x+ , x − x+ i ď ρh x ∗ − x+ , ∇ f ( x )i
1
⇔ − h x − x+ , x+ − x ∗ i ď −h x+ − x ∗ , ∇ f ( x )i.
ρ

On a donc obtenu la même inégalité qu’en (A.7). On peut donc continuer de la même
façon que dans la preuve du Lemme A.14, et conclure.

Démonstration du Théorème IV.44 pour un pas court. La preuve est exactement la même que
pour la méthode du gradient avec pas court (voir la Section A.II.2). La seule différence
est qu’il faudra utiliser les variations du Lemme A.19, et le fait que f ( xk ) est décroissante
(Proposition V.65).

A.II.3.ii) Convergence des valeurs en O(1/k ) : pas long ρ ě 1/L

Lemme A.20 (Non-expansivité de la méthode du gradient projeté : avancé). Soient f ∈

Γ0 (R N ) ∩ CL1,1 (R N ), C ⊂ R N convexe fermé non vide, et x ∗ ∈ argminC f . Soit A : x 7→
2−ρL
projC ( x − ρ∇ f ( x )), avec ρL ∈]0, 2]. Alors, avec γ = 2 :

(∀ x, y ∈ R N ) kAx − Ayk2 ď k x − yk2 − γk( I − A) x − ( I − A)yk2 . (A.17)

Démonstration. (Adapté de [2, Proposition 4.44]) On écrit A = projC ◦Aρ où Aρ x =

x − ρ∇ f ( x ). On commence par utiliser successivement les résultats du Lemme V.57 pour
projC , et du Lemme A.16 pour Aρ , pour écrire

kAx − Ayk2
= k projC ◦Aρ x − projC ◦Aρ yk2
ď kAρ x − Aρ yk2 − k( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ yk2
2 − ρL
ď k x − y k2 − k( I − Aρ ) x − ( I − Aρ )yk2 − k( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ yk2
ρL

Il nous reste à étudier le terme négatif du membre de droite. Pour simplifier les notations,
on pose u = ( I − Aρ ) x − ( I − Aρ )y et v = ( I − projC ) ◦ Aρ x − ( I − projC ) ◦ Aρ y, de telle
manière que le terme qui nous intéresse est :

2 − ρL
βkuk2 + kvk2 , où β = > 0.
ρL
A.II. CONVERGENCE(S) DE LA MÉTHODE DU GRADIENT 139

On va normaliser cette quantité en la divisant par 1 + β, afin d’avoir une combinaison

convexe, qui nous autorisera à utiliser l’égalité du parallélogramme :

β 1 1
k u k2 + kvk2 = (1 − t)kuk2 + tkvk2 avec t = ∈ [0, 1]
1+β 1+β 1+β
= k(1 − t)u + tvk2 + t(1 − t)ku − vk2 (Lemme A.15)
ě t(1 − t)ku − vk2
= t(1 − t)k( I − A) x − ( I − A)yk2 ,

où la dernière égalité vient directement de la définition de u et v, et de la simplification de

termes dans le calcul de u − v. On a donc prouvé que

kAx − Ayk2 ď k x − yk2 − (1 + β)t(1 − t)k( I − A) x − ( I − A)yk2 ,

2−ρL
et on conclut en calculant (1 + β)t(1 − t) = (1 − t) = 2 .

Démonstration du Théorème V.67 pour un pas long. On suppose ici que ρL ∈ [1, 2[. La preuve
est exactement la même que pour la méthode du gradient avec pas long (voir la Section
A.II.2). La première différence est qu’on utilisera les Lemmes A.20 et A.19 au lieu des A.16
et A.14. En particulier la valeur de γ va changer, ce qui ne change rien à la preuve, mis à
part la valeur de la constante c, qui vaut ici 2(2−L ρL) . La deuxième différence est que pour
une solution x ∗ ∈ argminC f , on a besoin du fait que Ax ∗ = x ∗ . Ceci a déjà été vérifié dans
la Proposition V.64.

A.II.4 Méthode du gradient optimal

Comme pour l’algorithme du gradient à pas fixe (Théorème IV.42, prouvé dans la Section
A.II.1) on va ici se contenter de prouver le résultat avec un θ sous-optimal.

Démonstration du Théorème IV.57 avec un θ quelconque. (Voir [14, Eq. (8.47), p.238]) Ici on note
ρk le pas optimal calculé à l’itération k. D’après le Lemme de Descente (IV.2), on sait que
pour tout ρ > 0 on a

L
f ( xk − ρ∇ f ( xk )) ď f ( xk ) + h∇ f ( xk ), −ρ∇ f ( xk )i + kρ∇ f ( xk )k2 .
2
Si on minimise le terme de gauche par rapport à ρ, on obtient par définition f ( xk+1 ). D’un
autre côté si on minimise le terme de droite par rapport à ρ, on voit que c’est un polynôme
du second degré en ρ. Il est alors facile de voir que le ρ optimal pour le membre de droite
est ρ = L1 , ce qui nous donne

1
f ( x k +1 ) ď f ( x k ) − k∇ f ( xk )k2 .
2L
140 ANNEXE A. ANNEXE : CONVEXITÉ(S) ET CONVERGENCE *

D’autre part on sait d’après la Proposition A.4.i) que

1
f ( xk ) − inf f ď k∇ f ( xk )k2 .
2µ

Si on combine ces deux inégalités, on obtient que

1 µ
f ( xk+1 ) − inf f ď f ( xk ) − inf f − k∇ f ( xk )k2 ď (1 − )( f ( xk ) − inf f ).
2L L
µ
D’où le résultat avec θ = 1 − L .
Démonstration du Théorème IV.57 avec le bon θ. Voir [6, Theorem 1.2].
Bibliographie

[1] G. A LLAIRE, Analyse Numérique et Optimisation : Une Introduction à La Modélisation

Mathématique et à La Simulation Numérique, Editions Ecole Polytechnique, 2005.

[2] H. H. B AUSCHKE AND P. L. C OMBETTES, Convex Analysis and Monotone Operator

Theory in Hilbert Spaces, Springer, 2nd edition ed., 2017.

[3] V. B ECK , J. M ALICK , AND G. P EYR É, Objectif Agrégation, H&K, 2004.

[4] D. P. B ERTSEKAS, Nonlinear Programming, Athena Scientific, 1995.

[5] P. G. C IARLET, Introduction à l’analyse numérique matricielle et à l’optimisation - 5ème

édition, Dunod, Paris, 2007.

[6] E. DE K LERK , F. G LINEUR , AND A. B. TAYLOR, On the worst-case complexity of the

gradient method with exact line search for smooth strongly convex functions, Optimization
Letters, 11 (2017), pp. 1185–1199.

[7] J.-B. H IRIART-U RRUTY, Optimisation et analyse convexe : Exercices et problèmes corrigés,
avec rappels de cours, EDP Sciences, Ulis, France, 2009.

[8] J.-B. H IRIART-U RRUTY AND C. L EMARECHAL, Convex Analysis and Minimization Al-
gorithms I : Part 1 : Fundamentals, Springer Science & Business Media, 1996.

[9] W. K ARUSH, Minima of functions of several variables with inequalities as side constraints,
M. Sc. Dissertation. Dept. of Mathematics, Univ. of Chicago, (1939).

[10] T. H. K JELDSEN, A contextualized historical analysis of the Kuhn–Tucker theorem in non-

linear programming : The impact of World War II, Historia mathematica, 27 (2000),
pp. 331–361.

[11] N. K OLKIN , J. S ALAVON , AND G. S HAKHNAROVICH, Style transfer by relaxed optimal

transport and self-similarity, in Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition, 2019, pp. 10051–10060.

[12] H. W. K UHN AND A. W. T UCKER, Nonlinear Programming, in Proceedings of the Se-

cond Berkeley Symposium on Mathematical Statistics and Probability, The Regents
of the University of California, 1951.

141
142 BIBLIOGRAPHIE

[13] J.-L. L AGRANGE, Manière plus simple et plus générale de faire usage de la formule de
l’équilibre donnée dans la section deuxième, in Mécanique Analytique, vol. 1, 1788,
pp. 77–112.

[14] D. G. L UENBERGER AND Y. Y E, Linear and Nonlinear Programming, vol. 2, Springer,

1984.

[15] Y. N ESTEROV, Introductory Lectures on Convex Optimization, vol. 87, Springer Science
& Business Media, 2004.

[16] J. P EYPOUQUET, Convex Optimization in Normed Spaces, SpringerBriefs in Optimiza-

tion, Springer International Publishing, Cham, 2015.

[17] A. B. TAYLOR , J. M. H ENDRICKX , AND F. G LINEUR, Exact Worst-Case Convergence

Rates of the Proximal Gradient Method for Composite Convex Minimization, Journal of
Optimization Theory and Applications, 178 (2018), pp. 455–476.

Vous aimerez peut-être aussi

Optimisation EA1
Pas encore d'évaluation
Optimisation EA1
130 pages
Cours sur l'Optimisation Continue
Pas encore d'évaluation
Cours sur l'Optimisation Continue
130 pages
Cours sur l'Optimisation sans Contrainte
Pas encore d'évaluation
Cours sur l'Optimisation sans Contrainte
55 pages
Cours d'Optimisation et Analyse Convexe
Pas encore d'évaluation
Cours d'Optimisation et Analyse Convexe
192 pages
Analyse Numérique et Optimisation
Pas encore d'évaluation
Analyse Numérique et Optimisation
150 pages
Universite Montpellier 2 - Cours DOptimisation Numerique
Pas encore d'évaluation
Universite Montpellier 2 - Cours DOptimisation Numerique
71 pages
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
100% (1)
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
43 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Méthodes mathématiques en finance
Pas encore d'évaluation
Méthodes mathématiques en finance
158 pages
Optimisation et Programmation Dynamique
Pas encore d'évaluation
Optimisation et Programmation Dynamique
69 pages
Polyao 101
Pas encore d'évaluation
Polyao 101
109 pages
Cours Optimisation Lafitte
Pas encore d'évaluation
Cours Optimisation Lafitte
129 pages
Cours d'Analyse Numérique - Licence Mathématiques
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Mathématiques
223 pages
Optimisation en apprentissage automatique
Pas encore d'évaluation
Optimisation en apprentissage automatique
64 pages
Optimisation Non-Linéaire L3
Pas encore d'évaluation
Optimisation Non-Linéaire L3
53 pages
Optimisation 2018
Pas encore d'évaluation
Optimisation 2018
159 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
243 pages
Introduction à l'Optimisation
Pas encore d'évaluation
Introduction à l'Optimisation
46 pages
Analyse Numérique pour Étudiants L3
Pas encore d'évaluation
Analyse Numérique pour Étudiants L3
301 pages
Polycopi Cours Optimisation Version 2021
Pas encore d'évaluation
Polycopi Cours Optimisation Version 2021
171 pages
Cours Optimisation
100% (1)
Cours Optimisation
43 pages
Cours d'Analyse Numérique - Aix Marseille
Pas encore d'évaluation
Cours d'Analyse Numérique - Aix Marseille
271 pages
Optimisation mathématique avancée
Pas encore d'évaluation
Optimisation mathématique avancée
100 pages
Optimisation Numérique L3 Paris-Dauphine
Pas encore d'évaluation
Optimisation Numérique L3 Paris-Dauphine
78 pages
Introduction à l'optimisation mathématique
Pas encore d'évaluation
Introduction à l'optimisation mathématique
45 pages
Analyse Matricielle et Optimisation
Pas encore d'évaluation
Analyse Matricielle et Optimisation
130 pages
Poly 2022
Pas encore d'évaluation
Poly 2022
69 pages
Analyse Matricielle en Mathématiques
100% (1)
Analyse Matricielle en Mathématiques
291 pages
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
Pas encore d'évaluation
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
213 pages
Optimisation Mathématique: Avec Applications en Imagerie
Pas encore d'évaluation
Optimisation Mathématique: Avec Applications en Imagerie
399 pages
Introduction à l'optimisation
Pas encore d'évaluation
Introduction à l'optimisation
39 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
248 pages
Cours Galerne
Pas encore d'évaluation
Cours Galerne
38 pages
Cours et exercices d'optimisation
Pas encore d'évaluation
Cours et exercices d'optimisation
124 pages
Calcul Variation
Pas encore d'évaluation
Calcul Variation
80 pages
Cours Optim NL
Pas encore d'évaluation
Cours Optim NL
69 pages
Opt PDF
100% (1)
Opt PDF
395 pages
Cours Optimisation
Pas encore d'évaluation
Cours Optimisation
79 pages
Poly Optimisation
Pas encore d'évaluation
Poly Optimisation
72 pages
Optimisation Numerique
Pas encore d'évaluation
Optimisation Numerique
29 pages
Transp Optim 2018
Pas encore d'évaluation
Transp Optim 2018
38 pages
Algorithmes d'Optimisation Différentiable
Pas encore d'évaluation
Algorithmes d'Optimisation Différentiable
44 pages
Opti Algo
Pas encore d'évaluation
Opti Algo
50 pages
Optimisation : Cours et Algorithmes Mathématiques
Pas encore d'évaluation
Optimisation : Cours et Algorithmes Mathématiques
46 pages
Poly GMM4
Pas encore d'évaluation
Poly GMM4
106 pages
AN Cours
Pas encore d'évaluation
AN Cours
37 pages
Introduction à l'Optimisation Numérique
Pas encore d'évaluation
Introduction à l'Optimisation Numérique
60 pages
Introduction à l'optimisation mathématique
100% (1)
Introduction à l'optimisation mathématique
45 pages
Cours d'Analyse Numérique - Licence Maths
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Maths
249 pages
Optimisation L3 UFHB 15
Pas encore d'évaluation
Optimisation L3 UFHB 15
41 pages
Optimisation financière : méthodes et applications
100% (1)
Optimisation financière : méthodes et applications
49 pages
OptiAlgo PDF
Pas encore d'évaluation
OptiAlgo PDF
53 pages
ANUM Poly Mines Cours NEW
Pas encore d'évaluation
ANUM Poly Mines Cours NEW
172 pages
Algèbre Linéaire et Analyse Matricielle
100% (2)
Algèbre Linéaire et Analyse Matricielle
167 pages
Optimiser son compte PIX efficacement
Pas encore d'évaluation
Optimiser son compte PIX efficacement
2 pages
Techniques de recopie dans Excel
Pas encore d'évaluation
Techniques de recopie dans Excel
2 pages
Introduction aux Réseaux et Modèle OSI
Pas encore d'évaluation
Introduction aux Réseaux et Modèle OSI
57 pages
Livre
Pas encore d'évaluation
Livre
164 pages
IN0230 - Implantation Appareil de Voie Du 20.01.2009
Pas encore d'évaluation
IN0230 - Implantation Appareil de Voie Du 20.01.2009
110 pages
MB EX1 Enonce Calcul de La VaR D Une Obligation
Pas encore d'évaluation
MB EX1 Enonce Calcul de La VaR D Une Obligation
7 pages
Integrale de Gauss Comprehension
Pas encore d'évaluation
Integrale de Gauss Comprehension
13 pages
Eva1 1erec Lybima 2024-2025
100% (1)
Eva1 1erec Lybima 2024-2025
2 pages
Template Memoire Ifri
Pas encore d'évaluation
Template Memoire Ifri
18 pages
Exercices sur les vecteurs et colinéarité
Pas encore d'évaluation
Exercices sur les vecteurs et colinéarité
6 pages
Algorithmes de base en programmation
Pas encore d'évaluation
Algorithmes de base en programmation
2 pages
Mouvement de rotation d'un solide
Pas encore d'évaluation
Mouvement de rotation d'un solide
4 pages
Convection
100% (3)
Convection
14 pages
Étude Mécanique d'un Aérogénérateur
Pas encore d'évaluation
Étude Mécanique d'un Aérogénérateur
6 pages
Épreuve de Mathématiques 2ème Trimestre
Pas encore d'évaluation
Épreuve de Mathématiques 2ème Trimestre
2 pages
Partiel 2020 Corrigé
Pas encore d'évaluation
Partiel 2020 Corrigé
8 pages
Bilan Scolaire de Fatoumata
Pas encore d'évaluation
Bilan Scolaire de Fatoumata
1 page
Composition 1 4AS 2019
Pas encore d'évaluation
Composition 1 4AS 2019
1 page
Pp66-86+art4 +audit+elkotbi+2
Pas encore d'évaluation
Pp66-86+art4 +audit+elkotbi+2
22 pages
CorrectionTD4 LST IMT 21 22
100% (1)
CorrectionTD4 LST IMT 21 22
15 pages
Algorithme MiniMax et Heuristiques
Pas encore d'évaluation
Algorithme MiniMax et Heuristiques
18 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
18 pages
5eme Fiche Probable D'examen
Pas encore d'évaluation
5eme Fiche Probable D'examen
7 pages
Carré Magique
100% (2)
Carré Magique
7 pages
The Genius
Pas encore d'évaluation
The Genius
3 pages
Structures Algébriques-Groupe-Anneau-Corps
Pas encore d'évaluation
Structures Algébriques-Groupe-Anneau-Corps
3 pages
Electrotechnique LTAR Ngozi07
100% (10)
Electrotechnique LTAR Ngozi07
144 pages
Exercices d'Algèbre pour Étudiants
Pas encore d'évaluation
Exercices d'Algèbre pour Étudiants
2 pages
PHARE CE2 - 3e TRIMESTRE 2023 - OK
Pas encore d'évaluation
PHARE CE2 - 3e TRIMESTRE 2023 - OK
11 pages
Quiz Java pour Débutants
100% (1)
Quiz Java pour Débutants
4 pages
Notations et équations différentielles linéaires
Pas encore d'évaluation
Notations et équations différentielles linéaires
9 pages
Chingatome 3eme Operations Sur Les Fractions
Pas encore d'évaluation
Chingatome 3eme Operations Sur Les Fractions
3 pages
Algorithme de DIJKSTRA
Pas encore d'évaluation
Algorithme de DIJKSTRA
7 pages

Poly Cours

Transféré par

Poly Cours

Transféré par

L3 Mathématiques Fondamentales et Appliquées - Mathématiques et Informatique 2021-2022

Contact: [email protected] Mis à jour le 15 avril 2022

I Éléments d’Algèbre Linéaire et de Calcul Différentiel 9

II Existence de minimiseurs et conditions d’optimalité 29

III Optimisation convexe 43

III.II.3 Forte convexité et minimiseurs . . . . . . . . . . . . . . . . . . . . . . 54

IV Algorithmes de minimisation sans contrainte 57

V Optimisation sous contraintes 81

A Annexe : Convexité(s) et Convergence * 123

Éléments d’Algèbre Linéaire et de Calcul

• N, M désigneront toujours des entiers supérieurs ou égaux à 1.

I.I Rappels et compléments d’algèbre linéaire

I.I.1 La structure euclidienne de R N

La distance euclidienne de R N , notée d(·, ·) : R N × R N → R+ , est définie par :

Définition I.5. Soit F ⊂ R N un sous-espace vectoriel. On dit que x ∈ R N est orthogonal à

Un résultat très utile :

I.I.1.iii) Topologie euclidienne dans R N .

Définition I.8. Soient x ∈ R N et r ∈]0, +∞[. On définit

• La BOULE FERM ÉE centrée en x, de rayon r, par

• On dit qu’un ensemble F ⊂ R N est FERM É si son complémentaire R N \ F est ouvert.

int C := { x ∈ C | (∃r > 0) B( x, r ) ⊂ C }.

I.I.2 Spectre d’une matrice carrée

dont le polynôme caractéristique est X 2 + 1.

Corollaire I.16. Pour A ∈ M N (R), specR ( A) = spec( A) ∩ R.

Proposition I.18. Si A ∈ M N (R) est triangulaire, alors

spec( A) = specR ( A) = { A11 , · · · , A NN }.

Voici un résultat classique sur les valeurs spectrales d’une matrice :

Proposition I.20. Soit A ∈ M N (R), et soient λ1 , · · · , λ N les valeurs spectrales de A, comptées

Remarque I.21. Il est important de prendre en compte la  multiplicité algébrique  ici !

I.I.3 L’algèbre normée M M,N (R)

i)  ·  est une norme sur M M,N (R).

En pratique, la Définition I.24 n’est pas très sympathique à manipuler si on souhaite

Proposition I.28. Soit A ∈ M M,N (R). Alors :

I.I.4 Matrices symétriques et antisymétriques

En particulier, toute matrice symétrique de M N (R) est diagonalisable dans R, et admet

Définition I.38. Soit A ∈ M N (R) une matrice symétrique. On note

Proposition I.39. Soit A ∈ M N (R) une matrice symétrique. Alors

Remarque I.41 (Inégalité de l’ellipse). Lorsque la matrice symétrique A est également à

I.I.5 Matrices semi-définies positives et définies positives

Définition I.42. Soit A ∈ M N (R) une matrice. On dit que :

• A est SEMI - D ÉFINIE POSITIVE, et on note A  0, si

• A est D ÉFINIE POSITIVE, et on note A  0, si

(∀ x ∈ R N \ {0}) h Ax, x i > 0.

D’un autre côté, la matrice  

i) A est semi-définie positive ⇔ λmin ( A) ě 0.

Exercice I.46. Soit A ∈ M M,N (R), montrer que :

Proposition I.47. Soit A ∈ M N (R) une matrice carrée. Alors :

Donc, moralement, la question de la positivité (resp. définie positivité) d’une matrice

Définition I.49. On dit que A ∈ M N ( A) est :

• D ÉFINIE N ÉGATIVE , et on note A ă 0, si − A est définie positive :

(∀ x ∈ R N \ {0}) h Ax, x i < 0.

• IND ÉFINIE si elle n’est ni semi-définie positive ni semi-définie négative. Autrement

Exercice I.52 (Matrices semi-définies positives et définies positives). Déterminer la nature

La sous-section suivante présente la notion de mineurs principaux, si vous ne l’avez

I.I.5.iii) Mineurs principaux

Exercice I.55. Listons toutes les sous-matrices principales de la matrice

s’obtiennent en retirant i-ème ligne et i-ème colonne pour i = 1, 2, 3 :

Exercice I.56. Listons toutes les sous-matrices principales de la matrice

Enfin, les sous-matrices de taille 1, qui correspondent aux éléments diagonaux :

L’ensemble des mineurs principaux d’une matrice correspond simplement à l’ensemble

Définition I.57. Soit A ∈ M N (R). On définit l’ensemble de ses MINEURS PRINCIPAUX

I.II Rappels et compléments de calcul différentiel

Définition I.59 (Dérivée directionnelle). Soit f : R N → R et d ∈ R N \ {0}. On dit que

Proposition I.61 (Jacobienne et dérivées partielles). Soit U ⊂ R N un ouvert et F : U → R M

i) Pour tout i = 1, · · · , M, Fi admet des dérivées directionnelles en toute direction au point x.

Proposition I.63. Si f : U ⊂ R N → R est différentiable en x ∈ U, alors :

Remarque I.64 (Calcul du gradient). Pour calculer le gradient de f au point x, il n’est

f (u + h) = f (u) + hw, hi + o (k hk)

Théorème I.65 (Règles de calcul).

i) Soient F, G : U ⊂ R N → R M deux fonctions différentiables en x ∈ U. Alors F + G est

ii) Soient G : R N → R M et F : R M → RP , telles que G soit différentiable en x et F soit

iii) Soient G : R N → R M et f : R M → R, telles que G soit différentiable en x et f soit

Exemple I.66. Soit f : R → R. Alors ∇ f ( x ) = f 0 ( x ).

Exemple I.67. Soit f ( x ) = 12 k x k2 , alors ∇ f ( x ) = x et D f ( x ) = x T .

Exemple I.68. Si F : R N → R M est constante, alors DF ( x ) = 0.

Exemple I.69. Si F : R N → R M est linéaire, alors DF ( x ) = F.

Remarque I.21. Il est important de prendre en compte la multiplicité algébrique ici !

i) · est une norme sur M M,N (R).

• A est SEMI - D ÉFINIE POSITIVE, et on note A 0, si

• A est D ÉFINIE POSITIVE, et on note A 0, si

D’un autre côté, la matrice