0% ont trouvé ce document utile (0 vote)

39 vues192 pages

Cours d'Optimisation et Analyse Convexe

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

39 vues192 pages

Cours d'Optimisation et Analyse Convexe

Transféré par

tiyamba816

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Université Joseph Fourier

Magistère de Mathématique, 1ère année

OPTIMISATION
Analyse convexe
Théorie de programmation non-linéaire

Notes de cours
Anatoli Iouditski

http://www-lmc.imag.fr/lmc-sms/Anatoli.Iouditski/teaching/magistere.htm
2

Certaines énoncées du cours (théorèmes, propositions, lemmes, exemples (si ces derniers
∗ +
contiennent des conjectures) sont marquées par des indices où . Les énoncés qui ne sont
pas marquées sont obligatoires : vous devez connaitre le résultat et la preuve. Les énoncés
∗
marquées par sont semi-obligatoires : vous étés supposés connaitre le résultat sans la preuve
(normalement, cette dernière accompagne le résultat), mais il est préférable, bien entendu, de
+
lire également la preuve. Les preuves des conjectures marqués par ne sont pas données dans le
texte ; vous étés supposés d’être capable de les démontrer, et ces résultats font partie d’exercices.
Le sillabus du cours est le suivant :
Objectifs : Introduction à la Théorie de Programmation Non-linéaire et Algorithmes d’Optimisation
Continue.
Durée : 14 semaines, 2 heures par semaine.
Prérequis : : Algèbre Linéaire élémentaire (vecteurs, matrices, espaces Euclidiens) ; connaissances
de base en Analyse (gradients et Hessians de fonctions multi-variées) ; habilité d’écrire un simple code en
Matlab ou Scilab.
Contenu :
1ère Partie. Éléments d’Analyse Convexe et Conditions d’Optimalité
10 semaines
1-2. Ensembles affines et convexes (définitions, propriétés de base, théorèmes de Caratheodory-Radon-
Helley)
3-4. Théorème de séparation des ensembles convexes (Lemme de Farkas, Séparation, Théorème sur
l’alternative, Points extrémaux, Théorème de Krein-Milman dans Rn , structure des ensembles polyhe-
draux, théorie de Programmation Linéaire)
5. Fonctions convexes (définition, caractérisations différentielle, operations que préservent la convexité)
6. Les programmes de Programmation Mathématique et dualité de Lagrange en Programmation
Convexe (Théorème de Dualité en Programmation Convexe avec l’applications à la Programmation Qua-
dratique avec des contraintes linéaires)
7. Conditions d’optimalité en optimisation sans contraintes et avec des contraintes (Règle de Fermat ;
Conditions de Karush-Kuhn-Tucker dans le cas régulier ; conditions d’optimalité nécessaires/suffisantes
de second ordre pour le cas sans contraintes)
2nde Partie. Algorithmes de Programmation Nonlinéaire
4 semaines
8. Minimisation sans contraintes univariée (Méthode de Bi-section, Recherche linéaire)
9. Minimisation sans contraintes multi-variée (Méthode de Descente en Gradient, et Méthode de
Newton).
Table des matières

1 Introduction 7
1.1 Espace linéaire Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Rn : structure linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2 Rn : Structure Euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension . . . . . . . . . . . . 14
1.2.1 Combinaisons linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Sous-espaces linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension . . . . . . 17
1.3 Ensembles affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.1 Ensembles affines et Enveloppes affines . . . . . . . . . . . . . . . . . . . 22
1.3.2 Générateurs affines, Ensembles independents affinement, Dimension affine 25
1.4 Description duale des sous-espaces linéaires et d’ensembles affines . . . . . . . . . 28
1.4.1 Ensembles affines et systèmes d’équations linéaires . . . . . . . . . . . . . 29
1.4.2 Structure des simples ensembles affines . . . . . . . . . . . . . . . . . . . . 31
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Ensembles convexes : Introduction 35

2.1 Deﬁnition, Exemples, Description interne, Propriétés algébriques . . . . . . . . . 35
2.1.1 Ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.2 Examples d’ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.3 Description interne d’ensembles convexes : Combinaisons convexes et en-
veloppes convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.4 Plus d’exemples d’ensembles convexes : le polytope et le cône . . . . . . . 40
2.1.5 Propriétés algébriques d’ensembles convexes . . . . . . . . . . . . . . . . . 42
2.1.6 Propriétés topologiques d’ensembles convexes . . . . . . . . . . . . . . . . 42
2.2 Théorèmes classiques sur ensembles convexes . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Théorème de Caratheodory . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.2 Théorème de Radon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2.3 Théorème de Helley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Théorème de séparation Théorie d’inégalités linéaires 55

3.1 Théorème de séparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.1 Nécessité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1.2 Suﬃsance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.3 Séparation forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 Théorie de systèmes ﬁnis d’inégalités linéaires . . . . . . . . . . . . . . . . . . . . 64

3
4 TABLE DES MATIERES

3.2.1 Preuve de la partie ”nécessité” du Théorème sur l’Alternative . . . . . . . 68

3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 Points Extrêmes. Structure d’Ensembles Polyhedraux 73

4.1 Description externe d’un ensemble convexe fermé. Plans de support . . . . . . . . 73
4.2 Représentation minimale d’ensembles convexes : points extrêmes . . . . . . . . . 75
4.3 Structure d’ensembles polyhedraux . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.1 Théorie de Programmation Linéaire . . . . . . . . . . . . . . . . . . . . . 80
4.4 Structure d’ensembles polyhedraux : preuves . . . . . . . . . . . . . . . . . . . . 85
4.4.1 Points extremes d’un ensemble polyhedral . . . . . . . . . . . . . . . . . . 85
4.4.2 Structure d’un polyhedre borné . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.3 Structure d’un ensemble polyhedral général : ﬁn de la preuve . . . . . . . 89
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5 Fonctions Convexes 95
5.1 Fonctions convexes : premier abord . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.1 Déﬁnitions et Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.2 Propriétés élémentaires de fonctions convexes . . . . . . . . . . . . . . . . 97
5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ? . . 98
5.2 Comment détecter la convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.1 Opérations préservant la convexité des fonctions . . . . . . . . . . . . . . 99
5.2.2 Critère diﬀérentiel de convexité . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3 Inégalité du Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4 Bornitude et la propriété de Lipschitz des fonctions convexes . . . . . . . . . . . 105
5.5 Maximum et minimum de fonctions convexes . . . . . . . . . . . . . . . . . . . . 108
5.6 Exrecices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6 Programmation Convexe et Dualité de Lagrange 115

6.1 Programme de Programmation Mathématique . . . . . . . . . . . . . . . . . . . . 115
6.2 Convex Programming program and Duality Theorem . . . . . . . . . . . . . . . . 116
6.2.1 Théorème sur l’Alternative Convexe . . . . . . . . . . . . . . . . . . . . . 116
6.2.2 Fonction de Lagrange et dualité de Lagrange . . . . . . . . . . . . . . . . 120
6.2.3 Conditions d’Optimalité en Programmation Convexe . . . . . . . . . . . . 122
6.3 Dualité pour la Programmation Lineaire et Quadratique convexe . . . . . . . . . 126
6.3.1 La dualité en Programmation Linéaire . . . . . . . . . . . . . . . . . . . . 126
6.3.2 La dualité en Programmation Quadratic . . . . . . . . . . . . . . . . . . . 127
6.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

7 Conditions d’Optimalité 133

7.1 Conditions d’Optimalité du Premier Ordre . . . . . . . . . . . . . . . . . . . . . . 135
7.2 En guise de conclusion... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

8 Méthodes d’Optimisation : Introduction 149

8.1 Préliminaires sur les Méthodes d’Optimisation . . . . . . . . . . . . . . . . . . . 150
8.1.1 Classiﬁcation des Problèmes et des Méthodes d’Optimisation Non-Linéaire 150
8.1.2 Nature itérative des Méthodes d’Optimisation . . . . . . . . . . . . . . . . 150
8.1.3 Convergence des Méthodes d’Optimisation . . . . . . . . . . . . . . . . . . 151
TABLE DES MATIERES 5

8.1.4 Solutions globales et locales . . . . . . . . . . . . . . . . . . . . . . . . . . 154

8.2 Recherche Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1 Recherche linéaire d’ordre zéro . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.2 Dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.2.3 Approximation de courbes . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.2.4 Recherche Linéaire Inexacte . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

9 Méthode de Descente de Gradient et Méthode de Newton 171

9.1 Descente de Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.1 L’idée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.2 Implementations Standards . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.1.3 Convergence de la Descente de Gradient . . . . . . . . . . . . . . . . . . . 173
9.1.4 Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.1.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.2.1 Version “de base” de la méthode de Newton . . . . . . . . . . . . . . . . 189
9.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6 TABLE DES MATIERES
Chapitre 1

Introduction

Ce cours traite les concepts de base liés à la théorie et aux algorithmes d’optimisation
pour résoudre des problèmes extrémaux avec un nombre ﬁni de variables – ce qui s’appelle
Programmation Mathématique. Nos objectifs sont
– (A) comprendre quand un point x∗ est une solution du problème de Programmation Non-
linéaire
f (x) → min | gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k,

où toutes fonctions impliquées dépendent de n variables réelles formant le vecteur de

décision x ;
– (B) apprendre des algorithmes numériques capables pour rapprocher la solution.
(A) est le sujet de la premiere partie purement théorique du cours dans laquelle on vise à
développer des conditions nécessaires/suffisantes d’optimalité. Ces conditions sont très impor-
tantes par les deux raisons suivantes :
– d’abord, dans certains cas les conditions nécessaires/suffisantes pour l’optimalité per-
mettent d’obtenir une solution en ”forme analytique” ; si tel est le cas, nous obtenons
beaucoup d’information importante – nous avons dans notre disposition non seulement
la solution elle-même, mais également la possibilité pour analyser comment la solution
dépend des données. Dans des situations réelles, cette compréhension est souvent plus
précieuse que que la solution elle-même ;
– en second lieu, les conditions d’optimalité sont à la base de la majorité d’algorithmes
numériques pour trouver les solutions approximatives dans les situations quand une so-
lution en “forme analytique” est indisponible (et elle n’est “presque jamais” disponible).
Dans ces algorithmes, nous vérifions à chaque étape les conditions d’optimalité pour l’ite-
ration courante ; naturellement, elles sont violés, mais il s’avère que les résultats de notre
vérification permettent d’obtenir une nouvelle itération qui est, dans un sens, meilleure
que la précédente. Ainsi, les conditions d’optimalité forment une base pour la deuxième
partie du cours consacré aux algorithmes numériques.
En fait, la première partie (“théorique”) du cours – éléments d’analyse convexe – est bien plus
ambitieuse qu’elle soit déclarée dans (A) : nous étudierons beaucoup de choses qui n’ont aucune
relation directe aux conditions d’optimalité et aux algorithmes d’optimisation. D’autre part,
nous obtiendrons un certain nombre d’occasions d’appliquer dans notre – contexte simple “en
dimension finie” quelques résultats de l’analyse fonctionnelle et de la théorie d’opérateurs.

7
8 CHAPITRE 1. INTRODUCTION

1.1 Espace linéaire Rn

Nous sommes intéressés à résoudre des problèmes extrémaux avec un nombre ﬁni de variables
de design ; en résolvant un problème, nous devrions choisir “quelque chose de optimal” d’un
espace des vecteurs. Ainsi, l’univers où tous les événements ont lieu est un espace vectoriel,
ou, plus précisément, un espace vectoriel n-dimensionnel Rn . Vous êtes censé savoir ce qu’est
l’espace depuis les cours d’algèbre ; néanmoins, essayons de rafraichir nos connaissances.

1.1.1 Rn : structure linéaire

Soit n un entier positif. Considérez l’ensemble qui consiste de tous vecteurs n-dimensionnels
– les ensembles ordonnés x = (x1 , ..., xn ) de n réels (n-uplets) ; nous équipons cet ensemble des
opérations suivantes :
– l’addition, qui met en correspondance à une paire de vecteurs n-dimensionnels x =
(x1 , ..., xn ), y = (y1 , ..., yn ) un nouveau vecteur du même type – leur somme

x + y = (x1 + y1 ..., xn + yn ),

et
– la multiplication par des réels, qui met en correspondance à un λ réel et à un vecteur
x = (x1 , ..., xn ) n-dimensionnel un nouveau vecteur n-dimensionnel – le produit de λ et de
x, déﬁni en tant que
λx = (λx1 ..., λxn ).
La structure que nous obtenons – l’ensemble de tous les vecteurs n-dimensionnels avec les deux
opérations qu’on vient de déﬁnir – s’appelle l’espace vectoriel réel Rn n-dimensionnel.

Remarque 1.1.1 pour ménager de l’espace, nous notons habituellement un vecteur en arran-
geant ses entrées dans la ligne : x = (x1 , > ..., xn ). On devra se rappeler, cependant, ⎛ que les
⎞
x1
conventions d’Algèbre Linéaire exigent des entrées d’être arrangées en colonne : x = ⎝ .... ⎠.
xn
C’est la seule manière d’être compatible avec les déﬁnitions de multiplication de vecteur par une
matrice et d’autres operations d’Algèbre Linéaire.
Essayez SVP de ne pas oublier cette petite contradiction !

Tant que l’addition et la multiplication par des réels sont concernés, “l’arithmétique de la struc-
ture que nous obtenons est absolument semblable à celle des réels. Par exemple (ci-dessous
emploie des lettres latines pour noter les vecteurs n-dimensionnels, et des lettres grecs pour
noter des réels) :
– le vecteur nul 0 = (0, ..., 0) joue le rôle du zero réel :

x+0 =0+x =x

for all x ;
– the à l’opposé −α du réel α (α + (−α) = 0) correspond la négation vectorielle

x = (x1 , ..., xn ) → −x = (−1)x = (−x1 , ..., −xn )

(x + (−x) = 0) ;
1.1. ESPACE LINEAIRE RN 9

– nous pouvons utiliser les règles standards de manipulation avec des expressions du type

λx + μy + νz + ...

– changer l’ordre :
λx + μy + νz = νz + μy + λx,
– ouvrir les parenthèses :

(λ − μ)(x − y) = λx − λy − μx + μy,

– rassembler les termes similaires et simpliﬁer les termes opposés :

3x + 7y + z − 8x + 3y − z = −5x + 10y,

etc.
Tous ces résultats sont des conséquences immédiates du fait que les règles correspondantes
agissent sur des réels et que notre arithmétique vectoriel est “élément-par-élément” – pour ajou-
ter des vecteurs et pour les multiplier par des réels signifie d’effectuer les opérations semblables
avec leurs entrées. La seule chose que nous “ne savons pas” faire pour le moment est de multiplier
des vecteurs par des vecteurs.
Un étudiant curieux pourrait demander ce qui est la vraie signification des mots
“arithmétique des vecteurs est complètement semblable à l’arithmétique des réels”. La
réponse est suivante : la définition des opérations que nous l’avons présentée implique
immédiatement que les axiomes suivants sont satisfaits :
– Axiomes d’addition :
– associativité : x + (y + z) = (x + y) + z ∀x, y, z ;
– commutativité : x + y = y + x ∀x, y ;
– existence de zéro : il existe un vecteur zéro, noté 0, tel que x + 0 = x ∀x ;
– existence de négation : pour chaque vecteur x, il existe un vecteur, noté −x, tel que
x + (−x) = 0.
– Axiomes de multiplication :
– unitarité : 1 · x = x pour tout x ∈ E ;
– associativité :
λ · (μ · x) = (λμ) · x
pour tous les réels λ, μ et tous les vectors x ;
– Axiomes d’addition-multiplication :
– distributivité par rapport aux réels :

(λ + μ) · x = (λ · x) + (μ · x)

pour tous les réels λ, μ et tout vecteur x ;

– distributivité par rapport aux vecteurs :

λ · (x + y) = (λ · x) + (λ · y)

pour tout réel λ et tous les vecteurs x, y.

Tous ces axiomes, naturellement, ont lieu également pour l’addition et la multiplication
habituelles des réels. Il en découle que toutes les règles de l’arithmétique réelle habituelle qui
sont des conséquences des axiomes indiqués seulement et n’emploient aucune autre propriété
des réels – et ce sont fondamentalement toutes les règles “d’arithmétique élémentaire d’école”,
à l’exception de celles qui traitent la division – sont vériﬁées automatiquement pour des
vecteurs.
10 CHAPITRE 1. INTRODUCTION

1.1.2 Rn : Structure Euclidienne

La vie dans notre univers Rn serait plutôt lassante s’il n’y avait aucune autre structure dans
l’espace que la structure linéaire, donnée par l’addition et la multiplication par des réels. Heu-
reusement, nous pouvons équiper Rn par la structure Euclidienne donné par le produit scalaire
(ou intérieur) standard. Le produit scalaire est l’opération qui met dans la correspondance à une
paire x, y de vecteurs n-dimensionnels le réel

n
xT y = xi y i .
i=1

Le produit intérieur possède les propriétés fondamentales suivantes qui découlent directement
de la déﬁnition :
– bilinéarité, i.e., la linéarité partielle par rapport aux premier et second arguments :

(λx + μy)T z = λ(xT z) + μ(y T z), xT (λy + μz) = λ(xT y) + μ(xT z);

– symétrie :
xT y = y T x;
– positivité :

n
xT x = x2i ≥ 0,
i=1

où ≥ devient = si et seulement si x = 0.

Notez que cette linéarité du produit scalaire en ce qui concerne le premier et du deuxième
argument permet d’ouvrir des parenthèses dans les produits scalaires des expressions complexes :

(λx + μy)T (νz + ωw) = λxT (νz + ωw) + μy T (νz + ωw) =

= λνxT z + λωxT w + μνy T z + μωy T w,

ou, en forme générale,

p
q
p
q
T
( λi xi ) μj y j ) = λi μj xTi yj .
i=1 j=1 i=1 j=1

Notez que dans la dernière relation xi et yj sont les vecteurs n-dimensionnels et pas, comme
avant, les éléments d’un vecteur.
La structure Euclidienne engendre certains concepts importants.

Formes linéaires sur Rn

Tout d’abord, la structure Euclidienne permet d’identiﬁer des formes linéaires sur Rn avec
des vecteurs. Ceci signiﬁe la chose suivante :
une forme linéaire sur Rn est une fonction à valeurs réelles f (x) telle que

f (x + y) = f (x) + f (y); f (λx) = λf (x)

pour tous les vecteurs x, y et tout réel λ. Étant donné un vecteur f ∈ Rn , nous pouvons lui
associer la fonction
f (x) = f T x
1.1. ESPACE LINEAIRE RN 11

laquelle, grâce à la bilinéarité du produit scalaire, est une forme linéaire.

Ce qui est bien plus intéressant, vice versa, chaque forme linéaire f (x) sur Rn peut être
obtenue de cette façon à partir d’un certain (uniquement déﬁni par la forme) vecteur f . Pour le
voir, supposons que ei , i = 1, ..., n, les vecteurs standards de base de Rn ; tous les entrées de ei
son nuls, excepté le i-ème, qui est 1. Évidemment, pour tout vecteur x = (x1 , ..., xn ) :

x = x1 e1 + ... + xn en . (1.1)

Alors, pour une forme linéaire f (·), calculons ses valeurs

fi = f (ei ), i = 1, ..., n,

sur les vecteurs de base et regardons le vecteur f = (f1 , ..., fn ). Je prétends que ça soit exactement
le vecteur qui “engendre” la forme f (·) :

f (x) = f T x ∀x.

En effet,
n
f (x) = f( x e ) [regardez (1.1)]
n i=1 i i
= x i f (ei ) [dû à la linéarité de f (·)]
i=1
n
= i=1 xi fi [l’origine de fi ]
= T
f x [la definition du produit scalaire]
Ainsi, chaque forme linéaire f (·) est en effet le produit scalaire avec un vecteur fixe. Le fait que
ce vecteur est uniquement défini par la forme est immédiat : si f (x) = f T x = (f )T x pour tous x
alors (f − f )t x = 0 pour tous x ; en substituant x = f − f , nous obtenons (f − f )t (f − f ) = 0,
qui, dû à la positivité du produit scalaire, implique f = f .
Ainsi, le produit scalaire permet d’identifier les formes linéaires sur Rn avec des vecteurs de
l’espace : prenant le produit scalaire d’un vecteur variable avec un vecteur fixe, nous obtenons une
forme linéaire, et chaque forme linéaire peut être obtenue de cette façon d’un vecteur uniquement
défini.
pour ceux qui se rappellent “encore” ce qui est un espace linéaire abstrait j’ajouterait le
suivant. Des formes linéaires sur un espace vectoriel E peuvent être naturellement arrangées
en un espace vectoriel : ajouter deux formes linéaires et multiplier ces formes par des réels
signifie, respectivement, les ajouter et les multiplier par des réels, comme fonctions sur E ; le
résultat encore sera une forme linéaire sur E. Ainsi, chaque espace linéaire E a une “contre-
parties” – l’espace linéaire E ∗ qui consiste en des formes linéaires sur E et appelé l’espace
conjugué E. Les considérations ci-dessus indiquent que le produit scalaire sur Rn permet
d’identifier l’espace Rn avec son conjugué. Proprement parlant, notre identification est iden-
tification des ensembles, pas celui des espaces linéaires. Cependant, on voit immédiatement
qu’en fait l’identification en question préserve des opérations linéaires (l’addition et la mul-
tiplication des formes par des réels correspondent aux mêmes opérations avec les vecteurs
représentant les formes) et est un isomorphisme des espaces linéaires.

La métrique Euclidienne
Des notions très importantes qui arrivent avec la structure Euclidienne sont ceux de
métrique :
12 CHAPITRE 1. INTRODUCTION

– la norme Euclidienne d’un vecteur x :

√
n
|x| = xT x = x2i ;
i=1

– la métrique sur Rn – une distance entre une paire de points :

n
dist(x, y) ≡ |x − y| = (xi − yi )2 .
i=1

La norme Euclidienne possède les trois propriétés suivantes (qui sont par ailleurs des propriétés
caractéristiques de la notion générale d’une “norme sur un espace linéaire”) :
– positivité :
|x| ≥ 0,
où ≥ est = ssi x = 0 ;
– homogénéité :
|λx| = |λ||x|;
– inégalité de triangle :
|x + y| ≤ |x| + |y|.
Les deux premières propriétés découlent immédiatement de la déﬁnition ; l’inégalité de triangle
demande une preuve moins triviale, et cette preuve est très instructive : son résultat “collatéral”
est l’inégalité fondamentale de Cauchy

|xT y| ≤ |x||y| ∀x, y (1.2)

– “la valeur absolue du produit scalaire de deux vecteurs est moins ou égale que le produit des
normes des vecteurs”, avec l’inégalité étant égalité si et seulement si x et y sont colinéaires,
c.-à-d., si x = λy ou y = λx avec un réel λ convenablement choisi.
Étant donné l’inégalité de Cauchy, nous pouvons immédiatement démontrer l’inégalité
de triangle :

|x + y|2 = (x + y)T (x + y) [par déﬁnition]

= xT x + y T y + 2xT y [en ouvrant les parenthèses]
= |x|2 + |y|2 + 2xT y [par déﬁnition]
≤ |x|2 + |y|2 + 2|x||y| [par l’inégalité de Cauchy]
= (|x| + |y|)2 [comme nous nous rappelons de l’écolel].

Le point intéressant est, évidemment, de prouver l’inégalité de Cauchy. La preuve est

extrêmement élégante : étant donné deux vecteurs x, y, considérons la fonction

f (λ) = (λx − y)T (λx − y) = λ2 xT x − 2λxT y + y T y.

On ignore le cas trivial quand x = 0 (dans ce cas-ci l’inégalité de Cauchy est évidente), de
sorte que f soit une forme quadratique de λ avec le principal coeﬃcient positif xT x. En
raison de la positivité du produit scalaire, cette forme est non négative sur l’axe entier, de
sorte que son discriminant
(2xT y)2 − 4(xT x)(y T y)
est non positive, et on arrive à l’inégalité désirée :

(xT y)2 ≤ (xT x)(y T y) [≡ (|x||y|)2 ].

1.1. ESPACE LINEAIRE RN 13

L’inégalité devient égalité si et seulement si le discriminant est 0, c.-à-d., si et seulement si

f possède une racine réelle λ∗ (de multiplicité 2) ; mais encore dû à la positivité du produit
intérieur, f (λ∗ ) = 0 signifie exactement ce que λ ∗ x − y = 0, c.-à-d., exactement que x et y
sont colinéaires.
Des propriétés indiquées de la norme Euclidienne découle immédiatement que la métrique
dist(x, y) = |x − y| que nous avons défini en effet est une métrique – il satisfait les propriétés
caractéristiques suivantes :
– positivité :
dist(x, y) ≥ 0,
avec ≥ étant = ssi x = y ;
– symétrie :
dist(x, y) = dist(y, x);
– inégalité de triangle :
dist(x, z) ≤ dist(x, y) + dist(y, z).
Équipé de cette métrique, Rndevient un espace métrique, et nous pouvons employer toutes les
notions relatives d’Analyse :
– convergence : une suite {xi ∈ Rn } est appelée convergeante vers un point x ∈ Rn , et x
est appelé la limite de la suite [notation : x = limi→∞ xi ], si

dist(xi , x) ≡ |xi − x| → 0, i → ∞;

notez que la convergence est en fait une notion de “coordonnée-par-coordonnée” : xi → x∗ ,

i → ∞, si et seulement si (xi )j → x∗j pour tous les indices de coordonnées j = 1, ..., n (ici,
naturellement, (xi )j est la j-ème coordonnée xi , et, pareillement, pour x∗j ;
– ensemble ouvert : un ensemble U ⊂ Rn s’appelle ouvert, s’il contient, avec chaque de ses
points x, un voisinage de ce point – une boule centrée en x d’un certain rayon positif :

∀x ∈ U ∃r > 0 : U ⊃ Br (x) ≡ {y | |y − x| ≤ r}

(notez que l’ensemble vide, en accord avec cette déﬁnition, est ouvert) ;
– ensemble fermé : un ensemble F ⊂ Rn est appelé fermé, s’il contient des limites de toutes
suites convergeantes d’elements de F :

{xi ∈ F, i = 1, 2, ...} & {x∗ = lim xi } ⇒ x∗ ∈ F

i→∞

(notez que l’ensemble vide, en accord avec cette déﬁnition, est fermé).
On le voit facilement que les ensembles fermés sont exactement les compléments à les
ouverts.
Notez que la convergence est compatible avec les structures linéaires et Euclidiennes de Rn .
Précisément :
– si deux suite de vecteurs {xi }, {yi } convergent vers x, resp., y, et deux suites de réels {λi }
and {μi } convergent vers λ, resp., μ, alors la suite {λi xi + μi yi } converge, et la limite est
λx + μy. Ainsi, on peut passer à la limite terme-par-terme dans des sommes ﬁnies comme
λx + μy + νz + ... ;
– si deux suites {xi } and {yi } de vecteurs convergent vers x, resp., y, alors

xTi yi → xT y, i → ∞ & dist(xi , yi ) → dist(x, y), i → ∞.

14 CHAPITRE 1. INTRODUCTION

Des notions de convergence et des ensembles ouverts/fermés peuvent être associé à n’importe
quel espace métrique, non seulement avec Rn . Cependant, en ce qui concerne ces propriétés Rn
possède la propriété fondamentale suivante :

Proposition 1.1.1 [Compacité des sous-ensembles bornés et fermés de Rn ] Un sous-ensemble

fermé et borné F de Rn est compact, c.-à-d., possède les deux propriétés suivantes équivalentes :
(i) Toute suite {xi ∈ F } possède une sous-suite {xit }∞ t=1 qui converge vers un point de F ;
(ii) Toute famille (pas forcement ﬁnie) d’ouverts {Uα } couvrant F (F ⊂ ∪α Uα ) possède une
sous-famille ﬁnie qui encore couvre F .

On le voit facilement que, vice versa, un ensemble compact dans Rn (et en fait, un
compact dans tout espace métrique) est borné et fermé. Autrement dit, Proposition 1.1.1
donne la caractérisation des ensembles compacts dans Rn : ceux-ci sont exactement les
ensembles fermés et bornés.

La propriété exprimée dans Proposition sera extrêmement importante pour nous : la compacité
des sous-ensembles bornés et fermés de notre univers est à la base de la majorité des résultats
que nous sommes sur le point d’obtenir. Notez que c’est une caractéristique très “personnelle”
des espaces Rn comme membres d’une famille beaucoup plus nombreuse d’espaces vectoriels to-
pologiques. Les problèmes d’optimisation dans ces espaces plus vastes sont également d’un grand
intérêt (ils surgissent, par exemple, dans la Commande à temps continue). La théorie de ces
problèmes est beaucoup plus compliquée techniquement que la théorie des problèmes d’optimi-
sation sur Rn , principalement puisqu’il y a des diﬃcultés avec la compacité. Proposition 1.1.1
est la raison principale du fait que nous limitons nos considérations aux espaces de dimension
ﬁni.

1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension

1.2.1 Combinaisons linéaires
Soit x1 , ..., xk un vecteur n-dimensionnel et soit λ1 , ..., λk réels. Un vecteur de type

x = λ1 x1 + ... + λk xk

est appelé combinaison linéaire des vecteurs x1 , ..., xk avec des coeﬃcients λ1 , ..., λk .

1.2.2 Sous-espaces linéaires

Un ensemble non vide L ⊂ Rn est appelé sous-espace linéaire, s’il est fermé par rapport aux
opérations linéaires :
x, y ∈ L, λ, μ ∈ R ⇒ λx + μy ∈ L.

Une déﬁnition équivalente, bien évidemment, est : un sous-espace linéaire est un sous-ensemble
non vide de Rn qui contient toutes les combinaisons linéaires de ses éléments.
Par exemple, les sous-ensembles suivants de Rn sont clairement des sous-espaces :
– le sous-ensemble {0} compris du vecteur 0 ;
– Rn entier ;
– l’ensemble de tous les vecteurs avec la première entrée égale à 0.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 15

Notez que chaque sous-espace linéaire pour sûr contient zéro (en effet, il est non vide par
définition ; si x ∈ L, alors également par définition, L devrait contenir le vecteur 0x = 0).
Une conséquence immédiate de cette observation insignifiante est celle-ci :
l’intersection L = ∩α Lα d’une famille arbitraire des sous-espaces linéaires de Rn est encore un
sous-espace linéaire
En effet, L n’est pas vide – tous les Lα sont les sous-espaces linéaires et contiennent donc 0, de
sorte que L contienne également 0. Et chaque combinaison linéaire des vecteurs de L est contenue
dans chaque Lα (comme combinaison des vecteurs de Lα ) et, par conséquent, est contenu dans
L de sorte que L soit fermé en ce qui concerne des combinaisons linéaires.

Enveloppe linéaire
Soit X un sous-ensemble non vide arbitraire de Rn . Il existent des sous-espaces linéaires
dans Rn qui contiennent X – par exemple, le Rn entier. En prenant l’intersection de tous ces
sous-espaces, nous obtenons, comme nous savons déjà, un sous-espace linéaire. Ce sous-espace
linéaire s’appelle enveloppe linéaire de X et est noté Lin(X). Par construction, l’eveloppe linéaire
possède les deux propriétés suivantes :
– il contient X ;
– il est le plus petit sous-espace linéaire contenant X : si L est un sous-espace linéaire et
X ⊂ L, alors, également, Lin(X) ⊂ L.
Il est facile à voir quels sont les éléments de l’enveloppe linéaire de X :
Proposition 1.2.1 [Linear span]
Lin(X) = {l’ensemble de toutes combinaisons linéaires de vecteurs de X}.
En effet, toutes les combinaisons linéaires des vecteurs de X devrait appartenir à chaque sous-
espace linéaire L qui contient X, en particulier, à Lin(X). Il reste pour démontrer que chaque
élément de Lin(X) est une combinaison linéaire des vecteurs de X. Pour cela notons par L
l’ensemble de toutes ces combinaisons ; tout ce que nous avons besoin de montrer que L lui-
même est un sous-espace linéaire. En effet, en supposant ceci et en remarquant que X ⊂ L
(comme 1x = x, de sorte que chaque vecteur de X soit une combinaison linéaire triviale des
vecteurs de X), nous pourrions conclure que L ⊃ Lin(X), puisque Lin(X) est le plus petit parmi
des sous-espaces linéaires contenant X.

Il reste à vérifier que L est un sous-espace, c.-à-d., que la combinaison linéaire i λi yi des

combinaisons linéaires yi = j μij xj des vecteurs xj ∈ X est encore une combinaison linéaire
des vecteurs de X, ce qui est évident :

λi μij xj = ( λj μij )xj .
i j j i

Vous êtes invité à prêter l’attention à cette preuve simple et à penser à elle jusqu’à ce que
vous “ sentiez” la construction “en entier” plutôt que comprendre la preuve point par point –
nous emploierons le même raisonnement en parlant des enveloppes convexes.

Somme des sous-espaces linéaires

Étant donné deux ensembles arbitraires de vecteurs X, Y ⊂ Rn , nous pouvons former leur
somme arithmétique – l’ensemble
X + Y = {x + y | x ∈ X, y ∈ Y }
16 CHAPITRE 1. INTRODUCTION

compris de toutes sommes par paire – un terme de X et un autre de Y .

Un fait important sur cette addition des ensembles est donné par la proposition suivante
+
Proposition 1.2.2 La somme arithmétique L + M de deux sous-espaces linéaires L, M ⊂ Rn
est un sous-espace linéaire qui n’est rien d’autre que l’enveloppe linéaire Lin(L ∪ M ) de l’union
des sous-espaces.

Exemple 1.2.1 On associe un sous-espace LI de Rn avec un sous-ensemble I d’indices 1, ..., n

de façon que LI est compris de tous les vecteurs x avec les éléments xi indexés par i ∈ I égales
à 0 :
LI = {x | xi = 0 ∀i ∈ I}.
On peut voir facilement que
LI + LJ = LI∪J .
Remarque 1.2.1 Comme pour la somme arithmétique d’ensembles de vecteurs, nous pouvons
former le produit
ΛX = {λx | λ ∈ Λ, x ∈ X}
d’un ensemble Λ ⊂ R de réels et d’un ensemble X ⊂ Rn de vecteurs.
Cette “arithmétique des ensembles” n’est rien d’autre qu’un notation commode, et nous
l’emploierons de temps en temps. Bien que cette arithmétique ressemble fort à celle de vecteurs 1 ,
quelques lois arithmétiques importantes ne sont pas vraies pour des ensemble ; par exemple, d’une
manière générale
{2}X = X + X; X + {−1}X = {0}.
Soyez vigilant !
Somme directe. Soit L et M deux sous-espaces linéaires. Par la déﬁnition de la somme
arithmétique, chaque vecteur x ∈ L + M est une somme de certains vecteurs xL de L et de
xM de M :
x = xL + xM . (1.3)
Une question importante est : dans quelle mesure x prédétermine-t-il xL et xM ? Le “degré
de liberté” qu’il y a ici est évident : vous pouvez ajouter à xL un vecteur arbitraire d de
l’intersection L ∩ M et soustraire le même vecteur de xM , et c’est tout.
En eﬀet, pour un d de x = xL + xM nous avons x = (xL + d >) + (xM − d), et les termes
dans la nouvelle décomposition appartiennent encore à L et à M (puisque d ∈ L ∩ M et L, M
sont des sous-espaces linéaires). Vice versa, si
(I) x = xL + xM , (II) x = xL + xM
sont deux décompositions du type en question,
xL − xL = xM − xM . (1.4)
1. par exemple,
– nous pouvons écrire sans les parenthèses les expressions comme Λ1 X1 +...+Λk Xk – l’ensemble qu’en résulte
est indépendant de la façon dont nous insérons des parenthèses, et nous pouvons réordonner les termes
dans ces relations ;
– {1}X = X ;
– nous avons l’associativité (ΛΞ)X = Λ(ΞX) ;
– nous avons la “distributivité restreinte”
{λ}(X + Y ) = {λ}X + λY ; (Λ + Ξ){x} = Λ{x} + Ξ{x};
– il existe le zero additif – l’ensemble {0}.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 17

Si on note par d la valeur commune de ces deux expressions, nous voyons que d ∈ L ∩ M
(en effet, le côté gauche de (1.4) indique que d ∈ L, et le côté droit que d ∈ M ). Ainsi,
la décomposition (ii) en effet est obtenue à partir (i) en ajoutant un vecteur de L ∩ M au
composant dans L et en soustrayant le même vecteur du composant dans M .
Nous voyons que d’une manière générale – quand L ∩ M contient des vecteurs non nul –
les composants de décomposition (1.3) ne sont pas uniquement définis par x. Par contre,
si L ∩ M = {0}, alors les composants xL et xM sont uniquement définis par x.
Dans le dernier cas la somme L + M s’appelle la somme directe ; pour x ∈ L + M , xL est
appelé la projection parallèle à M de x sur L et xM s’appelle la projection parallèle à L
de x sur M . Quand L + M est une somme directe, les projections dépendent linéairement
de x ∈ L + M : quand nous ajoutons/multiplions par des réels les vecteurs projetés, leurs
projections sommes sujets aux mêmes opérations.
par exemple, dans la situation de l’Exemple 1.2.1 la somme LI + LJ est une somme
directe (c.-à-d., LI ∩ LJ = {0}) si et seulement si le seul vecteur x dans Rn avec les indices
des entrées non nul appartenant à I et à J est le vecteur nul ; en d’autres termes, la somme
est directe si et seulement si I ∩ J = ∅. Dans ce cas-ci les projections de x ∈ LI + LJ = LI∪J
sur LI et LJ sont très simples : xLI a les mêmes entrées que x pour i ∈ I et a les entrées
restantes nulles, et de même pour xLJ .

1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension

Soit L ⊂ Rn un sous-espace linéaire.

Générateur
On appelé un ensemble X ⊂ L générateur de L, si chaque vecteur de L peut être représenté
comme une combinaison linéaire des vecteurs de X. Ou, ce qui est identique, si L = Lin(X). Dans
ce cas nous disons également que X génére (ou engendre) L et L est est généré (ou engendré)
par X.
Par exemple, (1.1) dit que la collection e1 , ..., en des vecteurs de base canonique de Rn
engendre tout l’espace.

Independence linéaire
Une collection x1 , ..., xk des vecteurs n-dimensionnels s’appele linéairement indépendante, si
chaque combinaison linéaire non triviale (avec au moins un coeﬃcient non nul) des vecteurs est
non nulle :

k
(λ1 , ..., λk ) = 0 ⇒ λi xi = 0.
i=1
Parfois il est plus commode d’exprimer la même propriété sous la forme (équivalente) suivante :
un ensemble de vecteurs x1 , ..., xk est linéairement indépendant si et seulement si la seule com-
binaison linéaire nulle des vecteurs est triviale :

k
λi xi = 0 ⇒ λ1 = ... = λk = 0.
i=1

Par exemple, les vecteurs de la base canonique de Rn sont linéairement indépendants : puisque

les entrées dans le vecteur ni=1 λi ei sont exactement λ1 ..., λn , le vecteur est zéro si et seulement
si tous les coeﬃcients λi sont zéro.
18 CHAPITRE 1. INTRODUCTION

L’essence de la notion de l’indépendance linéaire est donnée par le simple résultat suivant
(qui est en fait une déﬁnition équivalente de l’indépendance linéaire) :
+
Corollaire 1.2.1 Soit x1 , ..., xk linéairement independents. Alors les coeﬃcients λi de la com-
binaison linéaire

k
x= λi xi
i=1

des vecteurs x1 , ..., xk sont uniquement déﬁnis par la valeur x de la combinaison.

Notez que, par déﬁnition, un ensemble vide de vecteurs est linéairement indépendant (en eﬀet,
vous ne pouvez pas présenter une combinaison linéaire non triviale des vecteurs de cet ensemble
qui est nulle – vous ne pouvez pas présenter une combinaison linéaire des vecteurs d’un ensemble
vide du tout !)

Dimension
En Algèbre nous avons le résultat fondamental suivant :

Proposition 1.2.3 [Dimension] Soit L (différent de {0}) un sous-espace linéaire non trivial de
Rn . Alors les deux quantités suivantes sont des nombres entiers finis qui sont égaux entre eux :
(i) le nombre minimal des éléments dans les sous-ensembles de L qui engendre L ;
(ii) le nombre maximal des éléments des sous-ensembles finis linéairement indépendants de
L.
La valeur commune de ces deux nombres entiers s’appelle la dimension de L (notation : dim (L)).

Une conséquence directe de Proposition 1.2.3 set le théorème suivant :

Théorème 1.2.1 [Bases] Soit L un sous-espace linéaire non trivial dans Rn .

A. Soit X ⊂ L. Les trois propriétés suivantes de X sont équivalentes :
(i) X est un ensemble linéairement indépendant qui engendre L ;
(ii) X est linéairement indépendant et contient dim L éléments ;
(iii) X engendre L et contient dim L éléments.
Un sous-ensemble X de L possédant les propriétés indiquées d’équivalent entre elles s’appelle
un basis de L.
B. Chaque collection linéairement indépendante de vecteurs de L soit elle-même est une base
de L, ou peut être complète à une telle base en ajoutant de nouveaux vecteurs. En particulier,
là existe une base de L.
C. Étant donné un ensemble X qui engendre L, on peut toujours en extraire une base de L.
La preuve :
(i) → (ii) : supposons que X, à la fois, engendre L et soit linéairement indépendant.
Puisque X engendre L il contient au moins dim L éléments (Proposition 1.2.3), et puisque
X est linéairement indépendant, il contient au plus dim L éléments (la même proposition).
Ainsi, X contient exactement dim L éléments, comme il est exigé par (ii).
(ii) → (iii) : soit X linéairement indépendant de dim L éléments x1 , ..., xdim L . Nous
devons montrer que X engendre L. Supposons, au contraire, que ce n’est pas le cas, et donc
il existe un vecteur y ∈ L qui ne peut pas être représenté comme une combinaison linéaire des
vecteurs xi , i = 1, ..., dim L. Je prétends qu’en ajoutant y aux vecteurs x1 , ..., xdim L , nous
obtenons toujours un ensemble linéairement indépendant (ceci impliquerait la contradiction
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 19

désirée, puisque cet ensemble contient plus que dim L vecteurs de L, et ceci est interdit
par Proposition 1.2.3). Si y, x1 , ..., xdim L étaient linéairement dépendants, il existerait une
combinaison linéaire non triviale des vecteurs égale à zéro :

L
dim
λ0 y + λi xi = 0. (1.5)
i=1

Le coeﬃcient λ0 n’est sûrement nul (sinon notre combinaison serait une combinaison linéaire
non triviale nulle de vecteurs x1 , ..., xdim L linéairement indépendant (l’hypothèse)). Comme
λ0 = 0, nous pouvons résoudre (1.5) par rapport à y :

L
dim
y= (−λi /λ0 )xi ,
i=1

et obtenir une représentation de y comme combinaison linéaire de xi ’s, ce qu’on a supposé

impossible.
Remarque 1.2.2 en montrant l’implication (ii) → (iii), nous avons établi le résultat sui-
vant :
N’importe lequel ensemble linéairement indépendant {x1 ..., xk } de vecteurs de L qui n’est pas
un générateur de L peut être augmenté à un ensemble linéairement indépendant plus grand
en ajoutant un vecteur de L convenablement choisi( à savoir, en ajoutant tout vecteur y ∈ L
qui n’est pas une combinaison linéaire x1 , ..., xk ).
Ainsi, en commençant par un ensemble linéairement indépendant arbitraire dans L qui n’en-
gendre pas L, nous pouvons l’augmenter point par point, préservant l’indépendance linéaire,
jusqu’à ce qu’il devienne générateur ; ceci se produit sûrement à une étape, puisque dans
notre processus nous obtenons tous le temps des sous-ensembles linéairement indépendants
de L et Proposition 1.2.3 indique qu’un tel ensemble ne contient pas plus de dim L éléments.
Ainsi, nous avons montré que
n’importe quel sous-ensemble de L linéairement indépendant peut être enveloppe d’un sous-
ensemble générateur linéairement indépendant (c.-à-d., à une base de L)
s’appliquant le dernier résultat au sous-ensemble vide de L nous voyons cela :
N’importe quel sous-espace linéaire de Rn possède une base.
les résultats ci-dessus sont exactement ceux annoncés dans B.
(iii) → (i) : soit X un sous-ensemble générateur de L qui contient dim L éléments
x1 , ..., xdim L ; nous devrions montrer que x1 , ..., lexdim L sont linéairement indépendant. Sup-
posons qu’au contraire, ce n’est pas le cas ; puis, comme dans la preuve de l’implication
précédente, un de nos vecteurs, par exemple x1 , est une combinaison linéaire du restant des
xi . J’affirme qu’en supprimant de X le vecteur x1 , nous obtenons toujours un ensemble qui
engendre L (c’est la contradiction désirée, puisque l’ensemble générateur qui reste contient
moins de dim L vecteurs, et ceci est interdit par Proposition 1.2.3). En effet, chaque vecteur
y dans L est une combinaison linéaire de x1 , ..., xdim L ( X est un générateur !) ; en substi-
tuant dans cette combinaison la représentation de x1 par l’intermédiaire des xi restants, nous
représentons y comme combinaison linéaire de x2 , ..., xdim L , de sorte que le dernier ensemble
de vecteurs en effet engendre L.
Remarque 1.2.3 En montrant (iii) ⇒ (i), nous avons également prouvé C :
Si X engendre L il existe alors un sous-ensemble linéairement indépendant X de X qui soit
également générateur de L et qui est donc une base de L. En particulier, Lin(X) a une base
qui consiste en des éléments de X.
20 CHAPITRE 1. INTRODUCTION

en eﬀet, vous pouvez prendre comme X un ensemble linéairement indépendant maximal

(avec le nombre maximum autorisé d’éléments) dans X (puisque, par Proposition 1.2.3, n’im-
porte quel sous-ensemble linéairement indépendant dans L contient au plus dim L éléments,
un tel sous-ensemble existe). Par extrémalité de cet ensemble, en ajoutant à X un élément
arbitraire y de X, nous obtenons un ensemble linéairement dépendant ; maintenant, comme
dans la preuve de l’implication (ii) → (iii), il suit que y est une combinaison linéaire des
vecteurs de X . Ceci, come dans la preuve de l’implication (iii) → (i), implique que chaque
combinaison linéaire des vecteurs de X est en fait égale à une combinaison linéaire des
vecteurs de X , de sorte que X et X engendrent le même sous-espace linéaire L.
Jusqu’ici nous avons défini la notion de la base et de la dimension pour des sous-espaces de Rn
non triviaux – différents de {0}. Afin d’éviter des remarques triviales dans ce qui va suivre, on
assigne par définition la dimension 0 au sous-espace linéaire trivial {0}, et on traite l’ensemble
vide comme base de ce sous-espace linéaire.

Dimension de Rn et de ses sous-espaces

En illustrant les notions d’ensemble générateur et celle d’ensemble linéairement de indépendant,
nous avons mentionné que la collection des vecteurs de base canonique e1 , ..., en est à la fois un
générateur de l’espace et un ensemble linéairement indépendant. Selon le théorème 1.2.1, il suit
que
la dimension de Rn est n, et les vecteurs de base canonique forment une base dans Rn .
Ainsi, la dimension de Rn est n. Et que diriez-vous des dimensions des sous-espaces ? Natu-
rellement, elle est tout au plus n, en raison de la simple proposition suivante :
Proposition 1.2.4 Soit L ⊂ L une paire de sous-espaces linéaires de Rn . Alors dim L ≤
dim L , et l’inégalité devient l’égalité si et seulement si L = L . En particulier, la dimension de
chaque sous-espace propre de Rn (diﬀérent du Rn entier) est < n.
En eﬀet, choisissons une base x1 , ..., xdim L de L. C’est un ensemble linéairement
indépendant dans L et le nombre dim L d’éléments de cet ensemble est ≤ dim L par Propo-
sition 1.2.3 ; ainsi, dim L ≤ dimL . Il reste pour prouver que si cette inégalité est une égalité,
alors L = L . Mais c’est évident : dans ce cas-ci x1 , ..., xdim L est un ensemble linéairement
indépendant dans L qui contient dim L d’éléments, et donc il engendre L par Théorème
1.2.1.A. Nous avons donc

L = Lin(x1 , ..., xdim L ) = L .

Formule de dimension
Nous savons déjà que si L et M sont des sous-espaces linéaires dans Rn , alors leur intersection
L ∩ M et leur somme arithmétique L + M sont des sous-espaces linéaires. Il existe une très
sympathique formule de dimension :

dim L + dim M = dim (L ∩ M ) + dim (L + M ). (1.6)

La preuve : Soit l = dim L, m = dim M , k = dim (L ∩ M ), et soit c1 , ..., ck une base
de L ∩ M . Selon Théorème 1.2.1, on peut étendre la collection c1 , ..., ck avec les vecteurs
f1 , ..., fl−k à une base de L, le même que l’étendre par les vecteurs d1 , ..., dm−k à une base
de M . Pour montrer la formule de dimension, il suﬃt de veriﬁer que m + l − k vecteurs
f1 , ..., fl−k , d1 , ..., dm−k , c1 , ..., ck forment une base de L + M – dans ce cas la dimension de
la somme sera m + l − k = dim L + dim M − dim (L ∩ M ), comme demandé.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 21

Pour montrer que les vecteurs ci-dessus forment une base dans L + M nous devrions
montrer qu’ils engendrent cet espace et sont linéairement indépendant. Le premier est évident
– les vecteurs en question par construction engendrent L et M et enjambent donc leur somme
L + M . Pour prouver l’indépendance linéaire, supposons que

{ λp fp } + { μq c q } + { νr dr } = 0 (1.7)
p q r

et montrons que dans ce cas tous les coefficients λp , μq , νr sont nuls. En effet, en notant les
sommes entre les parenthèses par sL , sL∩M et sM , respectivement, nous voyons de l’équation
que sL (qui est par sa construction un vecteur dans L) est moins la somme de sL∩M et
sM , lesquels sont tous les deux vecteurs de M . Ainsi, sL appartient à L ∩ M et peut être
donc représenté comme combinaison linéaire de c1 , ..., ck . Maintenant nous obtenons deux
représentations de sL comme combinaison linéaire des vecteurs c1 , ..., ck , f1 , ..., fl−k lesquels,
par construction, forment une base de L : celui donné par la définition de sL et qui n’implique
que les vecteurs f , et l’autre impliquant seulement c. Puisque les vecteurs de la base sont
linéairement indépendant, les coefficients des deux combinaisons sont uniquement définis par
sL (Corollaire 1.2.1) et devraient être identiques. Cela est possible seulement s’ils sont nuls ;
ainsi, tous les λ’s sont nuls et sL = 0. Par le raisonnement semblable, tous les ν’s sont
zéro et sM = 0. Maintenant (1.7) implique que sL∩M = 0, et tous les μ’s sont zéro dû à
l’indépendance linéaire de c1 , ..., ck .

Coordonnées dans une base

Soit L un sous-espace linéaire dans Rn de dimension k > 0, et soit f1 , ..., fk une base dans L.
Comme l’ensemble f1 , ..., fk engendre L, tout x ∈ L peut être représenté en combinaison linéaire
de f1 , ..., fk :

k
x= ξi f i .
i=1
Les coefficients ξi de cette représentation sont uniquement définis par x, puisque f1 , ..., fk sont
linéairement indépendant (Corollaire 1.2.1). Ainsi, en fixant une base f1 , ..., fk dans L nous
associons à chaque vecteur x ∈ L la collection ordonnée uniquement définie ξ(x) de k coefficients
dans la représentation de x comme combinaison linéaire des vecteurs de la base ; ces coefficients
s’appellent les coordonnées de x en base f . En tant que chaque collection ordonnée de k réels,
ξ(x) est un vecteur k-dimensionnel. On le voit immédiatement que transformation de L sur Rk
donné par
x → ξ(x)
est un isomorphisme linéaire de L et Rk , i.e., est une transformation un-vers-un qui preserve les
operations linéaires.
On observe que tant que des opérations linéaires sont concernés, il n’y a aucune différence
entre un sous-espace L de Rn et Rk . L peut être identifiée avec Rk de multiple façons – chaque
choix d’une base dans L a comme conséquence une telle identification. Pouvons nous choisir
l’isomorphisme pour préserver aussi la structure Euclidienne, c.-à-d., pour assurer que
xT y = ξ T (x)ξ(y) ∀x, y ∈ L ?
Oui, on peut le faire facilement : à cet effet il suffit de choisir la base f1 , ..., fk orthonormale,
c.-à-d., une base qui possède la propriété additionnelle
0, i = j
fiT fj =
1, i = j
22 CHAPITRE 1. INTRODUCTION

(dans l’Algèbre ils montrent qu’une telle base existe toujours). En eﬀet, si f1 , ..., fk est une base
orthonormale, puis pour x, y ∈ L nous avons
k
xT y = ( i=1 ξi (x)fi )T ( kj=1 ξj (y)fj ) [deﬁnition des coordonnées]
k k T
= j=1 ξi (x)ξj (y)fi fj [bilinearity du produit scalaire]
i=1
k
= i=1 ξi (x)ξi (y) [orthonormalité de la base]
= T
ξ (x)ξ(y).

Ainsi, chaque sous-espace linéaire L de Rn de la dimension positive k est, dans un sens, Rk :

vous pouvez préciser une correspondance linéaire entre les vecteurs de L et les vecteurs de Rn
de telle manière que toutes les opérations arithmétiques avec des vecteurs de L – addition et
multiplication par des reals – correspondent aux mêmes opérations avec leurs images dans Rk , et
les produits scalaires (et par conséquent - des normes) des vecteurs de L seront identiques que les
quantités correspondantes pour leurs images. Notez que la correspondance mentionnée ci-dessus
n’est pas unique – il y a autant de manières de l’établir que de choisir une base orthonormale
de L.
Jusqu’ici nous parlions des sous-espaces de dimension positive. Nous pouvons enlever cette
restriction en introduisant l’espace de dimension nulle R0 ; le seul vecteur de cet espace est 0,
et, naturellement, par déﬁnition 0 + 0 = 0 et λ0 = 0 pour tout λ réel. La structure Euclidienne
sur R0 est, naturellement, également triviale : 0T 0 = 0. Ajoutant cet espace triviale à la famille
des autres Rn , nous pouvons dire que n’importe quel sous-espace linéaire L dans n’importe quel
Rn est équivalent, dans le sens mentionné ci-dessus, à Rdim L .

1.3 Ensembles aﬃnes

Plusieurs événements à venir auront lieu pas dans Rn entier, mais dans ses le sous-ensembles
aﬃnes lesquels, géométriquement, sont des plans de diﬀérentes dimensions dans Rn .

1.3.1 Ensembles aﬃnes et Enveloppes aﬃnes

Definition d’Ensemble affine
Géométriquement, un sous-espace linéaire L de Rn est un plan spécial – celui qui passe par
l’origine de l’espace (c.-à-d., contenant le vecteur zéro). Pour obtenir un “plan spécial” approprié
L à une translation – ajouter à tous les points de L un vecteur fixe de décalage a. Cette intuition
géométrique mène à la definition suivante :

Définition 1.3.1 [Ensemble affine] Un ensemble affine (un plan) M dans Rn est un ensemble
de la forme
M = a + L = {y = a + x | x ∈ L}, (1.8)
où L est un sous-espace linéaire de Rn et a est un vecteur de Rn 2) .

Par exemple, décalant le sous-espace linéaire L qui consiste en les vecteurs avec la première
entrée nulle par un vecteur a = (a1 , ..., an ), nous obtenons l’ensemble M = a + L de tous les
vecteurs x avec x1 = a1 ; selon notre terminologie, c’est un ensemble aﬃne.
2. ) d’après notre convention sur le calcul des ensembles, j’aurais du écrire dans (1.8) {a} + L à la place de
a + L. D’habitude on ignore cette diﬀérence et omette les parenthèses en notant le singleton dans les expressions
semblables : nous écrirons a + L au lieu de {a} + L, Rd à la place de R{d}, etc.
1.3. ENSEMBLES AFFINES 23

La question immédiate au sujet de la notion d’un ensemble affine est : quels sont les “degrés
de liberté” dans la décomposition (1.8) – M détermine-t-il a et L ? La réponse est suivante :
Proposition 1.3.1 Le sous-espace linéaire L dans la décomposition (1.8) est uniquement défini
par M et est l’ensemble de toutes les différences des vecteurs de M :

L = M − M = {x − y | x, y ∈ M }. (1.9)

Le vecteur de décalage a n’est pas uniquement défini par M et peut être choisi comme un vecteur
arbitraire de M .
Preuve : commençons par le premier résultat. Un vecteur de M , par définition, est de la forme
a + x, d’où x est un vecteur L. La différence de deux vecteurs a + x, a + x de ce type est
x − x et donc elle appartient à L (puisque x, x ∈ L et L est un sous-espace linéaire). Ainsi,
M − M ⊂ L. Pour obtenir l’inclusion inverse, notez que n’importe quel vecteur x de L est une
différence de deux vecteurs de M , à savoir, des vecteurs a + x et a = a + 0 (rappel que le vecteur
zéro appartient à n’importe quel sous-espace linéaire).
Pour prouver la deuxième conjecture, nous devrions verifier que si M = a + L, alors a ∈ M
et nous avons également M = a + L pour chaque a ∈ M . Le premier fait est évident – depuis
0 ∈ L, nous avons a = a + 0 ∈ M . Pour établir le deuxième, notons d = a − a (ce vecteur
appartient à L car a ∈ M ) remarquons que

a + x = a + x , x = x − d;

quand x parcourt L. Alors, le vecteur à gauche de notre identité parcourt a + L, et, comme x
parcourt L, le vecteur a droite parcourt a + L. Nous en concluons que a + L = a + L.

Intersections d’ensembles aﬃnes

Une conclusion immediate de Proposition 1.3.1 est suivante :
Corollaire 1.3.1 Soit {Mα } une famille arbitraire d’ensembles aﬃnes dans Rn . Supposons que
l’ensemble M = ∩α Mα n’est pas vide. Alors M est un ensemble.
Preuve. Choisissons a ∈ M (cet ensemble n’est pas vide). Alors a ∈ Mα pour tout α, et donc,
par Proposition 1.3.1,
Mα = a + Lα
pour certains sous-espaces linéaires Lα . Maintenant il est claire que

M = a + (∩α Lα ),

et, comme ∩α Lα est un sous-espace linéaire, M est un ensemble aﬃne.

Combinaisons et enveloppes aﬃnes

Une conséquence de Corollaire 1.3.1 est que pour chaque sous-ensemble non vide Y de Rn
il existe le plus petit ensemble affine contenant Y – l’intersection de tous les ensembles affines
contenant Y . Ce plus petit ensemble affine contenant Y s’appelle l’enveloppe affine de Y (on
note Aff(Y )).
Tout ceci ressemble beaucoup à l’histoire des enveloppes linéaires. Pouvons nous étendre
cette analogie pour obtenir une description de l’enveloppe affine Aff(Y ) en termes d’éléments de
24 CHAPITRE 1. INTRODUCTION

Y que ressemble à celle de l’étendus linéaire (l’enveloppe linear de X est l’ensemble de toutes
les combinaisons linéaires des vecteurs de X) ? Bien sur !
Choisissons un point y0 ∈ Y , et considérons l’ensemble

X = Y − y0 .

Tout ensemble eﬃne contenant Y devrait contenir également y0 et donc, par Proposition 1.3.1,
peut être représenté comme M = y0 + L, L étant un sous-espace linéaire. Il est évident qu’un
ensemble aﬃne M = y0 + L contienne Y si et seulement si le sous-espace L contient X, et que
plus grand est L, le plus grand est M :

L ⊂ L ⇒ M = y 0 + L ⊂ M = y 0 + L .

Ainsi pour trouver le plus petit parmi les ensembles affines contenant Y , il suffit de trouver le
plus petit parmi des sous-espaces linéaires contenant X et de décaler ce dernier sous-espace par
y0 :
Aff(Y ) = y0 + Lin(X) = y0 + Lin(Y − y0 ). (1.10)
On sais ce qui est Lin(Y − y0 ) – un ensemble de toutes combinaisons linéaires de vecteurs de
Y − y0 , et l’élément générique de Lin(Y − y0 ) est

k
x= μi (yi − y0 ) [k peut dépendre de x]
i=1

avec yi ∈ Y et les coeﬃcients réels μi . Il en découle que l’élément générique de Aﬀ(Y ) est

k
k
y = y0 + μi (yi − y0 ) = λi yi ,
i=1 i=0

où
λ0 = 1 − μi , λi = μi , i ≥ 1.
i

On observe qu’un élément générique de Aff(Y ) est une combinaison linéaire des vecteurs de
Y . Notons, cependant, que les coefficients λi dans cette combinaison ne sont pas complètement
arbitraires : leur somme est égale à 1. Les combinaisons linéaires de ce type – avec la somme de
coefficients égale à 1 – ont un nom spécial – elles s’appellent les combinaisons affines.
Nous avons vu que n’importe quel vecteur de Aff(Y ) est une combinaison affine des vecteurs
de Y . Est-ce que l’inverse est vrai, c.-à-d., est-ce que Aff(Y ) contient toute combinaison affine
des vecteurs de Y ? La réponse à cette question est positive. En effet, si

k
y= λi yi
i=1

est une combinaison aﬃne des vecteurs de Y , alors en utilisant l’identité i λi = 1, nous pouvons
l’écrire également comme

k
y = y0 + λi (yi − y0 ),
i=1
y0 étant “le vecteur marqué” que nous avons utilisé dans notre raisonnement précédent, Mais le
vecteur de ce type, comme nous savons déjà, appartient à Aﬀ(Y ). Ainsi, nous venons au suivant
1.3. ENSEMBLES AFFINES 25

Proposition 1.3.2 [Structure d’enveloppe aﬃne]

Aﬀ(Y ) = {l’ensemble de toutes les combinaisons des vecteurs de Y }.

Quand Y lui-même est un ensemble affine, il coincide avec son enveloppe affine et la proposition
ci-dessus mène au
Corollaire 1.3.2 Un ensemble affine M est fermé par rapport à la prise des combinaisons
affines de ses membres – n’importe quelle combinaison de ce type est un vecteur de M . Et,
vice versa, un ensemble non vide qui est fermé en par rapport aux combinaisons affines de ses
membres est un ensemble affine.

1.3.2 Générateurs aﬃnes, Ensembles independents aﬃnement, Dimension af-

fine
Ensembles affines sont étroitement liés aux sous-espaces linéaires, et les notions de base liées
aux sous-espaces linéaires ont leurs analogues affines naturels. Présentons ces notions et leurs
propriétés de base. Je vais sauter les preuves : elles sont très simples et répètent fondamentale-
ment les preuves de Section 1.2

Générateurs affines
Soit M = a + L ensemble affine. On dit que un sous-ensemble Y de M est générateur affine
de M (on dit aussi que Y engendre M affinement, ou que M et affinement engendré par Y ), si
M = Aff(Y ), ou, ce qui est la même chose dû à Proposition 1.3.2, si tout point de M est une
combinaison affine des points de Y . La conséquence immediate du raisonnement dans la section
précédente est suivante :
Proposition 1.3.3 Soit M = a+L ensemble affine et Y un sous-ensemble de M , et soit y0 ∈ Y .
L’ensemble Y engendre M affinement – M = Aff(Y ) – ssi l’ensemble

X = Y − y0

engendre le sous-espace L : L = Lin(X).

Ensemble aﬃnement independent

Rappelons nous qu’un ensemble linéairement indépendant x1 , ..., xk est un ensemble tels
qu’aucune combinaison linéaire non triviale des x1 , ..., xk est nulle. Une définition équivalente
est donnée par Corollaire 1.2.1 : x1 , ..., xk sont linéairement indépendant, si les coefficients λi
dans leurs combinaison linéaire

k
x= λi xi
i=1
sont uniquement définis par la valeur x de la combinaison. Cette forme équivalente reflète l’es-
sence de la matière – de ce que nous avons besoin en effet, est l’unicité des coefficients. En
conséquence, cette forme équivalente est le prototype pour la notion d’un ensemble affinement
indépendant : nous voulons présenter cette notion de telle manière que les coefficients λi dans
une combinaison affine

k
y= λi yi
i=0
26 CHAPITRE 1. INTRODUCTION

des vecteur d’un ensemble “aﬃnement independent” de vecteurs y0 , ..., yk soit uniquement déﬁnis
par y. Non-unicité impliquerait que

k
k
λi yi = λi yi
i=0 i=0

pour deux vecteurs différents de coefficients λi et λi avec la somme des coefficients égale à 1 ; si
tel est le cas, alors

m
(λi − λi )yi = 0,
i=0
et yi ’s sont linéairement dependent. De plus, il existe leur combinaison nulle non trivial avec la

somme de coefficients nulle (car i (λi − λi ) = i λi − i λi = 1 − 1 = 0). Notre raisonnement
peut être inversé – si il existe une combinaison linéaire non triviale de yi ’s avec la somme nulle
de coefficients qui est nulle, alors les coefficients dans la représentation d’un vecteur par une
combinaison d’affine de yi ’s ne sont pas uniquement définis. Ainsi, afin de nous obtenir à unicité
nous devrions interdire les relations

k
μi y i = 0
i=0
avec des coefficients μi non triviaux dont la somme est nulle.
Définition 1.3.2 [Ensemble affinement indépendant] Une collection y0 , ..., yk de vecteurs n-
dimensionnels est appelée affinement indépendante si il n’existe pas d’une combinaison linéaire
nulle de ces vecteurs que soit non trivial et dont la somme des coefficients soit nulle :

k
k
λi yi = 0, λi = 0 ⇒ λ0 = λ1 = ... = λk = 0.
i=1 i=0
Avec cette definition nous obtenons le résultat complètement similaire au Corollaire 1.2.1 :
Corollaire 1.3.3 Soit y0 , ..., yk affinement indépendants. Alors les coefficients λi d’une combi-
naison affine

k
y= λi yi [ λi = 1]
i=0 i
des vecteurs y0 , ..., yk sont uniquement définis par la valeur y de la combinaison.
La vérification de l’indépendance affine d’un ensemble peut être immédiatement réduite à la
vérification de l’indépendance linéaire de la collection étroitement liée :
Proposition 1.3.4 k + 1 vecteurs y0 , ..., yk sont affinement indépendants si et seulement si les
k vecteurs (y1 − y0 ), (y2 − y0 ), ..., (yk − y0 ) sont linéairement indépendants.
De la dernière proposition il découle, par exemple, que la collection 0, e1 ..., en qui consiste de
l’origine et des vecteurs de base canonique est affinement indépendante. Notez que cette collec-
tion est linéairement dépendante (en tant que toute collection contenant zéro).
Vous devriez identifier de façon définitive la différence entre les deux notions de l’indépendance
que nous discutons : l’indépendance linéaire signifie qu’aucune combinaison linéaire non triviale
des vecteurs ne peut être zéro, tandis que l’indépendance affine signifie qu’aucune combinaison
linéaire non triviale d’une certaine classe restreinte (i.e., avec la somme de coefficients nulle) ne
peut être zéro. Par conséquent, il y a plus d’ensembles affinement indépendants que linéairement
indépendants : un ensemble linéairement indépendant est pour sûr affinement indépendant, mais
l’inverse n’est pas vrai.
1.3. ENSEMBLES AFFINES 27

Bases aﬃnes et dimension aﬃne

Avec de l’aide des Propositions 1.3.2 et 1.3.3 on arrive à réduire les notions de générateur
aﬃne/ensemble aﬃnement indépendant à ceux de générateur linéaire/indépendance linéaire. En
combinant avec Proposition 1.2.3 et Théorème 1.2.1, on obtient des analogues suivants de ces
derniers résultats :

Proposition 1.3.5 [Dimension affine] Soit M = a + L un ensemble affine dans Rn . Alors les
deux quantités suivantes sont des entiers positifs qui sont égaux :
(i) nombre minimal d’éléments de sous-ensembles de M qui engendre M affinement ;
(ii) nombre maximal d’éléments dans un sous-ensemble de M affinement indépendant.
Cette valeur commune est égale à la dimension dim L de L plus 1.

Par définition, la dimension affine d’un ensemble affine M = a + L est la dimension dim L de
L. Ainsi, si M est de dimension affine k, alors la cardinalité minimale des générateurs affines de
M , mêmes que la cardinalité maximale des sous-ensembles affinement indépendants de M , est
k + 1.

Théorème 1.3.1 [Bases aﬃnes] Soit M = a + L un ensemble aﬃne dans Rn .

A. Soit Y ⊂ M . Les trois propriétés suivantes de Y sont équivalentes :
(i) Y est un ensemble affinement indépendant qui engendre M affinement ;
(ii) Y est affinement indépendant et contient 1 + dim L éléments ;
(iii) Y engendre M affinement and contient 1 + dim L éléments.
Le sous-ensemble Y de M possédant ces propriétés est appelé base affine de M . Basses affines
de M sont exactement des ensembles y0 , ..., ydim L tels que y0 ∈ M et (y1 − y0 ), ..., (ydim L − y0 )
est une base de L.
B. Chaque collection de vecteurs de M affinement indépendante soit elle-même est une base
affine de M , ou peut être augmentée à une telle base en ajoutant de nouveaux vecteurs. En
particulier, il existe la base affine de M .
C. Étant donné un ensemble Y qui engendre affinement M , on peut toujours extraire de cet
ensemble une base affine de M .

Nous savons déjà que la base canonique e1 , ..., en forme une base de l’espace Rn . Mais quelles sont
les bases aﬃnes de Rn ? Selon Théorème 1.3.1.A, on peut choisir comme telle base l’ensemble
e0 , e0 + e1 , ..., e0 + en , e0 étant un vecteur arbitraire.

Coordonnées Barycentriques
Soit M un ensemble affine, et soit y0 , ..., yk soient une base affine de M . Comme la base,
par définition, engendre affinement M , chaque vecteur y de M est une combinaison affine des
vecteurs de la base :

k
k
y= λi yi [ λi = 1],
i=0 i=0

et puisque les vecteurs de la base affine sont affinement indépendants, les coefficients de cette
combinaison sont uniquement définis par y (Corollaire 1.3.3). Ces coefficients s’appellent co-
ordonnées barycentriques de y par rapport à la base affine en question. Contrairement aux
coordonnées habituelles par rapport à une base (linéaire), les coordonnées barycentriques ne
pourraient pas être tout à fait arbitraires : leur somme devrait être égale à 1.
28 CHAPITRE 1. INTRODUCTION

1.4 Description duale des sous-espaces linéaires et d’ensembles

affines
Nous avons introduit les notions du sous-espace linéaire et de l’ensemble affine et avons
présenté un schéma pour produire ces entités : pour obtenir, par exemple, un sous-espace linéaire,
on peut commencer à partir d’un ensemble non vide arbitraire X ⊂ Rn et ajouter toutes les
combinaisons linéaires des vecteurs de X. En remplaçant des combinaisons linéaires avec les
combinaisons affines, on obtient une méthode de produire des ensembles affines.
La manière indiquée de produire des sous-espaces linéaires/ensembles affines ressemble à
l’approche d’un maçon construisant une maison : il commence par la base et puis ajoute de
nouveaux éléments jusqu’à ce que la maison soit prête. Il existe, néanmoins, une approche
d’artiste créant une sculpture : il prend quelque chose de grand et puis supprime les parties
superflus. Y a-t-il quelque chose comme “la manière artistique” pour représenter des sous-espaces
linéaires et des ensembles affines ? La réponse est positive et très instructive. Pour la comprendre,
nous avons besoin de quelques outils techniques.

Complément orthogonal
Deux vecteurs x, y ∈ Rn sont orthogonaux, si leur produit scalaire est 0 :
xT y = 0.
Étant donné un sous-ensemble non vide X de Rn , on déﬁnit son complément orthogonal X ⊥
comme l’ensemble de tous vecteurs qui sont orthogonaux à tout vecteur de X :
X ⊥ = {y ∈ Rn | y T x = 0 ∀x ∈ X}.
Le complément orthogonal est non vide (il contient zéro) et est clairement fermé par rapport
à l’addition de ses membres et la multiplication par des réels : en raison de la bilinéarité du
produit scalaire que nous avons
y T x = 0, z T x = 0 ∀x ∈ X ⇒ (λy + μz)T x = 0 ∀x ∈ X [∀λ, μ ∈ R].
Autrement dit, le complément orthogonal est un sous-espace linéaire.
Que se passe-t-il si on prend le complément orthogonal deux fois – en passant de X à (X ⊥ )⊥ ?
Tout d’abord, on obtient un sous-espace linéaire. De plus, ce sous-espace contient X (le produit
scalaire est symétrique et chaque élément de X ⊥ est orthogonal à tout x ∈ X, x, à son tour, est
orthogonal à tous les vecteurs de X ⊥ et appartient à (X ⊥ )⊥ ). Ainsi, (X ⊥ )⊥ est un sous-espace
linéaire subspace qui contient X et donc il contient l’enveloppe linéaire Lin(X) de X. Un résultat
utile d’Algèbre Linéaire dit que (X ⊥ )⊥ est exactement Lin(X) :
(∀X ⊂ Rn , X = ∅) : (X ⊥ )⊥ = Lin(X). (1.11)
En particulier, si X est un sous-espace linéaire (X = Lin(X)) alors le “double” complément
orthogonal de X est X lui-même :
X est un sous-espace linéaire ⇒ X = (X ⊥ )⊥ . (1.12)
Dans le dernier cas, il y a également une relation simple entre les dimensions de X et X ⊥ : on
le prouve dans l’algèbre linéaire que la somme de ces dimensions est exactement la dimension n
de l’espace entier :
X est un sous-espace linéaire ⇒ dim X + dim (X ⊥ ) = n. (1.13)
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES29

Une consequence utile de ces faits est

Proposition 1.4.1 Soit L un sous-espace linéaire dans Rn . Alors Rn est la somme directe
de L et L⊥ . Ainsi, chaque vecteur x de Rn peut être représenté de façon unique comme
une somme d’un vecteur de L (appelé la projection orthogonale de x sur L et d’un vecteur
orthogonal à L (appelé la composante de x orthogonale à L).
En eﬀet, l’intersection de L et L⊥ est composé du seul vecteur 0 (un vecteur de l’intersection
devrait être orthogonal à lui-même, et de la positivité du produit intérieur nous savons que
il existe exactement un tel vecteur - zéro). Nous voyons que la somme L + L⊥ est directe,
et tout ce que nous avons besoin à montrer que cette somme est le Rn entier. Ceci est
immédiatement donné par (1.13) et la formule de dimension (1.6) :

dim (L + L⊥ ) = dim L + dim L⊥ − dim (L ∩ L⊥ ) = n − dim {0} = n;

et on sait déjà que le seul sous-espace de Rn de dimension n est Rn lui-même.

1.4.1 Ensembles aﬃnes et systèmes d’équations linéaires

Soit L un sous-espace linéaire. Selon (1.12), c’est un complément orthogonal – notamment,
le complément orthogonal à le sous-espace linéaire L⊥ . Soit maintenant a1 , ..., am un générateur
de L⊥ . Un vecteur x qui est orthogonal à a1 , ..., am est orthogonal à L⊥ (parce que chaque
vecteur de L⊥ est une combinaison linéaire de a1 , ..., am et le produit intérieur est bilinéaire).
Naturellement, vice versa, un vecteur orthogonal au L⊥ est orthogonal à a1 , ..., am . Nous voyons
que
L = (L⊥ )⊥ = {a1 , ..., am }⊥ = {x | aTi x = 0, i = 1, ..., k}. (1.14)
Ainsi, nous obtenons le résultat très important :

Proposition 1.4.2 [Description “externe” d’un sous-espace linéaire]

Tout sous-espace linéaire L dans Rn est un ensemble de solutions d’un système homogène d’equa-
tions linéaires :
aTi x = 0, i = 1, ..., m, (1.15)
ou, coordonnée par coordonnée,

a11 x1 + ... + a1n xn = 0

............ (1.16)
ak1 x1 + ... + akn xn = 0

(aij est j-ème élément de ai ) pour un m et des vecteurs a1 , ..., am proprement choisis.

Par définition d’un sous-espace linéaire, vice versa, l’ensemble de solutions d’un système ho-
mogène des équations linéaires avec n variables est un sous-espace linéaire dans Rn . Une autre
manière de le voir est de noter que l’ensemble de solutions du système (1.15) est exactement le
complément orthogonal de l’ensemble {a1 ..., am }, et le complément orthogonal est toujours un
sous-espace linéaire.
À partir de Proposition 1.4.2 utilisant de ce que nous connaissons déjà sur la dimension nous
pouvons facilement dériver plusieurs conséquences importantes :
– Les systèmes (1.15) qui définissent un sous-espace linéaire donné L sont exactement les
systèmes donnés par les vecteurs a1 , ..., am qui engendre L⊥ 3)
3. ) le raisonnement qui nous a mené jusqu’à Proposition 1.4.2 dit que [a1 , ..., am engendre L⊥ ] ⇒ [(1.15) définit
L] ; maintenant on dit que l’inverse est également vra
30 CHAPITRE 1. INTRODUCTION

– Le plus petit nombre m d’équations dans (1.15) est la dimension de L⊥ , c.-à-d., par (1.13),
est égale à codim L ≡ n − dim L 4)
– Un sous-espace linéaire dans Rn est toujours un ensemble fermé (en effet, l’ensemble de
solutions (1.14) est clairement fermé).
Maintenant, un ensemble affine M est, par définition, un décalage d’un sous-espace linéaire :
M = a + L. Comme nous savons déjà, les vecteurs x de L sont exactement les solutions d’un
certain système homogène d’équations linéaires

aTi x = 0, i = 1, ..., m.

Il est évident qu’en ajoutant à ces vecteurs un vecteur ﬁxe a, on obtient exactement l’ensemble
de solution du système linéaire soluble non homogène

aTi x = bi ≡ aTi a, i = 1, ..., m.

Vice versa, l’ensemble de solutions du système soluble d’equation linéaires

aTi x = bi , i = 1, ..., m,

avec n variables est la somme d’une solution particulière du système et d’ensemble de solutions
du système homogène correspondant (ce dernier est un sous-espace linéaire dans Rn ), i.e., est
un ensemble aﬃne.

Proposition 1.4.3 [Description “externe” d’ensemble aﬃne]

Tout ensemble aﬃne M = a + L dans Rn est un ensemble de solutions d’un système linéaire
soluble d’équations
aTi x = bi , i = 1, ..., m, (1.17)

ou
a11 x1 + ... + a1n xn = b1
............ (1.18)
ak1 x1 + ... + akn xn = bm
(aij est la j-ème entrée de ai ) avec un m et des vecteurs a1 , ..., am proprement choisis.
Vice versa, l’ensemble de toutes les solutions d’un système soluble d’équations linéaires avec
n variables est un sous-espace aﬃne de Rn .
Le sous-espace linéaire L qui est associé à M est exactement l’ensemble de solutions de la
version homogène (avec la partie droite étant 0) du système (1.17).

Nous voyons, en particulier, qu’un ensemble aﬃne est toujours fermé.

Commentaire : la description “externe” d’un sous-espace linéaire/ensemble aﬃne – “celui des

artistes”– est dans beaucoup de cas plus utile que la description “interne” par l’intermédiaire des
combinaisons linéaires/aﬃnse (“ celle des maçons”). Par exemple, avec la description externe il
est très facile de vériﬁer si un vecteur donné appartient ou n’appartient pas à un sous-espace

4. ) pour rendre ce résultat juste dans le cas extrême quand L = Rn (c.-à-d., quand codim L = 0), nous
ferons dorénavant une convention que un ensemble vide d’équations ou d’inégalités déﬁnit, comme l’ensemble de
solutions, l’espace entier
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES31

linéaire/ensemble affine, ce qui n’est pas facile du tout à partir de sa description interne 5) . En fait
les deux descriptions sont “complémentaire” entre eux et travaillent parfaitement en parallèle :
ce qui est difficile à voir avec l’une d’entre elles, est clair avec l’autre. L’idée d’employer les
descriptions “interne” et “externe” des entités que nous rencontrons – des sous-espaces linéaires,
ensembles affines, ensembles convexes, problèmes d’optimisation – l’idée générale de dualité –
est, je dirais, la force principale de l’analyse et de l’optimisation convexes, et dans la suite nous
allons rencontrer des différentes réalisations de cette idée fondamentale.

1.4.2 Structure des simples ensembles aﬃnes

Cette petite sous-section traite principalement de la terminologie. Selon leur dimension, les
ensembles affines dans Rn sont appelés différemment :
– Ensembles de dimension 0 sont des translations du seul sous-espace linéaire de dimension
0 – de {0}, c.-à-d., sont des singletons – vecteurs de Rn . Ces ensembles s’appellent des
points ; un point est une solution d’un système carré d’équations linéaires avec la matrice
non singulière.
– Ensembles de dimension 1 (droites). Ces ensembles sont des translations des sous-espaces
linéaires unidimensionnels de Rn . Un sous-espace linéaire unidimensionnel a une base d’un
élément donnée par un vecteur non nul d et est composé de tous les multiples de ce vecteur.
En conséquence, la ligne est un ensemble de la forme
{y = a + td | t ∈ R}
donné par une paire de vecteurs a (l’origine de la droite) et d (la direction de la droite),
d = 0. L’origine de la droite et sa direction ne sont pas uniquement définies par la droites ;
vous pouvez choisir comme origine n’importe quel point sur la droite et multiplier une
direction particulière par des réels non nuls.
dans les coordonnées barycentriques une droite est décrite de façon suivante :
l = {λ0 y0 + λ1 y1 | λ0 + λ1 = 1} = {λy0 + (1 − λ)y1 | λ ∈ R},
où y0 , y1 est une base affine de l ; vous pouvez choisir comme telle base n’importe quelle
paire de points distincts sur la droite.
La description “externe” d’une droite est suivante : c’est l’ensemble de solutions d’un
système linéaire avec n variables et n − 1 équations linéairement indépendantes.
– Ensembles de dimension > 2 et < n − 1 n’ont aucun nom spécial ; parfois on les appellent
des plans affines de telle ou telle dimension.
– Ensembles affines de dimension n − 1, grâce au rôle important qu’ils jouent dans l’analyse
convexe, ont un nom spécial – ils s’appellent des hyperplans. La description externe d’un
hyperplan est qu’un hyperplan est l’ensemble de solution d’une équation linéaire
aT x = b
avec partie droite non triviale(a = 0). En d’autres mots, un hyperplan est un ensemble de
niveau a(x) = const d’une forme linéaire nonconstant a(x) = aT x.
– Ensemble affine le “plus grand possible” – celui de dimension n – est unique et est le Rn
entier. Cet ensemble est donné par un système vide d’équations linéaires.
5. ) il n’est pas difficile de certifier qu’un point donné appartient, par exemple, à un sous-espace linéaire donné
comme enveloppe linéaire d’un certain ensemble – il suffit de préciser une représentation du point comme com-
binaison linéaire des vecteurs de l’ensemble. Mais comment pourriez vous certifier que un point n’appartient pas
au subspace ?
32 CHAPITRE 1. INTRODUCTION

1.5 Exercices

Exercice 1.1 Marquez par ”o” les énoncés qui sont toujours justes, avec ”n” ceux qui pour
sûr sont faux, et par ” ?” – ceux qui sont parfois justes et sont parfois faux, selon les entités y
participant :
– Tout sous-espace linéaire L de Rn contient le vecteur nul
– Tout sous-espace linéaire L de Rn contient un vecteur non nul
– L’union L ∪ M des deux sous-espaces linéaires de Rn est un sous-espace linéaire
– L’ntersection de toute famille de sous-espaces lineaires de Rn est un sous-espace linéaire
– Pour toute paire L, M de sous-espaces linéaires de Rn , dim (L + M ) = dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec L ∩ M = {0}, dim (L + M ) =
dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec dim (L + M ) = dim L + dim M nous
avons L ∩ M = {0}
– L’ensemble de vecteurs 3-dimensionnels (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre R3
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre le sous-espace linéaire L =
{x ∈ R3 : x1 + x2 + x3 = 0}
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) est une base du sous-espace linéaire
L = {x ∈ R3 : x1 + x2 + x3 = 0}
– Si L ⊂ M sont deux sous-espace linéaires de Rn , alors dim L ≤ dim M , avec une égalité
ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , then dim Lin(X) ≤ dim Lin(Y ), avec
une égalité ssi X = Y
– Un ensemble affine M dans Rn contient le vecteur nul
– Tout ensemble affine L dans Rn contient un vecteur non nul ;
– L’union L ∪ M des deux ensembles affines dans Rn est un ensemble affine
– L’intersection de toute famille des sous-ensembles affines de Rn est un ensemble affine
– L’ensemble des vecteurs (0, 0, 0), (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement tout
R3
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement L = {x ∈ R3 :
x1 + x2 + x3 = 1}
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) est une base affine de L = {x ∈
R3 : x1 + x2 + x3 = 1}
– Si L ⊂ M sont deux ensembles affines dans Rn , alors la dimension affine de L est ≤ que
celle de M , avec une égalité ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , alors la dimension de Aff(X) est ≤
que celle de Aff(Y ), avec une égalité ssi X = Y

Exercice 1.2 Montrez la loi du parallélogramme :

|x + y|2 + |x − y|2 = 2(|x|2 + |y|2 ).

Exercice 1.3 Trouver une description externe de Lin(X) pour

X = {(1, 1, 1, 1), (1, 1, −1, −1)} ⊂ R4 .

Pourrait-une description contenir moins de 2 équations ? Plus de 2 équations linéairement

indépendantes ?
1.5. EXERCICES 33

Exercice 1.4 Quelles sont les dimensions des ensemble aﬃnes

– (A) :
2x1 + 3x2 + 4x3 + 5x4 = 1
3x1 + 4x2 + 5x3 + 6x4 = 2
4x1 + 5x2 + 6x3 + 7x4 = 3
dans R4 ?
– (B) :
2x1 + 3x2 + 4x3 + 5x4 = 1
3x1 + 4x2 + 5x3 + 6x4 = 4
4x1 + 5x2 + 6x3 + 7x4 = 9
dans R4 ?
– (C) :

n
(i + j)xj = i, i = 1, ..., m
j=1

dans Rn (2 ≤ m ≤ n) ?
– (D) :

n
(i + j)xj = i2 , i = 1, ..., m
j=1

dans Rn (3 ≤ m ≤ n) ?

Exercice supplémentaire

Exercice 1.5 Soit M un sous-ensemble non vide de Rn . Prouvez que M est un ensemble aﬃne
si et seulement s’il contient, avec tout couple de points x, y ∈ M , la droite

{λx + (1 − λ)y | λ ∈ R}

engendrée par ces points

34 CHAPITRE 1. INTRODUCTION
Chapitre 2

Ensembles convexes : Introduction

Les sous-espaces linéaires et les ensembles aﬃnes sont “trop simples” pour satisfaire à tous
les besoins d’analyse convexe. Ce qui nous intéresse réellement sont les ensembles convexes dans
Rn .

2.1 Deﬁnition, Exemples, Description interne, Propriétés algébriques

2.1.1 Ensembles convexes
A l’école on a appris qu’une figure s’appelle convexe si elle contient, avec n’importe quelle
paire de ses points x, y, le segment entier [x, y] liant ces points. C’est exactement la définition d’un
ensemble convexe dans le cas multidimensionnel ; il suffit d’exprimer en language mathématique
le sens de la phrase “le segment [x, y] liant les points x, y ∈ Rn ”.

Déﬁnition 2.1.1 [Convex set]

1) Soit x, y deux points dans Rn . L’ensemble

[x, y] = {z = λx + (1 − λ)y | 0 ≤ λ ≤ 1}

est appelé segment avec les extrémités x, y.

2) Un sous-ensemble M de Rn est appelé convexe, s’il contient avec toute paire de points
x, y, le segment entier [x, y] :

x, y ∈ M, 0 ≤ λ ≤ 1 ⇒ λx + (1 − λ)y ∈ M.

Commentaire : Comme nous savons de la Section 1.4.2, ensemble de tous les combinaisons
affines {z = λx + (1 − λ)y | λ ∈ R} de deux vecteurs donnés est leur enveloppe affine qui est
une droite, à condition que x = y. Quand le paramètre λ de la combinaison est 0, nous obtenons
un des points x, y (notamment, y), et quand λ = 1 – l’autre (x). Et le segment [x, y], en accord
avec l’intuition géométrique, est composé de des combinaisons affines de x, y avec ces extrémités
et toutes les valeurs intermédiaires du paramètre λ.
Notez que par cette définition un ensemble vide est convexe (par convention, ou, plutôt, par
le sens exact de la définition : pour l’ensemble vide, vous ne pouvez pas présenter un contre-
exemple pour prouver qu’il n’est pas convexe).

35
36 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

2.1.2 Examples d’ensembles convexes

les exemples les plus simples d’ensembles convexes non vides sont des singletons (points) et
l’espace entier Rn . Un exemple beaucoup plus intéressant est le suivant :

Exemple 2.1.1 L’ensemble de solution d’un système (peut-être inﬁni) d’inégalités linéaires

aTα x ≤ bα , α ∈ A

de n inconnus x, c.-à-d. l’ensemble

M = {x ∈ Rn | aTα x ≤ bα , α ∈ A}

est convexe.
En particulier, l’ensemble de solutions d’un système ﬁni

Ax ≤ b

de m inégalités avec n inconnus (A et une matrice m × n) est convexe ; ce type d’ensemble porte
le nom de polyhedre.

En eﬀet, soit x, y deux solutions du système ; il faut montrer que tout point z = λx + (1 − λy)
avec λ ∈ [0, 1] est aussi une solution du système. Cela est évident car pour tout α ∈ A on a

aTα x ≤ bα
aTα y ≤ bα .

Par consequence, en multipliant les inégalités par les réels non négatif λ et 1 − λ et en faisant la
somme :
λaTα x + (1 − λ)aTα y ≤ λbα + (1 − λ)bα = bα ,
et ce qui est sur la gauche est exactement aTα z.

Remarque 2.1.1 Remarquez que tout ensemble de l’Example 2.1.1 est aussi fermé (pourquoi ?)

Comme nous nous rappelons du cours précédent, tout ensemble affine dans Rn (et en par-
ticulier, tout sous-espace linéaire) est l’ensemble de toutes les solutions à un certain système
d’équations linéaires. Maintenant, un système d’équations linéaires est équivalent à un système
d’inégalités linéaires (vous pouvez d’une manière équivalente représenter une égalité linéaire par
une paire d’inégalités linéaires opposées). Il suit qu’un ensemble affine est un cas particulier d’un
ensemble polyhedral et donc est un ensemble convexe. Naturellement, nous pourrions obtenir
cette conclusion directement : la convexité d’un ensemble signifie qu’il est fermé par rapport aux
certaines combinaisons affines – notamment, les combinaisons des paires de ces éléments avec
les poids non négatifs ; et un ensemble affine est fermé par rapport à toutes les combinaisons
affines de ses éléments (Proposition 1.3.2).

Exemple 2.1.2 [ · -boule] Soit · une norme sur Rn c.-à-d. une fonction réelle sur Rn
qui satisfait les trois propriétés caractéristiques de la norme, mentionnées dans la Section 1.1.2.
Alors la boule unité dans cette norme – l’ensemble

{x ∈ E | x ≤ 1},
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES37

ainsi que toute autre boule- ·

{x | x − a ≤ r}
(a ∈ Rn et r ≥ 0 sont ﬁxés) est convexe.
En particulier, boules Euclidiennes (boules-|·| associées avec la norme Euclidienne · = |·|)
sont convexe.

En eﬀet, soit V = {x | x − a ≤ r} et x, y ∈ V . Nous avons a veriﬁer que si λ ∈ [0, 1],

alors z = λx + (1 − λ)y ∈ V . Ceci est donné par le calcul suivant :

z−a = [λx + (1 − λ)y] − a

= [λ(x − a)] + [(1 − λ)(y − a)]
≤ λ(x − a) + (1 − λ)(y − a) [inégalité de triangle - déﬁnition de la norme]
= λ x − a +(1 − λ) y − a [homogénéité - déﬁnition de la norme]
≤ λr + (1 − λ)r = r [since x, y ∈ V ]

Les exemples basiques des normes sur Rn sont les normes Lp :

( ni=1 |xi |p ) , 1 ≤ p < ∞ .
1/p
x p =
max1≤i≤n |xi |, p=∞

Ces sont réellement des normes (ce qui n’est pas évident au départ). Quand p = 2, nous
obtenons la norme Euclidienne ; bien sur, vous sauriez dessiner la boule Euclidienne. Quand
p = 1, nous obtenons
n
x 1 = |xi |,
i=1

et la boule unité est un hyperoctaedron

n

n
V = {x ∈ R | |xi | ≤ 1}
i=1

Quand p = ∞, nous obtenons

x ∞ = max |xi |,
1≤i≤n

et la boule unité est un hypercube

V = {x ∈ Rn | −1 ≤ xi ≤ 1, 1 ≤ i ≤ n}.

Il sera bien utile de dessiner les boules unité de normes · 1 et · ∞ dans R2 .

Exemple 2.1.3 [Ellipsoid] Soit Q une matrice n × n symétrique (Q = QT ) et positive déﬁnie

(xT Qx ≥ 0, avec ≥ étant = si et seulement si x = 0). Alors, pour tout r non négatif, le
Q-ellipsoid du rayon r centré en a – l’ensemble

{x | (x − a)T Q(x − a) ≤ r 2 }

est convexe.

La façon la plus simple de prouver qu’un ellipsoid est convexe est la suivante : étant
donné une matrice symétrique déﬁnie positive Q, on peut lui associer le produit scalaire :

x, y = xT Qy

qui, qu’on le voit immédiatement, satisfait les propriétés caractéristiques – bilinéarité,

symétrie et positivité – du produit scalaire standard xT y (en fait ces trois propriétés du
38 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

produit scalaire associé à Q, prises ensemble, sont exactement équivalent à la symétrie et

positivité de la matrice Q). Il suit que la Q-norme, c.-à-d. la fonction

|x|Q = xT Qx,

est une norme : en montrant que la norme Euclidienne standard est une norme (section 1.1.2),
nous avons employé la bilinéarité, la symétrie et la positivité du produit scalaire standard
seulement, et aucunes autres propriétés spéciﬁques). On voit maintenant qu’un Q-ellipsoid
n’est qu’une boule dans la norme | · |Q , de sorte que sa convexité soit prouvé dans l’Example
2.1.2.
+
Exemple 2.1.4 [-voisinage d’un ensemble convexe]
Soit M un ensemble convexe dans Rn , et soit > 0. Alors, quelque soit la norme · sur Rn ,
le -voisinage de M , c.-à-d. l’ensemble

M = {y ∈ Rn | dist· (y, M ) ≡ inf y − x ≤ }

x∈M

est convexe.

2.1.3 Description interne d’ensembles convexes : Combinaisons convexes et

enveloppes convexes
Combinaisons convexes
Nous avons déﬁni la notion de combinaison linéaire y d’un ensemble donné de vecteurs
y1 , ..., ym - c’est un vecteur représenté comme

m
y= λi yi ,
i=1

où λi sont certains coefficients réels. À partir de cette définition, nous sommes venus à la notion de
combinaison affine – une combinaison linéaire avec la somme de coefficients égale à 1. Maintenant
nous présentons la notion suivante dans le genre : celle de combinaison convexe.

Définition 2.1.2 Une combinaison convexe des vecteurs y1 , ..., ym est leur combinaison affine
avec des coefficients non négatifs. Ou, ce qui est identique, une combinaison linéaire

m
y= λi yi
i=1

avec des coeﬃcients non négatifs avec la somme de coeﬃcients égale à 1 :

m
λi ≥ 0, λi = 1.
i=1

Le résultat suivant ressemble à ceux qui nous avons obtenu pour des sous-espaces linéaires et
ensembles aﬃnes :

Proposition 2.1.1 Un ensemble M dans Rn est convexe si et seulement s’il est fermé par
rapport à toutes les combinaisons convexes de ses éléments, c.-à-d., si et seulement si n’importe
quelle combinaison convexe des vecteurs de M est encore un vecteur de M .
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES39

Preuve.
partie ”si” (la suﬃsance) : supposons que M contient toutes les combinaisons convexes des
éléments de M . Alors, avec deux points quelconques x, y ∈ M , M contient également le vecteur
λx + (1 − λ)y pour tout λ ∈ [0, 1], puisque c’est une combinaison convexe de x et y ; ainsi, M
est convexe.
partie ”seulement si” (la nécessité) : supposez que M est convexe ; nous devrions montrer
qu’alors M contient n’importe quelle combinaison convexe

m
(∗) y= λi yi
i=1

de vecteurs yi ∈ M . La preuve est donnée par récurrence en m. Le cas de m = 1 est évident

(puisque la seule combinaison convexe d’un terme est 1 · y1 = y1 ∈ M ). Supposons que nous
savons déjà que n’importe quelle combinaison convexe de m − 1 vecteurs, m ≥ 2, de M est
encore un vecteur de M , et montrons que ce résultat demeure valide également pour toutes
les combinaisons convexes de m vecteurs de M . Soit (*) une telle combinaison. Nous pouvons
supposer que 1 > λm , puisqu’autrement il n’y a rien à démontrer. En supposant λm < 1, nous
pouvons écrire

m−1
λi
y = (1 − λm )[ yi ] + λm ym .
i=1
1 − λm
Ce qui est entre les parenthèses est une combinaison convexe de m − 1 points de M et, par notre
hypothèse inductive c’est un point, disons z, de M ; nous avons

y = (1 − λm )z + λm ym

avec z et ym ∈ M , et y ∈ M par la déﬁnition du convexe M .

Enveloppe convexe
Comme pour les sous-espaces linéaires et ensemble aﬃnes nous avons le fait fondamental
(bien qu’évident) suivant :

Proposition 2.1.2 [Convexité d’intersections] Soit {Mα }α une famille d’ensembles convexes
de Rn . Alors l’intersection
M = ∩α Mα
est convexe.

En eﬀet, si les bouts d’un segment [x, y] appartiennent à M , ils appartient également au chaque
Mα ; en raison de la convexité de Mα , le segment [x, y] lui-même appartient au chaque Mα , et,
par conséquent, à leur intersection, c.-à-d., à M .
Une conséquence immédiate de cette proposition (cf. les résultats analogues pour des sous-
espaces linéaires et ensembles aﬃnes dans le Chapitre 1) est comme suit :

Corollaire 2.1.1 [Enveloppe convexe]

Soit M un sous-ensemble non vide dans Rn . Alors parmi tous les ensembles convexes conte-
nant M (ces ensembles existent, par exemple, Rn lui-même) il existe le plus petit, à savoir,
l’intersection de tous les ensembles convexes contenant M .
Cet ensemble s’appelle enveloppe convexe de M [ notation : Conv(M )].
40 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

Enveloppe linéaire de M est l’ensemble de toutes les combinaisons linéaires des vecteurs de
M , enveloppe aﬃne est l’ensemble de toutes les combinaisons aﬃnes des vecteurs de M . Comme
vous devinez,

Proposition 2.1.3 [Enveloppe convexe par combinaisons convexes] Pour M ⊂ Rn non vide :

Conv(M ) = {l’ensemble de tous les combinaisons convexes de vecteurs de M }.

Preuve : selon la Proposition 2.1.1, tout ensemble convexe contenant M (en particulier,
Conv(M )) contient toutes les combinaisons convexes des vecteurs de M . Il reste a vérifier que
Conv(M ) ne contient rien d’autre. À cet effet il suffit de montrer que l’ensemble de toutes les
combinaisons convexes des vecteurs de M , nous l’appelons M ∗ , lui-même est convexe (en tenant
compte du fait que Conv(M ) est le plus petit ensemble convexe contenant M , nous réalisons
notre but – l’inclusion Conv(M ) ⊂ M ∗ ). Montrer que M ∗ est convexe est la même chose que
de montrer que n’importe quelle combinaison convexe νx + (1 − ν)y de deux points quelconques

x = i λi xi , y = i μi xi de M ∗ – deux combinaisons convexes des vecteurs xi ∈ M – est encore
une combinaison convexe des vecteurs de M . C’est évident :

νx + (1 − ν)y = ν λi xi + (1 − ν) μ i xi = ξ i xi , ξi = νλi + (1 − ν)μi ,
i i i

et les coeﬃcients ξi sont bien non négatifs avec la somme égale 1.

La Proposition 2.1.3 nous fournit une description (“de maçon”) interne d’un ensemble
convexe. Bientôt nous obtiendrons également une description (d’“artiste”) externe extrêmement
utile des ensembles convexes fermé : nous montrerons que tous ces ensembles sont donnés par
l’Example 2.1.1 – ils sont exactement les ensembles de toutes les solutions aux systèmes (proba-
blement, inﬁnis) d’inégalités linéaires “non strictes” 1) .

2.1.4 Plus d’exemples d’ensembles convexes : le polytope et le cône

Notre “ approche de maçon” à produire des ensembles convexes nous fournit deux exemples
apparemment nouveaux : un polytope et un cône.

Un polytope est, par déﬁnition, l’enveloppe convexe d’un un ensemble ﬁni non vide dans Rn ,
c.-à-d. l’ensemble de forme

N
Conv({u1 , ..., uN }) = { λi ui | λi ≥ 0, λi = 1}.
i=1 i

Un cas important d’un polytope est le simplex : l’enveloppe convexe de n + 1 points v1 , ..., vn+1
aﬃnement indépendants de Rn :

n+1
n+1
M = Conv({v1 , ..., vn+1 }) = { λi vi | λi ≥ 0, λi = 1};
i=1 i=1

les points v1 , ..., vn+1 s’appellent les sommets du simplex.

1. ) L’ensemble de solutions de n’importe quel système d’inégalités linéaires non strictes est un ensemble fermé
et convexe – ceci nous déjà savons de l’exemple 2.1.1 et remarquons 2.1.1. L’inverse est aussi vrai, mais il nous
faudra de montrer que n’importe quel ensemble convexe fermé est l’ensemble de solutions d’un système d’inégalités
linéaires
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES41

Nous découvrirons sous peu qu’un polytope n’est rien d’autre qu’un ensemble polyhedral
borné, c.-à-d. un ensemble borné donné par un nombre ﬁni d’inégalités linéaires. L’équivalence
de ces deux deﬁnitions – interne et externe — d’un polytope est l’un des faits les plus profonds
de l’Analyse Convexe.

Un cone Un sous-ensemble non vide M de Rn s’appelle conique, s’il contient, avec chaque
point x ∈ M , le rayon entier Rx = {tx | t ≥ 0} engendré par le point :

x ∈ M ⇒ tx ∈ M ∀t ≥ 0.

Un ensemble conique convexe s’appelle cône 2) .

+
Proposition 2.1.4 Le sous-ensemble non vide M de Rn est un cône si et seulement s’il
possède les propriétés suivantes :
– il est conique : x ∈ M, t ≥ 0 ⇒ tx ∈ M ;
– il contient des sommes de ses éléments : x, y ∈ M ⇒ x + y ∈ M .

Comme conséquence immédiate, nous obtenons qu’un cône est fermé par rapport aux combinai-
sons linéaires avec des coeﬃcients non négatifs de ces éléments. Et vice versa, un ensemble non
vide fermé par rapport à ces combinaisons est un cône.
+
Exemple 2.1.5 L’ensemble de solutions d’un système homogène (peut-être inﬁni)

aTα x ≤ 0, α ∈ A

d’inégalités linéaires avec n inconnus x, c.-à-d. l’ensemble

K = {x | aTα x ≤ 0 ∀α ∈ A},

est un cône.
En particulier, l’ensemble de solutions d’un système homogène ﬁni de m inégalités linéaires

Ax ≤ 0

(A est une matrice m × n) est un cône ; un cône de ce dernier type s’appelle polyhedral.

Notez note que les cônes donnés par des systèmes d’inégalités homogènes linéaires non strictes
sont nécessairement fermés. Nous verrons bientôt que, vice versa, chaque cône convexe fermé est
l’ensemble de solutions d’un tel système, de sorte que l’Exemple 2.1.5 soit l’exemple générique
d’un cône convexe fermé.
Les cônes forment une famille très importante d’ensembles convexes, et on peut
développer la théorie de cônes absolument semblable (et dans un sens, équivalente) à celle des
ensembles convexes. Par exemple, en introduisant la notion de combinaison conique des vec-
teurs x1 , ..., xk comme combinaison linéaire des vecteurs avec des coeﬃcients non négatifs,
vous pouvez facilement montrer les résultats suivants complètement analogues à ceux qui
concernent les ensembles convexes généraux, avec la combinaison conique jouant le rôle de
la combinaison convexe :
2. ) certains appellent cônes ce que nous appelons ensembles coniques et cônes convexes ce que nous appelons
cônes
42 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

– Un ensemble est un cône si et seulement s’il est non vide et est fermé par rapport à
toutes les combinaisons coniques de ses éléments ;
– L’intersection de n’importe quelle famille des cônes est encore un cône ; en particulier,
pour tout ensemble non vide M ⊂ Rn il existe le plus petit cône contenant M – son
enveloppe conique Cone (M ), et cette enveloppe conique est composé de toutes les
combinaisons coniques des vecteurs de M .
En particulier, l’enveloppe conique d’un ensemble ﬁni non vide M = {u1 , ..., uN } de
vecteurs dans Rn est le cône
N

Cone (M ) = { λi ui | λi ≥ 0, i = 1, ..., N }.
i=1

Un fait fondamental (cf. l’histoire ci-dessus au sujet des polytopes) est que c’est la description
(interne) générique d’un cône polyhedral – d’un ensemble donné par (description externe)
un nombre ﬁni d’inégalités linéaires homogènes.

2.1.5 Propriétés algébriques d’ensembles convexes

Le résultat suivant est une conséquence directe de la déﬁnition de l’ensemble convexe.
+
Proposition 2.1.5 Les operations suivantes préservent la convexité des ensembles :
– Somme arithmétique et multiplication par des réels : si M1 , ..., Mk sont convexes dans Rn
et λ1 , ..., λk sont des réels, alors l’ensemble

k
λ1 M1 + ... + λk Mk = { λi xi | xi ∈ Mi , i = 1, ..., k}
i=1

est convexe.
– Prendre l’image par transformation aﬃne : si M ⊂ Rn est convexe et x → A(x) ≡ Ax + b
est une transformation aﬃne de Rn dans Rm (A est une matrice m × n, b est un m-
vecteur), alors l’ensemble

A(M ) = {y = A(x) ≡ Ax + a | x ∈ M }

dans Rm est convexe.

– Prendre l’image inverse par transformation aﬃne : si M ⊂ Rn est convexe et y → Ay + b
est une transformation aﬃne de Rm vers Rn (A est une matrice n × m, b est un vecteur
à n dimensions), alors l’ensemble

A−1 (M ) = {y ∈ Rm | A(y) ∈ M }

dans Rm est convexe.

2.1.6 Propriétés topologiques d’ensembles convexes

Les ensembles convexes et les objets étroitement liés - fonctions convexes - jouent le rôle
central dans l’optimisation. Pour jouer ce rôle correctement, seule la convexité ne suﬃt pas ;
nous avons besoin en plus de la convexité la fermeture. Dans le Chapitre 1 nous avons déjà parlé
au sujet des notions les plus fondamentales de topologie – convergence des suites de vecteurs,
fermés et ouverts dans Rn . Voici trois notions supplémentaires dont nous avons besoin :
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES43

Fermeture Il est claire de la déﬁnition d’un ensemble fermé que l’intersection de n’importe
quelle famille des ensembles fermés dans Rn est également fermée. De ce fait il découle, comme
d’habitude, que pour n’importe quel sous-ensemble M de Rn il existe le plus petit ensemble
fermé contenant M ; cet ensemble s’appelle fermeture de M et est noté cl M . Dans l’analyse ils
démontrent la description (“interne”) suivante de la fermeture d’un ensemble dans un espace
métrique (et, en particulier, dans Rn ) :
La fermeture d’un ensemble M ⊂ Rn est exactement l’ensemble de tous les point limites de
toutes suites convergeantes d’éléments de M .
Maintenant il est facile à démontrer que, par exemple, la fermeture d’une boule Euclidienne
ouverte
{x | |x − a| < r} [r > 0]
est la boule fermée {x | |x − a| ≤ r}. Une autre application utile est l’exemple de fermeture de
l’ensemble
M = {x | aTα x < bα , α ∈ A}
donné par un système strict d’inégalités linéaires : si un tel ensemble n’est pas vide, alors sa
fermeture est donnée par des versions non strictes des mêmes inégalités :

cl M = {x | aTα x ≤ bα , α ∈ A}.

La condition que M soit non vide dans le dernier exemple est essentielle : l’ensemble M
donné par deux inégalités strictes

x < 0, −x < 0

dans R est vide, ainsi que sa fermeture ; par contre, en appliquant formellement la règle
ci-dessus, on aurait la réponse fausse :

cl M = {x | x ≤ 0, x ≥ 0} = {0}.

L’intérieur. Soit M ⊂ Rn . On dit qu’un point x ∈ M est un point intérieur de M , si un

certain voisinage de x est contenu dans M , c.-à-d. qu’il existe une boule, centrée en x de rayon
positif qu’appartient à M :

∃r > 0 Br (x) ≡ {y | |y − x| ≤ r} ⊂ M.

L’ensemble de tous les points intérieurs de M s’appelle intérieur de M [ notation : int M ].

Par exemple,
– l’intérieur d’un ensemble ouvert est l’ensemble lui-même ;
– l’intérieur de la boule fermée {x | |x − a| ≤ r} est la boule ouverte {x | |x − a| < r}
(pourquoi ?)
– l’intérieur d’un ensemble polyhedral {x | Ax ≤ b} avec la matrice A ne contenant pas de
lignes nulles est l’ensemble {x | Ax < b} (pourquoi ?)
le dernier résultat n’est pas valide pour des ensembles de solutions des systèmes
inﬁnis d’inégalités linéaires. Par exemple, le système

1
x≤ , n = 1, 2, ...
n
44 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

dans R a comme ensemble de solutions le rayon nonpositive R− = {x ≤ 0} ; l’intérieur

de ce rayon est le rayon négatif {x < 0}. En même temps, les versions strictes de nos
inégalités
1
x < , n = 1, 2, ...
n
déﬁnissent le même rayon nonpositive, pas le rayon négatif.
Il est facile a voir également (et c’est vrai pour les espaces métriques arbitraires, pas pour Rn
seulement), que
– l’intérieur d’un ensemble arbitraire est ouvert
L’intérieur d’un ensemble, naturellement, est contenu dans l’ensemble, qui, alternativement, est
contenu dans sa fermeture :
int M ⊂ M ⊂ cl M. (2.1)
Le complément de l’intérieur dans la fermeture – l’ensemble

∂M = cl M \ int M

s’appelle frontière de M , et les points de ∂M s’appellent des points de frontière de M (aver-

tissement : ces points n’appartiennent pas nécessairement à M , parce que M peut être moins
que cl M ; en fait, tous les points de frontière appartiennent à M si et seulement si M = cl M ,
c.-à-d., si et seulement si M est fermé).
La frontière d’un ensemble est fermée (comme intersection de deux ensembles fermés cl M
et de Rn \ int M ; le dernier ensemble est fermé étant le complément d’un ensemble ouvert, voir
Chapitre 1). De la déﬁnition de la frontière,

M ⊂ int M ∪ ∂M [= cl M ],

de sorte qu’un point de M est soit un point intérieur de M ou un point de frontière de M .

Intérieur relatif. Plusieurs objets qu’on verra dans la suite possèdent des bonnes propriétés
seulement dans l’intérieur de l’ensemble lié à leur construction et peuvent perdre ces propriétés
aux points de frontière de l’ensemble ; c’est pourquoi dans beaucoup de cas nous sommes par-
ticulièrement intéressés par les points intérieurs des ensembles et voulons que l’ensemble de ces
points soit assez “ massif”. Que faire si ce n’est pas le cas, par exemple, s’il n’y a aucun point
intérieur du tout (considérez à un segment dans un plan) ? Il s’avère que dans ces cas nous
pouvons employer un bon substitut de l’intérieur “normal” – intérieur relatif déﬁni comme suit :

Déﬁnition 2.1.3 [Intérieur relatif] Soit M ⊂ Rn . Nous disons qu’un point x ∈ M est
relativement intérieur pour M , si M contient l’intersection d’une assez petite boule centrée
en x avec Aﬀ(M ) :

∃r > 0 Br (x) ∩ Aﬀ(M ) ≡ {y | y ∈ Aﬀ(M ), |y − x| ≤ r} ⊂ M.

L’ensemble de tous les points relativement intérieurs de M s’appelle son intérieur relatif [nota-
tion : ri M ].

Par exemple l’intérieur relatif d’un singleton est le singleton lui-même (puisqu’un point dans
l’espace 0-dimensional est identique comme boule de n’importe quel rayon positif) ; de même,
l’intérieur relatif d’un ensemble aﬃne est l’ensemble lui-même. L’intérieur d’un segment [x, y]
(x = y) dans Rn est vide dès que n > 1 ; contrairement à ceci, son intérieur relatif est non vide
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES45

indépendamment de n et est l’intervalle (x, y) – le segment avec des points extrémaux supprimés.
Géométriquement parlant, l’intérieur relatif est l’intérieur que nous obtenons en considérant M
comme sous-ensemble de son enveloppe affine (le dernier, géométriquement, n’est rien que Rk ,
k étant la dimension affine de Aff(M )).
Nous pouvons jouer avec la notion de l’intérieur relatif de la même manière qu’avec celle de
l’intérieur, à savoir :
– comme Aff(M ) est fermé (Chapitre 1, Section 1.4.1) et contient M , il contient également
le plus petit parmi les ensembles fermés contenant M , c.-à-d, cl M . Ainsi nous avons les
analogues suivants d’inclusions (2.1) :

ri M ⊂ M ⊂ cl M [⊂ Aﬀ(M )]; (2.2)

– nous pouvons définir frontière relative ∂ri M = cl M \ri M qui est un ensemble fermé
contenu dans Aff(M ), et, comme pour le “vrai” intérieur et la “vraie” frontière, nous
avons
ri M ⊂ M ⊂ cl M = ri M + ∂ri M.
Naturellement, si Aff(M ) = Rn , alors l’intérieur relatif devient l’intérieur habituel, de même
pour la frontière ; ce pour sûr est le cas quand int M = ∅ (car alors M contient une boule B, et
donc l’enveloppe affine de M est le Rn entier, qui est l’enveloppe affine de B).

Bonnes propriétés topologiques d’ensembles convexes

Un ensemble M dans Rn peut posséder une topologie très “pathologique” : les deux inclusions
dans la chaine
ri M ⊂ M ⊂ cl M
peuvent être très “peu denses”. Par exemple, si M est l’ensemble de nombres rationnels du
segment [0, 1] ⊂ R. Alors ri M = int M = ∅ – puisque n’importe quel voisinage de chaque réel
rationnel contient des réels irrationnels – tandis que cl M = [0, 1]. Ainsi, ri M est “incompara-
blement plus petit” que M , cl M est “incomparablement plus grand”, et M est contenu dans sa
frontière relative (d’ailleurs, qu’est-ce que cette frontière relative ?).
La proposition suivante montre que la topologie d ensembles convexes est bien meilleure
qu’elle pourrait être pour un ensemble arbitraire.

Théorème 2.1.1 Soit M un ensemble convexe dans Rn . Alors

+
(i) L’intérieur int M , la fermeture cl M et l’intérieur relatif ri M sont convexes ;
(ii) si M est non vide, alors son intérieur relatif est non vide ;
(iii) la fermeture de M est identique a la fermeture de son intérieur relatif :

cl M = cl ri M

(en particulier, chaque point de cl M est la limite d’une suite des points de ri M )
(iv) l’intérieurs relatif reste inchangé quand nous remplaçons M avec sa fermeture cl M :

ri M = ri cl M.

Preuve :
(ii) soit M un ensemble convexe non vide, montrons que ri M = ∅. Il suffit de considérer le
cas quand Aff(M ) est l’espace entier Rn . En effet, par translation de M nous pouvons toujours
46 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

supposer que Aff(M ) contient 0, c.-à-d. est un sous-espace linéaire. Comme nous savons du
chapitre précèdent, un sous-espace linéaire dans Rn , en ce qui concerne les opérations linéaires
et la structure Euclidienne, est équivalent à un certain Rk . Puisque la notion d’intérieur relatif
traite seulement les structures linéaires et Euclidiennes, nous ne perdons rien en identifiant
Aff(M ) à Rk et le prenant en tant que notre univers au lieu de l’univers original Rn . Ainsi, dans
le reste de la preuve (ii) nous supposons que Aff(M ) = Rn , et ce que nous devrions prouver est
que l’intérieur de M (ce qui dans le cas en question est identique à l’intérieur relatif) est non
vide.
Selon Theorem 1.3.1, Aff(M ) = Rn possède une base a0 , ..., an affine qui consiste en des
vecteurs de M . Puisque a0 , ..., an appartiennent à M et M est convexe, l’enveloppe convexe
entière des vecteurs – le simplex Δ avec les sommets a0 , ..., an – est contenue dans M . En
conséquence, un point intérieur du simplex est certainement un point intérieur de M ; ainsi,
afin de montrer que int M = ∅, il suffit de montrer que l’intérieur de Δ est non vide, comme il
devrait être selon l’intuition géométrique.
La preuve du dernier fait est comme suit : comme a0 , ..., an est, par sa construction, une
base affine de Rn , chaque point x ∈ Rn est une combinaison affine des points de la base. Les
coefficients λi = λi (x) de la combinaison – les coordonnées barycentriques de x par rapport à la
base – sont des solutions du système suivant des équations :

n
n
λi ai = x; λi = 1,
i=0 i=0

ou, coordonnée par coordonnée,

a01 λ0 + a11 λ1 + ... + an1 λn = x1
a02 λ0 + a12 λ1 + ... + an2 λn = x2
..... ..... ..... ..... = ... ; (2.3)
a0n λ0 + a1n λ1 + ... + ann λn = xn
λ0 + λ2 + ... + λn = 1
(apq est la q-ème entrée du vecteur ap ). C’est un système linéaire de n + 1 equations à n + 1
inconnus. Le système homogène correspondant a seulement la solution triviale – en effet, une
solution non triviale du système homogène nous donnerait une combinaison linéaire non triviale
nulle de ai avec la somme de coefficients nulle ce qui contredit à l’indépendance affine de a0 , ..., an
(ils sont affinement indépendants puisqu’ils forment une base affine de Rn ). Il en suit que si A est
la matrice du système, elle est non singulière, de sorte que la solution λ(x) dépende linéairement
(et, par conséquent, de façon continue) de la partie droite, c.-à-d. de x.
Maintenant prenons n’importe quel x = x0 avec λi (x0 ) > 0, par exemple, le centre du
simplex :

n
x0 = (n + 1)−1 ai .
i=0

Par continuité des λi (·), il y a un voisinage de x0 – la boule Br (x0 ) centré en x0 du rayon positif
r - où les fonctions λi sont encore positives :

x ∈ Br (x0 ) ⇒ λi (x) ≥ 0, i = 0, ..., n.

et la dernière relation signifie que chaque x ∈ Br (x0 ) est une combinaison affine de ai avec des
coefficients positifs, c.-à-d. est une combinaison convexe des vecteurs, et donc x appartient à Δ.
Ainsi, Δ contient un voisinage de x0 , de sorte que x0 soit un point intérieur de Δ.
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES47

(iii) : On doit montrer que la fermeture de ri M est exactement la même que la fermeture de
M . En fait, on va montrer encore plus :

Lemme 2.1.1 Soit x ∈ ri M et y ∈ cl M . Alors tous les points du demi-segment [x, y),

[x, y) = {z = (1 − λ)x + λy | 0 ≤ λ < 1}

appartiennent à l’intérieur relatif de M .

Preuve du Lemme. Soit Aﬀ(M ) = a + L, L étant un sous-espace linéaire ; alors

M ⊂ Aﬀ(M ) = x + L.

Soit B une boule unité dans L :

B = {h ∈ L | h ≤ 1}.

Comme x ∈ ri M , il existe un rayon positif r tel que

x + rB ⊂ M. (2.4)

Par ailleurs, comme y ∈ cl M , nous avons y ∈ Aﬀ(M ) (voir (2.2)). De plus, pour tout > 0 il
existe y ∈ M tel que |y − y| ≤ ; comme y et y sont dans Aﬀ(M ), le vecteur y − y est dans
L, et donc dans B. Ainsi
(∀ > 0) : y ∈ M + B. (2.5)
Maintenant, soit z ∈ [x, y), alors
z = (1 − λ)x + λy
avec un certain λ ∈ (0, 1). Il nous faut démontrer que z est relativement intérieur pour M , c.-à-d.
que il existe r > 0 tel que
z + r B ⊂ M. (2.6)
Grâce à (2.5), pour tout > 0 nous avons

λ
z+B ≡ (1−λ)x+λy+B ⊂ (1−λ)x+λ[M +B]+B = (1−λ)[x+ B+ B]+λM. (2.7)
1−λ 1−λ
Notons que pour tous t , t non négatifs

t B + t B ⊂ (t + t )B.

En eﬀet, si u ∈ t B et v ∈ t B, c.-à-d. u ≤ t et v ≤ t , alors, par l’inégalité de triangle,

u + v ≤ t + t , c.-à-d. u + v ∈ (t + t )B. A partir de cette inclusion on obtient de (2.7)

(1 + λ)
z + B ⊂ (1 − λ) x + B + λM
1−λ
pour tout > 0. En choisissant assez petit, nous pouvons rendre le coeﬃcient devant B dans
la partie droite ≤ r (voir (2.4)) ; pour ce choix de , nous avons, par (2.4),

(1 + λ)
x+ B ⊂ M,
1−λ
48 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

et on arrive à
z + B ⊂ (1 − λ)M + λM = M
(la dernière égalité est dû à la convexité de M ). Ainsi, z ∈ ri M .
Notre Lemme implique immédiatement (iii). Eﬀectivement, cl ri M ne peut être que plus
petite que cl M : cl ri M ⊂ cl M , de sorte que tout ce que nous avons besoin à montrer est
l’inclusion inverse : cl M ⊂ cl ri M c.-à-d. que chaque point y ∈ cl M est une limite d’une suite
de points de ri M . C’est immédiat : nous pouvons supposer M non vide (autrement, les ensembles
en question sont vides et coincident l’un avec l’autre), de sorte que par (ii) il existe un point
x ∈ ri M . Selon le Lemme, le demi-segment [x, y) appartient à ri M , et y est la limite d’une suite
des points de ce demi-segment, par exemple, de la suite xi = n1 x + (1 − n1 )y.
Une consequence intéressante du Lemme 2.1.1 est suivante :
+
Corollaire 2.1.2 Soit M un ensemble convexe. Alors toute combinaison convexe

λi xi
i

des points xi ∈ cl M où au moins un terme avec le coeﬃcient positif correspond à un xi ∈ ri M

est un point de ri M .
(iv) : Le résultat est évidemment vrai quand M est vide, ainsi supposons que M est non vide.
L’inclusion ri M ⊂ ri cl M est évident, et tout ce que nous avons besoin à montrer est l’inclusion
inverse. Alors soit z ∈ ri cl M , et montrons que z ∈ ri M . Soit x ∈ ri M (nous savons déjà que le
dernier ensemble est non vide). Considérez le segment [x, z] ; puisque z est dans l’intérieur relatif
de cl M , nous pouvons prolonger un peu ce segment par le point z sans quittercl M , c.-à-d. qu’il
existe y ∈ cl M tel que z ∈ [x, y). Et maintenant, z ∈ [x, y), avec x ∈ ri M , y ∈ cl M , on obtient
par Lemme 2.1.1 que z ∈ ri M .
Nous voyons de la preuve du Théorème 2.1.1 que pour obtenir la fermeture d’un ensemble
convexe (non vide), il suffit le soumettre “à la fermeture radiale”, c.-à-d. choisir un point
x ∈ ri M et prendre tous les rayons dans Aff(M ) commençant par x et regarder l’intersection
de ce rayon (disons, l) avec M . Une telle intersection sera un ensemble convexe sur la droite
qui contient un demi-voisinage x, c.-à-d. soit un segment [x, yl ], ou le rayon entier l, ou un
demi-intervalle [x, yl ). Dans les deux premiers cas nous n’avons rien à faire ; dans le dernier
cas nous ajoutons yl à M . Après avoir parcouru tous les rayons, quand tous les points finaux
”manqués” yl sont ajoutés à M , nous obtenons la fermeture de M . Pour voir le rôle qui joue
la convexité dans cette construction, on peut considerer l’ensemble non convexe de nombres
rationnels de [0, 1] ; l’intérieur (≡ l’intérieur relatif) de cet ensemble est vide, la fermeture
est [0, 1], et il n’y a aucune possibilité de reconstituer la fermeture à partir de l’intérieur.

2.2 Théorèmes classiques sur ensembles convexes

2.2.1 Théorème de Caratheodory
Appelons dimension d’un ensemble M convexe non vide (notation : dim M ) la dimension
aﬃne de Aﬀ(M ).

Théorème 2.2.1 [Caratheodory] Soit M ⊂ Rn , et soit dim ConvM = m. Alors tout point
x ∈ ConvM est une combinaison convexe d’au plus m + 1 points de M .
2.2. THEOREMES CLASSIQUES SUR ENSEMBLES CONVEXES 49

Preuve : Soit x ∈ ConvM . Par Proposition 2.1.3 sur la structure de l’enveloppe convexe, x est
une combinaison convexe de certains points x1 , ..., xN de M :

N
N
x= λi xi , [λi ≥ 0, λi = 1].
i=1 i=1

Choisissons parmi toutes ces représentations de x celle avec le plus petit possible nombre N de
coefficients non nuls, et supposons que c’est la combinaison ci-dessus. J’affirme que N ≤ m + 1
(cette affirmation mène au résultat désiré). En effet, si N > m + 1, alors les points x1 , ..., xN
ne sont pas affinement indépendants (puisque n’importe quel ensemble affinement indépendant
dans Aff(M ) ⊃ M est composé d’au plus de dim Aff(M ) + 1 = m + 1 points, cf. Proposition
1.3.5). Ainsi, certaine combinaison non triviale de x1 , ..., xN avec la somme zéro de coefficients
est nulle :

N
N
δi xi = 0, [ δi = 0, (δ1 , ..., δN ) = 0].
i=1 i=1
Il en suit que pour tout t la combinaison affine

N
(∗) [λi + tδi ]xi = x.
i=1

Ici à gauche nous avons une combinaison affine des xi . Quand t = 0, c’est une combinaison
convexe – tous les coefficients sont non négatifs. Quand t est grand, ce n’est pas une combinaison
convexe, puisque certains δi sont négatifs (en effet, pas tous les δi sont zéro, et la somme de δi
est 0). Il existe, évidemment, le plus grand t pour lequel la combinaison (*) a des coefficients
non négatifs, à savoir
λi
t∗ = min .
i:δi <0 |δi |

Pour cette valeur de t, la combinaison (*) a tous les coeﬃcients non négatifs, et au moins un des
coeﬃcients est zéro. Ainsi, nous avons représenté x comme une combinaison convexe de moins
de N vecteurs de M .

2.2.2 Théorème de Radon

Théorème 2.2.2 [Radon] Soit S ensemble d’au moins n + 2 points x1 , ..., xN dans Rn . Alors
cet ensemble peut être divisé en deux ensembles non vides S1 et S2 dont les enveloppes convexes
ont un point commun : il existe une partition I ∪ J = {1, ..., N }, I ∩ J = ∅, de l’ensemble
d’indices {1, ..., N } en deux ensemble non vides I et J et les combinaisons convexe des points
{xi , i ∈ I}, {xj , j ∈ J} qui coincident, c.-à-d. qu’il existe αi , i ∈ I, and βj , j ∈ J, tels que

αi xi = βj xj ; αi = βj = 1; αi , βj ≥ 0.
i∈I j∈J i j

Preuve. Comme N > n + 1, les points x1 , ..., xN ne sont pas affinement indépendants (car dans
Rn tout ensemble affinement indépendant contient au plus n + 1 éléments). Ainsi, il existe un
combinaison non triviale de xi égale 0 avec la somme nulle des coefficients :

N
N
λi xi = 0, [ λi = 0, (λ1 , ..., λN ) = 0].
i=1 i=1
50 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

Soit I = {i | λi ≥ 0}, J = {i | λi < 0} ; alors I et J ne sont pas vides et forment une partition
de {1, ..., N }. Nous avons
a≡ λi = (−λj ) > 0
i∈I j∈J

(rappelez-vous que la somme des λi est nulle et tous les λi ne sont pas zéros). Si on pose

λi −λj
αi = , i ∈ I, βj = , j ∈ J,
a a
on obtient
αi ≥ 0, βj ≥ 0, αi = 1, βj = 1,
i∈I j∈J

et ⎛ ⎞

N
−1 ⎝
[ αi xi ] − [ βj xj ] = a [ λi xi ] − [ (−λj )xj ]⎠ = a−1 λi xi = 0.
i∈I j∈J i∈I j∈J i=1

2.2.3 Théorème de Helley

Théorème 2.2.3 [Helley, I] Soit F une famille ﬁnie d’ensembles convexes dans Rn . On suppose
que n’importe quels n + 1 ensembles de la famille ont un point commun. Alors tous les ensembles
ont un point commun.

Preuve : montrons le résultat par récurrence en nombre N d’ensembles dans la famille. Le cas
de N ≤ n + 1 est évident. Supposons maintenant que nous avons prouvé le théorème pour toutes
les familles avec un certain nombre N ≥ n + 1 d’ensembles, et soit S1 , ..., SN , SN +1 une famille
de N + 1 ensembles convexes qui satisfait les conditions du Théorème de Helley ; nous devrions
montrer que l’intersection des ensembles S1 , ..., SN , SN +1 est non vide.
En supprimant de notre famille de N +1 ensembles l’ensemble Si , nous obtenons la famille de
N ensemble qui satisfait les conditions du Théorème de Helley et ainsi, par l’hypothèse inductive,
possède une intersection non vide de ses membres :

(∀i ≤ N + 1) : T i = S1 ∩ S2 ∩ ... ∩ Si−1 ∩ Si+1 ∩ ... ∩ SN +1 = ∅.

Choisissons un point xi dans chaque ensemble Ti (non vide). Nous obtenons N + 1 ≥ n + 2

points de Rn . Comme nous le savons du Théorème de Radon, nous pouvons diviser l’ensemble
d’indices {1, ..., n + 1} en deux sous-ensembles non vides I et J de telle manière qu’une certaine
combinaison convexe x des points xi , i ∈ I, soit simultanément une combinaison convexe des
points xj , j ∈ J. Pour accomplir la preuve il suffit de vérifier que x appartient à tous les ensembles
S1 , ..., SN +1 . En effet, soit i∗ un indice de notre ensemble d’indices, montrons que x ∈ Si∗ . Nous
avons i∗ ∈ I, ou i∗ ∈ J. Dans le premier cas tous les ensembles Tj , j ∈ J, sont contenus dans Si∗
(puisque Si∗ participe à toutes les intersections qui donnent T i avec i = i∗ ). En conséquence,
tous les points xj , j ∈ J, appartiennent à Si∗ , et donc x, qui est une combinaison convexe de ces
points, appartient également à Si∗ (tous nos ensembles sont convexes !), comme requis. Dans le
deuxième cas le raisonnement semblable indique que tous les points xi , i ∈ I, appartiennent à
Si∗ , et donc x, qui est une combinaison convexe de ces points, appartient à Si∗ .
Dans la version mentionnée ci-dessus du Théorème de Helley nous avons traité les familles
finies d’ensembles convexes. Pour étendre ce résultat au cas des familles infinies, nous devons
renforcer légèrement les conditions :
2.2. THEOREMES CLASSIQUES SUR ENSEMBLES CONVEXES 51

∗
Théorème 2.2.4 [Helley, II] Soit F une famille d’ensembles convexes dans Rn . Suppo-
sons que
(a) tous les n + 1 ensembles de la famille on un point commun,
et
(b) chaque ensemble de la famille est fermé, et l’intersection des ensembles d’une certaine
sous-famille finie est bornée (par exemple, un des ensembles dans la famille est borné).
Alors tous les ensembles de la famille on un point commun.
∗
Preuve : Par le théorème précédent, tous les sous-familles finies de F ont les intersections
non vides, et ces intersections sont convexes (puisque l’intersection de n’importe quelle famille
des ensembles convexes est convexe par Théorème 2.1.2) ; grâce à (a) ces intersections sont
également fermées. Ajoutant à F toutes les intersections des sous-familles finies de F , nous
obtenons une famille plus nombreuse F qui consiste en des ensembles convexes fermés, et
n’importe quel sous-famille finie de cette famille plus nombreuse a encore une intersection
non vide. Par ailleurs, (b) implique que cette nouvelle famille contient un ensemble borné Q.
Puisque tous les ensembles sont fermés, la famille d’ensembles

{Q ∩ Q | Q ∈ F }

est une famille emboitée d’ensembles compacts (c.-à-d. une famille d’ensembles compacts avec
l’intersection non vide de toute sous-famille ﬁnie) ; par le théorème bien connu d’analyse, une
telle famille a une intersection non vide 3) .

3. ) voici la preuve de ce théorème : supposez, au contraire, que les ensembles compacts Qα , α ∈ A en question
ont l’intersection vide. Choisissez un ensemble Qα∗ de la famille ; pour chaque x ∈ Qα∗ il y a un ensemble Qx dans
la famille qui ne contient pas x – autrement x serait un point commun de tous nos ensembles. Puisque Qx est fermé,
il y a une boule ouverte Vx centrée en x qui n’intersecte pas Qx . Les boules Vx , x ∈ Qα∗ , forment une couverture
ouverte de l’ensemble compact Qα∗ , et donc on peut en extraire une sous-couverture Vx1 , ..., VxN ﬁnie de Qα∗ .
Puisque Qxi n’intersecte pas Vxi , nous en concluons que l’intersection de la sous-famille ﬁni Qα∗ , Qx1 , ..., QxN est
vide, qui est une contradiction
52 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

2.3 Exercices
Exercice 2.1 Lesquels parmi les ensembles ci-dessous sont convexes :

– {x ∈ Rn | ni=1 x2i = 1}

– {x ∈ Rn | ni=1 x2i ≤ 1}

– {x ∈ Rn | ni=1 x2i ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi ≤ 1}
– {x ∈ Rn | maxi=1,...,n xi ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi = 1
– {x ∈ Rn | mini=1,...,n xi ≤ 1}
– {x ∈ Rn | mini=1,...,n xi ≥ 1}
– {x ∈ Rn | mini=1,...,n xi = 1}

Faites selon votre choix au moins 3 parmi 5 exercices suivants 2.2 - 2.6 :

Exercice 2.2 Prouvez la Proposition 2.1.4.

Exercice 2.3 Prouvez le résultat contenu dans l’Exemple 2.1.5.

Exercice 2.4 Prouvez la Proposition 2.1.5.

Exercice 2.5 Prouvez la partie (i) du Théorème 2.1.1.

Exercice 2.6 Prouvez le Corollaire 2.1.2.

Exercice 2.7 Δ 4) Prouvez le résultat suivant(Théorème de Kirchberger) :

Supposons que X = {x1 , ..., xk } et Y = {y1 , ..., ym } sont des ensembles ﬁnis dans Rn , avec
k + m ≥ n + 2, et que tous les points x1 , ..., xk , y1 , ..., ym sont distincts. Supposons aussi que
quelque soit le sous-ensemble S ⊂ X ∪ Y compris de n + 2 points, les enveloppes convexes des
ensembles X ∩ S et Y ∩ S ont l’intersection vide. Alors les enveloppes convexes de X et de Y
ont aussi l’intersection vide.
Indication : supposez, au contraire, que les enveloppes convexes de X et de Y intersectent, de
sorte que

k
m
λi xi = μj y j
i=1 j=1

pour certains λi , i λi = 1, et certains μj , j μj = 1, non négatives. Maintenant, regardez
l’expression de ce type avec le plus petit possible nombre de coeﬃcients non nuls λi , μj .

Exercice 2.8 Δ Montrez le théorème suivant (de Grunbaum) sur la partition de masse :
Soit x1 , ..., xN des points de Rn , et chaque point xi est assigné une masse non négative μi , la
somme des masses de tous les points étant égaux à 1. Alors il existe un point x∗ tel que n’importe
quel hyperplan {x | aT x = aT x∗ }, a = 0, passant par le point x∗ coupe l’espace Rn en deux
4. ) les exercices marqués Δ sont d’une nature toute particulière. Trois de ces exercices suﬃsent pour obtenir
une excellente note à l’examen théorique
2.3. EXERCICES 53

demi-espaces fermés de la masse au moins 1

n+1 chacun, c.-à-d. que pour n’importe quel a = 0
on a
1
μi ≥
n+1
i| aT xi ≤aT x∗

et
1
μi ≥ .
n+1
i| aT xi ≥aT x∗

Indication : considérez la famille de tous les demi-espaces fermés de μ-measure > n/(n + 1).
Montrez que la famille satisfait les hypothèses du Théorème de Helley et vériﬁez que n’importe
quel point qui appartient à l’intersection des ensembles de la famille satisfait la conclusion du
théorème de Grunbaum.
54 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
Chapitre 3

Théorème de séparation Théorie

d’inégalités linéaires

Dans ce chapitre nous allons répondre à la question suivante : supposons que nous avons
deux ensembles convexes dans Rn , quand pouvons-nous les séparer par un hyperplan, c.-à-d.
trouver une forme linéaire non nulle qui en tout point d’un des ensembles est supérieur ou
égal à sa valeur en n’importe quel point de l’autre ensemble ? Nous verrons que la réponse à
cette question forme, dans un sens, le coeur de l’analyse convexe ; elle est à la base de tous nos
développements ultérieurs.

3.1 Théorème de séparation

Un hyperplan M dans Rn (un ensemble aﬃne de dimension n − 1), comme nous le savons
de la Section 1.4.2, est un ensemble de niveau d’une forme linéaire non triviale :

∃a ∈ Rn , b ∈ R, a = 0 : M = {x ∈ Rn | aT x = b}.

Nous pouvons, par conséquent, associer à l’hyperplan (ou à la forme linéaire associée a, qui est
définie uniquement, à la multiplication par un réel non nul près) les ensembles suivants :
– les demi-espaces ouverts ”haut” et ”bas” M ++ = {x ∈ Rn | aT x > b}, M −− = {x ∈ Rn |
aT x < b} ;
ces ensembles sont convexes, et puisqu’une forme linéaire est continue, et ces ensembles
sont donnés par des inégalités strictes sur la valeur d’une fonction continue, ils sont en
effet ouverts.
Notez que puisque a est uniquement défini par M , à la multiplication par un réel non nul
près, ces demi-espaces ouverts sont uniquement défini par l’hyperplan, à la permutation
du ”haut” et du ”bas” près (qu’un demi-espace est le ”haut”, dépend du choix particulier
de a) ;
– les demi-espaces ”haut” et ”bas” fermés M + = {x ∈ Rn | aT x ≥ b}, M − = {x ∈ Rn |
aT x ≤ b} ;
Ceux-ci sont également les ensembles convexes, fermés (puisqu’ils sont donnés par des
inégalités non-strictes sur la valeur d’une fonction continue). On le voit facilement que
le demi-espace supérieur ou inférieur fermé est la fermeture du demi-espace ouvert cor-
respondant, et M lui-même est la frontière (c.-à-d. le complément de l’intérieur dans la
fermeture) de chacun des quatre demi-espaces.

55
56 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Il est evident que nos demi-espaces et M lui-même donnent une partition de Rn :

Rn = M −− ∪ M ∪ M ++
(partition par des ensembles disjoints),
Rn = M − ∪ M +
(M est une intersection des ensembles à droite).
Maintenant nous définissons la notion de base de séparation propre de deux ensembles
convexes T et S par un hyperplan.
Définition 3.1.1 [Séparation propre] On dit qu’un hyperplan
M = {x ∈ Rn | aT x = b} [a = 0]
sépare proprement deux ensembles convexes (non vides) S et T , si
(i) les ensembles appartiennent aux demi-espaces fermés opposés définis par M ,
et
(ii) au moins un des ensembles n’est pas contenu dans M .
Nous disons que S et T peuvent être proprement séparés, s’il existe un hyperplan qui sépare
proprement S et T , c.-à-d. si il existe a ∈ Rn tel que
sup aT x ≤ inf aT y
x∈S y∈T

et
inf aT x < sup aT y.
x∈S y∈T

Par exemple,
– l’hyperplane donné par aT x ≡ x2 − x1 = 1 dans R2 sépare proprement les ensembles
convexes polyhedraux T = {x ∈ R2 | 0 ≤ x1 ≤ 1, 3 ≤ x2 ≤ 5} et S = {x ∈ R2 | x2 =
0; x1 ≥ −1} ;
– l’hyperplane aT x ≡ x = 1 dans R1 sépare proprement les ensembles convexes S = {x ≤ 1}
et T = {x ≥ 1} ;
– l’hyperplane aT x ≡ x1 = 0 in R2 sépare proprement les ensembles S = {x ∈ R2 | x1 <
0, x2 ≥ −1/x1 } et T = {x ∈ R2 | x1 > 0, x2 > 1/x1 } ;
– l’hyperplane aT x ≡ x2 − x1 = 1 does not sépare proprement les ensembles convexes
S = {x ∈ R2 | x2 ≥ 1} et T = {x ∈ R2 | x2 = 0} ;
– l’hyperplane aT x ≡ x2 = 0 in R2 sépare les ensembles S = {x ∈ R2 | x2 = 0, x1 ≤ −1} et
T = {x ∈ R2 | x2 = 0, x1 ≥ 1}, mais ne les sépare pas proprement.
Notez que la partie de la déﬁnition 3.1.1 commençant par ”c.-à-d.” contient un certain
résultat (notamment, que la description verbale de la séparation est identique à la description
”analytique” indiquée). Je n’ai aucun doute que vous comprenez que ces deux descriptions
sont équivalentes.
Parfois nous sommes intéressés également par une notion plus forte de séparation :
Déﬁnition 3.1.2 [Séparation forte] Nous disons que deux ensembles non vides S et T dans Rn
peuvent être séparés fortement, si il existent deux hyperplans parallèles distincts qui séparent S
et T , c.-à-d. s’il existe a ∈ Rn tel que
sup aT x < inf aT y.
x∈S y∈T
3.1. THEOREME DE SEPARATION 57

Il est évident que le

Séparation forte → séparation propre

Nous pouvons immédiatement produire des exemples d’ensembles qui peuvent être séparés
proprement sans pouvoir être séparés fortement, par exemple, les ensembles {x ∈ R2 | x1 >
0, x2 ≥ 1/x1 } and {x ∈ R2 | x1 < 0, x2 ≥ −1/x1 }.
On arrive maintenant à la question :
quand une paire d’ensembles convexes non vides S et T dans Rn peut être séparée [propre-
ment ou fortement] ?
La question plus importante est celle sur la possibilité de séparation propre. La réponse est
suivante :

Théorème 3.1.1 [Théorème de séparation] Deux ensembles convexes non vides S et T dans
Rn peuvent être séparé proprement si et seulement si leurs intérieurs relatifs sont disjoints :

ri S ∩ ri T = ∅.

Nous allons maintenant démontrer ce théorème fondamental.

3.1.1 Nécessité
La nécessité de la propriété indiquée (la partie ”seulement si” du théorème) est plus ou moins
évidente. En eﬀet, supposez que les ensembles sont proprement séparables, de sorte que pour un
certain a ∈ Rn non nul

sup aT x ≤ inf aT y; inf aT x < sup aT y. (3.1)

x∈S y∈T x∈S y∈T

Nous devrions mener à une contradiction l’hypothèse que ri S et ri T ont un certain point commun
x̄. Supposons que c’est le cas ; alors de la première inégalité dans (3.1) il est évident que x̄
maximise la fonction linéaire f (x) = aT x sur S et donne simultanément le minimum cette
fonction sur T . Maintenant, nous avons le simple résultat suivant :
Lemme 3.1.1 La fonction linéaire f (x) = aT x peut atteindre son maximum ou
minimum sur un ensemble convexe Q dans un point x ∈ ri Q si et seulement si la
fonction est constante sur Q.
Preuve : la partie ”si” est évidente. Pour prouver la partie ”seulement si”,
supposons que x̄ ∈ ri Q est le minimiseur de f (x) sur Q et y est un point arbitraire
de Q ; nous devrions montrer que f (x̄) = f (y). Il n’y a rien à prouver si y = x̄, ainsi
nous pouvons supposer que y = x̄. Comme x̄ ∈ ri Q le segment [y, x̄], qui est contenu
dans Q, peut être prolongé un peu par le point x̄, sans quitter Q, de sorte qu’il existe
z ∈ Q tel que x̄ ∈ [y, z), c.-à-d. x̄ = (1 − λ)z + λy avec un certain λ ∈ (0, 1]. Comme
y = x̄, nous avons en fait λ ∈ (0, 1). Et puisque f est linéaire, nous avons

f (x̄) = (1 − λ)f (z) + λf (y).

Comme f (x̄) ≤ min{f (y), f (z)} et 0 < λ < 1, cette relation peut être satisfaite
seulement si f (x̄) = f (y) = f (z).
58 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Revenant à nos considérations liées à (3.1), nous concluons du Lemme que sous notre hy-
pothèse (∃x̄ ∈ ri S ∩ ri T , c.-à-d. quand f (x) = aT x atteint son maximum sur S et son minimum
T en x̄) f est constante (et égale à aT x̄) sur les deux ensembles S et T ; mais ceci contredit la
deuxième inégalité dans (3.1).
Ainsi, nous avons montré que la condition ri S ∩ ri T = ∅ est nécessaire pour la séparation
propre de S et T .

3.1.2 Suﬃsance
La preuve de la partie suﬃsance du théorème de séparation est beaucoup plus instructif. Il
y a plusieurs manières de la prouver, et nous allons suivre le chemin qui passe par Lemme de
Farkas.

Lemme de Farkas Homogène

Soit a1 , ..., aN et a des vecteurs de Rn . On s’intéresse à la question : quand a appartient-il au
cône engendré par les vecteurs a1 , ..., an . Autrement dit, quand est-ce que a peut être représenté
comme une combinaison linéaire ai avec des coeﬃcients non négatifs ? Une condition nécessaire
pour ceci est évidente : si

n
a= λi ai [λi ≥ 0, i = 1, ..., N ]
i=1
alors tout vecteur h qui a des produits scalaires non négatifs avec tous les ai doit aussi avoir le
produit scalaire non négatif avec a :

a= λi ai & λi ≥ 0 ∀i & hT ai ≥ 0 ∀i ⇒ hT a ≥ 0.
i

Le Lemme de Farkas Homogène dit que cette condition est aussi suﬃsante :

Lemme 3.1.2 [Lemme de Farkas Homogène] Soit a, a1 , ..., aN vecteurs de Rn . Le vecteur a est
une combinaison conique des vecteurs ai si et seulement si tout vecteur h qui satisfait hT ai ≥ 0,
i = 1, ..., N , satisfait aussi hT a ≥ 0.

Preuve : La nécessité – la partie “seulement si”– est évidente. Pour prouver la suﬃsance de la
condition du lemme supposons que chaque vecteur h satisfaisant hT ai ≥ 0 ∀i satisfait également
hT a ≥ 0, et montrons que a est une combinaison conique des vecteurs ai .
Il n’y a rien à montrer quand a = 0 – le vecteur zéro naturellement est une combinaison
conique des vecteurs ai . Ainsi, dorénavant nous supposons que a = 0.
10 . Soit
Π = {h | aT h = −1},
et soit
Ai = {h ∈ Π | aTi h ≥ 0}.
Π est un hyperplan dans Rn , et chaque Ai est un ensemble polyhedral contenu dans cet hyper-
plan.
20 . Nous savons que l’intersection de tous les ensembles Ai , i = 1, ..., n, est vide (puisqu’un
vecteur h de l’intersection aurait les produits intérieurs non négatifs avec tout le ai et le produit
intérieur −1 avec a, et on sait qu’un tel h n’existe pas). Choisissons la plus petite, en nombre
d’éléments, sous-famille de la famille A1 , ..., AN qui a toujours l’intersection vide de ses membres.
3.1. THEOREME DE SEPARATION 59

Sans perte de généralité nous pouvons supposer que c’est la famille A1 , ..., Ak . Ainsi, l’intersection
de tous les k ensembles A1 , ..., Ak est vide, mais l’intersection de n’importe quels ensembles de
k − 1 de la famille A1 , ..., Ak est non vide.
30 . J’affirme que
– A. a ∈ Lin({a1 , ..., ak }) ;
– B. Les vecteurs a1 , ..., ak sont linéairement indépendants.
A. est facile : en supposant que a ∈ E = Lin({a1 ..., ak }), nous obtenons que la
projection orthogonale f du vecteur a sur le complément orthogonal E ⊥ de E est non
nul. Le produit scalaire de f et de a est identique que f T f , c.-à-d. est positif, alors
que f T ai = 0, i = 1, ..., k. Si on pose h = −(f T f )−1 f , nous voyons que hT a = −1
et hT ai = 0, i = 1, ..., k. En d’autres termes, h appartient à chaque ensemble Ai ,
i = 1, ..., k, par la définition de ces ensembles, et donc l’intersection des ensembles
A1 , ..., Ak est non vide, qui est une contradiction.
La preuve de B. est donné par le Théorème de Helley I. En effet, supposons
que a1 , ..., ak sont linéairement dépendants, et menons cette supposition à une
contradiction. Comme a1 , ..., ak sont linéairement dépendants, la dimension m de
E = Lin({a1 , ..., ak }) est pour sûr < k. Nous savons déjà du A. que a ∈ E. Soit
maintenant Ai = Ai ∩ E. J’affirme que toutes les familles de k − 1 des ensembles Ai
ont une intersection non vide, alors que tous ces k ensembles ont l’intersection vide.
La deuxième affirmation est évidente – puisque A1 , ..., Ak ont l’intersection vide, le
même est le cas avec leurs parties Ai . La première affirmation est également facile-
ment verifiable : prenons par exemple k − 1 des ensembles “à trait” A1 , ..., Ak−1 . Par
la construction, l’intersection de A1 , ..., Ak−1 est non vide ; soit h un vecteur de cette
intersection, c.-à-d. un vecteur avec les produits scalaires non négatifs avec a1 , ..., ak−1
et le produit −1 avec a. En remplaçant h avec sa projection orthogonale h sur E, nous
ne changeons pas tous ces produits intérieurs, puisque ce sont des produits avec des
vecteurs de E ; ainsi, h est également un point commun de A1 , ..., Ak−1 , et puisque
c’est un point de E, c’est aussi bien un point commun des ensembles A1 , ..., Ak−1 .
Maintenant nous pouvons accomplir la preuve du B. : les ensembles A1 , ..., Ak sont
les ensembles convexes appartenant à l’hyperplan Π = Π∩ E = {h ∈ E | aT h = −1}
(Π est en effet un hyperplan dans E car 0 = a ∈ E) dans le sous-espace linéaire m-
dimensionnel E. Π est un ensemble affine de dimension l = dim E−1 = m−1 < k−1
(dans notre cas m = dim E < k), et tous l + 1 ≤ k − 1 des sous-ensembles convexes
A1 ,...,Ak de Π ont une intersection non vide. Du Théorème de Helley I (qui naturel-
lement est valide pour les sous-ensembles convexes d’un ensemble affine, la dimension
affine de l’ensemble jouant le rôle de n dans la formulation originale) il découle que
tous les ensembles A1 , ..., Ak ont un point commun, ce qui, comme nous le savons,
n’est pas le cas. Ainsi, par contradiction, on obtient que a1 , ..., ak sont linéairement
indépendant.
40 . Le A. et le B. étant dans notre disposition, nous pouvons facilement finir la preuve de la
partie“si” du lemme de Farkas comme suit : par A. nous avons

k
a= λi ai
i=1

avec des coeﬃcients réels λi , et tous ce que nous avons à montrer est que ces coeﬃcients ne
sont pas négatifs. Supposons, au contraire, que, par exemple λ1 < 0. Augmentons le système
60 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

(linéairement indépendant par B.) des vecteurs a1 , ..., ak par les vecteurs f1 , ..., fn−k à une base
dans Rn (ce qui est possible par Théorème 1.2.1). Soit maintenant ξi (x) soit les coordonnées
d’un vecteur x dans cette base (ξ1 correspond à a1 ). La fonction ξ1 (x) est une forme linéaire de
x et donc, selon la Section 1.1.2, est le produit intérieur avec un certain vecteur :

ξ1 (x) = f T x ∀x.

Nous avons
f T a = ξ1 (a) = λ1 < 0
et
1, i = 1,
f T ai =
0, i = 2, ..., k,
ainsi f T ai ≥ 0, i = 1, ..., k. On en déduit par la normalisation appropriée de f que le vecteur
|λ1 |−1 f , appartient aux A1 , ..., Ak , ce qui est la contradiction désirée – par la construction, cette
intersection est vide.

Remarque 3.1.1 Une conséquence immédiate du Lemme de Farkas Homogène est que l’enve-
loppe conique

N
Cone ({a1 , ..., aN }) = {a = λi ai | λi ≥ 0, i = 1, ..., N }
i=1

d’un ensemble ﬁni non vide est l’ensemble de toutes les solutions d’un certain système d’inégalités
linéaires homogènes non strictes, notamment,

{hT a ≥ 0 ∀(h : hT ai ≥ 0, i = 1, ..., N )}.

Ainsi, l’enveloppe conique d’un ensemble ﬁni de vecteurs est convexe et fermé.

Du Lemme de Farkas au Théorème de séparation

Maintenant nous sommes enﬁn équipés pour prouver la partie suﬃsance du Théorème de
Séparation.

Étape 1. Séparation d’un polytope convexe et d’un point extérieur au polytope.

Commençons par le cas apparemment très particulier du théorème, où un des ensembles est un
polytope – l’enveloppe convexe de l’ensemble fini de points x1 , ..., xN – et l’autre est un singleton
T = {x}. Nous devrions montrer que si x ∈ S = Conv({x1 ..., xN }), il existe alors une forme
linéaire qui sépare proprement x et S. En fait, nous prouverons même l’existence de la séparation
forte.
x xi
Associons aux vecteurs n-dimensionnels x1 , ..., xN , x les vecteurs a = et ai =
1 1
(n + 1)-dimensionnels, i = 1, ..., n. J’affirme que a n’appartient pas à l’enveloppe conique de
a1 , ..., an . En effet, si a serait représentable comme une combinaison linéaire de a1 , ..., aN avec
des coefficients non négatifs, alors, en regardant la (n + 1)-ème coordonnée dans une telle
représentation, on déduirait que la somme des coefficients devrait être 1, de sorte que cette
représentation, en réalité, est une combinaison convexe de x1 , ..., xn avec la valeur x, ce qu’on a
supposé impossible.
3.1. THEOREME DE SEPARATION 61

Comme a n’appartient pas à l’enveloppe

conique de a1 , ..., aN , par le Lemme de Farkas
f
Homogène, il existe un vecteur h = ∈Rn+1 qui “sépare” a et a1 , ..., aN , c.-à-d. que
α

hT a > 0, hT ai ≤ 0, i = 1, ..., N.

Ainsi, bien sûr,

hT a > max hT ai .
i

Puisque les composants dans tous les produits scalaires hT a, hT ai qui proviennent des (n + 1)-
émes coordonnées sont égaux entre eux, nous en concluons que le composant n-dimensionnel f
de h sépare x et x1 , ..., xN :

[hT a − α =] f T x > max f T xi [= max hT ai − α].

i i

Comme pour toute combinaison convexe y = i λi xi des points xi on a f T y ≤ maxi f T xi , on
conclut, ﬁnalement, que
fTx > max f T y,
y∈Conv({x1 ,...,xN })

et f sépare fortement T = {x} et S = Conv({x1 , ..., xN }).

Remarque 3.1.2 Un sous-produit de notre raisonnement est qu’un polytope – l’enveloppe

convexe
Conv({v1 , ..., vN })
d’un ensemble non vide ﬁni de vecteurs – est l’ensemble de solutions d’un système d’inégalités
linéaires non strictes, notamment, du système

{f T x ≤ max f T vi ∀f }.
i=1,...,N

Il en suit que un polytope est non seulement convexe, mais également fermé.

Étape 2 Séparation d’un ensemble convexe et d’un point extérieur. Soit maintenant
S un ensemble non vide convexe arbitraire et T = {x} est un singleton extérieur à S (à la
diﬀérence avec l’Étape 1 est que maintenant on ne suppose pas que S soit un polytope).
Tout d’abord, sans perte de généralité nous pouvons supposer que S contient 0 (si ce n’est
pas le cas, nous pouvons soumettre S et T à la translation S → S − a, T → T − a avec a ∈ S).
Soit L l’enveloppe linéaire de S. Si x ∈ L, la séparation est facile : en prenant comme f la
composante de x orthogonale à L, nous obtenons

f T x = f T f > 0 = max f T y,
y∈S

et f sépare fortement S et T = {x}.

Il nous reste le cas x ∈ L. Comme S ⊂ L, x ∈ L et x ∈ S, L est un sous-espace linéaire
diﬀèrent de 0. Soit Σ = {h ∈ L | |h| = 1} la sphère unité dans L. C’est un ensemble fermé et
borné dans Rn (la fermeture vient du fait que | · | est continu et L est fermé, cf. la section 1.4.1).
En conséquence, Σ est un ensemble compact (Proposition 1.1.1). Montrons qu’il existe f ∈ Σ
qui sépare x et S dans le sens que
f T x ≥ sup f T y. (3.2)
y∈S
62 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Supposons, au contraire, qu’un tel f n’existe pas. Sous notre hypothèse pour chaque h ∈ Σ il
existe yh ∈ S tel que
hT yh > hT x.
Puisque l’inégalité est stricte, il existe un voisinage Uh du vecteur h tels que

(h )T yh > (h )T x ∀h ∈ Uh . (3.3)

La famille d’ensembles ouverts {uh }h∈Σ que nous obtenons est une couverture de Σ ; puisque
Σ est compact, nous pouvons en extraire une couverture ﬁnie Uh1 , ..., UhN de Σ. Soit y1 =
yh1 , y2 = yh2 , ..., yN = yhN les points correspondants et soit le polytope S = Conv({y1 , ..., yN })
est engendré par ces points. En raison de l’origine de yi , ils sont tous des points de S ; puisque S
est convexe, le polytope S est contenu dans S et, par conséquent, ne contient pas x. Par Étape
1, x peut être fortement séparé de S : il existe a tels que

aT x > sup aT y. (3.4)

y∈S

Comme x et S ⊂ S appartiennent à L, nous pouvons supposer que a ∈ L (il suﬃt de remplacer a

avec sa projection orthogonale sur L, ce qui ne change pas les deux côtés de (3.4)). En normalisant
a, nous pouvons également avoir |a| = 1, de sorte que a ∈ Σ. Maintenant nous obtenons une
contradiction : comme a ∈ Σ et Uh1 , ..., UhN forment une couverture de Σ, a appartient à un
certain Uhi . Or, par la construction de Uhi (regardez (3.3) nous avons

aT yi ≡ aT yhi > aT x,

ce qui contredit (3.4) car yi ∈ S .

La contradiction que nous obtenons montre que il existe f ∈ Σ qui satisfait (3.2). Montrons
qu’en fait f sépare proprement S et {x} : étant donné (3.2), tout ce que nous avons à montrer est
que la forme linéaire f (z) = f T z n’est pas constante sur S. C’est évident : par notre hypothèse
initiale, 0 ∈ S, de sorte que si f (z) étaient constants sur S, f soit orthogonal à n’importe
quel vecteur de S et par conséquent à L = Lin(S), ce qui est impossible, puisque, encore par
construction, f ∈ L and |f | = 1.
Un lecteur curieux pourrait remarquer qu’avec le raisonnement de l’Étape 2 nous sommes
entrés dans un monde complètement nouveau. En effet, toutes nos considérations à partir du
début de ce chapitre jusqu’au l’Étape 2 ont été ceux d’algèbre rationnelle – nous n’avons ja-
mais employé des notions comme la convergence, la compacité, etc., en employant seulement
l’arithmétique rationnelle (pas de racines carrées, etc.). Ceci signifie que tous les résultats
de la présente partie, y compris le Lemme de Farkas Homogène et ceux de l’Étape 1, de-
meurent valides si nous remplaçons, par exemple, notre univers Rn avec l’espace Qn des
vecteurs rationnels de dimension n (ceux avec des coordonnées rationnelles ; naturellement,
la multiplication devrait être limitée à la multiplication par des nombres rationnels dans cet
espace). La version “rationnelle” du Lemme de Farkas ou du théorème sur la séparation d’un
vecteur rationnel d’un polytope “rationnel” par une forme linéaire rationnelle sont certai-
nement d’intérêt (par exemple, en Programmation en Nombres Entiers). Contrairement à
ces “considérations d’algèbre rationnelle”, dans l’étape 2 nous avons employé la compacité
– quelque chose exploitant fortement le fait que notre univers est Rn et pas, par exemple,
Qn (dans le dernier espace les ensembles bornés et fermés ne sont pas nécessairement com-
pacts). Notez également que nous ne pourrions pas éviter des “choses” comme cet argument
de compacité à l’Étape 2, puisque le résultat même que nous prouvons est vrai dans Rn mais
il est faut, par exemple, dans Qn . En effet, considérez “le plan rationnel” – l’univers de tous
3.1. THEOREME DE SEPARATION 63

les vecteurs à deux dimensions avec les coordonnées rationnelles, soit S le demi-plan dans ce
plan rationnel donné par l’inégalité linéaire

x1 + αx2 ≤ 0,

avec α irrationnel. Bien sûr, S est “convexe” en Q2 ; mais on peut le voir immédiatement
qu’un point extérieur à cet ensemble ne peut pas être séparé de S par une forme linéaire
rationnelle.

Étape 3. Séparation de deux ensembles convexes non vides disjoints Maintenant

nous sommes en mesure de montrer que deux ensembles non vides et convexes d’intersection
vide S et T peuvent être proprement séparés. À cet eﬀet considérons la diﬀérence arithmétique

Δ = S − T = {x − y | x ∈ S, y ∈ T }.

Nous savons de la Proposition 2.1.5 que Δ est un ensemble convexe (et, naturellement, non
vide) ; comme S ∩ T = ∅, Δ ne contient pas 0. Par Étape 2, nous pouvons proprement séparer
Δ et {0} : il existe h tels que

f T 0 = 0 ≥ sup f T z & f T 0 > inf f T z.

z∈Δ z∈Δ

Autrement dit,
0≥ sup [f T x − f T y] & 0 > inf [f T x − f T y],
x∈S,y∈T x∈S,y∈T

ce qui signiﬁe que f sépare proprement S et T .

Étape 4. Séparation d’ensembles convexes non vides avec les intérieurs relatifs dis-
joints. Soit S et T deux ensembles convexes non vides avec les intérieurs relatifs dont l’in-
tersection est vide. Nous devrions montrer que S et T peuvent être proprement séparés. C’est
immédiat : comme nous savons du Théorème 2.1.1, les ensembles S = ri S et T = ri T sont non
vides et convexes ; puisque nous sommes donnés que leur intersection est vide, ils peuvent être
proprement séparés par Étape 3 : il existe f tels que

inf f T x ≥ sup f T x & sup f T x > inf f T x. (3.5)

x∈T y∈S x∈T y∈S

On peut voir facilement que f sépare proprement S et T . En eﬀet, les quantités sur les côtés
gauches et droits de la première inégalité de (3.5) ne changent pas si nous remplaçons S avec
cl S et T avec cl T ; par Théorème 2.1.1, cl S = cl S ⊃ S and cl T = cl T ⊃ T , et nous
obtenons inf x∈T f T x = inf x∈T f T x, et, de la même façon, supy∈S f T y = supy∈S f T y. Ainsi,
nous obtenons de (3.5)
inf f T x ≥ sup f T y.
x∈T y∈S

Il suﬃt de remarquer que T ⊂ T , S ⊂ S, et la seconde inégalité dans (3.5) implique

sup f T x > inf f T x.

x∈T y∈S
64 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

3.1.3 Séparation forte

Nous savons du Théorème de Séparation ce qui sont les conditions nécessaires et suﬃ-
santes simples pour la séparation propre de deux ensembles convexes - leurs intérieurs relatifs
devraient être disjoints. Il y a également une condition nécessaire et suﬃsante simple pour
que deux ensembles soient fortement séparables :
∗
Proposition 3.1.1 Deux ensembles convexe non vides S et T dans Rn peuvent être
séparés fortement si et seulement si la “distance entre ces ensembles est positive” :

ρ(S, T ) = inf |x − y| > 0.

x∈S,y∈T

Ceci est, en particulier, le cas quand un des ensembles est compact, l’autres est fermé et les
ensembles sont disjoints.
∗
Preuve . La nécessité est évidente : si S et T peuvent être séparés proprement, c.-à-d. que
pour un certain a on a
α ≡ sup aT x < β ≡ inf aT y,
x∈S y∈T

alors pour toute paire (x, y) avec x ∈ S et y ∈ T on a

β−α
|x − y| ≥
|a|

(autrement on aurait par l’inégalité de Cauchy (1.2)

aT y − aT x = aT (y − x) ≤ |a||y − x| < β − α,

qui est impossible).

Pour prouver la suﬃsance, considérons l’ensemble Δ = S − T . C’est un ensemble convexe
qui ne contient pas de vecteurs de longueur plus petite que ρ(S, T ) > 0 ; par conséquent, il
n’intersecte pas la boule B d’un certain rayon positif r centré à l’origine. En conséquence,
par le Théorème de Séparation Δ peut être séparé proprement de B : il existe a tel que

inf aT z ≥ sup aT (x − y) & sup aT z > inf aT (x − y). (3.6)

z∈B x∈S,y∈T z∈B x∈S,y∈T

Du seconde inégalité nous obtenons que a = 0 ; ainsi inf z∈B aT z < 0, et la première inégalité
dans (3.6) dit que a sépare fortement S et T .
La partie “en particulier” de l’énoncé de la proposition est un simple exercice d’analyse :
deux sous-ensembles de Rn fermés disjoints non vides dont un est compact sont à une distance
positive l’un de l’autre.

3.2 Théorie de systèmes ﬁnis d’inégalités linéaires

Le théorème de séparation et l’outil principal que nous avons développé en le prouvant –
le Lemme de Farkas homogène sont des résultats les plus utiles et les plus utilisés de l’analyse
convexe. En ce moment nous emploierons le Lemme de Farkas pour obtenir un des résultats les
plus importants de la théorie de systèmes (ﬁnis) d’inégalités linéaires – le Théorème Général sur
l’Alternative.
Un système ﬁni d’inégalités linéaires peut être écrit comme

Sx < p
(I)
Nx ≤ q
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 65

où x ∈ Rn est le vecteur d’inconnus, S (”stricte”) and N (”non-stricte”) sont des matrices fixes
de n colonnes et de certains nombres de lignes, et p, q sont les vecteurs fixes des dimensions
appropriées. Notez que nous pouvons aussi considerer dans ce cadre les égalités linéaires, en
représentant chaque égalité par une paire d’inégalités opposées non strictes.
La question principale liée au système (I) est si le système est soluble. Si nous savons répondre
à une telle question, nous savons également répondre à beaucoup d’autres questions, par exemple,
<
– si une inégalité linéaire donnée aT x ≤ b est une conséquence de (I), c.-à-d. est satisfait
=
par toutes les solutions du système (I)
(une inégalité est une conséquence de (I) si et seulement si le système (I) augmenté par la
négation de cette inégalité n’a aucune solution) ;
– si un point donné x̄ qui satisfait (I) minimise la forme linéaire donnée aT x sur l’ensemble
de solutions de (I)
(en effet, répondre à cette question est la même chose que dire si le système (I) augmenté
d’inégalité aT x < aT x̄ n’a aucune solution) ;
etc.
Il est clair comment certifier que (I) a une solution – nous devrions simplement la montrer.
Ce qui est bien moins clair, est comment certifier que (I) n’a aucune solution 1 . Heureusement,
dans notre problème il existe la condition suffisante pour (I) à être insoluble :
(*) si vous pouvez dériver à partir des relations du système une inégalité évidemment fausse,
alors (I) est clairement insoluble.
(*) est une remarque “philosophique”, pas un vrai résultat. Essayons de donner à cette
remarque un sens mathématique : la manière la plus simple de dériver de (I) une inégalité-
conséquence est de combiner les inequalities/equations du système d’une façon linéaire, c.-à-d.
– multiplier les inégalités strictes par des réels non négatifs et ajouter les inégalités
résultantes, ce qui nous amène à l’inégalité

σ T Sx ≤ σ T p;

ici σ ≥ 0 est le vecteur de nos réels non négatifs. Notez que si σ = 0, nous avons droit de
remplacer dans l’inégalité résultante ≤ avec < ;
– de la même façon, nous pouvons multiplier les inégalités non strictes par des réels non
négatifs et ajouter les inégalités résultantes, obtenant l’inégalité

ν T N x ≤ ν T q;

ici ν ≥ 0 est le vecteur correspondant des réels non négatifs ;

– faire la somme des inégalités obtenues, en arrivant à l’inégalité

(σ T S + ν T N )x ? σ T p + ν T q, (3.7)

où ? doit être remplacé par ≤ dans le cas σ = 0 et par < dans le cas σ = 0.
1. c’est un phénomène bien connu de la vie quotidienne : il est facile de certiﬁer que vous avez fait quelque
chose, par exemple, avez appris le Russe : vous pouvez simplement parler en Russe. Mais comment pourriez-vous
certiﬁer que vous n’avez pas fait quelque chose, par exemple, jamais étudié le Russe ? Un des avantages principaux
du système judiciaire dans “des bons pays démocratiques”, est que ce n’est pas à vous de montrer que vous n’êtes
pas coupable de quelque chose, c’est les autres qui devraient montrer que vous l’êtes
66 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Nous pouvons faire l’observation suivante

(**) si l’inégalité obtenue (3.7) n’a aucune solution, alors le système (I) n’a également aucune
solution.
Le fait que notre observation est juste est complètement évident de l’origine de (3.7) : par
la construction, toute solution à (I) doit satisfaire (3.7).
Maintenant, quand est-ce que l’inégalité linéaire (3.7) n’a aucune solution ? Ceci est le cas
seulement si son côté gauche est 0 et ne dépend pas de la valeur de x, autrement l’inégalité serait
soluble, indépendamment de la valeur du côté droit. Ainsi, nous devrions avoir [σ T S +ν T N ]x = 0
pour tout x, ou, ce qui est identique,

S T σ + N T ν = 0.

Nos autres conclusions dépendent de la valeur de σ : si σ = 0, alors le signe dans l’inégalité est
≤, et il n’a aucune solution si le côté droit est strictement négatif ; dans le cas σ = 0 le signe
dans l’inégalité est <, et il n’a aucune solution si son côté droit est nonpositive. Ainsi, nous
avons établi le principe suivant :
Pour certiﬁer que (I) n’a pas de solution il suﬃt de montrer la condition suivante :
( !) : Ils existent des vecteurs
σ ≥ 0, ν ≥ 0
de dimensions égales au nombre des lignes dans S et N respectivement, tels que

S T σ + N T ν = 0,

et, de plus,
0 : σT p + ν T q ≤ 0 ;
– dans le cas σ =
– dans le cas σ = 0 : ν T q < 0.
Le fait crucial pour la théorie d’inégalités linéaires est que la condition ( !) est non seulement
suﬃsante, comme nous le venons d’observer, mais également nécessaire pour que (I) soit une
contradiction :

Théorème 3.2.1 [Théorème Général sur l’Alternative ] ( !) est nécessaire et suﬃsant pour que
(I) n’ait aucune solution.

Nous prouverons la partie “nécessité” de ce théorème (la partie de “suffisance” est déjà prouvée)
à la fin de cette section. Pour le moment je voudrais faire quelques remarques.
– L’avantage principal du Théorème 3.2.1 est qu’il reformule un certain résultat négatif –
“(I) n’a aucune solution” – comme un résultat positif : existence de certains vecteurs σ
et ν satisfaisant un certain nombre de relations explicites et vérifiables. C’est pourquoi ce
théorème est la clef des nombreux résultats utiles, par exemple, du Théorème de Dualité
pour la Programmation Linéaire.
– Il y a beaucoup de corollaires, ou, plutôt, cas particuliers du Théorème 3.2.1 (nous
énumérerons certains de ces corollaires ci-dessous). Tous ces cas sont obtenues en spécifiant
explicitement la condition ( !) pour la forme particulière des données de (I). Je ne pense
pas que vous devriez apprendre “par coeur” toutes les formes particulières du théorème ; il
est beaucoup plus facile de se rappeler quelle est la signification réelle du théorème – “un
système des inégalités linéaires n’a aucune solution si et seulement si en combinant d’une
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 67

façon linéaire les inégalités du système un peut obtenir une inégalité contradictoire” – et
regarder (c’est toujours tout à fait claire) ce qui ce ”reçu” signiﬁe dans le cas particulier
dans le ca en question.
– La partie la plus importante, celle de la nécessité, du Théorème 3.2.1 est liée fortement au
fait que le système (I) en question est composé d’inégalités linéaires. Malheureusement,
sa généralisation naturelle au cas des inégalités plus générales, par exemple, les inégalités
quadratiques, n’est pas juste. Par exemple, le système d’inégalités quadratiques

x2 ≤ 1; y 2 ≤ 1; −(x + y)2 ≤ −5

avec deux inconnus x et y n’a aucune solution ; mais il n’y a pas de combinaison linéaire
de ces inégalités avec des coeﬃcients non négatifs qui est “clairement contradictoire”, c.-
à-d. est de la forme 0 ≤ −1. C’est réellement un désastre – en fait c’est la raison de
l’existence des problèmes combinatoires compliqués pour lesquels aucun algorithme de
solution “eﬃcace” n’est connu.
Nous allons maintenant formuler quelques cas particuliers du Théorème 3.2.1 qui sont souvent
employés ; c’est un bon exercice de dériver ces corollaires du Théorème Général sur l’Alternative.
Le premier cas est

Théorème 3.2.2 [Théorème de Gordan sur l’Alternative] Un des systèmes d’inégalités

(I) Ax < 0, x ∈ Rn ,

(II) AT y = 0, 0 = y ≥ 0, y ∈ Rm ,
A étant une matrice m × n, a une solution si et seulement si l’autre n’a aucune solution.

Le deuxième cas particulier est le Lemme de Farkas Homogène qui nous est déjà connu. Sa
“nouvelle forme” (équivalente à l’original) est suivante :

Théorème 3.2.3 [Lemme de Farkas Homogène] L’inégalité linéaire homogène

aT x ≤ 0 (3.8)

est une conséquence d’un système d’inégalités linéaires homogènes

Nx ≤ 0 (3.9)

si et seulement si
a = AT ν
pour un certain vecteur ν non negatif.

Notez que l’implication ”Théorème 3.2.1⇒Lemme de Farkas Homogène” est sans intérêt réel –
nous n’avons toujours pas montrer la partie de nécessité du théorème ; en fait notre preuve sera
basée exactement sur le Lemme de Farkas homogène.
Le cas suivant est

Théorème 3.2.4 [Lemme de Farkas Non-homogène] Une inégalité linéaire

aT x ≤ p (3.10)
68 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

est une conséquence d’un système soluble d’inégalités linéaires

Nx ≤ q (3.11)

si est seulement si elle est une “consequence linéaire” du système et de l’inégalité triviale

0T x ≤ 1.

Autrement dit, si elle peut être obtenue en prenant la somme pondérée, avec des coeﬃcients non
négatifs, d’inégalités du système et de cette inégalité triviale.
La formulation algébrique de cet énonce : (3.10) est une conséquence du système soluble
(3.11) si et seulement si
a = NT ν
pour un vecteur ν non négatif tel que
ν T q ≤ p.

Le dernier exemple est

Théorème 3.2.5 [Théorème de Motzkin sur l’Alternative] Le système

Sx < 0, N x ≤ 0

n’a pas de solutions si et seulement si le système

S T σ + N T ν = 0, σ ≥ 0, ν ≥ 0, σ = 0

a une soultion.

3.2.1 Preuve de la partie ”nécessité” du Théorème sur l’Alternative

Nous dérivons le résultat du Lemme de Farkas Homogène. La situation est suivante :
nous savons que le système
Sx < p
(I)
Nx ≤ q
n’a pas de solutions, et nous avons à démontrer l’existence de σ et ν exigés par ( !).
À cet eﬀet nous allons étendre notre espace des variables x par trois variables, u, v et t.
On considère le système suivant d’inégalités non strictes homogènes :

Sx + ue − vp ≤ 0
N x − vq ≤ 0
(I ) ,
−u + t ≤ 0
−v + t ≤ 0

e étant le vecteur de uns e = (1, ..., 1) de dimension égale au nombre de lignes de S.

J’aﬃrme que (I ) implique l’inégalité homogène linéaire

(I ) t ≤ 0.

En eﬀet, s’il existait une solution (x, u, v, t) de (I ) avec t > 0, on obtiendrait des deux
dernières inégalités de (I ) u ≥ t > 0, v ≥ t > 0 ; alors les deux premières inégalités dedans
(I ) impliqueraient
x u x
S ≤ p − e < p, N ≤ q,
v v v
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 69

c.-à-d. (I) serait soluble, ce qui n’est pas le cas par hypothèse.
Ainsi, (I ) implique (I ). Par le Lemme de Farkas Homogène, ils existent des vecteurs
non négatifs σ, ν et des réels α, β non négatif tels que le vecteur des coeﬃcients
⎛ ⎞
0x
⎜ 0u ⎟
⎝ ⎠
0v
1t

dans la partie gauche de l’inégalité (I ) (l’indice marque ici la dimension du vecteur corres-
pondant) est égal à la matrice transposée du système (I) fois le vecteur
⎛ ⎞
σ
⎜ν ⎟
⎝ ⎠.
α
β

C.-à-d.,
⎛ ⎞⎛ ⎞ ⎛ ⎞
ST NT 0 0 σ 0x
⎜ eT 0 −1 0 ⎟ ⎜ ν ⎟ ⎜ 0u ⎟
⎝ T ⎠⎝ ⎠ = ⎝ ⎠.
−p −q T 0 −1 α 0v
0 0 1 1 β 1t
Autrement dit,

S T σ + N T ν = 0; eT σ = α; pT σ + q T ν = −β; α + β = 1. (3.12)

Montrons que σ et ν sont bien les vecteurs exigés par ( !), ceci accomplira la preuve. En eﬀet,
nous savons que σ, ν, (α et β) sont des vecteurs (respectivement, des réels) non négatifs par
construction ; et nous venons d’établir que S T σ + N T ν = 0.
Maintenant, si σ = 0, alors de la deuxième relation de (3.12) nous avons α = 0, d’où,
grâce à la quatrième relation, β = 1. Ainsi, de la troisième relation, q T ν = pT σ + q T ν < 0,
comme requis dans ( !). Si σ = 0, alors les conditions de ( !) sont donnés par la troisième
relation de (3.12).
70 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

3.3 Exercices
Exercice 3.1 Lesquelles des paires (S, T ) d’ensembles ci-dessous sont (a) proprement séparés
et (b) fortement séparés par la forme linéaire f (x) = x1 :

– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;

– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;

– S = {x ∈ Rn | ni=1 |xi | ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;
– S = {x ∈ Rn | maxi=1,...,n xi ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 ≥ x22 + ... + x2n } ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 = 1} ;
– S = {x ∈ Rn | x1 = 0, x22 + ... + x2n ≤ 1}, T = {x ∈ Rn | x1 = 0, x2 ≥ 100} ;
– S = {x ∈ R2 | x1 > 0, x2 ≥ 1/x1 }, T = {x ∈ R2 | x1 < 0, x2 ≥ −1/x1 }.

Faites au moins deux exercices de votre choix parmi les Exercices 3.2 - 3.4 :
Exercice 3.2 Dériver le Théorème de Gordan sur l’Alternative (Théorème 3.2.2) du Théorème
Général sur l’Alternative

Exercice 3.3 Dériver le Lemme de Farkas Non homogène (Theorem 3.2.4) du Théorème
Général sur l’Alternative

Exercice 3.4 Dériver Théorème de Motzkin sur l’Alternative (Theorem 3.2.5) du Théorème
Général sur l’Alternative

Exercice 3.5 Marquer parmi les systèmes suivants d’inégalités linéaires avec deux inconnus
ceux ont des solutions par “s”, ceux qui n’ont pas de solutions par “a” (pour les systèmes qui
sont solubles, précisez une solution ; pour les systèmes non soluble, expliquez pourquoi ils le
sont) ⎧
:
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
⎧ −5x + y ≥ −5
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
⎧ −5x + y ≥ −4
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
−5x + y ≥ −3.5
Exercice 3.6 Considérez l’inégalité linéaire
x+y ≤2
et le système d’inégalités linéaires
x≤1
−x ≤ −100
Notre inégalité est clairement une conséquence du système – elle est satisfaite à chaque solution
du système (simplement parce qu’il n’y a aucune solution du système du tout). Selon le Lemme
de Farkas Non homogène, l’inégalité devrait être une conséquence linéaire du système et de
l’inégalité triviale 0 ≤ 1, c.-à-d. il devrait exister ν1 , ν2 non negatifs tels que

1 1 −1
= ν1 + ν2 , ν1 − 100ν2 ≤ 2,
1 0 0
3.3. EXERCICES 71

ce qui n’est certainement pas le cas. Quelle est la raison de la “contradiction” observée ?

Exercice 3.7 Montrer le résultat suivant :

Soit S un ensemble convexe non vide et fermé de Rn , et soit T = {x} être un
singleton en dehors de S (x ∈ S). Considérez le programme

min{|x − y| | y ∈ S}.

Le programme est soluble et a une solution unique y ∗ , et la forme linéaire aT h,

a = x − y ∗ , sépare fortement T et S :

sup aT y = aT y ∗ = aT x − |a|2 .
y∈S

Remarque : le résultat ci-dessus est un argument principal de la preuve alternative du

Théorème de Séparation. C’est un excellent exercice de dériver le Théorème de Séparation de
ce résultat.
72 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
Chapitre 4

Points Extrêmes. Structure

d’Ensembles Polyhedraux

Le Théorème de Séparation nous permet de mieux comprendre la géométrie d’ensembles

convexes.

4.1 Description externe d’un ensemble convexe fermé. Plans de

support
Tout d’abord, nous allons prouver la caractérisation “externe” d’un ensemble convexe fermé
annoncée dans le Chapitre 2.

Théorème 4.1.1 Tout ensemble convexe fermé M dans Rn est l’ensemble de solutions d’un
système (inﬁni) d’inégalités linéaire non strictes.
Géométriquement : chaque ensemble convexe fermé M ⊂ Rn qui diﬀére du Rn entier est l’in-
tersection de demi-espaces fermés, notamment, de tous les demi-espaces fermés qui contiennent
M.

Preuve : est déjà prête par le Théorème de Séparation. En eﬀet, si M est vide, il n’y a rien
à prouver – un ensemble vide est une intersection des deux demi-espaces fermés appropriés.
Si M est l’espace entier, nous avons rien à montrer non plus – selon notre convention, notre
espace est la solution du système vide d’inégalités linéaires. Maintenant, supposons que M est
convexe, fermé, non vide et diﬀérent de l’espace entier. Soit x ∈ M ; alors x est à une distance
positive de M parce que M est fermé, et donc il existe un hyperplan approprié qui sépare x et
M (Proposition 3.1.1) :
∀x ∈ M ∃ax : aTx x > αx ≡ sup aTx y.
y∈M

Pour tout x ∈ M le demi-espace fermé Hx = {y | aTx y ≤ αx } contient M et ne contient pas x ;

par conséquent,
M = ∩x∈M Hx
et M n’est pas plus grand (et, bien sûr, pas plus petit) que l’intersection de tous les demi-espaces
fermés qui contiennent M .
Parmi les demi-espaces fermés qui contiennent un ensemble M fermé convexe et propre (c.-à-
d. non vide et diﬀérent de l’espace entier) les plus intéressants sont les demi-espaces “extrêmes”

73
74 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

– ceux dont l’hyperplan de frontière touche M . Cette notion a un sens pour un ensemble convexe
arbitraire (non nécessaire fermé), mais nous l’employons pour un ensemble fermé seulement, et
nous allons inclure la condition de fermeture dans le déﬁnition :

Déﬁnition 4.1.1 [Plan de support] Soit M un ensemble convexe fermé dans Rn , et soit x un
point de la frontière relative de M . Un hyperplan

Π = {y | aT y = aT x} [a = 0]

est appelé plan de support de M en x, s’il sépare proprement M et {x}, c.-à-d. si

aT x ≥ sup aT y & aT x > inf aT y. (4.1)

y∈M y∈M

Notez que puisque x est un point de la frontière relative de M et donc appartient à cl M = M ,

la premiere inégalité dans (4.1) est en fait une égalité. Ainsi, une déﬁnition équivalente d’un
plan de support est comme suit :

Soit M un ensemble fermé convexe et x un point de la frontière relative de M .

L’hyperplan {y | aT y = aT x} est appelé plan de support de M en x, si la forme
linéaire a(y) = aT y atteint en x son maximum sur M et n’est pas constante M .
Par exemple, l’hyperplan {x1 = 1} dans Rn est plan de support à la boule Euclidienne {x |
|x| ≤ 1} en x = e1 = (1, 0, ..., 0).
La propriété la plus importante du plan de support est son existence :

Proposition 4.1.1 [Existence de l’hyperplan de support] Soit M un ensemble convexe fermé

dans Rn et x un point de la frontière relative de M . Alors
(i) il existe au moins un hyperplan de support de M en x ;
(ii) si Π est plan de support de M en x, alors l’intersection M ∩ Π est d’une dimension affine
moindre que celle de M (rappelez vous que la dimension affine d’un ensemble est, par définition,
la dimension de son enveloppe affine).

Preuve : (i) est facile : si x est un point de la frontière relative de M , alors il est extérieur à
l’intérieur relatif de M , et donc {x} et ri M peuvent être séparés proprement par le Théorème
de Séparation ; l’hyperplan de separation est exactement l’hyperplan de support de M en x
hyperplan.
Pour prouver (ii) notez que si Π = {y | aT y = aT x} est plan de support de M en x ∈ ∂ri M ,
alors l’ensemble M = M ∩ Π est ensemble convexe non vide (il contient x), et la forme linéaire
aT y est constante sur M et donc (pourquoi ?) sur Aff(M ). En même temps, la forme n’est pas
constante sur M par définition de plan de support. Ainsi, Aff(M ) est un sous-ensemble propre
(plus petit que Aff(M ) entier) de Aff(M ), et la dimension affine de Aff(M ) (c.-à-d. la dimension
affine de M ) est plus petite que la dimension de Aff(M ) (= la dimension affine de M ). 1) .

1. ) dans le dernier raisonnement nous avons utilisé le fait suivant : si P ⊂ Q sont deux ensemble affines, alors
la dimension affine de P est ≤ que celle de Q, avec ≤ étant = si et seulement si P = Q. Nous connaissons un
résultat semblable pour les sous-espaces linéaires (voir Chapitre 1) ; prouvez svp que ce résultat (immédiat) est
aussi valide pour les ensembles affines
4.2. REPRESENTATION MINIMALE D’ENSEMBLES CONVEXES : POINTS EXTREMES75

4.2 Représentation minimale d’ensembles convexes : points

extrêmes
Plan de support est un outil très utile pour prouver l’existence de points extrêmes d’un
ensemble convexe. Géométriquement, un point extrême d’un ensemble convexe M est un point
de M qui ne peut pas être obtenu comme une combinaison convexe d’autres points de l’ensemble ;
l’importance de cette notion vient du fait (qu’on va prouver entre temps) que l’ensemble de tous
les point extrêmes d’un “assez bon” ensemble convexe M est la “plus courte instruction du
maçon pour bâtir l’ensemble” – c’est le plus petit ensemble de points dont M est l’enveloppe
convexe.
La déﬁnition exacte d’un point extrême est comme suit :

Déﬁnition 4.2.1 [Point extrême] Soit M un ensemble convexe non vide dans Rn . Un point
x ∈ M s’appelle un point extrême de M , si il n’existe aucun segment [u, v] ∈ M de longueur
positive pour qui x est un point intérieur, c.-à-d. si la relation

x = λu + (1 − λ)v

avec un certain λ ∈ (0, 1) et u, v ∈ M est possible si et seulement si

u = v = x.

Par exemple, les points extrêmes d’un segment sont exactement ses extrémités ; les points
extrêmes d’un triangle sont ses sommets ; les points extrêmes d’un disque (fermé) dans R2
sont les points du cercle.
Nous avons une déﬁnition équivalente de points extrêmes :
+
Proposition 4.2.1 Un point x d’un ensemble convexe M est extrême si et seulement si l’en-
semble M \{x} est convexe.

Il est clair qu’un ensemble convexe M ne possède pas nécessairement de points extrêmes – prenez
comme exemple la boule unité ouverte dans Rn . Cet exemple n’est pas vraiment intéressant –
l’ensemble en question n’est pas fermé. En remplaçant la boule ouverte avec sa fermeture, on
obtient un ensemble (la boule fermée) avec plein de points extrêmes – ces sont tous les points
de la frontière. Ils existent, cependant, des ensembles convexes fermés qui ne possèdent pas de
points extrêmes – par exemple, une droite ou un ensemble aﬃne d’une dimension plus élevée.
Un fait bien sympathique est que l’absence de points extrêmes d’un ensemble M convexe fermé
a toujours une raison standard – l’ensemble contient une droite. Ainsi, un ensemble convexe M
fermé et non vide qui ne contient pas de droites pour sûr possède un point extrême. Et si M est
non vide convexe et, en plus, compact, alors il possède un ensemble tout à fait représentatif de
points extrêmes – leur enveloppe convexe est l’ensemble M entier.

Théorème 4.2.1 Soit M un ensemble convexe fermé et non vide dans Rn . Alors
(i) l’ensemble Ext(M ) de points extrêmes de M est non vide si et seulement si M ne contient
pas de droites ;
(ii) si M est borné, alors M est l’enveloppe convexe de ses points extrêmes :

M = Conv(Ext(M )),

de sorte que chaque point de M est une combinaison convexe des points de Ext(M ).
76 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Notez que la partie (ii) de ce théorème est la version “en dimension ﬁnie” du célèbre Théorème
de Krein-Milman.
Preuve : Commençons par (i). La partie ”seulement si” est facile.
Lemme 4.2.1 Soit M un ensemble convexe fermé dans Rn . Supposons que pour
un certain x̄ ∈ M et h ∈ Rn M contient le rayon

{x̄ + th | t ≥ 0}

partant de x̄ et ayant h comme direction. Alors M contient également tous les rayons
parallèles commençant en points de M :

(∀x ∈ M ) : {x + th | t ≥ 0} ⊂ M.

En particulier, si M contient une certaine droite, alors il contient également toutes

les droites parallèles passant par les points de M .

Commentaire. Pour un ensemble convexe M , l’ensemble de toutes les directions

h tels que x + th ∈ M pour un certain x ∈ M et tous t ≥ 0 (par le lemme, tel que
x + th ∈ M pour tout x ∈ M et tout t ≥ 0) s’appelle cône récessif de M [notation :
Rec(M ) ]. Avec le Lemme 4.2.1 on voit immédiatement (prouvez-le !) que Rec(M )
est en effet un cône, et que
M + Rec(M ) = M.
Les directions de Rec(M ) sont appelées directions récessives pour M .
Preuve du lemme est immédiate : si x ∈ M et x̄ + th ∈ M pour tout t ≥ 0, alors,
dû à la convexité, pour tout τ ≥ 0 fixé nous avons
τ
(x̄ + h) + (1 − )x ∈ M

pour tout ∈ (0, 1). Quand → +0, l’expression dans le côte gauche tend vers x+τ h,
et, comme M est fermé, x + τ h ∈ M pour tout τ ≥ 0.
Le Lemme 4.2.1 résout nos problèmes avec la partie ”seulement si”. En effet, ici nous devons
montrer que si M possède des points extrêmes, alors M ne contient pas de droites, ou, ce qui
est identique, que si M contient des droites, alors il n’a aucun point extrême. Mais le dernier
résultat est immédiat : si M contient une droite, alors, par le lemme, il y a toute une droite
dans M passant par n’importe quel point donné de M , de sorte qu’aucun point ne puisse être
extrême.
Il nous reste à prouver la partie ”si” de (i). Ainsi, dorénavant nous supposons que M ne
contient pas de droites ; notre but est de montrer qu’alors M possède des points extrêmes.
Commençons par le suivant
Lemme 4.2.2 Soit Q un ensemble convexe fermé non vide, soit x̄ un point de la
frontière relative de Q et Π un hyperplan de support à Q en x̄. Alors tous les points
extrêmes de l’ensemble convexe fermé non vide Π ∩ Q sont aussi les points extrêmes
de Q.
Preuve du lemme : D’abord, l’ensemble Π ∩ Q est fermé et convexe (comme
l’intersection des ensembles possédant ces propriétés) ; il n’est pas vide, puisqu’il
4.2. REPRESENTATION MINIMALE D’ENSEMBLES CONVEXES : POINTS EXTREMES77

contient x̄ (Π contient x̄ dû à la déﬁnition d’un plan de support, et Q contient x̄ dû

à la fermeture de Q). Deuxièmement, soit a la forme linéaire liée à Π :
Π = {y | aT y = aT x̄},

tel que
inf aT x < sup aT x = aT x̄ (4.2)
x∈Q x∈Q

(voir Proposition 4.1.1). Supposons que y est un point extrême de Π ∩ Q ; nous avons
à montrer que y est un point extrême de Q, c.-à-d. que la décomposition
y = λu + (1 − λ)v

pour certains u, v ∈ Q et λ ∈ (0, 1) est possible seulement si y = u = v. Pour cela

il suffit de vérifier que sous les hypothèses ci-dessus u, v ∈ Π ∩ Q c.-à-d. de montrer
que u, v ∈ Π, car on sait déjà que u, v ∈ Q). En effet nous savons que y est un point
extrême de Π ∩ Q, alors la relation y = λu + (1 − λ)v avec λ ∈ (0, 1) et u, v ∈ Π ∩ Q
implique y = u = v.
Pour montrer que u, v ∈ Π, notez que comme y ∈ Π on a

aT y = aT x̄ ≥ max{aT u, aT v}
(la dernière inégalité résulte de (4.2)). Par ailleurs,

aT y = λaT u + (1 − λ)aT v;

en combinant ces observations avec le fait que λ ∈ (0, 1), on déduit que
aT y = aT u = aT v.

Mais ces égalités impliquent exactement que u, v ∈ Π.

Équipés avec le lemme, nous pouvons facilement prouver (i) par induction en dimension de
l’ensemble M (rappelons, qui c’est la dimension de l’enveloppe affine de M , c.-à-d. la dimension
du sous-espace linéaire L tel que Aff(m) = a + L).
Il n’y a rien à montrer si la dimension de M est zéro, c.-à-d. si M est un point – alors,
naturellement, M = Ext(M ). Maintenant, supposons que nous avons déjà prouvé que Ext(T )
est non vide pour tout ensemble T convexe non vide fermé qui ne contient pas de droites de
dimension k, et prouvons que le même résultat est valide pour les ensembles de dimension k + 1.
Soit M un tel ensemble de dimension k + 1. Puisque M est de dimension positive et ne contient
pas de droites, il est diffèrent de Aff(M ) et donc possède un point de frontière relative x̄ 2) . Selon
Proposition 4.1.1, il existe un hyperplan Π = {x | aT x = aT x̄} qui supporte M en x̄ :
inf aT x < max aT x = aT x̄.
x∈M x∈M

2. )En eﬀet, il existe z ∈ Aﬀ(M )\M , de sorte que le point

xλ = x + λ(z − x)
(x est un point fixe arbitraire de M ) n’appartient pas à M pour un certain λ ≥ 1, tandis que x0 = x appartient
à M . L’ensemble des λ ≥ 0 pour lesquels xλ ∈ M est donc non vide et borné au-dessus ; cet ensemble est fermé
(puisque M est fermé). Alors, il existe le plus grand λ = λ∗ pour lequel xλ ∈ M . J’affirme que xλ∗ est un point
de la frontière relative de M . En effet, par construction c’est un point de M . Si xλ∗ est un point de l’intérieur
de M , alors tout le point xλ avec une valeur λ proche de λ∗ et plus grand que λ∗ appartient à M aussi, ce qui
contredit à l’origine λ∗
78 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Par la même proposition, l’ensemble T = Π ∩ M (qui est fermé, convexe et non vide) est de
dimension aﬃne plus petite que celle de M , c.-à-d., de dimension ≤ k. Évidement, T ne contient
pas de droites (puisque l’ensemble M plus grand n’en contient pas). Par l’hypothèse inductive,
T possède un point extrême, et par le Lemme 4.2.2 ce point est aussi extrême pour M . L’étape
inductive est maintenant complétée, et (i) est prouvé.
Montrons (ii). Ainsi, soit M non vide, convexe, fermé et borné ; nous devons prouver que

M = Conv(Ext(M )).

Il est evident que par convexité de M , l’ensemble à droite est contenu dans celui à gauche. Il
nous reste à prouver que tout x ∈ M est une combinaison convexe des points de Ext(M ). Ici
encore nous employons l’induction sur la dimension de M . Le cas de dimension 0 (quand M
est un point) est trivial. Supposons que le résultat en question est juste pour tout ensemble k-
dimensionnel convexe fermé et borné. Soit M un ensemble convexe fermé et borné de dimension
k + 1. Soit x ∈ M ; pour représenter x comme une combinaison convexe des point de Ext(M ),
dressons à travers x une droite arbitraire l = {x + λh | λ ∈ R} (h = 0) dans l’enveloppe affine
Aff(M ). En se déplaçant le long de cette droite à partir de x dans chacune des deux directions
possibles, nous allons certainement quitter M (puisque M est borné). Comme c’est expliqué
dans le preuve de (i), cela signifie que il existe λ+ et λ− non négatifs tel que les points

x̄± = x + λ± h

appartiennent à la frontière relative de M . Il nous reste à vériﬁer que x̄± sont des combinaisons
convexes des points extrêmes de M (ça complete la preuve, puisque x est clairement une com-
binaison convexe des point x̄± ). En eﬀet, M admet un hyperplan Π de support en x̄+ ; comme
c’est expliqué dans la preuve de (i), l’ensemble Π ∩ M (qui est convexe, fermé et borné) est d’une
dimension plus petite que celle de M ; par l’hypothèse inductive, le point x̄+ de cet ensemble est
une combinaison convexe des points extrêmes de cet ensemble, et par le Lemme 4.2.2 tout ces
points soin aussi les points extrêmes de M . Ainsi, x̄+ est une combinaison convexe des points
extrêmes de M . Le même raisonnement est valide pour x̄− .

4.3 Structure d’ensembles polyhedraux

Comme le premier fruit de notre développement, nous allons établir un résultat extrêmement
important sur la structure d’un ensemble polyhedral (qui forme la base de la théorie de Pro-
grammation Linéaire).
Selon notre déﬁnition (Chapitre 2), un ensemble polyhedral M est l’ensemble de solutions
d’un système ﬁni d’inégalités linéaires non strices :

M = {x ∈ Rn | Ax ≤ b}, (4.3)

A est une matrice de n colonnes et m lignes et b est un vecteur m-dimensionnel. Ceci est la
description externe (“artistique”) d’un ensemble polyhedral ; et quelle est sa description interne
(“maçonnique”) ?
Pour répondre à cette question, considérons la construction suivante. Prenons deux ensembles
de vecteurs ﬁni non vide S (“sommets”) et R (“rayons”) et construisons l’ensemble

M (S, R) = Conv(S) + Cone (R) = { λs s + μr r | λs ≥ 0, μr ≥ 0, λs = 1}.
s∈S r∈R s
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 79

Ainsi, nous prenons tout vecteur qui peut être représenter comme une somme d’une combinaison
convexe des points de S et d’une combinaison conique des points de R. L’ensemble M (S, R) est
convexe (comme la somme arithmétique des deux ensembles convexe Conv(S) et Cone (R)). La
description interne promise de la structure de l’ensemble polyhedral est suivante :

Théorème 4.3.1 [Structure d’ensemble polyhedral] Les ensembles de la forme M (S, R) sont
exactement les ensembles polyhedraux non vides : M (S, R) est polyhedral, et chaque ensemble
polyhedral non vide M est M (S, R) pour S et R proprement choisis.
Les polytopes M (S, {0}) = Conv(S) sont exactement les ensembles polyhedraux non vides
et bornés. Les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux (ensembles
donnés par un nombre ﬁni d’inégalités linéaires non strictes homogènes).

Remarque 4.3.1 En plus des résultats du théorème, on peut prouver (nous ne le ferons pas
pour sauver du temps) que dans la représentation d’un ensemble polyhedral non vide M comme
M = Conv(S) + Cone (R)
– la partie “conique” Cone (R) (mais pas l’ensemble R lui-même !) peut être déterminé de
façon unique par M et est exactement le cône récessif de M (voir le commentaire après le Lemme
4.2.1) ;
– si M ne contient pas de droites, alors S peut être choisi comme l’ensemble de tous les
points extrêmes de M .

Nous allons remettre la preuve du théorème jusqu’à la ﬁn du chapitre ; en ce moment permettez-

moi expliquer pourquoi ce théorème est si important – pourquoi c’est tellement bien de connaitre
les deux descriptions interne et externe de l’ensemble polyhedral.
Nous pouvons se poser plusieurs questions naturelles :
– A. Est-il vrai que l’image inverse d’un ensemble polyhedral M ⊂ Rn par une transforma-
tion aﬃne y → P(y) = P y + p : Rm → Rn , c.-à-d. l’ensemble

P −1 (M ) = {y ∈ Rm | P y + p ∈ M }

est polyhedral ?
– B. Est-il vrai que l’image d’un ensemble polyhedral M ⊂ Rn par une transformation aﬃne
x → y = P(x) = P x + p : Rn → Rm , c.-à-d. l’ensemble

P(M ) = {P x + p | x ∈ M }

est polyhedral ?
– C. Est-il vrai que l’intersection des deux ensembles polyhedraux est aussi un ensemble
polyhedral ?
– D. Est-il vrai que la somme arithmétique des deux ensembles polyhedraux est à nouveau
un ensemble polyhedral ?
Les réponses à toutes ces question sont, comme nous allons voir, positives ; ce qui est très
instructif, c’est comment ces réponses sont obtenues.
Il est facile de répondre aﬃrmativement à la question A. à partir de la déﬁnition originale –
externe – d’un ensemble polyhedral : si M = {x | Ax ≤ b}, alors, naturellement,

P −1 (M ) = {y | A(P y + p) ≤ b} = {y | (AP )y ≤ b − Ap}

et donc P −1 (M ) est un ensemble polyhedral.

80 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Si vous essayez de répondre aﬃrmativement à B. par l’intermédiaire de la même déﬁnition,

vous risquez de tomber en panne – on ne connait pas de façon simple de mettre à jour les inégalités
linéaires définissant un ensemble polyhedral pour obtenir ceux définissant son image, et il n’est
absolument pas clair pourquoi l’image en question serait donnée par un nombre fini d’inégalités
linéaires. Notez, cependant, que on n’a aucune difficulté pour répondre affirmativement à B.
en utilisant la description interne d’un ensemble polyhedral non vide : si M = M (S, R), alors,
évidemment,
P(M ) = M (P(S), P R),
où P R = {P r | r ∈ R} est l’image de R par l’action de la partie homogène de P.
De la même façon, la réponse positive à C. devient évident, si on emploie la description
externe d’un ensemble polyhedral : prendre l’intersection des ensembles de solution des deux
systèmes d’inégalités linéaires non strictes, est exactement la même chose que simplement mettre
ensemble toutes les inégalités des deux systèmes originaux. Et il est très difficile de répondre à
D. en utilisant la description externe d’un polyhedre – que se passe-t-il avec les inégalités quand
on ajoute les solutions des deux systèmes ? Contrairement à cela, la description interne donne
la réponse immédiatement :
M (S, R) + M (S , R ) = Conv(S) + Cone (R) + Conv(S ) + Cone (R )
= [Conv(S) + Conv(S )] + [Cone (R) + Cone (R )]
= Conv(S + S ) + Cone (R ∪ R )
= M (S + S , R ∪ R ).
Notez que dans ce calcul nous avons utilisé deux règles qui doivent être justifiées : Conv(S) +
Conv(S ) = Conv(S + S ) and Cone (R) + Cone (R ) = Cone (R ∪ R ). La seconde est évidente
par la définition de l’enveloppe conique, et seulement la première doit être vérifiée. Pour la
démontrer, notez que Conv(S) + Conv(S ) est un ensemble convexe qui contient S + S et ainsi
contient Conv(S + S ). L’inclusion inverse est montrée de façon suivante : si

x= λi si , y = λj sj
i j

sont des combinaisons convexes des points de S, et de S respectivement, alors, (vériﬁez, svp !),

x+y = λi λj (si + sj )
i,j

est la somme a droite est une combinaison convexe des points de S + S .

Nous observons qu’il est extrêmement utile de garder dans l’esprit les deux description d’en-
sembles polyhedraux – ce qui est diﬃcile à voir avec l’un est absolument clair avec l’autre.
Pour une application apparemment “plus importante” de la théorie qu’on vient de développer
considérons la problématique de Programmation Linéaire.

4.3.1 Théorie de Programmation Linéaire

Un problème général de Programmation Linéaire est celui de maximisation d’un objectif –
fonction linéaire sur un ensemble polyhedral :
(P) cT x → max | x ∈ M = {x ∈ Rn | Ax ≤ b};
ici c est un vecteur n-dimensionnel donné qu’on appelle objectif, A est une matrice de contraintes
m×n donnée et b ∈ Rm vecteur (terme) à droite. On appelle (P) le “programme de Programma-
tion Linéaire sous forme canonique” ; il existe d’autres formulations équivalentes du problème.
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 81

Existence de solutions d’un programme de Programmation Linéaire

Selon la terminologie de Programmation Linéaire, (P) est appelé
– admissible (faisable), si le système Ax ≤ b être soluble, et non admissible (infaisable)
autrement ;
– borné, si il est admissible l’objectif est borné supérieurement sur l’ensemble de faisabilité
(l’ensemble de solutions de Ax ≤ b), et non borné, si il est admissible, mais l’objectif n’est
pas borné sur l’ensemble de faisabilité ;
– soluble, s’il est faisable et la solution optimale existe – l’objectif atteint son maximum sur
l’ensemble faisable.
Si le problème est borné, alors la borne supérieure de la valeur de l’objectif sur l’ensemble de
faisabilité est un réel ; ce réel est appelé valeur optimale du problème et est noté par c∗ . Il est
commode d’associer une valeur optimale aux problèmes infinies et infaisables – pour un problème
non borné, par définition, cette valeur est +∞, et pour un problème infaisable elle est −∞.
Notez que notre terminologie vise le problème de maximisation ; si le problème est de trouver
le minimum de l’objectif, la terminologie peur être mise à jour de façon évidente : en définissant
le problème borné/non borné, nous devons parler de la borne inférieure plutôt que de la borne
supérieure, etc. Par exemple, la valeur optimale infinie pour un problème de minimisation non
borné sera −∞, et +∞ pour un problème infaisable. Cette terminologie est conformée avec
la manière habituelle de convertir un problème de minimisation en un problème équivalent de
maximisation en remplaçant l’objectif original c avec −c : les propriétés de faisabilité telles que
la bornitude et la solubilité restent inchangées, et la valeur optimale change son signe.
Un fait intéressant au sujet de la terminologie de Programmation Linéaire est que les
spécialistes emploient les expressions “programme LP infaisable”, “programme LP non borné”,
mais ne parlent jamais de “programme LP borné”, seulement du “programme soluble”. Le point
ici est que un programme LP borné est toujours soluble bien que cela n’est absolument pas
évident en avance. Avec les outils que nous disposons nous sommes maintenant capable de
prouver ce résultat fondamental de Programmation Linéaire.

Théorème 4.3.2
(i) un programme LP est soluble si et seulement s’il est borné.
(ii) si le programme est soluble et l’ensemble faisable du problème ne contient pas de droites,
alors au moins une des solutions optimales est un point extrême de l’ensemble faisable.

Preuve : (i) : la partie “seulement si” du résultat n’est qu’une tautologie : la déﬁnition de la
solubilité inclue la bornitude. Ce que nous devons prouver est la partie “ si” – que tout problème
borné est soluble. C’est donné immédiatement par la description interne de l’ensemble admissible
M du problème : c’est un ensemble polyhedral, et comme il n’est pas vide (notre problème est
borné), nous pouvons le représenter comme

M (S, R) = Conv(S) + Cone (R)

pour certains ensembles finis non vides S and R. J’affirme tout d’abord que puisque (P) est
borné, le produit scalaire de c avec tout vecteur de R est non positif. En effet, autrement il
existe r ∈ R avec cT r > 0 ; puisque M (S, R) clairement contient avec chaque point x le rayon
{x + tr | t ≥ 0}, et l’objectif est illimité sur ce rayon, il est non borne supérieurement sur M , ce
qui n’est pas le cas.
Maintenant choisissons dans l’ensemble S fini et non vide un point, appelé s∗ , qui maximise
l’objectif sur S. J’affirme que s∗ est une solution optimale de (P), c.-à-d. que (P) est soluble.
82 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Et je peux justiﬁer immédiatement mon aﬃrmation : s∗ appartient à M ; maintenant, un point

générique de M = M (S, R) est
x= λs s + μr r
s∈S r∈R

avec des λs et μr non négatifs et v λv = 1. Ainsi,

cT x = λ cT s + μr cT r
s s T r
≤ λ c s [car μr ≥ 0 and cT r ≤ 0, r ∈ R]
s s T ∗
≤ s λs c s [comme λs ≥ 0 et cT s ≤ cT s∗ ]

= c s∗
T [car s λs = 1]

(ii) : si l’ensemble admissible de (P), appelons le M , ne contient pas de droites, est convexe
et fermé (tant qu’un ensemble polyhedral) il possède un point extrême. Il en suit que (ii) est
valide dans le cas trivial quand l’objectif de (P) est constant sur l’ensemble admissible, car dans
ce cas on peut prendre tout point extrême de M comme solution optimale. Le cas d’objectif
nonconstant sur M peut être immédiatement réduit au cas trivial ci-dessus : si x∗ est une
solution optimal de (P) et la forme linéaire cT x n’est pas constante sur M , alors l’hyperplan
Π = {x | cT x = c∗ } est celui de support à M en x∗ ; l’ensemble Π ∩ M est fermé, convexe, non
vide et ne contient pas de droites, il possède donc un point extrême x∗∗ qui, d’une part, est,
bien évidement, une solution optimale de (P), et, d’autre part, est un point extrême de M par
le Lemme 4.2.2.
Nous allons établir maintenant le deuxième résultat fondamental sur Programmation Linéaire
– le Théorème de Dualité ; mis à part des problèmes concernant le calcul, on peut dire que LP
consiste, essentiellement, en Théorème 4.3.2 et Théorème de Dualité.

Théorème de dualité pour Programmation Linéaire

On considère un programme LP faisable.
En parlant de la valeur optimale de (P), nous faisons en fait certaines aﬃrmations au sujet
d’admissibilité/non admissibilité d’un système d’inégalités linéaires. Par exemple, quand on dit
que la valeur optimale de (P) est égal à c∗ ∈ R, on dit en fait que le système d’inégalités linéaires

(Sα ) :
cT x > α
Ax ≤ b

est n’est pas soluble pour α ≥ c∗ et est soluble pour α < c∗ .

Le Théorème sur l’Alternative de Chapitre 3 nous dit que la solubilité d’un système ﬁni
d’inégalités linéaires est étroitement liée avec l’insolubilité d’un autre système d’inégalités
linéaires. Quel sera cet “autre système” pour (Sα ) ? Non admissibilité de (Sα ) pour un certain
α signiﬁe que l’inégalité cT x ≤ α est une conséquence du système soluble d’inégalités Ax ≤ b ;
par le Lemme de Farkas Non homogène, c’est le cas si et seulement si le système

(Sα∗ ) :
bT y ≤ α
AT y = c
y ≥ 0

avec le vecteur d’inconnus y ∈ Rm est soluble. Ainsi, si (P) est faisable, alors
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 83

(*) (Sα ) est non soluble pour un α donné si et seulement si (Sα∗ ) est soluble pour cet α.
En consequence, la solubilité du système (Sα∗ ) peut aussi être interprété en termes d’un
certain programme LP, notamment, le programme dual à (P) :

(D) bT y → min | y ∈ M ∗ = {y ∈ Rm | AT y = c, y ≥ 0}

Précisément, la solubilité de (Sα∗ ) veut dire exactement que (D) est faisable et la valeur optimale
de ce problème est ≤ α. En fait, nous avons “plus ou moins établi”

Théorème 4.3.3 [Théorème de Dualité en Programmation Linéaire]

(i) (P) est borné si et seulement si (D) est soluble ; (D) est borné si et seulement si (P) est
soluble. Ainsi les deux problème (P) et (D) sont solubles si et seulement si l’un des deux est
borné. Si (P) et (D) sont solubles, alors
(i.1) les valeurs optimales des deux problèmes sont égales ;
(i.2) une paire x, y de solutions faisables des problèmes est composée de solutions optimales si
et seulement si
y T (b − Ax) = 0 [“condition de complémentarité”], (4.4)
ou, de façon équivalente, si et seulement si

bT y − cT x = 0 [“saut de dualité nul”] (4.5)

(ii) si (P) n’est pas borné, alors (D) n’est pas admissible ; si (D) n’est pas borné, alors (P)
n’est pas admissible.

Remarque 4.3.2 Notez que ”si... alors...” dans (ii) ne peut pas être remplacer avec ”si et
seulement si” – il se peut que les deux (P) et (D) ne sont pas faisables, comme c’est le cas dans
l’exemple
(P ) x1 − x2 → max | x1 + x2 ≤ 0, −(x1 + x2 ) ≤ −1,

(D) − y2 → min y1 − y2 = 1, y1 − y2 = −1, y1 , y2 ≥ 0.

Notez également que l’énoncé de (i) du Théorème de Dualité implique en fait qu’un programme
LP borné est soluble (en eﬀet, si (P) est borné, alors, par (i), (D) est soluble et donc est borné ;
mais si (D) est borné, alors (P), par le même (i), est soluble). Ainsi, le Théorème de Dualité
contient en fait l’énoncé du (i) du Théorème d’Existence 4.3.2.

Preuve. (i) : supposons que (P) est borné avec la valeur optimale c∗ . Cela signiﬁe que le système
(Sα ) est soluble quelque soit α < c∗ et n’est pas soluble quelque soit α ≥ c∗ ; Comme on sait de
(*), ceci signiﬁe exactement que (Sα∗ ) est soluble quelque soit α ≥ c∗ et n’est pas soluble quelque
soit α < c∗ . En d’autres termes, (D) est soluble avec la valeur optimale c∗ .
Maintenant on peut répéter ce raisonnement en permutant les rôles de (P) et (D). Supposons
que (D) est borné avec la valeur optimal c∗ , et montrons que alors (P) est soluble avec la même
valeur optimale. Nos hypothèses à propos de (D) disent exactement que le système d’inégalités
linéaires
bT y < α
AT y = c
y ≥0
84 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

est soluble pour α > c∗ et n’est pas soluble sinon. Aﬁn d’appliquer, comme dans le cas ci-dessus,
le Lemme de Farkas Non homogène, nous écrivons le système dans sous la forme équivalente :

(Tα ) bT y < α
⎛ ⎞ ⎛ ⎞
AT c
By ≡ ⎝ −AT ⎠ y ≤ q ≡ ⎝ −c ⎠
−I 0

où I est la matrice identité de la même dimension que b et y. Dire que (Tα ) n’est pas soluble est
le même que dire que l’inégalité −bT y ≤ −α est une conséquence du système By ≤ q. Puisque
le problème dual est faisable, le système By ≤ q est soluble ; donc par le Lemme de Farkas non
homogène, l’inégalité −bT y ≤⎛ −α⎞ est une conséquence du système si et seulement si il exister
u
un vecteur non négatif σ = ⎝ v ⎠ tel que b = σ T B et σ T q ≤ −α, ou, en d’autres termes, si et
w
seulement si
−b = Au − Av − w; cT (u − v) ≤ −α.

On peut voir immédiatement (posez x = v − u) que u, v et w non négatifs qui satisfont la dernier
relation existent si et seulement s’il existe x tel que Ax ≤ b et cT x ≥ α. Ainsi, si (D) est borné
avec la valeur optimale c∗ , c.-à-d. que le système (Tα ) est soluble pour α > c∗ et n’est pas soluble
sinon, alors le système d’inégalité
Ax ≤ b, cT x ≥ α
est soluble si α ≤ c∗ et n’est pas soluble sinon. Alors, (P) est soluble avec la valeur optimale c∗ .
Pour prouver (i.2), supposons qu’un des problèmes est soluble ; dans ce cas, selon la partie
déjà établie du résultat, les deux problèmes (P) et (D) sont solubles avec la même valeur optimale
c∗ . Puisque (P) est un problème de maximisation et (D) est celui de minimisation, nous avons

cT x ≤ c∗ ≤ bT y

pour toute paire x, y de solutions faisables de (P) et (D) ; par conséquent, le saut de dualité

bT y − cT x = [bT y − c∗ ] + [c∗ − cT x]

sur une telle paire est toujours non négatif et devient nul si et seulement si x est une solution
optimale de (P) et y est optimale pour (D), comme cela est dit dans (4.5).
(4.4) est une conséquence immédiate de (4.5) par le raisonnement suivant (ici x est faisable
pour (P) et y est faisable pour (D)) :

y T (b − Ax) = y T b − (AT y)x

= y T b − cT x [car y est faisable pour (D)]

(ii) : montrons d’abord que si (P) est non borné, alors (D) est infaisable. Non bornitude de
(P) signiﬁe exactement que le système (Sα ) est soluble pour chaque α réel, d’où, comme on sait
déjà de (*), (Sα∗ ) n’est pas soluble pour tout α ; mais ceci est le même que de dire que (D) est
infaisable.
Par un raisonnement semblable avec (Tα ) jouant le rôle de (Sα ) on démontre que si (D) n’est
pas borné, alors (P) est infaisable.
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 85

Dans la preuve du théorème, nous n’avons pas utilisé la symétrie entre le problème primal
(P) et le dual (D), bien que la dualité LP est complètement symétrique : le problème dual au
dual “est” le même problème primal (ici “est” signifie “ est équivalent”). Pourquoi je n’ai pas
profité de cette symétrie est clair – à cause des guillemets dans dans “est” – j’ai préféré de ne
pas gaspiller le temps pour écrire des formes différentes du programme dual au programme
LP.

4.4 Structure d’ensembles polyhedraux : preuves

Seulement la Section 4.4.1 ci-dessous est obligatoire

4.4.1 Points extremes d’un ensemble polyhedral

Soit
K = {x ∈ Rn | Ax ≤ b},
ensemble polyhedral, où A est une matrice m × n et b un vecteur de Rm . Que sont les points
extrêmes de K ?

Théorème 4.4.1 [Points extrêmes d’un ensemble polyhedral]

Soit x ∈ K. Le vecteur x est un point extrême de K si et seulement si n certains inégalités
linéairement indépendantes du système Ax ≤ b (c.-à-d., avec les vecteurs de coeﬃcients
linéairement indépendants) sont égalités en x.

Preuve : soit ai , i = 1, ..., m, les lignes de A.

La partie “seulement si” : soit x un point extrême de K, et soit I l’ensemble d’indices i pour
lesquels aTi x = bi ; nous avons à prouver que l’ensemble F de vecteurs {ai | i ∈ I} contient
exactement n vecteurs linéairement indépendants, c.-à-d. que Lin(F ) = Rn . Supposez que ce
n’est pas le cas ; alors le complément orthogonal de F contient un vecteur h non nul (puisque
le dimension F ⊥ est égal à n − dim Lin(F ), voir Chapitre 1, et donc est positive). Considérez
le segment δ = [x − h, x + h], où > 0 est le paramètre de notre construction. Puisque h est
orthogonal aux vecteurs “actifs” ai – ceux avec i ∈ I, tout point y de ce segment satisfait la
relation aTi y = aTi x = bi . Maintenant, si i est un indice “inactif” – celui avec aTi x < bi – alors
aTi y ≤ bi pour tout y ∈ Δ , à condition que soit assez petit. Puisque il y a seulement un nombre
ﬁni d’indices inactifs, nous pouvons choisir > 0 de telle manière que tout y ∈ Δ satisfait toutes
les inégalités “inactives” aTi x ≤ bi , pour i ∈ I. Puisque y ∈ Δ satisfait, comme nous avons vu,
aussi toutes les inégalités “actives”, on en conclut que ce choix de permet d’obtenir δ ⊂ K,
qui est une contradiction : > 0 et h = 0, de sorte que δ est un segment non trivial avec le
point x ∈ ri δ , et aucun tel segment ne peut pas être contenu dans K, puisque x être un point
extrême de K.
Pour prouver la partie “si”, supposons que x ∈ K est tel que parmi les inégalités aTi x ≤ bi
qui sont des égalités en x il y a n qui sont linéairement indépendantes, par exemple, ceux avec
les indices 1...., n, et montrons que x est un point extrême de K. C’est immédiat : en supposant
que x n’est pas un point extrême, nous obtiendrions l’existence d’un vecteur non nul h tels que
le x ± h ∈ K. En d’autres termes, pour i = 1, ..., n nous obtiendrions bi ± aTi h ≡ aTi (x ± h) ≤ bi ,
ce qui est possible seulement si aTi h = 0, i = 1, ..., n. Mais le seul vecteur qui est orthogonal
aux n vecteurs linéairement indépendants de Rn est le vecteur nul, et nous avons h = 0, et on
a supposé que ce n’est pas le cas. .
86 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Corollaire 4.4.1 L’ensemble de points extrêmes d’un ensemble polyhedral est ﬁni

En effet, selon le théorème ci-dessus, chaque point extrême d’un ensemble polyhedral K = {x ∈
Rn | Ax ≤ b} est donné par le choix d’un sous-ensemble de n inégalités du système original
qui sont devenu les égalités, la matrice de ce sous-ensemble étant non singulière. Ainsi, un point
extrême est uniquement défini par le sous-ensemble correspondant, de sorte que le nombre de
points extrêmes n’excède pas le nombre Cm n de sous-matrices n × n de la matrice A.
n
Notez que Cm n’est qu’une borne supérieure (généralement très conservatrice) sur le nombre
de points extrêmes d’un ensemble polyhedral donné par m inégalités dans Rn : les sous-matrices
n×n de A peuvent être singulières et, ce qui est bien plus important, la majorité des matrices non
singulières produisent normalement “des candidats” qui ne satisfont pas certaines des inégalités
restantes.
Remarque 4.4.1 Le résultat du Théorème 4.4.1 est très important, en particu-
lier, pour la théorie de la Méthode de Simplex – l’outil de calcul traditionnel pour
la Programmation Linéaire. Une fois appliqué au programme de LP sous la forme
canonique 3)
cT x → min | P x = p, x ≥ 0 [x ∈ Rn ],
avec la matrice P k × n, le résultat du Théorème 4.4.1 est que les points extrêmes
de l’ensemble faisable sont exactement les solutions faisables de base du système
P x = p, c.-à-d., les vecteurs non négatifs x tels que P x = p et l’ensemble de co-
lonnes de P lié aux entrées positives de x est linéairement indépendant. Puisque
l’ensemble faisable d’un programme LP sous la forme standard ne contient pas des
droites, parmi les solutions optimales (si en existe une) d’un programme LP sous sa
forme canonique au moins un est un point extrême de l’ensemble faisable (Theorem
4.3.2.(ii)). Ainsi, en principe nous pourrions tester l’ensemble fini de tous les points
extrêmes de l’ensemble faisable (≡ à toutes les solutions faisables de base) et choisir
celui avec la meilleure valeur de l’objectif. Cette recette permet de trouver une solu-
tion faisable en nombre fini d’opérations arithmétiques, à condition que le problème
soit soluble, est ce que fait la Méthode de Simplex ; cette dernière parcourt les solu-
tions faisables de base d’une manière très futée qui permet de tester seulement une
partie négligeable de solutions candidates.
Une autre conséquence utile du Théorème 4.4.1 est que si toutes les données
dans un programme de LP sont rationnelles, alors n’importe quel point extrême
du domaine faisable du programme est un vecteur avec les entrées rationnelles. En
particulier, un programme soluble de LP dans la forme standard avec des données
rationnelles a au moins une solution optimale rationnelle.

4.4.2 Structure d’un polyhedre borné

Maintenant nous pouvons prouver une partie importante du Théorème 4.3.1 – celle qui
décrit la structure d’ensembles polyhedraux bornés.
Théorème 4.4.2 [structure d’ensembles polyhedraux bornés] Un ensemble polyhedral borné
non vide M dans Rn est un polytope, c.-à-d., une enveloppe convexe d’un ensemble non vide
ﬁni :
M = M (S, {0}) = Conv(S);
on peut choisir comme S l’ensemble de tous les points extrêmes de M .

3. ) plutôt une des formes canoniques, cf. le problème dual (D) au problème LP dans la Section 4.3.1
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 87

Vice versa – un polytope est un ensemble polyhedral borné et non vide.

Preuve : la première partie du résultat – qu’un ensemble polyhedral non vide borné est un
polytope – découle du Théorème de Krein-Milman combiné avec le Corollaire 4.4.1. En effet,
un ensemble polyhedral est toujours fermé (comme ensemble donné par des inégalités non
strictes impliquant des fonctions continues) et convexe ; s’il est également borné et non vide,
il est, par le Théorème de Krein-Milman, l’enveloppe convexe de l’ensemble S de ses points
extrêmes ; S est fini par Corollary 4.4.1.
Maintenant prouvons la partie plus difficile du resultat – qu’un polytope est un ensemble
polyhedral borné. Le fait que l’enveloppe convexe d’un ensemble fini est borné est évident.
Ainsi, tout ce que nous avons à montrer est que l’enveloppe convexe d’un ensemble finie
de points est un ensemble polyhedral. La preuve passe par un concept géométrique très
intéressant et utile – le polaire d’un ensemble.

Le polaire d’un ensemble convexe

Soit M ⊂ Rn un ensemble convexe fermé qui contient 0. Le polaire de M (noté Polar (M ))
est déﬁni comme ensemble de tous les vecteurs f qui ont les produits scalaires avec tous les
vecteurs de M n’excédant pas 1 :

Polar (M ) = {f | f T x ≤ 1 ∀x ∈ M }.

Le polaire d’un ensemble est non vide – il contient 0. Notez également que le polaire est une
extension naturelle de la notion de complément orthogonal à un sous-espace linéaire : si M
est un tel sous-espace, alors Polar (M ), comme on le voit immédiatement, est exactement M ⊥
(puisqu’une forme linéaire peut être bornée par 1 sur un sous-espace linéaire si et seulement si
elle est identiquement nulle sur le sous-espace). Nous avons l’extension suivante de la formule

(L⊥ )⊥ = L [L est un sous-espace linéaire] :

Lemme 4.4.1 Pour tout ensemble convexe fermé M qui contient 0 son polaire Polar (M )
est également un ensemble convexe et contenant 0, et

Polar (Polar (M )) = M. (4.6)

Preuve : soit M fermé, convexe et 0 ∈ M .

Le fait que Polar (M ) est convexe et fermé, est évident – c’est l’ensemble donné par un
système (infini) d’inégalités linéaires non strictes xT f ≤ 1 paramétrées par x ∈ M , et chaque
ensemble de ce type, comme nous le savons, est fermé et convexe. Nous avons déjà mentionné
que Polar (M ) contient 0.
Il reste à verifier (4.6). Il est absolument clair de la définition du polaire que M ⊂
Polar (Polar (M )) (si x ∈ M , puis xT f ≤ 1 pour tout le f ∈ Polar (M ) par la construction
de Polar (M ), d’où, encore par la construction, x ∈ Polar (Polar (M ))). Ainsi, il nous reste
à montrer que Polar (Polar (M )) ne contient que des points de M . Suppose, au contraire,
qu’un élément z de P olar(M ) tel que z ∈ M , existe. Puisque M est fermé, convexe, n’est
pas vide et z ∈ M , M et {z} peuvent être fortement séparés (Proposition 3.1.1) : il existe φ
tel que
φT z > α ≡ sup φT x.
x∈M

Comme 0 ∈ M , α ≥ 0, il existe β positif, disons, β = 12 (φT z + α), tel que

φT z > β > sup φT x.

x∈M

Et si on divise par β > 0 et on pose f = β −1 φ, nous avons

f T z > 1 > sup f T x.

x∈M
88 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Ici l’inégalité à droite implique que f ∈ Polar (M ) ; mais dans ce cas l’inégalité à gauche
contredit à l’origine de z qui est un point de Polar (Polar (M )).
Remarque 4.4.2 La notion du polaire a un sens pour un ensemble non vide
arbitraire M , pas nécessairement fermé, convexe ou contenant zéro. Pour M non
vide arbitraire nous avons
Polar (M ) = Polar (cl Conv(M ∪ {0})).
Cette identité combinée avec (4.6) conduit à l’identité
Polar (Polar (M )) = cl Conv(M ∪ {0}) [M = ∅],
qui est de nature bien similaire à l’identité pour le complément orthogonal :
(M ⊥ )⊥ = Lin(M ) [M = ∅].
Si M est un ensemble convexe fermé contenant zéro, alors Polar (M ) se rappelle de tout
M (M peut être reconstitué par l’intermédiaire de son polaire en appliquant la polarité de
nouveau, voir (4.6)). Il est très utile de savoir quelles sont les propriétés du polaire respon-
sables de telles et de telles propriétés de l’ensemble. Voici un exemple simple d’un résultat
dans ce genre :
+
Proposition 4.4.1 Soit M un ensemble convexe fermé dans Rn et 0 ∈ M . Alors 0 ∈
int M si et seulement si Polar (M ) est borné.

Fin de la preuve du Théorème 4.4.2

Maintenant nous pouvons accomplir la preuve du Théorème 4.4.2. Pour rendre notre
terminologie plus compacte, nous allons provisoirement appeler les polytopes – les enveloppes
convexes des ensembles finis non vides – S-ensembles (“S” du “sommet”), et les ensembles
non vides polyhedraux bornés – PB-ensembles (“P” du “polyhedral” et “B”, du “borné”).
De la partie déjà prouvée du théorème nous savons que chaque PB-ensemble est aussi un S-
ensemble, et ce que nous devrions prouver est que chaque S-ensemble M est un PB-ensemble.
Soit M = Conv({s1 ..., sn }) un S-ensemble, montrons qu’il est un PB-ensemble. Comme
d’habitude, nous pouvons supposer sans perte de généralité que l’ensemble est de dimension
n 4) . Ainsi, nous pouvons supposer que int M = ∅. Par translation, nous pouvons également
nous assurer que 0 ∈ int M . Maintenant regardons le polaire M ∗ = Polar (M ) de M . Selon
la Proposition 4.4.1, cet ensemble est borné. J’affirme que cet ensemble est également po-
lyhedral. En effet, un point f appartient à M ∗ si et seulement si f T x ≤ 1 pour tous les x
qui sont des combinaisons convexes des points s1 ..., sn , ou,ce qui est identique, f ∈ M ∗ si
et seulement si f T si ≤ 1, i = 1..., n. Ainsi, M ∗ est donné par un système fini d’inégalités
linéaires non strictes
sTi f ≤ 1, i = 1, ..., N
et donc polyhedral.
Maintenant nous sommes faits. M ∗ est PB-ensemble, et donc, comme nous savons déjà,
il est S-ensemble. Par ailleurs, M ∗ est le polaire d’un ensemble borné et donc 0 est un
point intérieur de M ∗ (Proposition 4.4.1). Mais nous venons de montrés que le polaire de
S-ensemble avec 0 dans son intérieur est un PB-ensemble. Ainsi, le polaire à M ∗ – et c’est
M par le Lemme 4.4.1 – est un PB-ensemble.
4. ) et voici la justification : par un décalage de M , nous pouvons supposer que M contient 0 ; en remplaçant
n
R par Lin(M ) nous obtenons la situation quand l’intérieur de M est non vide. Étant donné que le résultat que
nous prouvons est valide dans le cas particulier quand S-ensemble en question possède l’intérieur non vide, nous
pouvons conclure que M , comme un sous-ensemble de L, est défini par un système fini d’inégalités linéaires non
strictes. En ajoutant à ces inégalités les inégalités linéaires qui définissent L – nous savons du Chapitre 1 qu’un
sous-espace linéaire est un ensemble polyhedral – nous obtenons la description polyhedral désirée de M comme
un sous-ensemble de Rn .
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 89

4.4.3 Structure d’un ensemble polyhedral général : ﬁn de la preuve

Maintenant prouvons le Théorème 4.3.1 dans le cas général. La preuve suit les lignes de
celle du Théorème 4.4.2, mais avec une différence significative : maintenant nous n’avons
plus de Théorème de Krein-Milman pour nous débarrasser d’une partie de difficultés.
Comme ci-dessus, pour simplifier notre language nous allons appeler SR-ensemble (“S” du
“sommet”, “R” du “rayon”) les ensembles de la forme M (S, R), et P-ensembles les ensembles
polyhedraux non vides. Nous devrions montrer que chaque P-ensemble est SR-ensemble, et
vice versa. Nous commençons par montrer que chaque P-ensemble est un SR-ensemble.

Implication P⇒SR
P⇒SR, Étape 1 : réduction au cas quand le P-ensemble ne contient pas
de droites. Soit M un P-ensemble, de sorte que M est l’ensemble de toutes les solutions
d’un système soluble d’inégalités linéaires :
M = {x ∈ Rn | Ax ≤ b} (4.7)
avec une matrice A m × n . Un tel ensemble peut contenir des droites ; si h est la direction
d’une droite dans M , alors A(x + th) ≤ b pour certains x et tout t ∈ R, qui est possible
seulement si Ah = 0. Vice versa, si h est dans le noyau de A, c.-à-d., si Ah = 0, alors la
droite x + Rh avec x ∈ M est contenue dans M . ainsi, nous venons au suivant
Lemme 4.4.2 L’ensemble polyhedral non vide (4.7) contient des droites si et
seulement si le noyau de A est non trivial, et les vecteurs non nuls du noyau sont
exactement les directions des droites contenues dans M : si M contient une droite
dirigée par h, alors h ∈ Ker A, et, réciproquement, si 0 = h ∈ Ker A et x ∈ M
alors M contient la droite entière x + Rh.
Étant donné un ensemble non vide (4.7), notons L = Ker A le noyaux de A et L⊥ le
complément orthogonal du noyau. Soit M la section transversale de M par L⊥ :
M = {x ∈ L⊥ | Ax ≤ b}.
L’ensemble M ne contient pas de droites (car le vecteur-directeur de n’importe quelle droite
dans M , d’une part, devrait appartenir à L⊥ en raison M ⊂ L⊥ , et d’autre part, devrait
appartenir à L = Ker A, puisqu’une droite dans M ⊂ M est une droite dans M aussi bien).
L’ensemble M est non vide et, de plus, M = M + L. En effet, M contient les projections
orthogonales de tous les points de M sur L⊥ (car pour projeter un point sur L⊥ , vous devriez
vous déplacer de ce point suivant une certaine droite avec la direction dans L, et tous ces
déplacements qui commencent dans M , restent dans M par le Lemme) Ainsi M est non
vide, et tel que M + L ⊃ M . D’autre part, M ⊂ M et M + L = M par le Lemme 4.4.2,
d’où M + L ⊂ M , et, effectivement, M + L = M .
Les résultats de nos efforts sont comme suit : étant donné un P-ensemble arbitraire M ,
nous l’avons représenté comme une somme d’un P-ensemble M ne contenant pas de droites
et un sous-espace linéaire L Avec cette décomposition dans l’esprit nous voyons qu’afin de
réaliser notre objectif – montrer que chaque P-ensemble est SR-ensemble – il suffit de montrer
ce résultat pour des P-ensembles qui ne contiennent pas de droites. En effet, si M = M (S, R )
en notant par R l’ensemble fini tels que L = Cone (R ) (pour obtenir R , prenez l’ensemble
de 2 dim L vecteurs ±ai , i = 1, ..., dim L où a1 , ..., adim L est une base de L) nous obtenons
M = M + L
= [Conv(S) + Cone (R)] + Cone (R )
= Conv(S) + [Cone (R) + Cone (R )]
= Conv(S) + Cone (R ∪ R )
= M (S, R ∪ R )
(la quatrième égalité évidente dans la chaine nous est déjà connue).
90 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

P⇒SR, étape 2 : P-ensemble ne contient pas de droites. Nous sommes donnés

un P-ensemble dans Rn ne contenant pas de droites et nous devons montrer que c’est un SR-
ensemble. Nous prouverons ce résultat par induction sur la dimension n de l’espace. Le cas
de n = 0 est trivial. Supposons maintenant que le résultat en question est valide pour n ≤ k,
et essayons de montrer qu’il est valide également pour n = k + 1. Soit M un P-ensemble en
question dans Rk+1 :

M = {x ∈ Rk+1 | aTi x ≤ bi , i = 1, ..., m}. (4.8)

Sans perte de généralité nous pouvons supposer que tous les ai sont des vecteurs non nul
(comme M est non vide, les inégalités avec ai = 0 sont satisfaites sur Rn entier, et en les
enlevant du système, nous ne changeons pas l’ensemble de solutions). Notez que m > 0, car
autrement M contiendrait des droites, pour k ≥ 0.
10 . Supposons que M n’est pas borné, car autrement le résultat désiré est donné par
Theorem 4.4.2. J’affirme qu’il existe une direction récessive de M (voir le commentaire au
Lemme 4.2.1). En effet, soit x ∈ M , et soit xi ∈ M une suite des vecteurs avec les normes
convergeant vers ∞ (une telle suite existe, si M n’est pas borné). Considérez la suite de
vecteurs unitaires
ri = |xi − x|−1 (xi − x).
puisque la boule unité dans Rn est compacte, en passant à une subsequence nous pouvons
supposer que les vecteurs ri convergent vers un vecteur unitaire r non nul. Ce vecteur r est
la direction demandée. En effet, si t ≥ 0, alors les vecteurs
t
xti = x + tri = x + (xi − x)
|xi − x|
pour tout i assez grand (ceux pour lesquels |xi − x| ≥ t) sont les combinaisons convexes de
x et xi et appartiennent donc à M . Comme i → ∞, ces vecteurs convergent vers x + tr,
et comme M est fermé, nous concluons que x + tr ∈ M pour tout t non négatif. Ainsi, M
contient le rayon {x + tr | t ≥ 0}, d’où, par le Lemme 4.2.1, M + Cone ({r}) = M .
20 . Pour chaque i ≤ m, m étant le nombre de lignes de A dans (4.8), c.-à-d., le nombre
d’inégalités linéaires dans la description de M , notons par Mi la “facette” correspondante
de M – l’ensemble polyhedral indiqué par le système d’inégalités (4.8) dans lequel l’inégalité
aTi x ≤ bi est remplacé par l’égalité aTi x = bi . Certaines de ces “facettes” peuvent être vides ;
soit I l’ensemble d’indices i de facettes Mi non vides.
Quand i ∈ I, l’ensemble Mi est un ensemble polyhedral non vide, c.-à-d., un P-ensemble
– qui ne contient pas de droites (puisque Mi ⊂ M et M ne contient pas de droites). Par
ailleurs, Mi appartient à l’hyperplan {aTi x = bi }, c.-à-d., est en fait un P-ensemble dans Rk .
Par l’hypothèse inductive, nous avons des représentations

Mi = M (Si , Ri ), i ∈ I,

pour les ensembles Si et Ri non vides ﬁnis correctement choisis. Je prétends que

M = M (∪i∈I Si , ∪i∈I Ri ∪ {r}), (4.9)

où r est la direction récessive de M trouvé dans 10 ; pour completer notre preuve inductive
il nous reste à verifier cette affirmation,
Pour montrer (4.9), notez, tout d’abord, que l’ensemble sur le côté droit de cette relation
est contenu dans celui à gauche. En effet, comme Mi ⊂ M et Si ⊂ Mi , nous avons Si ⊂ M ,
et, également, S = ∪i Si ⊂ M ; puisque M est convexe, nous avons

Conv(S) ⊂ M. (4.10)

De plus, si r ∈ Ri , alors r est une direction récessive de Mi ; et comme Mi ⊂ M , r est

une direction récessive de M par le Lemme 4.2.1. Ainsi, chaque vecteur de ∪i∈I Ri est une
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 91

direction récessive pour M , de même pour r ; ainsi, chaque vecteur de R = ∪i∈I Ri ∪ {r} est
une direction récessive de M , d’où, encore par le Lemme 4.2.1,

M + Cone (R) = M.

En combinant cette relation avec (4.10), nous obtenons M (S, R) ⊂ M , comme demandé.
Il nous reste à montrer que M est contenu dans l’ensemble sur le côté droit de (4.9).
Soit x ∈ M , déplaçons-nous à partir de x dans la direction (−r), c.-à-d., le long du rayon
{x − tr | t ≥ 0}. Pour un t assez grand le point x − tr quitte M (en eﬀet, autrement le
rayon avec la direction −r qui commence en x serait contenu dans M , alors que le rayon
opposé pour sûr est contenu dans M puisque r est une direction récessive de M ; mais
c’aurait dit que M contient une droite, qui n’est pas le cas par hypothèse.) Comme le rayon
{x − tr | t ≥ 0} quite M et M est fermé, il existe le plus grand t, que l’on appelle t∗ , tels
que x = x − t∗ r appartient encore à M . Il est absolument clair qu’en x une des inégalités
linéaires déﬁnissant M devienne égalité, autrement nous pourrions légèrement augmenter
le paramètre t∗ en restant toujours dans M . Ainsi, x ∈ Mi pour un certain i ∈ I. En
conséquence,
x ∈ Conv(Si ) + Cone (Ri ),
et x = x + t∗ r ∈ Conv(Si ) + Cone (Ri ∪ {r}) ⊂ M (S, R), comme demandé.

SR⇒P
Nous savons déjà que chaque P-ensemble est un SR-ensemble. Maintenant nous mon-
trerons que chaque SR-ensemble est un P-ensemble, de ce fait accomplissant la preuve du
Théorème 4.3.1. Comme dans la preuve du Théorème 4.4.2, ceci sera fait en utilisant la
notion de l’ensemble polaire.
Ainsi soit M un SR-ensemble :

M = M (S, R), S = {s1 ..., sN }, R = {r1 ..., rM };

nous devons montrer que c’est un P-ensemble. Sans perte de généralité nous pouvons supposer
que 0 ∈ M .
10 . Soit M ∗ le polaire de M . J’aﬃrme que M ∗ est un P-ensemble. En eﬀet, f ∈ M ∗ si et
seulement si f T x ≤ 1 pour chaque x de la forme

(combinaison convexe de si ) + (combinaison conique de rj ),

c.-à-d., si et seulement si f T rj ≤ 0 pour tous j (autrement f T x n’est pas borné sur M ) et

f T si ≤ 1 pour tous i. Ainsi,

M ∗ = {f | sTi f ≤ 1, i = 1..., N, rjT f ≤ 0, j = 1..., n}

est un P-ensemble.
20 . Maintenant nous sommes faits : M ∗ est un P-ensemble, et par conséquent - nous le
savons déjà – est SR-ensemble. Par 10 , le polaire d’un SR-ensemble est un P-ensemble ; ainsi,

M = Polar (M ∗ ) [voir (4.6)]

est un P-ensemble.
Le Théorème 4.3.1 dit également que les ensembles du type M (S, {0}) sont exactement
les ensembles polyhedraux bornés (nous avons déjà vériﬁé ceci dans le Théorème 4.4.2) et
que les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux, c.-à-d., ceux
donnés par des systèmes ﬁnis d’inégalités linéaires homogènes non strictes. Ce dernier fait
est tout ce que nous avons encore à prouver. C’est facile :
92 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

D’abord, montrons qu’un cône polyhedral M peut être représenté comme M ({0}, S) pour
certain S . Comme tout ensemble polyhedral, M peut être représenté comme

M = Conv(S) + Cone (R); (4.11)

puisque, pour des raisons évidentes, Conv(S) ⊂ Cone (S), on obtient

M ⊂ Cone (S) + Cone (R) = Cone (S ∪ R). (4.12)

Puisque M , étant un cône, contient 0, et, d’autre part,

M + Cone (R) = Conv(S) + Cone (R) + Cone (R) = Conv(S) + Cone (R) = M

(puisque Cone (R) + Cone (R) est identique au Cone (R)), nous obtenons

Cone (R) = 0 + Cone (R) ⊂ M + Cone (R) = M ;

comme Cone (R) ⊂ M par (4.11) et S ⊂ M , le côté droit de (4.12) est l’enveloppe conique
des vecteurs de M et donc un sous-ensemble du cône M . Ainsi, l’inclusion dans (4.12) est en
fait égalité, et M = M ({0}, S ∪ R), comme exigé.
Il reste à démontrer que l’ensemble du type M = M ({0}, R) – qui est clairement un
cône – est un cône polyhedral. En tant qu’un SR-ensemble, M est donné par un système ﬁni
d’inégalités,
aTi x ≤ bi , i = 1, ..., m,
et tout ce que nous devrions prouver est que on peut choisir les inégalités homogènes (avec
bi = 0) dans le système. C’est immédiat : comme M est un cône, pour n’importe quelle
solution x du système ci-dessus tous les vecteurs tx, t ≥ 0, sont également des solutions, ce
qui est possible si et seulement si bi ≥ 0 pour tous i et aTi x ≤ 0 pour toutes les i et toutes les
solutions x du système. Il suit qu’en “renforçant” le système, c.-à-d., en remplaçant bi ≥ 0
par bi = 0, et de ce fait rendant le système homogène, nous ne changeons pas l’ensemble de
solutions.
4.5. EXERCICES 93

4.5 Exercices
Exercice 4.1 Prouver la Proposition 4.2.1.

Exercice 4.2 Soit M ensemble convexe dans Rn et x un point extrême de M . Montrez que si

m
x= λi xi
i=1

est une représentation de x comme une combinaison convexe des points xi ∈ M avec des poids
positifs λi , alors x = x1 = ... = xm .

Exercice 4.3 Soit M ensemble convexe fermé dans Rn et x̄ un point de M . Montrez que s’il
existe une forme linéaire aT x telle que x̄ est le minimiseur unique de la forme sur M , alors x̄
est un point extrême de M .

Exercice 4.4 Trouvez tous les points extrêmes de l’ensemble

{x ∈ R2 | −x1 + 2x2 ≤ 8, 2x1 + x2 ≤ 9, 3x1 − x2 ≤ 6, x1 , x2 ≥ 0}.

Exercice 4.5 Marquez avec ”o” les énoncés justes ci-dessous :

– si M est un ensemble convexe non vide dans Rn qui ne contient pas de droites, alors M
possède un point extrême ;
– si M est un ensemble convexe dans Rn qui a un point extrême, alors M ne contient pas
de droites ;
– si M est un ensemble convexe fermé et non vide dans Rn qui ne contient pas de droites,
alors M a un point extrême ;
– si M est un ensemble convexe fermé dans Rn qui possède un point extrême, alors M ne
contient pas de droites ;
– si M est un ensemble convexe non vide borné dans Rn , alors M est l’enveloppe convexe
de Ext(M )
– si M est un ensemble convexe non vide borné et fermé dans Rn , alors M est l’enveloppe
convexe de Ext(M )
– si M est un ensemble convexe non vide fermé dans Rn qui est égal à l’enveloppe convexe
de Ext(M ), alors M est borné.

Exercice facultatif : Théorème de Birkhoﬀ

Exercice 4.6 Une matrice π n × n s’appelle double stochastique, si toutes ses entrées sont non
négatives, et les sommes d’entrées dans chaque ligne et chaque colonne sont égales à 1, comme
c’est le cas avec la matrice identité ou, plus généralement, avec une matrice de permutation –
celle qui a exactement une entrée non nulle (égale à 1) dans chaque colonne et chaque ligne,
par exemple,
⎛ ⎞
0 1 0
π = ⎝0 0 1⎠.
1 0 0
Les matrices double stochastiques d’un ordre donné n forment un ensemble polyhedral convexe
borné et non vide D dans Rn×n . Quels sont les points extrêmes de cet ensemble ? La réponse
est donnée par le suivant
94 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Théorème 4.5.1 (Birkhoﬀ) Les points extrêmes du polytope D de matrices double stochastique
n × n sont exactement les matrices de permutation d’ordre n.

Essayez de prouver le Théorème.

Le Théorème de Birkhoﬀ est la source des nombreuses inégalités importantes ; certaines de ces
inégalités seront le sujet d’exercices facultatifs des prochains chapitres.
Chapitre 5

Fonctions Convexes

5.1 Fonctions convexes : premier abord

5.1.1 Définitions et Exemples
Définition 5.1.1 [Fonction convexe] Fonction f : Q → R défini sur un sous-ensemble Q non
vide de Rn à valeurs réelles s’appelle convexe, si
le domaine Q de la fonction est convexe ;
– pour tous x, y ∈ Q et chaque λ ∈ [0, 1],

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (5.1)

Si l’inégalité ci-dessus est stricte quelques soient x = y et 0 < λ < 1, la fonction f s’appelle
strictement convexe.

Fonction f telle que −f est convexe s’appelle concave ; le domaine Q d’une fonction concave
doit être convexe, et la fonction elle-même doit satisfaire l’inégalité opposée de (5.1) :

f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y), x, y ∈ Q, λ ∈ [0, 1].

L’exemple le plus simple d’une fonction convexe est la fonction aﬃne

f (x) = aT x + b

– la somme d’une forme linéaire et d’une constante. Cette fonction est convexe sur l’espace
entier, et le “d’inégalité de convexité” devient égalité pour cette fonction ; la fonction aﬃne est
également concave. On montre facilement que la fonction qui est convexe et concave sur l’espace
entier est une fonction d’aﬃne.
Voici quelques exemples élémentaires des fonctions convexes de “non-linéaires” d’une va-
riable :
– fonctions convexes sur l’axe entier :
x2p , p étant un entier positif ;
exp{x} ;
– fonctions convexes sur le rayon non négatif :
xp , 1 ≤ p ;
−xp , 0 ≤ p ≤ 1 ;
x ln x ;

95
96 CHAPITRE 5. FONCTIONS CONVEXES

– fonctions convexe sur le rayon positif :

1/xp , p > 0 ;
− ln x.
Pour l’instant il n’est pas clair pourquoi ces fonctions sont convexes ; nous allons bientôt
dériver un critère analytique simple pour détecter la convexité qui nous permettra de montrer
immédiatement que les fonctions ci-dessus sont en effet convexes.
Une définition équivalente très commode d’une fonction convexe est donnée en termes de son
epigraph. Étant donné une fonction à valeurs réelles f , définie sur un sous-ensemble non vide Q
de Rn , nous définissons son epigraph comme ensemble
Epi(f ) = {(t, x) ∈ Rn+1 | x ∈ Q, t ≥ f (x)};
géométriquement, pour définir l’epigraph, vous devez prendre le graphe de la fonction – la surface
{t = f (x), x ∈ Q} dans Rn+1 – et ajouter à cette surface tous les points qui sont “au-dessus”.
La definitions géométrique (équivalente) d’une fonction convexe est donné par
+
Proposition 5.1.1 [Définition de la convexité en termes d’epigraph] La fonction f définie
sur un sous-ensemble de Rn est convexe si et seulement si son epigraph est un ensemble convexe
non vide dans Rn+1 .

Plus d’exemples de fonctions convexes : les normes. En utilisant la Proposition 5.1.1,

nous pouvons prolonger notre liste initiale de fonctions convexes (certaines fonctions unidimen-
sionnelles et affine) avec des normes. Comme nous nous rappelons du Chapitre 1, une fonction
à valeurs réelles π(x) sur Rn s’appelle une norme, si elle est non négative partout étant nulle
seulement en zéro, est homogène :
π(tx) = |t|p(x)
et satisfait l’inégalité de triangle
π(x + y) ≤ π(x) + π(y).
√
Pour l’instant nous connaissons trois exemples de normes – la norme Euclidienne |x| = xT x,

la norme-1 |x|1 = i |xi | et la norme-inf ty |x|∞ = maxi |xi |. Il était aussi réclamé (bien que
pas vérifie) que ces sont trois membres d’une famille infinie de, de normes
n 1/p

|x|p = |xi |
p
, q≤p≤∞
i=1

(|x| est exactement |x|2 , et la partie à droite dans cette relation avec p = ∞ est par déﬁnition,
maxi |xi |).
Nous sommes sur le point de montrer que chaque norme est convexe :
Proposition 5.1.2 Soit π(x) une fonction à valeurs réelles sur Rn qui est positivement ho-
mogène de degré 1 :
π(tx) = tπ(x) ∀x ∈ Rn , t ≥ 0.
π est convexe si et seulement si elle est sous-additive :
π(x + y) ≤ π(x) + π(y) ∀x, y ∈ Rn .
En particulier, une norme (qui par déﬁnition est positivement homogène de degré 1 et est sous-
additive) est convexe.
5.1. FONCTIONS CONVEXES : PREMIER ABORD 97

Preuve est immédiate : l’epigraph d’une fonction π positivement homogène du degré 1 est
un ensemble conique : (t, x) ∈ Epi(π) → λ(t, x) ∈ Epi(π) pour tous λ ≥ 0. Maintenant, par
Proposition 5.1.1 π est convexe si et seulement si epi(π) est convexe. De la Proposition 2.1.4
nous savons qu’un ensemble conique est convexe (c.-à-d., est un cône) si et seulement s’il contient
la somme de chaque paire de ses éléments ; cette dernière propriété est satisfaite pour l’epigraph
d’une fonction à valeurs réelles si et seulement si la fonction est sous-additif (évident).

5.1.2 Propriétés élémentaires de fonctions convexes

Inégalité de Jensen
Proposition 5.1.3 [l’inégalité de Jensen] Soit f fonction convexe et soit Q le domaine de f .
Alors pour n’importe quelle combinaison convexe

N
λi xi
i=1

des points de Q on a

N
N
f( λi xi ) ≤ λi f (xi ).
i=1 i=1

La preuve est immédiate : les points (f (xi ), xi ) appartiennent clairement à l’epigraph de f ;

comme f est convexe, son epigraph est un ensemble convexe, de sorte que la combinaison convexe

N
N
N
λi (f (xi ), xi ) = ( λi f (xi ), λi xi )
i=1 i=1 i=1

de ces points appartient également à Epi(f ). Par la déﬁnition de l’epigraph, ça implique
N N
i=1 λi f (xi ) ≥ f ( i=1 λi xi ).
Notez que la déﬁnition de la convexité d’une fonction f est exactement la condition que f
satisfait l’inégalité de Jensen dans le cas de N = 2 ; nous voyons que satisfaire cette inégalité
pour N = 2 est la même chose que la satisfaire pour tout N .

Convexité d’ensembles de niveau d’une fonction convexe

L’observation simple suivante est également très utile :
Proposition 5.1.4 [Convexité d’ensembles de niveau] Soit f une fonction convexe avec le do-
maine Q. Alors, pour tout réel α, l’ensemble
levα (f ) = {x ∈ Q | f (x) ≤ α}
– l’ensemble de niveau α de f – est convexe.
La preuve prend une ligne : si x, y ∈ levα (f ) et λ ∈ [0, 1], alors f (λx + (1 − λ)y) ≤ λf (x) + (1 −
λ)f (y) ≤ λα + (1 − λ)α = α, de sorte que λx + (1 − λ)y ∈ levα (f ).
Notez que la convexité des ensembles de niveau ne caractérise pas les fonctions convexes ; il y
a des fonctions non convexes qui partagent cette propriété (par exemple, toute fonction monotone
d’une variable). La caractérisation “correcte” des fonctions convexes en termes d’ensembles
convexes est donnée par Proposition 5.1.1 – les fonctions convexes sont exactement les fonctions
avec les épigraphes convexes. La convexité des ensembles de niveau déﬁnie une famille plus large
des fonctions, celle qu’on appelle fonctions quasi-convexes.
98 CHAPITRE 5. FONCTIONS CONVEXES

5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ?
Littéralement, cette question n’a pas de sens. Néanmoins, en parlant au sujet des fonctions
convexes, il est extrêmement commode de penser que la fonction a une valeur également en
dehors de son domaine, à savoir, la valeur +∞ ; avec cette convention, nous pouvons dire que
une fonction convexe sur Rn est une fonction à valeurs sur l’axe étendue R ∪ {+∞} tels que le
domaine domf de la fonction – l’ensemble des x où f (x) est ﬁni – est non vide, et pour tous les
x, y ∈ Rn et tout λ ∈ [0, 1] on a

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (5.2)

Si l’expression dans le côté droit contient des valeurs infinies, sa valeur est déterminée selon
les conventions standard et raisonnables sur ce qui sont des opérations arithmétiques sur “l’axe
réelle étendue” R ∪ {+∞} ∪ {−∞} :
– les opérations arithmétiques avec des réels sont comprises dans leur sens habituel ;
– la somme de +∞ et d’un réel, de même que la somme de +∞ et de +∞ est +∞ ; La
somme d’un réel et de −∞, même que la somme de −∞ et de −∞ est −∞. La somme de
+∞ et de −∞ est non définie ;
– le produit d’un réel et de +∞ est +∞, 0 ou −∞, si le réel est positif, zéro ou négatif, de
même pour le produit d’un réel et de −∞. Le produit de deux “infinis” est encore infini,
avec la règle habituelle pour déterminer le signe du produit.
Note that it is not clear in advance that our new definition of a convex function is equivalent
to the initial one : initially we included into the definition requirement for the domain to be
convex, and now we omit explicit indicating this requirement. In fact, of course, the definitions
are equivalent : convexity of Dom f – i.e., the set where f is finite – is an immediate consequence
of the “convexity inequality” (5.2).
Il est commode de penser à une fonction convexe comme à quelque chose qui est définie
partout, puisque ça permet d’économiser beaucoup de mots. Par exemple, avec cette convention
je peux écrire f + g (quand f et g sont deux fonctions convexes sur Rn ), et tout le monde
comprendra ce qui cela signifie ; sans cette convention, j’aurais du ajouter à cette expression
l’explication comme suit : “f + g est une fonction avec le domaine étant l’intersection de ceux
de f et de g, et dans cette intersection elle est définie comme (f + g)(x) = f (x) + g(x)”.

5.2 Comment détecter la convexité

Dans un problème d’optimisation

f (x) → min | gj (x) ≤ 0, j = 1, ..., m

la convexité de l’objectif f et des contraintes gi est cruciale : il s’avère que les problèmes avec
cette propriété possèdent les propriétés théoriques très agréables (par exemple, les conditions
locales nécessaires d’optimalité pour ces problèmes sont suﬃsantes pour l’optimalité globale) ;
et ce qui est beaucoup plus important, des problèmes convexes peuvent être résolus eﬃcacement
(dans le sens théorique et, dans une certaine mesure, dans le sens pratique de ce mot), ce qui
n’est pas, malheureusement, le cas pour des problèmes non convexes généraux. C’est pourquoi
il est si important de savoir comment détecter la convexité d’une fonction donnée.
5.2. COMMENT DETECTER LA CONVEXITE 99

Le plan de notre recherche est typique pour des mathématiques. Commençons par l’exemple
que vous connaissez de l’Analyse. Comment détectez-vous la continuité d’une fonction ? Natu-
rellement, il y a une définition de continuité en termes de et δ, mais ce serait vraiment un
désastre si chaque fois que nous devons prouver la continuité d’une fonction, nous étions obligés
re-démontrer que “pour tout positif il existe δ positif tels que...”. En fait nous employons une
autre approche : nous énumérons une fois pour toutes un certain nombre d’opérations standard
qui préservent la continuité, comme l’addition, la multiplication, des superpositions, etc., et
précisons un certain nombre d’exemples standards des fonctions continues. Pour montrer que
les opérations dans la liste préservent la continuité, de même que montrer que les fonctions
standards sont continues, ceci demande un certain effort, et les preuves sont faites en termes de
− δ ; mais après que cet effort soit une fois fourni, nous n’avons normalement aucune difficulté
à prouver la continuité d’une fonction donnée : il suffit de démontrer que la fonction peut être
obtenue, en nombre fini d’étapes, de nos ”matières premières” – fonctions standards qui sont
continues – en appliquant nos “machines” – les règles de combinaison qui préservent la conti-
nuité. Normalement cette démonstration est effectuée par un mot simple ”évident” ou même est
comprise par défaut.
C’est exactement le cas avec la convexité. Ici nous devrions également préciser la liste
d’opérations qui préservent la convexité et un certain nombre de fonctions convexes standards.

5.2.1 Opérations préservant la convexité des fonctions

Ces opérations sont comme suit :
– [Stabilité par rapport aux sommes pondérées] si f et g sont des fonctions convexes sur
Rn , alors leur combinaison linéaire λf + μg avec des coefficients non négatifs est encore
convexe, à condition que elle soit finie au moins dans un point ;
[ceci est donné par la vérification directe de la définition]
– [Stabilité par rapport aux substitutions affines de l’argument] La superposition f (Ax + b)
d’une fonction convexe f sur Rn et d’une transformation affine x → Ax + b de Rm dans
Rn est convexe, à condition que il soit fini au moins en un point.
[ vous pouvez le prouver directement en vérifiant la définition ou en notant que l’epigraph
de la superposition, si il est non vide, est l’image inverse de l’epigraph de f sous une
transformation affine]
– [Stabilité par rapport à la maximisation] la borne supérieure supα fα (·) de n’importe quelle
famille des fonctions convexes sur Rn est convexe, à condition que cette borne soit finie
au moins en un point.
[pour le comprendre, notez que l’epigraph de la borne supérieure est bien l’intersection
des épigraphes des fonctions de la famille ; rappelez-vous que l’intersection de n’importe
quelle famille d’ensembles convexes est convexe]
– [“Superposition convexe monotone”] Soit f (x) = (f1 (x), ..., fk (x)) fonction vectorielle sur
Rn avec les composants fi convexes, et soit F une fonction convexe sur Rk qui est mono-
tone, c.-à-d., tels que z ≤ z implique toujours F (z) ≤ F (z ). Alors la superposition

φ(x) = F (f (x)) = F (f1 (x), ..., fk (x))

est convexe sur Rn , à condition qu’elle est ﬁnie au moins en un point.

Remarque 5.2.1 L’expression F (f1 (x), ..., fk (x)) n’a pas de sens au point x où certaines
des fi sont +∞. Par déﬁnition, dans ce point on assigne la valeur +∞ à la superposition.
100 CHAPITRE 5. FONCTIONS CONVEXES

[Pour justiﬁer cette règle, notez que si λ ∈ (0, 1) et x, x ∈ Dom φ, alors z = f (x), z = f (x )
sont les vecteurs dans Rk qui appartiennent au Dom F , et par la convexité des composants
de f nous avons
f (λx + (1 − λ)x ) ≤ λz + (1 − λ)z ;
en particulier, nous avons sur la gauche un vecteur de Rk qui n’a pas d’entrees inﬁnies, et
nous pouvons user la monotonie de F :

φ(λx + (1 − λ)x ) = F (f (λx + (1 − λ)x )) ≤ F (λz + (1 − λ)z ).

Maintenant, on utilise la convexité de F :

F (λz + (1 − λ)z ) ≤ λF (z) + (1 − λ)F (z )

pour obtenir la relation demandée

φ(λx + (1 − λ)x ) ≤ λφ(x) + (1 − λ)φ(x ).

]
(Imaginez combien de mots supplémentaires seraient nécessaires ici s’il n’y avait aucune conven-
tion sur la valeur d’une fonction convexe en dehors de son domaine !)
nous avons deux règles supplémentaires :
– [stabilité sous la minimisation partielle] si f (x, y) : Rnx × Rm
y est convexe comme
fonction de z = (x, y) et la fonction

g(x) = inf f (x, y)

est dite propre, c.-à-d., est > −∞ partout et est ﬁni au moins en un point, alors g est
convexe
[ceci peut être montré comme suit. Nous devrions prouver que si x, x ∈ Dom g et x =
λx + (1 − λ)x avec λ ∈ [0, 1], alors x ∈ Dom g et g(x ) ≤ λg(x) + (1 − λ)g(x ). Étant
donné positif nous pouvons trouver y et y tels que (x, y) ∈ Dom f , (x , y ) ∈ Dom f
et g(x) + ≥ f (x, y), g(x ) + ≥ f (x , y ). En prenant la somme pondérée de ces deux
inégalités, nous obtenons

λg(x) + (1 − λ)g(y) + ≥ λf (x, y) + (1 − λ)f (x , y ) ≥

(car f est convexe)

≥ f (λx + (1 − λ)x , λy + (1 − λ)y ) = f (x , λy + (1 − λ)y )

(le dernier ≥ suit à nouveau de la convexité de f ). La dernière quantité dans la chaine

est ≥ g(x ), et nous obtenons g(x ) ≤ λg(x) + (1 − λ)g(x ) + . En particulier, x ∈
Dom g (on a supposé que g prend seulement les valeurs dans R et la valeur +∞).
De plus, puisque l’inégalité résultante est valide pour tout le > 0, nous venons au
g(x ) ≤ g(x)λ + (1 − λ)g(x ), comme exigé.]
– la “transformation conique” d’une fonction convexe f sur Rn , c.-à-d. la fonction
g(y, x) = yf (x/y), est convexe dans le demi-espace y > 0 de Rn+1 .
Maintenant nous savons quelles sont les opérations de base préservant la convexité. Voyons
quelles peuvent les fonctions simples auxquelles ces opérations peuvent être appliquées. Nous
avons deja un certain nombre d’exemples, mais nous ne savons toujours pas pourquoi les fonctions
dans les exemples sont convexes. La façon habituelle de vériﬁer la convexité d’une fonction
“simple” est basée sur le critère diﬀérentiel de convexité.
5.2. COMMENT DETECTER LA CONVEXITE 101

5.2.2 Critère diﬀérentiel de convexité

De la définition de la convexité d’une fonction il suit immédiatement que la convexité est
une propriété “unidimensionnelle” : une fonction propre f sur Rn (c.-à-d., finie au moins en un
point) qui prend ses valeurs dans R ∪ {+∞} est convexe si et seulement si sa restriction sur
n’importe quelle droite, c.-à-d., n’importe quelle fonction du type g(t) = f (x + th) sur la droite,
est soit convexe, soit identiquement +∞.
Il en découle que pour détecter la convexité d’une fonction, il suffit, en principe, de savoir
détecter la convexité des fonctions d’une variable. Cette dernière question peut être résolue par
les outils standard de calcul. À savoir, dans le calcul on a prouve

Proposition 5.2.1 [Condition nécessaire et suffisant de convexité pour des fonctions régulières
sur la droite] Soit (a, b) un intervalle sur l’axe réelle (nous n’excluons pas le cas de a = −∞
et/ou b = +∞). Alors
(i) Une fonction f qui est différentiable partout sur (a, b) est convexe sur (a, b) si et seulement
si sa dérivée f est monotone non décroissante sur (a, b) ;
(ii) Une fonction f deux fois différentiable sur (a, b) est convexe sur (a, b) si et seulement sa
dérivée seconde f est non négatif partout sur (a, b).

Avec la proposition, on peut immédiatement vérifier que les fonctions énumérées comme
exemples des fonctions convexes dans la Section 5.1.1 sont en effet convexes. La seule difficulté
qu’on rencontre est que certaines de ces fonctions (par exemple, xp , p ≥ 1, et −xp , 0 ≤ p ≤ 1
ont été annoncées d’être convexes sur le mi-intervalle [0, +∞), alors que la proposition parle
de la convexité des fonctions sur des intervalles ouverts. Pour surmonter cette difficulté, on va
employer le fait suivant :

Proposition 5.2.2 Soit M un ensemble convexe et f une fonction avec Dom f = M . Supposons
que f est convexe sur ri M et continu sur M , c.-à-d.

f (xi ) → f (x), i → ∞,

pour toutes suite convergeante (xi ) vers x dans M . Alors f est convexe sur M .
Preuve de la Proposition 5.2.1 :
(i), nécessité. Suppons que f est diﬀérentiable et convexe sur (a, b) ; nous devrions montrer
qu’alors f monotone non décroissante. Soient x < y deux points de (a, b), et montrons que
f (x) ≤ f (y). En eﬀet, soit z ∈ (x, y). Nous avons la représentation suivante de z comme
combinaison convexe de x et y :
y−z x−z
z= x+ y,
y−x y−x
d’où, par convexité,
y−z x−z
f (z) ≤ f (x) + f (y),
y−x y−x
d’où
f (z) − f (x) f (y) − f (z)
≤ .
x−z y−z
Passant ici à la limite quand z → x + 0, nous obtenons

f (y) − f (x)
f (x) ≤ ,
y−x
102 CHAPITRE 5. FONCTIONS CONVEXES

et en passant dans la même inégalité à la limite en z → y − 0, nous obtenons

f (y) − f (x)
f (y) ≥ ,
y−x

d’où f (x) ≤ f (y), comme promis.

(i), suffisance : nous devons montrer que si f est différentiable sur (a, b) et f non mo-
notone non décroissante sur (a, b), alors f est convexe sur (a, b). Il suffit de vérifier que si
x < y, x, y ∈ (a, b), et z = (1 − λ)x + λy avec 0 < λ < 1, alors

f (z) ≤ (1 − λ)f (x) + λf (y),

ou, ce qui est la même chose (il suﬃt d’écrire f (z) comme λf (z) + (1 − λ)f (z)), que

f (z) − f (x) f (y) − f (z)

≤ .
λ 1−λ
Notez que z − x = λ(y − x) et y − z = (1 − λ)(y − x), nous voyons que l’inégalité que nous
devrions prouver est équivalent à

f (z) − f (x) f (y) − f (z)

≤ .
z−x y−z
Mais sous cette forme équivalente l’inégalité est évidente : par le Théorème de valeur in-
termédiaire de Lagrange, le côté gauche est f (ξ) avec un certain ξ ∈ (x, z), alors que le côté
droit est f (η) avec un certain η ∈ (z, y). Puisque f est non décroissante et ξ ≤ z ≤ η, nous
avons f (ξ) ≤ f (η).
(ii) est conséquence immédiate de (i), puisque, comme nous savons, une fonction
différentiable – dans le cas en question, c’est f , est monotone non décroissante sur un
intervalle si et seulement si son dérivée est non négatif sur cet intervalle.
En fait, pour les fonctions d’une variable il y a un critère différentiel de la convexité qui
“ne présume pas” de régularité (nous l’acceptons sans preuve) :
Proposition 5.2.3 [Critère de convexité pour des fonctions univariées]
Soit g : R → R∪{+∞} une fonction. Supposons que son domaine δ = {t | g(t) < ∞} est
un ensemble convexe qui n’est pas un singleton, c.-à-d.. un intervalle (a, b) avec probablement
un ou deux les deux extrémités (−∞ ≤ a < b ≤ ∞). Alors g est convexe si et seulement s’il
répond aux 3 exigences suivantes :
1) g est continu sur (a, b) ;
2) g est différentiable partout sur (a, b), à l’exclusion de’un ensemble dénombrable de
points, et la dérivée g (t) est non décroissante sur son domaine ;
3) à chaque extrémité u de l’intervalle (a, b) qui appartient à δ g est semi-continu
supérieure :
g(u) ≥ lim supt∈(a,b),t→u g(t).
Preuve de la Proposition 5.2.2 : Soit x, y ∈ M et z = λx + (1 − λ)y, λ ∈ [0, 1]. Nous
devons prouver que
f (z) ≤ λf (x) + (1 − λ)f (y).
Comme nous savons du Théorème 2.1.1.(iii), ils existent des suites convergeantes xi ∈ ri M
et yi ∈ ri M , respectivement vers x et y. Alors zi = λxi + (1 − λ)yi converge vers z quand
i → ∞, et comme f est convexe sur ri M , nous avons

f (zi ) ≤ λf (xi ) + (1 − λ)f (yi );

En passant à la limite, comme xi , yi , zi convergent, quand i → ∞, vers x, y, lez ∈ M respec-

tivement et f continu sur M , nous obtenons l’inégalité exigée.
5.2. COMMENT DETECTER LA CONVEXITE 103

Des Propositions 5.2.1.(ii) et 5.2.2 nous obtenons la conditions nécessaire et suffisante suivant
pour la convexité de la fonction régulière de n variables :
Corollaire 5.2.1 [Critère de convexité pour des fonctions régulières sur Rn ]
Soit f : Rn → R ∪ {+∞} une fonction. Supposons que le domaine Q de f est un ensemble
convexe avec un intérieur non vide et que f est
– continu sur le Q
– deux fois différentiable sur l’intérieur de Q.
Alors f est convexe si et seulement si son Hessian est semidefinite positif sur l’intérieur de Q :
hT f (x)h ≥ 0 ∀x ∈ int Q ∀h ∈ Rn .
∗
Preuve : La partie “seulement si” est évidente : si f est convexe et x ∈ Q = int Q,
alors la fonction d’une variable g(t) = f (x + th), où h est une direction arbitraire dans
Rn , est convexe dans un certain voisinage du point t = 0 sur l’axe réelle (les substitutions
affines d’arguments conservent la convexité). Puisque f est deux fois différentiable dans
un voisinage de x, g est deux fois différentiable dans un voisinage de t = 0, de sorte que
g (0) = hT f (x)h ≥ 0 par Proposition 5.2.1.
Il nous reste de prouver la partie “si”. Supposons alors que nous soyons donnés
hT f (x)h ≥ 0 pour chaque x ∈ int Q et chaque h ∈ Rn . Nous devons montrer que f
est convexe.
Montrons d’abord que f est convexe sur l’intérieur Q du domaine Q. Comme nous savons
du Théorème 2.1.1, Q est un ensemble convexe. Tout ce que nous devons prouver est que
chaque version unidimensionnelle
g(t) = f (x + t(y − x)) 0 ≤ t ≤ 1
avec x et y dans Q est convexe sur le segment 0 ≤ t ≤ 1. Puisque f est continu sur Q ⊃ Q , g

est continu sur le segment ; et puisque f est deux fois différentiable sur Q , g est différentiable
sur (0, 1) avec la deuxième dérivée
g (t) = (y − x)T f (x + t(y − x))(y − x) ≥ 0.
En conséquence, g est convexe sur [0, 1] (Propositions 5.2.1.(ii) et 5.2.2). Ainsi, f est convexe
sur Q . Il reste pour noter que f , étant convexe sur Q et continu sur Q, est convexe sur Q
par Proposition 5.2.2.
En appliquant les règles de combinaison qui préservent la convexité aux fonctions simples qui
passent le test “infinitésimal” de convexité, nous pouvons prouver la convexité des fonctions
complexes. Considérons, par exemple, un posynôme exponentiel – la fonction

N
f (x) = ci exp{aTi x}
i=1
avec les coefficients positifs ci (c’est pourquoi la fonction s’appelle posynomiale). Comment
pourrions-nous montrer que la fonction est convexe ? C’est immédiat :
exp{t} est convexe (puisque sa dérivée seconde est positive et donc la première dérivée est
monotone) ;
par conséquent, toutes les fonctions exp{ati x} sont convexes (la stabilité de la convexité par
rapport aux substitutions affines d’argument) ;
par conséquent, f est convexe (stabilité de la convexité par rapport aux combinaisons linéaires
avec des coefficients non négatifs).
Et si nous étions censés de montrer que le maximum des trois posynomes est convexe ? Et
bien, nous pourrions ajouter à nos trois étapes le quatrième, qui se rapporte à la stabilité de la
convexité sous p la maximisation ponctuelle.
104 CHAPITRE 5. FONCTIONS CONVEXES

5.3 Inégalité du Gradient

Une propriété extrêmement importante d’une fonction convexe est donnée par la proposition
suivante :
Proposition 5.3.1 [Inégalité du gradient] Soit f une fonction à valeurs ﬁnies et valeur +∞,
et soit x un point intérieur du domaine de f et soit Q soit un ensemble convexe contenant x.
On suppose que
– f est convexe sur Q,
– f est diﬀérentiable en x.
Soit ∇f (x) le gradient de la fonction en x. Alors nous avons l’inégalité suivante :

(∀y ∈ Q) : f (y) ≥ f (x) + (y − x)T ∇f (x). (5.3)

Géométriquement : le graph

{(y, t) ∈ Rn+1 | y ∈ Dom f ∩ Q, t = f (y)}

de la fonction f limitée à l’ensemble Q est au-dessus du graph

{(y, t) ∈ Rn+1 | t = f (x) + (y − x)T ∇f (x)}

de la forme linéaire tangente à f en x.

Preuve : Soit y ∈ Q. Il n’y a rien à prouver si y ∈ Dom f (puisque le côté droit dans l’inégalité
de gradient est +∞), même qu’il n’y a rien à montrer quand y = x. Ainsi, nous pouvons supposer
que y = x et y ∈ Dom f . Posons

yτ = x + τ (y − x), 0 < τ ≤ 1,

de sorte que y1 = y et yτ soit un point intérieur du segment [x, y] pour 0 < τ < 1. Maintenant
nous utilisons le lemme suivant :
Lemme 5.3.1 Soit x, x , x trois points distincts avec x ∈ [x, x ], et soit f
convexe et ﬁni sur [x, x ]. Alors
f (x ) − f (x) f (x ) − f (x)
≤ . (5.4)
x − x x − x
Preuve du Lemme : Nous avons
x − x
x = x + λ(x − x), λ= ∈ (0, 1)
x − x
ou
x = (1 − λ)x + λx .
Par la convexité de f ,
f (x ) ≤ (1 − λ)f (x) + λf (x ),
ou
f (x ) − f (x) ≤ λ(f (x ) − f (x )).
En divisant par λ et en soumettant dans cette formule la valeur de λ, nous obtenons
(5.4).
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES105

En appliquant le lemme au triplet x, x = yτ , x = y, nous obtenons

f (x + τ (y − x)) − f (x) f (y) − f (x)
≤ ;
τ y−x y−x
quand τ → +0, le côté gauche de cette inégalité, par la déﬁnition du gradient, tend vers
y − x −1 (y − x)T ∇f (x), et nous avons

y − x −1 (y − x)T ∇f (x) ≤ y − x −1 (f (y) − f (x)).

Autrement dit,
(y − x)T ∇f (x) ≤ f (y) − f (x);
ce qui est exactement l’inégalité (5.3).
Pour conclure l’histoire de l’Inégalité du Gradient, il est utile de noter que dans le
cas quand Q est un ensemble convexe avec l’intérieur non vide et f est continu sur Q et
différentiable sur int Q, alors f est convexe sur Q si et seulement si l’Inégalité du Gradient
(5.3) est vérifiée pour chaque paire x int Q et y ∈ Q.
En effet, la partie “seulement si”, c.-à-d., l’implication
la convexité de f → Inégalité du Gradient pour tout x ∈ int Q et tout y ∈ Q
est donnée par la Proposition 5.3.1. Pour prouver la partie “si”, c.-à-d., pour établir l’impli-
cation réciproque, supposons que f satisfait l’inégalité de gradient pour tout le x ∈ int Q et
tout le y ∈ Q, et vérifions que f est convexe sur Q. Il suffit de montrer que f est convexe sur
l’intérieur Q de l’ensemble Q (voir la Proposition 5.2.2). Pour montrer que f est convexe sur
Q , notez que Q est convexe (Théorème 2.1.1) et que, en raison de l’Inégalité du Gradient,
sur Q f est la borne supérieure de la famille affine (et donc convexe) des fonctions :

f (y) = sup fx (y), fx (y) = f (x) + (y − x)T ∇f (x).

x∈Q

5.4 Bornitude et la propriété de Lipschitz des fonctions

convexes
Les fonctions convexes possèdent des très bonnes propriétés locales.
Théorème 5.4.1 [Bornitude et continuité de Lipschitz de fonctions convexes]
Soit f une fonction convexe et soit K un ensemble fermé et borné contenu dans l’intérieur
relatif du domaine domf de f . Alors f est Lipschitzienne sur K, c.-à-d. qu’il existe la
constante L, nommée la constante de Lipschitz de f sur K, tels que

|f (x) − f (y)| ≤ L|x − y| ∀x, y ∈ K. (5.5)

En particulier, f est bornée sur K.

Remarque 5.4.1 Chacune des trois conditions sur K – (1) la fermeture, (2) la bornitude
et (3) K ⊂ ri Dom f – sont essentielles, ce qu’on peut voir dans les trois exemples suivants :
– f (x) = 1/x, Dom f = (0, +∞), K = (0, 1]. Nous avons (2), (3) mais pas (1) ; f n’est
ni bornée, ni Lipschitzienne sur K.
– f (x) = x2 , Dom f = R, K = R. Nous avons (1), (3) mais pas (2) ; f n’est ni bornée
ni Lipschitz
√ sur K.
– f (x) = − x, Dom f = [0, +∞), K = [0, 1]. Nous avons (1), (2) et pas (3) ; f n’est pas
Lipschitzienne sur K 1) , bien qu’elle soit bornée. Nous pourrions construire également

1. ) en eﬀet, nous avons limt→+0 f (0)−f

t
(t)
= limt→+0 t−1/2 = +∞, alors que pour une fonction f Lipschitzienne
−1
les ratios t (f (0) − f (t)) devraient être bornées
106 CHAPITRE 5. FONCTIONS CONVEXES

une fonction convexe f de deux variables qui n’est pas bornée, avec un domaine com-
pact non-polyhedral (par exemple, avec Dom f étant le disque unité), pour lequel (1)
et (2) sont veriﬁer, mais pas (3).
Remarque 5.4.2 Théorème 5.4.1 dit qu’une fonction convexe f est bornée sur tout sous-
ensemble compact de l’intérieur relatif de Dom f . En fait il y a un résultat bien plus fort sur
la borne inférieure de f : f est bornée inférieurement sur tout sous-ensemble borne de Rn !
Preuve du Théorème 5.4.1. Nous commencerons par la version locale suivante du
théorème.
Proposition 5.4.1 Soit f une fonction convexe, et soit x̄ un point de l’intérieur relatif du
domaine Dom f de f . Alors
(i) f est bornée en x̄ : il existe un r positif tels que f est bornée dans le r-voisinage Ur (x̄)
de x̄ dans l’enveloppe aﬃne de Dom f :

∃r > 0, C : |f (x)| ≤ C ∀x ∈ Ur (x̄) = {x ∈ Aﬀ(Dom f ) | x − x̄ ≤ r};

(ii) f est Lipschitzienne en x̄, c.-à-d., il existe un ρ positif et une constante L tels que

|f (x) − f (x )| ≤ L x − x ∀x, x ∈ Uρ (x̄).

Implication “Proposition 5.4.1 ⇒ Théorème 5.4.1” est donné par un raisonnement

standard d’Analyse. Tout ce que nous avons besoin de montrer que si K est un sous-ensemble
borné et fermé (c.-à-d., un ensemble compacte) de ri Dom f , alors f est Lipschitzienne K
(la bornitude de f sur K est une conséquence évidente de la propriété de Lipschitz sur K et
de la bornitude de K). Supposons, au contraire, que f n’est pas Lipschitzienne sur K ; alors
pour chaque entier i il existe une paire de points xi , yi ∈ K tels que

f (xi ) − f (yi ) ≥ i|xi − yi |. (5.6)

Puisque K est compact, en passant à une sous-suite nous pouvons supposer que le xi → x ∈ K
de et yi → y ∈ K. Par la Proposition 5.4.1 le cas x = y est impossible – f est Lipschitzienne
dans un voisinage B de x = y ; comme xi → x et yi → y, ce voisinage devrait contenir tous
les xi et yi avec i assez grands ; mais alors, grâce à la propriété de Lipschitz de f dans B,
les rapports (f (xi ) − f (yi ))/|xi − yi | forment une suite bornée, ce qui n’est pas le cas par
hypothèse.
Le cas x = y est “encore moins” possible – puisque, par la proposition, f est continu
sur Dom f , en deux points x et y (notez que la propriété de Lipschitz en un point implique
clairement la continuité de la fonction), de sorte que nous ayons f (xi ) → f (x) et f (yi ) → f (y)
quand i → ∞. Ainsi, le côté gauche de (5.6) reste borné quand i → ∞. Dans le côté droit i
tend vers ∞, et le facteur |xi − yi | a une limite de non nulle |x − y|, ainsi le côté droit tend
vers ∞ avec i, ce qui mène à la contradiction.
Preuve de la Proposition 5.4.1.
10 . Nous commençons par montrer que la fonction f est bornée au-dessus dans un voisi-
nage de x̄. C’est immédiat : nous savons qu’il existe un voisinage Ur̄ (x̄) qui est contenu dans
Dom f (puisque, par hypothèse, x̄ est un point de l’intérieur relatif de Dom f ). Maintenant,
nous pouvons trouver un petit simplex Δ de dimension m = dim Aff(Dom f ) avec les som-
mets x0 , .., xm dans Ur̄ (x̄) de telle manière que x̄ soit une combinaison convexe des vecteurs
xi avec des coefficients positifs, et même avec les coefficients 1/(m + 1) :
m
1
x̄ = xi 2) .
i=0
m+1

2. ) pour voir qu’un tel Δ existe, nous pouvons agir comme suit : d’abord, le cas de Dom f étant un singleton
est évident, ainsi nous pouvons supposer que Dom f est un ensemble convexe de dimension m ≥ 1. Prenons une
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES107

Nous savons que x̄ est le point de l’intérieur relatif de Δ (regarder la preuve du Théorème
2.1.1.(ii)) ; puisque Δ engendre le même ensemble affine que Dom f (m est bien la dimension
de Aff(Dom f ) !), cela signifie que Δ contient Ur (x̄) avec certain r > 0. Maintenant, dans
m

Δ={ λi xi | λi ≥ 0, λi = 1}
i=0 i

f est bornée supérieurement par max0≤i≤m f (xi ) grâce à l’inégalité de Jensen :

m m

f( λi xi ) ≤ λi f (xi ) ≤ max f (xi ).
i
i=0 i=0

En conséquence, f est bornée supérieurement (par la même quantité) dans Ur (x̄).

20 . Montrons que si f est bornée supérieurement par un certain C dans Ur (x̄), alors elle
est bornée inférieurement dans ce voisinage (et, par conséquent, est tout simplement bornée
dans Ur ). En effet, soit x ∈ Ur , de sorte que x ∈ Aff(Dom f ) et x − x̄ ≤ r. En posant
x = x̄ − [x − x̄] = 2x̄ − x, on obtient x ∈ Aff(Dom f ) et x − x̄ = x − x̄ ≤ r. Ainsi
x ∈ Ur . Comme x̄ = 12 [x + x ], nous avons
2f (x̄) ≤ f (x) + f (x ),
d’où
f (x) ≥ 2f (x̄) − f (x ) ≥ 2f (x̄) − C, x ∈ Ur (x̄),
et, effectivement, f est bornée inférieurement dans Ur , ce qui est (i).
30 . (ii) est une conséquence immédiate de (i) et du Lemme 5.3.1. En effet, montrons que
f est Lipschitzienne dans le voisinage Ur/2 (x̄), où r > 0 est tel que f est bornée dans Ur (x̄)
(nous savons déjà de (i) que un tel r existe). Soit |f | ≤ C dans Ur , et soit x, x ∈ Ur/2 ,
x = x . Nous pouvons éteindre le segment [x, x ] au travers du point x jusqu’il atteint la
frontière (relative) de Ur en un certain point x ; alors nous aurons
x ∈ (x, x ); x − x̄ = r.
Du (5.4) nous avons
f (x ) − f (x)
f (x ) − f (x) ≤ x − x .
x − x
base affine y0 ..., ym arbitraire dans M = Aff(Dom f ) et puis passons de cette base à l’ensemble z0 = y0 , z1 =
y0 + (y1 − y0 ), z2 = y0 + (y2 − y0 )..., zm = y0 + (ym − y0 ) avec un certain > 0. Bien évidemment, les vecteurs zi
appartiennent à M et forment une base affine (du fait que les vecteurs zi − z0 , i = 1..., m, sont fois les vecteurs
yi − y0 , et ces derniers forment une base dans le sous-espace linéaire L tel que M = y0 + L, cf. le Théorème 1.3.1.
Par conséquent, les vecteurs zi − z0 , i = 1..., m, forment également une base dans L d’où, par le même Corollaire,
z0 , ..., zm forment la base affine de M ). Un choisissant epsilon > 0 assez petit, nous pouvons imposer que tous
les vecteurs z0 ..., zm soyons dans le (r̄/10)-voisinage du vecteur z0 . Maintenant, soit Δ l’enveloppe convexe de
z0 , ..., zm ; c’est un simplex avec les sommets contenus dans le voisinage de z0 du rayon r̄/10 (naturellement, nous
parlons de la boule dans M ). Ce voisinage est une intersection d’une boule Euclidienne, qui est un ensemble
convexe, et de M , qui est également convexe ; donc ce voisinage est convexe. Puisque les sommets de Δ sont
−1 m
contenus dans ce voisinage, Δ entier est contenu dans le voisinage. Posons maintenant z̄ = (m + 1) z ;
i=0 i
évidemment, Δ est contenu dans le voisinage de z̄ dans M du rayon 2×(r̄/10) = r̄/5. Le choix de Δ = [x̄− z̄]+Δ ,

nous permet d’obtenir le m xi = zi + x̄ − z̄ qui est contenu dans le r̄/5-voisinage de x̄ dans
simplex avec les sommets
m
M et tel que (m + 1)−1 i=0 xi ≡ (m + 1)−1 i=0 [zi + x̄ − z̄] = z̄ + x̄ − z̄ = x̄, comme requis.
J’ai donné cet horrible “explication” pour montrer combien de mots nous avons besoin pour rendre rigoureuse
la recette évidente “prenons un petit simplex avec la moyenne de sommets égale à x̄”. Les “explications” de ce
type n’ont pas lieu d’être (et seront omises), parce que en faisant cela on risque de tuer même le raisonnement le
plus clair. Notez, en tous cas, que dans les mathématiques nous devrions pouvoir expliquer, si on nous demande,
ce qui signifie “prendre un petit simplex” et comment peut-on le “prendre”. Inutile de dire que vous êtes censés
pouvoir effectuer ce travail routine par vous-mêmes ; à cet effet vous devriez vous rappeler ce qui est la signification
exacte des mots que nous employons et ce qui sont les relations de base entre le concepts.
108 CHAPITRE 5. FONCTIONS CONVEXES

Le deuxième facteur du côté droit n’excède pas la quantité (2c)/(r/2) = 4c/r ; en eﬀet, le
numérateur est, en valeur absolue, au plus 2C (puisque |f | est bornée par C dans Ur et x, x
sont dans Ur ) et le dénominateur est au moins r/2 (en eﬀet, x est à la distance tout au plus
r/2 de x̄, et x est à la distance exactement r de x̄, de sorte que la distance entre x et x ,
par l’inégalité de triangle, soit au moins r/2). Ainsi, nous avons

f (x ) − f (x) ≤ (4C/r) x − x , x, x ∈ Ur/2 ;

en permutant x et x , on arrive à

f (x) − f (x ) ≤ (4C/r) x − x ,

d’où
|f (x) − f (x )| ≤ (4C/r) x − x , x, x ∈ Ur/2 ,

comme exigé par (ii).

5.5 Maximum et minimum de fonctions convexes

Nous avons déjà mentionné que les problèmes d’optimisation impliquant des fonctions
convexes possèdent des bonnes propriétés théoriques. Une des plus importantes est donné par
le théorème suivant :

Théorème 5.5.1 [“Unimodalité”] Soit f une fonction convexe sur un ensemble convexe Q ⊂
Rn , et soit x∗ ∈ Q ∩ Dom f un minimiseur local de f sur Q :

(∃r > 0) : f (y) ≥ f (x∗ ) ∀y ∈ Q, y − x < r. (5.7)

Alors x∗ est un minimiseur global de f sur Q :

f (y) ≥ f (x∗ ) ∀y ∈ Q. (5.8)

De plus, l’ensemble ArgminQ f de tous les minimiseurs locaux (≡ globaux) de f sur Q est
convexe.
Si f est strictement convexe (c.-à-d. que l’inégalité de convexité f (λx + (1 − λ)y) ≤ λf (x) +
(1− λ)f (y) est stricte quelques soient x = y et λ ∈ (0, 1)), alors soit cet ensemble est vide empty,
soit il est un singleton.

Preuve : 1) Soit x∗ un minimiseur local de f sur Q et y ∈ Q, y = x∗ ; on doit montrer que

f (y) ≥ f (x∗ ). Il n’y a rien à montrer si f (y) = +∞, ainsi on peut supposer que y ∈ Dom f .
Notez que, sûrement, x∗ ∈ Dom f – par la déﬁnition d’un minimiseur local.
Pour tout τ ∈ (0, 1) nous avons par le Lemme 5.3.1,

f (x∗ + τ (y − x∗ )) − f (x∗ ) f (y) − f (x∗ )

≤ .
τ y − x∗ y − x∗

Comme x∗ est un minimiseur local de f , le côté gauche de cette inégalité est non négatif pour
tout τ > 0 assez petit. On en déduit que le côté droit est non négatif, c.-à-d., f (y) ≥ f (x∗ ).
2) Le convexité de ArgminQ f , vient du fait que ArgminQ f n’est rien d’autre que l’ensemble
de niveau levα (f ) de f associé à la valeur minimale minQ f de f sur Q ; comme tout ensemble
de niveau d’une fonction convexe, cet ensemble est convexe (Proposition 5.1.4).
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 109

3) Pour montrer que l’ensemble ArgminQ f lié à une fonction f strictement convexe est,
si non vide, un singleton, notez que s’il y avait deux minimizers distincts x , x , alors, de la
convexité stricte, nous aurions
1 1 1
f ( x + x ) < [f (x ) + f (x )] = min f,
2 2 2 Q

ce qui est impossible – l’argument dans le côté gauche est un point de Q !

Un autre fait plaisant est celui dans le cas de fonctions convexes diﬀérentiables la condition
nécessaire d’optimalité (la règle de Fermat) est suﬃsant pour l’optimalité globale :

Théorème 5.5.2 [Condition nécessaire et suffisante d’optimalité pour une fonction convexe
différentiable]
Soit f une fonction convexe sur l’ensemble convexe Q ⊂ Rn , et soit x∗ un point intérieur
de Q. Supposons que f est différentiable en x∗ . Alors x∗ est un minimizer de f sur Q si et
seulement si
∇f (x∗ ) = 0.

Preuve : comme condition nécessaire pour l’optimalité locale, la relation ∇f (x∗ ) = 0 est connue
de l’Analyse ; elle n’a rien en commun avec la convexité. L’essence de la matière est, naturelle-
ment, la suﬃsance de cette condition pour l’optimalité globale de x∗ dans le cas de f convexe.
Cette suﬃsance est donnée par l’Inégalité du Gradient (5.3) : en vertu de cette inégalité et en
raison de ∇f (x∗ ) = 0,
f (y) ≥ f (x∗ ) + (y − x∗ )∇f (x∗ ) = f (x∗ )
pour tout y ∈ Q.

Remarque 5.5.1 On pourrait se poser la question naturelle suivante : que se passe-t-il si x∗

dans la condition ci-dessus n’est pas nécessairement un point intérieur de Q. Ainsi, supposons que
x∗ est un point arbitraire d’un ensemble convexe Q et que f est convexe sur Q et diﬀérentiable
en x∗ (ce qui veut dire exactement que Dom f contient un voisinage de x∗ et f est derivable en
x∗ ). Dans ces conditions, quand est-ce que x∗ est un minimiseur de f sur Q ?
La réponse est comme suit : soit

TQ (x∗ ) = {h ∈ Rn | x∗ + th ∈ Q ∀ assez petit t > 0}

soit le cône tangent de Q en x∗ . Géométriquement, c’est l’ensemble de toutes les directions

menant de x∗ vers l’intérieur de Q, de sorte qu’un assez petit déplacement positive de x∗ le long
de cette direction garde le point dans Q. De la convexité de Q on conclut que le cône tangent est
en eﬀet un cône convexe (mais pas nécessairement fermé). Par exemple, quand x∗ est un point
intérieur de Q, le cône tangent à Q en x∗ est Rn entier. Un exemple plus intéressant est le cône
tangent à un ensemble polyhedral

Q = {x | aTi x ≤ bi , i = 1, ..., m}; (5.9)

Pour x∗ ∈ Q le cône tangent correspondant est le cône polyhedral

{h | aTi h ≤ 0 ∀i : aTi x∗ = bi } (5.10)

qui correspond aux contraintes aTi x ≤ bi de la description de Q qui sont actives en x∗ (c.-à-d.,
ceux parmi les inégalités qui sont égalités en x∗ plutôt que des inégalités strictes(Pourquoi ?))
110 CHAPITRE 5. FONCTIONS CONVEXES

Maintenant, pour les fonctions convexes sur Q et diﬀérentiables à x∗ la condition nécessaire

et suﬃsante pour x∗ d’être un minimiseur de f sur Q est comme suit :
(*) la dérivée de f prise en x∗ le long de chaque direction de TQ (x∗ ) doit être non négative :

hT ∇f (x∗ ) ≥ 0 ∀h ∈ TQ (x∗ ).

Preuve est immédiate. La nécessité est évidente, ce qui n’a rien à voir avec la convexité :
en supposant que x∗ est un minimiseur local de f sur Q, nous notons que s’il y avait une
direction h ∈ TQ (x∗ ) avec hT ∇f (x∗ ) < 0, alors nous aurions

f (x∗ + th) < f (x∗ )

pour tout t > 0 assez petit. D’autre part, x∗ + th ∈ Q pour tout t > 0 assez petit dû à
h ∈ TQ (x∗ ). Combinant ces observations, nous concluons que dans chaque voisinage de x∗ il
y a des points de Q avec une valeur de f strictement plus petite que f (x∗ ) ; ceci contredit
l’hypothèse que x∗ est un minimiseur local de f sur Q.
La suffisance est une conséquence de l’Inégalité du Gradient, exactement comme dans le
cas quand x∗ est un point intérieur de Q.
La condition (*) indique que si f est convexe sur Q et différentiable en x∗ ∈ Q, la condition
nécessaire et suffisante pour que x∗ soit un minimiseur de f sur Q est que la forme linéaire
donnée par le gradient ∇f (x∗ ) de f en x∗ doit être non négative sur toutes les directions du
cône tangent TQ (x∗ ). Les formes linéaires non négatives sur toutes les directions du cône tangent
forment également un cône (Vérifiez cela !) ; ce cône s’appelle le cône normal à Q en x∗ et est noté
NQ (x∗ ). Ainsi, (*) dit que la condition nécessaire et suffisante pour que x∗ donne le minimum
de f sur Q est l’inclusion ∇f (x∗ ) ∈ NQ (x∗ ). Ce qui cette condition veut dire réellement, dépend
de ce qui est le cône normal : si nous avons une description explicite du cône normal, nous avons
une forme explicite de la condition d’optimalité.
Par exemple, quand TQ (x∗ ) = Rn (autrement dit, quand x∗ est un point intérieur de Q),
alors le cône normal est composé des formes linéaires non négatives sur l’espace entier, c.-à-d.,
c’est le cône trivial {0} ; par conséquent, dans ce cas en la condition d’optimalité devient la règle
∇f (x∗ ) = 0 de Fermat.
Quand Q est l’ensemble polyhedral (5.9), le cône tangent est le cône polyhedral (5.10) ; il est
composé de toutes les directions qui ont les produits scalaires non positifs avec tous les vecteurs
ai des inégalités actives en x∗ . Le cône normal est composé de tous les vecteurs qui ont les
produits scalaires non négatifs avec toutes ces directions, c.-à-d., il contient des vecteurs a tels
que l’inégalité hT a ≥ 0 est une conséquence des inégalités hT ai ≤ 0, i ∈ I(x∗ ) ≡ {i | aTi x∗ = bi }.
Nous concluons du Lemme de Farkas Homogène que le cône normal est simplement l’enveloppe
conique des vecteurs −ai , i ∈ I(x∗ ). Ainsi, dans le cas en question (*) lit :
x∗ ∈ Q est un minimiseur de f sur Q si et seulement si il existent des réels non négatifs λ∗i
associés “aux indices actifs” i (ceux dans I(x∗ )) tels que

∇f (x∗ ) + λ∗i ai = 0.
i∈I(x∗ )

Ceux-ci sont les célèbres conditions d’optimalité de Karush-Kuhn-Tucker ; dans le chapitre sui-
vant nous montrerons que ces conditions sont nécessaires et suﬃsantes d’optimalité dans une
situation bien plus générale.
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 111

Les résultats ci-dessus montrent que le fait qu’un point x∗ ∈ Dom f est un minimizer global
d’une fonction convexe f ne dépend que du comportement local de f en x∗ . Ce n’est pas le cas
avec des maximums d’une fonction convexe. Tout d’abord, un tel maximum, s’il existe, dans
tous les cas non triviaux devrait appartenir à la frontière du domaine de la fonction :

Théorème 5.5.3 Soit f convexe, et soit Q le domaine de f . Supposons que f atteint son
maximum sur Q en un point x∗ de l’intérieur relatif de Q. Alors f est constante sur Q.

Preuve : soit y ∈ Q ; nous devons prouver que f (y) = f (x∗ ). Il n’y a rien à prouver si y = x∗ ,
ainsi nous allons supposer que y = x∗ . Puisque, par hypothese, x∗ ∈ ri Q, nous pouvons prolonger
le segment [x∗ , y] par le point ﬁnal x∗ , tout en gardant l’extrémité gauche du segment dans Q.
En d’autres termes, il existe un point y ∈ Q tels que x∗ est un point intérieur du segment [y , y] :

x∗ = λy + (1 − λ)y
pour un certain λ ∈ (0, 1). Par déﬁnition de convexité

f (x∗ ) ≤ λf (y ) + (1 − λ)f (y).

Comme f (y ) et f (y) son inférieurs à f (x∗ ) (x∗ est un maximiseur de f sur Q !) et les poids λ et
1 − λ sont strictement positifs, cette inégalité n’est peut être valide que si f (y ) = f (y) = f (x∗ ).

Dans certains cas nous pouvons être encore plus précis :

Théorème 5.5.4 Soit f une fonction convexe sur Rn et E un sous-ensemble de Rn . Alors

sup f = sup f. (5.11)

Conv E E

En particulier, si S ⊂ Rn est un ensemble convexe compact, alors la borne supérieure de f sur

S est égale à la borne supérieure de f sur l’ensemble Ext(S) des points extrêmes de S :

sup f = sup f (5.12)

S Ext(S)

Preuve : pour montrer (5.11), supposons que x ∈ ConvE, de façon que x est une combinaison
convexe des points de E (Théorème 2.1.3 sur la structure de l’enveloppe convexe) :

x= λi xi [xi ∈ E, λi ≥ 0, λi = 1].
i i

En appliquant l’inégalité de Jensen (Proposition 5.1.3), nous obtenons

f (x) ≤ λi f (xi ) ≤ λi sup f = sup f.
i i E E

Ainsi le côté gauche de (5.11) est ≤ le côté droit ; l’inégalité réciproque est évidente, car Conv E ⊃
E.
Pour obtenir (5.12) de (5.11), il suﬃt de noter que par le Théorème de Krein-Milman
(Théorème 4.2.1) pour S convexe nous avons S = Conv Ext(S).
Le dernier théorème sur des maximum des fonctions convexes est comme suit :
112 CHAPITRE 5. FONCTIONS CONVEXES

∗
Théorème 5.5.5 Soit f une fonction convexe tels que le domaine Q de f est fermé et ne
contient pas de droites. Alors
(i) si l’ensemble de maximiseurs globaux de f

Argmax f ≡ {x ∈ Q | f (x) ≥ f (y) ∀y ∈ Q}

est non vide, alors il rencontre l’ensemble Ext(Q) des points extrêmes de Q, de sorte qu’au
moins un des maximiseurs de f soit un point extrême de Q ;
(ii) si l’ensemble Q est polyhedral et f est bornée supérieurement sur Q, alors le maximum
de f sur Q est atteint : ArgmaxQ f = ∅.
Preuve : nous commençons par (i). Nous prouverons ce résultat par induction sur la
dimension de Q. Le cas dim Q = 0, c.-à-d., le cas d’un singleton Q, est trivial, car ici
Q = ExtQ = ArgmaxQ f . Supposons maintenant que le résultat en question est valide pour
le cas de dim Q ≤ p, et montrons qu’il est valide également pour le cas de dim Q = p + 1.
Vériﬁons d’abord que l’ensemble ArgmaxQ f rencontre la frontière (relative) de Q. En eﬀet,
soit x ∈ ArgmaxQ f . Il n’y a rien à prouver si x lui-même est un point de la frontière relative
de Q ; et si x n’est pas un point de frontière, alors, par Théorème 5.5.3, f est constant sur Q,
de sorte que ArgmaxQ f = Q ; et puisque Q est fermé, n’importe quel point de la frontière
relative de Q (un tel point existe, puisque Q ne contient pas de droites et est de dimension
positive) est un maximiseur de f sur Q, de sorte que là encore ArgmaxQ f rencontre ∂r iQ.
Ainsi, parmi les maximiseurs de f il existe au moins un, disons x, qui appartient à la
frontière relative de Q. Alors, soit H un hyperplan de support de Q en x (voir la Section
4.1), et soit Q = Q ∩ H. L’ensemble Q est fermé et convexe (car Q et H le sont), non vide
(il contient x) et ne contient pas de droites (puisque Q ne contient pas de droites). Nous
avons maxQ f = f (x) = maxQ f (notez qui Q ⊂ Q), d’où

∅ = Argmax f ⊂ Argmax f.
Q Q

Comme dans la preuve du Théorème de Krein-Milman (Théorème 4.2.1), nous avons

dim Q < dim Q. En raison de cette inégalité nous pouvons appliquer à f et à Q notre
hypothèse inductive pour obtenir

Ext(Q ) ∩ Argmax f = ∅.
Q

Comme Ext(Q ) ⊂ Ext(Q), et, comme nous venons de voir ArgmaxQ f ⊂ ArgmaxQ f , nous
concluons que Ext(Q) ∩ ArgmaxQ f n’est pas plus petit que le Ext(Q ) ∩ ArgmaxQ f et donc
est non vide, comme exigé.
Pour prouver (ii), nous utilisons le résultat sur la structure de l’ensemble polyhedral :

Q = Conv(S) + Cone (R),

où S et R sont les ensembles ﬁnis. Nous sommes sur le point de montrer que la borne
supérieure de f sur Q est exactement le maximum de f sur l’ensemble ﬁni S :

∀x ∈ Q : f (x) ≤ max f (s). (5.13)

s∈S

Ceci signiﬁera, en particulier, que f atteint son maximum sur Q – par exemple, dans le point
où f atteint son maximum sur S.
Pour prouver ce résultat, nous allons montrer d’abord que si f bornée supérieurement
sur Q, alors chaque direction r ∈ Cone (R) est celle de descente pour f , c.-à-d., est telle que
toute déplacement dans cette direction prise dans n’importe quel point x ∈ Q diminue f :

f (x + tr) ≤ f (x) ∀x ∈ Q∀t ≥ 0. (5.14)

5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 113

En eﬀet, si, au contraire, il y avait x ∈ Q, r ∈ R et t ≥ 0 tels que f (x + tr) > f (x), nous
aurions t > 0 et, par le Lemme 5.3.1,
s
f (x + sr) ≥ f (x) + (f (x + tr) − f (x)), s ≥ t.
t
Somme x ∈ Q et r ∈ Cone (R), x + sr ∈ Q pour tout s ≥ 0, et puisque f est bornée
supérieurement sur Q, le côté gauche dans la dernière inégalité est borné, tandis que la
quantité à droite tend à +∞ quand s → ∞ en raison de f (x + tr >) > f (x).
Maintenant pour montrer (5.13) il suﬃt de remarquer qu’un point générique x ∈ Q peut
être représenté en comme

x= λs s + r [r ∈ Cone (R); λs = 1, λs ≥ 0],
s∈S s

et nous avons

f (x) = f (s∈S λs s + r)
≤ f ( s∈S λs s)
[par (5.14)]
≤ s∈S λs f (s) [par l’inégalité de Jensen]
≤ maxs∈S f (s)
114 CHAPITRE 5. FONCTIONS CONVEXES

5.6 Exrecices
Exercice 5.1 Marquez par ”c” celles parmi les fonctions ci-dessous qui sont convexes sur les
domaines indiqués :
– f (x) ≡ 1 sur R
– f (x) = x sur R
– f (x) = |x| sur R
– f (x) = −|x| sur R
– f (x) = −|x| sur R+ = {x ≥ 0}
– exp{x} sur R
– exp{x2 } sur R
– exp{−x2 } sur R
– exp{−x2 } sur {x | x ≥ 100}

Exercice 5.2 Montrer que les fonctions suivantes sont convexes :

2
– xy sur {(x, y) ∈ R2 | y > 0}
– ln(exp{x} + exp{y}) sur le plan R2 .

Exercice 5.3 Une fonction réelle f déﬁnie sur un ensemble convexe Q est appelée log-convexe
sur Q, si elle est à valeurs positives sur Q et la fonction ln f est convexe sur Q. Montrez que
– une fonction log-convexe sur Q est convexe sur Q
– la somme (et plus généralement, toute combinaison linéaire avec des coeﬃcients positifs)
des deux fonctions log-convexes sur Q est aussi log-convexe sur Q.
Indication : utilisez le résultat de l’exercice précèdent et votre connaissance d’operations
préservant la convexité

Exercice 5.4 On considère un programme de Programming Linéaire

cT x → min | Ax ≤ b

avec une matrice A m × n. Soit x∗ une solution optimale du problème, c.-à-d., x∗ est un minimi-
seur d’une fonction convexe diﬀérentiable f (x) = cT x sur l’ensemble convexe Q = {x | Ax ≤ b}
et, ainsi, selon la Remarque 5.5.1, ∇f (x∗ ) doit appartenir au cône normal de Q en x∗ – c’est
la condition nécessaire et suﬃsante d’optimalité de x∗ . Que veut dire cette condition en termes
de A, b et c ?
Chapitre 6

Programmation Convexe et Dualité

de Lagrange

Dans ce chapitre nous touchons à notre objectif principal – les conditions d’optimalité, nous
obtiendrons ces conditions pour le cas le plus favorable de programmation convexe.

6.1 Programme de Programmation Mathématique

Un programme de Programmation Mathématique (sous contraintes) est un problème comme
suit :

(P) min {f (x) | x ∈ X, g(x) ≡ (g1 (x), ..., gm (x)) ≤ 0, h(x) ≡ (h1 (x), ..., hk (x)) = 0} . (6.1)

La terminologie standardisée liée à (6.1) est suivante :

– [domaine] X s’appelle domaine du problème
– [objectif] f s’appelle l’objectif
– [ contraintes ] gi , i = 1, ..., m, s’appellent contraintes (fonctionnelles) d’inégalité ; hj , j =
1, ..., k, s’appellent contraintes d’égalité 1)
Dans la suite, si l’opposé n’est pas dit explicitement, il est toujours supposé que l’objectif et les
contraintes sont bien définis sur X.
– [solution faisable] un point x ∈ Rn s’appelle la solution faisable de (6.1), si x ∈ X,
gi (x) ≤ 0, i = 1, ..., m, et hj (x) = 0, j = 1, ..., k, c.-à-d., si x satisfait toutes les restrictions
imposées par la formulation du problème
– [ensemble faisable] l’ensemble de toutes les solutions faisables s’appelle ensemble faisable
du problème
– [problème faisable] un problème avec un ensemble faisable non vide (c.-à-d., celui qui
admet les solutions faisables) s’appelle faisable (ou consistant)
– [ contraintes actives ] une contrainte gi (·) ≤ 0 d’inégalité s’appelle active en une solution
faisable donnée x, si cette contrainte est satisfaite en ce point comme une égalité plutôt
qu’une inégalité stricte, c.-à-d., si
gi (x) = 0.
1. ) rigoureusement parlant, les contraintes ne sont pas les functions gi , hj , mais les relations gi (x) ≤ 0,
hj (x) = 0 ; en fait le mot “contraintes” est employé dans ces deux sens, et il est toujours clair ce qu’il signifie. Par
exemple, en disant que x satisfait les contraintes, nous sous-entendons les relations, et en disant que les contraintes
sont différentiables, nous sous-entendons que les functions

115
116 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Une contrainte d’égalité de hi (x) = 0 est active par déﬁnition en chaque solution faisable
x.
– [valeur optimale] la valeur
inf x∈X:g(x)≤0,h(x)=0 f (x), le problème faisable
f∗ =
+∞, le problème infaisable
s’appelle la valeur optimale du problème
– [bornitude] le problème s’appelle borné inférieurement, si son valeur optimale est > −∞,
c.-à-d., si l’objectif est borné inférieurement sur l’ensemble faisable
– [solution optimale] un point x ∈ Rn s’appelle solution optimale de (6.1), si x est faisable
et f (x) ≤ f (x ) pour n’importe quelle autre solution faisable x , c.-à-d., si

x∈ Argmin f (x )
x ∈X:g(x )≤0,h(x )=0

– [problème soluble] un problème s’appelle soluble, s’il admet des solutions optimales
– [ensemble optimal] l’ensemble de toutes les solutions optimales d’un problème s’appelle
son ensemble optimal
Résoudre le problème sous-entend trouver une solution optimale ou détecter qu’il n’existe aucune
solution optimale.

6.2 Convex Programming program and Duality Theorem

Un programme (P) de Programmation Mathématique s’appelle convexe (ou programme de
Programmation Convexe), si
– X est sous-ensemble convexe de Rn
– f, g1 ..., gm sont des fonctions convexes à valeurs réelles sur X,
et
– il n’y a aucune contrainte d’égalité du tout.
On note qu’au lieu de dire qu’il n’y a aucune contrainte d’égalité, on pourrait indiquer que les
seules contraintes de ce type qui sont admises sont des contraintes linéaires ; ce dernier cas peut
être immédiatement réduit au cas sans contraintes d’égalité en remplaçant Rn avec l’ensemble
aﬃne donné par les contraintes (linéaires) d’égalité.

6.2.1 Théorème sur l’Alternative Convexe

Le cas le plus simple d’un programme convexe est, naturellement, un programme de Pro-
grammation Linéaire – celui où X = Rn et l’objectif et tous les contraintes sont linéaires. Nous
savons déjà ce qui sont des conditions d’optimalité pour ce cas particulier – elles sont données
par le Théorème de Dualité pour la Programmation Linéaire dans le Chapitre 4. Comment
avons-nous obtenu ces conditions ?
Nous avons commencé par l’observation que le fait qu’un point x∗ est une solution optimale
peut être exprimé en termes de solubilité/insolubilité des certains systèmes d’inégalités : en
utilisant notre notation “modernes”, ces systèmes sont

x ∈ G, f (x) ≤ c, gj (x) ≤ 0, j = 1, ..., m (6.2)

et
x ∈ G, f (x) < c, gj (x) ≤ 0, j = 1, ..., m; (6.3)
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 117

où c est un paramètre. L’optimalité de x∗ pour ce problème signifie exactement que pour c
convenablement choisi (ce choix, naturellement, est c = f (x∗ )) le premier de ces systèmes est
soluble et x∗ est sa solution, alors que le deuxième système est insoluble. En partant de cette
observation triviale, nous avons converti “sa partie négative” – l’affirmation que (6.3) est inso-
luble – en un résultat positif, en utilisant le Théorème Général sur l’Alternative, et ceci nous a
mené au Théorème de Dualité de LP.
Maintenant nous allons employer la même approche. Ce que nous avons besoin est un “ana-
logue convexe” du Théorème sur l’Alternative. Autrement dit, on cherche quelque chose comme
ce dernier résultat mais pour le cas quand les inégalités en question sont données par des fonctions
convexes plutôt que par des fonctions linéaires (et, de plus, nous avons une inclusion convexe
x ∈ X).
Le résultat dont on a besoin est facile à deviner. Comment sommes-nous venus à la formu-
lation du Théorème sur l’Alternative ? Nous nous sommes posé la question : comment exprimer
d’une façon affirmative le fait qu’un système d’inégalités linéaires n’a pas de solution ; et nous
avons observé que si nous pouvons combiner, d’une façon linéaire, les inégalités du système
et obtenir une inégalité évidemment fausse comme 0 ≤ −1, alors le système est insoluble ;
cette condition contient une certaine affirmation sur les poids avec lesquels nous combinons les
inégalités originales.
Maintenant, le schema du raisonnement ci-dessus n’a rien en commun avec la linéarité (et
même avec la convexité) des inégalités en question. En effet, considérez un système arbitraire
d’inégalités du type (6.3) :
(I)
f (x) < c
gj (x) ≤ 0, j = 1, ..., m
x ∈ X;
nous supposons que X soit un sous-ensemble non vide de Rn et f, g1 , ..., gm sont des fonctions
à valeurs réelles sur X. Il est absolument évident que
s’il existent λ1 , ..., λm non négatifs tels que l’inégalité

m
f (x) + λj gj (x) < c (6.4)
j=1

n’a aucune solution dans X, alors (I) n’a également aucune solution.
En effet, une solution de (I) est clairement une solution de (6.4) – la dernière inégalité n’est rien
qu’une combinaison des inégalités de (I) avec les poids 1 (pour la première inégalité) et λj (pour
le reste).
Maintenant, que signifie-t-il que (6.4) n’a aucune solution ? Une condition nécessaire et suf-
fisant pour ceci est que l’infinum du côté gauche de (6.4) en x ∈ X est ≥ c. Ainsi, nous venons
au
Proposition 6.2.1 [condition suffisant pour l’insolubilité de (I)] Considérons un système (I)
avec des données arbitraires et supposons que le système
(II)
m
inf x∈X f (x) + j=1 λj gj (x) ≥ c
λj ≥ 0, j = 1, ..., m
avec des inconnus λ1 , ..., λm a une solution. Alors (I) est insoluble.
118 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Il est important de se rappeler que ce résultat est complètement général : il n’exige aucune
hypothèse sur les entités impliquées.
Le résultat que nous avons obtenu, malheureusement, ne nous aide pas : la force du Théorème
sur l’Alternative (et le fait que nous avons utilisé pour prouver le Théorème de Dualité pour
la Programmation Linéaire) n’était pas la suffisance de la condition dans la proposition pour
l’insolubilité de (I), mais la nécessité de cette condition. La justification de la nécessité de la
condition en question n’a rien en commun avec le raisonnement évident qui donne la suffisance.
Nous avons établi la nécessité pour le cas linéaire (quand X = Rn et f , g1 ..., gm sont linéaires)
dans le Chapitre 4 par l’intermédiaire du Lemme de Farkas. Nous allons prouver la nécessité
de la condition pour le cas convexe, et déjà dans ce cas nous avons besoin d’une hypothèse
additionnelle ; et dans le cas non convexe général la condition en question n’est simplement pas
nécessaire pour l’insolubilité de (I)
Ce “préface” explique ce que nous devrions faire. Nous commençons par l’hypothèse
supplémentaire de régularité mentionnée ci-dessus.

Déﬁnition 6.2.1 [Condition de Slater] Soit X ⊂ leRn et g1 ..., gm des fonctions à valeurs réelles
sur X. Nous disons que ces fonctions satisfont la condition de Slater sur X, s’il existe x ∈ X
tel que gj (x) < 0, j = 1, ..., m.
On dit qu’un problème avec des contraintes d’inégalités

(IC) f (x) → min | gj (x) ≤ 0, j = 1, ..., m, x ∈ X

(f, g1 , ..., gm sont des fonctions réelles sur X) satisfait la condition de Slater, si g1 , ..., gm satis-
font cette condition sur X.

nous sommes sur le point d’établir le fait fondamental suivant :

Théorème 6.2.1 [Théorème sur l’Alternative Convexe]

Soit X ⊂ Rn convexe, et soient f, g1 , ..., gm des fonctions réelles convexes sur X. De plus, on
suppose que g1 , ..., gm satisfont la condition de Slater sur X. Alors le système (I) est soluble si
et seulement si le système (II) est insoluble.
Une partie du résultat – “si (II) a une solution, alors (I) n’a aucune solution”– est donné
par la Proposition 6.2.1. Ce que nous avons à montrer est l’implication inverse. Ainsi nous
supposons que (I) n’a aucune solution, et nous allons montrer qu’alors (II) a une solution.
Sans perte de généralité nous pouvons supposer que X est de dimension “complete” :
ri X = int X (en eﬀet, autrement nous pourrions remplacer notre “univers Rn avec l’enve-
loppe d’aﬃne de X).
10 . On pose
⎛ ⎞
f (x)
⎜ g (x) ⎟
F (x) = ⎝ 1 ⎠
...
gm (x)
et on considère deux ensembles dans Rm+1 :

S = {u = (u0 , ..., um ) | ∃x ∈ X : F (x) ≤ u}

et
T = {(u0 , ..., um ) | u0 < c, u1 ≤ 0, u2 ≤ 0, ..., um ≤ 0}.
J’aﬃrme que
– (i) S et T sont les ensembles convexes non vides ;
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 119

– (ii) S et T sont disjoints.

En eﬀet, convexité de T est évidente, ainsi que le fait que S et T ne sont pas vides. La
convexité de S est une conséquence immédiate du fait que X et f, g1 , ..., gm sont convexes.
En eﬀet, supposant que u , u ∈ S, on conclue que ils existent x , x ∈ X tels que F (x ) ≤ u
et F (x ) ≤ u , d’où, pour chaque λ ∈ [0, 1]

λF (x ) + (1 − λ)F (x ) ≤ λu + (1 − λ)u .

Le côté gauche dans cette inégalité, due à la convexité de X et de f, g1 , ..., gm , est ≥ F (y),
y = λx + (1 − λ)x . Alors, pour le point v = λu + (1 − λ)u , il existe y ∈ X avec F (y) ≤ v,
d’où v ∈ S. Ainsi, S est convexe.
Le fait que S ∩T = ∅ est une reformulation équivalente du fait que (I) n’a aucune solution.
20 . Comme S et T sont des ensembles convexes non vides avec l’intersection vide, selon
le Théorème de Séparation ils peuvent être séparés par une forme linéaire : il existe a =
(a0 , ..., am ) = 0 tel que
m m
inf aj uj ≥ sup aj u j . (6.5)
u∈S u∈T j=0
j=0

30 . Étudions les propriétés du vecteur a. J’aﬃrme que, en premier,

a ≥ 0. (6.6)

et, en second,
a0 > 0. (6.7)
En eﬀet, pour prouver (6.6) notons que si quelques ai étaient négatifs, alors le côté droit
dans (6.5) serait +∞ 2) , ce qui est interdit par (6.5).
Ainsi, a ≥ 0 ; alors, nous pouvons immédiatement calculer le côté droit de (6.5) :
m
m

sup aj u j = sup aj uj = a0 c.
u∈T j=0 u0 <c,u1 ,...,um ≤0 j=0

Puisque pour chaque x ∈ X le point F (x) appartient à S, le côté gauche dans (6.5) n’est pas
moins que ⎡ ⎤
m

inf ⎣a0 f (x) + aj gj (x)⎦ ;
x∈X
j=1

et en combinant nos observations, nous concluons que (6.5) implique

⎡ ⎤
m

inf ⎣a0 f (x) + aj gj (x)⎦ ≥ a0 c. (6.8)
x∈X
j=1

Montrons maintenant que a0 > 0. Ce fait crucial est une conséquence immédiate de la
condition de Slater. En eﬀet, soit x̄ ∈ X le point donné par cette condition, de sorte que
gj (x̄) < 0. De (6.8) nous concluons que
m

a0 f (x̄) + aj gj (x̄) ≥ a0 c.
j=0

Si a0 était 0, alors
mde côté droit de cette inégalité nous aurions 0, alors que le gauche serait
la combinaison j=0 aj gj (x̄) des réels gj (x̄) négatifs avec les coeﬃcients aj non négatifs

2. ) regardez ce qui se produit quand toutes les coordonnées dans u, excepté la i-ème, sont ﬁxées aux valeurs
permises par la description de T et ui est un “grand” réel négatif
120 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

et pas tous égaux à 0 3) , de façon que le côté gauche est strictement négatif ce qui est la
contradiction recherchée.
40 . Maintenant nous pouvons terminer la preuve : comme a0 > 0, on peut diviser les
deux côtés de (6.8) par a0 pour obtenir
⎡ ⎤
m
inf ⎣f0 (x) + λj gj (x)⎦ ≥ c, (6.9)
x∈X
j=1

où λj = aj /a0 ≥ 0. Ainsi, (II) a une solution.

6.2.2 Fonction de Lagrange et dualité de Lagrange

Le résultat du Théorème sur l’Alternative Convexe attire notre attention à la fonction
⎡ ⎤

m
L(λ) = inf ⎣f0 (x) + λj gj (x)⎦ , (6.10)
x∈X
j=1

ainsi qu’à l’agrégat

m
L(x, λ) = f0 (x) + λj gj (x) (6.11)
j=1

qui est à l’origine de cette fonction. L’agrégat (6.11) a un nom spécial – il s’appelle fonction de
Lagrange du programme d’optimisation sous contraintes d’inégalité

(IC) f (x) → min gj (x) ≤ 0, j = 1, ..., m, x ∈ X.

La fonction de Lagrange d’un programme d’optimisation est une entité très importante : la
plupart de conditions d’optimalité sont exprimées en termes de cette fonction. Commençons par
la traduction de ce que nous savons déjà en langage de fonction de Lagrange.

Théorème de dualité pour la programmation convexe

Théorème 6.2.2 Considérons un programme d’optimisation contraint par des inégalités arbi-
traires (IC). Alors
(i) l’inﬁnum
L(λ) = inf L(x, λ)
x∈X

de la fonction de Lagrange en x ∈ X est, pour chaque λ ≥ 0, une borne inférieure pour la valeur
optimale de (IC), de sorte que la valeur optimale du programme d’optimisation

(IC∗ ) sup L(λ)

λ≥0

est également une borne inférieure pour la valeur optimale de (IC) ;

(ii) [Théorème de Dualité Convexe ] Si (IC)
– est convexe,
– est borné inférieurement,
et
– satisfait la condition de Slater,
3. ) en eﬀet, dès le début on sait que a = 0, ainsi si a0 = 0, alors pas tous les aj , j ≥ 1, sont nuls
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 121

alors la valeur optimale de (IC∗ ) est atteint et est égal à la valeur optimale de (IC).

Preuve : (i) n’est rien que la Proposition 6.2.1 (comprenez svp pourquoi) ; cependant, il sera
utile de répéter le raisonnement sous-jacent :
Soit λ ≥ 0 ; aﬁn de prouver que

m
∗
L(λ) ≡ inf L(x, λ) ≤ c [L(x, λ) = f (x) + λj gj (x)],
x∈X
j=1

c∗ étant la valeur optimale de (IC), notons que si x est faisable pour (IC), alors,
évidemment, L(x, λ) ≤ f (x), de sorte que l’inﬁnum de L dans x ∈ X soit ≤ la valeur
minimale c∗ de f sur l’ensemble faisable de (IC).
(ii) est une conséquence immédiate du Théorème sur l’Alternative Convexe. En eﬀet, soit c∗
la valeur optimale de (IC). Alors le système

f (x) < c∗ , gj (x) ≤ 0, j = 1, ..., m

n’a pas de solutions dans X, et par le théorème ci-dessus le système (ii) lié à c = c∗ a une
solution, c.-à-d., il existe λ∗ ≥ 0 tel que L(λ∗ ) ≥ c∗ . Mais nous savons de (i) que l’inégalité
stricte ici est impossible et, par ailleurs, L(λ) ≤ c∗ pour chaque λ ≥ 0. Ainsi, L(λ∗ ) = c∗ et λ∗
est le maximiseur de L sur λ ≥ 0.

Programme Dual
Théorème 6.2.2 établit un certain lien entre deux programmes d’optimisation – le programme
“primal”
(IC) f (x) → min | gj (x) ≤ 0, j = 1, ..., m, x ∈ X.
et son Dual de Lagrange

(IC∗ ) sup L(λ), [L(λ) = inf L(x, λ)]

λ≥0 x∈X

(les variables λ du problème dual s’appellent les multiplicateurs de Lagrange du problème pri-
mal). Le théorème indique que la valeur optimale dans le problème dual est ≤ celle du primal,
et dans certaines circonstances favorables (le problème primal est convexe, borné inférieurement
et satisfait la condition de Slater) les valeurs optimales dans les deux programmes sont égales.
Dans notre formulation il y a une certaine asymétrie entre les programmes primal et dual.
En fait les deux programmes sont liés à la fonction de Lagrange d’une manière tout à fait
symétrique. En eﬀet, considérez le programme

min L(x), L(x) = sup L(λ, x).

x∈X λ≥0

L’objectif dans ce programme est +∞ en chaque point x ∈ X qui n’est pas faisable pour (IC)
et est égale à f (x) sur l’ensemble faisable de (IC), de sorte que ce programme soit équivalent à
(IC). Nous voyons que les programmes primal et dual viennent de la fonction de Lagrange : dans
le problème primal, on minimise sur X du résultat de la maximisation de L(x, λ) sur λ ≥ 0, et
dans le programme dual on maximise sur λ ≥ 0 le résultat de la minimisation de L(x, λ) sur
x ∈ X. C’est un exemple particulier (et le plus important) du jeu de deux personnes à somme
nulle.
122 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Nous avons dit que les valeurs optimales de (IC) et de (IC∗ ) sont égales entre elles sous
quelques conditions de convexité et de régularité. Il y a également une autre manière de dire que
ces valeurs optimales sont égales – c’est toujours le cas quand la fonction de Lagrange possède
un point-selle, c.-à-d. qu’il existe une paire x∗ ∈ X, λ∗ ≥ 0 telle L(x, λ) atteint sur cette paire
son minimum en fonction de x ∈ X et atteint son maximum en fonction de λ ≥ 0 :

L(x, λ∗ ) ≥ L(x∗ , λ∗ ) ≥ L(x∗ , λ) ∀x ∈ X, λ ≥ 0.

On peut facilement démontrer (faites-le par vous-même) que

Proposition 6.2.2 (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange L du problème (IC)

si et seulement si x∗ est une solution optimale de (IC), λ∗ est une solution optimale de (IC∗ ) et
les valeurs optimales dans les deux problèmes sont égales entre elles.

Notre but maintenant sera d’extraire de ce que nous savons déjà sur la fonction de Lagrange
les conditions d’optimalité pour des programmes convexes.

6.2.3 Conditions d’Optimalité en Programmation Convexe

Nous commençons avec la formulation point-selle des conditions d’optimalité.

Théorème 6.2.3 [Formulation point-selle des Conditions d’Optimalité en Programmation

Convexe]
Soit (IC) un programme d’optimisation, L(x, λ) sa fonction de Lagrange, et x∗ ∈ X. Alors,
(i) une condition suﬃsante pour que x∗ soit une solution optimale de (IC) est l’existence du
vecteur de multiplicateurs de Lagrange λ∗ ≥ 0 tels que (x∗ , λ∗ ) est un point-selle de la fonction
de Lagrange L(x, λ). C.-à-d., un point où L(x, λ) atteint son minimum en fonction de x ∈ X et
atteint son maximum en fonction de λ ≥ 0 :

L(x, λ∗ ) ≥ L(x∗ , λ∗ ) ≥ L(x∗ , λ) ∀x ∈ X, λ ≥ 0. (6.12)

(ii) De plus, si le problème (IC) est convexe et satisfait la condition de Slater, alors cette
condition est aussi nécessaire pour l’optimalité de x∗ : si x∗ est optimal pour (IC), alors il existe
λ∗ ≥ 0 tels que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange.

Preuve : (i) : supposons que pour un x∗ ∈ X donné il existe λ∗ ≥ 0 tel que (6.12) est satisfait ;
montrons qu’alors x∗ est optimal pour (IC). Tout d’abord, x∗ est faisable : en eﬀet, si gj (x∗ ) > 0
pour certains j, alors, immediatement, supλ≥0 L(x∗ , λ) = +∞ (regardez ce qui se produit quand
tous les λ’s, excepté λj , sont ﬁxes, et λj → +∞) ; mais supλ≥0 L(x∗ , λ) = +∞ est interdit par
la deuxième inégalité de (6.12).
Puisque x∗ est faisable, supλ≥0 L(x∗ , λ) = f (x∗ ), et nous concluons de la deuxième inégalité
de (6.12) que L(x∗ , λ∗ ) = f (x∗ ). Maintenant la première inégalité dans (6.12) dit que

m
f (x) + λ∗j gj (x) ≥ f (x∗ ) ∀x ∈ X.
j=1

La dernière inegalite implique immédiatement que x∗ est optimal : en eﬀet, si x est faisable pour
(IC), alors le côté gauche dans la dernière inégalité est ≤ f (x) (rappellons-nous que λ∗ ≥ 0), et
l’inégalité implique que f (x) ≥ f (x∗ ).
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 123

(ii) : supposons que (IC) est un programme convexe, x∗ est sa solution optimale et le problème
satisfait la condition de Slater ; nous devrions montrer qu’il existe alors λ∗ ≥ 0 tel que (x∗ , λ∗ )
est un point-selle de la fonction de Lagrange, c.-à-d. que (6.12) est satisfait. Comme nous savons
du Théorème de Dualité Convexe (Théorème 6.2.2.(ii)), le problème dual (IC∗ ) a une solution
λ∗ ≥ 0 et la valeur optimale du problème dual est égale à la valeur optimale du primal, c.-à-d.,
à f (x∗ ) :
f (x∗ ) = L(λ∗ ) ≡ inf L(x, λ∗ ). (6.13)
x∈X
Nous en concluons immédiatement que

λ∗j > 0 ⇒ gj (x∗ ) = 0

(ceci s’appelle condition de complémentarité : les multiplicateurs de Lagrange positifs peuvent

être associés seulement aux contraintes actives (celles qui sont satisfaites en x∗ comme égalités).
En eﬀet, de (6.13) nous avons

m
∗ ∗ ∗ ∗ ∗
f (x ) = inf L(x, λ ) ≤ L(x , λ ) = f (x ) + λ∗j gj (x∗ );
x∈X
j=1

les termes de la j dans le côté droit sont nonpositifs (puisque x∗ est faisable pour (IC)), et la
somme elle-même est non négative due à notre inégalité, ce qui est possible si et seulement si
toutes les termes dans la somme sont zéro, et c’est exactement la complémentarité.
Des conditions de complémentarité nous concluons immédiatement que f (x∗ ) = L(x∗ , λ∗ ),
et donc (6.13) ait comme conséquence

L(x∗ , λ∗ ) = f (x∗ ) = inf L(x, λ∗ ).

x∈X

D’autre part, puisque x∗

est faisable pour (IC), nous avons L(x∗ , λ) ≤ f (x∗ ) si λ ≥ 0. En
combinant nos observations, nous concluons que

L(x∗ , λ) ≤ L(x∗ , λ∗ ) ≤ L(x, λ∗ )

pour tout le x ∈ X et tout le λ ≥ 0.

Notons que (i) est valide pour un programme d’optimisaton avec des contraintes inégalités
arbitraire, pas nécessairement convexe. C’est une toute autre histoire que dans le cas non convexe
la condition suffisante d’optimalité, donnée par (i), est “très loin d’être nécessaire” et n’est
“presque jamais” satisfaite. Contrairement à ceci, dans le cas convexe la condition en question
est non seulement suffisante, mais également “presque nécessaire” – il l’est certainement quand
(IC) est un programme convexe satisfaisant la condition de Slater.
Le Théorème 6.2.3 est la condition d’optimalité la plus forte pour un programme de pro-
grammation convexe, mais c’est, dans un sens, une “condition implicite” – elle est exprimée en
termes de point-selle de la fonction de Lagrange, et il est peu clair comment vérifier que quelque
chose est le point-selle de la fonction de Lagrange. Essayons de comprendre la signification du
fait que (x∗ , λ∗ ) est un point de selle de la fonction de Lagrange. Par définition, cela signifie que
– (A) L(x∗ , λ) atteint son maximum en λ ≥ 0 dans λ = λ∗
– (B) L(x, λ∗ ) atteint son minimum en x ∈ X dans x = x∗ .
Il est facile a voir que signifie (A) : il signifie exactement que
x∗ est faisable pour (IC) et les conditions de complémentarité

λ∗j gj (x∗ ) = 0
124 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

sont satisfaites (c.-à-d., les valeurs de λ∗j positives ne peuvent être associées que avec des
contraintes gj (x) ≤ 0 actives en x∗ ).
Eﬀectivement, la fonction

m
L(x∗ , λ) = f (x∗ ) + λj gj (x∗ )
j=1

est aﬃne en λ, et nous comprenons quand et où une telle fonction atteint son maximum sur
l’orthant non négatif : elle est borné supérieurement sur l’orthant si et seulement si tous les
coeﬃcients devants λj sont non positifs (c.-à-d., si et seulement si x∗ est faisable pour (IC)), et
si c’est le cas, alors l’ensemble de maximiseurs est exactement l’ensemble

{λ ≥ 0 | λj gj (x∗ ) = 0, j = 1, ..., m}.

Maintenant, que signiﬁe-t-il que la fonction L(x, λ∗ ) atteint son minimum sur X en x∗ ? La
réponse dépend de la “bonté” de la fonction de Lagrange comme fonction de x. Par exemple, si
(IC) est un convexe programme, alors

m
L(x, λ∗ ) = f (x) + λ∗j gj (x)
j=1

est convexe en x ∈ X (rappellez-vous que λ∗ ≥ 0) ; quand f, g1 , ..., gm sont diﬀérentiables en

x∗ , ainsi l’est L(x, λ∗ ). Rappelez-vous maintenant que nous savons ce qui sont les conditions
nécessaires et suﬃsantes pour qu’une fonction convexe atteint son minimum sur l’ensemble
convexe X en x∗ ∈ X où la fonction est diﬀérentiable : le gradient de la fonction en x∗ doit
appartenir au cône normal de l’ensemble X en x∗ (voir la Remarque 5.5.1 du Chapitre 5.1.1).
D’ailleurs, nous connaissons au moins deux cas quand ce “appartenir au cône normal” peut être
traduit dans des mots tout à fait explicites ; ce sont les cas quand
– (a) X est un ensemble convexe arbitraire et x∗ ∈ int X. Dans ce cas précis “appartenir au
cône normal” veut dire simplement d’être zéro ;
– (b) X est un ensemble convexe polyhedral :

X = {x ∈ Rn | aTi x − bi ≤ 0, i = 1..., M }

et x∗ est un point arbitraire de X. Dans ce cas “appartenir au cône normal de X en x∗ ”

signiﬁe “être une combinaison, avec des coeﬃcients nonpositifs, des vecteurs “actifs” ai –
ceux avec aTi x∗ = bi .
Considerons maintenant un “mélange” de ces deux cas : supposons que X dans (IC) est l’inter-
section d’un ensemble convexe arbitraire X et d’un ensemble convexe de polyhedral X :

X = X ∩ X ,

X = {x | gi+m (x) ≡ aTi x − bi ≤ 0 i = 1..., M }.

Soit x∗ une solution faisable de (IC) qui est un point intérieur de X , et soit f, g1 ..., gm des
fonctions convexes et diﬀérentiables en x∗ . Quand x∗ est optimal pour (IC) ?
Comme nous le savons déjà, la condition suﬃsante (qui est également nécessaire si g1 ..., gm
satisfont la condition de Slater sur X) est qu’ils existent des multiplicateurs de Lagrange λ∗1 ..., λ∗m
non négatifs tels que

λ∗j gj (x∗ ) = 0, j = 1, ..., m (6.14)

6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 125

et

m
x∗ ∈ Argmin[f (x) + λ∗j gj (x)] (6.15)
X j=1

Maintenant essayons de comprendre ce que signiﬁe réellement cette condition. On sait que x∗
est un point intérieur de X . Il en suit que si x∗ est un minimizer de la fonction φ(x) = f (x) +
m ∗
j=1 λj gj (x) sur X, c’est également un minimizer local de la fonction sur X ; puisque φ est
∗ ∗
convexe, x est également un minimizer global de φ sur X . Vice versa, si x est un minimizer de
φ sur X , c’est, naturellement, un minimizer de la fonction sur l’ensemble plus petit X. Ainsi,
(6.15) dit exactement que φ atteint en x∗ son minimum sur l’ensemble polyhedral X . Mais
nous savons de la Remarque 5.5.1 quand une fonction convexe et diﬀérentiable φ atteint son
minimum par rapport à x sur un ensemble polyhedral : c’est le cas si et seulement si

∇φ(x∗ ) + μ∗i ai = 0 (6.16)
i∈I

où μ∗i ≥ 0 et I est l’ensemble d’indices des contraintes linéaires gm+i (x) ≡ aTi x − b ≥ 0 dans la
description de X qui sont actives (sont satisfaites comme égalités) en x∗ .
Mettons maintenant λ∗m+i = μ∗i pour i ∈ I et λ∗m+i = 0 pour i ∈ I, i ≤ M . Avec cette
notation, nous avons
λ∗j ≥ 0, λ∗j gj (x∗ ) = 0, j = 1, ..., m + M, (6.17)
tandis que (6.16 dit que

m+M
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0. (6.18)
i=1

Récapitulons : nous avons montré sous les conditions ci-dessus (le problème est convexe, les
données sont différentiables en x∗ , la solution faisable x∗ est un point intérieur X ) que la
condition suffisante (et nécessaire et suffisante, si g1 , ..., gm satisfont la condition de Slater sur
X) de l’optimalité de x∗ est l’existence des multiplicateurs de Largange λ∗j , j = 1, ..., m + M ,
satisfaisant (6.17) et (6.18).
Notez que cette condition d’optimalité a“l’aire” comme si nous traitions les contraintes
g1 (x) ≤ 0, ..., gm (x) ≤ 0 et les contraintes linéaires définissant X en tant que contraintes
fonctionnelles, et on traite X , et pas X = X ∩ X , comme domaine du problème. Mais il
y a une différence importante : avec cette nouvelle interprétation des données, afin d’obtenir
la nécessité de notre condition d’optimalité, nous avons été censés de supposer que toutes les
m + M de nos nouvelles contraintes fonctionnelles satisfaisaient la condition de Slater : il existe
x̄ ∈ X tel que gj (x̄) < 0, j = 1, ..., m + M . Avec notre approche nous avons obtenu la nécessité
sous une hypothèse plus faible : il devrait exister x̄ ∈ X où les contraintes “compliquées”
g1 (x) ≤ 0, ..., gm (x) ≤ 0 sont satisfaits en tant qu’inégalités strictes, alors que les contraintes
“simples” linéaires gm+1 (x) ≤ 0¿..., gm+M (x) ≤ 0 simplement sont satisfaites.
Les résultats de nos considérations méritent certainement d’être formulés comme un théorème
(où nous changeons légèrement la notation : ce qui sera m et X, dans les considérations ci-dessus
étaient m + M et X ) :

Théorème 6.2.4 [Conditions d’Optimalité de Karush-Kuhn-Tucker dans le cas Convexe]

Soit (IC) un programme convexe, x∗ ∈ X une solution faisable intérieure de (IC) (x∗ ∈
int X), et soit f, g1 ..., gm diﬀérentiables en x∗ .
(i) [Suﬃsance] la condition de Karush-Kuhn-Tucker :
126 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Ils existent des multiplicateurs nonnegatifs de Lagrange, λ∗j , j = 1..., m, tels que

λ∗j gj (x∗ ) = 0, j = 1, ..., m [complémentarité] (6.19)

et

m
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0, (6.20)
j=1

est suﬃsante pour que x∗ soit une solution optimale de (IC).

(ii) [Nécessité et suﬃsance ] sous la “condition de Slater restrante” :
il existe x̄ ∈ X tel que les gj non linéaires sont strictlement négatives, et gj
lineaires sont nonpositives en x̄ ∈ X
la condition de Karush-Kuhn-Tucker de (i) est necessaire et suﬃsante pour que x∗ soit une
solution optimale de (IC).

Notez que les conditions d’optimalité du Chapitre 5 (cf. le Théorème 5.5.2 et la Remarque 5.5.1)
sont des cas particuliers du Théorème ci-dessus pour le cas quand m = 0.

6.3 Dualité pour la Programmation Lineaire et Quadratique

convexe
Le rôle fondamental qui joue la fonction de Lagrange et la dualité de Lagrange dans l’opti-
misation n’est pas limitée au Théorème 6.2.3 seulement. Il y a plusieurs cas quand nous pouvons
décrire “explicitement” le problème dual, et toutes les fois quand c’est le cas, nous obtenons
une paire de programmes d’optimisation étroitement liés – la paire primal-dual ; en analysant
les deux problèmes simultanément, nous obtenons plus d’informations sur leurs propriétés (ainsi
qu’une possibilité de résoudre les problèmes numériquement d’une manière plus eﬃcace) que si
nous nous limitions seulement à un problème de la paire. La recherche détaillée sur la dualité
dans le cas de Programmation Convexe “bien structuré”, quand nous pouvons explicitement
écrire les problèmes primal et dual, va au delà de la portée de notre cours (principalement parce
que la dualité de Lagrange n’est pas la meilleure approche ici ; dans ce cas la Dualité de Fenchel
est un meilleur outil – quelque chose de semblable, mais non identique). Il y a, cependant, des
cas simples quand déjà la dualité de Lagrange est tout à fait appropriée. Nous allons étudier
deux de tels cas.

6.3.1 La dualité en Programmation Linéaire

Commençons par une observation générale. Notez que la condition de Karush-Kuhn-Tucker
sous hypothèses du Théorème ((IC) est convexe, x∗ est un point intérieur de X, f, g1 ..., gm sont
diﬀérentiables en x∗ ) est exactement la condition que (x∗ , λ∗ = (λ∗1 ..., λ∗m )) est un point-selle de
la fonction de Lagrange

m
L(x, λ) = f (x) + λj gj (x) : (6.21)
j=1

(6.19) indique que L(x∗ , λ) atteint en λ∗ son maximum en λ ≥ 0, et (6.20) dit que L(x, λ∗ )
atteint en x∗ son minimum en x.
Considérons maintenant le cas particulier de (IC) où X = Rn est l’espace entier, l’objectif
f est convexe et diﬀérentiable partout et les contraintes g1 ..., gm sont lineaires. Dans ce cas, le
6.3. DUALITE POUR LA PROGRAMMATION LINEAIRE ET QUADRATIQUE CONVEXE127

Théorème 6.2.4 nous dit que la condition KKT (Karush-Kuhn-Tucker) est nécessaire et suffisante
pour l’optimalité de x∗ ; comme nous avons juste expliqué, c’est identique à dire que la condition
nécessaire et suffisante de l’optimalité de x∗ est que x∗ avec certain λ∗ ≥ 0 forment un point-selle
de la fonction de Lagrange. Combinant ces observations avec la Proposition 6.2.2, nous obtenons
le résultat suivant :
Proposition 6.3.1 Soit (IC) un programme convexe avec X = Rn , l’objectif f qui est differen-
tiable partout et les contraintes linéaires g1 ..., gm . Alors x∗ est la solution optimale de (IC) si et
seulement s’il existe λ∗ ≥ 0 tel que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange (6.21)
(considérée comme la fonction de x ∈ Rn et de λ ≥ 0). En particulier, (IC) est soluble si et
seulement si L possède des points-selle, et si c’est le cas, alors (IC) avec son dual de Lagrange

(IC∗ ) : L(λ) → max | λ ≥ 0

sont solubles avec des valeurs optimales égales.

Regardons que cette proposition indique dans le cas de Programmation Linéaire, c.-à-d., quand
(IC) est le programme

(P ) f (x) = cT x → min | gj (x) ≡ bj − aTj x ≤ 0, j = 1, ..., m.

Aﬁn d’obtenir le dual de Lagrange, nous devrons former la fonction de lagrange

m
m
m
L(x, λ) = f (x) + λj gj (x) = [c − λj aj ]T x + λj bj
j=1 j=1 j=1

de (IC) et pour le minimiser en x ∈ Rn ; ceci nous donnera l’objectif dual. Dans notre cas la
m
j=1 λj aj = 0, et
minimisation en x est immédiate : la valeur minimale est −∞, si c− m j=1 λj bj
sinon. Nous voyons que le dual de Lagrange est

m
(D) bT λ → max | λj aj = c, λ ≥ 0.
j=1

Le problème (D) que nous obtenons est le dual LP de (P ) habituel, et la Proposition 6.3.1 est
une des formes équivalentes du Théorème de Dualité en Programmation Linéaire du Chapitre
5.

6.3.2 La dualité en Programmation Quadratic

Considérons maintenant le cas quand le problème original est quadratique convexe avec des
contraintes linéaires :
1
(P ) f (x) = xT Dx + cT x | gj (x) ≡ bj − aTj x ≤ 0, j = 1, ..., m,
2
où l’objectif est une forme quadratique strictement convexe, de sorte que D = D T soit une
matrice déﬁnie positive : xT Dx > 0 quelque soit x = 0. Il est commode de réécrire les contraintes
sous une forme vectorielle :
⎛ ⎞ ⎛ ⎞
b1 aT1
g(x) = b − Ax ≤ 0, b = ⎝ ... ⎠ , A = ⎝ ... ⎠ .
bm aTm
128 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Aﬁn de former le dual de Lagrange au programme (P ), nous écrivons la fonction de Lagrange :

L(x, λ) = f (x) + m j=1 λj gj (x)
= cT x + λT (b − Ax) + 12 xT Dx
= 12 xT Dx − [AT λ − c]T x + bT λ
et la minimisons en x. Puisque la fonction est convexe et différentiable en x, le minimum, si
existe, est donné par la règle de Fermat :
∇x L(x, λ) = 0,
qui dans notre situation devient
Dx = [AT λ − c].
Comme D est définie positive, elle est non singuliere, de sorte que l’équation de Fermat a une
solution unique qui est le minimiseur recherché de L(·, λ) ; cette solution est
x = D −1 [AT λ − c].
Substituant la valeur de x dans l’expression pour la fonction de Lagrange, nous obtenons l’ob-
jectif dual :
1
L(λ) = − [AT λ − c]T D −1 [AT λ − c] + bT λ,
2
et le problème dual est à maximiser cet objectif sur l’orthant non négatif. Habituellement on
réécrit ce problème dual d’une manière equivalente en ajoutant des variables supplémentaires
t = −D −1 [AT λ − c] [[AT λ − c]T D −1 [AT λ − c] = tT Dt];
apres cette manipulation le problème dual devient
1
(D) − tT Dt + bT λ → max | AT λ + Dt = c, λ ≥ 0.
2
Nous observons que le problème dual est également un Programme Quadratique convexe avec
des contraintes linéaires.
Notez également que dans notre cas dans un problème faisable (P ) est automatiquement
soluble 4)
Avec cette observation, nous obtenons de la Proposition 6.3.1
Théorème 6.3.1 [Théorème de Dualité en Programmation Quadratique]
Soit (P ) un Programme Quadratique faisable avec la matrice symétrique définie positive D dans
l’objectif. Alors (P ) et (D) sont solubles, et les valeurs optimales de ces deux problèmes sont
égales entre elles.
La paire (x; (λ, t)) des solutions feasables des problèmes est composée des solutions optimales
(i) si et seulement si l’objectif primal en x est égal à l’objectif dual en (λ, t) [condition
d’optimalité de “saut de dualité nul”]
ou, ce qui est le même
(ii) si et seulement si
λi (Ax − b)i = 0, i = 1, ..., m, et t = −x. (6.22)
4. ) car son objectif, en raison de la positivité de D, va à l’infini avec |x| → ∞ et grâce au fait général suivant :
Soit (IC) un programme faisable avec le domaine fermé X, objectif et contraintes continus sur X, et tel que
f (x) → ∞ que x ∈ X “tend à l’infini” (c.-à-d. |x| → ∞). Alors (IC) est soluble.
Vous êtes invités à prouver ce petit résultat (il se trouve parmi les exercices accompagnant ce chapitre)
6.3. DUALITE POUR LA PROGRAMMATION LINEAIRE ET QUADRATIQUE CONVEXE129

Preuve (i) : nous savons de la Proposition 6.3.1 que la valeur optimale dans le problème (P )
de minimisation est égale à la valeur optimale dans le problème (D) de maximisation. Il en suit
que la valeur de l’objectif primal en n’importe quelle solution faisable primale est ≥ la valeur de
l’objectif dual en n’importe quelle solution faisable duale, et l’égalité est possible si et seulement
si ces valeurs coincident avec les valeurs optimales des problèmes, comme c’est aﬃrmé dans (i).
(ii) : calculons la diﬀérence Δ entre la valeur de l’objectif primal en une solution faisable
primale x et celle de l’objectif dual en une solution faisable duale (λ, t) :

Δ = cT x + 12 xT Dx − [bT λ − 12 tT Dt]
= [AT λ + Dt]T x + 12 xT Dx + 12 tT Dt − bT λ
[comme AT λ + Dt = c]
= λT [Ax − b] + 12 [x + t]T D[x + t]

Comme Ax − b ≥ 0 et λ ≥ 0 grâce à la faisabilité (primale) de x et la faisabilité (duale) de (λ, t),

les deux termes dans l’expression ﬁnale de Δ sont non négatifs. Ainsi, Δ = 0 (ce qui, grâce à
(i), est équivalent à l’optimalité de x pour (P ) et l’optimalité de (λ, t) pour (D)) si et seulement

si m j=1 λj (Ax − b)j = 0 et (x + t) D(x + t) = 0. Comme λ ≥ 0 et Ax ≥ b, la première de ces
T

égalités, est équivalente à λj (Ax − b)j = 0, j = 1..., m. De plus, comme la matrice D est positive
deﬁnie, la seconde égalité est équivalente à x + t = 0.
130 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

6.4 Exercices
Exercice 6.1 Montrez le résultat suivant :
Soit le programme d’optimisation

f (x) → min | gj (x) ≤ 0, j = 1, ..., m, hl (x) = 0, l = 1, ..., k, x ∈ X ⊂ Rn

faisable, avec le domaine X fermé, et soient f, g1 , ..., gm , h1 , ..., hk des fonctions continues sur
X. Supposons, de plus, que le problème est “coercive” , c.-à-d., il existe une fonction s(t) → ∞,
t → ∞, sur le rayon non négatif tel que

max{f (x), g1 (x), ..., gm (x), |h1 (x)|, ..., |hk (x)|} ≥ s(|x|) ∀x ∈ X.

Alors le problème est soluble.

Indication : considérez ce qu’on appelle suite relaxante {xi }, c.-à-d., une suite de solutions
faisables au problème avec les valeurs de l’objective qui convergent quand i → ∞ à la valeur
optimale du problème. Montrez que la suite est bornée et possède donc des points limites ; vériﬁez
que chaque tel point est une solution optimale du problème.
Exercice 6.2 Trouver la solution le minimiseur de la fonction linéaire

f (x) = cT x

sur l’ensemble

n
Vp = {x ∈ Rn | |xi |p ≤ 1};
i=1
ici p, 1 < p < ∞, est un paramètre.

Exercice 6.3 Considérez la fonction

k
I(u, v) = ui ln(ui /vi )
i=1

vue comme une fonction de u ∈ Rk non négatif et de v ∈ Rk positif ; ici 0 ln 0 = 0.

1) Montrez que la fonction est convexe en (u, v) sur l’ensemble en question

2) Prouvez que si u, v ∈ Δ = {z ∈ Rk+ : i zi = 1} et u ≥ 0, alors

I(u, v) ≥ 0,

avec l’inégalité étant stricte à condition que u = v.

Indication : appliquer l’inégalité de Jensen à la fonction strictement convexe − ln t sur (0, ∞).
Commentaire : un vecteur z ∈ Δ peut être considéré comme la distribution de probabilité
sur l’ensemble de k points : zi est la probabilité assignée à l’i-ème élément de l’ensemble. Avec
cette interprétation, I(u, v) est une sorte de “distance dirigé” entre les lois de probabilité : il place
en correspondance à une paire ordonnée des distributions un réel non négatif qui est positif si
les distributions sont distinctes, et est zéro sinon. Cette quantité s’appelle distance de Kullback-
Leibler (ce n’est pas une distance dans le sens de notre déﬁnition du Chapitre 1, puisqu’elle n’est
pas symétrique : I(u, v) n’est pas identique à I(v, u)). La distance de Kullback-Leibler entre les
distributions joue un rôle important dans la Théorie de Décisions Statistiques.
6.4. EXERCICES 131

Exercice 6.4 Montrez le théorème suivant de Karhu-Bonnenblast :

Soit X ⊂ Rk un ensemble convexe et f1 , ..., fm des fonctions convexes à valeurs réelles sur X.
Prouvez que
– ou le système d’inégalités strictes

(∗) fi (u) < 0, i = 1, ..., m,

a une solution dans X,

– ou ils existent μi ≥ 0 dont la somme fait 1 tels que la fonction

m
μi fi (u)
i=1

est non négative pour tout x ∈ X.

Indicaton : Considérer le programme

(S) t → min | f0 (x) − t ≤ 0, f1 (x) − t ≤ 0, ..., fN (x) − t ≤ 0, x ∈ X.

C’est un programme convexe avec la valeur optimale

t∗ = min max fi (x)

x∈X i=0,...,N

(notez que (t, x) est faisable pour (S) si et seulement si x ∈ X et t ≥ maxi=0,...,N fi (x)).

Exercice 6.5 Prouvez le résultat suivant :

si r > 0 et μ ∈ Rk sont un réel et un vecteur donnés, alors
k

inf [r ln exp{vi } − μT v]
v∈Rk
i=1

est propre (diﬀèrent de −∞) si et seulement si

μ ≥ 0, μi = r,
i

et si c’est le cas, alors le inf indiqué est 0 (dans le cas r = 0), ou est

k
− μi ln(μi /r) [0 ln 0 = 0].
i=1

Indication : on voit immédiatement que μ ≥ 0 est la condition nécessaire pour que l’infinum en
question soit fini. Pour accomplir la preuve de la nécessité, vous devriez vérifier que inf est −∞

également dans le cas du μ ≥ 0 et ki=1 μi = r ; pour voir ceci, regardez ce qui se passe quand
vi = t, i = 1, ..., k, et t parcourt R.
Pour prouver la suffisance et obtenir la représentation requise de la valeur optimale, supposez
d’abord que tous les μi sont positifs et utilisez la règle de Fermat pour trouver le minimiseur
exacte, ensuite pensez comment éliminer les composants zéro de μ, s’ils sont présents.
132 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Chapitre 7

Conditions d’Optimalité

Ce chapitre, dernier dans la partie théorique du cours, est consacré aux conditions d’optima-
lité du premier ordre pour des programmes de Programmation Mathématiques de type général

(P ) f (x) → min | g(x) ≡ (g1 (x), g2 (x), ..., gm (x)) ≤ 0, h(x) = (h1 (x), ..., hk (x)) = 0, x ∈ X.

La question que nous intéresse est suivante :

– supposons que nous sommes donnés une solution faisable x∗ de (P ). Quelles sont les
conditions (nécessaires, suffisantes, nécessaires et suffisantes) pour que x∗ soit optimale ?
Nous allons répondre à cette question sous les conditions suivantes sur les données du problème :
– A. x∗ est un point intérieur du domaine X du problème ;
– B. les fonctions f, g1 , ..., gm , h1 , ...hk sont lisses en x∗ (au moins une fois continûment
différentiables dans un voisinage du point ; si nécessaire, nous aurons besoin de plus de
régularité).
Il est important que, contrairement à ce qui a été fait dans la conférence précédente, on n’impose
aucune contrainte structurelle telle que convexité.
Avant de venir aux considérations “techniques”, considérons quelques questions “philoso-
phiques” suivantes :
– Quelle sorte des conditions nous interesse ?
– Pourquoi sommes nous intéressés par ces conditions ?
La réponse à la première question est comme suit : nous sommes intéressés par des conditions
d’optimalité locales et vérifiables. La localité signifie que les conditions devraient être exprimées
en termes de propriétés locales des données – en termes de valeurs et dérivées (du premier, se-
cond... ordre) des fonctions f, g1 ..., gm , h1 ..., hk en x∗ . La vérifiabilité signifie que étant donné les
valeurs et les dérivées en x∗ des fonctions indiquées, nous devrions pouvoir vérifier efficacement
si la condition est ou n’est pas satisfaite.
Ces spécifications – tout à fait raisonnables – pour les conditions à dériver mènent aux
conséquences plutôt désagréables :
Nous pouvons espérer d’obtenir des conditions nécessaires pour l’optimalité de x∗
et des conditions suffisantes pour l’optimalité local de x∗ , mais pas de conditions
suffisantes d’optimalité global de x∗ .
Essayons de voir que signifie optimalité “local” et “globale”, et, en second lieu, pourquoi l’affir-
mation ci-dessus est vraie.
L’optimalité globale de x∗ n’est rien d’autre que l’optimalité “réelle” : x∗ est une solution
faisable de (P ) avec la plus petite valeur de l’objectif. Contrairement à ceci, l’optimalité locale

133
134 CHAPITRE 7. CONDITIONS D’OPTIMALITE

de x∗ signiﬁe que x∗ est la solution faisable qui n’est pas plus mauvaise, du point de vue des
valeurs de l’objectif, que d’autres solutions faisables assez proches de x∗ . La déﬁnition formelle
est suivante :
Une solution faisable x∗ de (P ) s’appelle localement optimale, s’il existe un voisinage U de
x∗ tel que x∗ est solution optimale de la version (P ) “limitée à U ”, c.-à-d., si

x ∈ U, g(x) ≤ 0, h(x) = 0 ⇒ f (x) ≥ f (x∗ ).

Notez que dans la dernière relation j’ai sauté l’inclusion x ∈ X ; c’est parce que nous avons
supposé que x∗ est un point intérieur de X, de sorte que en resserrant U , nous pouvons toujours
le rendre une partie de X et rendre ainsi l’inclusion x ∈ X une conséquence de l’inclusion x ∈ U ).
Dans le cas convexe l’optimalité locale est équivalente à l’optimalité globale (cf. Théorème
5.5.1 combinée avec le fait que l’ensemble faisable d’un programme convexe est convexe). Dans
le cas général ces deux notions sont diﬀérentes – une solution globalement optimale est, naturel-
lement, localement optimale, mais pas vice versa : regardez quelque chose comme le problème

f (x) = 0.1x2 + sin2 x → min;

ici il y a plusieurs minimiseurs locaux x∗k de l’objectif, mais seulement un d’entre eux – x∗ = 0
– est son minimiseur global.
Notez que puisqu’une solution globalement optimale pour sûr est localement optimale, la
condition nécessaire d’optimalité locale est aussi nécessaire pour l’optimalité global.
Maintenant, il est claire pourquoi dans le cas général il est impossible de préciser une condi-
tion locale qui soit suffisante pour l’optimalité globale : parce que l’information locale sur une
fonction f en un minimiseur local x∗ de la fonction ne permet pas comprendre que ce minimiseur
est seulement local et pas global. En effet, prenons f ci-dessus et x∗k = 0 ; c’est seulement un
minimiseur local, pas global, de f . En même temps nous pouvons facilement changer f en dehors
d’un voisinage de x∗k et rendre x∗k minimiseur global de la fonction modifiée (tracez le graphe
de f pour le voir). Notez que nous pouvons facilement rendre la fonction modifiée f¯ aussi lisse
que nous le souhaitons. Maintenant, l’information locale – la valeur et les dérivées en x∗k – est
identique pour la fonction originale f et la fonction modifiée f¯, puisque les fonctions coincident
dans un voisinage de x∗ . Elle en suit qu’il n’y a aucun test qui prend l’information locale sur le
problème en x∗ et rend correctement la réponse à la question si x∗ est ou n’est pas un minimiseur
global de l’objectif, même si nous assumons que l’objectif soit très régulière. En effet, un tel test
ne peut pas distinguer f et f¯ dans l’exemple précèdent, et une fois demandé aurait donné deux
fois la même réponse. Cette réponse est forcement fausse dans un de ces deux cas !
La difficulté que nous avons décrite est intrinsèque pour l’optimisation non convexe : non
seulement il n’existe pas de “test local efficace” pour l’optimalité globale ; également, il n’existe
pas, comme nous le verrons dans les chapitres suivants, d’algorithme efficace capable d’approcher
le minimiseur global d’un problème de Programmation Mathématique de type général, même
un problème avec des données très lisses.
En raison de cette propriété désagréable et inévitable des problèmes de programmation
mathématiques de type général, la réponse à la seconde des questions annoncées – comment
nous allons utiliser les conditions d’optimalité dans la Programmation Mathématique – n’est
pas aussi optimiste que nous pourrions souhaiter. En ce qui concerne des conditions de l’op-
timalité globale, nous pouvons espérer avoir des conditions nécessaires seulement ; en d’autres
termes, nous pouvons espérer avoir un test qui est capable nous indiquer que ce que nous avons
n’est pas une solution globalement optimale. Puisqu’il n’y a pas de condition (locale) suffisante
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 135

de l’optimalité globale, nous n’avons aucun espoir de concevoir un test local capable nous dire
que ce qui nous avons est la solution “réelle” – globale – du problème. Le maximum de ce
que nous pouvons espérer dans cette direction est une condition suffisante de l’optimalité local,
c.-à-d., un test local capable de dire que ce que nous avons ne peut pas être amélioré par des
“petites modifications”. C’est la raison principale pourquoi je ne parle pas des conditions suffi-
sants de l’optimalité locale dans ce cours. Ceux de vous qui sont intéressée par ce sujet devraient
s’adresser à un texte traditionnel sur la Programmation Mathématique.
Le pessimisme provoqué par les remarques ci-dessus a cependant ses limites. Une condition
nécessaire d’optimalité est une certaine relation qui doit être satisfaite par la solution optimale.
Si nous sommes assez intelligents pour produire – sur le papier ou algorithmiquement – tous
les candidats x∗ qui satisfont cette relation, et si la liste de ces candidats s’avère finie, nous
pouvons parcourir la liste et choisir la meilleur, du point de vue de l’objectif, solution faisable
dans cette liste, ce qui va nous donner la solution globalement optimale (étant donné qu’elle
existe). Inutile de dire que la possibilité décrite est rencontrée seulement dans les cas parti-
culièrement simples, mais déjà ces cas sont parfois extrêmement importantes (nous discuterons
un exemple de ce type à la fin de ce chapitre). Une autre manière d’utiliser des conditions
nécessaires et/ou suffisantes de’optimalité local est de les employer en tant que “le guide” pour
des algorithmes d’optimisation. Ici nous produisons une suite des solutions approximatives et
les soumettons au test d’optimalité locale donné par notre condition d’optimalité. Si l’itération
courante passe le teste, nous terminons avec une solution localement optimale du problème ; si
ce n’est pas le cas, alors la condition d’optimalité (qui est violé sur l’iteration courante) indique
normalement comment mettre à jour l’itération afin de réduire la “violation” de la condition.
Par ces mises à jour séquentielles nous obtenons une suite d’itérations qui, sous des conditions
“raisonnables”, converge à une solution localement optimale du problème. Comme nous le ver-
rons dans les prochains chapitres, cette idée est à la base de toutes les méthodes traditionnelles
de Programmation Mathématique. Naturellement, dans ce cadre il est en principe impossible
de garantir la convergence à une solution globalement optimale (imaginez que on part d’une
solution localement optimale qui n’est pas globalement optimale ; selon le schéma décrit nous
terminons immédiatement !) Bien que ce soit un inconvénient grave de cette approche, il ne
tue pas les méthodes traditionnelles basées sur les conditions d’optimalité. D’abord, il peut se
produire que nous sommes chanceux et il n’y a aucune solution locale qui ne soit pas globale ;
alors le schéma ci-dessus rapprochera la solution optimale (bien que nous ne saurons jamais que
c’est le cas...) En second lieu, dans beaucoup de situations pratiques nous sommes intéressés en
une “amélioration significative” d’une solution initiale donnée du problème plutôt qu’à trouver
la “meilleure solution”, et les méthodes traditionnelles permettent de réaliser ce but restreint.

7.1 Conditions d’Optimalité du Premier Ordre

L’idée des conditions d’optimalité du premier ordre est extrêmement simple. Soit (P ) un
problème d’optimisation, et soit x∗ une solution faisable au problème. Dériver une condition
nécessaire d’optimalité locale de x∗ est équivalent à trover les conséquences du fait qui x∗ est
localement optimal ; chaque telle conséquence est, naturellement, une condition nécessaire d’op-
timalité. Supposons ainsi qui x∗ est localement optimal pour (P ), et essayons de deviner ce
qui peut être dérivé de ce fait. L’idée la plus directe est comme suit : approchons l’objectif et
les contraintes du problème réel (P ) dans un voisinage de x∗ par des fonctions “simples”, de
ce fait en venant à une “approximation” (P ) du problème (P ). Nous pouvons espérer que si
136 CHAPITRE 7. CONDITIONS D’OPTIMALITE

l’approximation est assez bonne localement, alors la propriété locale de (P ) que nous intéresse
– ce que x∗ est une solution localement optimale de (P ) – sera héritée par (P ). Si
– (A) (P ) est aussi simple que nous sommes capable de dire “de manière constructive” ce
qui signiﬁe le fait que x∗ est localement optimal pour (P ),
et
– (B) nous pouvons montrer que notre hypothèse
“ si x∗ est localement optimal pour (P ), il est localement optimal pour (P )
aussi bien”
est vrai,
alors la condition donnée par (A) sera nécessaire pour l’optimalité locale de x∗ pour (P ).
Il y a, fondamentalement, seulement une façon “naturelle” d’implementer cette idée, étant
donné que nous sommes intéressés par des conditions d’optimalité du premier ordre et, par
conséquent, que (P ) devrait être posé en termes de valeurs et des gradients de l’objectif et des
contraintes originales en x∗ seulement. Cette façon consiste à linéariser l’objectif et les contraintes
originales en x∗ et de rendre les fonction aﬃnes qui en résultent, respectivement, l’objectif et les
contraintes de (P ). Les linéarisations en question sont

f¯(x) = f (x∗ ) + (x − x∗ )T ∇f (x∗ ),

ḡi (x) = gi (x∗ ) + (x − x∗ )T ∇gi (x∗ ), i = 1, ..., m,
h̄i (x) = hi (x∗ ) + (x − x∗ )T ∇hj (x∗ ), j = 1, ..., k,

ce qui donne le problème de Programmation Linéaire (P ) :

(P ) :
min f (x∗ ) + (x − x∗ )T ∇f (x∗ )
s.t.
gi (x∗ ) + (x − x∗ )T ∇gi (x∗ ) ≤ 0, i = 1, ..., m
(x − x∗ )T ∇hj (x∗ ) = 0, j = 1, ..., k

(j’ai laissé tomber hj (x∗ ) – elles sont nulles, car x∗ est faisable).
Maintenant, le Théorème de Dualité pour la Programmation Linéaire nous dit quand x∗
est une solution optimale au programme LP (P ). Puisque nous n’avons pas établi ce théorème
pour la forme particulière du programme de LP qui nous intéresse maintenant (celle avec des
contraintes d’égalité et pas seulement des contraintes d’inégalité), nous allons dériver la condition
d’optimalité explicitement de la source du Théorème de Dualité pour LP – du Lemme de Farkas
Homogène.
Supposons que x∗ (qui est faisable pour (P ) – rappelez-vous que x∗ est faisable pour (P ))
est optimal pour (P ). Soit I(x∗ ) l’ensemble d’indices de toutes les contraintes d’inégalité de (P )
qui sont actives (satisfaites comme égalités) en x∗ , et considérons l’ensemble

K = {d | dT ∇gi (x∗ ) ≤ 0, i ∈ I(x∗ ), dT ∇hj (x∗ ) = 0, j = 1, ..., k}.

Il est claire que si d ∈ K, alors tout vecteur xt = x∗ + td qui correspond à un assez petit t positif
est faisable pour (P ). Comme x∗ est optimal pour ce dernier problème, on doit avoir

f (x∗ ) + (xt − x∗ )T ∇f (x∗ ) ≥ f (x∗ )

pour ce t, d’où dT ∇f (x∗ ) ≥ 0. Ainsi,

7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 137

(*) si x∗ est optimal pour (P ), alors dT ∇f (x∗ ) ≥ 0 pour tout d ∈ K ;

en réalité “si ... alors ...” peut être remplacé par “si et seulement si” (pourquoi ?).
Ensuite, par le Lemme de Farkas Homogène (cf. Chapitre 3) l’aﬃrmation (*) est équivalente
à une possibilité de representer

k
∇f (x∗ ) = − λ∗i ∇gj (x∗ ) − μ∗j ∇hj (x∗ ) (7.1)
i∈I(x∗ ) j=1

avec certains λ∗i non négatifs et certains μ∗j réels. Pour le voir, notez que K est exactement le
cône polyhedral
{d | dT ∇gi (x∗ ) ≤ 0, i ∈ I(x∗ ), dT ∇hj (x∗ ) ≤ 0, dT (−∇hj (x∗ )) ≤ 0, j = 1, ..., k},
et (*) dit que le vecteur ∇f (x∗ ) a le produit scalaire non négatif avec tout vecteur de K, i.e.,
avec tout vecteur qui a le produit scalaire non négatif avec les vecteur de l’ensemble ﬁni
A = {−∇gi (x∗ ), i ∈ I(x∗ ), ±∇hj (x∗ ), j = 1, ..., k}.
Par le Lemme de Farkas Homogène ceci est le cas si et seulement si ∇f (x∗ ) est une combinaison
de vecteurs de A avec des coeﬃcients non négatifs :

k
∇f (x∗ ) = − λ∗i ∇gi (x∗ ) + [μ∗j,+ − μ∗j,−]∇hj (x∗ )
i∈I(x∗ ) j=1

avec λ∗j , μ∗j,+ , μ∗j,− non négatifs. Et dire que ∇f (x∗ ) est représentable sous cette dernière forme
est la même chose qu’il soit représentable comme exigé dans (7.1).
Pour l’instant λ∗i sont déﬁnis pour i ∈ I(x∗ ) seulement. Nous allons poser λ∗i = 0 pour
i ∈ I(x∗ ) et en élargissant la somme du côté droit de (7.1) sur i = 1..., m. Notez également que
maintenant nous avons des relations de complémentarité λ∗i gi (x∗ ) = 0, i = 1..., m.
Nous avons établi le résultat conditionnel suivant :
Proposition 7.1.1 Soit x∗ localement optimal pour (P ) et tel que l’hypothèse (B) est vériﬁée :
x∗ demeure une solution optimale pour le programme linéarisé (P ) également. Alors ils existent
λ∗i non négatifs et μ∗j réels tels que

λ∗i gi (x∗ ) = 0, i = 1, ..., m [complementary slackness]

m k
∇f (x∗ ) + ∗ ∗
i=1 λi ∇gi (x ) + ∗ ∗
j=1 μj ∇hj (x ) = 0 [Euler’s Equation]
(7.2)
La propriété de x∗ d’être faisable pour (P ) et de satisfaire la condition “ils existent λ∗i non
négatifs et ... tels que...” dans la proposition ci-dessus s’appelle Condition d’Optimalité de
Karush-Kuhn-Tucker ; nous connaissons déjà une version de cette condition pour des problèmes
contraints par des inégalités. Le point x∗ qui satisfait la condition d’optimalité de KKT s’appelle
un point KKT de (P ) (quelquefois ce nom est employé pour la paire (x∗ ; λ∗ , μ∗ ), c.-à-d., pour
le point x∗ avec le certificat qu’il satisfait la condition de KKT).
De la discussion ci-dessus il découle que tout ce que nous pouvons espérer est que la
condition de KKT soit necessaire pour l’optimalité locale de x∗ ; la Proposition 7.2 indique
que c’est en effet le cas, mais sous une condition supplémentaire implicite : “x∗ reste...”.
Le problème, par conséquent, est de convertir cette prétention implicite en quelque chose de
vérifiable ou d’éliminer cette condition. Le dernier, malheureusement, est impossible, ce qu’on
voit de l’exemple élémentaire suivant (où le problème est même convexe) :
138 CHAPITRE 7. CONDITIONS D’OPTIMALITE

f (x) ≡ x → min | g1 (x) ≡ x2 ≤ 0.

La solution optimale (la seule solution faisable) est x∗ = 0. Néanmoins, x∗ = 0 n’est pas un
point KKT – il est impossible de trouver λ∗1 non négatif tel que

∇f (0) + λ∗1 ∇g1 (0) ≡ 1 + λ∗1 × 0 = 0.

Ainsi, nous avons besoin d’une “condition de régularité” pour rendre la condition de KKT
nécessaire à l’optimalité locale. La condition la plus générale de ce type s’appelle “qualiﬁcation
des contraintes”.

Qualiﬁcation des contraintes indique réellement que l’ensemble faisable du problème actuel
(P ) “est proche” à l’ensemble faisable du problème linéarisé (P ) dans un voisinage de x∗ “aux
terme d’ordre supérieur en |x − x∗ | près”, de la même façon que les données des problèmes. Pour
donner la déﬁnition précise, nous allons écrire

θ(t) = o(ts )

(θ est une fonction sur le rayon non négatif, s > 0), si θ(t)t−s → 0 quand t → +0 et θ(0) = 0.
Et nous dirons que le problème (P ) a la propriété de Qualiﬁcation de Contraintes en solution
faisable x∗ , s’il existe une fonction θ(t) = o(t) telle que
pour toute solution faisable x du problème linéarisé (P ) il existe une solution faisable
x du problème actuel (P ) telle que

|x − x | ≤ θ(|x − x∗ |)

– la distance entre x et x diminue plus vite que la distance entre x et x∗ quand

x → x∗ .
La condition de Qualification des Contraintes dit que l’ensemble faisable du problème linéarisé
(P ) ne peut pas être (localement, naturellement) “beaucoup plus large” que l’ensemble faisable
de (P ) : pour chaque x près de x∗ et faisable pour (P ) il existe un x “très proche” à x et faisable
pour (P ). Notez que dans le “ mauvais” exemple ci-dessus nous avons exactement l’opposé :
l’ensemble faisable de (P ) est la droite entière (puisque la contrainte dans le problème linéarisé
est 0 × x ≤ 0), qui est “un ensemble beaucoup plus large”, même localement, que l’ensemble
faisable {0} de (P ).
On voit facilement que sous l’hypothèse de Qualification de Contraintes l’optimalité locale
de x∗ pour (P ) implique l’optimalité globale de x∗ pour (P ), de sorte que cette condition rend
la condition de KKT nécessaire pour l’optimalité :
Proposition 7.1.2 Soit x∗ localement optimal pour (P ), où (P ) satisfait la condition de Qua-
lification de Contraintes en x∗ . Alors x∗ est optimal pour (P ) et, par conséquent, est un point
KKT de (P ).
Preuve. Soit x∗ localement optimal pour (P ) ; nous devrions montrer qu’alors x∗ est optimal
pour (P ). Supposez, au contraire, que x∗ n’est pas optimal pour (P ). Puisque x∗ est faisable
pour (P ), la “non optimalité” de x∗ pour le dernier problème signifie qu’il existe une solution
faisable x̄ de (P ) avec plus petite valeur de l’objective linéarisée f (x∗ ) + (x − x∗ )T ∇f (x∗ ) que
la valeur de cet objectif en x∗ . Posons d = x̄ − x∗ , nous obtenons donc

dT ∇f (x∗ ) < 0.
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 139

Maintenant, soit
xt = x∗ + t(x̄ − x∗ ), 0 ≤ t ≤ 1.
Les points xt sont des combinaisons convexes de deux solutions faisables de (P ) et sont donc
également les solutions faisables du dernier (c’est un programme LP). Par Qualification des
Contraintes, ils existent des solutions faisables xt du problème actuel (P ) tels que
|xt − xt | ≤ θ(|xt − x∗ |) = θ(t|x̄ − x∗ |) ≡ θ(tq), q = |x̄ − x∗ |, (7.3)
avec θ(t) = o(t). Maintenant, f est continûment différentiable dans un voisinage de x∗ (c’est la
condition que nous avons accepté une fois pour toutes au début de ce chapitre). Il en découle
que (c’est une conséquence immédiate du Théorème de Valeur Intermédiaire de Lagrange) f est
localement Lipschitzienne en x∗ : il existe un voisinage U de x∗ et une constante C < ∞ tels
que
|f (x) − f (y)| ≤ C|x − y|, x, y ∈ U. (7.4)
Quand t → +0, nous avons xt → x∗ , et comme
|xt − xt | ≤ θ(tq) → 0, t → 0,
xt converge également vers x∗ quand t → 0. En particulier, xt et xt appartiennent à U pour
tout t assez petit positif. De plus, de l’optimalité locale de x∗ et du fait que xt converge vers x∗
quand t → +0 et est faisable pour (P ) pour tout t nous concluons que
f (xt ) ≥ f (x∗ )
quelque soit t positif assez petit. Ainsi pour t petit positif nous avons
0 ≤ t−1 [f (xt ) − f (x∗ )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 [f (xt ) − f (xt )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 C|xt − xt | [see (7.4)]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 Cθ(tq) [see (7.3)]
f (x∗ +td)−f (x∗ ) −1
= t + t Cθ(tq).
Comme t → 0, la dernière expression dans la chaine tend vers dT ∇f (x∗ ) < 0 (car θ(tq) = o(t)),
alors que elle doit être non négative. C’est la contradiction désirée.
La Proposition 7.1.2 ressemble beaucoup à un pléonasme : on s’est posé la question quand la
condition de KKT est nécessaire pour l’optimalité locale, et la réponse que nous avons maintenant
dit que ce pour sûr est le cas quand (P ) satisfait la condition de Qualification des Contraintes
en x∗ . Si on gagne quelque chose avec cette réponse, ce quelque chose est en effet très mince
– nous ne savons pas certifier si la Qualification des Contraintes a lieu. Il y a un cas trivial –
celui quand les contraintes de (P ) sont linéaires ; dans ce cas-ci l’ensemble faisable du problème
linéarisé est simplement le même que l’ensemble faisable du problème initial (en fait il suffit de
supposer la linéarité des contraintes actives en x∗ seulement ; dans ce cas les ensembles faisables
de (P ) et de (P ) coincident l’un avec l’autre dans un voisinage de x∗ , ce qui est bien suffisant
pour la Qualification de Contraintes).
Parmi les certificats plus généraux – conditions suffisantes – pour la Qualification des
Contraintes 1) le plus fréquemment utilisé est l’hypothèse de régularité de x∗ pour (P ) :
1. ) regardez ce que nous faisons : nous discutons une condition suffisante pour quelque chose, notamment, la
Qualification des Contraintes, qui n’est à son tour, rien d’autre qu’une condition suffisante pour rendre quelque
chose d’autre – le KKT – une condition nécessaire pour l’optimalité locale. C’est une qualité tout à fait im-
pressionnante d’un être humain d’être capable de comprendre ce genre de “conditions des condition” et de les
manipuler !
140 CHAPITRE 7. CONDITIONS D’OPTIMALITE

(Régularité)
l’ensemble des gradients de toutes contraintes actives de (P ) en x∗ est un ensemble
linéairement indépendant
(rappelons qu’une contrainte est active en x∗ si elle est satisfaite en ce point comme
égalité ; en particulier, toutes les contraintes d’égalité sont actives en chaque solution
faisable).
Le Théorème fondamental suivant (c’est l’une des formes du Théorème de Fonction Implicite)
montre pourquoi (Régularité) implique la Qualiﬁcation des Contraintes :

Théorème 7.1.1 Soit x∗ un point de Rn et soit φ1 ..., φl des fonction k ≥ 1 continûment

différentiables dans un voisinage de x∗ qui sont égales à 0 à x∗ et sont telles que leurs gra-
dients ∇φi (x∗ ) en x∗ ¿, i = 1, ..., l, forment un ensemble linéairement indépendant.
Alors il existe
– un voisinage X du point x∗ dans Rn
– un voisinage Y d’origine dans Rn
– un isomorphisme y → S(y) de Y sur X qui transforme y = 0 en x∗ : S(0) = x∗
– tel que
– (I) S est k fois continûment différentiables dans Y , et son inverse S −1 (x) est k fois
continûment différentiables dans X ;
– (II) les fonctions
ψi (y) ≡ φi (S(y))
dans Y sont les fonctions-coordonnées yi , i = 1, ..., l.

Corollaire 7.1.1 Soit x∗ , φ1 , ..., φl satisfont les hypothèses du Théorème 7.1.1, q ≤ l, X un

voisinage de x∗ donné par le théorème, et soit Φ l’ensemble de solutions du système

φi (x) ≤ 0, i = 1, ..., q; φi (x) = 0, i = q + 1, ..., l.

Il existe alors un voisinage U ⊂ X de x∗ tel que la distance d’un point x ∈ U jusqu’au Φ est
bornée supérieurement par un facteur proportionnel à la norme du “vecteur de violation”
⎛ ⎞
max{φ(x), 0}
⎜ ... ⎟
⎜ ⎟
⎜ max{φ (x), 0} ⎟
⎜ q ⎟
δ(x) = ⎜ ⎟.
⎜ |φq+1 (x)| ⎟
⎜ ⎟
⎝ ... ⎠
|φl (x)|

C.-à-d., qu’il existe une constante D < ∞ tel que pour chaque x ∈ U il existe x ∈ Φ avec

|x − x | ≤ D|δ(x)|. (7.5)

Preuve. Soit V une boule fermée du rayon positif r centré à l’origine et contenue dans Y .
Puisque S est au moins une fois continûment diﬀérentiable dans un voisinage de l’ensemble
compact V , ses premiers dérivées sont bornées dans V et donc S est Lipschitzienne dans V avec
une certaine constante D > 0 :

|S(y ) − S(y )| ≤ D|y − y | ∀y , y ∈ V.

7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 141

Puisque S −1 est continu et S −1 (x∗ ) = 0, il existe un voisinage U ⊂ X de x∗ tels que S −1 renvoie

ce voisinage dans V .
Maintenant, soit x ∈ U , et considérons le vecteur y = S −1 (x). En raison de l’origine de U , ce
vecteur appartient à V , et en raison de l’origine de S, les l premières coordonnées du vecteur sont
exactement φi (x), i = 1, ..., l (puisque x = S(y), et nous savons que φi (S(y)) = yi , i = 1, ..., l).
Considérons maintenant le vecteur y avec les coordonnées
⎧
⎨ min{yi , 0}, i = 1, ..., q
yi = 0, i = q + 1, ..., l .
⎩
yi , i = l + 1, ..., n
Il est claire que
– (a) |y | ≤ |y|, de sorte que y ∈ V ainsi que y ;
– (b) les l premières coordonnées du vecteur y − y forme le vecteur δ(x) de violation, et les
coordonnées restantes de y − y sont zéro, ainsi |y − y| = |δ(x)|.
Maintenant posons x = S(y ). Puisque les l premières coordonnées de y = S −1 (x ) sont exac-
tement φi (x ), i = 1, ..., l, nous voyons que les valeurs de φ1 ..., φq en x sont non positives, et les
valeurs des autre φs sont zéro, de sorte que x ∈ Φ. D’autre part,

|x − x | ≡ |S(y) − S(y )| ≤ D|y − y | = D|δ(x)|

(nous avons utilisé la propriété de Lipschitz de S dans V ), comme requis.

Conditions d’Optimalité du Premier Ordre Maintenant nous pouvons atteindre notre

cible – établir les Conditions d’Optimalité du Premier Ordre.

Théorème 7.1.2 [Conditions d’Optimalité du Premier Ordre en Programmation Mathématique]

Considérons le programme (P ) d’optimisation avec une solution faisable x∗ . Supposons que
f, g1 , ..., gm , h1 , ..., hk sont continûment différentiables dans un voisinage de x∗ et que
– soit toutes les contraintes de (P ) qui sont en activité à x∗ sont linéaires,
– ou (Régularité) a lieu, c.-à-d. que les gradients des contraintes actives en x∗ forme un
ensemble linéairement indépendant.
Alors la condition de KKT est nécessaire pour que x∗ soit une solution locale optimale de (P ). De
plus, si (Régularité) a lieu et x∗ est une solution locale optimale de (P ), alors les multiplicateurs
λ∗i et μ∗j de Lagrange, certifiant l’optimalité sont uniquement définis.

Dû à la Proposition 7.1.2, tout ce que nous avons besoin de vérifier est que
(i) (P ) satisfait la Qualification des Contraintes en x∗ (ceci impliquera que si x∗ est localement
optimal pour (P ), alors c’est un point KKT du problème)
et
(ii) si (Régularité) a lieu et x∗ est localement optimal pour (P ), de sorte que, d’après (i),
c’est un point KKT du problème, alors les multiplicateurs de Lagrange correspondants sont
uniquement définis.
(ii) est immédiat : les multiplicateurs de Lagrange qui correspondent aux contraintes
d’inégalité inactives en x∗ doivent être 0 par complémentarité, et les multiplicateurs restants,
par l’équation d’Euler (7.1), sont les coefficients de la représentation de −∇f (x∗ ) comme une
combinaison linéaire des gradients des contraintes actives en x∗ . Sous (Régularité), ces gradients
sont linéairement indépendants, de sorte que les coefficients dans la combinaison ci-dessus soient
uniquement définis.
142 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Nous allons maintenant vérifier (i). Il n’y a aucun problème d’établir (i) dans le cas quand
toutes les contraintes de (P ) actif en x∗ sont linéaires – dans ce cas la Qualification des
Contraintes est évidente. Ainsi, nous devons dériver la propriété de Qualification des Contraintes
en supposant que (Régularité) ait lieu. À cet effet on note {φ1 ..., φl } le groupe des contraintes
d’inégalité actives en x (les q premières fonctions du groupe) et toutes les contraintes d’égalité
(les l − q fonctions restantes). Ce groupe avec x∗ , satisfait les conditions du Corollaire 7.1.1 ;
selon le corollaire, il existe un voisinage U de x∗ et une constante D < ∞ tels que
∀x ∈ U ∃x : |x − x | ≤ D|δ(x)|, φi (x ) ≤ 0, i = 1, ..., q; φi (x ) = 0, i = q + 1, ..., l. (7.6)
De plus, il existe un voisinage W de x∗ tel que toutes les contraintes d’inégalité qui ne sont pas
actives en x∗ sont satisfaites dans W entier (en effet, toutes les fonctions de contraintes sont
continues en x∗ , et les contraintes inactives en x∗ , étant des inégalités strictes en ce point, restent
satisfaites dans un voisinage de x∗ ). Considérez maintenant une transformation
x → x (x)
suivante : pour x ∈ U , x (x) est le vecteur x donné par (7.6), si le dernier vecteur appartient à
W . Sinon, comme dans le cas x ∈ U , on pose x (x) = x∗ . Notez qu’avec cette définition x (x) est
toujours une solution faisable de (P ) (pourquoi ?) De plus, comme x → x∗ , le vecteur de viola-
tions δ(x) tend vers 0, et x donné par (7.6) tend également vers x∗ et donc devienne par la suite
un vecteur de W . D’ou pour tout x assez proche de x∗ , le vecteur x (x) est exactement le vecteur
donné par (7.6). En récapitulant nos observations, nous venons aux conclusions suivantes :
nous avons défini une transformation qui met en correspondance à un x ∈ Rn arbi-
traire une solution faisable x (x) de (P ). Cette transformation est bornée, et dans
un certain voisinage Q de x∗ est tel que
|x (x) − x| ≤ D|δ(x)|. (7.7)
Supposons maintenant que x soit une solution faisable du problème linéairisé (P ). Notons que
le vecteur φ(x) = (φ1 (x), ..., φl (x)) admet la représentation
φ(x) = φlin (x) + φrem (x),
où φlin vient des linéarisations des fonctions φi en x∗ – c.-à-d., des fonction-contraintes de (P ),
et φrem vient des restes des développements de Taylor du premier ordre de φi en x∗ . Puisque
x est faisable pour (P ), les q premières coordonnées de φlin (x) sont non positives, et les autres
coordonnées sont égales à 0. Il en découle que si x est faisable pour (P ), alors la norme du vecteur
de violations δ(x) n’excède pas la norme du vecteur φrem (x) (regardez la définition du vecteur
de violations), et la dernière norme est ≤ θ(|x − x∗ |) pour certain θ(t) = o(t), En effet, le reste
du développement de Taylor du premier ordre d’une fonctions continûment différentiable dans
un voisinage de x∗ est o(|x − x∗ |), x étant le point où le développement est évalué. Combinant
cette observation avec (7.7), nous concluons qu’il y a un voisinage Z de x∗ tels que si x ∈ Z est
faisable pour (P ), alors
|x (x) − x| ≤ D|δ(x)| ≤ D|φrem (x)| ≤ Dθ(|x − x∗ |) (7.8)
pour certain θ(t) = o(t). Hors Z le côté gauche est borné par D |x − x∗ | pour un certain D
(rappelez-vous que x (x) est borné). En modifiant la définition de θ(t) d’une façon appropriée en
dehors d’un voisinage de t = 0, on peut assurer que (7.8) soit valide quelque soit x faisable pour
(P ). Comme x (x), par construction, est faisable pour (P ), (7.8) démontre que la Qualification
des Contraintes a lieu.
7.2. EN GUISE DE CONCLUSION... 143

7.2 En guise de conclusion...

Nous avons annoncé dans la préface de ce cours et de ce chapitre que les conditions d’optima-
lité permettent dans certains cas de trouver les solutions explicites aux problèmes d’optimisation.
Il est temps maintenant d’expliquer comment peut-on les employer pour résoudre un problème
“sur le papier”. Le schéma est très simple. Étant donné un problème (P ) d’optimisation, nous
pouvons noter les conditions d’optimalité de KKT avec les conditions de faisabilité :
m k
∇f (x∗ ) + ∗ ∗
i=1 λi ∇gi (x ) + ∗
j=1 μj ∇hj (x )
∗ = 0 [n = dim x equations]
λi gi (x∗ )
∗ = 0, i = 1, ..., .m [m equations]
hj (x∗ ) = 0, j = 1, ..., k [k equations]
gi (x∗ ) ≤ 0, i = 1, ..., m
λ∗i ≥ 0, i = 1, ..., m

La partie “égalité” de ce système est un système de n+m+k équations non-linéaires avec n+m+k
inconnus – les coordonnées de x∗ , λ∗ , μ∗ . Normalement un tel système a seulement un nombre
fini de solutions. Si nous sommes assez intelligents pour trouver toutes ces solutions et si pour
une raison nous savons que la solution optimale existe et satisfait en effet la condition de KKT
(par exemple, les hypothèses du Théorème 7.1.2 sont vérifiées en chaque solution faisable), alors
nous pouvons être sûrs qu’en regardant toutes les solutions du système KKT et en choisissant
parmi elles celle qui est faisable et qui a la meilleure valeur de l’objectif, nous pouvons être
sûrs que nous finirons avec la solution optimale du problème. Dans ce processus, nous pouvons
employer la partie “inégalité” du système pour éliminer des candidats de la liste qui ne satisfont
pas les inégalités, ce qui permet d’éviter une analyse plus détaillée de ces candidats.
L’approche de ce type est particulièrement fructueuse si (P ) est convexe (c.-à-d., que
f, g1 ..., gm sont convexes et h1 ..., hk sont linéaires). Dans ce cas-ci les conditions de KKT sont
suffisantes pour l’optimalité globale (nous le savons du chapitre précèdent). Ainsi, si le problème
est convexe et nous pouvons calculer une solution du système KKT, alors nous pouvons être
sûrs que c’est une solution optimale globale de (P ), et nous ne devrions pas prendre la peine de
rechercher d’autres points KKT et de les comparer les uns aux autres.
Malheureusement, le programme décrit peut être réalisé seulement dans des cas simples ; le
système non-linéaire de KKT est trop difficile à étudier analytiquement. Considérons maintenant
un de ces cas simples (mais très instructif).

Minimisation d’une forme quadratique homogène sur la boule unité. Nous considérons
le problème
(Q) f (x) ≡ xT Ax → min | g1 (x) ≡ xT x − 1 ≤ 0,
A étant une matrice symétrique n × n. Essayons de lister toutes solutions localement optimales
du problème.
Étape 0. Notons f ∗ la valeur optimale. Puisque x = 0 est clairement une solution faisable
et f (0) = 0, nous avons f ∗ ≤ 0. Il y a, par conséquent, deux cas possibles :
Cas (A) : f ∗ = 0 ;
Cas (B) : f ∗ < 0.
Étape 1 : Cas (A). Le cas (A) a lieu si et seulement si xT Ax ≥ 0 pour tous x, |x| ≤ 1, ou,
dû à la homogénéité de f (x), si et seulement si

xT Ax ≥ 0 ∀x.
144 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Nous savons que les matrices symétriques avec cette propriété portent un nom spécial – elles
s’appellent symétriques semi-définie positives (nous avons rencontré ces matrices dans le critère
de convexité pour des fonctions deux fois différentiables). Dans l’Algèbre Linéaire il y a des tests
pour cette propriété, par exemple, la règle de Silvester 2) : une matrice symétrique est semi-
définie positive si et seulement si tous ses mineurs principaux – ceux constitués par des lignes et
des colonnes avec les mêmes indices – soient non négatifs. Maintenant, quelles sont les solutions
localement optimales du problème dans le cas de A semi-définie positive ? Ce sont exactement
les points x de la boule unité (l’ensemble faisable du problème) qui appartiennent au noyau de
A, c.-à-d., tels que
Ax = 0
(on note Ker(A)) : tout d’abord, si x ∈ Ker(A) alors xT Ax = 0 = f ∗ , de sorte que x∗ soit
même globalement optimal. Vice versa, supposons que x est localement optimal, et prouvons
que Ax = 0. La contrainte dans notre problème est convexe ; l’objectif est également convexe
(rappelez-vous le critère de la convexité pour des fonctions régulières et notez que f (x) = 2A),
de sorte qu’une solution localement optimale soit en fait optimale. Ainsi, x est localement optimal
si et seulement si xT Ax = 0. En particulier, si x est localement optimal, alors x = x/2, par
exemple, l’est également. En cette nouvelle solution optimale, la contrainte est satisfaite comme
inégalité stricte, de sorte que x soit un minimizer local sans contrainte de fonction f (·), et par
la règle de Fermat nous obtenons ∇f (x ) ≡ 2Ax = 0 et Ax = 0.
Étape 2 : Cas (B). Considérons maintenant le cas de f ∗ < 0, c.-à-d., le cas quand il existe
h, |h| ≤ 1, tel que
(#) hT Ah < 0.
Que sont les solutions localement optimales x∗ du problème dans ce cas ?
Que disent les conditions d’optimalité du premier ordre. Logiquement, il y a deux possibilités :
la première quand |x∗ | < 1, et la seconde quand |x∗ | = 1.
Montrons d’abord que la première situation est en fait impossible. En effet, dans le cas
|x∗ | < 1 x∗ devrait être localement optimal pour le problème sans contraintes f (x) → min |
x ∈ Rn avec l’objectif régulier. Par la condition nécessaire du second degré d’optimalité locale
sans contraintes, le Hessian f en x∗ (qui est égale à 2A) devrait être semi-défini positif, ce qui
contredit (#).
Ainsi, dans le cas en question une solution localement optimale x∗ est forcement sur la
frontière de la boule unité, et la contrainte g1 (x) ≤ 0 est active en x∗ . Le gradient 2x∗ de cette
contrainte est donc non nul en x∗ , et (par Theorem 7.1.2) x∗ est un point KKT :

∃λ∗1 ≥ 0 : ∇f (x∗ ) + λ∗1 ∇g1 (x∗ ) = 0,

ou, ce qui est identique,

Ax∗ = −λ∗1 x∗ .
Ainsi, x∗ devrait être un vecteur propre 3) de A avec une valeur propre nonpositive λ ≡ −λ∗1 . Et
c’est tout ce que nous pouvons tirer des conditions nécessaires d’optimalité du premier ordre.
En regardant l’exemple
A = Diag(1, 0, −1, −2, −3..., −8)

2. ) a ne pas confondre avec S. Stallone.

3. ) un vecteur propre d’une matrice carrée M est un vecteur non nul e tels que M e = se pour un certain s
réel (ce réel s’appelle la valeur propre de M , associé au vecteur propre e)
7.2. EN GUISE DE CONCLUSION... 145

dans R10 , nous observons que les conditions nécessaires d’optimalité du premier ordre sont satis-
faites par 18 vecteurs ±e2 , ±e3 ..., ±e10 , où ei , i = 1....10, sont les orths de la base canonique de
R10 . Tous ces 18 vecteurs sont des points de Karush-Kuhn-Tucker du problème, et les conditions
d’optimalité du premier ordre ne permettent pas de comprendre lesquels parmi ces 18 candidats
sont localement optimaux et lesquels ne le sont pas.

Remarque 7.2.1 Un produit secondaire de notre raisonnement est le résultat qui dit que une
matrice symétrique A qui satisfait (#) possède un vecteur propre ((Q) pour sûr est soluble,
et la condition nécessaire du premier ordre indique, comme nous avons vu, qu’une solution
optimale doit être un vecteur propre). Notez qu’il est loin d’être claire à l’avance pourquoi une
matrice symétrique devrait avoir un vecteur propre. Naturellement, notre raisonnement établit
l’existence d’un vecteur propre seulement sous la condition (#), mais on peut immédiatement
éliminer cette contrainte (étant donné une matrice symétrique arbitraire A , on peut appliquer
notre raisonnement à la matrice A = A − T I qui, pour un T grand, satisfait sûrement (#), et
démontrer l’existence d’un vecteur propre de A ; naturellement, celui sera également un vecteur
propre de A ).
L’existence d’un vecteur propre d’une matrice symétrique est, naturellement, un fait
élémentaire bien connu d’Algèbre Linéaire ; voici sa preuve en quelques lignes :

Montrons d’abord qu’une matrice arbitraire A, même avec les entrées complexes, possède
une valeur propre complexe. En eﬀet, λ est une valeur propre de A si et seulement si il existe
un vecteur (complexe) non nul z tels que (A − λI)z = 0, c.-à-d., si et seulement si la matrice
λI − A est singulière, ou, ce qui est identique, le déterminant de la matrice est nul. D’autre
part, le déterminant de la matrice λI −A est clairement un polynôme nonconstant de λ, et un
tel polynôme, selon le Théorème Fondamental de l’Algèbre (FTA) – a une racine (complexe) ;
une telle racine est une valeur propre de A.
Maintenant on doit montrer que si A est symétrique et réelle, alors il existe une valeur
propre réelle et un vecteur propre réel. C’est immédiat : montrons que toutes les valeurs
propres de A sont réelles. En eﬀet, si λ est une valeur propre de A (considérée comme
matrice complexe) et z est le vecteur propre correspondant (complexe), alors l’expression
n

Aij zj zi∗
i,j=1

(on note par ∗ la conjugaison complexe) est réelle (considérez son conjugué !) ; d’autre part,
pour le vecteur propre z nous avons j Aij zj = λzi , de sorte que notre expression devient
n n
λ i=1 zi zi∗ = λ i=1 |zi |2 ; comme z = 0, cette dernière expression est réelle si et seulement
si λ est réelle.
Enfin, quand on sait qu’une valeur propre λ d’une matrice symétrique réelle (considérée
comme une matrice avec les entrées complexes) est en fait réelle, on peut immédiatement
montrer que le vecteur propre lié à cette valeur propre peut être choisi pour être réel : en
effet, la matrice réelle λI − A est singulière et a donc un noyau non trivial.
Ainsi, dans notre exemple particulier la Théorie d’Optimisation avec ses Conditions d’Optimalité
est, dans un sens, superflue. Cependant, on devrait noter deux choses :
– que la preuve d’Algèbre Linéaire de l’existence d’un vecteur propre est basée sur le FTA
qui annonce l’existence de la racine (complexe) d’un polynôme. Pour obtenir le même
résultat sur l’existence d’un vecteur propre, dans notre preuve (et dans toutes les preuves
sur lesquelles elle se base) nous n’avons jamais parlé de quelque chose comme FTA ! Tout
ce que nous avons utilisé de l’Algèbre était la théorie élémentaire de systèmes d’équations
146 CHAPITRE 7. CONDITIONS D’OPTIMALITE

linéaires, et nous n’avons jamais pensé aux nombres complexes, aux racines des polynômes,
etc. !

– Il est utile de noter que la Théorie d’Optimisation (qui semble être superflue pour établir
l’existence d’un vecteur propre d’une matrice symétrique) devient inévitable si on cherche
à montrer une généralisation en dimension infinie de ce fait – le Théorème de Hilbert
qui dit qu’un opérateur linéaire symétrique compact dans un espace de Hilbert possède
un vecteur propre [et, en conclusion, même une base orthonormée de vecteurs propres].
Je ne vais pas expliquer ce que signifient tous ces mots ; en gros, on dit qu’une matrice
symétrique de dimension infinie peut être diagonalisée dans une base orthonormale propre-
ment choisie (par exemple, un opérateur intégral f (s) → 01 K(t, s)f (s)ds avec K(·, ·) pas
très mauvais (par exemple, carré integrable) symétrique (K(t, s) = K ∗ (s, t)), possède un
système orthonormal complet dans L2 [0, 1] des fonctions propres. Ce fait, en particulier,
explique pourquoi les spectres atomiques sont discrets plutôt que continus). En prouvant
ce théorème extrêmement important, on ne peut pas utiliser les outils d’Algèbre Linéaire
(il n’y a désormais aucun déterminant ou polynôme), mais on peut toujours employer
ceux d’Optimisation (la compacité de l’opérateur implique la solubilité du problème cor-
respondant (Q), et la condition nécessaire d’optimalité du premier ordre qui dans le cas
en question indique que la solution est un vecteur propre de l’opérateur, contrairement à
FTA, demeure valide dans le cas de dimension infinie).
7.3. EXERCICES 147

7.3 Exercices
Exercice 7.1 Considérez le problème de minimisation de la forme linéaire

f (x) = x2 + 0.1x1

sur le plan 2D sur le triangle avec les sommets (1, 0), (0, 1), (0, 1/2) (faites le dessin !).
1) Vériﬁez que la solution optimale x∗ = (1, 0) est unique.
2) Vériﬁez que le problème peut être écrit comme le programme LP :

x2 + 0.1x1 → min | x1 + x2 ≤ 1, x1 + 2x2 ≥ 1, x1 , x2 ≥ 0.

Montrez que dans cette formulation du problème la condition nécessaire d’optimalité de KKT
est satisfaite en x∗ .
Quelles sont les contraintes actives en x∗ ? Quels sont les multiplicateurs de Lagrange corres-
pondants ?
3) Vériﬁez que le problème peut être réécrit comme Programme Non-linéaire avec les
contraintes d’inégalité :

x2 + 0.1x1 → min | x1 ≥ 0, x2 ≥ 0, (x1 + x2 − 1)(x1 + 2x2 − 1) ≤ 0.

La condition d’optimalité de KKT est-elle satisfaite en x∗ ?

Exercice 7.2 Considérez le problème élémentaire suivant :

f (x1 , x2 ) = x21 − x2 → min | x2 = 0

avec la solution optimale unique évidente (0, 0). La condition de KKT est-elle satisfaite en cette
solution ?
Réécrivez le problème d’une manière équivalente comme

f (x1 , x2 ) = x21 − x2 → min | x22 = 0.

Que diriez-vous de la condition de KKT dans ce problème équivalent ? Qu’empêche d’appliquer

le Théorème 7.1.2 ?

Exercice 7.3 Considérez un problème d’optimisation

f (x) → min | gi (x) ≤ 0, i = 1, ..., m.

Supposez que x∗ est une solution localement optimale, f, gi sont continûment diﬀérentiables
dans un voisinage de x∗ et les contraintes gi sont concaves dans ce voisinage. Montrez que la
Qualiﬁcation des Contraintes a lieu en ce point. x∗ est-il un point de KKT du problème ?

Exercice 7.4 Soit a1 , ..., an positifs réels, et 0 < s < r sont des entiers. Trouver le maximum
et le minimum de la fonction

n
ai x2r
i
i=1
sur la surface

n
x2s
i = 1.
i=1
148 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Exercice 7.5 Soit p(x) un polynôme de degré n > 0. Sans perte de généralité nous pouvons
supposer que p(x) = xn + ..., c.-à-d. le coeﬃcient du monôme de degré le plus élevé est 1.
Considérez maintenant le module |p(z)| en fonction de l’argument complexe z ∈ C. Prouvez
que cette fonction a un minimum, et que le minimum est zéro.
Indication : comme |p(z)| → +∞ si |z| → +∞, la fonction continue |p(z)| doit atteindre un
minimum sur un plan complexe.
Soit z un point du plan complexe. Prouvez que pour le petit h complexe

p(z + h) = p(z) + hk ck + O(|h|k+1 )

pour certains k, 1 ≤ k ≤ n et ck = 0. Maintenant, si p(z) = 0 il y a un choix (lequel ?) de h

petit tel que |p(z + h)| < |p(z)|.
Chapitre 8

Méthodes d’Optimisation :
Introduction

On commence avec ce chapitre la deuxième partie de notre cours ; ce que nous intéresse
dorénavant sont des méthodes numériques pour l’optimisation continue non-linéaire, c.-à-d., les
algorithmes pour résoudre des problèmes du type

minimiser f (x) s.t. gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k. (8.1)

ici x varie sur Rn , et l’objectif f (x), ainsi que les fonctions gi et hj , sont assez régulières
(normalement nous les supposons être au moins une fois continûment différentiables). On appelle
les contraintes
gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k
les contraintes fonctionnelles, divisées de façon évidente en contraintes d’inégalité et d’égalité.
Nous appelons (8.1) le problème d’optimisation non-linéaire afin de distinguer ces problèmes
des programmes de Programmation Linéaires ; les derniers correspondent au cas quand toutes
les fonctions f, gi , hj sont linéaires. Et nous parlons de l’optimisation continue dans la descrip-
tion de notre sujet pour faire la distinction avec l’optimisation discrète, où nous recherchons une
solution sur un ensemble discret, par exemple, celui des vecteurs avec des coordonnées entiers
(programmation en nombres entiers), les vecteurs avec les coordonnées dans {0, 1} (program-
mation booléenne), etc...
Les problèmes (8.1) surgissent dans une variété d’applications, en gros, toutes les fois que
les gens prennent des décisions, ils essayent de les faire d’une façon “optimale”. Si la situa-
tion est assez simple, quand les décisions possibles puissent être paramétrisées par des vecteurs
de dimension finie, et la qualité de ces décisions puisse être caractérisée par un ensemble fini
de critères “calculables”, le concept de la décision “optimale” prend typiquement la forme du
problème (8.1). Notez que dans des applications réelles cette phase préliminaire – modélisation
du problème réel de décision comme problème d’optimisation avec l’objectif et les contraintes
calculables – est, normalement, beaucoup plus difficile et créatrice que la phase suivante où nous
résolvons le problème qui en résulte. Dans notre cours, de toute façon, nous ne touchons pas la
phase de modélisation, et nous nous concentrons sur la technique de resolution des programmes
d’optimisation.
Rappelez-vous que nous avons développé des conditions d’optimalité pour les problèmes (8.1)
dans les Chapitres 6 et 7. Nous nous rappelons qu’on peut former un système carré d’équations
non-linéaires et un système d’inégalités qui définissent un certain ensemble – celui des points de

149
150 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Karush-Kuhn-Tucker – qui, sous certaines conditions de régularité, contient toutes les solutions
optimales du problème. D’habitude, le système de Karush-Kuhn-Tucker a un nombre fini de
solutions, et si nous sommes assez intelligents pour trouver toutes les solutions analytiquement,
alors nous pourrions en sélectionner la meilleure, la solution optimale, toujours sous une forme
analytique. La difficulté, cependant, est qu’en règle générale nous ne sommes pas assez intelli-
gents pour résoudre analytiquement le système de Karush-Kuhn-Tucker, et nous ne savons pas
trouver analytiquement une solution optimale par d’autres moyens. Dans tous ces cas “difficiles”
– et tous les problèmes d’optimisation venant de vraies applications du monde sont difficiles dans
ce sens – tout ce que nous pouvons espérer est une routine numérique, un algorithme qui permet
de approcher numériquement les solutions qui nous intéressent. Ainsi, les méthodes numériques
d’optimisation forment l’outil principal pour résoudre des problèmes d’optimisation.

8.1 Préliminaires sur les Méthodes d’Optimisation

Il faut souligner qu’on ne peut pas espérer de concevoir une méthode d’optimisation capable
résoudre eﬃcacement tous les problèmes d’optimisation non-linéaire – ces problèmes sont trop
divers. En fait il y a de nombreuses méthodes, et chacune d’elles est orienté vers une certaine
famille restreinte des problèmes d’optimisation.

8.1.1 Classiﬁcation des Problèmes et des Méthodes d’Optimisation Non-

Linéaire
Traditionnellement, des problèmes d’optimisation non-linéaire (8.1) sont divisés en deux
grandes classes :
– Problèmes sans contraintes – aucune contrainte inégalité ou égalité n’est présente. La forme
générique d’un problème sans contrainte, par conséquent, est

minimize f (x) s.t. x ∈ Rn , (8.2)

où f est une fonction régulière (au moins une fois continûment diﬀérentiable) sur Rn ;
– Problèmes contraints, qui impliquent au moins une contrainte d’inégalité ou d’égalité.
Les problèmes contraints, à leur tour, sont subdivisés en plusieurs classes, selon qu’il y a des
contraintes non-linéaires, contraintes d’inégalité, et ainsi de suite.
Selon la classiﬁcation décrite des problèmes d’optimisation, les méthodes d’optimisation sont
principalement divisées en celles pour l’optimisation sans contrainte et celles pour l’optimisation
sous contraintes. Bien que les problèmes sans contrainte plus simples ne soient pas très fréquents
dans les applications, les méthodes d’optimisation sans contrainte jouent le rôle très important :
elles sont employées directement pour résoudre des problèmes sans contrainte et indirectement,
comme modules, dans beaucoup de méthodes de minimisation sous contraintes.

8.1.2 Nature itérative des Méthodes d’Optimisation

Les méthodes de résolution numériques des problèmes d’optimisation non-linéaire sont, en
leur essence, des routines itératives : pour le problème (8.1), une méthode ne peut pas typi-
quement trouver la solution exacte en temps ﬁni. En fait, la méthode génére une suite inﬁni
{xt } de solutions approximatives. L’itération suivante xt+1 est formée, selon certaines règles,
sur la base de l’information locale sur le problème, collectée sur l’itération précédente. La partie
d’information It obtenue sur l’itération courante xt est un vecteur qui consiste en des valeurs
8.1. PRELIMINAIRES SUR LES METHODES D’OPTIMISATION 151

de l’objectif et des contraintes xt et, probablement, celles des gradients ou même des dérivés
supérieures de ces fonctions en xt . Ainsi, quand il s’agit de former xt+1 , la méthode “connait”
les valeurs et les dérivées, jusqu’à un certain ordre ﬁxe, de l’objectif et des contraintes sur les
précédentes itérations x1 ..., xt . Et cette information est exactement toute l’information sur le
problème disponible à la méthode quand elle produit l’iteration xt+1 . En conséquence, cette
itération est une certaine fonction d’information accumulée jusqu’ici :

xt+1 = Xt+1 (I1 , I2 , ..., It ).

L’ensemble de règles de recherche Xt (·) prédétermine le comportement de la méthode sur un

problème arbitraire ; par conséquent, la méthode elle-même peut être identifiée avec la collection
{Xt }∞ t=1 . Notez que la liste d’arguments de Xt est composée des (t−1) parts d’information locale ;
en particulier, la liste d’arguments de la toute première règle de recherche X1 est vide, de sorte
que cette “fonction” soit simplement un vecteur fixe donné par la description de la méthode –
point initial.
Il découle du schéma général décrit ce-dessus d’une routine itérative que les méthodes d’op-
timisation peuvent être classifiées non seulement selon les types de problèmes que les méthodes
résolvent, mais également selon le type d’information locale qu’elles emploient. De ce point de
vue d’“information”, les méthodes sont divisées en
– routines d’ordre zero, qui utilisent seulement des valeurs de l’objectif et des contraintes et
pas leurs dérivés ;
– routines du premier ordre, celle qui utilisent les valeurs et les gradients de l’objectif et des
contraintes ;
– routines du second ordre, qui utilisent les valeurs, les gradients et les Hessians (c.-à-d.,
matrices des dérivées secondes) de l’objectif et des contraintes.
En principe, naturellement, nous pourrions parler aussi des méthodes d’ordres plus élevé ; ces
méthodes, cependant, ne sont jamais employées dans la pratique. En effet, pour employer une
méthode d’ordre k, on devrait avoir une possibilité de calculer les dérivés partiels de l’objectif et
des contraintes jusqu’à l’ordre k. Dans le cas multidimensionnel ce n’est pas exactement facile
même pour k = 1 et même quand vos fonctions sont données par des expressions analytiques
explicites (ce qui n’est pas toujours le cas). Et il y a une “explosion” de difficultés dans le calcul
des dérivées d’ordre supérieur : pour une fonction de n variables, il y a n premieres dérivées
à calculer, n(n+1)
2 dérivées secondes, n(n+1)(n+2)
2×3 de dérivées troisièmes, etc. ; en conséquence,
même dans le cas d’un problème d’échelle moyenne avec n ∼ quelques dizaines, les difficultés
avec la programmation, temps de calcul et la mémoire requise pour traiter les dérivés élevées
rend excessivement chère l’exploitation de ces dérivées. Par ailleurs, des méthodes d’ordre plus
élevé que 2 ne possède aucun avantage théorique, ainsi il n’y a aucune compensation pour l’effort
de calcul de ces dérivés.

8.1.3 Convergence des Méthodes d’Optimisation

Nous ne pouvons pas nous attendre à ce qu’un problème non-linéaire soit résolu de façon
exacte en nombre ﬁni d’étapes ; tout ce que nous pouvons espérer est que la suite d’iterations {xt }
produite par la méthode en question converge vers l’ensemble de solution du problème quand
t → ∞. Dans la théorie d’optimisation numérique, la convergence d’une méthode d’optimisation
sur certaine famille des problèmes est exactement ce qui donne le droit à la méthode d’être
qualiﬁé comme un outil pour résoudre des problèmes de la famille. La convergence n’est pas la
152 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

seule caractéristique d’une méthode, mais c’est la propriété qu’en fait une routine d’optimisation
théoriquement valide.

Vitesses de convergence
La convergence d’une méthode numérique d’optimisation (et tout autre) est la propriété la
plus faible qui donne à la méthode le droit d’exister. En principe, il y a autant de méthodes
avec cette propriété que vous voulez, et la question est comment ranger ces méthodes et les-
quelles parmi elles sont à recommander pour l’utilisation pratique. En Optimisation Non-linéaire
traditionnelle ce problème est généralement “résolu” en comparant le taux asymptotique de
convergence mesuré comme suit.
Supposons que la méthode pour le problème P produit une suite d’iterations
qui converge vers l’ensemble de solutions du problème XP∗ . Pour déﬁnir le taux de
convergence, nous introduisons d’abord la fonction d’erreur err(x) qui mesure la
qualité d’une solution approximative x ; cette fonction doit être positive en dehors
de XP∗ et zéro sur XP∗ .
Il y a plusieurs choix raisonnables de la fonction d’erreur. Par exemple, nous
pouvons toujours utiliser la distance entre la solution approximative et l’ensemble
de solutions :
distP (x) = ∗inf ∗ |x − x∗ |;
x ∈XP

un autre choix serait l’erreur résiduelle en termes de l’objectif et des contraintes :

resP (x) = max{f (x) − f ∗ ; [g1 (x)]+ ; ...; [gm (x)]+ ; |h1 (x)|; ...; |hk (x)|},
f ∗ étant la valeur optimale de P et [a]+ = max(a, 0) étant partie positive du réel a,
etc.
Pour une fonction d’erreur correctement choisie (par exemple, pour distP ), la
convergence des itérations vers l’ensemble de solutions implique que la suite scalaire
rt = err(xt )
converge vers 0, et nous mesurons la “qualité de la convergence” par la vitesse avec
laquelle les réels non négatifs rt tendent vers zéro.
Il existe une classiﬁcation standard des vitesses de convergences :
– [convergence linéaire] une suite {rt ≥ 0} tels que pour un certain q ∈ (0, 1), C < ∞ et
tout t on a
rt ≤ Cq t
s’appelle convergeante linéairement vers 0 avec le taux q ; l’exemple le plus simple étant
rt = Cq t . La limite inférieure des qs pour lesquels {rt } converge linéairement vers 0 avec
le taux q de convergence s’appelle taux de convergence de la suite.
Par exemple, pour la suite rt = Cq t , ainsi que pour la suite {rt = C(q +t )t }, de t → 0 t →
∞, le taux de convergence est q, bien que la deuxième suite, d’une manière générale, ne
converge pas vers 0 avec le taux q (elle converge linéairement avec le taux q de convergence
pour n’importe quel q ∈ (q, 1)).
On voit immédiatement qu’une condition suﬃsante pour qu’une suite {rt > 0} converge
linéairement avec le taux q ∈ (0, 1) est que
rt+1
lim supt→∞ < q.
rt
8.1. PRELIMINAIRES SUR LES METHODES D’OPTIMISATION 153

– [convergence sous- et super-linéaire] Supposons qu’une suite converge vers 0, mais ne

converge pas linéairement (par exemple, la suite rt = t−1 ), dans ce cas on dit que la
suite converge sous-linéairement.
Une suite qui converge linéairement vers zéro avec n’importe quel taux positif (de sorte
que le taux de convergence de la suite soit 0) converge super-linéairement (par exemple,
la suite rt = t−t ).
Une condition suﬃsante pour qu’une suite {rt > 0} converge super-linéairement est

rt+1
lim = 0.
t→∞ rt

– [convergence d’ordre p > 1] On dit qu’une suite {rt ≥ 0} est convergeante d’ordre p > 1
vers 0, si pour un certain C et tout t assez grand on a

rt+1 ≤ Crtp .

La borne supérieure des p pour lesquels le suite converge vers 0 avec l’ordre p s’appelle
ordre de convergence de la suite.
t
Par exemple, la suite rt = a(p ) (a ∈ (0, 1), p > 1) converge vers zéro d’ordre p, car
rt+1 /rtp = 1. Les suites convergeantes vers 0 d’ordre 2 ont un nom spécial – on dit qu’elles
convergent quadratiquement.
Naturellement, une suite convergeante vers 0 d’ordre p > 1 converge super-linéairement
vers 0 (mais, d’une manière générale, pas vice versa).
Traditionnellement, le taux de convergence des routines numériques itératives est mesuré par le
rang de la suite correspondante d’erreurs {rt = err(xt )} dans l’échelle ci-dessus ; en particulier, on
parle de méthodes sous-linéaires, linéaires, super-linéaires, quadratique ou de méthodes d’ordre
p > 1. On pense souvent que meilleur est le taux de convergence d’une méthode, plus préférable
est la méthode elle-même. Par exemple, une méthode qui converge linéairement soit meilleure
que une méthode sous-linéaire ; parmi deux méthodes linéaire, celle avec le taux plus petit
de convergence soit préférable ; une méthode super-linéaire soit préférée à une méthode qui
possède une convergence linéaire. Naturellement, toutes ces préférences sont “conditionnées”
par l’absence de différences significatives dans la complexité numérique des itérations, etc.
On devrait souligner que le taux de la convergence, ainsi que la propriété même de la conver-
gence, est une caractéristique asymptotique de la suite d’erreurs ; il n’indique pas que quand “ar-
rive” le taux annoncé de convergence, c.-à-d., ce que sont les valeurs de C ou/et “assez grandes
valeurs” de t mentionnés dans les définitions correspondantes. Pour des méthodes concrètes, les
bornes de ces quantités typiquement peuvent être extraites à partir des preuves de convergence,
mais ça n’aide pas beaucoup – ces bornes sont habituellement très compliquées, grossières et
dépendent des caractéristiques quantitatives “invisibles” du problème comme les magnitudes des
dérivées d’ordre élevé, le conditionnement du Hessian, etc. A partir de ces observations (com-
binées avec le fait que notre vie est finie) il découle que on ne devrait pas surestimer l’importance
du taux de convergence des méthodes. Cette approche traditionnelle donne une sorte d’orienta-
tion, rien d’avantage ; malheureusement, il ne semble y avoir aucune manière purement théorique
d’obtenir un “rangement” détaillé des méthodes numériques d’optimisation. En conséquence,
les recommandations pratiques concernant des méthodes à employer sont basées sur différentes
considérations théoriques et empiriques : taux théorique de convergence, comportement réel sur
des problèmes d’essai, stabilité numérique, simplicité et robustesse, etc.
154 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

8.1.4 Solutions globales et locales

La diﬃculté intrinsèque et cruciale dans l’Optimisation Non-linéaire est que nous ne pou-
vons pas nous attendre à ce qu’une méthode numérique d’optimisation approche une solution
globalement optimale du problème.
Cette diﬃculté a ses racines en la nature locale d’information sur le problème qui est dis-
ponible aux méthodes. Supposez, par exemple, que notre tache est de minimiser la fonction
montrée sur l’image :

x’ x’’

La fonction a deux minimiseurs locaux, x et x . Il est impossible de deviner qu’il existe en
fait un autre minimiseur en observant un voisinage assez petit de chaque de ces minimizers.
En conséquence, n’importe quelle méthode “normale” d’optimisation non-linéaire lancée sur le
problème en question avec le point de départ dans un petit voisinage du “faux minimiseur”
(local, pas global) x , convergera vers x – l’information locale sur f disponible pour la méthode
ne laisse pas deviner que x existe !
Il serait erroné de dire que la difficulté est absolument unsurmountable. Nous pourrions lancer
la méthode avec les différents points de départ, ou même regarder les valeurs de l’objectif sur une
suite des point qui est dense dans R 1) et définir xt en tant que meilleur, en termes de valeurs de
f , des premiers t points de la suite. Cette dernière “méthode” peut être facilement étendue aux
problèmes multi-dimensionnels avec des contraintes générales ; on peut immédiatement prouver
sa convergence vers la solution globale ; la méthode est simple dans l’exécution, etc. Il y a
seulement un petit inconvénient de la méthode : le nombre énorme d’évaluations de fonction
requises pour résoudre un problème avec l’inexactitude .
On peut voir facilement que la méthode décrite, appliquée au problème

f (x) → min | x ∈ Rn , g1 (x) = |x|2 ≤ 1

avec l’objectif f Lipschitzien, avec la constante de Lipschitz 1 :

|f (x) − f (y)| ≤ |x − y|,

exige, dans le pire cas, au moins −n de pas pour trouver un point x avec l’erreur
résiduelle – la quantité f (x ) − min|x|≤1 f – n’excédant pas .

1. ) c.-à-d. qui visite tout voisinage arbitrairement petit de chaque point de R, comme le fait, par exemple,
la suite de tous les nombres rationnels (pour ranger des nombres rationnels dans une suite simple, énumérez-
les selon la somme de valeurs absolues du numérateur et du dénominateur dans les fractions correspondantes :
d’abord ceux avec la somme ci-dessus égale à 1 (le seul rationnel 0 = 0/1), puis ceux avec la somme égale à 2
(−1 = −1/1, 1 = 1/1), puis ceux avec la somme égale à 3 (−2/1, −1/2, 1/2, 2/1), etc.)
8.2. RECHERCHE LINEAIRE 155

Quand = 0.01 et n = 20 (des conditions très modestes de precision et de

dimension), le nombre d’iterations devient > 1040 , 2) et ceci est la borne inférieure
de complexité !
D’ailleurs, pour la famille des problèmes en question la borne inférieure −n sur
le nombre d’evaluations de la fonction nécessaire pour garantir l’erreur résiduel exigé
est valide pour une méthode arbitraire d’optimisation qui utilise seulement l’infor-
mation locale sur l’objectif.
Ainsi, nous pouvons approcher, avec n’importe quelle erreur donnée > 0, la solution global de
n’importe quel problème d’optimisation ; mais dire que au mieux ça nous coûtera 1020 années
de calculs pour = 0.01, n = 20, est pire que ne rien dire du tout.
Suite aux considérations ci-dessus, nous venons à la conclusion importante, bien que
désespérée :
Il ne semble pas raisonnable de s’attendre à ce qu’une méthode d’optimisation
puisse approcher, avec une erreur raisonnable en un temps raisonnable, une solution
à tous les problèmes d’optimisation global d’une taille donné (même assez modérée)
En fait, tout ce que nous pouvons espérer faire en temps raisonnable est de trouver des bonnes
approximations d’un certain (et pas nécessairement correspondant à la solution optimale) point
de Karush-Kuhn-Tucker du problème d’optimisation (dans le cas sans contrainte – à un point
critique de l’objectif). Dans les cas simples nous pouvons espérer également d’approcher une
solution localement optimale, sans aucune garantie de son optimalité globale.
Il y a, en tous cas, un “cas soluble” quand nous pouvons approcher une solution globalement
optimal d’un problème d’optimisation par une solution de complexité raisonnable. C’est le cas
quand le problème est convexe (c.-à-d., les fonctions f et gi , i = 1, ..., m, sont convexes, alors
que hj , si présentes, sont linéaires). Propriétés des problèmes convexes d’optimisation et des
méthodes numériques pour ces problèmes forme le sujet de la Programmation Convexe. La
Programmation Convexe est, en sa nature, plus simple et, par conséquent, beaucoup plus avancée
que l’Optimisation Non-linéaire générale. En particulier, dans la Programmation Convexe nous
pouvons concevoir des méthodes avec un taux global (pas asymptotique !)de convergence tout à
fait raisonnable, capables de garantir (avec un coût numérique raisonnable) des approximations
de grande précision pour des solutions globalement optimales, même pour dans le cas d’un
programme convexe général.
Personnellement, j’aimerais limiter le reste de notre cours au monde sympathique de la
Programmation Convexe, mais nous ne pouvons pas nous le permettre : dans des applications
réelles, malheureusement, nous rencontrons trop souvent des problèmes non convexes, et nous
n’avons d’autre choix que de les résoudre – même au prix d’aﬀaiblir la notion de la “solution
optimal” jusqu’à considérer comme telle un point de Karush-Kuhn-Tucker.

8.2 Recherche Linéaire

Le reste de ce chapitre est consacré à l’optimisation unidimensionnelle sans contraintes, c.-
à-d., aux méthodes numériques pour résoudre des problèmes de type

f (x) → min | x ∈ R, (8.3)

2. ) Supposons qu’on dispose du super-ordinateur le plus rapid du moment – il s’agit du NEC Earth Simulator
/5120, capable approximativement de 35000 Gﬂops (c.-à-d. de 3.5 ∗ 1013 operations numériques élémentaires par
seconde. Cette machine aura besoin alors de O(1020 ) années pour accomplir cette tache !
156 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

f étant une fonction au moins continue sur l’axe ; d’habitude, on appelle ces méthodes recherche
linéaire.
Notre intérêt pour la recherche linéaire ne vient pas seulement du fait que dans les appli-
cations on rencontre, naturellement, des problèmes unidimensionnels, mais plutôt du fait que
la recherche linéaire est un composant fondamental de toutes les méthodes traditionnelles d’op-
timisation multi-dimensionnelle. D’habitude, nous avons le schéma suivant d’une méthode de
minimisation sans contraintes multi-dimensionnelle : en regardant le comportement local de
l’objectif f sur l’itération courante xt , la méthode choisit la “direction du movement” dt (qui,
normalement, est une direction de descente de l’objectif : dTt ∇f (xt ) < 0) et exécute un pas dans
cette direction :
xt → xt+1 = xt + αt dt
aﬁn de réaliser un certain progrès en valeur de l’objective, c.-à-d., pour assurer que f (xt+1 ) <
f (xt ). Et dans la majorité des méthodes le pas dans la direction dt est choisie par la minimisation
unidimensionnelle de la fonction
φ(α) = f (xt + αdt ).
Ainsi, la technique de recherche linéaire est une brick de base fondamentale de toute méthode
multi-dimensionnelle.

8.2.1 Recherche linéaire d’ordre zéro

Nous commençons par la recherche linéaire d’ordre zéro, c.-à-d., par des méthodes pour
résoudre (8.3) qui utilisent des valeurs de f seulement, pas ces dérivées.
Les méthodes que nous sommes sur le point de développer résolvent pas le problème (8.3)
tel qi’il est, mais le problème
f (x) → min | a ≤ x ≤ b (8.4)
de minimisation de l’objectif sur un segment ﬁni donné [a, b] (−∞ < a < b < ∞). Pour assurer
que le problème soit bien conditionné, nous faisons l’hypothèse suivante :
f est unimodale sur [a, b], c.-à-d., possède un minimum local unique x∗ sur le segment.
Cette hypothèse, comme on le voit facilement, implique qui f strictement décroissante sur [a, b]
à gauche de x∗ :
a ≤ x < x ≤ x∗ ⇒ f (x ) > f (x ) (8.5)
et est strictement croissante sur [a, b] à droite de x∗ :

x∗ ≤ x < x ≤ b ⇒ f (x ) < f (x ). (8.6)

En eﬀet, si (8.5) étaient faux, il existerait x et x tels que

a ≤ x < x ≤ x∗ , f (x ) ≤ f (x ).

Il suit que l’ensemble de minimiseurs de f sur [a, x ] contient un minimiseur, x∗ , qui est
diﬀèrent de x 3) . Comme x∗ est un minimiseur de f sur [a, x ] et x∗ diﬀère de x , x∗ est
un minimiseur local de f sur [a, b], alors qu’on a supposé que le minimizer local unique de f
sur [a, b] est x∗ ; ceci donne la contradiction désirée. On a (8.6) de façon analogue.

3. ) regardez : si x soi-même n’est pas un minimiseur de f sur [a, x ], alors tout minimiseur de f sur [a, x ]
peut être choisi comme x∗ ; si x est un minimizer de f sur [a, x ], alors x est également un minimiseur, car
f (x ) ≤ f (x ), et nous pouvons poser x∗ = x
8.2. RECHERCHE LINEAIRE 157

Notez que les relations (8.5) et (8.6), à leur tour, impliquent qui f est unimodal sur [a, b] et
même sur chaque segment [a , b ] ⊂ [a, b] plus petit.
Étant donné que f est unimodal sur [a, b], nous pouvons préciser une stratégie pour approcher
x : choisissons deux points x− et x+ dans (a, b),
∗

a < x− < x+ < b,

et calculons les valeurs f (x− ) et f (x+ ). On observe que
si [cas A] f (x− ) ≤ f (x+ ), alors x∗ se trouve a gauche de x+ [en eﬀet, si x∗ était à droite de
x+ ,on aurait f (x− ) > f (x+ ) d’après (8.5)], et si [ cas B ] f (x− ) ≥ f (x+ ), x∗ est alors à droite
de x− [raisonnement “symétrique”].
En conséquence, dans le cas A nous pouvons remplacer le “segment d’incertitude” initial Δ0 =
[a, b] par le nouveau segment d’incertitude Δ1 = [a, x+ ], et dans le cas B par le segment Δ1 =
[x− , b] ; dans les deux cas les nouveau “segment d’incertitude” Δ1 couvre x∗ et est strictement
plus petit que Δ0 . Puisque, l’objectif, étant unimodal sur le segment initial Δ0 = [a, b], est
unimodal également sur le segment plus petit Δ1 ⊂ Δ0 , nous pouvons réitérer ce procédé –
choisir deux points dans Δ1 , calculer les valeurs de l’objectif en ces points, comparez les résultats
et remplacez Δ1 par un plus petit segment Δ2 , contenant la solution désirée x∗ , et ainsi de suite.
Ainsi, nous venons à

Algorithme 8.2.1 [la minimisation d’ordre zéro de fonction unimodale sur [a, b] ]
Initialisation : Poser δ0 = [a, b], t = 1
Étape t : Étant donné le segment précédent Δt−1 = [at−1 , bt−1 ] d’incertitude,
– choisir les points de recherche x− + − +
t , xt : at−1 < xt < xt < bt−1 ;
− +
– calculer f (xt ) et f (xt ) ;
– déﬁnir le nouveau segment incertain : si f (x− t ) ≤ f (xt ), poser Δt = [at−1 , xt ], poser
+ +
−
Δt = [xt , bt−1 ] sinon ;
– remplacer t par t + 1 et boucler.
On voit immédiatement que nous pouvons assurer la convergence linéaire des longueurs des
segments d’incertitude vers 0, ce qui nos donne un algorithme linéairement convergeant vers
x∗ . Par exemple, si x− +
t , xt sont choisis pour couper Δt−1 en trois parts égales, nous obtenons
|Δt+1 | = 3 |Δt | (|Δ| représente la longueur d’un segment Δ), ce qui nous donne un algorithme
2

qui converge linéairement, avec le taux 2/3 :

k/2
2
|x∗ − xk | ≤ |b − a|, (8.7)
3
k étant le # d’évaluations de fonction exécutées jusqu’ici et xk étant un point arbitraire du
segment d’incertitude Δ k/2 , formé après k évaluations de la fonction.
L’estimation (8.7) est très bonne – nous avons la convergence linéaire non-asymptotique avec
le taux de convergence qui ne dépend pas de la fonction f . Existe-il quelque chose de mieux ?
La réponse est “oui”. Une façon d’améliorer le taux de convergence est de noter qu’un des
deux points de recherche employés pour passer de Δt au Δt+1 se trouve certainement en intérieur
de Δt+1 , et nous pourrions essayer de l’utiliser pour passer de Δt+1 à Δt+2 . Avec cette stratégie,
le coût de la mise à jour de Δt en Δt+1 sera une évaluation de fonction, et pas deux (excepté
le tout premier Δ0 → Δ1 , qui coûte toujours deux évaluations de fonction). Il y a deux façon
de mettre en application cette nouvelle stratégie – l’optimale (recherche de Fibonacci) et la
sous-optimale (“recherche d’or”).
158 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Recherche de Fibonacci
La recherche de Fibonacci peut être employée quand nous savons à l’avance le nombre
N > 2 d’évaluations de fonction que nous allons exécuter.
Étant donné N , on considère la suite des N + 1 premiers nombres entiers de Fibonacci
F0 , F1 , F2 ..., Fn déﬁnis par la récurrence

F0 = F1 = 1; Fk = Fk−1 + Fk−2

(les 10 premiers éléments de la suite sont 1, 1, 2, 3, 5, 8, 13, 21, 34, 55).

La méthode que nous allons utiliser est suivante : étant donné Δ0 = [a, b], on pose

d0 = |b − a|,

on choisit les deux premiers points x− +

1 et x1 de recherche à la distance

FN −1
d1 = d0
FN
de l’extrémité droite et de l’extrémité gauche de Δ0 respectivement (comme FN /FN −1 =
(FN −1 + FN −2 )/FN −1 = 1 + FN −2 /FN −1 < 2, nous avons d1 > d0 /2, de sorte que x− +
1 < x1 ).
La longueur du nouveau segment Δ1 d’incertitude est alors d1 .
En suite on réitère l’étape ci-dessus, avec N remplacé N − 1. Ainsi, maintenant nous
devrions évaluer f en deux points x− +
2 , x2 du segment Δ1 placés à la distance

FN −2 FN −2 FN −1 FN −2
d2 = d1 [= d0 = d0 ] (8.8)
FN −1 FN −1 FN FN

des bouts droit et gauche de Δ1 . Le fait crucial (qui résulte des propriétés arithmétiques des
nombres de Fibonacci) est que
un de ces deux points où f devrait être calculé est déjà traité – celui parmi les deux points
précédents qui appartient à l’intérieur de Δ1 .
−
En eﬀet, supposons, sans perte de généralité, que Δ1 = [a, x+ 1 ] (le cas Δ1 = [x1 , b] est
−
complètement analogue), de sorte que x1 ∈ int Δ1 . Nous avons

− FN −1
x1 − a = (b − d1 ) − a = (b − a) − d1 = d0 − d1 = d0 1 − =
FN
FN −2
[comme FN = FN −1 + FN −2 et d2 = FN d0 ]

FN −2
= d0 = d2 .
FN
Ainsi, seulement un des deux points exigés de Δ1 est réellement “nouveau”, et l’autre vient
de l’étape précédente ; par conséquent, aﬁn de mettre à jour Δ1 vers Δ2 nous avons besoin
d’une seule évaluation de fonction. Après cette nouvelle évaluation de fonction, nous pouvons
remplacer Δ1 avec Δ2 . Pour traiter Δ2 , nous agissons exactement comme ci-dessus, mais avec
N remplacé par N − 2 ; ici nous devons évaluer f aux deux points de Δ2 à la distance
FN −3 FN −3
d3 = d2 [= d0 , see (8.8)]
FN −2 FN

des extrémités du segment, et, à nouveau, un de ces point est deja traité.
Au bout des itérations nous venons au segment ΔN −1 qui couvre x∗ ; la longueur du
segment est
F1 b−a
dN −1 = d0 = ,
FN FN
8.2. RECHERCHE LINEAIRE 159

et le nombre total d’évaluations de f requis pour obtenir ce segment est N (nous avons
besoin de 2 évaluations de f pour passer de Δ0 vers Δ1 , et chacune des N − 2 mises à jour
suivantes Δt → Δt+1 nécessite une évaluation de f ).
Si on prend comme approximation de x∗ n’importe quel point xN du segment ΔN −1 ,
nous avons
b−a
|xN − x∗ | ≤ |ΔN | = . (8.9)
FN
Pour comparer (8.9) avec l’évaluation de précision (8.7) de notre méthode initiale – peu
sophistiquée – notez que
√
1 ! " 1+ 5
Ft = (λ + 1)λt + (−1)t λ−t , λ = > 1. 4) (8.10)
λ+2 2
En consequence, de (8.9) nous obtenons

λ + 2 −N
|xN − x∗ | ≤ λ |b − a|(1 + o(1)), (8.11)
λ+1
où on note o(1) une fonction de N qui converge vers 0 quand N → ∞).
Nous voyons que le taux de convergence pour la recherche de Fibonacci est
2
λ−1 = √ = 0.61803...
1+ 5

qui est bien meilleur que le taux 2/3 = 0.81649... donné par (8.7).
On peut montrer que la recherche de Fibonacci est une méthode optimale (dans un
certain sens précis) d’ordre zéro, en termes de precision garantie après N évaluations de
fonction. Malgré ces bonnes propriétés théoriques, la méthode n’est pas très commode du
point de vue pratique : nous devrions choisir à l’avance le nombre d’évaluations de fonction à
exécuter (c.-à-d., pour ajuster la méthode à une certaine précision, choisie à l’avance), ce qui
est parfois assez désagréable. La méthode de recherche d’or que nous sommes sur le point de
présenter est exempte de cette imperfection et, en même temps, pour des N pas trop petits,
aussi eﬃcace que la recherche de Fibonacci originale.
L’idée de la méthode de recherche d’or est très simple : à l’étape k de recherche de la
recherche de Fibonacci à N pas, nous choisissons deux points de recherche dans le segment
Δk−1 , et chacun de ces points divise le segment (entre l’extrémité plus proche et la plus
éloignée) en rapport
[1 − FN −k /FN −k+1 ] : [FN −k /FN −k+1 ] ,

4. ) voici le calcul : les nombres de Fibonacci satisfont l’équation homogène en diﬀérences ﬁnies :

xt − xt−1 − xt−2 = 0

avec la condition initiale x0 = x1 = 1. Pour résoudre une équation homogène en diﬀérences ﬁnies, on doit
d’abord chercher ses solutions fondamentales – ceux du type xt = λt . En substituant xt = λt dans l’équation,
nous obtenons une équation quadratique pour λ :

λ2 − λ − 1 = 0,

et nous venons aux deux solutions fondamentales :

√
1+ 5
λti ,
(i)
xt = i = 1, 2, avec λ1 = > 1, λ2 = −1/λ1 .
2
N’importe quelle combinaison linéaire de ces solutions fondamentales est encore une solution de l’équation, et pour
obtenir {Ft }, il reste de choisir les coeﬃcients de la combinaison pour satisfaire les conditions initiales F0 = F1 = 1.
En conséquence, nous venons au (8.10). Surprise : l’expression pour les quantités entières Ft implique les nombres
irrationnels !
160 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

c.-à-d., en rapport FN −k−1 : FN −k . Selon (8.10), ce rapport pour les grands N − k est proche
√
de 1/λ, λ = (1 + 5)/2. Dans la recherche d’or on utilise ce rapport sur chaque étape, et
c’est tout !

Recherche d’or
√
Soit λ = (1 + 5)/2 (aussi appelé le “nombre d’or”). Dans l’implementation de recherche
d’or de l’Algorithme 8.2.1 nous choisissons à chaque étape les points de recherche x− +
t et xt pour
diviser le segment précédent de l’incertitude Δt−1 = [at−1 , bt−1 ] dans le rapport 1/λ :

λ 1 1 λ
x−
t = at−1 + bt−1 ; x+
t = at−1 + bt−1 . (8.12)
1+λ 1+λ 1+λ 1+λ

On voit facilement que pour t ≥ 2, un des points de recherche exigés pour mettre à jour Δt−1
vers Δt est déjà traité en cours de la mise à jour de Δt−2 vers Δt−1 . Pour le vériﬁer, il suﬃt de
−
considérer le cas quand Δt−2 = [α, β] et Δt−1 = [α, x+ t−1 ] (le cas “symétrique” Δt−1 = [xt−1 , β]
est complètement analogue). Notons d = β − α, nous avons

1 λ
x−
t−1 = α + d, x+
t−1 = α + d. (8.13)
1+λ 1+λ

Maintenant, nous sommes dans la situation Δt−1 = [α, x+ t−1 ], de sorte que le second des deux
points de recherche requis pour mettre à jour Δt−1 vers Δt soit

λ λ2
x+
t =α+ t−1 − α) = α +
(x+ d
1+λ (1 + λ)2

(voyez la deuxième égalité dans (8.13)). La dernière quantité, dues à la première égalité dans
(8.13) et à l’équation caractéristique λ2 = 1 + λ qui donne λ, n’est rien d’autre que x− t−1 :

1 λ2
λ2 = 1 + λ ⇔ = .
1+λ (1 + λ)2

Ainsi, dans la recherche d’or chaque mise à jour Δt−1 → Δt , excepté la toute première, exige
une évaluation de fonction. La longueur du segment d’incertitude est réduite par chaque mise à
jour par le facteur
λ 1
= ,
1+λ λ
c.-à-d.,
|Δt | = λ−t (b − a).
Après N ≥ 2 évaluations de fonction (après t = N − 1 étapes de recherche d’or) nous pouvons
approcher x∗ par le point xN du segment ΔN −1 , est l’imprécision sera bornée par

|xN − x∗ | ≤ |ΔN −1 | ≤ λ1−N (b − a). (8.14)

Ainsi, nous observons une convergence linéaire avec le même taux λ−1 = 0.61803... que pour la
recherche de Fibonacci, mais maintenant la méthode est “stationnaire” – nous pouvons exécuter
autant de pas que nous le souhaitons.
8.2. RECHERCHE LINEAIRE 161

8.2.2 Dichotomie
L’avantage théorique des méthodes d’ordre zéro, comme la recherche de Fibonacci et la
recherche d’or, est que ces méthodes n’utilisent du’une information minimale sur l’objectif –
ses valeurs seulement. De plus, ces méthodes ont un champ des applications très large – la
seule condition imposée sur l’objectif est d’être unimodal sur un segment donné qui localise le
minimiseur à approcher. Et même dans ce cadre, très large, ces méthodes convergent linéairement
avec le taux de convergence indépendant de l’objectif ; d’ailleurs, les évaluations d’eﬃcacité (8.11)
et (8.14) sont non-asymptotiques : elles ne contiennent pas des facteurs constants “incertains”
et sont valides pour toutes valeurs de N . En même temps, souvent notre objectif “se comporte
mieux” qu’une fonction unimodale générale, par exemple, la fonction f peut être lisse. En se
servant de ces propriétés additionnelles de l’objectif, nous pouvons améliorer le comportement
des méthodes de recherche linéaire.
Voyons ce qui se produit si nous résolvons le problème (8.4) avec un objectif lisse
(continûment diﬀérentiable). Comme ci-dessus, supposons que l’objectif est unimodal sur [a, b].
En fait nous faisons une hypothèse un peu plus forte :
(A) : le minimiseur x∗ de f sur [a, b] est un point intérieur du segment, et f (x) change son
signe en x∗ :
f (x) < 0, x ∈ [a, x∗ ); f (x) > 0, x ∈ (x∗ , b]

[notez que unimodalité + derivabilité impliquent seulement f (x) ≤ 0 sur [a, x∗ ) et f (x) ≥ 0
sur (x∗ , b]].
Supposons, en plus, comme c’est normalement le cas, que nous pouvons calculer non seule-
ment la valeur, mais également la dérivée de l’objectif en un point donné.
Sous ces hypothèses nous pouvons résoudre (8.4) par la méthode la plus simple possible – la
dichotomie : calculons f au point médian x1 de Δ0 = [a, b]. Il y a trois cas possibles :
– f (x1 ) > 0. Ce cas, selon (A), est possible si et seulement si x∗ < x1 , et nous pouvons
remplacer le segment initial d’incertitude par [x1 , b], réduisant ainsi la longueur du segment
d’incertitude par le facteur 2 ;
– f (x1 ) < 0. Comme dans le cas précédant, cette inégalité est possible si et seulement si
x∗ > x1 , et nous pouvons remplacer le segment initial d’incertitude par [a, x1 ], réduisant
de nouveau la longueur du segment d’incertitude par le facteur 2 ;
– f (x1 ) = 0. Selon (A), c’est possible si et seulement si x1 = x∗ , et nous pouvons terminer
avec le minimiseur exact actuel.
Dans les deux premiers cas notre objectif possède clairement la propriété (A) par rapport au
nouveau segment d’incertitude, et nous pouvons réitérer notre construction. Ainsi, nous venons
à

Algorithme 8.2.2 [Dichotomie]

Initialisation : poser Δ0 = [a, b], t = 1
Étape t : Étant donné le segment Δt−1 = [at−1 , bt−1 ],
– déﬁnir le point courant de recherche xt comme le milieu de Δt−1 :

at−1 + bt−1
xt = ;
2

– calculer f (xt ) ;
162 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

– dans le cas f (xt ) = 0 terminer et sortir une solution exacte xt de (8.4). Autrement, poser

[at−1 , xt ], f (xt ) > 0

Δt =
[xt , bt−1 ], f (xt ) < 0

remplacer t par t + 1 et boucler.

Des considérations ci-dessus nous amènent à

Proposition 8.2.1 [Convergence linéaire de la Dichotomie]

Sous hypothèse (A), pour n’importe quel t ≥ 1, soit la Dichotomie termine en cours des t
premières étapes avec la solution exacte x∗ , ou le t-ème segment d’incertitude Δt est bien déﬁni,
couvre x∗ et est de longueur 2−t (b − a).
Ainsi, la méthode de dichotomie converge linéairement avec le taux de convergence 0, 5.

Remarque 8.2.1 Le taux de convergence de l’algorithme de Dichotomie est meilleur que

0,61803... pour la recherche de Fibonacci ou la recherche d’or. Il n’y a aucune contradiction
avec l’optimalité annoncée de la recherche de Fibonacci : le dernier est optimal parmi toutes les
méthodes d’ordre zéro de minimisation de fonctions unimodales, alors que la dichotomie est une
méthode du premier ordre.

Remarque 8.2.2 La méthode de Dichotomie peut être vue comme “le cas limite” de l’algo-
rithme d’ordre zéro 8.2.1 : quand, dans le dernier algorithme, nous posons les deux points de
recherche x− + −
t et xt près du milieu du segment Δt−1 , le résultat de comparaison entre f (xt ) et
+
f (xt ) qui régit le choix du nouveau segment d’incertitude dans l’algorithme 8.2.1 est donné par
le signe de f au point du milieu de Δt−1 .

Remarque 8.2.3 Notez que l’hypothèse (A) peut être affaiblie. En effet, supposons que f
change son signe sur le segment [a, b] : f (a) < 0, f (b) > 0 ; et on ne suppose rien au sujet de la
dérivée sur (a, b), excepté sa continuité. Dans ce cas-ci nous pouvons encore utiliser la méthode
de dichotomie avec succès pour rapprocher un point critique de f dans (a, b), c.-à-d., un point
où f (x) = 0. En effet, de la description de la méthode on voit que ce que la méthode produit
une suite de segments “emboités” Δ0 ⊃ Δ1 ⊃ Δ2 ⊃ ..., avec le segment suivant étant deux fois
plus petit que le précédent, avec la propriété que f change son signe de − à + en passant de
l’extrémité gauche de chaque segment Δt à son extrémité droite. Ce processus peut être terminé
seulement dans le cas quand xt est un point critique de f . Si cet événement ne se produit pas,
alors les segments emboités Δt ont un point commun unique x∗ , et puisque dans n’importe quel
voisinage du point il y a des points avec des valeurs positives et négatives de f , nous avons
f (x∗ ) = 0 (f est continu !). C’est le point critique de f et l’algorithme converge linéairement
vers x∗ avec le taux de convergence 0, 5.
La remarque ci-dessus explique la nature de l’algorithme de dichotomie. C’est un algorithme
pour trouver le zéro de la fonction f plutôt que pour minimiser f (sous l’hypothèse (A), natu-
rellement, c’est la même chose). Et l’idée de la méthode est triviale : étant donné que le zéro de
f est encadré par le segment initial Δ0 = [a, b] (c.-à-d., que f aux points extrêmes du segment
est de signe différent), nous produisons une suite des segments inclus, qui encadrent également
le zéro de f : nous avons scindé le segment précédent Δt = [at−1 , bt−1 ] par son milieu xt en
deux sous-segments [at−1 , xt ] et [xt , bt−1 ]. Comme f change son signe en passant de at−1 à bt−1 ,
il change son signe soit en passant de at−1 à xt , soit en passant de xt à bt−1 (à condition que
f (xt ) = 0, de sorte que nous puissions parler du signe de f (xt ) ; si f (xt ) = 0, nous sommes
8.2. RECHERCHE LINEAIRE 163

faits). Nous détectons sur lequel des deux sous-segments f changent en fait son signe et le
prenons comme nouveau segment Δt d’incertitude ; par la construction, il encadre également le
zéro de f .

8.2.3 Approximation de courbes

Les méthodes de recherche linéaire considérées jusqu’ici possèdent, sous l’hypothèse d’uni-
modalité, l’excellente propriété de convergence linéaire globale. Pouvons-nous espérer quelque
chose de mieux ? Naturellement, oui : on aimerait bien avoir une méthode de convergence super-
linéaire. Si l’objectif se comporte “bien”, autrement dit, est assez régulier, nous avons de bonnes
chances d’accélérer la convergence, au moins sur la phase finale, en utilisant l’approximation
de courbe, c.-à-d., en approchant l’objectif par une fonction simple dont le minimum peut être
trouvé de façon explicite. Par exemple, on peut approcher f par un polynôme, en choisissant les
coefficients du polynôme afin de l’adapter aux valeurs observées (et à celles des dérivées, si elles
sont disponibles) de f en des iterations “les plus prometteuses”. Une itération d’un algorithme
“pur” d’approximation de courbe est suivante :
– au début de l’itération, nous avons un certain ensemble de “points de travail” où nous avons
déjà calculé les valeurs et, probablement, certains dérivées de l’objectif. Avec ces données,
nous calculons le polynôme d’approximation courant p qui devrait avoir les mêmes valeurs
et les même dérivées aux points de travail que ceux de l’objectif ;
– après avoir calculé le polynôme p, nous trouvons analytiquement son minimiseur et le
prenons comme le nouveau point de recherche ;
– nous calculons la valeur (et, probablement, les dérivées) de l’objectif en ce point de re-
cherche et mettons à jour l’ensemble de points de travail, en ajoutant le dernier point de
recherche (ainsi que l’information sur l’objectif en ce point) et en excluant de cet ensemble
le “plus mauvais” des points de travail précédents ;
et on boucle.
L’idée sous-jacente est très simple : si nous somme capable obtenir la convergence de cette
méthode, les points de travail seront éventuellement à une petite distance d du minimiseur de f .
Si f est assez lisse, l’erreur qu’on commet en approchant f par p dans le d-voisinage des points
de travail sera de l’ordre de dq+1 , q étant le degré de p, et l’erreur de l’approximation de f par p
sera de l’ordre de dq . En conséquence, nous pouvons espérer que la distance entre le minimiseur
de p (c.-à-d., le zéro de p ) et le minimiseur de f (le zéro de f ) sera de l’ordre de dq , ce qui nous
donne “de bonnes chances” d’obtenir la convergence super-linéaire.
Naturellement, ce qui est dit n’est rien de plus qu’une idée très approximative. Voyons une
réalisation standard de cette idée.

Méthode de Newton

Supposons que nous résolvons le problème (8.3) avec l’objectif f deux fois continûment
diﬀérentiable, et que, étant donné x, nous pouvons calculer f (x), f (x) et f (x). Sous ces hy-
pothèses nous pouvons appliquer au problème la Méthode suivante de Newton :

Algorithme 8.2.3 [Méthode de Newton unidimensionnelle]

Initialisation : choisir le point initial x0
Étape t : étant donné l’itération précédente xt−1 ,
164 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

– calculer f (xt−1 ), f (xt−1 ) et f (xt−1 ) et approcher f autour de xt−1 par son développement
de Tailor du second ordre :
1
p(x) = f (xt−1 ) + f (xt−1 )(x − xt−1 ) + f (xt−1 )(x − xt−1 )2 ;
2
– choisir comme xt le minimiseur de la fonction quadratique p(·) :

f (xt−1 )
xt = xt−1 − ,
f (xt−1 )

remplacer t avec t + 1 et boucler.

La méthode de Newton, si initialisée près d’un minimiseur local non-dégénéré x∗ de f (c.-à-d.,

près d’un point x∗ satisfaisant la condition suﬃsante d’optimalité du second ordre : f (x∗ ) = 0,
f (x∗ ) > 0), converge vers x∗ quadratiquement :

Proposition 8.2.2 [Convergence quadratique locale de la Méthode de Newton] Soit x∗ ∈ R un

minimiseur local non-dégénéré de la fonction régulière f , c.-à-d., un point tels que f est trois
fois continûment diﬀérentiable dans un voisinage de x∗ avec f (x∗ ) = 0, f (x∗ ) > 0. Alors les
iteration de Newton convergent vers x∗ quadratiquement, à condition que le point de départ x0
soit assez proche de x∗ .

Preuve. Soit g(x) = f (x), de sorte que g(x∗ ) = 0, g (x∗ ) > 0 et

g(xt−1 )
xt = xt−1 − .
g (xt−1 )

Puisque g = f est deux fois continûment diﬀérentiable dans un voisinage de x∗ et g (x∗ ) > 0,
ils existent des constantes positives K1 , K2 et r tels que

|x − x∗ |, |x − x∗ | ≤ r ⇒ |g (x ) − g (x )| ≤ k1 |x − x |, g (x ) ≥ k2 . (8.15)

Maintenant, soit
k2
ρ = min{r; }. (8.16)
k1
Supposons que pour un certain t l’itération xt−1 appartient au ρ-voisinage

Uρ = [x∗ − ρ, x∗ + ρ]

de x∗ . Alors g (xt−1 ) ≥ k2 > 0 (grâce à (8.15) ; notez que ρ ≤ r), ainsi l’itération de Newton
xt−1 → xt est bien déﬁnie. Nous avons

g(xt−1 )
xt − x∗ = xt−1 − x∗ − =
g (xt−1 )

[car g(x∗ ) = 0]

g(xt−1 ) − g(x∗ ) g(x∗ ) − g(xt−1 ) − g (xt−1 )(x∗ − xt−1 )

= xt−1 − x∗ − = .
g (xt−1 ) g (xt−1 )
8.2. RECHERCHE LINEAIRE 165

Le numérateur dans la fraction à droite est le reste du développement de Taylor d’ordre 1 de

g en xt−1 ; par (8.15), et comme |xt−1 − x∗ | ≤ ρ ≤ r, il ne dépasse pas en valeur absolue
∗
2 k1 |x − xt−1 | . Le dénominateur, par le même (8.15), est au moins k2 . D’où,
1 2

k1
xt−1 ∈ Uρ ⇒ |xt − x∗ | ≤ |xt−1 − x∗ |2 . (8.17)
2k2

Grâce à l’origine de ρ, (8.17) implique

|xt − x∗ | ≤ |xt−1 − x∗ |/2.

On observe que la trajectoire de la Méthode de Newton, après avoir une fois atteint Uρ , ne
quite jamais ce voisinage et converge vers x∗ linéairement avec le taux 0.5. C’est sûrement le
cas quand x0 ∈ Uρ , et nous allons speciﬁer “assez proche de” dans l’énoncé de la proposition
comme l’inclusion x0 ∈ Uρ . Avec cette spéciﬁcation, nous obtenons que la trajectoire converge
vers x∗ linéairement, et on déduit de (8.17) que l’ordre de convergence est (au moins) 2.

Remarque 8.2.4 Les deux hypothèses – que f (x∗ ) > 0 et que x0 est assez près de x∗ sont
essentielles 5) . Par exemple, pour la fonction convexe régulière f (x) = x4 (avec le minimiseur
dégénéré x∗ = 0), la méthode devient

1 2
xt = xt−1 − xt−1 = xt−1 ;
3 3

dans cet exemple la méthode converge, mais la convergence est linéaire plutôt que quadratique.
√
Appliquée à la fonction régulière strictement convexe f (x) = 1 + x2 avec le minimizer local
(et global) unique (et non-dégénère x∗ = 0), la méthode devient, comme on voit immédiatement,

xt = −x3t−1 ;

cette suite converge (très rapidement : avec l’ordre 3) vers 0 à condition que le point de départ
soit dans (−1, 1), et diverge à l’inﬁni – aussi rapidement – si |x0 | > 1.

En fait la Méthode de Newton est une Méthode de Linéarisation pour trouver le zéro de f :
étant donné l’iteration précédente xt−1 , nous “linéarisons” g = f en ce point et prenons comme
xt la solution à la linéarisation

g(xt−1 ) + g (xt−1 )(x − xt−1 ) = 0

de l’équation actuelle g(x) = 0.

5. ) en fait, la condition f (x∗ ) > 0 peut être remplacé par f (x∗ ) < 0, puisque la trajectoire de la méthode
ne change pas si on remplace f par −f (en d’autres termes, la Méthode de Newton ne distingue pas les minima
locaux et les maxima locaux de l’objectif). On parle du cas de f (x∗ ) > 0, pas celui de f (x∗ ) < 0, simplement
parce que le premier est le seul important pour la minimisation.
166 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

f’(x)

x x
t t-1

Méthode de Newton comme recherche de zéro

8.2.4 Recherche Linéaire Inexacte

Comme nous l’avons remarqué, l’application principale des méthodes de recherche linéaire
est en intérieur des algorithmes d’optimisation multi-dimensionnelle. Dans ces algorithmes on
admet seulement un petit nombre d’étapes du sous-programme de recherche linéaire à chaque
itération de l’algorithme principal, sinon la complexité globale de la méthode principale sera
trop importante. D’ailleurs, souvent dans l’algorithmique multi-dimensionnels nous n’avons pas
besoin de solutions très précises des sous-problèmes unidimensionnels ; ce qui est important pour
la méthode principale, est de garantir un progrès raisonnable sur l’objectif du sous-problème.
Si tel est le cas, nous pouvons terminer la recherche linéaire relativement loin de la solution
optimale du sous-problème en question, en utilisant certains tests simples pour du “progrès
raisonnable”. Nous allons presenter deux tests le plus populaires de ce type.

La règle d’Armijo
On considère la situation qui est typique pour l’application de la technique de recherche
linéaire à l’intérieur de la méthode principale multi-dimensionnelle. Sur une itération de la
dernière méthode nous avons l’iteration courante x ∈ Rn et la direction de recherche d ∈ Rn
qui est direction de descente pour notre objectif f (·) : Rn → R :

dT ∇f (x) < 0. (8.18)

Le but est de réduire “de façon importante” la valeur de l’objectif par un pas

x → x + γ ∗ d

de x dans la direction d.
Supposons que f est continûment diﬀérentiable. Alors la fonction

φ(γ) = f (x + γd)

d’une variable est également une fois continûment diﬀérentiable ; d’ailleurs, en raison de (8.18),
nous avons
φ (0) < 0,
8.2. RECHERCHE LINEAIRE 167

de sorte que pour le petit γ positif on a

φ(γ) − φ(0) ≈ γφ (0) < 0.

Nous désirons de choisir un pas “raisonnablement grand” γ ∗ > 0 qui a comme conséquence le
progrès φ(γ ∗ ) − φ(0) sur l’objectif “de l’ordre de γ ∗ φ (0)”. Le test d’Armijo de cette condition
est construit de façon suivante :
Test d’Armijo :
on ﬁxe une fois pour toutes les constantes ∈ (0, 1) (un choix populaire est = 0.2) et η > 1
(disons, η = 2 ou η = 10) et on dit que la valeur candidate γ > 0 est appropriée, si les deux
conditions suivantes sont satisfaites :

φ(γ) ≤ φ(0) + γφ (0) (8.19)

[cette partie du test dit que le progrès en valeur de φ donné par le pas γ est “de l’ordre de
γφ (0)”]
φ(ηγ) ≥ φ(0) + ηγφ (0) (8.20)
[cette partie du test dit que γ est un pas “de l’ordre de grandeur maximal” qui satisfait encore
(8.19) – si on multiplie γ par η, la nouvelle valeur ne satisfait plus (8.19), comme une inégalité
stricte]
Sous l’hypothèse (8.18) et la condition (très naturelle) que f (et, par conséquent, φ) est borné
inférieurement, le test d’Armijo est consistant : ils existent des valeurs de γ > 0 qui passent le
test. Pour le voir, il suffit de remarquer que
A. (8.19) est satisfait pour tout γ positif assez petit.
En effet, puisque φ est différentiable, nous avons

φ(γ) − φ(0)
0 > φ (0) = lim ,
γ→+0 γ
d’où
φ(γ) − φ(0)
φ (0) ≥
γ
pour tout assez petit γ positif (comme φ (0) > φ (0) dû à φ (0) < 0, ∈ (0, 1)). L’inégalité finale
est équivalente à (8.19) ;
B. (8.19) n’est pas vérifiée pour toutes valeurs γ assez grandes.
En effet, le côté droit de (8.19) tend vers −∞ quand γ → ∞, dû à φ (0) < 0, mais son côté
gauche est borné inférieurement.
Nous pouvons choisir un γ = γ0 positif et verifier s’il satisfait (8.19). Si c’est le cas, on
remplace cette valeur par γ1 = ηγ0 , γ2 = ηγ1 , etc., vérifiant chaque fois si la nouvelle valeur de
γ passe (8.19). Selon B , ceci ne peut pas durer toujours : pour un certain s ≥ 1, γs ne satisfait
sûrement pas (8.19). Quand cela se produit pour la première fois, la quantité γs−1 satisfait (8.19),
alors que la quantité γs = ηγs−1 ne satisfait pas (8.19), ce qui signifie que γ = γs−1 passe le test
d’Armijo.
Notez que la preuve présentée donne en fait un algorithme explicite (et rapide) pour trouver
le pas qui passe le test d’Armijo, et cet algorithme peut être utilisé (et il est, en effet, souvent
employé) dans la recherche d’Armijo au lieu des méthodes de recherche linéaire plus précises
(et, normalement, plus fastidieuses).
168 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Test de Goldstein
Un autre test populaire pour le “progrès suﬃsant” pour la recherche linéaire est le test
de Goldstein suivant :
on ﬁxe ∈ (0, 1/2) et on dit que la valeur candidat γ > 0 est appropriée, si

φ(0) + (1 − )γφ (0) ≤ φ(γ) ≤ φ(0) + γφ (0). (8.21)

Ici encore la relation (8.18) et la bornitude de f impliquent la consistance du test.

8.3. EXERCICES 169

8.3 Exercices
Exercice 8.1 [Recherche d’or] Codez la recherche d’or et testez la sur quelques fonctions uni-
modales de votre choix.

Exercice 8.2 [Dichotomie] Codez la méthode de dichotomie et tester la sur quelques fonctions
unimodales de votre choix.
Lancer 50 pas de l’algorithme de dichotomie sur la fonction (non-unimodale)

2π
f (x) = − sin 2 [x ≥ 0]
17 + x

avec le segment initial (a) [0, 1] ; (b) [0, 4], prenant comme résultat le point central du segment
ﬁnal. Pourquoi les résultats sont-ils diﬀérents ?

Exercice 8.3 [Recherche d’or contre le dichotomie] Supposons que le problème (8.4) à résoudre
satisfait l’hypothèse (A) (Section 8.2.2), et que les dérivées de l’objectif sont disponibles. Que
devrait être préféré – la recherche d’or ou la dichotomie ?
Naturellement, la dichotomie a une meilleure convergence (taux 0.5 contre 0.618... pour la
recherche d’or), mais cette comparaison est injuste : la recherche d’or n’utilise pas des dérivés,
et en excluant la partie du code qui calcul f , on doit économiser du temps de calcul, malgré un
nombre plus grand d’étapes requises dans la recherche d’or pour réaliser la même precision.
La raison réelle de préférer le bisection est que cette méthode est plus stable numériquement.
En effet, supposons que nous devons résoudre (8.4) et toutes les valeurs de f, f , f dans [a, b],
mêmes que a et b eux-mêmes, sont des “réels normaux” – ceux de l’ordre de 1. Supposons aussi
que nous cherchons à obtenir le segment d’incertitude final de la longueur . Quelles sont les
valeur de que nous pouvons obtenir réellement en utilisant les ordinateurs réels avec leurs
erreurs d’arrondie ?
Je vous propose le raisonnement approximatif suivant : pour implementer la recherche d’or,
nous devrions comparer des valeurs de l’objectif sur les étapes finales – aux points à la distance
O() du minimiseur. En ces points, les valeurs de f diffèrent de la valeur optimale (et, par
conséquent, l’un de l’autre) de O(2 ). Afin d’assurer la comparaison correcte des valeurs (et
la comparaison incorrecte rend tous les calculs suivants erronés), l’erreur d’arrondie absolue ∗
de la représentation d’ordinateur d’un nombre de l’ordre de 1 (pour les machines actuelles ∗
de double précision Fortran/C est quelque chose comme 10−16 ) devrait être moins que O(2 ).
Ainsi,√les valeurs de que nous pouvons atteindre dans la recherche d’or devraient être d’ordre
de O( ∗ ).
Dans la méthode de dichotomie, nous devrions comparer les valeurs de f à 0 ; si tous les
résultats intermédiaires dans le code qui calcule la dérivée sont de l’ordre de 1, la dérivée est cal-
culée avec l’erreur absolue ≤ c∗ , avec une certaine constante c. Si f (x∗ ), x∗ étant le minimiseur
de f sur [a, b], est positif de l’ordre de 1 (le minimiseur est numériquement “bien conditionné”),
alors à la distance ≥ C de x∗ les valeurs réelles de f sont, en valeurs absolues, au moins C ,
C étant une certaine constante. Nous voyons que si x se trouve à la distance de x∗ et est tel
que C > c∗ (c.-à-d., la grandeur de f (x) est plus grande que l’erreur absolue dans le calcul de
f (x)), alors le signe de f (x) réellement calculé considéra avec le signe exact de f (x), et l’étape
de dichotomie sera correcte. Ainsi, dans les conditions ci-dessus, nous pouvons compter √ que la
dichotomie pourra atteindre une precision = c(C )−1 ∗ = O(∗ ) (comparez avec O( ∗ ) pour
la recherche d’or).
170 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Aﬁn de valider ce raisonnement, j’ai tester la recherche d’or et la dichotomie sur le problème

f (x) = (x + 1)2 → min | −2 ≤ x ≤ 1.

À ma surprise (je suis peu expérimenté dans l’analyse d’erreur !), les deux méthodes ont résolu
le problème avec la précision sur x de O(10−16 ). Après une reﬂection, j’ai compris ce qui n’allait
pas et pu modiﬁer l’objectif pour observer le phénomène décrit.
Pourriez-vous
a) deviner ce qui ne va pas avec mon exemple ?
b) corriger l’exemple et observez le phénomène ?

Exercice 8.4 [Méthode de Newton] Tester la Méthode de Newton sur les fonctions
1) f (x) = 12 x2 − x − 12 exp{−2x} (point initial 0.5)
2) f (x) = x4 exp{−x/6} (point initial 1.0)
Chapitre 9

Méthode de Descente de Gradient et

Méthode de Newton

Dans cette partie du cours nous étudions des méthodes d’optimisation sans contraintes.

f (x) → min | x ∈ Rn . (9.1)

Nous faisons maintenant une fois pour toutes l’hypothèse suivante :

– (A) l’objectif f dans (9.1) est continûment diﬀérentiable ;
– (B) le problème en question est soluble : l’ensemble

X ∗ = Argmin f
Rn

est non vide.

9.1 Descente de Gradient

Cette section est consacrée à la méthode pour résoudre (9.1) la plus ancienne et la plus
largement connue - Descente de Gradient .

9.1.1 L’idée
L’idée de la méthode est très simple. Supposez que nous sommes en un certain point x, et que
nous avons calculé f (x) et ∇f (x). Supposez que x n’est pas un point critique de f : ∇f (x) = 0
(c’est la même chose que dire que x n’est pas un point de Karush-Kuhn-Tucker du problème).
Alors g = −∇f (x) est une direction de descente de f en x :
d
|γ=0 f (x − γ∇f (x)) = −|∇f (x)|2 < 0.
dγ
De plus, c’est la meilleure parmi les directions h de descente (normalisées pour avoir la même
longueur que celle de g) de f en x : pour tout h, |h| = |g|, on a
d
|γ=0 f (x + γh) = hT ∇f (x) ≥ −|h||∇f (x)| = −|∇f (x)|2
dγ
(par l’inégalité de Cauchy, qui devient égalité si et seulement si h = g).

171
172CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

L’observation indiquée démontre qu’aﬁn d’améliorer x – pour former un nouveau point avec
une plus petite valeur de l’objectif – on peur eﬀectuer un déplacement (pas)
x → x + γg ≡ x − γ∇f (x)
à partir de x dans la direction de l’antigradient ; un tel déplacement avec la longueur de pas γ > 0
correctement choisi assure la décroissance de f . La méthode de Descente de Gradient consiste,
tout simplement, de réitérer ce pas. Ainsi, le schéma générique de la méthode est suivant :
Algorithme 9.1.1 [Descente de Gradient ]
Initialisation : choisir le point initial x0 et mettre t = 1.
Étape t : au début de l’étape t nous avons la précédente itération xt−1 . On
– calcule f (xt−1 ) et ∇f (xt−1 )
– choisit (d’une façon ou d’une autre) un pas positif γt et on pose
xt = xt−1 − γt ∇f (xt−1 ), (9.2)
on remplace t avec t + 1 et on boucle.
Ainsi, la méthode générique de Descente de Gradient est la répétition de (9.2) avec une certaine
règle pour choisir les pas γt > 0 ; normalement, les pas sont donnés par une sorte de recherche
linéaire, appliqué a la fonction univariée
φt (γ) = f (xt−1 − γ∇f (xt−1 )).

9.1.2 Implementations Standards

Les diﬀérentes versions de la recherche linéaire résultent dans diﬀérentes versions de la
méthode de Descente de Gradient. Parmi ces versions, on devrait mentionner
– DAr [ Descente de Gradient avec la recherche linéaire d’Armijo] : le pas γt > 0 à l’itération
t où ∇f (xt−1 ) = 0 est choisi selon le test d’Armijo (Section 8.2.4) :
f (xt−1 − γt ∇f (xt−1 )) ≤ f (xt−1 ) − γt |∇f (xt−1 )|2 ;
f (xt−1 − ηγt ∇f (xt−1 )) ≥ f (xt−1 ) − ηγt |∇f (xt−1 )|2 , (9.3)
∈ (0, 1) et η > 1 sont des paramètres de la méthode. Et si xt−1 est un point critique
de f , c.-à-d., ∇f (xt−1 ) = 0, le choix de γt > 0 n’a absolument aucune importance :
indépendamment de la valeur de γt , (9.2) aura comme conséquence xt = xt−1 .
– PRD [“Steepest Descent” (la Plus Rapide Descente)] : γt minimise f le long du rayon
{xt−1 − γ∇f (xt−1 ) | γ ≥ 0} :
γt ∈ Argmin f (xt−1 − γ∇f (xt−1 )). (9.4)
γ≥0

Évidemment, la Plus Rapide Descente est un genre d’idéalisation : dans des cas non triviaux
nous ne savons pas trouver un minimum exacte de l’objectif le long un rayon. D’ailleurs, pour
rendre cette idéalisation valide, nous devrions supposer que les pas correspondants sont bien
déﬁnis, c.-à-d., que
Argmin f (x − γ∇f (x)) = ∅
γ≥0
pour le chaque x ; dans ce qui suit, ceci est supposé “par défaut” toutes les fois que nous parlons
au sujet de la Plus Rapide Descente.
Contrairement à la Plus Rapide Descente, la Descente de Gradient avec la la recherche linéaire
d’Armijo est tout à fait “constructive” – nous savons de la Section 8.2.4 comment trouver un
pas γt qui passe le test d’Armijo.
9.1. DESCENTE DE GRADIENT 173

9.1.3 Convergence de la Descente de Gradient

Théorème General de Convergence
Nous commençons par établir, sous des conditions peut restrictives, la convergence globale
de la Descente de Gradient vers l’ensemble des points critiques de f , c.-à-d. vers l’ensemble :

X ∗∗ = {x ∈ Rn | ∇f (x) = 0}.

Théorème 9.1.1 [Convergence globale de Descente de Gradient] Les méthodes PRD et DAr
vériﬁent :
(i) si la trajectoire {xt } de la méthode est bornée, alors cette trajectoire possède des points
limites, et tous ces points sont des points critiques de f ;
(ii) si l’ensemble de niveau

S = {x ∈ Rn | f (x) ≤ f (x0 )}

de l’objectif est borné, alors la trajectoire de la méthode est bornée (et, par conséquent, tous ses
points limites, d’après (i), appartiennent à X ∗∗ ).

Preuve : (ii) est une conséquence immédiate de (i), puisque DAr et PRD sont clairement des
méthodes de descente :
xt = xt−1 ⇒ f (xt ) < f (xt−1 ). (9.5)
Par conséquent, la trajectoire, pour chacune des méthodes, est contenue dans l’ensemble S de
niveau ; puisque sous l’hypothèse de (ii) cet ensemble est borné, la trajectoire également est
bornée, selon (ii).
Il nous reste de prouver (i). Ainsi, supposons que la trajectoire {xt } soit bornée, et que
x∗ est un point limite de la trajectoire ; nous devons montrer que ∇f (x∗ ) = 0. Supposons, au
contraire, que ce n’est pas le cas, et menons cette hypothèse à une contradiction. L’idée de ce
qui suit est très simple : comme ∇f (x∗ ) = 0, un pas de la méthode à partir de x∗ doit diminuer
la valeur de f d’une certaine quantité positive δ ; c’est absolument clair de la construction du
pas. Ce qui est très probable (on devrait, naturellement, le prouver, et nous le ferons dans un
instant) que il existe un petit voisinage U de x∗ tels qu’un pas de la méthode à partir d’un
point arbitraire x ∈ U améliore également l’objectif au moins par la quantité positive fixe δ .
Il n’est absolument pas important pour nous ce qui est ce δ , tout ce que nous avons besoin à
savoir que cette quantité est positive et indépendante du choix particulier de x ∈ U . Supposez
que nous avons déjà montré que de tels U et δ existent. Sous cette hypothèse, nous obtenons
immédiatement une contradiction : puisque x∗ est un point limite de la trajectoire, la trajectoire
visite U un nombre infini de fois. Chaque fois qu’elle visite U , le pas correspondant diminue f au
moins de δ > 0, et aucun pas de la méthode n’augmente l’objectif. Ainsi, en cours de la méthode
nous diminuons l’objectif par δ un nombre infini de fois et ne l’augmentons jamais, de sorte
que l’objectif devrait diverger vers −∞ le long de notre trajectoire ; le dernier est impossible,
puisqu’on a assumé que l’objectif est borné inférieurement.
Maintenant il est temps de prouver notre argument principal – celui sur l’existence de U et
de δ nécessaires dans la construction ci-dessus. Je voudrais souligner qu’il y a là quelque chose
à prouver, malgré le fait déjà connu (la propriété de “descente”) que l’objectif est amélioré par
chaque pas à partir d’un point non critique de f (et de tous points assez proches de x∗ non
critique, qui ne sont également pas critiques, puisque ∇f est continu). La difficulté est que le
progrès dans f sur un pas dépend du point à partir du quel nous avons fait le pas ; en principe
174CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

il peut arriver qu’un pas de chaque point d’un voisinage de x∗ améliore l’objectif, mais il n’y
a aucune borne inférieure positive δ pour les améliorations qui soitindépendante du point. Et
dans le raisonnement ci-dessus nous avons besoin en effet du ‘’progrès uniforme” – autrement
il serait possible que les visites consécutives de U par la trajectoire ont comme conséquence
de plus en plus petites améliorations de f , dont la somme est finie. Cette possibilité tuerait le
raisonnement ci-dessus complètement.
Évidemment, de tels U et δ existent. Il suffit le prouver pour DAr seulement – il est
absolument clair que le progrès dans l’objectif sur un pas de PRD soit au moins celui de DAr
, les deux pas étant prises à partir du même point. La preuve pour le cas de DAr est comme
suit :
Puisque f est continûment différentiable et ∇f (x∗ ) = 0, il existent r, P et p positifs tels
que
|x − x∗ | < r ⇒ p ≤ |∇f (x)| ≤ P ;
Pour les mêmes raisons, il existe r ∈ (0, r) tel que nous avons dans le r -voisinage V de x∗ :

|∇f (x ) − ∇f (x )| ≤ ζ ≡ (1 − )P −1 p2 .

Soit U le r /2-voisinage de x∗ . J’aﬃrme que

(*) si x ∈ U , le pas sx donné par la recherche linéaire d’Armijo pour la fonction

φx (s) = f (x − s∇f (x)) [φx (0) = −|∇f (x)|2 ]

est au moins
1 −1 −1
s∗ = rη P .
2
Notez que (*) est tout ce que nous avons besoin. En eﬀet, le progrès dans l’objectif dans la
recherche linéaire d’Armijo pour une fonction φ et ayant pour résultat un pas s au moins
s|φ (0)|. En appliquant cette observation à un pas de DAr pris à partir d’un point x ∈ U
et en utilisant (*), nous venons à la conclusion que le progrès dans l’objectif sur ce pas est
au moins s∗ |∇f (x)|2 ≥ s∗ p2 , et cette dernière quantité (qui est positive et est indépendant
de x ∈ U ) peut nous servir de δ .
Il nous reste à prouver (*), ce qui est immédiat : en supposant que x ∈ U et sx < s∗ , en
tenant compte de la construction du test d’Armijo, nous obtenons

φx (ηsx ) − φx (0) > ηsx φ (0). (9.6)

Maintenant, comme sx < s∗ , la longueur du segment [x, x − ηsx ∇f (x)] est au plus ηs∗ P ≤
r /2, et puisqu’une extrémité du segment appartient à U , le segment lui-même appartient à
V . En conséquence, la dérivée de f le long du segment change tout au plus de ζ, de sorte
que la dérivée de φ change sur le segment [0, ηsx ] tout au plus de

|∇f (x)|ζ ≤ P ζ = (1 − )p2 .

D’autre part, du théorème de valeur intermédiaire de Lagrange on sait que

φ(ηsx ) − φ(0) = ηsx φ (ξ) ≤ ηsx φ (0) + ηsx (1 − )p2 ;

Ici ξ est un certain point sur le segment [0, ηsx ]. En combinant cette inégalité avec (9.6),
nous obtenons

ηsx (1 − )p2 > −(1 − )ηsx φ (0) ≡ (1 − )ηsx |∇f (x)|2 ≥ (1 − )ηsx p2 ,

qui est une contradiction.

9.1. DESCENTE DE GRADIENT 175

Essayons de bien comprendre la preuve ci-dessus : sa structure est typique pour des preuves
de convergence dans l’optimisation traditionnelle : nous savons à l’avance que le processus itératif
en question possède une certaine fonction de Lyapunov L – qui diminue le long de la trajectoire
du processus et est bornée inférieurement (dans la preuve ci-dessus cette fonction est f elle-
même) ; nous supposons que la trajectoire soit bornée, et que l’ensemble de niveau de la fonction
de Lyapunov, associé à la valeur de la fonction au point initial de la trajectoire est borné
aussi (alors, évidemment, la trajectoire est sûrement bornée – puisque la fonction de Lyapunov
n’augmente jamais le long de la trajectoire, cette dernière ne peut pas quitter l’ensemble de
niveau). Supposez maintenant que les trois entités – (1) la fonction de Lyapunov, (2) notre
processus itératif, et (3) l’ensemble X ∗ qui est l’ensemble de solutions de notre problème – sont
liés par la relation suivante :
(**) si un point de la trajectoire n’appartient pas à X ∗ , alors le pas de processus
à partir de ce point fait décroitre strictement la fonction de Lyapunov
Normalement (**) est évident de la construction du processus et de la fonction de Lyapunov ;
par exemple, dans la preuve ci-dessus où L est l’objectif, le processus est DAr ou PRD et X ∗ est
l’ensemble des points critiques de l’objectif, vous ne devriez pas ouvrer trop dur afin de montrer
que le pas d’un point non critique diminue l’objectif. Maintenant, étant donné tout ceci, nous
sommes intéressés de montrer que la trajectoire du processus converge vers X ∗ ; quel est le point
principal de la preuve ? Naturellement, un équivalent de (*), c.-à-d., “une version localement
uniforme de (**)” – nous devrions montrer qu’un point n’appartenant pas à X ∗ possède un
voisinage tel que chaque fois que la trajectoire visite ce voisinage, le progrès dans la fonction
de Lyapunov sur le pas correspondant est séparé de zéro. Après que nous ayons prouvé ce fait
crucial, nous pouvons immédiatement appliquer le schéma de la preuve ci-dessus pour montrer
que la trajectoire converge vers X ∗ .
J’ai une bonne raison d’investir en explication de la “squelette” de cette preuve de conver-
gence : dorénavant, je sauterai les preuves semblables, puisque je crois que vous avez compris
ce principe général, et les details techniques ne sont pas d’un grand intérêt. J’espère que main-
tenant il devient clair pourquoi dans le test d’Armijo nous avons besoin du plus grand pas (au
facteur η près) qui permet d’obtenir un “progrès significatif” dans l’objectif. Si nous sautons
cette condition “maximale”, nous admettons des pas arbitrairement petits même à partir des
points qui sont loin de l’ensemble des solutions. En conséquence, (*) n’ai plus lieu, et nous serons
incapables d’assurer la convergence du processus (et elle sera en effet perdue).

Points limites de la Descente de Gradient

Nous avons montré que les versions standards de la Descente de Gradient, sous l’hypothèse
que la trajectoire est bornée, convergent vers l’ensemble X ∗∗ des points critiques de l’objectif. Cet
ensemble contient certainement l’ensemble X ∗ de minimiseurs globaux de f , ainsi que l’ensemble
de minimiseurs locaux de l’objectif, mais ce n’est pas tout : X ∗∗ contient également tous les
maximiseurs locaux de f et les points selles de la fonction. Une question importante est si un
point limite de la trajectoire de la descente de gradient peut être quelque chose que ne nous
intéresse pas – un point critique qui n’est pas un minimiseur local de l’objectif. Ce qui peut être
aﬃrmer est le suivant : un maximiseur local x∗ non dégénéré de f (c.-à-d., un point critique de f
tels que f (x∗ ) est déﬁni négative) ne peut pas être un point limite de la trajectoire de DAr et de
PRD , à l’exclusion du cas quand, justement, x∗ s’avère être un point de la trajectoire ; ceci peut
se produire dans DAr (bien qu’il est “pratiquement impossible”), et il ne se produit jamais dans
PRD , excepté le cas “trivial” (et également “pratiquement impossible”) quand la trajectoire
176CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

commence en x∗ . En parlant “oﬃcieusement”, il est “très improbable” qu’un point limite de la

trajectoire est un point selle de l’objectif. Ainsi, de point de vue “pratique”, des points limites
de la trajectoire de la Descente de Gradient sont des minimiseurs locaux de l’objectif.

9.1.4 Vitesses de convergence

Vitesse de convergence globale : cas de C1,1 général
Comme nous le savons déjà, sous l’hypothèse de (ii) du Théorème 9.1.1 (c.-à-d., quand
l’ensemble de niveau S = {x | f (x) ≤ f (x0 )} est borné), les versions de la Descente de Gradient
citées dans le Théorème convergent vers l’ensemble X ∗∗ de points critiques de f . Que peut être
dit au sujet de la vitesse non-asymptotique de convergence ? La réponse dépend de la façon dont
nous mesurons la precision (ou l’imprecision). Si nous employons quelque chose comme

dist(x, X ∗∗ ) = min∗∗ |y − x|
y∈X

d’une solution approximative x à X ∗∗ , il n’y a aucune évaluation non triviale d’eﬃcacité : la

convergence des quantités dist(xt , X ∗∗ ) vers 0 peut être arbitrairement lente, même lorsque f
est convexe. Il y a, cependant, une autre mesure d’exactitude,

f (x) = |∇f (x)|2 ,

bien plus appropriée. Notez que l’ensemble X ∗∗ vers lequel la trajectoire converge est exactement
l’ensemble où f (·) = 0, de sorte que f (x) en eﬀet puisse être vu comme quelque chose qui mesure
le “résidu de l’inclusion x ∈ X ∗∗ ”. Et il s’avère que nous pouvons préciser le taux auquel ce résidu
converge vers 0 :

Proposition 9.1.1 [Vitesse Non-asymptotique de convergence de Descente de Gradient]

Supposons que l’objectif f est une fonction de C1,1 , c.-à-d., il est continûment diﬀérentiable avec
le gradient Lipschitzien :

|∇f (x) − ∇f (y)| ≤ Lf |x − y|, ∀x, y ∈ Rn . (9.7)

Alors pour tout entier N > 0 :

(i) Pour la trajectoire {xt } de PRD avec le point du départ x0 nous avons
2Lf
f [t] ≡ min |∇f (xt )|2 ≤ [f (x0 ) − min f ]. (9.8)
0≤t<N N
(ii) Pour la trajectoire {xt } de DAr avec le point du départ x0 nous avons
ηLf
f [t] ≡ min |∇f (xt )|2 ≤ [f (x0 ) − min f ], (9.9)
0≤t<N 2(1 − )N

∈ (0, 1), η > 1 étant les paramètres du test d’Armijo.

Preuve :
10 . On commence avec le lemme fondamental suivant :
Lemme 9.1.1 Sous l’hypothèse du Théorème on a
Lf
f (y) ≤ f (x) + (y − x)T ∇f (x) + |y − x|2 , ∀x, y ∈ Rn . (9.10)
2
9.1. DESCENTE DE GRADIENT 177

Preuve du Lemme. Soit φ(γ) = f (x+γ(y −x)). Notez que φ est continûment diﬀerentiable
(comme f l’est) et

|φ (α) − φ (β)| = |(y − x)T (∇f (x + α(y − x)) − ∇f (x + β(y − x))| ≤

[par l’inégalité de Cauchy]

≤ |y − x||∇f (x + α(y − x)) − ∇f (x + β(y − x))| ≤

[(9.7)]
≤ |y − x|2 Lf |α − β|.
Ainsi,
|φ (α) − φ (β)| ≤ Lf |y − x|2 |α − β|, ∀α, β ∈ R. (9.11)
Nous avons
# 1
f (y) − f (x) − (y − x)T ∇f (x) = φ(1) − φ(0) − φ (0) = φ (α)dα − φ (0) =
0
# 1
= [φ (α) − φ (0)]dα ≤
0

[cf. (9.11)]
# 1
Lf
≤ |y − x|2 Lf αdα = |y − x|2 ,
0 2
comme requit dans (9.10).
20 . Nous somme en mesure de prouver (i). Par construction de la Plus Rapide Descente,

f (xt ) = min f (xt−1 − γ∇f (xt−1 )) ≤

γ≥0

[par Lemme 9.1.1]

Lf
≤ min f (xt−1 ) + [−γ∇f (xt−1 )]T ∇f (xt−1 ) + |γ∇f (xt−1 )|2 =
γ≥0 2

Lf 2 1
= f (xt−1 ) + |∇f (xt−1 )| min −γ +
2
γ = f (xt−1 ) − |∇f (xt−1 )|2 .
γ≥0 2 2Lf
Ainsi, on arrive à l’inégalité importante :
1
f (xt−1 ) − f (xt ) ≥ |∇f (xt−1 )|2 (9.12)
2Lf

– le progrès dans l’objectif sur un pas de la Plus Rapide Descente est au moins de l’ordre de
la norme carrée du gradient sur l’iteration précédente.
Maintenant, pour conclure la preuve, il suﬃt de noter que, en raison de la monotonie
de la méthode, le progrès “total” sur l’objectif sur un une suite des pas de la méthode ne
peut pas dépasser l’erreur initial f (x0 ) − min f en valeur de l’objective ; par conséquent, dans
une long suite, il doit y être un pas avec le petit progrès, c.-à-d., avec la petite norme du
gradient. Pour rendre ce raisonnement quantitatif, prenons la somme des inégalités (9.12)
sur t = 1, ..., n, venant à
N −1
1
|∇f (xt )|2 ≤ f (x0 ) − f (xN ) ≤ f (x0 ) − min f.
2Lf t=0

N
La partie à gauche est ≥ 2Lf min0≤t<N |∇f (xt )|2 , et nous obtenons (9.8).
178CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

30 . La preuve de (ii) est un peu plus compliquée, mais suit la même idée fondamentale : le
progrès sur un pas de DAr peut être petit seulement si le gradient sur l’iteration précédente
est petit, et dans une suite de pas on doit obligatoirement avoir un certain pas sur lequel le
progrès est petit, puisque tout le progrès ne peut pas excéder l’erreur initial.
Décrivons maintenant ce raisonnement quantitatif. Tout d’abord, le progrès dans l’objec-
tif sur l’iteration t de DAr n’est pas trop petit, à condition que γt et |∇f (xt−1 )|2 ne soient
pas trop petits :
f (xt−1 ) − f (xt ) ≥ γt |∇f (xt−1 )|2 . (9.13)
C’est une conséquence immédiate de la première inégalité de (9.3). Deuxièmement, γt n’est
pas trop petit. En eﬀet, par le Lemme 9.1.1 appliqué à x = xt−1 , y = xt−1 − ηγt ∇f (xt−1 )
nous avons
Lf 2 2
f (xt−1 − ηγt ∇f (xt−1 )) ≤ f (xt−1 ) − ηγt |∇f (xt−1 )|2 + η γt |∇f (xt−1 )|2 ,
2
tandis que par la deuxième inégalité de (9.3)

f (xt−1 − ηγt ∇f (xt−1 )) ≥ f (xt−1 ) − ηγt |∇f (xt−1 )|2 .

En combinant ces inégalités, nous obtenons

Lf 2 2
(1 − )ηγt |∇f (xt−1 )|2 ≤ η γt |∇f (xt−1 )|2 .
2
Comme γt > 0, dans le cas ∇f (xt−1 ) = 0 nous obtenons

2(1 − )
γt ≥ ; (9.14)
ηLf

et dans le cas de ∇f (xt−1 ) = 0, comme on se le rappelle, γt peut être choisi de la manière

arbitraire sans inﬂuencer la trajectoire (cette derniere de toute façon satisfera xt−1 = xt =
xt+1 = ...), et nous pouvons supposer que γt toujours satisfait (9.14).
En combinant (9.13) et (9.14), nous venons à l’inégalité suivante (comparez à (9.12) :

2(1 − )
f (xt−1 ) − f (xt ) ≥ |∇f (xt−1 )|2 . (9.15)
ηLf

Nous pouvons maintenant accomplir la preuve exactement comme dans le cas de la Plus
Rapide Descente.

Remarque 9.1.1 L’évaluation d’eﬃcacité donnée par la Proposition 9.1.1 donne une borne
supérieure non-asymptotique sous-linéaire de convergence vers 0 des “imprecisions” f (·). Notez,
néanmoins, que c’est une borne sur l’erreur de la le meilleure (avec la plus petite norme du
gradient) iteration produite en cours des N premières étapes de la méthode, pas sur l’erreur
de la derniere itération xN (les quantités |∇f (xt )|2 peuvent osciller, contrairement aux valeurs
f (xt ) de l’objectif).

Vitesse de convergence globale : cas C1,1 convexe

Le Théorème 9.1.1 dit que sous une hypothèse assez faible de régularité, la trajectoire de
DAr et PRD convergent vers l’ensemble X ∗∗ de points critiques de f . Si nous supposons, en
outre, que f est convexe, de sorte que l’ensemble de points critiques de f coincide avec l’ensemble
de minimiseurs globaux de la fonction, nous pouvons aﬃrmer que la trajectoire de la méthode
convergent vers l’ensemble optimal du problème. De plus, dans le cas de l’objectif convexe
9.1. DESCENTE DE GRADIENT 179

C1,1 (voir la Proposition 9.1.1) nous pouvons obtenir des caractérisations non-asymptotiques
d’eﬃcacité en termes de résidus f (xt ) − min f , et sous l’hypothèse supplémentaire disant que
l’objectif est non dégénéré (voir ci-dessous) – aussi en termes de distances |xt − x∗ | de l’iterations
xt à la solution optimale.
Pour simpliﬁer les développements et les rendre plus “pratiques”, dans ce qui suit nous
considérons seulement la version d’Armijo de la Descente de Gradient DAr .

Cas C1,1 convexe :

Proposition 9.1.2 [Vitesse de convergence globale de DAr dans le cas C1,1 convexe]
Soit le paramètre dans la méthode de DAr ≥ 0.5, et soit f fonction C1,1 convexe avec un
ensemble non vide X ∗ de minimiseurs globaux. Alors
(i) la trajectoire {xt } de DAr converge vers un certain point x∗ ∈ X ∗ ;
(ii) pour chaque N ≥ 1 nous avons

ηLf dist2 (x0 , x∗ )

f (xN ) − min f ≤ , (9.16)
4(1 − )N

où Lf est la constante de Lipschitz de ∇f (·) et

dist(x, X ∗ ) = min∗ |y − x|. (9.17)

y∈X

Preuve.
10 . Soit x∗ un point de X ∗ , regardons comments les distances

d2t = |xt − x∗ |2

varient avec t. Nous avons

d2t = |xt − x∗ |2 ≡ |[xt−1 − γt ∇f (xt−1 )] − x∗ |2 = |[xt−1 − x∗ ] − γt ∇f (xt−1 )|2 =

= |xt−1 − x∗ |2 − 2γt (xt−1 − x∗ )T ∇f (xt−1 ) + γt2 |∇f (xt−1 )|2 . (9.18)

Comme f est convexe, par l’Inégalité de Gradient

f (y) ≥ f (x) + (y − x)T ∇f (x) ∀x, y ∈ Rn

nous obtenons :

(xt−1 − x∗ )T ∇f (xt−1 ) ≥ f (xt−1 ) − f (x∗ ) = f (xt−1 ) − min f.

Cette inégalité, combinée avec (9.18) résulte en

! "
d2t ≤ d2t−1 − γt 2t−1 − γt |∇f (xt−1 )|2 , s ≡ f (xs ) − min f ≥ 0. (9.19)

Selon (9.13), nous avons

1 1
γt |∇f (xt−1 )|2 ≤ [f (xt−1 ) − f (xt )] = [t−1 − t ].

En combinant la dernière inégalité avec (9.19), nous obtenons
! "
d2t ≤ d2t−1 − γt (2 − −1 )t−1 + −1 t . (9.20)
180CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Comme, par notre hypothèse de départ, 1/2 ≤ , et, clairement, s ≥ 0, la quantité entre les
parenthèses dans la partie droite est non négative. Nous savons aussi de (9.14) que

2(1 − )
γt ≥ γ̄ = ,
ηLf

ainsi par (9.20) nous obtenons

! "
d2t ≤ d2t−1 − γ̄ (2 − −1 )t−1 + −1 t . (9.21)

On en déduit que
(*) Les distances entre les points xt et un point (quelconque) x∗ ∈ X ∗ n’augmentent pas
avec t. Et, en particulier, la trajectoire de la méthode est bornée.
De (*) il en suit immédiatement que {xt } converge vers un certain point x̄∗ ∈ X ∗ , comme
c’est affirmé dans (i). En effet, par le Théorème 9.1.1 la trajectoire, étant bornée, a tous ses
points limites dans l’ensemble X ∗∗ de points critiques de f , ou, ce qui est identique (f est
convexe !), dans l’ensemble X ∗ de minimiseurs globaux de f . Soit x̄∗ un de ces points limites,
et montrons qu’en fait {xt } converge vers x̄∗ . Pour cela notez que 0 est un point limite de la
suite non-croissante |xt − x̄∗ | ; par conséquent, la suite converge vers 0, de sorte que xt → x̄∗
quand t → ∞.
Il nous reste à verifier (9.16). En prenant la somme d’inégalités (9.21) entre t = 1 et
t = N , nous obtenons
! "
N γ̄ (2 − −1 )t−1 + −1 t ≤ d20 − d2N ≤ d20 ≡ |x0 − x∗ |2 .

Comme 0 ≥ 1 ≥ 2 ≥ ... (notre méthode est celle de descente – elle n’augmente jamais les
valeurs de l’objectif !), le côté gauche dans la dernière inégalité ne sera que plus petit si nous
remplaçons tout les t avec N ; ainsi, nous avons

2N γ̄N ≤ |x0 − x∗ |2 . (9.22)

Et en substituant l’expression pour γ̄,

ηLf |x0 − x∗ |2
N ≤ .
4(1 − )N

Comme cette dernière inégalité reste valide pour tout x∗ ∈ X ∗ , ceci implique (9.16).

Cas C1,1 fortement convexe. Dans la Proposition 9.1.2 nous traitons le cas de la fonction
f régulière et convexe, mais on n’a fait aucune hypothèse sur le conditionnement du minimum
– le minimiseur pourrait être non-unique, et le graphe de f pourrait être très “plat” autour de
X ∗ . Sous condition supplémentaire de convexité forte de f nous pouvons obtenir des résultats
de convergence bien meilleurs. Nous avons la deﬁnition suivante :

Déﬁnition 9.1.1 [Fonctions fortement convexes] Une fonction f : Rn → R s’appelle fortement

convexe avec les paramètres (lf , Lf ) de convexité forte, 0 < lf ≤ Lf ≤ ∞, si f est continûment
diﬀerentiable et satisfait les inégalités
lf Lf
f (x)+(y−x)T ∇f (x)+ |y−x|2 ≤ f (y) ≤ f (x)+(y−x)T ∇f (x)+ |y−x|2 , ∀x, y ∈ Rn . (9.23)
2 2
Dans l’optimisation “traditionnelle” les fonctions fortement convexes jouent le rôle des “bons”
objectifs, et c’est la famille sur laquelle l’analyse théorique de convergence des méthodes d’opti-
misation habituellement est fait. Il est important de savoir comment détecter la convexité forte
9.1. DESCENTE DE GRADIENT 181

et quelles sont les propriétés fondamentales des fonctions fortement convexes ; c’est la tache que
nous intéresse maintenant.
La condition suffisant la plus utile plus de la convexité forte est donné par la proposition
suivante :
Proposition 9.1.3 [Critère de la convexité forte pour des fonctions deux fois continûment
différentiables]
Soit f : Rn → R une fonction deux fois continûment différentiable, et soit (lf , Lf ), 0 < lf ≤
Lf < ∞, deux réels donnés. f est fortement convexe avec les paramètres lf , Lf si et seulement
si le spectre de la matrice d’Hessian de f en chaque point x ∈ Rn est contenu dans le segment
[lf , Lf ] :
lf ≤ λmin (∇2 f (x)) ≤ λmax (∇2 f (x)) ≤ Lf ∀x ∈ Rn , (9.24)
où λmin (A), λmax (A) est, respectivement, la plus petite et la plus grande valeur propre de la
matrice symétrique A and ∇2 f (x) est l’Hessian (la matrice de dérivées secondes) de f en x.

Exemple 9.1.1 La forme quadratique convexe

1 T
f (x) = x Ax − bT x + c,
2
A étant une matrice symétrique positive déﬁnie, est fortement convexe avec les paramètres lf =
λmin (A), Lf = λmax (A).

Voici les propriétés les plus importantes (pour nous) de fonctions fortement convexes :
Proposition 9.1.4 Soit f fortement convexe avec les paramètres (lf , Lf ). Alors
(i) Les ensembles de niveau {x | f (x) ≤ a} de f sont compactes pour tout réel a ;
(ii) f attaint son minimum global sur Rn , et son minimiseur x∗ est unique ;
(iii) ∇f (x) est Lipschitzien avec la constante de Lipschitz Lf .
Maintenant nous revenons à la Descente de Gradient. La proposition suivante indique que
pour un f fortement convexe la méthode converge linéairement :
Proposition 9.1.5 [Convergence linéaire de DAr appliqué à la fonction f fortement convexe]
Soit une fonction f fortement convexe, avec les paramètres (lf , Lf ). Pour minimiser f on utilise
la méthode DAr , initialisée en un certain point x0 , et soit le paramètre du test d’Armijo
≥ 1/2. Alors, pour tout entier N ≥ 1, nous avons
$
∗ ∗ Qf − (2 − −1 )(1 − )η −1
|xN − x | ≤ θ |x0 − x |,
N
θ= , (9.25)
Qf + (−1 − 1)η −1

où x∗ est le minimiseur (unique, selon la Proposition 9.1.4.(ii)) de f et

Lf
Qf = (9.26)
lf
est le conditionnement de f .
De plus,
f (xN ) − min f ≤ θ 2N Qf [f (x0 ) − min f ]. (9.27)
Ainsi, la méthode possède une vitesse globale linéaire de convergence avec le taux θ (notez que
θ ∈ (0, 1) grâce à ∈ [1/2, 1)).
182CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Preuve.
10 . Selon la Proposition 9.1.4, f est une fonction C1,1 convexe qui atteint son minimum, et le
gradient de f est Lipschitzien avec la constante Lf . En conséquence, toutes les conclusions
de la preuve de la Proposition 9.1.2 sont valides, en particulier, la relation (9.20) :

! " 2(1 − )
d2t ≡ |xt −x∗ |2 ≤ d2t−1 − γ̄ (2 − −1 )t−1 + −1 t , γ̄ = , s = f (xs )−min f. (9.28)
ηLf

En appliquant (9.23) au couple (x = x∗ , y = xs ), nous obtenons (car ∇f (x∗ ) = 0)

lf lf
s ≥ |xs − x∗ |2 = d2s ;
2 2
ainsi, grâce à (9.28),
γ̄lf ! "
d2t ≤ d2t−1 − (2 − −1 )d2t−1 + −1 d2t ,
2
ou, en substituant l’expression pour γ̄,

d2t ≤ θ2 d2t−1 , (9.29)

avec θ donné par (9.25), d’ou (9.25).

Il nous reste à prover (9.27). Pour cela il suﬃt de noter que, due à la première inégalité
dans (9.23), appliquée à x = x∗ , y = x0 , nous avons

2 2
|x0 − x∗ |2 ≤ [f (x0 ) − f (x∗ )] = [f (x0 ) − min f ], (9.30)
lf lf

tandis que la seconde inégalité dans (9.23), appliquée à x = x∗ , y = xN nous dit que

Lf
f (xN ) − min f ≡ f (xN ) − f (x∗ ) ≤ |xN − x∗ |2 .
2
En conséquence,
Lf
f (xN ) − min f ≤ |xN − x∗ |2 ≤
2
[cf. (9.25)]
Lf 2N
≤ θ |x0 − x∗ |2 ≤
2
[cf. (9.30)]
Lf 2N
≤ θ [f (x0 ) − min f ],
lf
comme requis dans (9.27).

Vitesse de convergence globale dans le cas C1,1 convexe : le résumé. Les résultats
donnés par Propositions 9.1.2 et 9.1.5 peuvent être récapitulés de façon suivante. Supposez que
nous résolvons
f (x) → min
avec l’objectif C1,1 convexe (c.-à-d., ∇f (x) est un champ de vecteur Lipschitzien), tel que l’en-
semble X ∗ de minimiseurs globaux de f est non vide. Supposez de plus que pour minimiser f
nous utilisons la méthode DAr avec le paramètre correctement choisi, à savoir, 1/2 ≤ < 1.
Alors
9.1. DESCENTE DE GRADIENT 183

– A. Dans le cas général, où on n’impose aucune convexité forte de f , la trajectoire {xt } de la
méthode converge vers certain x̄∗ ∈ X ∗ , et les résidus en termes d’objectif – les quantités
n = f (xN ) − min f – convergent vers zéro au moins comme O(1/N ). Autrement dit, nous
avons l’estimation
ηLf dist2 (x0 , X ∗ ) 1
N ≤ . (9.31)
4(1 − ) N
Notez que
– aucun résultat quantitatif sur la vitesse de convergence des distances |xn − x̄∗ | ne peut
être donnée ; tout ce que nous savons, c’est que ces quantités convergent vers 0, mais la
convergence peut être aussi lente qu’on veut. C.-à-d., étant donné une suite décroissant
arbitraire {dt }, qui converge vers 0, on peut exhiber une fonction C1,1 convexe f sur le
plan 2D tels que dist(x0 , x∗ ) = d0 et dist(xt , x∗ ) ≥ dt pour tout t ;
– l’estimation (9.31) donne un ordre correct de la vitesse convergence vers 0 des erreurs
en termes d’objectif : pour la fonction C1,1 convexe correctement choisie f sur le plan
2D, on a
α
N ≥ , N = 1, 2, ...
N
avec un certain α positif.
– B. Si f est fortement convexe avec les paramètres (lf , Lf ), alors la méthode converge
linéairement :
|xN − x∗ | ≤ θ N |x0 − x∗ |, f (xN ) − min f ≤ Qf θ 2N [f (x0 ) − min f ],
$
Qf − (2 − −1 )(1 − )η −1
θ= , (9.32)
Qf + (−1 − 1)η −1
Qf = Lf /lf étant le conditionnement de f .
Notez que le taux de convergence θ (ou θ 2 , selon la mesure de precision – la distance de l’iteration
xt à l’ensemble optimal ou le résidu f (xt ) − f ∗ en termes d’objectif – que nous employons) tend
vers 1 quand le conditionnement du problème tend vers l’infini (on dit, quand le problème devient
mal conditionné). Quand Qf est grand, nous avons,
θ ≈ 1 − pQ−1 −1
f , p = (1 − )η , (9.33)
de sorte que pour baisser la borne supérieure (9.32) sur |x· − x∗ | par un facteur constant, par
exemple, par le facteur 10 (un chiffre supplémentaire dans l’écriture décimale de x∗ ), il nous faut
O(Qf ) itérations de la méthode. En d’autres termes, (9.32) nous dit que
(**) le nombre d’itérations de la méthode ayant pour résultat le progrès dans la précision donné
à l’avance (c.-à-d., diminuer la distance initiale de l’ensemble optimal par un facteur donné, par
exemple, 106 ), est proportionnel au conditionnement Qf de l’objectif.
Évidemment, cette conclusion est obtenue à partir de la boirne supérieure de l’erreur ; il se
peut que nos bornes supérieures “sous-estiment” la precision “réelle” de la méthode. Il s’avère,
pourtant, que nos bornes sont assez justes, et notre conclusion est valide :
le nombre d’itérations de la Descente de Gradient requis pour réduire l’erreur
initiale (mesurée comme distance de l’ensemble optimal ou comme résidu en termes
d’objectif) par un facteur donné est, en général, proportionnel au conditionnement
de f .
Pour justifier cette affirmation, regardons ce qui se produit dans le cas de l’objectif quadra-
tique.
184CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Vitesse de convergence dans le cas quadratique

Nous considérons maintenant la Descente de Gradient appliquée au cas d’un objectif qua-
dratique fortement convexe
1
f (x) = xT Ax − bT x + c.
2
A étant une matrice symétrique positive déﬁnie. Comme nous le savons de l’exemple 9.1.1, f
est fortement convexe avec les paramètres lf = λmin (A), Lf = λmax (A) (les valeurs propres
minimale et maximale de A, respectivement).
Il est plus facile d’étudier la Plus Rapide Descente, plutôt que la descente d’Armijo (dans le
dernier cas que nos considérations souﬀriraient de l’incertitude dans le choix de longueurs des
pas).
Nous avons les relations suivantes :
– Le gradient de la fonction f est donné par la relation
g(x) ≡ ∇f (x) = Ax − b; (9.34)
en particulier, le minimiseur unique x∗ de f est donné par (la règle de Fermat)
Ax∗ = b. (9.35)
Notez aussi que, comme on le voit d’une ligne de calculs,
1
f (x) = E(x) + f (x∗ ), E(x) = (x − x∗ )T A(x − x∗ ); (9.36)
2
notez que E(·) n’est rien d’autre que l’erreur en termes d’objectif.
– La trajectoire de la Plus Rapide Descente est donnée par la récurrence
xt+1 = xt − γt+1 gt , gt ≡ g(xt ) ≡ ∇f (xt ) = Axt − b = A(xt − x∗ ), (9.37)
où γt+1 est le minimiseur de la fonction quadratique fortement convexe φ(γ) = f (xt − γgt )
de variable réelle γ. La solution de l’équation φ (γ) = 0 est
gtT gt
γt+1 = ; (9.38)
gtT Agt
ainsi, (9.37) devient
gtT gt
xt+1 = xt − gt . (9.39)
gtT Agt
– Les calculs explicites donnent 1)
% &
(gtT gt )2
E(xt+1 ) = 1− T E(xt ). (9.40)
[gt Agt ][gtT A−1 gt ]
1. Voici ces calculs : comme φ(γ) est une forme quadratique convexe et γt+1 est son minimiseur, nous avons
1 2
φ(0) = φ(γt+1 ) + γ φ ;
2 t+1
grâce à l’origine de φ, nous obtenons φ = gtT Agt , d’où
1 2
E(xt ) − E(xt+1 ) ≡ f (xt ) − f (xt+1 ) ≡ φ(0) − φ(γt+1 ) = γt+1 [gtT Agt ],
2
ou, due à (9.38),
(gtT gt )2
E(xt ) − E(xt+1 ) = .
2gtT Agt
9.1. DESCENTE DE GRADIENT 185

Maintenant nous pouvons obtenir le taux de convergence de la méthode en utilisant le lemme

Lemme 9.1.2 [Kantorovich] Soit A une matrice symétrique déﬁnie positive avec le condition-
nement (le rapport entre la plus grande et plus petite valeurs propres) Q. Alors pour n’importe
quel vecteur non nul x on a
(xT x)2 4Q
≥ .
[x Ax][xT A−1 x]
T (1 + Q)2
Preuve. De l’algèbre linéaire on sait qu’une matrice symétrique A n × n est équivalente
à une matrice diagonale S (c.-à-d., A = U SU T avec une matrice U orthogonale), des valeurs
propres λ1 ≤ λ2 ≤ ... ≤ λn de A étant les entrées diagonales de S. En notant y = U T x, nous
voyons que le côté gauche dans l’inégalité en question est

( i yi2 )2
. (9.41)
( i λi yi2 )( i λ−1 2
i yi )

Cette quantité demeure inchangée si tous les yi ’s sont multipliés par un facteur non nul
commun ; ainsi, sans perte de généralité nous pouvons supposer que i yi2 = 1. De plus, la
quantité en question ne change pas si tous les λi ’s sont multipliés par un facteur positif com-
mun ; ainsi, nous pouvons supposer que λ1 = 1, de façon que λn = Q soit le conditionnement
de la matrice
A. Et si on pose ai −1 = yi2 , nous devons montrer que
si u = a λ
i i i , v = a λ
i i i , où 0 ≤ a i , i ai = 1, and 1 ≤ λi ≤ Q, alors uv ≤
(1 + Q)2 /(4Q).
C’est facile : due à son origine, le point (u, v) sur le plan 2D est la combinaison convexe,
avec des coeﬃcients ai , des points Pi = (λi , λ−1 i ) appartenant à l’arc Γ sur le graphe de
la fonction η = 1/ξ. Cette arc correspond au segment [1, Q] des valeurs de ξ (ξ, η sont les
coordonnées sur le plan). En conséquence, (u, v) appartient à l’enveloppe convexe C de Γ.
Cette enveloppe convexe est voici :

1 Q

Arc Γ et son enveloppe convexe

Au même temps par (9.36), (9.37) on a

1 1 1
E(xt ) = (xt − x∗ )T A(xt − x∗ ) = [A−1 gt ]T A[A−1 gt ] = gtT A−1 gt .
2 2 2
En combinant ces résultats, on arrive à

E(xt ) − E(xt+1 ) (gtT g)2

= T ,
E(xt ) [gt Agt ][gtT A−1 gt ]
comme requis dans (9.40).
186CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

La plus grande, sur (u, v) ∈ C, valeur de produit uv correspond au cas quand (u, v)
appartient au segment [P1 , Pn ] limitant C d’en haut, de sorte que
1−a
uv ≤ max [(a + (1 − a)Q)(a + )];
0≤a≤1 Q

le maximum de l’expression sur le côté droit peut être calculé explicitement (il correspond à
a = 1/2), sa valeur est (Q + 1)2 /(4Q).
En combinant le Lemme 9.1.2 et (9.40), nous venons au résultat suivant :

Proposition 9.1.6 [Taux de convergence pour la Plus Rapide Descente appliquée à la forme
quadratique fortement convexe]
La méthode de la Plus Rapide Descente, utilisée pour minimiser une forme quadratique fortement
convexe f avec le conditionnement Q, converge linéairement avec le taux de convergence au pire
2
4Q Q−1
1− = , (9.42)
(Q + 1)2 Q+1

notamment, pour tout N on a

2N
Q−1
f (xN ) − min f ≤ [f (x0 ) − min f ]. (9.43)
Q+1

Notez que la proposition ci-dessus indique que le taux de convergence est au pire (Q − 1)2 (Q +
1)−2 ; le taux réel de convergence dépend du point initial x0 . Il se trouve que (9.43) donne
la description correcte du taux de convergence : pour “presque tous” les points de départ, le
processus converge en eﬀet avec le taux proche de la borne supérieure indiquée. Puisque le taux
de convergence donné par Proposition est 1 − O(1/Q) (cf. (9.33)), la conclusion quantitative
(**) de la sous-section précédente est en eﬀet valide, même dans le cas f quadratique fortement
convexe.

Vitesse de convergence locale de la Plus Rapide Descente. La relation (9.43) est une
estimation non-asymptotique d’eﬃcacité de la méthode de la Plus Rapide Descente dans le
cas quadratique. Dans le cas non-quadratique non-dégénéré la méthode admet une estimation
asymptotique d’eﬃcacité semblable. C.-à-d. qu’on peut montrer le résultat suivant :

Théorème 9.1.2 [Vitesse locale de convergence de la Plus Rapide Descente]

Supposons que la trajectoire {xt } de la Plus Rapide Descente pour f converge vers un point x∗
qui est un minimiseur local non-dégénéré de f , c.-à-d., est tel que f est deux fois continûment
diﬀérentiable dans un voisinage de x∗ et l’Hessian ∇2 f (x∗ ) de l’objectif est déﬁnie positif en x∗ .
Alors la trajectoire converge vers x∗ linéairement, et le taux de convergence de la suite f (xt )−
f (x∗ ) des résidus en termes d’objectif est au pire
2
Q−1
,
Q+1

Q étant le conditionnement de ∇2 f (x∗ ) :

2N
∗ Q−1
(∀ > 0 ∃C < ∞) : f (xN ) − f (x ) ≤ C + , N = 1, 2, ... (9.44)
Q+1
9.1. DESCENTE DE GRADIENT 187

9.1.5 Conclusions
Essayons de récapituler ce que nous avons appris sur la Descente de Gradient. Nous savons
que
– dans le cas général, sous les hypothèses assez faibles de régularité, PRD et DAr convergent
vers l’ensemble des points critiques de l’objectif (voir le Théorème 9.1.1), et il y a une
certaine vitesse garantie (sous-linéaire) de convergence globale en termes de quantités
|∇f (xN )|2 (voir la Proposition 9.1.1) ;
– dans le cas convexe C1,1 , DAr converge vers un minimiseur global de l’objectif (à condi-
tion que un tel minimiseur existe), et il y une certaine vitesse garantie (sous-linéaire) de
convergence globale en termes d’erreur f (xN ) − min f dans la valeur de l’objectif (voir la
Proposition 9.1.2) ;
– dans le cas fortement convexe, DAr converge vers le minimiseur unique de l’objectif, et les
distances au minimiseur et les erreurs en termes d’objectif admettent les bornes supérieures
globales, qui convergent linéairement vers zéro. Le taux de convergence correspondant est
donné par le conditionnement Q de l’objectif (voir la Proposition 9.1.5) et est du type
1 − O(1/Q), de sorte que le nombre d’iteration nécessaire pour diminuer l’erreur initiale
par un facteur donné soit proportionnel à Q (c’est une borne supérieure, mais généralement
elle reflète le comportement réel de la méthode) ;
– La méthode PRD converge linéairement (globalement, dans le cas quadratique, et asymp-
totiquement dans le cas non-quadratique) avec le taux de convergence 1 − O(1/Q), Q
étant le conditionnement de l’Hessian de l’objectif en minimiseur vers lequel la méthode
converge (dans le cas quadratique, naturellement, cet Hessian est simplement la matrice
de notre forme quadratique).
C’est ce que nous savons. Quelles devraient être des conclusions – est-ce une méthode bonne ou
mauvaise ? Comme c’est d’habitude le cas dans l’optimisation numérique, nous ne sommes pas
capable donner une réponse exacte : il y a trop de différents critères à prendre en compte. Nous
sommes pourtant capable d’énumérer des avantages et des inconvénients de la méthode. Une
telle liste nous fournit une sorte d’orientation : quand nous nous savons ce qui sont les points
forts et faibles d’une méthode d’optimisation, étant donnés une application particulière qui nous
intéresse, nous pouvons décider si “les points forts sont assez forts et les points faibles sont assez
faibles” dans le cas en question, ce qui doit nous permettre de choisir la solution mieux adaptée à
la situation. En ce qui concerne la Descente de Gradient, les points forts évidents de la méthode
sont
– une large famille des problèmes pour lesquels nous pouvons garantir la convergence globale
vers un point critique (normalement - à un minimiseur local) de l’objectif ;
– simplicité d’une itération de la méthode : nous avons besoin d’une évaluation simple de ∇f
et un nombre restreint d’évaluations de f (les évaluations de f sont exigées par la recherche
linéaire ; si on emploie DAr avec la recherche linéaire simplifiée, décrite dans la Section
8.2.4, ce nombre est en effet petit). Notez que chaque évaluation de f est accompagnée
par d’un petit nombre (normalement, O(n), n étant la dimension du vecteur de décision)
d’opérations arithmétiques.
Le point de faible le plus important de la méthode est sa vitesse relativement basse de conver-
gence : même dans le cas quadratique fortement convexe, la méthode converge linéairement. Ce
n’est pas si mauvais en soit ; ce qui est en effet très mauvais, est que le taux de convergence est
trop sensible au conditionnement Q de l’objectif. Comme nous le savons, le nombre d’iterations
de la méthode, pour un progrès donné sur la precision, est proportionnel à Q. Et c’est vraiment
188CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

trop mauvais, puisque dans les applications nous rencontrons souvent des problèmes mal condi-
tionnés, avec des conditionnements d’ordre des milliers et des millions ; et si c’est le cas, nous
ne pouvons attendre de rien de bon de la Descente de Gradient, au moins quand ces sont des
solutions de grande précision qui nous intéressent.
Il est utile de comprendre la géométrie qui conditionne le ralentissement de la Descente de
Gradient dans le cas de l’objectif mal conditionné. Considérons le cas de f quadratique fortement
convexe. Les surfaces de niveau
Sδ = {x | f (x) = min f + δ}
de f sont les ellipsoides homothétiques centrés en minimiseur x∗ de f ; les carrés des “demi-axes”
de ces ellipsoides sont inversement proportionnelles aux valeurs propres de A = ∇2 f . En effet,
comme nous savons de (9.36),
1
(x − x∗ )T A(x − x∗ ) + min f,
f (x) =
2
de sorte que en coordonnées orthogonales xi , associées à la base de vecteurs propres de A avec
l’origine placée en x∗ nous avons
1
f (x) = λi x2i + min f,
2 i
où λi sont les valeurs propres de A. En conséquence, l’équation de Sδ en coordonnées indiquées
est
λi x2i = 2δ.
i
Maintenant, si A est mal conditionnée, les ellipsoides Sδ deviennent un genre de “vallées” – ils
sont relativement étroits dans certaines directions (ceux liées aux plus petites demi-axes d’ellip-
soides) et relativement étendus dans d’autres directions (liées aux plus grandes demi-axes). Le
gradient – qui est orthogonal à la surface de niveau – sur la grande partie de cette surface regarde
“presque à travers la vallée”, et puisque la vallée est étroite, les pas de la méthode s’avèrent être
très courts. En conséquence, la trajectoire de la méthode est une sorte de mouvement en petits
zigzags avec une lente tendance globale vers le minimiseur.
On doit souligner que dans ce cas le problème lui-même n’est pas intrinsèquement mauvais ;
toutes les difficultés viennent du fait que nous relions l’objectif aux coordonnées initiales √ mal
choisies. Sous une transformation linéaire des coordonnées appropriée (passez de xi à yi = λi xi )
l’objectif devient parfaitement conditionné – il devient la somme de carrés des coordonnées,
de sorte que le conditionnement soit égale à 1, et la Descente de Gradient, lancée dans ces
nouvelles coordonnées, ira tout droit sur le minimiseur. Le problème, naturellement, est que la
Descente de Gradient est associé aux coordonnées Euclidiennes initiales, fixées une fois pour
toutes (puisque la notion fondamentale du gradient est une notion Euclidienne : les différentes
structures Euclidiennes ont comme conséquence différents vecteurs de gradient de la même
fonction au même point). Si ces coordonnées initiales sont mal choisies pour un objectif f donné
(de sorte que le conditionnement de f dans ces coordonnées soit grand), la Descente de Gradient
sera lente, bien que si nous étions assez intelligents pour exécuter d’abord une mis à échelle
approprié – une transformation non-orthogonale linéaire des coordonnées – et lancer ensuite la
Descente de Gradient dans ces nouvelles coordonnées, on aurait obtenu une convergence rapide.
Dans le prochain chapitre nous considérerons la célèbre Méthode de Newton qui, dans un sens,
n’est rien d’autre une Descente de Gradient, “mise à échelle localement” de façon optimale, avec
l’échelle qui varie de une iteration à l’autre.
9.2. METHODE DE NEWTON 189

9.2 Méthode de Newton

On continu l’étude de méthodes de minimisation sans contraintes pour le problème

f (x) → min | x ∈ Rn .

Ce qui est à notre ordre du jour est la célèbre Méthode de Newton basée sur le modèle quadra-
tique local de f . Pour pouvoir parler de ce modèle, nous supposons dorénavant que f est deux
fois continûment diﬀérentiable.

9.2.1 Version “de base” de la méthode de Newton

L’idée de la méthode est très simple, nous l’avons déjà employé cette idée dans le cas uni-
varié (Chapitre 8). Étant donné la valeur f (x), le gradient ∇f (x) et la matrice d’Hessian
∇2 f (x) de l’objectif en iteration courante x, nous rapprochons f dans le voisinage de x par
son développement de Taylor de second ordre :
1
f (y) ≈ f (x) + (y − x)T ∇f (x) + (y − x)T [∇2 f (x)](y − x)
2
et prenons en tant que prochaine iteration le minimiseur en y de la forme quadratique à droite.
Pour obtenir ce minimiseur, nous dérivons la forme en y et mettons le gradient à 0, ce qui nous
donne l’équation pour y :
[∇2 f (x)](y − x) = −∇f (x).
C’est un système linéaire par rapport à y ; en supposant que la matrice du système (l’Hessian
∇2 f (x)) est inversible, nous pouvons écrire la solution comme

y = x − [∇2 f (x)]−1 ∇f (x).

Dans la version “de base” de méthode de Newton, on applique cette simple itération :
Algorithme 9.2.1 [Méthode de Newton] Étant donné le point de départ x0 , faire

xt = xt−1 − [∇2 f (xt−1 )]−1 ∇f (xt−1 ). (9.45)

La méthode ci-dessus n’est pas nécessairement bien définie (par exemple, que faire quand l’Hes-
sian en xt−1 est singulier ?) Nous adresserons cette difficulté, ainsi que plusieurs autres problèmes
liés à la méthode, plus tard. Notre but en ce moment est d’établir le résultat fondamental sur
la méthode – sa convergence locale quadratique dans le cas non-dégénéré :
Théorème 9.2.1 [Convergence Locale Quadratique de la méthode de Newton dans le cas non-
dégénéré ]
Supposons que f est trois fois continûment différentiable dans un voisinage de x∗ ∈ Rn , et que
x∗ est un minimiseur local non-dégénéré de f , c.-à-d., ∇f (x∗ ) = 0 et la matrice ∇2 f (x∗ ) est
définie positive. Alors la méthode de Newton, étant lancée “assez près de x∗ ”, converge vers x∗
quadratiquement.
Preuve : Soit U un voisinage convexe de x∗ où les dérivés partiels du troisième ordre de f (c.-
à-d., les dérivés partiels du second degré des composants de ∇f ) sont bornées. Par conséquent,
dans ce voisinage,

| − ∇f (y) − ∇2 f (y)(x∗ − y)| ≡ |∇f (x∗ ) − ∇f (y) − ∇2 f (y)(x∗ − y)| ≤ β1 |y − x∗ |2 (9.46)

190CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

avec un certain β1 (nous avons utilisé la borne supérieure standard pour du reste du
développement de Taylor d’ordre 1 pour les composants de ∇f : si g(·) est une fonction scalaire
avec les dérivées secondes bornées dans U , alors

|g(x) − g(y) − ∇g(y)(x − y)| ≤ β|y − x|2

pour un certain β < ∞ 2) et tout x, y ∈ U ).

Puisque ∇2 f (x∗ ) est non singulière et ∇2 f (x) est continu en x = x∗ , il existe un (plus petit)
voisinage U ⊂ U de x∗ , qu’on supposera une boule centré en x∗ du rayon r > 0, tel que

y ∈ U ⇒ |[∇2 f (y)]−1 | ≤ β2 (9.47)

pour un certain constant beta2 . Ici et dans ce qui suit, on note |A| la norme d’opérateur de la
matrice A :
|A| = max |Ah|,
|h|≤1

les normes à droite étant les normes Euclidiennes sur les espaces vectoriels correspondants.
Supposez maintenant qu’un certain point xt de la trajectoire de la méthode de Newton pour
f soit assez proche de x∗ , c.-à-d. est tel que
1
xt ∈ U , U = {x | |x − x∗ | ≤ ρ ≡ min[ , r]}. (9.48)
2β1 β2
Nous avons
|xt+1 − x∗ | = |xt − x∗ − [∇2 f (xt )]−1 ∇f (xt )| =

= |[∇2 f (xt )]−1 ∇2 f (xt )(xt − x∗ ) − ∇f (xt ) | ≤ |[∇2 f (xt )]−1 || − ∇f (xt ) − ∇2 f (xt )(x∗ − xt )| ≤
[by (9.47) and (9.46)]
≤ β1 β2 |xt − x∗ |2 .
Ainsi, on arrive à

xt ∈ U ⇒ |xt+1 − x∗ | ≤ β1 β2 |xt − x∗ |2 [≤ (β1 β2 |xt − x∗ |)|xt − x∗ | ≤ 0.5|xt − x∗ |] . (9.49)

On observe que la nouvelle itération xt+1 est au moins deux fois plus proche de x∗ que xt et,
par conséquent, xt+1 ∈ U . Ainsi, une fois le voisinage U atteint (ceci se produit sûrement si
la trajectoire est commencée dans U ), la trajectoire ne quite jamais ce voisinage de x∗ , et

|xt+1 − x∗ | ≤ β1 β2 |xt − x∗ |2 ≤ 0.5|xt − x∗ |, t ≥ t̄,

de sorte que la trajectoire converge vers x∗ quadratiquement.

Le théorème ci-dessus établit la convergence rapide – quadratique – locale de la méthode
de Newton vers un minimizer local non-dégénéré de f , ce qui est très bien. En même temps,
nous nous rappelons du Chapitre 8 que même dans le cas univarié et pour l’objectif convexe
et régulier, la méthode de Newton peut diverger si le point initial n’est pas “assez” près du
minimiseur. On en conclue que nous ne pouvons pas compter sur cette méthode sous sa forme
présente dans des calculs réels – ainsi comment pourrions nous savoir que le point de départ
est “assez près” du minimiseur ? Nous voyons que certaines modiﬁcations sont nécessaires pour
rendre la méthode globalement convergeante.
2. notez que β est de l’ordre de l’amplitude des dérivées secondes de g dans U
9.3. EXERCICES 191

9.3 Exercices
Exercice 9.1 Montrez que dans la Plus Rapide Descente les directions des deux mouvements
successifs quelconques sont mutuellement orthogonales. Dérivez de ceci que dans le cas 2D toutes
les directions des pas paires sont colinéaires, et ceux des pas impaires sont également colinéaires.

Exercice 9.2 Écrivez le code mettant en oeuvre DAr (ou PRD , selon votre choix) et l’appliquez
aux problèmes suivants :
– Problème de Rosenbrock

f (x) = 100(x2 − x21 )2 + (1 − x1 )2 → min | x = (x1 , x2 ) ∈ R2 ,

avec le point initial x0 = (−1.2, 1).

Le problème de Rosenbrock est un exemple bien connu de test : son point critique unique
est x∗ = (1, 1) (le minimizer global de f ) ; les courbes de niveau de la fonction sont les
vallées en forme de banane, et la fonction est non convexe et plutôt mal conditionnée
– Probleme Quadratique de

fα (x) = x21 + αx22 → min | x = (x1 , x2 ) ∈ R2 .

Testez les valeur suivants de α :

10−1 ; 10−4 ; 10−6

et pour chaque valeur testez les points de départ

√
(1, 1); ( α, 1); (α, 1).

Combien de temps prend de diviser l’erreur initiale sur en termes de l’objectif par le facteur
de 10 ?
– Problème Quadratique
1
f (x) = xT Ax − bT x, x ∈ R4 ,
2
avec ⎛ ⎞ ⎛ ⎞
0.78 −0.02 −0.12 −0.14 0.76
⎜ −0.02 0.86 −0.04 0.06 ⎟ ⎜ ⎟
A=⎜ ⎟ , b = ⎜ 0.08 ⎟ , x0 = 0.
⎝ −0.12 −0.04 0.72 −0.08 ⎠ ⎝ 1.12 ⎠
−0.14 0.06 −0.08 0.74 0.68
Lancez la méthode jusque’à ce que la norme du gradient sur l’iteration courante soit ≤
10−6 . Est-ce que la convergence est rapide ?
Ceux qui emploient MATLAB ou SCILAB peuvent calculer le spectre de A et comparer la
borne supérieure théorique sur la vitesse de convergence avec la vitesse observée.
– Expérimentations avec la matrice de Hilbert. Soit H (n) la matrice n × n de Hilbert :
1
(H (n) )ij = , i, j = 1, ..., n.
i+j−1
1 n
C’est une matrice symétrique déﬁnie positive (car xT H (n) x = 0 ( i=1 xi t
i−1 )2 dt ≥ 0,
l’inégalité étant stricte pour x = 0).
Pour n = 2, 3, 4, 5 réaliser les expériences suivants :
192CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

– choisissez un vecteur non nul x∗ de dimension n, par exemple, x∗ = (1, ..., 1)T ;
– calculez b = H (n) x∗ ;
– appliquent votre code de Descente de Gradient à la fonction quadratique
1
f (x) = xT H (n) x − bT x,
2
avec le point initial x0 = 0. Notez que x∗ est le minimizer unique de f .
– Terminez la méthode quand vous obtenez |xn − x∗ | ≤ 10−4 , ne lui permettant pas, de
toute façon, de faire plus de 104 iterations.
Quels sont vos conclusions ?
Ceux qui emploient MATLAB ou SCILAB peuvent essayer de calculer le conditionnement de
matrices de Hilbert en question.
Si vous utilisez la méthode DAr , jouez avec les paramètres et η de la méthode pour obtenir la
meilleure convergence.

Vous aimerez peut-être aussi

Cours sur l'Optimisation Continue
Pas encore d'évaluation
Cours sur l'Optimisation Continue
130 pages
Poly Cours
Pas encore d'évaluation
Poly Cours
142 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
74 pages
Analyse Numérique et Optimisation
Pas encore d'évaluation
Analyse Numérique et Optimisation
150 pages
Optimisation EA1
Pas encore d'évaluation
Optimisation EA1
130 pages
Cours sur l'Optimisation sans Contrainte
Pas encore d'évaluation
Cours sur l'Optimisation sans Contrainte
55 pages
Optimisation et Programmation Dynamique
Pas encore d'évaluation
Optimisation et Programmation Dynamique
69 pages
Ponts Cours A4 NB
Pas encore d'évaluation
Ponts Cours A4 NB
139 pages
Optimisation 2018
Pas encore d'évaluation
Optimisation 2018
159 pages
Universite Montpellier 2 - Cours DOptimisation Numerique
Pas encore d'évaluation
Universite Montpellier 2 - Cours DOptimisation Numerique
71 pages
Méthodes mathématiques en finance
Pas encore d'évaluation
Méthodes mathématiques en finance
158 pages
Optimisation mathématique avancée
Pas encore d'évaluation
Optimisation mathématique avancée
100 pages
Prog Lin RO Licence 3
Pas encore d'évaluation
Prog Lin RO Licence 3
63 pages
Poly 2022
Pas encore d'évaluation
Poly 2022
69 pages
Introduction à l'optimisation mathématique
100% (1)
Introduction à l'optimisation mathématique
45 pages
Thème Optimisation Convexe: en Filière: Mathématiques Fondamentales
Pas encore d'évaluation
Thème Optimisation Convexe: en Filière: Mathématiques Fondamentales
30 pages
Calcul Variation
Pas encore d'évaluation
Calcul Variation
80 pages
Analyse Matricielle en Mathématiques
100% (1)
Analyse Matricielle en Mathématiques
291 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
75 pages
Cours d'Analyse Numérique - Aix Marseille
Pas encore d'évaluation
Cours d'Analyse Numérique - Aix Marseille
271 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Optimisation et Calcul Différentiel ECP
Pas encore d'évaluation
Optimisation et Calcul Différentiel ECP
104 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
39 pages
Analyse Numérique pour Étudiants L3
Pas encore d'évaluation
Analyse Numérique pour Étudiants L3
301 pages
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
100% (1)
Chapitres 1-2-3 Cours Optimisation Sans Contraintes
43 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
248 pages
End 1
Pas encore d'évaluation
End 1
56 pages
Cours d'Analyse Numérique L3
Pas encore d'évaluation
Cours d'Analyse Numérique L3
243 pages
Cours d'Analyse et Probabilités MP*
Pas encore d'évaluation
Cours d'Analyse et Probabilités MP*
39 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
70 pages
Introduction à la recherche opérationnelle
Pas encore d'évaluation
Introduction à la recherche opérationnelle
70 pages
Cours Optimisation Lafitte
Pas encore d'évaluation
Cours Optimisation Lafitte
129 pages
Problèmes d'Évolution et Théorie Spectrale
Pas encore d'évaluation
Problèmes d'Évolution et Théorie Spectrale
171 pages
Optimisation en apprentissage automatique
Pas encore d'évaluation
Optimisation en apprentissage automatique
64 pages
Polyao 101
Pas encore d'évaluation
Polyao 101
109 pages
Contrôle optimal des équations PDE
Pas encore d'évaluation
Contrôle optimal des équations PDE
82 pages
Opt Elem
Pas encore d'évaluation
Opt Elem
73 pages
Cours Optimisation
100% (1)
Cours Optimisation
43 pages
Optimisation L3 UFHB 15
Pas encore d'évaluation
Optimisation L3 UFHB 15
41 pages
Optimisation Non-Linéaire L3
Pas encore d'évaluation
Optimisation Non-Linéaire L3
53 pages
Optimisation Numérique L3 Paris-Dauphine
Pas encore d'évaluation
Optimisation Numérique L3 Paris-Dauphine
78 pages
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
Pas encore d'évaluation
Anamat Brele Mpouebe ENSP Université Marien Ngouabi
213 pages
Introduction à l'optimisation convexe
Pas encore d'évaluation
Introduction à l'optimisation convexe
44 pages
Calcul Différentiel et Optimisation
Pas encore d'évaluation
Calcul Différentiel et Optimisation
120 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
35 pages
Analyse des Fonctions Multivariables
Pas encore d'évaluation
Analyse des Fonctions Multivariables
121 pages
Programmation Non Linéaire
100% (1)
Programmation Non Linéaire
251 pages
Introduction à l'optimisation mathématique
Pas encore d'évaluation
Introduction à l'optimisation mathématique
45 pages
Support - cours-PM-Licence (1) Optimisation Casa
Pas encore d'évaluation
Support - cours-PM-Licence (1) Optimisation Casa
36 pages
Optimisation Mathématique: Avec Applications en Imagerie
Pas encore d'évaluation
Optimisation Mathématique: Avec Applications en Imagerie
399 pages
Cours Optim NL
Pas encore d'évaluation
Cours Optim NL
69 pages
Polycopi Cours Optimisation Version 2021
Pas encore d'évaluation
Polycopi Cours Optimisation Version 2021
171 pages
Introduction à l'optimisation convexe
Pas encore d'évaluation
Introduction à l'optimisation convexe
44 pages
Cours d'Analyse Numérique - Licence Maths
Pas encore d'évaluation
Cours d'Analyse Numérique - Licence Maths
249 pages
Modélisation et Simulation en Informatique
Pas encore d'évaluation
Modélisation et Simulation en Informatique
208 pages
Références en analyse et calcul scientifique
Pas encore d'évaluation
Références en analyse et calcul scientifique
1 page
Exercices de mathématiques en R²
Pas encore d'évaluation
Exercices de mathématiques en R²
4 pages
Alg 6
Pas encore d'évaluation
Alg 6
154 pages
1718 MA100B TD4 Matrices
Pas encore d'évaluation
1718 MA100B TD4 Matrices
7 pages
Modélisation des Robots de Type Série
Pas encore d'évaluation
Modélisation des Robots de Type Série
50 pages
Exo Math22 2014 A5
Pas encore d'évaluation
Exo Math22 2014 A5
24 pages
Corrigé Détaillé de La Fiche TD - 02
Pas encore d'évaluation
Corrigé Détaillé de La Fiche TD - 02
26 pages
Géométrie vectorielle avancée
Pas encore d'évaluation
Géométrie vectorielle avancée
7 pages
Mathématiques pour l'ingénieur : Matrices et Systèmes Linéaires
Pas encore d'évaluation
Mathématiques pour l'ingénieur : Matrices et Systèmes Linéaires
22 pages
TD Matrices - L2 Génie Civil 2023-2024
Pas encore d'évaluation
TD Matrices - L2 Génie Civil 2023-2024
1 page
Cours Dalgèbre SMC2
Pas encore d'évaluation
Cours Dalgèbre SMC2
33 pages
Introduction à l'analyse vectorielle
Pas encore d'évaluation
Introduction à l'analyse vectorielle
5 pages
TD SystèmeLineaire 2020 Correction
Pas encore d'évaluation
TD SystèmeLineaire 2020 Correction
4 pages
TD Maths Algebres PMM 2025
Pas encore d'évaluation
TD Maths Algebres PMM 2025
2 pages
CMA Calcul Matriciel2024-2025
Pas encore d'évaluation
CMA Calcul Matriciel2024-2025
33 pages
Dm24 Muntz Szasz Sujet
Pas encore d'évaluation
Dm24 Muntz Szasz Sujet
2 pages
Résolution des systèmes linéaires
Pas encore d'évaluation
Résolution des systèmes linéaires
7 pages
Valeurs Propres et Diagonalisation
Pas encore d'évaluation
Valeurs Propres et Diagonalisation
39 pages
TD 20
Pas encore d'évaluation
TD 20
3 pages
Calcul vectoriel dans l'espace : chapitre III
Pas encore d'évaluation
Calcul vectoriel dans l'espace : chapitre III
55 pages
Rappel Ev
Pas encore d'évaluation
Rappel Ev
26 pages
DISTRIBUTIONS Cours Spécial (1ère Partie)
Pas encore d'évaluation
DISTRIBUTIONS Cours Spécial (1ère Partie)
31 pages
Chapitre1 Cours MAPI2 24 25
Pas encore d'évaluation
Chapitre1 Cours MAPI2 24 25
29 pages
Correction Ds MMC 2022 Master
Pas encore d'évaluation
Correction Ds MMC 2022 Master
4 pages
CCP MP 1999 Énoncé
Pas encore d'évaluation
CCP MP 1999 Énoncé
5 pages
DS8 - 22cor - Camille Julian
Pas encore d'évaluation
DS8 - 22cor - Camille Julian
7 pages
TP - 04 - 2 Électromécanique
Pas encore d'évaluation
TP - 04 - 2 Électromécanique
2 pages
Pseudoinv
Pas encore d'évaluation
Pseudoinv
2 pages
Produit Scalaire dans l'Espace : Cours et Exercices
Pas encore d'évaluation
Produit Scalaire dans l'Espace : Cours et Exercices
16 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
4 pages
Exercices de calcul matriciel EIGSI
Pas encore d'évaluation
Exercices de calcul matriciel EIGSI
3 pages
Méthode de rigidité en éléments finis
Pas encore d'évaluation
Méthode de rigidité en éléments finis
17 pages
Algebre 2025
Pas encore d'évaluation
Algebre 2025
4 pages

Cours d'Optimisation et Analyse Convexe

Transféré par

Cours d'Optimisation et Analyse Convexe

Transféré par

1

Université Joseph Fourier

2 Ensembles convexes : Introduction 35

3 Théorème de séparation Théorie d’inégalités linéaires 55

3.2.1 Preuve de la partie ”nécessité” du Théorème sur l’Alternative . . . . . . . 68

4 Points Extrêmes. Structure d’Ensembles Polyhedraux 73

6 Programmation Convexe et Dualité de Lagrange 115

7 Conditions d’Optimalité 133

8 Méthodes d’Optimisation : Introduction 149

8.1.4 Solutions globales et locales . . . . . . . . . . . . . . . . . . . . . . . . . . 154

9 Méthode de Descente de Gradient et Méthode de Newton 171

où toutes fonctions impliquées dépendent de n variables réelles formant le vecteur de

1.1 Espace linéaire Rn

1.1.1 Rn : structure linéaire

x = (x1 , ..., xn ) → −x = (−1)x = (−x1 , ..., −xn )

– rassembler les termes similaires et simpliﬁer les termes opposés :

pour tous les réels λ, μ et tout vecteur x ;

pour tout réel λ et tous les vecteurs x, y.

1.1.2 Rn : Structure Euclidienne

où ≥ devient = si et seulement si x = 0.

(λx + μy)T (νz + ωw) = λxT (νz + ωw) + μy T (νz + ωw) =

= λνxT z + λωxT w + μνy T z + μωy T w,

Formes linéaires sur Rn

f (x + y) = f (x) + f (y); f (λx) = λf (x)

laquelle, grâce à la bilinéarité du produit scalaire, est une forme linéaire.

Alors, pour une forme linéaire f (·), calculons ses valeurs

– la norme Euclidienne d’un vecteur x :

– la métrique sur Rn – une distance entre une paire de points :

|xT y| ≤ |x||y| ∀x, y (1.2)

|x + y|2 = (x + y)T (x + y) [par déﬁnition]

Le point intéressant est, évidemment, de prouver l’inégalité de Cauchy. La preuve est

f (λ) = (λx − y)T (λx − y) = λ2 xT x − 2λxT y + y T y.

(xT y)2 ≤ (xT x)(y T y) [≡ (|x||y|)2 ].

L’inégalité devient égalité si et seulement si le discriminant est 0, c.-à-d., si et seulement si

notez que la convergence est en fait une notion de “coordonnée-par-coordonnée” : xi → x∗ ,

{xi ∈ F, i = 1, 2, ...} & {x∗ = lim xi } ⇒ x∗ ∈ F

xTi yi → xT y, i → ∞ & dist(xi , yi ) → dist(x, y), i → ∞.

Proposition 1.1.1 [Compacité des sous-ensembles bornés et fermés de Rn ] Un sous-ensemble

1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension

1.2.2 Sous-espaces linéaires

Somme des sous-espaces linéaires

compris de toutes sommes par paire – un terme de X et un autre de Y .

Exemple 1.2.1 On associe un sous-espace LI de Rn avec un sous-ensemble I d’indices 1, ..., n

1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension

des vecteurs x1 , ..., xk sont uniquement déﬁnis par la valeur x de la combinaison.

Une conséquence directe de Proposition 1.2.3 set le théorème suivant :

Théorème 1.2.1 [Bases] Soit L un sous-espace linéaire non trivial dans Rn .

et obtenir une représentation de y comme combinaison linéaire de xi ’s, ce qu’on a supposé

en eﬀet, vous pouvez prendre comme X un ensemble linéairement indépendant maximal

Dimension de Rn et de ses sous-espaces

L = Lin(x1 , ..., xdim L ) = L .

dim L + dim M = dim (L ∩ M ) + dim (L + M ). (1.6)

Coordonnées dans une base

Ainsi, chaque sous-espace linéaire L de Rn de la dimension positive k est, dans un sens, Rk :

1.3 Ensembles aﬃnes

1.3.1 Ensembles aﬃnes et Enveloppes aﬃnes

Intersections d’ensembles aﬃnes

et, comme ∩α Lα est un sous-espace linéaire, M est un ensemble aﬃne.

Combinaisons et enveloppes aﬃnes

Proposition 1.3.2 [Structure d’enveloppe aﬃne]

Aﬀ(Y ) = {l’ensemble de toutes les combinaisons des vecteurs de Y }.

1.3.2 Générateurs aﬃnes, Ensembles independents aﬃnement, Dimension af-

engendre le sous-espace L : L = Lin(X).

Ensemble aﬃnement independent

Bases aﬃnes et dimension aﬃne

Théorème 1.3.1 [Bases aﬃnes] Soit M = a + L un ensemble aﬃne dans Rn .

1.4 Description duale des sous-espaces linéaires et d’ensembles

Une consequence utile de ces faits est

dim (L + L⊥ ) = dim L + dim L⊥ − dim (L ∩ L⊥ ) = n − dim {0} = n;

et on sait déjà que le seul sous-espace de Rn de dimension n est Rn lui-même.

1.4.1 Ensembles aﬃnes et systèmes d’équations linéaires

Proposition 1.4.2 [Description “externe” d’un sous-espace linéaire]

a11 x1 + ... + a1n xn = 0

aTi x = bi ≡ aTi a, i = 1, ..., m.

Vice versa, l’ensemble de solutions du système soluble d’equation linéaires

Proposition 1.4.3 [Description “externe” d’ensemble aﬃne]

x = (x1 , ..., xn ) → −x = (−1)x = (−x1 , ..., −xn )

ainsi que toute autre boule- ·

En eﬀet, soit V = {x | x − a ≤ r} et x, y ∈ V . Nous avons a veriﬁer que si λ ∈ [0, 1],

z−a = [λx + (1 − λ)y] − a

Il sera bien utile de dessiner les boules unité de normes · 1 et · ∞ dans R2 .

M = {y ∈ Rn | dist· (y, M ) ≡ inf y − x ≤ }

En eﬀet, si u ∈ t B et v ∈ t B, c.-à-d. u ≤ t et v ≤ t , alors, par l’inégalité de triangle,

(∀i ≤ N + 1) : T i = S1 ∩ S2 ∩ ... ∩ Si−1 ∩ Si+1 ∩ ... ∩ SN +1 = ∅.