0% ont trouvé ce document utile (0 vote)
39 vues192 pages

Cours d'Optimisation et Analyse Convexe

Transféré par

tiyamba816
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues192 pages

Cours d'Optimisation et Analyse Convexe

Transféré par

tiyamba816
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

Université Joseph Fourier


Magistère de Mathématique, 1ère année

OPTIMISATION
Analyse convexe
Théorie de programmation non-linéaire

Notes de cours
Anatoli Iouditski

http://www-lmc.imag.fr/lmc-sms/Anatoli.Iouditski/teaching/magistere.htm
2

Certaines énoncées du cours (théorèmes, propositions, lemmes, exemples (si ces derniers
∗ +
contiennent des conjectures) sont marquées par des indices où . Les énoncés qui ne sont
pas marquées sont obligatoires : vous devez connaitre le résultat et la preuve. Les énoncés

marquées par sont semi-obligatoires : vous étés supposés connaitre le résultat sans la preuve
(normalement, cette dernière accompagne le résultat), mais il est préférable, bien entendu, de
+
lire également la preuve. Les preuves des conjectures marqués par ne sont pas données dans le
texte ; vous étés supposés d’être capable de les démontrer, et ces résultats font partie d’exercices.
Le sillabus du cours est le suivant :
Objectifs : Introduction à la Théorie de Programmation Non-linéaire et Algorithmes d’Optimisation
Continue.
Durée : 14 semaines, 2 heures par semaine.
Prérequis : : Algèbre Linéaire élémentaire (vecteurs, matrices, espaces Euclidiens) ; connaissances
de base en Analyse (gradients et Hessians de fonctions multi-variées) ; habilité d’écrire un simple code en
Matlab ou Scilab.
Contenu :
1ère Partie. Éléments d’Analyse Convexe et Conditions d’Optimalité
10 semaines
1-2. Ensembles affines et convexes (définitions, propriétés de base, théorèmes de Caratheodory-Radon-
Helley)
3-4. Théorème de séparation des ensembles convexes (Lemme de Farkas, Séparation, Théorème sur
l’alternative, Points extrémaux, Théorème de Krein-Milman dans Rn , structure des ensembles polyhe-
draux, théorie de Programmation Linéaire)
5. Fonctions convexes (définition, caractérisations différentielle, operations que préservent la convexité)
6. Les programmes de Programmation Mathématique et dualité de Lagrange en Programmation
Convexe (Théorème de Dualité en Programmation Convexe avec l’applications à la Programmation Qua-
dratique avec des contraintes linéaires)
7. Conditions d’optimalité en optimisation sans contraintes et avec des contraintes (Règle de Fermat ;
Conditions de Karush-Kuhn-Tucker dans le cas régulier ; conditions d’optimalité nécessaires/suffisantes
de second ordre pour le cas sans contraintes)
2nde Partie. Algorithmes de Programmation Nonlinéaire
4 semaines
8. Minimisation sans contraintes univariée (Méthode de Bi-section, Recherche linéaire)
9. Minimisation sans contraintes multi-variée (Méthode de Descente en Gradient, et Méthode de
Newton).
Table des matières

1 Introduction 7
1.1 Espace linéaire Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Rn : structure linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2 Rn : Structure Euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension . . . . . . . . . . . . 14
1.2.1 Combinaisons linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Sous-espaces linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension . . . . . . 17
1.3 Ensembles affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.1 Ensembles affines et Enveloppes affines . . . . . . . . . . . . . . . . . . . 22
1.3.2 Générateurs affines, Ensembles independents affinement, Dimension affine 25
1.4 Description duale des sous-espaces linéaires et d’ensembles affines . . . . . . . . . 28
1.4.1 Ensembles affines et systèmes d’équations linéaires . . . . . . . . . . . . . 29
1.4.2 Structure des simples ensembles affines . . . . . . . . . . . . . . . . . . . . 31
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Ensembles convexes : Introduction 35


2.1 Definition, Exemples, Description interne, Propriétés algébriques . . . . . . . . . 35
2.1.1 Ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.2 Examples d’ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.3 Description interne d’ensembles convexes : Combinaisons convexes et en-
veloppes convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.1.4 Plus d’exemples d’ensembles convexes : le polytope et le cône . . . . . . . 40
2.1.5 Propriétés algébriques d’ensembles convexes . . . . . . . . . . . . . . . . . 42
2.1.6 Propriétés topologiques d’ensembles convexes . . . . . . . . . . . . . . . . 42
2.2 Théorèmes classiques sur ensembles convexes . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Théorème de Caratheodory . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.2 Théorème de Radon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2.3 Théorème de Helley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Théorème de séparation Théorie d’inégalités linéaires 55


3.1 Théorème de séparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1.1 Nécessité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1.2 Suffisance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1.3 Séparation forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 Théorie de systèmes finis d’inégalités linéaires . . . . . . . . . . . . . . . . . . . . 64

3
4 TABLE DES MATIERES

3.2.1 Preuve de la partie ”nécessité” du Théorème sur l’Alternative . . . . . . . 68


3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4 Points Extrêmes. Structure d’Ensembles Polyhedraux 73


4.1 Description externe d’un ensemble convexe fermé. Plans de support . . . . . . . . 73
4.2 Représentation minimale d’ensembles convexes : points extrêmes . . . . . . . . . 75
4.3 Structure d’ensembles polyhedraux . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3.1 Théorie de Programmation Linéaire . . . . . . . . . . . . . . . . . . . . . 80
4.4 Structure d’ensembles polyhedraux : preuves . . . . . . . . . . . . . . . . . . . . 85
4.4.1 Points extremes d’un ensemble polyhedral . . . . . . . . . . . . . . . . . . 85
4.4.2 Structure d’un polyhedre borné . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.3 Structure d’un ensemble polyhedral général : fin de la preuve . . . . . . . 89
4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5 Fonctions Convexes 95
5.1 Fonctions convexes : premier abord . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.1 Définitions et Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.2 Propriétés élémentaires de fonctions convexes . . . . . . . . . . . . . . . . 97
5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ? . . 98
5.2 Comment détecter la convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.1 Opérations préservant la convexité des fonctions . . . . . . . . . . . . . . 99
5.2.2 Critère différentiel de convexité . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3 Inégalité du Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4 Bornitude et la propriété de Lipschitz des fonctions convexes . . . . . . . . . . . 105
5.5 Maximum et minimum de fonctions convexes . . . . . . . . . . . . . . . . . . . . 108
5.6 Exrecices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6 Programmation Convexe et Dualité de Lagrange 115


6.1 Programme de Programmation Mathématique . . . . . . . . . . . . . . . . . . . . 115
6.2 Convex Programming program and Duality Theorem . . . . . . . . . . . . . . . . 116
6.2.1 Théorème sur l’Alternative Convexe . . . . . . . . . . . . . . . . . . . . . 116
6.2.2 Fonction de Lagrange et dualité de Lagrange . . . . . . . . . . . . . . . . 120
6.2.3 Conditions d’Optimalité en Programmation Convexe . . . . . . . . . . . . 122
6.3 Dualité pour la Programmation Lineaire et Quadratique convexe . . . . . . . . . 126
6.3.1 La dualité en Programmation Linéaire . . . . . . . . . . . . . . . . . . . . 126
6.3.2 La dualité en Programmation Quadratic . . . . . . . . . . . . . . . . . . . 127
6.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

7 Conditions d’Optimalité 133


7.1 Conditions d’Optimalité du Premier Ordre . . . . . . . . . . . . . . . . . . . . . . 135
7.2 En guise de conclusion... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

8 Méthodes d’Optimisation : Introduction 149


8.1 Préliminaires sur les Méthodes d’Optimisation . . . . . . . . . . . . . . . . . . . 150
8.1.1 Classification des Problèmes et des Méthodes d’Optimisation Non-Linéaire 150
8.1.2 Nature itérative des Méthodes d’Optimisation . . . . . . . . . . . . . . . . 150
8.1.3 Convergence des Méthodes d’Optimisation . . . . . . . . . . . . . . . . . . 151
TABLE DES MATIERES 5

8.1.4 Solutions globales et locales . . . . . . . . . . . . . . . . . . . . . . . . . . 154


8.2 Recherche Linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1 Recherche linéaire d’ordre zéro . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.2 Dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.2.3 Approximation de courbes . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.2.4 Recherche Linéaire Inexacte . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

9 Méthode de Descente de Gradient et Méthode de Newton 171


9.1 Descente de Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.1 L’idée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.2 Implementations Standards . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.1.3 Convergence de la Descente de Gradient . . . . . . . . . . . . . . . . . . . 173
9.1.4 Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.1.5 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.2 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.2.1 Version “de base” de la méthode de Newton . . . . . . . . . . . . . . . . 189
9.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6 TABLE DES MATIERES
Chapitre 1

Introduction

Ce cours traite les concepts de base liés à la théorie et aux algorithmes d’optimisation
pour résoudre des problèmes extrémaux avec un nombre fini de variables – ce qui s’appelle
Programmation Mathématique. Nos objectifs sont
– (A) comprendre quand un point x∗ est une solution du problème de Programmation Non-
linéaire
f (x) → min | gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k,

où toutes fonctions impliquées dépendent de n variables réelles formant le vecteur de


décision x ;
– (B) apprendre des algorithmes numériques capables pour rapprocher la solution.
(A) est le sujet de la premiere partie purement théorique du cours dans laquelle on vise à
développer des conditions nécessaires/suffisantes d’optimalité. Ces conditions sont très impor-
tantes par les deux raisons suivantes :
– d’abord, dans certains cas les conditions nécessaires/suffisantes pour l’optimalité per-
mettent d’obtenir une solution en ”forme analytique” ; si tel est le cas, nous obtenons
beaucoup d’information importante – nous avons dans notre disposition non seulement
la solution elle-même, mais également la possibilité pour analyser comment la solution
dépend des données. Dans des situations réelles, cette compréhension est souvent plus
précieuse que que la solution elle-même ;
– en second lieu, les conditions d’optimalité sont à la base de la majorité d’algorithmes
numériques pour trouver les solutions approximatives dans les situations quand une so-
lution en “forme analytique” est indisponible (et elle n’est “presque jamais” disponible).
Dans ces algorithmes, nous vérifions à chaque étape les conditions d’optimalité pour l’ite-
ration courante ; naturellement, elles sont violés, mais il s’avère que les résultats de notre
vérification permettent d’obtenir une nouvelle itération qui est, dans un sens, meilleure
que la précédente. Ainsi, les conditions d’optimalité forment une base pour la deuxième
partie du cours consacré aux algorithmes numériques.
En fait, la première partie (“théorique”) du cours – éléments d’analyse convexe – est bien plus
ambitieuse qu’elle soit déclarée dans (A) : nous étudierons beaucoup de choses qui n’ont aucune
relation directe aux conditions d’optimalité et aux algorithmes d’optimisation. D’autre part,
nous obtiendrons un certain nombre d’occasions d’appliquer dans notre – contexte simple “en
dimension finie” quelques résultats de l’analyse fonctionnelle et de la théorie d’opérateurs.

7
8 CHAPITRE 1. INTRODUCTION

1.1 Espace linéaire Rn


Nous sommes intéressés à résoudre des problèmes extrémaux avec un nombre fini de variables
de design ; en résolvant un problème, nous devrions choisir “quelque chose de optimal” d’un
espace des vecteurs. Ainsi, l’univers où tous les événements ont lieu est un espace vectoriel,
ou, plus précisément, un espace vectoriel n-dimensionnel Rn . Vous êtes censé savoir ce qu’est
l’espace depuis les cours d’algèbre ; néanmoins, essayons de rafraichir nos connaissances.

1.1.1 Rn : structure linéaire


Soit n un entier positif. Considérez l’ensemble qui consiste de tous vecteurs n-dimensionnels
– les ensembles ordonnés x = (x1 , ..., xn ) de n réels (n-uplets) ; nous équipons cet ensemble des
opérations suivantes :
– l’addition, qui met en correspondance à une paire de vecteurs n-dimensionnels x =
(x1 , ..., xn ), y = (y1 , ..., yn ) un nouveau vecteur du même type – leur somme

x + y = (x1 + y1 ..., xn + yn ),

et
– la multiplication par des réels, qui met en correspondance à un λ réel et à un vecteur
x = (x1 , ..., xn ) n-dimensionnel un nouveau vecteur n-dimensionnel – le produit de λ et de
x, défini en tant que
λx = (λx1 ..., λxn ).
La structure que nous obtenons – l’ensemble de tous les vecteurs n-dimensionnels avec les deux
opérations qu’on vient de définir – s’appelle l’espace vectoriel réel Rn n-dimensionnel.

Remarque 1.1.1 pour ménager de l’espace, nous notons habituellement un vecteur en arran-
geant ses entrées dans la ligne : x = (x1 , > ..., xn ). On devra se rappeler, cependant, ⎛ que les

x1
conventions d’Algèbre Linéaire exigent des entrées d’être arrangées en colonne : x = ⎝ .... ⎠.
xn
C’est la seule manière d’être compatible avec les définitions de multiplication de vecteur par une
matrice et d’autres operations d’Algèbre Linéaire.
Essayez SVP de ne pas oublier cette petite contradiction !

Tant que l’addition et la multiplication par des réels sont concernés, “l’arithmétique de la struc-
ture que nous obtenons est absolument semblable à celle des réels. Par exemple (ci-dessous
emploie des lettres latines pour noter les vecteurs n-dimensionnels, et des lettres grecs pour
noter des réels) :
– le vecteur nul 0 = (0, ..., 0) joue le rôle du zero réel :

x+0 =0+x =x

for all x ;
– the à l’opposé −α du réel α (α + (−α) = 0) correspond la négation vectorielle

x = (x1 , ..., xn ) → −x = (−1)x = (−x1 , ..., −xn )

(x + (−x) = 0) ;
1.1. ESPACE LINEAIRE RN 9

– nous pouvons utiliser les règles standards de manipulation avec des expressions du type

λx + μy + νz + ...

– changer l’ordre :
λx + μy + νz = νz + μy + λx,
– ouvrir les parenthèses :

(λ − μ)(x − y) = λx − λy − μx + μy,

– rassembler les termes similaires et simplifier les termes opposés :

3x + 7y + z − 8x + 3y − z = −5x + 10y,

etc.
Tous ces résultats sont des conséquences immédiates du fait que les règles correspondantes
agissent sur des réels et que notre arithmétique vectoriel est “élément-par-élément” – pour ajou-
ter des vecteurs et pour les multiplier par des réels signifie d’effectuer les opérations semblables
avec leurs entrées. La seule chose que nous “ne savons pas” faire pour le moment est de multiplier
des vecteurs par des vecteurs.
Un étudiant curieux pourrait demander ce qui est la vraie signification des mots
“arithmétique des vecteurs est complètement semblable à l’arithmétique des réels”. La
réponse est suivante : la définition des opérations que nous l’avons présentée implique
immédiatement que les axiomes suivants sont satisfaits :
– Axiomes d’addition :
– associativité : x + (y + z) = (x + y) + z ∀x, y, z ;
– commutativité : x + y = y + x ∀x, y ;
– existence de zéro : il existe un vecteur zéro, noté 0, tel que x + 0 = x ∀x ;
– existence de négation : pour chaque vecteur x, il existe un vecteur, noté −x, tel que
x + (−x) = 0.
– Axiomes de multiplication :
– unitarité : 1 · x = x pour tout x ∈ E ;
– associativité :
λ · (μ · x) = (λμ) · x
pour tous les réels λ, μ et tous les vectors x ;
– Axiomes d’addition-multiplication :
– distributivité par rapport aux réels :

(λ + μ) · x = (λ · x) + (μ · x)

pour tous les réels λ, μ et tout vecteur x ;


– distributivité par rapport aux vecteurs :

λ · (x + y) = (λ · x) + (λ · y)

pour tout réel λ et tous les vecteurs x, y.


Tous ces axiomes, naturellement, ont lieu également pour l’addition et la multiplication
habituelles des réels. Il en découle que toutes les règles de l’arithmétique réelle habituelle qui
sont des conséquences des axiomes indiqués seulement et n’emploient aucune autre propriété
des réels – et ce sont fondamentalement toutes les règles “d’arithmétique élémentaire d’école”,
à l’exception de celles qui traitent la division – sont vérifiées automatiquement pour des
vecteurs.
10 CHAPITRE 1. INTRODUCTION

1.1.2 Rn : Structure Euclidienne


La vie dans notre univers Rn serait plutôt lassante s’il n’y avait aucune autre structure dans
l’espace que la structure linéaire, donnée par l’addition et la multiplication par des réels. Heu-
reusement, nous pouvons équiper Rn par la structure Euclidienne donné par le produit scalaire
(ou intérieur) standard. Le produit scalaire est l’opération qui met dans la correspondance à une
paire x, y de vecteurs n-dimensionnels le réel

n
xT y = xi y i .
i=1

Le produit intérieur possède les propriétés fondamentales suivantes qui découlent directement
de la définition :
– bilinéarité, i.e., la linéarité partielle par rapport aux premier et second arguments :

(λx + μy)T z = λ(xT z) + μ(y T z), xT (λy + μz) = λ(xT y) + μ(xT z);

– symétrie :
xT y = y T x;
– positivité :

n
xT x = x2i ≥ 0,
i=1

où ≥ devient = si et seulement si x = 0.


Notez que cette linéarité du produit scalaire en ce qui concerne le premier et du deuxième
argument permet d’ouvrir des parenthèses dans les produits scalaires des expressions complexes :

(λx + μy)T (νz + ωw) = λxT (νz + ωw) + μy T (νz + ωw) =

= λνxT z + λωxT w + μνy T z + μωy T w,


ou, en forme générale,

p 
q 
p 
q
T
( λi xi ) μj y j ) = λi μj xTi yj .
i=1 j=1 i=1 j=1

Notez que dans la dernière relation xi et yj sont les vecteurs n-dimensionnels et pas, comme
avant, les éléments d’un vecteur.
La structure Euclidienne engendre certains concepts importants.

Formes linéaires sur Rn


Tout d’abord, la structure Euclidienne permet d’identifier des formes linéaires sur Rn avec
des vecteurs. Ceci signifie la chose suivante :
une forme linéaire sur Rn est une fonction à valeurs réelles f (x) telle que

f (x + y) = f (x) + f (y); f (λx) = λf (x)

pour tous les vecteurs x, y et tout réel λ. Étant donné un vecteur f ∈ Rn , nous pouvons lui
associer la fonction
f (x) = f T x
1.1. ESPACE LINEAIRE RN 11

laquelle, grâce à la bilinéarité du produit scalaire, est une forme linéaire.


Ce qui est bien plus intéressant, vice versa, chaque forme linéaire f (x) sur Rn peut être
obtenue de cette façon à partir d’un certain (uniquement défini par la forme) vecteur f . Pour le
voir, supposons que ei , i = 1, ..., n, les vecteurs standards de base de Rn ; tous les entrées de ei
son nuls, excepté le i-ème, qui est 1. Évidemment, pour tout vecteur x = (x1 , ..., xn ) :

x = x1 e1 + ... + xn en . (1.1)

Alors, pour une forme linéaire f (·), calculons ses valeurs

fi = f (ei ), i = 1, ..., n,

sur les vecteurs de base et regardons le vecteur f = (f1 , ..., fn ). Je prétends que ça soit exactement
le vecteur qui “engendre” la forme f (·) :

f (x) = f T x ∀x.

En effet,
n
f (x) = f( x e ) [regardez (1.1)]
n i=1 i i
= x i f (ei ) [dû à la linéarité de f (·)]
i=1
n
= i=1 xi fi [l’origine de fi ]
= T
f x [la definition du produit scalaire]
Ainsi, chaque forme linéaire f (·) est en effet le produit scalaire avec un vecteur fixe. Le fait que
ce vecteur est uniquement défini par la forme est immédiat : si f (x) = f T x = (f  )T x pour tous x
alors (f − f  )t x = 0 pour tous x ; en substituant x = f − f  , nous obtenons (f − f  )t (f − f  ) = 0,
qui, dû à la positivité du produit scalaire, implique f = f  .
Ainsi, le produit scalaire permet d’identifier les formes linéaires sur Rn avec des vecteurs de
l’espace : prenant le produit scalaire d’un vecteur variable avec un vecteur fixe, nous obtenons une
forme linéaire, et chaque forme linéaire peut être obtenue de cette façon d’un vecteur uniquement
défini.
pour ceux qui se rappellent “encore” ce qui est un espace linéaire abstrait j’ajouterait le
suivant. Des formes linéaires sur un espace vectoriel E peuvent être naturellement arrangées
en un espace vectoriel : ajouter deux formes linéaires et multiplier ces formes par des réels
signifie, respectivement, les ajouter et les multiplier par des réels, comme fonctions sur E ; le
résultat encore sera une forme linéaire sur E. Ainsi, chaque espace linéaire E a une “contre-
parties” – l’espace linéaire E ∗ qui consiste en des formes linéaires sur E et appelé l’espace
conjugué E. Les considérations ci-dessus indiquent que le produit scalaire sur Rn permet
d’identifier l’espace Rn avec son conjugué. Proprement parlant, notre identification est iden-
tification des ensembles, pas celui des espaces linéaires. Cependant, on voit immédiatement
qu’en fait l’identification en question préserve des opérations linéaires (l’addition et la mul-
tiplication des formes par des réels correspondent aux mêmes opérations avec les vecteurs
représentant les formes) et est un isomorphisme des espaces linéaires.

La métrique Euclidienne
Des notions très importantes qui arrivent avec la structure Euclidienne sont ceux de
métrique :
12 CHAPITRE 1. INTRODUCTION

– la norme Euclidienne d’un vecteur x :



√ 
n
|x| = xT x = x2i ;
i=1

– la métrique sur Rn – une distance entre une paire de points :




n
dist(x, y) ≡ |x − y| = (xi − yi )2 .
i=1

La norme Euclidienne possède les trois propriétés suivantes (qui sont par ailleurs des propriétés
caractéristiques de la notion générale d’une “norme sur un espace linéaire”) :
– positivité :
|x| ≥ 0,
où ≥ est = ssi x = 0 ;
– homogénéité :
|λx| = |λ||x|;
– inégalité de triangle :
|x + y| ≤ |x| + |y|.
Les deux premières propriétés découlent immédiatement de la définition ; l’inégalité de triangle
demande une preuve moins triviale, et cette preuve est très instructive : son résultat “collatéral”
est l’inégalité fondamentale de Cauchy

|xT y| ≤ |x||y| ∀x, y (1.2)

– “la valeur absolue du produit scalaire de deux vecteurs est moins ou égale que le produit des
normes des vecteurs”, avec l’inégalité étant égalité si et seulement si x et y sont colinéaires,
c.-à-d., si x = λy ou y = λx avec un réel λ convenablement choisi.
Étant donné l’inégalité de Cauchy, nous pouvons immédiatement démontrer l’inégalité
de triangle :

|x + y|2 = (x + y)T (x + y) [par définition]


= xT x + y T y + 2xT y [en ouvrant les parenthèses]
= |x|2 + |y|2 + 2xT y [par définition]
≤ |x|2 + |y|2 + 2|x||y| [par l’inégalité de Cauchy]
= (|x| + |y|)2 [comme nous nous rappelons de l’écolel].

Le point intéressant est, évidemment, de prouver l’inégalité de Cauchy. La preuve est


extrêmement élégante : étant donné deux vecteurs x, y, considérons la fonction

f (λ) = (λx − y)T (λx − y) = λ2 xT x − 2λxT y + y T y.

On ignore le cas trivial quand x = 0 (dans ce cas-ci l’inégalité de Cauchy est évidente), de
sorte que f soit une forme quadratique de λ avec le principal coefficient positif xT x. En
raison de la positivité du produit scalaire, cette forme est non négative sur l’axe entier, de
sorte que son discriminant
(2xT y)2 − 4(xT x)(y T y)
est non positive, et on arrive à l’inégalité désirée :

(xT y)2 ≤ (xT x)(y T y) [≡ (|x||y|)2 ].


1.1. ESPACE LINEAIRE RN 13

L’inégalité devient égalité si et seulement si le discriminant est 0, c.-à-d., si et seulement si


f possède une racine réelle λ∗ (de multiplicité 2) ; mais encore dû à la positivité du produit
intérieur, f (λ∗ ) = 0 signifie exactement ce que λ ∗ x − y = 0, c.-à-d., exactement que x et y
sont colinéaires.
Des propriétés indiquées de la norme Euclidienne découle immédiatement que la métrique
dist(x, y) = |x − y| que nous avons défini en effet est une métrique – il satisfait les propriétés
caractéristiques suivantes :
– positivité :
dist(x, y) ≥ 0,
avec ≥ étant = ssi x = y ;
– symétrie :
dist(x, y) = dist(y, x);
– inégalité de triangle :
dist(x, z) ≤ dist(x, y) + dist(y, z).
Équipé de cette métrique, Rndevient un espace métrique, et nous pouvons employer toutes les
notions relatives d’Analyse :
– convergence : une suite {xi ∈ Rn } est appelée convergeante vers un point x ∈ Rn , et x
est appelé la limite de la suite [notation : x = limi→∞ xi ], si

dist(xi , x) ≡ |xi − x| → 0, i → ∞;

notez que la convergence est en fait une notion de “coordonnée-par-coordonnée” : xi → x∗ ,


i → ∞, si et seulement si (xi )j → x∗j pour tous les indices de coordonnées j = 1, ..., n (ici,
naturellement, (xi )j est la j-ème coordonnée xi , et, pareillement, pour x∗j ;
– ensemble ouvert : un ensemble U ⊂ Rn s’appelle ouvert, s’il contient, avec chaque de ses
points x, un voisinage de ce point – une boule centrée en x d’un certain rayon positif :

∀x ∈ U ∃r > 0 : U ⊃ Br (x) ≡ {y | |y − x| ≤ r}

(notez que l’ensemble vide, en accord avec cette définition, est ouvert) ;
– ensemble fermé : un ensemble F ⊂ Rn est appelé fermé, s’il contient des limites de toutes
suites convergeantes d’elements de F :

{xi ∈ F, i = 1, 2, ...} & {x∗ = lim xi } ⇒ x∗ ∈ F


i→∞

(notez que l’ensemble vide, en accord avec cette définition, est fermé).
On le voit facilement que les ensembles fermés sont exactement les compléments à les
ouverts.
Notez que la convergence est compatible avec les structures linéaires et Euclidiennes de Rn .
Précisément :
– si deux suite de vecteurs {xi }, {yi } convergent vers x, resp., y, et deux suites de réels {λi }
and {μi } convergent vers λ, resp., μ, alors la suite {λi xi + μi yi } converge, et la limite est
λx + μy. Ainsi, on peut passer à la limite terme-par-terme dans des sommes finies comme
λx + μy + νz + ... ;
– si deux suites {xi } and {yi } de vecteurs convergent vers x, resp., y, alors

xTi yi → xT y, i → ∞ & dist(xi , yi ) → dist(x, y), i → ∞.


14 CHAPITRE 1. INTRODUCTION

Des notions de convergence et des ensembles ouverts/fermés peuvent être associé à n’importe
quel espace métrique, non seulement avec Rn . Cependant, en ce qui concerne ces propriétés Rn
possède la propriété fondamentale suivante :

Proposition 1.1.1 [Compacité des sous-ensembles bornés et fermés de Rn ] Un sous-ensemble


fermé et borné F de Rn est compact, c.-à-d., possède les deux propriétés suivantes équivalentes :
(i) Toute suite {xi ∈ F } possède une sous-suite {xit }∞ t=1 qui converge vers un point de F ;
(ii) Toute famille (pas forcement finie) d’ouverts {Uα } couvrant F (F ⊂ ∪α Uα ) possède une
sous-famille finie qui encore couvre F .

On le voit facilement que, vice versa, un ensemble compact dans Rn (et en fait, un
compact dans tout espace métrique) est borné et fermé. Autrement dit, Proposition 1.1.1
donne la caractérisation des ensembles compacts dans Rn : ceux-ci sont exactement les
ensembles fermés et bornés.

La propriété exprimée dans Proposition sera extrêmement importante pour nous : la compacité
des sous-ensembles bornés et fermés de notre univers est à la base de la majorité des résultats
que nous sommes sur le point d’obtenir. Notez que c’est une caractéristique très “personnelle”
des espaces Rn comme membres d’une famille beaucoup plus nombreuse d’espaces vectoriels to-
pologiques. Les problèmes d’optimisation dans ces espaces plus vastes sont également d’un grand
intérêt (ils surgissent, par exemple, dans la Commande à temps continue). La théorie de ces
problèmes est beaucoup plus compliquée techniquement que la théorie des problèmes d’optimi-
sation sur Rn , principalement puisqu’il y a des difficultés avec la compacité. Proposition 1.1.1
est la raison principale du fait que nous limitons nos considérations aux espaces de dimension
fini.

1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension


1.2.1 Combinaisons linéaires
Soit x1 , ..., xk un vecteur n-dimensionnel et soit λ1 , ..., λk réels. Un vecteur de type

x = λ1 x1 + ... + λk xk

est appelé combinaison linéaire des vecteurs x1 , ..., xk avec des coefficients λ1 , ..., λk .

1.2.2 Sous-espaces linéaires


Un ensemble non vide L ⊂ Rn est appelé sous-espace linéaire, s’il est fermé par rapport aux
opérations linéaires :
x, y ∈ L, λ, μ ∈ R ⇒ λx + μy ∈ L.

Une définition équivalente, bien évidemment, est : un sous-espace linéaire est un sous-ensemble
non vide de Rn qui contient toutes les combinaisons linéaires de ses éléments.
Par exemple, les sous-ensembles suivants de Rn sont clairement des sous-espaces :
– le sous-ensemble {0} compris du vecteur 0 ;
– Rn entier ;
– l’ensemble de tous les vecteurs avec la première entrée égale à 0.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 15

Notez que chaque sous-espace linéaire pour sûr contient zéro (en effet, il est non vide par
définition ; si x ∈ L, alors également par définition, L devrait contenir le vecteur 0x = 0).
Une conséquence immédiate de cette observation insignifiante est celle-ci :
l’intersection L = ∩α Lα d’une famille arbitraire des sous-espaces linéaires de Rn est encore un
sous-espace linéaire
En effet, L n’est pas vide – tous les Lα sont les sous-espaces linéaires et contiennent donc 0, de
sorte que L contienne également 0. Et chaque combinaison linéaire des vecteurs de L est contenue
dans chaque Lα (comme combinaison des vecteurs de Lα ) et, par conséquent, est contenu dans
L de sorte que L soit fermé en ce qui concerne des combinaisons linéaires.

Enveloppe linéaire
Soit X un sous-ensemble non vide arbitraire de Rn . Il existent des sous-espaces linéaires
dans Rn qui contiennent X – par exemple, le Rn entier. En prenant l’intersection de tous ces
sous-espaces, nous obtenons, comme nous savons déjà, un sous-espace linéaire. Ce sous-espace
linéaire s’appelle enveloppe linéaire de X et est noté Lin(X). Par construction, l’eveloppe linéaire
possède les deux propriétés suivantes :
– il contient X ;
– il est le plus petit sous-espace linéaire contenant X : si L est un sous-espace linéaire et
X ⊂ L, alors, également, Lin(X) ⊂ L.
Il est facile à voir quels sont les éléments de l’enveloppe linéaire de X :
Proposition 1.2.1 [Linear span]
Lin(X) = {l’ensemble de toutes combinaisons linéaires de vecteurs de X}.
En effet, toutes les combinaisons linéaires des vecteurs de X devrait appartenir à chaque sous-
espace linéaire L qui contient X, en particulier, à Lin(X). Il reste pour démontrer que chaque
élément de Lin(X) est une combinaison linéaire des vecteurs de X. Pour cela notons par L
l’ensemble de toutes ces combinaisons ; tout ce que nous avons besoin de montrer que L lui-
même est un sous-espace linéaire. En effet, en supposant ceci et en remarquant que X ⊂ L
(comme 1x = x, de sorte que chaque vecteur de X soit une combinaison linéaire triviale des
vecteurs de X), nous pourrions conclure que L ⊃ Lin(X), puisque Lin(X) est le plus petit parmi
des sous-espaces linéaires contenant X.

Il reste à vérifier que L est un sous-espace, c.-à-d., que la combinaison linéaire i λi yi des

combinaisons linéaires yi = j μij xj des vecteurs xj ∈ X est encore une combinaison linéaire
des vecteurs de X, ce qui est évident :
   
λi μij xj = ( λj μij )xj .
i j j i

Vous êtes invité à prêter l’attention à cette preuve simple et à penser à elle jusqu’à ce que
vous “ sentiez” la construction “en entier” plutôt que comprendre la preuve point par point –
nous emploierons le même raisonnement en parlant des enveloppes convexes.

Somme des sous-espaces linéaires


Étant donné deux ensembles arbitraires de vecteurs X, Y ⊂ Rn , nous pouvons former leur
somme arithmétique – l’ensemble
X + Y = {x + y | x ∈ X, y ∈ Y }
16 CHAPITRE 1. INTRODUCTION

compris de toutes sommes par paire – un terme de X et un autre de Y .


Un fait important sur cette addition des ensembles est donné par la proposition suivante
+
Proposition 1.2.2 La somme arithmétique L + M de deux sous-espaces linéaires L, M ⊂ Rn
est un sous-espace linéaire qui n’est rien d’autre que l’enveloppe linéaire Lin(L ∪ M ) de l’union
des sous-espaces.

Exemple 1.2.1 On associe un sous-espace LI de Rn avec un sous-ensemble I d’indices 1, ..., n


de façon que LI est compris de tous les vecteurs x avec les éléments xi indexés par i ∈ I égales
à 0 :
LI = {x | xi = 0 ∀i ∈ I}.
On peut voir facilement que
LI + LJ = LI∪J .
Remarque 1.2.1 Comme pour la somme arithmétique d’ensembles de vecteurs, nous pouvons
former le produit
ΛX = {λx | λ ∈ Λ, x ∈ X}
d’un ensemble Λ ⊂ R de réels et d’un ensemble X ⊂ Rn de vecteurs.
Cette “arithmétique des ensembles” n’est rien d’autre qu’un notation commode, et nous
l’emploierons de temps en temps. Bien que cette arithmétique ressemble fort à celle de vecteurs 1 ,
quelques lois arithmétiques importantes ne sont pas vraies pour des ensemble ; par exemple, d’une
manière générale
{2}X = X + X; X + {−1}X = {0}.
Soyez vigilant !
Somme directe. Soit L et M deux sous-espaces linéaires. Par la définition de la somme
arithmétique, chaque vecteur x ∈ L + M est une somme de certains vecteurs xL de L et de
xM de M :
x = xL + xM . (1.3)
Une question importante est : dans quelle mesure x prédétermine-t-il xL et xM ? Le “degré
de liberté” qu’il y a ici est évident : vous pouvez ajouter à xL un vecteur arbitraire d de
l’intersection L ∩ M et soustraire le même vecteur de xM , et c’est tout.
En effet, pour un d de x = xL + xM nous avons x = (xL + d >) + (xM − d), et les termes
dans la nouvelle décomposition appartiennent encore à L et à M (puisque d ∈ L ∩ M et L, M
sont des sous-espaces linéaires). Vice versa, si
(I) x = xL + xM , (II) x = xL + xM
sont deux décompositions du type en question,
xL − xL = xM − xM . (1.4)
1. par exemple,
– nous pouvons écrire sans les parenthèses les expressions comme Λ1 X1 +...+Λk Xk – l’ensemble qu’en résulte
est indépendant de la façon dont nous insérons des parenthèses, et nous pouvons réordonner les termes
dans ces relations ;
– {1}X = X ;
– nous avons l’associativité (ΛΞ)X = Λ(ΞX) ;
– nous avons la “distributivité restreinte”
{λ}(X + Y ) = {λ}X + λY ; (Λ + Ξ){x} = Λ{x} + Ξ{x};
– il existe le zero additif – l’ensemble {0}.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 17

Si on note par d la valeur commune de ces deux expressions, nous voyons que d ∈ L ∩ M
(en effet, le côté gauche de (1.4) indique que d ∈ L, et le côté droit que d ∈ M ). Ainsi,
la décomposition (ii) en effet est obtenue à partir (i) en ajoutant un vecteur de L ∩ M au
composant dans L et en soustrayant le même vecteur du composant dans M .
Nous voyons que d’une manière générale – quand L ∩ M contient des vecteurs non nul –
les composants de décomposition (1.3) ne sont pas uniquement définis par x. Par contre,
si L ∩ M = {0}, alors les composants xL et xM sont uniquement définis par x.
Dans le dernier cas la somme L + M s’appelle la somme directe ; pour x ∈ L + M , xL est
appelé la projection parallèle à M de x sur L et xM s’appelle la projection parallèle à L
de x sur M . Quand L + M est une somme directe, les projections dépendent linéairement
de x ∈ L + M : quand nous ajoutons/multiplions par des réels les vecteurs projetés, leurs
projections sommes sujets aux mêmes opérations.
par exemple, dans la situation de l’Exemple 1.2.1 la somme LI + LJ est une somme
directe (c.-à-d., LI ∩ LJ = {0}) si et seulement si le seul vecteur x dans Rn avec les indices
des entrées non nul appartenant à I et à J est le vecteur nul ; en d’autres termes, la somme
est directe si et seulement si I ∩ J = ∅. Dans ce cas-ci les projections de x ∈ LI + LJ = LI∪J
sur LI et LJ sont très simples : xLI a les mêmes entrées que x pour i ∈ I et a les entrées
restantes nulles, et de même pour xLJ .

1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension


Soit L ⊂ Rn un sous-espace linéaire.

Générateur
On appelé un ensemble X ⊂ L générateur de L, si chaque vecteur de L peut être représenté
comme une combinaison linéaire des vecteurs de X. Ou, ce qui est identique, si L = Lin(X). Dans
ce cas nous disons également que X génére (ou engendre) L et L est est généré (ou engendré)
par X.
Par exemple, (1.1) dit que la collection e1 , ..., en des vecteurs de base canonique de Rn
engendre tout l’espace.

Independence linéaire
Une collection x1 , ..., xk des vecteurs n-dimensionnels s’appele linéairement indépendante, si
chaque combinaison linéaire non triviale (avec au moins un coefficient non nul) des vecteurs est
non nulle :

k
(λ1 , ..., λk ) = 0 ⇒ λi xi = 0.
i=1
Parfois il est plus commode d’exprimer la même propriété sous la forme (équivalente) suivante :
un ensemble de vecteurs x1 , ..., xk est linéairement indépendant si et seulement si la seule com-
binaison linéaire nulle des vecteurs est triviale :

k
λi xi = 0 ⇒ λ1 = ... = λk = 0.
i=1

Par exemple, les vecteurs de la base canonique de Rn sont linéairement indépendants : puisque

les entrées dans le vecteur ni=1 λi ei sont exactement λ1 ..., λn , le vecteur est zéro si et seulement
si tous les coefficients λi sont zéro.
18 CHAPITRE 1. INTRODUCTION

L’essence de la notion de l’indépendance linéaire est donnée par le simple résultat suivant
(qui est en fait une définition équivalente de l’indépendance linéaire) :
+
Corollaire 1.2.1 Soit x1 , ..., xk linéairement independents. Alors les coefficients λi de la com-
binaison linéaire

k
x= λi xi
i=1

des vecteurs x1 , ..., xk sont uniquement définis par la valeur x de la combinaison.

Notez que, par définition, un ensemble vide de vecteurs est linéairement indépendant (en effet,
vous ne pouvez pas présenter une combinaison linéaire non triviale des vecteurs de cet ensemble
qui est nulle – vous ne pouvez pas présenter une combinaison linéaire des vecteurs d’un ensemble
vide du tout !)

Dimension
En Algèbre nous avons le résultat fondamental suivant :

Proposition 1.2.3 [Dimension] Soit L (différent de {0}) un sous-espace linéaire non trivial de
Rn . Alors les deux quantités suivantes sont des nombres entiers finis qui sont égaux entre eux :
(i) le nombre minimal des éléments dans les sous-ensembles de L qui engendre L ;
(ii) le nombre maximal des éléments des sous-ensembles finis linéairement indépendants de
L.
La valeur commune de ces deux nombres entiers s’appelle la dimension de L (notation : dim (L)).

Une conséquence directe de Proposition 1.2.3 set le théorème suivant :

Théorème 1.2.1 [Bases] Soit L un sous-espace linéaire non trivial dans Rn .


A. Soit X ⊂ L. Les trois propriétés suivantes de X sont équivalentes :
(i) X est un ensemble linéairement indépendant qui engendre L ;
(ii) X est linéairement indépendant et contient dim L éléments ;
(iii) X engendre L et contient dim L éléments.
Un sous-ensemble X de L possédant les propriétés indiquées d’équivalent entre elles s’appelle
un basis de L.
B. Chaque collection linéairement indépendante de vecteurs de L soit elle-même est une base
de L, ou peut être complète à une telle base en ajoutant de nouveaux vecteurs. En particulier,
là existe une base de L.
C. Étant donné un ensemble X qui engendre L, on peut toujours en extraire une base de L.
La preuve :
(i) → (ii) : supposons que X, à la fois, engendre L et soit linéairement indépendant.
Puisque X engendre L il contient au moins dim L éléments (Proposition 1.2.3), et puisque
X est linéairement indépendant, il contient au plus dim L éléments (la même proposition).
Ainsi, X contient exactement dim L éléments, comme il est exigé par (ii).
(ii) → (iii) : soit X linéairement indépendant de dim L éléments x1 , ..., xdim L . Nous
devons montrer que X engendre L. Supposons, au contraire, que ce n’est pas le cas, et donc
il existe un vecteur y ∈ L qui ne peut pas être représenté comme une combinaison linéaire des
vecteurs xi , i = 1, ..., dim L. Je prétends qu’en ajoutant y aux vecteurs x1 , ..., xdim L , nous
obtenons toujours un ensemble linéairement indépendant (ceci impliquerait la contradiction
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 19

désirée, puisque cet ensemble contient plus que dim L vecteurs de L, et ceci est interdit
par Proposition 1.2.3). Si y, x1 , ..., xdim L étaient linéairement dépendants, il existerait une
combinaison linéaire non triviale des vecteurs égale à zéro :

L
dim
λ0 y + λi xi = 0. (1.5)
i=1

Le coefficient λ0 n’est sûrement nul (sinon notre combinaison serait une combinaison linéaire
non triviale nulle de vecteurs x1 , ..., xdim L linéairement indépendant (l’hypothèse)). Comme
λ0 = 0, nous pouvons résoudre (1.5) par rapport à y :

L
dim
y= (−λi /λ0 )xi ,
i=1

et obtenir une représentation de y comme combinaison linéaire de xi ’s, ce qu’on a supposé


impossible.
Remarque 1.2.2 en montrant l’implication (ii) → (iii), nous avons établi le résultat sui-
vant :
N’importe lequel ensemble linéairement indépendant {x1 ..., xk } de vecteurs de L qui n’est pas
un générateur de L peut être augmenté à un ensemble linéairement indépendant plus grand
en ajoutant un vecteur de L convenablement choisi( à savoir, en ajoutant tout vecteur y ∈ L
qui n’est pas une combinaison linéaire x1 , ..., xk ).
Ainsi, en commençant par un ensemble linéairement indépendant arbitraire dans L qui n’en-
gendre pas L, nous pouvons l’augmenter point par point, préservant l’indépendance linéaire,
jusqu’à ce qu’il devienne générateur ; ceci se produit sûrement à une étape, puisque dans
notre processus nous obtenons tous le temps des sous-ensembles linéairement indépendants
de L et Proposition 1.2.3 indique qu’un tel ensemble ne contient pas plus de dim L éléments.
Ainsi, nous avons montré que
n’importe quel sous-ensemble de L linéairement indépendant peut être enveloppe d’un sous-
ensemble générateur linéairement indépendant (c.-à-d., à une base de L)
s’appliquant le dernier résultat au sous-ensemble vide de L nous voyons cela :
N’importe quel sous-espace linéaire de Rn possède une base.
les résultats ci-dessus sont exactement ceux annoncés dans B.
(iii) → (i) : soit X un sous-ensemble générateur de L qui contient dim L éléments
x1 , ..., xdim L ; nous devrions montrer que x1 , ..., lexdim L sont linéairement indépendant. Sup-
posons qu’au contraire, ce n’est pas le cas ; puis, comme dans la preuve de l’implication
précédente, un de nos vecteurs, par exemple x1 , est une combinaison linéaire du restant des
xi . J’affirme qu’en supprimant de X le vecteur x1 , nous obtenons toujours un ensemble qui
engendre L (c’est la contradiction désirée, puisque l’ensemble générateur qui reste contient
moins de dim L vecteurs, et ceci est interdit par Proposition 1.2.3). En effet, chaque vecteur
y dans L est une combinaison linéaire de x1 , ..., xdim L ( X est un générateur !) ; en substi-
tuant dans cette combinaison la représentation de x1 par l’intermédiaire des xi restants, nous
représentons y comme combinaison linéaire de x2 , ..., xdim L , de sorte que le dernier ensemble
de vecteurs en effet engendre L.
Remarque 1.2.3 En montrant (iii) ⇒ (i), nous avons également prouvé C :
Si X engendre L il existe alors un sous-ensemble linéairement indépendant X  de X qui soit
également générateur de L et qui est donc une base de L. En particulier, Lin(X) a une base
qui consiste en des éléments de X.
20 CHAPITRE 1. INTRODUCTION

en effet, vous pouvez prendre comme X  un ensemble linéairement indépendant maximal


(avec le nombre maximum autorisé d’éléments) dans X (puisque, par Proposition 1.2.3, n’im-
porte quel sous-ensemble linéairement indépendant dans L contient au plus dim L éléments,
un tel sous-ensemble existe). Par extrémalité de cet ensemble, en ajoutant à X  un élément
arbitraire y de X, nous obtenons un ensemble linéairement dépendant ; maintenant, comme
dans la preuve de l’implication (ii) → (iii), il suit que y est une combinaison linéaire des
vecteurs de X  . Ceci, come dans la preuve de l’implication (iii) → (i), implique que chaque
combinaison linéaire des vecteurs de X est en fait égale à une combinaison linéaire des
vecteurs de X  , de sorte que X et X  engendrent le même sous-espace linéaire L.
Jusqu’ici nous avons défini la notion de la base et de la dimension pour des sous-espaces de Rn
non triviaux – différents de {0}. Afin d’éviter des remarques triviales dans ce qui va suivre, on
assigne par définition la dimension 0 au sous-espace linéaire trivial {0}, et on traite l’ensemble
vide comme base de ce sous-espace linéaire.

Dimension de Rn et de ses sous-espaces


En illustrant les notions d’ensemble générateur et celle d’ensemble linéairement de indépendant,
nous avons mentionné que la collection des vecteurs de base canonique e1 , ..., en est à la fois un
générateur de l’espace et un ensemble linéairement indépendant. Selon le théorème 1.2.1, il suit
que
la dimension de Rn est n, et les vecteurs de base canonique forment une base dans Rn .
Ainsi, la dimension de Rn est n. Et que diriez-vous des dimensions des sous-espaces ? Natu-
rellement, elle est tout au plus n, en raison de la simple proposition suivante :
Proposition 1.2.4 Soit L ⊂ L une paire de sous-espaces linéaires de Rn . Alors dim L ≤
dim L , et l’inégalité devient l’égalité si et seulement si L = L . En particulier, la dimension de
chaque sous-espace propre de Rn (différent du Rn entier) est < n.
En effet, choisissons une base x1 , ..., xdim L de L. C’est un ensemble linéairement
indépendant dans L et le nombre dim L d’éléments de cet ensemble est ≤ dim L par Propo-
sition 1.2.3 ; ainsi, dim L ≤ dimL . Il reste pour prouver que si cette inégalité est une égalité,
alors L = L . Mais c’est évident : dans ce cas-ci x1 , ..., xdim L est un ensemble linéairement
indépendant dans L qui contient dim L d’éléments, et donc il engendre L par Théorème
1.2.1.A. Nous avons donc

L = Lin(x1 , ..., xdim L ) = L .

Formule de dimension
Nous savons déjà que si L et M sont des sous-espaces linéaires dans Rn , alors leur intersection
L ∩ M et leur somme arithmétique L + M sont des sous-espaces linéaires. Il existe une très
sympathique formule de dimension :

dim L + dim M = dim (L ∩ M ) + dim (L + M ). (1.6)


La preuve : Soit l = dim L, m = dim M , k = dim (L ∩ M ), et soit c1 , ..., ck une base
de L ∩ M . Selon Théorème 1.2.1, on peut étendre la collection c1 , ..., ck avec les vecteurs
f1 , ..., fl−k à une base de L, le même que l’étendre par les vecteurs d1 , ..., dm−k à une base
de M . Pour montrer la formule de dimension, il suffit de verifier que m + l − k vecteurs
f1 , ..., fl−k , d1 , ..., dm−k , c1 , ..., ck forment une base de L + M – dans ce cas la dimension de
la somme sera m + l − k = dim L + dim M − dim (L ∩ M ), comme demandé.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 21

Pour montrer que les vecteurs ci-dessus forment une base dans L + M nous devrions
montrer qu’ils engendrent cet espace et sont linéairement indépendant. Le premier est évident
– les vecteurs en question par construction engendrent L et M et enjambent donc leur somme
L + M . Pour prouver l’indépendance linéaire, supposons que
  
{ λp fp } + { μq c q } + { νr dr } = 0 (1.7)
p q r

et montrons que dans ce cas tous les coefficients λp , μq , νr sont nuls. En effet, en notant les
sommes entre les parenthèses par sL , sL∩M et sM , respectivement, nous voyons de l’équation
que sL (qui est par sa construction un vecteur dans L) est moins la somme de sL∩M et
sM , lesquels sont tous les deux vecteurs de M . Ainsi, sL appartient à L ∩ M et peut être
donc représenté comme combinaison linéaire de c1 , ..., ck . Maintenant nous obtenons deux
représentations de sL comme combinaison linéaire des vecteurs c1 , ..., ck , f1 , ..., fl−k lesquels,
par construction, forment une base de L : celui donné par la définition de sL et qui n’implique
que les vecteurs f , et l’autre impliquant seulement c. Puisque les vecteurs de la base sont
linéairement indépendant, les coefficients des deux combinaisons sont uniquement définis par
sL (Corollaire 1.2.1) et devraient être identiques. Cela est possible seulement s’ils sont nuls ;
ainsi, tous les λ’s sont nuls et sL = 0. Par le raisonnement semblable, tous les ν’s sont
zéro et sM = 0. Maintenant (1.7) implique que sL∩M = 0, et tous les μ’s sont zéro dû à
l’indépendance linéaire de c1 , ..., ck .

Coordonnées dans une base


Soit L un sous-espace linéaire dans Rn de dimension k > 0, et soit f1 , ..., fk une base dans L.
Comme l’ensemble f1 , ..., fk engendre L, tout x ∈ L peut être représenté en combinaison linéaire
de f1 , ..., fk :

k
x= ξi f i .
i=1
Les coefficients ξi de cette représentation sont uniquement définis par x, puisque f1 , ..., fk sont
linéairement indépendant (Corollaire 1.2.1). Ainsi, en fixant une base f1 , ..., fk dans L nous
associons à chaque vecteur x ∈ L la collection ordonnée uniquement définie ξ(x) de k coefficients
dans la représentation de x comme combinaison linéaire des vecteurs de la base ; ces coefficients
s’appellent les coordonnées de x en base f . En tant que chaque collection ordonnée de k réels,
ξ(x) est un vecteur k-dimensionnel. On le voit immédiatement que transformation de L sur Rk
donné par
x → ξ(x)
est un isomorphisme linéaire de L et Rk , i.e., est une transformation un-vers-un qui preserve les
operations linéaires.
On observe que tant que des opérations linéaires sont concernés, il n’y a aucune différence
entre un sous-espace L de Rn et Rk . L peut être identifiée avec Rk de multiple façons – chaque
choix d’une base dans L a comme conséquence une telle identification. Pouvons nous choisir
l’isomorphisme pour préserver aussi la structure Euclidienne, c.-à-d., pour assurer que
xT y = ξ T (x)ξ(y) ∀x, y ∈ L ?
Oui, on peut le faire facilement : à cet effet il suffit de choisir la base f1 , ..., fk orthonormale,
c.-à-d., une base qui possède la propriété additionnelle
0, i = j
fiT fj =
1, i = j
22 CHAPITRE 1. INTRODUCTION

(dans l’Algèbre ils montrent qu’une telle base existe toujours). En effet, si f1 , ..., fk est une base
orthonormale, puis pour x, y ∈ L nous avons
k 
xT y = ( i=1 ξi (x)fi )T ( kj=1 ξj (y)fj ) [definition des coordonnées]
k k T
= j=1 ξi (x)ξj (y)fi fj [bilinearity du produit scalaire]
i=1
k
= i=1 ξi (x)ξi (y) [orthonormalité de la base]
= T
ξ (x)ξ(y).

Ainsi, chaque sous-espace linéaire L de Rn de la dimension positive k est, dans un sens, Rk :


vous pouvez préciser une correspondance linéaire entre les vecteurs de L et les vecteurs de Rn
de telle manière que toutes les opérations arithmétiques avec des vecteurs de L – addition et
multiplication par des reals – correspondent aux mêmes opérations avec leurs images dans Rk , et
les produits scalaires (et par conséquent - des normes) des vecteurs de L seront identiques que les
quantités correspondantes pour leurs images. Notez que la correspondance mentionnée ci-dessus
n’est pas unique – il y a autant de manières de l’établir que de choisir une base orthonormale
de L.
Jusqu’ici nous parlions des sous-espaces de dimension positive. Nous pouvons enlever cette
restriction en introduisant l’espace de dimension nulle R0 ; le seul vecteur de cet espace est 0,
et, naturellement, par définition 0 + 0 = 0 et λ0 = 0 pour tout λ réel. La structure Euclidienne
sur R0 est, naturellement, également triviale : 0T 0 = 0. Ajoutant cet espace triviale à la famille
des autres Rn , nous pouvons dire que n’importe quel sous-espace linéaire L dans n’importe quel
Rn est équivalent, dans le sens mentionné ci-dessus, à Rdim L .

1.3 Ensembles affines


Plusieurs événements à venir auront lieu pas dans Rn entier, mais dans ses le sous-ensembles
affines lesquels, géométriquement, sont des plans de différentes dimensions dans Rn .

1.3.1 Ensembles affines et Enveloppes affines


Definition d’Ensemble affine
Géométriquement, un sous-espace linéaire L de Rn est un plan spécial – celui qui passe par
l’origine de l’espace (c.-à-d., contenant le vecteur zéro). Pour obtenir un “plan spécial” approprié
L à une translation – ajouter à tous les points de L un vecteur fixe de décalage a. Cette intuition
géométrique mène à la definition suivante :

Définition 1.3.1 [Ensemble affine] Un ensemble affine (un plan) M dans Rn est un ensemble
de la forme
M = a + L = {y = a + x | x ∈ L}, (1.8)
où L est un sous-espace linéaire de Rn et a est un vecteur de Rn 2) .

Par exemple, décalant le sous-espace linéaire L qui consiste en les vecteurs avec la première
entrée nulle par un vecteur a = (a1 , ..., an ), nous obtenons l’ensemble M = a + L de tous les
vecteurs x avec x1 = a1 ; selon notre terminologie, c’est un ensemble affine.
2. ) d’après notre convention sur le calcul des ensembles, j’aurais du écrire dans (1.8) {a} + L à la place de
a + L. D’habitude on ignore cette différence et omette les parenthèses en notant le singleton dans les expressions
semblables : nous écrirons a + L au lieu de {a} + L, Rd à la place de R{d}, etc.
1.3. ENSEMBLES AFFINES 23

La question immédiate au sujet de la notion d’un ensemble affine est : quels sont les “degrés
de liberté” dans la décomposition (1.8) – M détermine-t-il a et L ? La réponse est suivante :
Proposition 1.3.1 Le sous-espace linéaire L dans la décomposition (1.8) est uniquement défini
par M et est l’ensemble de toutes les différences des vecteurs de M :

L = M − M = {x − y | x, y ∈ M }. (1.9)

Le vecteur de décalage a n’est pas uniquement défini par M et peut être choisi comme un vecteur
arbitraire de M .
Preuve : commençons par le premier résultat. Un vecteur de M , par définition, est de la forme
a + x, d’où x est un vecteur L. La différence de deux vecteurs a + x, a + x de ce type est
x − x et donc elle appartient à L (puisque x, x ∈ L et L est un sous-espace linéaire). Ainsi,
M − M ⊂ L. Pour obtenir l’inclusion inverse, notez que n’importe quel vecteur x de L est une
différence de deux vecteurs de M , à savoir, des vecteurs a + x et a = a + 0 (rappel que le vecteur
zéro appartient à n’importe quel sous-espace linéaire).
Pour prouver la deuxième conjecture, nous devrions verifier que si M = a + L, alors a ∈ M
et nous avons également M = a + L pour chaque a ∈ M . Le premier fait est évident – depuis
0 ∈ L, nous avons a = a + 0 ∈ M . Pour établir le deuxième, notons d = a − a (ce vecteur
appartient à L car a ∈ M ) remarquons que

a + x = a + x , x = x − d;

quand x parcourt L. Alors, le vecteur à gauche de notre identité parcourt a + L, et, comme x
parcourt L, le vecteur a droite parcourt a + L. Nous en concluons que a + L = a + L.

Intersections d’ensembles affines


Une conclusion immediate de Proposition 1.3.1 est suivante :
Corollaire 1.3.1 Soit {Mα } une famille arbitraire d’ensembles affines dans Rn . Supposons que
l’ensemble M = ∩α Mα n’est pas vide. Alors M est un ensemble.
Preuve. Choisissons a ∈ M (cet ensemble n’est pas vide). Alors a ∈ Mα pour tout α, et donc,
par Proposition 1.3.1,
Mα = a + Lα
pour certains sous-espaces linéaires Lα . Maintenant il est claire que

M = a + (∩α Lα ),

et, comme ∩α Lα est un sous-espace linéaire, M est un ensemble affine.

Combinaisons et enveloppes affines


Une conséquence de Corollaire 1.3.1 est que pour chaque sous-ensemble non vide Y de Rn
il existe le plus petit ensemble affine contenant Y – l’intersection de tous les ensembles affines
contenant Y . Ce plus petit ensemble affine contenant Y s’appelle l’enveloppe affine de Y (on
note Aff(Y )).
Tout ceci ressemble beaucoup à l’histoire des enveloppes linéaires. Pouvons nous étendre
cette analogie pour obtenir une description de l’enveloppe affine Aff(Y ) en termes d’éléments de
24 CHAPITRE 1. INTRODUCTION

Y que ressemble à celle de l’étendus linéaire (l’enveloppe linear de X est l’ensemble de toutes
les combinaisons linéaires des vecteurs de X) ? Bien sur !
Choisissons un point y0 ∈ Y , et considérons l’ensemble

X = Y − y0 .

Tout ensemble effine contenant Y devrait contenir également y0 et donc, par Proposition 1.3.1,
peut être représenté comme M = y0 + L, L étant un sous-espace linéaire. Il est évident qu’un
ensemble affine M = y0 + L contienne Y si et seulement si le sous-espace L contient X, et que
plus grand est L, le plus grand est M :

L ⊂ L ⇒ M = y 0 + L ⊂ M  = y 0 + L .

Ainsi pour trouver le plus petit parmi les ensembles affines contenant Y , il suffit de trouver le
plus petit parmi des sous-espaces linéaires contenant X et de décaler ce dernier sous-espace par
y0 :
Aff(Y ) = y0 + Lin(X) = y0 + Lin(Y − y0 ). (1.10)
On sais ce qui est Lin(Y − y0 ) – un ensemble de toutes combinaisons linéaires de vecteurs de
Y − y0 , et l’élément générique de Lin(Y − y0 ) est


k
x= μi (yi − y0 ) [k peut dépendre de x]
i=1

avec yi ∈ Y et les coefficients réels μi . Il en découle que l’élément générique de Aff(Y ) est


k 
k
y = y0 + μi (yi − y0 ) = λi yi ,
i=1 i=0

où 
λ0 = 1 − μi , λi = μi , i ≥ 1.
i

On observe qu’un élément générique de Aff(Y ) est une combinaison linéaire des vecteurs de
Y . Notons, cependant, que les coefficients λi dans cette combinaison ne sont pas complètement
arbitraires : leur somme est égale à 1. Les combinaisons linéaires de ce type – avec la somme de
coefficients égale à 1 – ont un nom spécial – elles s’appellent les combinaisons affines.
Nous avons vu que n’importe quel vecteur de Aff(Y ) est une combinaison affine des vecteurs
de Y . Est-ce que l’inverse est vrai, c.-à-d., est-ce que Aff(Y ) contient toute combinaison affine
des vecteurs de Y ? La réponse à cette question est positive. En effet, si


k
y= λi yi
i=1

est une combinaison affine des vecteurs de Y , alors en utilisant l’identité i λi = 1, nous pouvons
l’écrire également comme

k
y = y0 + λi (yi − y0 ),
i=1
y0 étant “le vecteur marqué” que nous avons utilisé dans notre raisonnement précédent, Mais le
vecteur de ce type, comme nous savons déjà, appartient à Aff(Y ). Ainsi, nous venons au suivant
1.3. ENSEMBLES AFFINES 25

Proposition 1.3.2 [Structure d’enveloppe affine]

Aff(Y ) = {l’ensemble de toutes les combinaisons des vecteurs de Y }.

Quand Y lui-même est un ensemble affine, il coincide avec son enveloppe affine et la proposition
ci-dessus mène au
Corollaire 1.3.2 Un ensemble affine M est fermé par rapport à la prise des combinaisons
affines de ses membres – n’importe quelle combinaison de ce type est un vecteur de M . Et,
vice versa, un ensemble non vide qui est fermé en par rapport aux combinaisons affines de ses
membres est un ensemble affine.

1.3.2 Générateurs affines, Ensembles independents affinement, Dimension af-


fine
Ensembles affines sont étroitement liés aux sous-espaces linéaires, et les notions de base liées
aux sous-espaces linéaires ont leurs analogues affines naturels. Présentons ces notions et leurs
propriétés de base. Je vais sauter les preuves : elles sont très simples et répètent fondamentale-
ment les preuves de Section 1.2

Générateurs affines
Soit M = a + L ensemble affine. On dit que un sous-ensemble Y de M est générateur affine
de M (on dit aussi que Y engendre M affinement, ou que M et affinement engendré par Y ), si
M = Aff(Y ), ou, ce qui est la même chose dû à Proposition 1.3.2, si tout point de M est une
combinaison affine des points de Y . La conséquence immediate du raisonnement dans la section
précédente est suivante :
Proposition 1.3.3 Soit M = a+L ensemble affine et Y un sous-ensemble de M , et soit y0 ∈ Y .
L’ensemble Y engendre M affinement – M = Aff(Y ) – ssi l’ensemble

X = Y − y0

engendre le sous-espace L : L = Lin(X).

Ensemble affinement independent


Rappelons nous qu’un ensemble linéairement indépendant x1 , ..., xk est un ensemble tels
qu’aucune combinaison linéaire non triviale des x1 , ..., xk est nulle. Une définition équivalente
est donnée par Corollaire 1.2.1 : x1 , ..., xk sont linéairement indépendant, si les coefficients λi
dans leurs combinaison linéaire

k
x= λi xi
i=1
sont uniquement définis par la valeur x de la combinaison. Cette forme équivalente reflète l’es-
sence de la matière – de ce que nous avons besoin en effet, est l’unicité des coefficients. En
conséquence, cette forme équivalente est le prototype pour la notion d’un ensemble affinement
indépendant : nous voulons présenter cette notion de telle manière que les coefficients λi dans
une combinaison affine

k
y= λi yi
i=0
26 CHAPITRE 1. INTRODUCTION

des vecteur d’un ensemble “affinement independent” de vecteurs y0 , ..., yk soit uniquement définis
par y. Non-unicité impliquerait que

k 
k
λi yi = λi yi
i=0 i=0

pour deux vecteurs différents de coefficients λi et λi avec la somme des coefficients égale à 1 ; si
tel est le cas, alors

m
(λi − λi )yi = 0,
i=0
et yi ’s sont linéairement dependent. De plus, il existe leur combinaison nulle non trivial avec la
  
somme de coefficients nulle (car i (λi − λi ) = i λi − i λi = 1 − 1 = 0). Notre raisonnement
peut être inversé – si il existe une combinaison linéaire non triviale de yi ’s avec la somme nulle
de coefficients qui est nulle, alors les coefficients dans la représentation d’un vecteur par une
combinaison d’affine de yi ’s ne sont pas uniquement définis. Ainsi, afin de nous obtenir à unicité
nous devrions interdire les relations

k
μi y i = 0
i=0
avec des coefficients μi non triviaux dont la somme est nulle.
Définition 1.3.2 [Ensemble affinement indépendant] Une collection y0 , ..., yk de vecteurs n-
dimensionnels est appelée affinement indépendante si il n’existe pas d’une combinaison linéaire
nulle de ces vecteurs que soit non trivial et dont la somme des coefficients soit nulle :

k 
k
λi yi = 0, λi = 0 ⇒ λ0 = λ1 = ... = λk = 0.
i=1 i=0
Avec cette definition nous obtenons le résultat complètement similaire au Corollaire 1.2.1 :
Corollaire 1.3.3 Soit y0 , ..., yk affinement indépendants. Alors les coefficients λi d’une combi-
naison affine

k 
y= λi yi [ λi = 1]
i=0 i
des vecteurs y0 , ..., yk sont uniquement définis par la valeur y de la combinaison.
La vérification de l’indépendance affine d’un ensemble peut être immédiatement réduite à la
vérification de l’indépendance linéaire de la collection étroitement liée :
Proposition 1.3.4 k + 1 vecteurs y0 , ..., yk sont affinement indépendants si et seulement si les
k vecteurs (y1 − y0 ), (y2 − y0 ), ..., (yk − y0 ) sont linéairement indépendants.
De la dernière proposition il découle, par exemple, que la collection 0, e1 ..., en qui consiste de
l’origine et des vecteurs de base canonique est affinement indépendante. Notez que cette collec-
tion est linéairement dépendante (en tant que toute collection contenant zéro).
Vous devriez identifier de façon définitive la différence entre les deux notions de l’indépendance
que nous discutons : l’indépendance linéaire signifie qu’aucune combinaison linéaire non triviale
des vecteurs ne peut être zéro, tandis que l’indépendance affine signifie qu’aucune combinaison
linéaire non triviale d’une certaine classe restreinte (i.e., avec la somme de coefficients nulle) ne
peut être zéro. Par conséquent, il y a plus d’ensembles affinement indépendants que linéairement
indépendants : un ensemble linéairement indépendant est pour sûr affinement indépendant, mais
l’inverse n’est pas vrai.
1.3. ENSEMBLES AFFINES 27

Bases affines et dimension affine


Avec de l’aide des Propositions 1.3.2 et 1.3.3 on arrive à réduire les notions de générateur
affine/ensemble affinement indépendant à ceux de générateur linéaire/indépendance linéaire. En
combinant avec Proposition 1.2.3 et Théorème 1.2.1, on obtient des analogues suivants de ces
derniers résultats :

Proposition 1.3.5 [Dimension affine] Soit M = a + L un ensemble affine dans Rn . Alors les
deux quantités suivantes sont des entiers positifs qui sont égaux :
(i) nombre minimal d’éléments de sous-ensembles de M qui engendre M affinement ;
(ii) nombre maximal d’éléments dans un sous-ensemble de M affinement indépendant.
Cette valeur commune est égale à la dimension dim L de L plus 1.

Par définition, la dimension affine d’un ensemble affine M = a + L est la dimension dim L de
L. Ainsi, si M est de dimension affine k, alors la cardinalité minimale des générateurs affines de
M , mêmes que la cardinalité maximale des sous-ensembles affinement indépendants de M , est
k + 1.

Théorème 1.3.1 [Bases affines] Soit M = a + L un ensemble affine dans Rn .


A. Soit Y ⊂ M . Les trois propriétés suivantes de Y sont équivalentes :
(i) Y est un ensemble affinement indépendant qui engendre M affinement ;
(ii) Y est affinement indépendant et contient 1 + dim L éléments ;
(iii) Y engendre M affinement and contient 1 + dim L éléments.
Le sous-ensemble Y de M possédant ces propriétés est appelé base affine de M . Basses affines
de M sont exactement des ensembles y0 , ..., ydim L tels que y0 ∈ M et (y1 − y0 ), ..., (ydim L − y0 )
est une base de L.
B. Chaque collection de vecteurs de M affinement indépendante soit elle-même est une base
affine de M , ou peut être augmentée à une telle base en ajoutant de nouveaux vecteurs. En
particulier, il existe la base affine de M .
C. Étant donné un ensemble Y qui engendre affinement M , on peut toujours extraire de cet
ensemble une base affine de M .

Nous savons déjà que la base canonique e1 , ..., en forme une base de l’espace Rn . Mais quelles sont
les bases affines de Rn ? Selon Théorème 1.3.1.A, on peut choisir comme telle base l’ensemble
e0 , e0 + e1 , ..., e0 + en , e0 étant un vecteur arbitraire.

Coordonnées Barycentriques
Soit M un ensemble affine, et soit y0 , ..., yk soient une base affine de M . Comme la base,
par définition, engendre affinement M , chaque vecteur y de M est une combinaison affine des
vecteurs de la base :

k 
k
y= λi yi [ λi = 1],
i=0 i=0

et puisque les vecteurs de la base affine sont affinement indépendants, les coefficients de cette
combinaison sont uniquement définis par y (Corollaire 1.3.3). Ces coefficients s’appellent co-
ordonnées barycentriques de y par rapport à la base affine en question. Contrairement aux
coordonnées habituelles par rapport à une base (linéaire), les coordonnées barycentriques ne
pourraient pas être tout à fait arbitraires : leur somme devrait être égale à 1.
28 CHAPITRE 1. INTRODUCTION

1.4 Description duale des sous-espaces linéaires et d’ensembles


affines
Nous avons introduit les notions du sous-espace linéaire et de l’ensemble affine et avons
présenté un schéma pour produire ces entités : pour obtenir, par exemple, un sous-espace linéaire,
on peut commencer à partir d’un ensemble non vide arbitraire X ⊂ Rn et ajouter toutes les
combinaisons linéaires des vecteurs de X. En remplaçant des combinaisons linéaires avec les
combinaisons affines, on obtient une méthode de produire des ensembles affines.
La manière indiquée de produire des sous-espaces linéaires/ensembles affines ressemble à
l’approche d’un maçon construisant une maison : il commence par la base et puis ajoute de
nouveaux éléments jusqu’à ce que la maison soit prête. Il existe, néanmoins, une approche
d’artiste créant une sculpture : il prend quelque chose de grand et puis supprime les parties
superflus. Y a-t-il quelque chose comme “la manière artistique” pour représenter des sous-espaces
linéaires et des ensembles affines ? La réponse est positive et très instructive. Pour la comprendre,
nous avons besoin de quelques outils techniques.

Complément orthogonal
Deux vecteurs x, y ∈ Rn sont orthogonaux, si leur produit scalaire est 0 :
xT y = 0.
Étant donné un sous-ensemble non vide X de Rn , on définit son complément orthogonal X ⊥
comme l’ensemble de tous vecteurs qui sont orthogonaux à tout vecteur de X :
X ⊥ = {y ∈ Rn | y T x = 0 ∀x ∈ X}.
Le complément orthogonal est non vide (il contient zéro) et est clairement fermé par rapport
à l’addition de ses membres et la multiplication par des réels : en raison de la bilinéarité du
produit scalaire que nous avons
y T x = 0, z T x = 0 ∀x ∈ X ⇒ (λy + μz)T x = 0 ∀x ∈ X [∀λ, μ ∈ R].
Autrement dit, le complément orthogonal est un sous-espace linéaire.
Que se passe-t-il si on prend le complément orthogonal deux fois – en passant de X à (X ⊥ )⊥ ?
Tout d’abord, on obtient un sous-espace linéaire. De plus, ce sous-espace contient X (le produit
scalaire est symétrique et chaque élément de X ⊥ est orthogonal à tout x ∈ X, x, à son tour, est
orthogonal à tous les vecteurs de X ⊥ et appartient à (X ⊥ )⊥ ). Ainsi, (X ⊥ )⊥ est un sous-espace
linéaire subspace qui contient X et donc il contient l’enveloppe linéaire Lin(X) de X. Un résultat
utile d’Algèbre Linéaire dit que (X ⊥ )⊥ est exactement Lin(X) :
(∀X ⊂ Rn , X = ∅) : (X ⊥ )⊥ = Lin(X). (1.11)
En particulier, si X est un sous-espace linéaire (X = Lin(X)) alors le “double” complément
orthogonal de X est X lui-même :
X est un sous-espace linéaire ⇒ X = (X ⊥ )⊥ . (1.12)
Dans le dernier cas, il y a également une relation simple entre les dimensions de X et X ⊥ : on
le prouve dans l’algèbre linéaire que la somme de ces dimensions est exactement la dimension n
de l’espace entier :
X est un sous-espace linéaire ⇒ dim X + dim (X ⊥ ) = n. (1.13)
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES29

Une consequence utile de ces faits est


Proposition 1.4.1 Soit L un sous-espace linéaire dans Rn . Alors Rn est la somme directe
de L et L⊥ . Ainsi, chaque vecteur x de Rn peut être représenté de façon unique comme
une somme d’un vecteur de L (appelé la projection orthogonale de x sur L et d’un vecteur
orthogonal à L (appelé la composante de x orthogonale à L).
En effet, l’intersection de L et L⊥ est composé du seul vecteur 0 (un vecteur de l’intersection
devrait être orthogonal à lui-même, et de la positivité du produit intérieur nous savons que
il existe exactement un tel vecteur - zéro). Nous voyons que la somme L + L⊥ est directe,
et tout ce que nous avons besoin à montrer que cette somme est le Rn entier. Ceci est
immédiatement donné par (1.13) et la formule de dimension (1.6) :

dim (L + L⊥ ) = dim L + dim L⊥ − dim (L ∩ L⊥ ) = n − dim {0} = n;

et on sait déjà que le seul sous-espace de Rn de dimension n est Rn lui-même.

1.4.1 Ensembles affines et systèmes d’équations linéaires


Soit L un sous-espace linéaire. Selon (1.12), c’est un complément orthogonal – notamment,
le complément orthogonal à le sous-espace linéaire L⊥ . Soit maintenant a1 , ..., am un générateur
de L⊥ . Un vecteur x qui est orthogonal à a1 , ..., am est orthogonal à L⊥ (parce que chaque
vecteur de L⊥ est une combinaison linéaire de a1 , ..., am et le produit intérieur est bilinéaire).
Naturellement, vice versa, un vecteur orthogonal au L⊥ est orthogonal à a1 , ..., am . Nous voyons
que
L = (L⊥ )⊥ = {a1 , ..., am }⊥ = {x | aTi x = 0, i = 1, ..., k}. (1.14)
Ainsi, nous obtenons le résultat très important :

Proposition 1.4.2 [Description “externe” d’un sous-espace linéaire]


Tout sous-espace linéaire L dans Rn est un ensemble de solutions d’un système homogène d’equa-
tions linéaires :
aTi x = 0, i = 1, ..., m, (1.15)
ou, coordonnée par coordonnée,

a11 x1 + ... + a1n xn = 0


............ (1.16)
ak1 x1 + ... + akn xn = 0

(aij est j-ème élément de ai ) pour un m et des vecteurs a1 , ..., am proprement choisis.

Par définition d’un sous-espace linéaire, vice versa, l’ensemble de solutions d’un système ho-
mogène des équations linéaires avec n variables est un sous-espace linéaire dans Rn . Une autre
manière de le voir est de noter que l’ensemble de solutions du système (1.15) est exactement le
complément orthogonal de l’ensemble {a1 ..., am }, et le complément orthogonal est toujours un
sous-espace linéaire.
À partir de Proposition 1.4.2 utilisant de ce que nous connaissons déjà sur la dimension nous
pouvons facilement dériver plusieurs conséquences importantes :
– Les systèmes (1.15) qui définissent un sous-espace linéaire donné L sont exactement les
systèmes donnés par les vecteurs a1 , ..., am qui engendre L⊥ 3)
3. ) le raisonnement qui nous a mené jusqu’à Proposition 1.4.2 dit que [a1 , ..., am engendre L⊥ ] ⇒ [(1.15) définit
L] ; maintenant on dit que l’inverse est également vra
30 CHAPITRE 1. INTRODUCTION

– Le plus petit nombre m d’équations dans (1.15) est la dimension de L⊥ , c.-à-d., par (1.13),
est égale à codim L ≡ n − dim L 4)
– Un sous-espace linéaire dans Rn est toujours un ensemble fermé (en effet, l’ensemble de
solutions (1.14) est clairement fermé).
Maintenant, un ensemble affine M est, par définition, un décalage d’un sous-espace linéaire :
M = a + L. Comme nous savons déjà, les vecteurs x de L sont exactement les solutions d’un
certain système homogène d’équations linéaires

aTi x = 0, i = 1, ..., m.

Il est évident qu’en ajoutant à ces vecteurs un vecteur fixe a, on obtient exactement l’ensemble
de solution du système linéaire soluble non homogène

aTi x = bi ≡ aTi a, i = 1, ..., m.

Vice versa, l’ensemble de solutions du système soluble d’equation linéaires

aTi x = bi , i = 1, ..., m,

avec n variables est la somme d’une solution particulière du système et d’ensemble de solutions
du système homogène correspondant (ce dernier est un sous-espace linéaire dans Rn ), i.e., est
un ensemble affine.

Proposition 1.4.3 [Description “externe” d’ensemble affine]


Tout ensemble affine M = a + L dans Rn est un ensemble de solutions d’un système linéaire
soluble d’équations
aTi x = bi , i = 1, ..., m, (1.17)

ou
a11 x1 + ... + a1n xn = b1
............ (1.18)
ak1 x1 + ... + akn xn = bm
(aij est la j-ème entrée de ai ) avec un m et des vecteurs a1 , ..., am proprement choisis.
Vice versa, l’ensemble de toutes les solutions d’un système soluble d’équations linéaires avec
n variables est un sous-espace affine de Rn .
Le sous-espace linéaire L qui est associé à M est exactement l’ensemble de solutions de la
version homogène (avec la partie droite étant 0) du système (1.17).

Nous voyons, en particulier, qu’un ensemble affine est toujours fermé.

Commentaire : la description “externe” d’un sous-espace linéaire/ensemble affine – “celui des


artistes”– est dans beaucoup de cas plus utile que la description “interne” par l’intermédiaire des
combinaisons linéaires/affinse (“ celle des maçons”). Par exemple, avec la description externe il
est très facile de vérifier si un vecteur donné appartient ou n’appartient pas à un sous-espace

4. ) pour rendre ce résultat juste dans le cas extrême quand L = Rn (c.-à-d., quand codim L = 0), nous
ferons dorénavant une convention que un ensemble vide d’équations ou d’inégalités définit, comme l’ensemble de
solutions, l’espace entier
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES31

linéaire/ensemble affine, ce qui n’est pas facile du tout à partir de sa description interne 5) . En fait
les deux descriptions sont “complémentaire” entre eux et travaillent parfaitement en parallèle :
ce qui est difficile à voir avec l’une d’entre elles, est clair avec l’autre. L’idée d’employer les
descriptions “interne” et “externe” des entités que nous rencontrons – des sous-espaces linéaires,
ensembles affines, ensembles convexes, problèmes d’optimisation – l’idée générale de dualité –
est, je dirais, la force principale de l’analyse et de l’optimisation convexes, et dans la suite nous
allons rencontrer des différentes réalisations de cette idée fondamentale.

1.4.2 Structure des simples ensembles affines


Cette petite sous-section traite principalement de la terminologie. Selon leur dimension, les
ensembles affines dans Rn sont appelés différemment :
– Ensembles de dimension 0 sont des translations du seul sous-espace linéaire de dimension
0 – de {0}, c.-à-d., sont des singletons – vecteurs de Rn . Ces ensembles s’appellent des
points ; un point est une solution d’un système carré d’équations linéaires avec la matrice
non singulière.
– Ensembles de dimension 1 (droites). Ces ensembles sont des translations des sous-espaces
linéaires unidimensionnels de Rn . Un sous-espace linéaire unidimensionnel a une base d’un
élément donnée par un vecteur non nul d et est composé de tous les multiples de ce vecteur.
En conséquence, la ligne est un ensemble de la forme
{y = a + td | t ∈ R}
donné par une paire de vecteurs a (l’origine de la droite) et d (la direction de la droite),
d = 0. L’origine de la droite et sa direction ne sont pas uniquement définies par la droites ;
vous pouvez choisir comme origine n’importe quel point sur la droite et multiplier une
direction particulière par des réels non nuls.
dans les coordonnées barycentriques une droite est décrite de façon suivante :
l = {λ0 y0 + λ1 y1 | λ0 + λ1 = 1} = {λy0 + (1 − λ)y1 | λ ∈ R},
où y0 , y1 est une base affine de l ; vous pouvez choisir comme telle base n’importe quelle
paire de points distincts sur la droite.
La description “externe” d’une droite est suivante : c’est l’ensemble de solutions d’un
système linéaire avec n variables et n − 1 équations linéairement indépendantes.
– Ensembles de dimension > 2 et < n − 1 n’ont aucun nom spécial ; parfois on les appellent
des plans affines de telle ou telle dimension.
– Ensembles affines de dimension n − 1, grâce au rôle important qu’ils jouent dans l’analyse
convexe, ont un nom spécial – ils s’appellent des hyperplans. La description externe d’un
hyperplan est qu’un hyperplan est l’ensemble de solution d’une équation linéaire
aT x = b
avec partie droite non triviale(a = 0). En d’autres mots, un hyperplan est un ensemble de
niveau a(x) = const d’une forme linéaire nonconstant a(x) = aT x.
– Ensemble affine le “plus grand possible” – celui de dimension n – est unique et est le Rn
entier. Cet ensemble est donné par un système vide d’équations linéaires.
5. ) il n’est pas difficile de certifier qu’un point donné appartient, par exemple, à un sous-espace linéaire donné
comme enveloppe linéaire d’un certain ensemble – il suffit de préciser une représentation du point comme com-
binaison linéaire des vecteurs de l’ensemble. Mais comment pourriez vous certifier que un point n’appartient pas
au subspace ?
32 CHAPITRE 1. INTRODUCTION

1.5 Exercices

Exercice 1.1 Marquez par ”o” les énoncés qui sont toujours justes, avec ”n” ceux qui pour
sûr sont faux, et par ” ?” – ceux qui sont parfois justes et sont parfois faux, selon les entités y
participant :
– Tout sous-espace linéaire L de Rn contient le vecteur nul
– Tout sous-espace linéaire L de Rn contient un vecteur non nul
– L’union L ∪ M des deux sous-espaces linéaires de Rn est un sous-espace linéaire
– L’ntersection de toute famille de sous-espaces lineaires de Rn est un sous-espace linéaire
– Pour toute paire L, M de sous-espaces linéaires de Rn , dim (L + M ) = dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec L ∩ M = {0}, dim (L + M ) =
dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec dim (L + M ) = dim L + dim M nous
avons L ∩ M = {0}
– L’ensemble de vecteurs 3-dimensionnels (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre R3
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre le sous-espace linéaire L =
{x ∈ R3 : x1 + x2 + x3 = 0}
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) est une base du sous-espace linéaire
L = {x ∈ R3 : x1 + x2 + x3 = 0}
– Si L ⊂ M sont deux sous-espace linéaires de Rn , alors dim L ≤ dim M , avec une égalité
ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , then dim Lin(X) ≤ dim Lin(Y ), avec
une égalité ssi X = Y
– Un ensemble affine M dans Rn contient le vecteur nul
– Tout ensemble affine L dans Rn contient un vecteur non nul ;
– L’union L ∪ M des deux ensembles affines dans Rn est un ensemble affine
– L’intersection de toute famille des sous-ensembles affines de Rn est un ensemble affine
– L’ensemble des vecteurs (0, 0, 0), (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement tout
R3
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement L = {x ∈ R3 :
x1 + x2 + x3 = 1}
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) est une base affine de L = {x ∈
R3 : x1 + x2 + x3 = 1}
– Si L ⊂ M sont deux ensembles affines dans Rn , alors la dimension affine de L est ≤ que
celle de M , avec une égalité ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , alors la dimension de Aff(X) est ≤
que celle de Aff(Y ), avec une égalité ssi X = Y

Exercice 1.2 Montrez la loi du parallélogramme :

|x + y|2 + |x − y|2 = 2(|x|2 + |y|2 ).

Exercice 1.3 Trouver une description externe de Lin(X) pour

X = {(1, 1, 1, 1), (1, 1, −1, −1)} ⊂ R4 .

Pourrait-une description contenir moins de 2 équations ? Plus de 2 équations linéairement


indépendantes ?
1.5. EXERCICES 33

Exercice 1.4 Quelles sont les dimensions des ensemble affines


– (A) :
2x1 + 3x2 + 4x3 + 5x4 = 1
3x1 + 4x2 + 5x3 + 6x4 = 2
4x1 + 5x2 + 6x3 + 7x4 = 3
dans R4 ?
– (B) :
2x1 + 3x2 + 4x3 + 5x4 = 1
3x1 + 4x2 + 5x3 + 6x4 = 4
4x1 + 5x2 + 6x3 + 7x4 = 9
dans R4 ?
– (C) :

n
(i + j)xj = i, i = 1, ..., m
j=1

dans Rn (2 ≤ m ≤ n) ?
– (D) :

n
(i + j)xj = i2 , i = 1, ..., m
j=1

dans Rn (3 ≤ m ≤ n) ?

Exercice supplémentaire

Exercice 1.5 Soit M un sous-ensemble non vide de Rn . Prouvez que M est un ensemble affine
si et seulement s’il contient, avec tout couple de points x, y ∈ M , la droite

{λx + (1 − λ)y | λ ∈ R}

engendrée par ces points


34 CHAPITRE 1. INTRODUCTION
Chapitre 2

Ensembles convexes : Introduction

Les sous-espaces linéaires et les ensembles affines sont “trop simples” pour satisfaire à tous
les besoins d’analyse convexe. Ce qui nous intéresse réellement sont les ensembles convexes dans
Rn .

2.1 Definition, Exemples, Description interne, Propriétés algébriques


2.1.1 Ensembles convexes
A l’école on a appris qu’une figure s’appelle convexe si elle contient, avec n’importe quelle
paire de ses points x, y, le segment entier [x, y] liant ces points. C’est exactement la définition d’un
ensemble convexe dans le cas multidimensionnel ; il suffit d’exprimer en language mathématique
le sens de la phrase “le segment [x, y] liant les points x, y ∈ Rn ”.

Définition 2.1.1 [Convex set]


1) Soit x, y deux points dans Rn . L’ensemble

[x, y] = {z = λx + (1 − λ)y | 0 ≤ λ ≤ 1}

est appelé segment avec les extrémités x, y.


2) Un sous-ensemble M de Rn est appelé convexe, s’il contient avec toute paire de points
x, y, le segment entier [x, y] :

x, y ∈ M, 0 ≤ λ ≤ 1 ⇒ λx + (1 − λ)y ∈ M.

Commentaire : Comme nous savons de la Section 1.4.2, ensemble de tous les combinaisons
affines {z = λx + (1 − λ)y | λ ∈ R} de deux vecteurs donnés est leur enveloppe affine qui est
une droite, à condition que x = y. Quand le paramètre λ de la combinaison est 0, nous obtenons
un des points x, y (notamment, y), et quand λ = 1 – l’autre (x). Et le segment [x, y], en accord
avec l’intuition géométrique, est composé de des combinaisons affines de x, y avec ces extrémités
et toutes les valeurs intermédiaires du paramètre λ.
Notez que par cette définition un ensemble vide est convexe (par convention, ou, plutôt, par
le sens exact de la définition : pour l’ensemble vide, vous ne pouvez pas présenter un contre-
exemple pour prouver qu’il n’est pas convexe).

35
36 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

2.1.2 Examples d’ensembles convexes


les exemples les plus simples d’ensembles convexes non vides sont des singletons (points) et
l’espace entier Rn . Un exemple beaucoup plus intéressant est le suivant :

Exemple 2.1.1 L’ensemble de solution d’un système (peut-être infini) d’inégalités linéaires

aTα x ≤ bα , α ∈ A

de n inconnus x, c.-à-d. l’ensemble

M = {x ∈ Rn | aTα x ≤ bα , α ∈ A}

est convexe.
En particulier, l’ensemble de solutions d’un système fini

Ax ≤ b

de m inégalités avec n inconnus (A et une matrice m × n) est convexe ; ce type d’ensemble porte
le nom de polyhedre.

En effet, soit x, y deux solutions du système ; il faut montrer que tout point z = λx + (1 − λy)
avec λ ∈ [0, 1] est aussi une solution du système. Cela est évident car pour tout α ∈ A on a

aTα x ≤ bα
aTα y ≤ bα .

Par consequence, en multipliant les inégalités par les réels non négatif λ et 1 − λ et en faisant la
somme :
λaTα x + (1 − λ)aTα y ≤ λbα + (1 − λ)bα = bα ,
et ce qui est sur la gauche est exactement aTα z.

Remarque 2.1.1 Remarquez que tout ensemble de l’Example 2.1.1 est aussi fermé (pourquoi ?)

Comme nous nous rappelons du cours précédent, tout ensemble affine dans Rn (et en par-
ticulier, tout sous-espace linéaire) est l’ensemble de toutes les solutions à un certain système
d’équations linéaires. Maintenant, un système d’équations linéaires est équivalent à un système
d’inégalités linéaires (vous pouvez d’une manière équivalente représenter une égalité linéaire par
une paire d’inégalités linéaires opposées). Il suit qu’un ensemble affine est un cas particulier d’un
ensemble polyhedral et donc est un ensemble convexe. Naturellement, nous pourrions obtenir
cette conclusion directement : la convexité d’un ensemble signifie qu’il est fermé par rapport aux
certaines combinaisons affines – notamment, les combinaisons des paires de ces éléments avec
les poids non négatifs ; et un ensemble affine est fermé par rapport à toutes les combinaisons
affines de ses éléments (Proposition 1.3.2).

Exemple 2.1.2 [ · -boule] Soit  ·  une norme sur Rn c.-à-d. une fonction réelle sur Rn
qui satisfait les trois propriétés caractéristiques de la norme, mentionnées dans la Section 1.1.2.
Alors la boule unité dans cette norme – l’ensemble

{x ∈ E |  x ≤ 1},
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES37

ainsi que toute autre boule- · 


{x |  x − a ≤ r}
(a ∈ Rn et r ≥ 0 sont fixés) est convexe.
En particulier, boules Euclidiennes (boules-|·| associées avec la norme Euclidienne  · = |·|)
sont convexe.

En effet, soit V = {x |  x − a ≤ r} et x, y ∈ V . Nous avons a verifier que si λ ∈ [0, 1],


alors z = λx + (1 − λ)y ∈ V . Ceci est donné par le calcul suivant :

z−a =  [λx + (1 − λ)y] − a 


=  [λ(x − a)] + [(1 − λ)(y − a)] 
≤  λ(x − a)  +  (1 − λ)(y − a)  [inégalité de triangle - définition de la norme]
= λ  x − a  +(1 − λ)  y − a  [homogénéité - définition de la norme]
≤ λr + (1 − λ)r = r [since x, y ∈ V ]

Les exemples basiques des normes sur Rn sont les normes Lp :



( ni=1 |xi |p ) , 1 ≤ p < ∞ .
1/p
 x p =
max1≤i≤n |xi |, p=∞

Ces sont réellement des normes (ce qui n’est pas évident au départ). Quand p = 2, nous
obtenons la norme Euclidienne ; bien sur, vous sauriez dessiner la boule Euclidienne. Quand
p = 1, nous obtenons
n
 x 1 = |xi |,
i=1

et la boule unité est un hyperoctaedron


n

n
V = {x ∈ R | |xi | ≤ 1}
i=1

Quand p = ∞, nous obtenons


 x ∞ = max |xi |,
1≤i≤n

et la boule unité est un hypercube

V = {x ∈ Rn | −1 ≤ xi ≤ 1, 1 ≤ i ≤ n}.

Il sera bien utile de dessiner les boules unité de normes  · 1 et  · ∞ dans R2 .

Exemple 2.1.3 [Ellipsoid] Soit Q une matrice n × n symétrique (Q = QT ) et positive définie


(xT Qx ≥ 0, avec ≥ étant = si et seulement si x = 0). Alors, pour tout r non négatif, le
Q-ellipsoid du rayon r centré en a – l’ensemble

{x | (x − a)T Q(x − a) ≤ r 2 }

est convexe.

La façon la plus simple de prouver qu’un ellipsoid est convexe est la suivante : étant
donné une matrice symétrique définie positive Q, on peut lui associer le produit scalaire :

x, y = xT Qy

qui, qu’on le voit immédiatement, satisfait les propriétés caractéristiques – bilinéarité,


symétrie et positivité – du produit scalaire standard xT y (en fait ces trois propriétés du
38 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

produit scalaire associé à Q, prises ensemble, sont exactement équivalent à la symétrie et


positivité de la matrice Q). Il suit que la Q-norme, c.-à-d. la fonction

|x|Q = xT Qx,

est une norme : en montrant que la norme Euclidienne standard est une norme (section 1.1.2),
nous avons employé la bilinéarité, la symétrie et la positivité du produit scalaire standard
seulement, et aucunes autres propriétés spécifiques). On voit maintenant qu’un Q-ellipsoid
n’est qu’une boule dans la norme | · |Q , de sorte que sa convexité soit prouvé dans l’Example
2.1.2.
+
Exemple 2.1.4 [-voisinage d’un ensemble convexe]
Soit M un ensemble convexe dans Rn , et soit  > 0. Alors, quelque soit la norme  ·  sur Rn ,
le -voisinage de M , c.-à-d. l’ensemble

M = {y ∈ Rn | dist· (y, M ) ≡ inf  y − x  ≤ }


x∈M

est convexe.

2.1.3 Description interne d’ensembles convexes : Combinaisons convexes et


enveloppes convexes
Combinaisons convexes
Nous avons défini la notion de combinaison linéaire y d’un ensemble donné de vecteurs
y1 , ..., ym - c’est un vecteur représenté comme

m
y= λi yi ,
i=1

où λi sont certains coefficients réels. À partir de cette définition, nous sommes venus à la notion de
combinaison affine – une combinaison linéaire avec la somme de coefficients égale à 1. Maintenant
nous présentons la notion suivante dans le genre : celle de combinaison convexe.

Définition 2.1.2 Une combinaison convexe des vecteurs y1 , ..., ym est leur combinaison affine
avec des coefficients non négatifs. Ou, ce qui est identique, une combinaison linéaire

m
y= λi yi
i=1

avec des coefficients non négatifs avec la somme de coefficients égale à 1 :



m
λi ≥ 0, λi = 1.
i=1

Le résultat suivant ressemble à ceux qui nous avons obtenu pour des sous-espaces linéaires et
ensembles affines :

Proposition 2.1.1 Un ensemble M dans Rn est convexe si et seulement s’il est fermé par
rapport à toutes les combinaisons convexes de ses éléments, c.-à-d., si et seulement si n’importe
quelle combinaison convexe des vecteurs de M est encore un vecteur de M .
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES39

Preuve.
partie ”si” (la suffisance) : supposons que M contient toutes les combinaisons convexes des
éléments de M . Alors, avec deux points quelconques x, y ∈ M , M contient également le vecteur
λx + (1 − λ)y pour tout λ ∈ [0, 1], puisque c’est une combinaison convexe de x et y ; ainsi, M
est convexe.
partie ”seulement si” (la nécessité) : supposez que M est convexe ; nous devrions montrer
qu’alors M contient n’importe quelle combinaison convexe

m
(∗) y= λi yi
i=1

de vecteurs yi ∈ M . La preuve est donnée par récurrence en m. Le cas de m = 1 est évident


(puisque la seule combinaison convexe d’un terme est 1 · y1 = y1 ∈ M ). Supposons que nous
savons déjà que n’importe quelle combinaison convexe de m − 1 vecteurs, m ≥ 2, de M est
encore un vecteur de M , et montrons que ce résultat demeure valide également pour toutes
les combinaisons convexes de m vecteurs de M . Soit (*) une telle combinaison. Nous pouvons
supposer que 1 > λm , puisqu’autrement il n’y a rien à démontrer. En supposant λm < 1, nous
pouvons écrire

m−1
λi
y = (1 − λm )[ yi ] + λm ym .
i=1
1 − λm
Ce qui est entre les parenthèses est une combinaison convexe de m − 1 points de M et, par notre
hypothèse inductive c’est un point, disons z, de M ; nous avons

y = (1 − λm )z + λm ym

avec z et ym ∈ M , et y ∈ M par la définition du convexe M .

Enveloppe convexe
Comme pour les sous-espaces linéaires et ensemble affines nous avons le fait fondamental
(bien qu’évident) suivant :

Proposition 2.1.2 [Convexité d’intersections] Soit {Mα }α une famille d’ensembles convexes
de Rn . Alors l’intersection
M = ∩α Mα
est convexe.

En effet, si les bouts d’un segment [x, y] appartiennent à M , ils appartient également au chaque
Mα ; en raison de la convexité de Mα , le segment [x, y] lui-même appartient au chaque Mα , et,
par conséquent, à leur intersection, c.-à-d., à M .
Une conséquence immédiate de cette proposition (cf. les résultats analogues pour des sous-
espaces linéaires et ensembles affines dans le Chapitre 1) est comme suit :

Corollaire 2.1.1 [Enveloppe convexe]


Soit M un sous-ensemble non vide dans Rn . Alors parmi tous les ensembles convexes conte-
nant M (ces ensembles existent, par exemple, Rn lui-même) il existe le plus petit, à savoir,
l’intersection de tous les ensembles convexes contenant M .
Cet ensemble s’appelle enveloppe convexe de M [ notation : Conv(M )].
40 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

Enveloppe linéaire de M est l’ensemble de toutes les combinaisons linéaires des vecteurs de
M , enveloppe affine est l’ensemble de toutes les combinaisons affines des vecteurs de M . Comme
vous devinez,

Proposition 2.1.3 [Enveloppe convexe par combinaisons convexes] Pour M ⊂ Rn non vide :

Conv(M ) = {l’ensemble de tous les combinaisons convexes de vecteurs de M }.

Preuve : selon la Proposition 2.1.1, tout ensemble convexe contenant M (en particulier,
Conv(M )) contient toutes les combinaisons convexes des vecteurs de M . Il reste a vérifier que
Conv(M ) ne contient rien d’autre. À cet effet il suffit de montrer que l’ensemble de toutes les
combinaisons convexes des vecteurs de M , nous l’appelons M ∗ , lui-même est convexe (en tenant
compte du fait que Conv(M ) est le plus petit ensemble convexe contenant M , nous réalisons
notre but – l’inclusion Conv(M ) ⊂ M ∗ ). Montrer que M ∗ est convexe est la même chose que
de montrer que n’importe quelle combinaison convexe νx + (1 − ν)y de deux points quelconques
 
x = i λi xi , y = i μi xi de M ∗ – deux combinaisons convexes des vecteurs xi ∈ M – est encore
une combinaison convexe des vecteurs de M . C’est évident :
  
νx + (1 − ν)y = ν λi xi + (1 − ν) μ i xi = ξ i xi , ξi = νλi + (1 − ν)μi ,
i i i

et les coefficients ξi sont bien non négatifs avec la somme égale 1.


La Proposition 2.1.3 nous fournit une description (“de maçon”) interne d’un ensemble
convexe. Bientôt nous obtiendrons également une description (d’“artiste”) externe extrêmement
utile des ensembles convexes fermé : nous montrerons que tous ces ensembles sont donnés par
l’Example 2.1.1 – ils sont exactement les ensembles de toutes les solutions aux systèmes (proba-
blement, infinis) d’inégalités linéaires “non strictes” 1) .

2.1.4 Plus d’exemples d’ensembles convexes : le polytope et le cône


Notre “ approche de maçon” à produire des ensembles convexes nous fournit deux exemples
apparemment nouveaux : un polytope et un cône.

Un polytope est, par définition, l’enveloppe convexe d’un un ensemble fini non vide dans Rn ,
c.-à-d. l’ensemble de forme

N 
Conv({u1 , ..., uN }) = { λi ui | λi ≥ 0, λi = 1}.
i=1 i

Un cas important d’un polytope est le simplex : l’enveloppe convexe de n + 1 points v1 , ..., vn+1
affinement indépendants de Rn :


n+1 
n+1
M = Conv({v1 , ..., vn+1 }) = { λi vi | λi ≥ 0, λi = 1};
i=1 i=1

les points v1 , ..., vn+1 s’appellent les sommets du simplex.


1. ) L’ensemble de solutions de n’importe quel système d’inégalités linéaires non strictes est un ensemble fermé
et convexe – ceci nous déjà savons de l’exemple 2.1.1 et remarquons 2.1.1. L’inverse est aussi vrai, mais il nous
faudra de montrer que n’importe quel ensemble convexe fermé est l’ensemble de solutions d’un système d’inégalités
linéaires
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES41

Nous découvrirons sous peu qu’un polytope n’est rien d’autre qu’un ensemble polyhedral
borné, c.-à-d. un ensemble borné donné par un nombre fini d’inégalités linéaires. L’équivalence
de ces deux definitions – interne et externe — d’un polytope est l’un des faits les plus profonds
de l’Analyse Convexe.

Un cone Un sous-ensemble non vide M de Rn s’appelle conique, s’il contient, avec chaque
point x ∈ M , le rayon entier Rx = {tx | t ≥ 0} engendré par le point :

x ∈ M ⇒ tx ∈ M ∀t ≥ 0.

Un ensemble conique convexe s’appelle cône 2) .


+
Proposition 2.1.4 Le sous-ensemble non vide M de Rn est un cône si et seulement s’il
possède les propriétés suivantes :
– il est conique : x ∈ M, t ≥ 0 ⇒ tx ∈ M ;
– il contient des sommes de ses éléments : x, y ∈ M ⇒ x + y ∈ M .

Comme conséquence immédiate, nous obtenons qu’un cône est fermé par rapport aux combinai-
sons linéaires avec des coefficients non négatifs de ces éléments. Et vice versa, un ensemble non
vide fermé par rapport à ces combinaisons est un cône.
+
Exemple 2.1.5 L’ensemble de solutions d’un système homogène (peut-être infini)

aTα x ≤ 0, α ∈ A

d’inégalités linéaires avec n inconnus x, c.-à-d. l’ensemble

K = {x | aTα x ≤ 0 ∀α ∈ A},

est un cône.
En particulier, l’ensemble de solutions d’un système homogène fini de m inégalités linéaires

Ax ≤ 0

(A est une matrice m × n) est un cône ; un cône de ce dernier type s’appelle polyhedral.

Notez note que les cônes donnés par des systèmes d’inégalités homogènes linéaires non strictes
sont nécessairement fermés. Nous verrons bientôt que, vice versa, chaque cône convexe fermé est
l’ensemble de solutions d’un tel système, de sorte que l’Exemple 2.1.5 soit l’exemple générique
d’un cône convexe fermé.
Les cônes forment une famille très importante d’ensembles convexes, et on peut
développer la théorie de cônes absolument semblable (et dans un sens, équivalente) à celle des
ensembles convexes. Par exemple, en introduisant la notion de combinaison conique des vec-
teurs x1 , ..., xk comme combinaison linéaire des vecteurs avec des coefficients non négatifs,
vous pouvez facilement montrer les résultats suivants complètement analogues à ceux qui
concernent les ensembles convexes généraux, avec la combinaison conique jouant le rôle de
la combinaison convexe :
2. ) certains appellent cônes ce que nous appelons ensembles coniques et cônes convexes ce que nous appelons
cônes
42 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

– Un ensemble est un cône si et seulement s’il est non vide et est fermé par rapport à
toutes les combinaisons coniques de ses éléments ;
– L’intersection de n’importe quelle famille des cônes est encore un cône ; en particulier,
pour tout ensemble non vide M ⊂ Rn il existe le plus petit cône contenant M – son
enveloppe conique Cone (M ), et cette enveloppe conique est composé de toutes les
combinaisons coniques des vecteurs de M .
En particulier, l’enveloppe conique d’un ensemble fini non vide M = {u1 , ..., uN } de
vecteurs dans Rn est le cône
N

Cone (M ) = { λi ui | λi ≥ 0, i = 1, ..., N }.
i=1

Un fait fondamental (cf. l’histoire ci-dessus au sujet des polytopes) est que c’est la description
(interne) générique d’un cône polyhedral – d’un ensemble donné par (description externe)
un nombre fini d’inégalités linéaires homogènes.

2.1.5 Propriétés algébriques d’ensembles convexes


Le résultat suivant est une conséquence directe de la définition de l’ensemble convexe.
+
Proposition 2.1.5 Les operations suivantes préservent la convexité des ensembles :
– Somme arithmétique et multiplication par des réels : si M1 , ..., Mk sont convexes dans Rn
et λ1 , ..., λk sont des réels, alors l’ensemble


k
λ1 M1 + ... + λk Mk = { λi xi | xi ∈ Mi , i = 1, ..., k}
i=1

est convexe.
– Prendre l’image par transformation affine : si M ⊂ Rn est convexe et x → A(x) ≡ Ax + b
est une transformation affine de Rn dans Rm (A est une matrice m × n, b est un m-
vecteur), alors l’ensemble

A(M ) = {y = A(x) ≡ Ax + a | x ∈ M }

dans Rm est convexe.


– Prendre l’image inverse par transformation affine : si M ⊂ Rn est convexe et y → Ay + b
est une transformation affine de Rm vers Rn (A est une matrice n × m, b est un vecteur
à n dimensions), alors l’ensemble

A−1 (M ) = {y ∈ Rm | A(y) ∈ M }

dans Rm est convexe.

2.1.6 Propriétés topologiques d’ensembles convexes


Les ensembles convexes et les objets étroitement liés - fonctions convexes - jouent le rôle
central dans l’optimisation. Pour jouer ce rôle correctement, seule la convexité ne suffit pas ;
nous avons besoin en plus de la convexité la fermeture. Dans le Chapitre 1 nous avons déjà parlé
au sujet des notions les plus fondamentales de topologie – convergence des suites de vecteurs,
fermés et ouverts dans Rn . Voici trois notions supplémentaires dont nous avons besoin :
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES43

Fermeture Il est claire de la définition d’un ensemble fermé que l’intersection de n’importe
quelle famille des ensembles fermés dans Rn est également fermée. De ce fait il découle, comme
d’habitude, que pour n’importe quel sous-ensemble M de Rn il existe le plus petit ensemble
fermé contenant M ; cet ensemble s’appelle fermeture de M et est noté cl M . Dans l’analyse ils
démontrent la description (“interne”) suivante de la fermeture d’un ensemble dans un espace
métrique (et, en particulier, dans Rn ) :
La fermeture d’un ensemble M ⊂ Rn est exactement l’ensemble de tous les point limites de
toutes suites convergeantes d’éléments de M .
Maintenant il est facile à démontrer que, par exemple, la fermeture d’une boule Euclidienne
ouverte
{x | |x − a| < r} [r > 0]
est la boule fermée {x | |x − a| ≤ r}. Une autre application utile est l’exemple de fermeture de
l’ensemble
M = {x | aTα x < bα , α ∈ A}
donné par un système strict d’inégalités linéaires : si un tel ensemble n’est pas vide, alors sa
fermeture est donnée par des versions non strictes des mêmes inégalités :

cl M = {x | aTα x ≤ bα , α ∈ A}.

La condition que M soit non vide dans le dernier exemple est essentielle : l’ensemble M
donné par deux inégalités strictes

x < 0, −x < 0

dans R est vide, ainsi que sa fermeture ; par contre, en appliquant formellement la règle
ci-dessus, on aurait la réponse fausse :

cl M = {x | x ≤ 0, x ≥ 0} = {0}.

L’intérieur. Soit M ⊂ Rn . On dit qu’un point x ∈ M est un point intérieur de M , si un


certain voisinage de x est contenu dans M , c.-à-d. qu’il existe une boule, centrée en x de rayon
positif qu’appartient à M :

∃r > 0 Br (x) ≡ {y | |y − x| ≤ r} ⊂ M.

L’ensemble de tous les points intérieurs de M s’appelle intérieur de M [ notation : int M ].


Par exemple,
– l’intérieur d’un ensemble ouvert est l’ensemble lui-même ;
– l’intérieur de la boule fermée {x | |x − a| ≤ r} est la boule ouverte {x | |x − a| < r}
(pourquoi ?)
– l’intérieur d’un ensemble polyhedral {x | Ax ≤ b} avec la matrice A ne contenant pas de
lignes nulles est l’ensemble {x | Ax < b} (pourquoi ?)
le dernier résultat n’est pas valide pour des ensembles de solutions des systèmes
infinis d’inégalités linéaires. Par exemple, le système

1
x≤ , n = 1, 2, ...
n
44 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

dans R a comme ensemble de solutions le rayon nonpositive R− = {x ≤ 0} ; l’intérieur


de ce rayon est le rayon négatif {x < 0}. En même temps, les versions strictes de nos
inégalités
1
x < , n = 1, 2, ...
n
définissent le même rayon nonpositive, pas le rayon négatif.
Il est facile a voir également (et c’est vrai pour les espaces métriques arbitraires, pas pour Rn
seulement), que
– l’intérieur d’un ensemble arbitraire est ouvert
L’intérieur d’un ensemble, naturellement, est contenu dans l’ensemble, qui, alternativement, est
contenu dans sa fermeture :
int M ⊂ M ⊂ cl M. (2.1)
Le complément de l’intérieur dans la fermeture – l’ensemble

∂M = cl M \ int M

s’appelle frontière de M , et les points de ∂M s’appellent des points de frontière de M (aver-


tissement : ces points n’appartiennent pas nécessairement à M , parce que M peut être moins
que cl M ; en fait, tous les points de frontière appartiennent à M si et seulement si M = cl M ,
c.-à-d., si et seulement si M est fermé).
La frontière d’un ensemble est fermée (comme intersection de deux ensembles fermés cl M
et de Rn \ int M ; le dernier ensemble est fermé étant le complément d’un ensemble ouvert, voir
Chapitre 1). De la définition de la frontière,

M ⊂ int M ∪ ∂M [= cl M ],

de sorte qu’un point de M est soit un point intérieur de M ou un point de frontière de M .

Intérieur relatif. Plusieurs objets qu’on verra dans la suite possèdent des bonnes propriétés
seulement dans l’intérieur de l’ensemble lié à leur construction et peuvent perdre ces propriétés
aux points de frontière de l’ensemble ; c’est pourquoi dans beaucoup de cas nous sommes par-
ticulièrement intéressés par les points intérieurs des ensembles et voulons que l’ensemble de ces
points soit assez “ massif”. Que faire si ce n’est pas le cas, par exemple, s’il n’y a aucun point
intérieur du tout (considérez à un segment dans un plan) ? Il s’avère que dans ces cas nous
pouvons employer un bon substitut de l’intérieur “normal” – intérieur relatif défini comme suit :

Définition 2.1.3 [Intérieur relatif] Soit M ⊂ Rn . Nous disons qu’un point x ∈ M est
relativement intérieur pour M , si M contient l’intersection d’une assez petite boule centrée
en x avec Aff(M ) :

∃r > 0 Br (x) ∩ Aff(M ) ≡ {y | y ∈ Aff(M ), |y − x| ≤ r} ⊂ M.

L’ensemble de tous les points relativement intérieurs de M s’appelle son intérieur relatif [nota-
tion : ri M ].

Par exemple l’intérieur relatif d’un singleton est le singleton lui-même (puisqu’un point dans
l’espace 0-dimensional est identique comme boule de n’importe quel rayon positif) ; de même,
l’intérieur relatif d’un ensemble affine est l’ensemble lui-même. L’intérieur d’un segment [x, y]
(x = y) dans Rn est vide dès que n > 1 ; contrairement à ceci, son intérieur relatif est non vide
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES45

indépendamment de n et est l’intervalle (x, y) – le segment avec des points extrémaux supprimés.
Géométriquement parlant, l’intérieur relatif est l’intérieur que nous obtenons en considérant M
comme sous-ensemble de son enveloppe affine (le dernier, géométriquement, n’est rien que Rk ,
k étant la dimension affine de Aff(M )).
Nous pouvons jouer avec la notion de l’intérieur relatif de la même manière qu’avec celle de
l’intérieur, à savoir :
– comme Aff(M ) est fermé (Chapitre 1, Section 1.4.1) et contient M , il contient également
le plus petit parmi les ensembles fermés contenant M , c.-à-d, cl M . Ainsi nous avons les
analogues suivants d’inclusions (2.1) :

ri M ⊂ M ⊂ cl M [⊂ Aff(M )]; (2.2)

– nous pouvons définir frontière relative ∂ri M = cl M \ri M qui est un ensemble fermé
contenu dans Aff(M ), et, comme pour le “vrai” intérieur et la “vraie” frontière, nous
avons
ri M ⊂ M ⊂ cl M = ri M + ∂ri M.
Naturellement, si Aff(M ) = Rn , alors l’intérieur relatif devient l’intérieur habituel, de même
pour la frontière ; ce pour sûr est le cas quand int M = ∅ (car alors M contient une boule B, et
donc l’enveloppe affine de M est le Rn entier, qui est l’enveloppe affine de B).

Bonnes propriétés topologiques d’ensembles convexes


Un ensemble M dans Rn peut posséder une topologie très “pathologique” : les deux inclusions
dans la chaine
ri M ⊂ M ⊂ cl M
peuvent être très “peu denses”. Par exemple, si M est l’ensemble de nombres rationnels du
segment [0, 1] ⊂ R. Alors ri M = int M = ∅ – puisque n’importe quel voisinage de chaque réel
rationnel contient des réels irrationnels – tandis que cl M = [0, 1]. Ainsi, ri M est “incompara-
blement plus petit” que M , cl M est “incomparablement plus grand”, et M est contenu dans sa
frontière relative (d’ailleurs, qu’est-ce que cette frontière relative ?).
La proposition suivante montre que la topologie d ensembles convexes est bien meilleure
qu’elle pourrait être pour un ensemble arbitraire.

Théorème 2.1.1 Soit M un ensemble convexe dans Rn . Alors


+
(i) L’intérieur int M , la fermeture cl M et l’intérieur relatif ri M sont convexes ;
(ii) si M est non vide, alors son intérieur relatif est non vide ;
(iii) la fermeture de M est identique a la fermeture de son intérieur relatif :

cl M = cl ri M

(en particulier, chaque point de cl M est la limite d’une suite des points de ri M )
(iv) l’intérieurs relatif reste inchangé quand nous remplaçons M avec sa fermeture cl M :

ri M = ri cl M.

Preuve :
(ii) soit M un ensemble convexe non vide, montrons que ri M =  ∅. Il suffit de considérer le
cas quand Aff(M ) est l’espace entier Rn . En effet, par translation de M nous pouvons toujours
46 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

supposer que Aff(M ) contient 0, c.-à-d. est un sous-espace linéaire. Comme nous savons du
chapitre précèdent, un sous-espace linéaire dans Rn , en ce qui concerne les opérations linéaires
et la structure Euclidienne, est équivalent à un certain Rk . Puisque la notion d’intérieur relatif
traite seulement les structures linéaires et Euclidiennes, nous ne perdons rien en identifiant
Aff(M ) à Rk et le prenant en tant que notre univers au lieu de l’univers original Rn . Ainsi, dans
le reste de la preuve (ii) nous supposons que Aff(M ) = Rn , et ce que nous devrions prouver est
que l’intérieur de M (ce qui dans le cas en question est identique à l’intérieur relatif) est non
vide.
Selon Theorem 1.3.1, Aff(M ) = Rn possède une base a0 , ..., an affine qui consiste en des
vecteurs de M . Puisque a0 , ..., an appartiennent à M et M est convexe, l’enveloppe convexe
entière des vecteurs – le simplex Δ avec les sommets a0 , ..., an – est contenue dans M . En
conséquence, un point intérieur du simplex est certainement un point intérieur de M ; ainsi,
afin de montrer que int M = ∅, il suffit de montrer que l’intérieur de Δ est non vide, comme il
devrait être selon l’intuition géométrique.
La preuve du dernier fait est comme suit : comme a0 , ..., an est, par sa construction, une
base affine de Rn , chaque point x ∈ Rn est une combinaison affine des points de la base. Les
coefficients λi = λi (x) de la combinaison – les coordonnées barycentriques de x par rapport à la
base – sont des solutions du système suivant des équations :

n 
n
λi ai = x; λi = 1,
i=0 i=0

ou, coordonnée par coordonnée,


a01 λ0 + a11 λ1 + ... + an1 λn = x1
a02 λ0 + a12 λ1 + ... + an2 λn = x2
..... ..... ..... ..... = ... ; (2.3)
a0n λ0 + a1n λ1 + ... + ann λn = xn
λ0 + λ2 + ... + λn = 1
(apq est la q-ème entrée du vecteur ap ). C’est un système linéaire de n + 1 equations à n + 1
inconnus. Le système homogène correspondant a seulement la solution triviale – en effet, une
solution non triviale du système homogène nous donnerait une combinaison linéaire non triviale
nulle de ai avec la somme de coefficients nulle ce qui contredit à l’indépendance affine de a0 , ..., an
(ils sont affinement indépendants puisqu’ils forment une base affine de Rn ). Il en suit que si A est
la matrice du système, elle est non singulière, de sorte que la solution λ(x) dépende linéairement
(et, par conséquent, de façon continue) de la partie droite, c.-à-d. de x.
Maintenant prenons n’importe quel x = x0 avec λi (x0 ) > 0, par exemple, le centre du
simplex :

n
x0 = (n + 1)−1 ai .
i=0

Par continuité des λi (·), il y a un voisinage de x0 – la boule Br (x0 ) centré en x0 du rayon positif
r - où les fonctions λi sont encore positives :

x ∈ Br (x0 ) ⇒ λi (x) ≥ 0, i = 0, ..., n.

et la dernière relation signifie que chaque x ∈ Br (x0 ) est une combinaison affine de ai avec des
coefficients positifs, c.-à-d. est une combinaison convexe des vecteurs, et donc x appartient à Δ.
Ainsi, Δ contient un voisinage de x0 , de sorte que x0 soit un point intérieur de Δ.
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES47

(iii) : On doit montrer que la fermeture de ri M est exactement la même que la fermeture de
M . En fait, on va montrer encore plus :

Lemme 2.1.1 Soit x ∈ ri M et y ∈ cl M . Alors tous les points du demi-segment [x, y),

[x, y) = {z = (1 − λ)x + λy | 0 ≤ λ < 1}

appartiennent à l’intérieur relatif de M .

Preuve du Lemme. Soit Aff(M ) = a + L, L étant un sous-espace linéaire ; alors

M ⊂ Aff(M ) = x + L.

Soit B une boule unité dans L :

B = {h ∈ L |  h ≤ 1}.

Comme x ∈ ri M , il existe un rayon positif r tel que

x + rB ⊂ M. (2.4)

Par ailleurs, comme y ∈ cl M , nous avons y ∈ Aff(M ) (voir (2.2)). De plus, pour tout  > 0 il
existe y  ∈ M tel que |y  − y| ≤  ; comme y  et y sont dans Aff(M ), le vecteur y − y  est dans
L, et donc dans B. Ainsi
(∀ > 0) : y ∈ M + B. (2.5)
Maintenant, soit z ∈ [x, y), alors
z = (1 − λ)x + λy
avec un certain λ ∈ (0, 1). Il nous faut démontrer que z est relativement intérieur pour M , c.-à-d.
que il existe r  > 0 tel que
z + r  B ⊂ M. (2.6)
Grâce à (2.5), pour tout  > 0 nous avons

λ 
z+B ≡ (1−λ)x+λy+B ⊂ (1−λ)x+λ[M +B]+B = (1−λ)[x+ B+ B]+λM. (2.7)
1−λ 1−λ
Notons que pour tous t , t non négatifs

t B + t B ⊂ (t + t )B.

En effet, si u ∈ t B et v ∈ t B, c.-à-d.  u ≤ t et  v ≤ t , alors, par l’inégalité de triangle,


 u + v ≤ t + t , c.-à-d. u + v ∈ (t + t )B. A partir de cette inclusion on obtient de (2.7)

(1 + λ)
z + B ⊂ (1 − λ) x + B + λM
1−λ
pour tout  > 0. En choisissant  assez petit, nous pouvons rendre le coefficient devant B dans
la partie droite ≤ r (voir (2.4)) ; pour ce choix de , nous avons, par (2.4),

(1 + λ)
x+ B ⊂ M,
1−λ
48 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

et on arrive à
z + B ⊂ (1 − λ)M + λM = M
(la dernière égalité est dû à la convexité de M ). Ainsi, z ∈ ri M .
Notre Lemme implique immédiatement (iii). Effectivement, cl ri M ne peut être que plus
petite que cl M : cl ri M ⊂ cl M , de sorte que tout ce que nous avons besoin à montrer est
l’inclusion inverse : cl M ⊂ cl ri M c.-à-d. que chaque point y ∈ cl M est une limite d’une suite
de points de ri M . C’est immédiat : nous pouvons supposer M non vide (autrement, les ensembles
en question sont vides et coincident l’un avec l’autre), de sorte que par (ii) il existe un point
x ∈ ri M . Selon le Lemme, le demi-segment [x, y) appartient à ri M , et y est la limite d’une suite
des points de ce demi-segment, par exemple, de la suite xi = n1 x + (1 − n1 )y.
Une consequence intéressante du Lemme 2.1.1 est suivante :
+
Corollaire 2.1.2 Soit M un ensemble convexe. Alors toute combinaison convexe

λi xi
i

des points xi ∈ cl M où au moins un terme avec le coefficient positif correspond à un xi ∈ ri M


est un point de ri M .
(iv) : Le résultat est évidemment vrai quand M est vide, ainsi supposons que M est non vide.
L’inclusion ri M ⊂ ri cl M est évident, et tout ce que nous avons besoin à montrer est l’inclusion
inverse. Alors soit z ∈ ri cl M , et montrons que z ∈ ri M . Soit x ∈ ri M (nous savons déjà que le
dernier ensemble est non vide). Considérez le segment [x, z] ; puisque z est dans l’intérieur relatif
de cl M , nous pouvons prolonger un peu ce segment par le point z sans quittercl M , c.-à-d. qu’il
existe y ∈ cl M tel que z ∈ [x, y). Et maintenant, z ∈ [x, y), avec x ∈ ri M , y ∈ cl M , on obtient
par Lemme 2.1.1 que z ∈ ri M .
Nous voyons de la preuve du Théorème 2.1.1 que pour obtenir la fermeture d’un ensemble
convexe (non vide), il suffit le soumettre “à la fermeture radiale”, c.-à-d. choisir un point
x ∈ ri M et prendre tous les rayons dans Aff(M ) commençant par x et regarder l’intersection
de ce rayon (disons, l) avec M . Une telle intersection sera un ensemble convexe sur la droite
qui contient un demi-voisinage x, c.-à-d. soit un segment [x, yl ], ou le rayon entier l, ou un
demi-intervalle [x, yl ). Dans les deux premiers cas nous n’avons rien à faire ; dans le dernier
cas nous ajoutons yl à M . Après avoir parcouru tous les rayons, quand tous les points finaux
”manqués” yl sont ajoutés à M , nous obtenons la fermeture de M . Pour voir le rôle qui joue
la convexité dans cette construction, on peut considerer l’ensemble non convexe de nombres
rationnels de [0, 1] ; l’intérieur (≡ l’intérieur relatif) de cet ensemble est vide, la fermeture
est [0, 1], et il n’y a aucune possibilité de reconstituer la fermeture à partir de l’intérieur.

2.2 Théorèmes classiques sur ensembles convexes


2.2.1 Théorème de Caratheodory
Appelons dimension d’un ensemble M convexe non vide (notation : dim M ) la dimension
affine de Aff(M ).

Théorème 2.2.1 [Caratheodory] Soit M ⊂ Rn , et soit dim ConvM = m. Alors tout point
x ∈ ConvM est une combinaison convexe d’au plus m + 1 points de M .
2.2. THEOREMES CLASSIQUES SUR ENSEMBLES CONVEXES 49

Preuve : Soit x ∈ ConvM . Par Proposition 2.1.3 sur la structure de l’enveloppe convexe, x est
une combinaison convexe de certains points x1 , ..., xN de M :


N 
N
x= λi xi , [λi ≥ 0, λi = 1].
i=1 i=1

Choisissons parmi toutes ces représentations de x celle avec le plus petit possible nombre N de
coefficients non nuls, et supposons que c’est la combinaison ci-dessus. J’affirme que N ≤ m + 1
(cette affirmation mène au résultat désiré). En effet, si N > m + 1, alors les points x1 , ..., xN
ne sont pas affinement indépendants (puisque n’importe quel ensemble affinement indépendant
dans Aff(M ) ⊃ M est composé d’au plus de dim Aff(M ) + 1 = m + 1 points, cf. Proposition
1.3.5). Ainsi, certaine combinaison non triviale de x1 , ..., xN avec la somme zéro de coefficients
est nulle :

N 
N
δi xi = 0, [ δi = 0, (δ1 , ..., δN ) = 0].
i=1 i=1
Il en suit que pour tout t la combinaison affine


N
(∗) [λi + tδi ]xi = x.
i=1

Ici à gauche nous avons une combinaison affine des xi . Quand t = 0, c’est une combinaison
convexe – tous les coefficients sont non négatifs. Quand t est grand, ce n’est pas une combinaison
convexe, puisque certains δi sont négatifs (en effet, pas tous les δi sont zéro, et la somme de δi
est 0). Il existe, évidemment, le plus grand t pour lequel la combinaison (*) a des coefficients
non négatifs, à savoir
λi
t∗ = min .
i:δi <0 |δi |

Pour cette valeur de t, la combinaison (*) a tous les coefficients non négatifs, et au moins un des
coefficients est zéro. Ainsi, nous avons représenté x comme une combinaison convexe de moins
de N vecteurs de M .

2.2.2 Théorème de Radon


Théorème 2.2.2 [Radon] Soit S ensemble d’au moins n + 2 points x1 , ..., xN dans Rn . Alors
cet ensemble peut être divisé en deux ensembles non vides S1 et S2 dont les enveloppes convexes
ont un point commun : il existe une partition I ∪ J = {1, ..., N }, I ∩ J = ∅, de l’ensemble
d’indices {1, ..., N } en deux ensemble non vides I et J et les combinaisons convexe des points
{xi , i ∈ I}, {xj , j ∈ J} qui coincident, c.-à-d. qu’il existe αi , i ∈ I, and βj , j ∈ J, tels que
   
αi xi = βj xj ; αi = βj = 1; αi , βj ≥ 0.
i∈I j∈J i j

Preuve. Comme N > n + 1, les points x1 , ..., xN ne sont pas affinement indépendants (car dans
Rn tout ensemble affinement indépendant contient au plus n + 1 éléments). Ainsi, il existe un
combinaison non triviale de xi égale 0 avec la somme nulle des coefficients :


N 
N
λi xi = 0, [ λi = 0, (λ1 , ..., λN ) = 0].
i=1 i=1
50 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

Soit I = {i | λi ≥ 0}, J = {i | λi < 0} ; alors I et J ne sont pas vides et forment une partition
de {1, ..., N }. Nous avons  
a≡ λi = (−λj ) > 0
i∈I j∈J

(rappelez-vous que la somme des λi est nulle et tous les λi ne sont pas zéros). Si on pose

λi −λj
αi = , i ∈ I, βj = , j ∈ J,
a a
on obtient  
αi ≥ 0, βj ≥ 0, αi = 1, βj = 1,
i∈I j∈J

et ⎛ ⎞
    
N
−1 ⎝
[ αi xi ] − [ βj xj ] = a [ λi xi ] − [ (−λj )xj ]⎠ = a−1 λi xi = 0.
i∈I j∈J i∈I j∈J i=1

2.2.3 Théorème de Helley


Théorème 2.2.3 [Helley, I] Soit F une famille finie d’ensembles convexes dans Rn . On suppose
que n’importe quels n + 1 ensembles de la famille ont un point commun. Alors tous les ensembles
ont un point commun.

Preuve : montrons le résultat par récurrence en nombre N d’ensembles dans la famille. Le cas
de N ≤ n + 1 est évident. Supposons maintenant que nous avons prouvé le théorème pour toutes
les familles avec un certain nombre N ≥ n + 1 d’ensembles, et soit S1 , ..., SN , SN +1 une famille
de N + 1 ensembles convexes qui satisfait les conditions du Théorème de Helley ; nous devrions
montrer que l’intersection des ensembles S1 , ..., SN , SN +1 est non vide.
En supprimant de notre famille de N +1 ensembles l’ensemble Si , nous obtenons la famille de
N ensemble qui satisfait les conditions du Théorème de Helley et ainsi, par l’hypothèse inductive,
possède une intersection non vide de ses membres :

(∀i ≤ N + 1) : T i = S1 ∩ S2 ∩ ... ∩ Si−1 ∩ Si+1 ∩ ... ∩ SN +1 = ∅.

Choisissons un point xi dans chaque ensemble Ti (non vide). Nous obtenons N + 1 ≥ n + 2


points de Rn . Comme nous le savons du Théorème de Radon, nous pouvons diviser l’ensemble
d’indices {1, ..., n + 1} en deux sous-ensembles non vides I et J de telle manière qu’une certaine
combinaison convexe x des points xi , i ∈ I, soit simultanément une combinaison convexe des
points xj , j ∈ J. Pour accomplir la preuve il suffit de vérifier que x appartient à tous les ensembles
S1 , ..., SN +1 . En effet, soit i∗ un indice de notre ensemble d’indices, montrons que x ∈ Si∗ . Nous
avons i∗ ∈ I, ou i∗ ∈ J. Dans le premier cas tous les ensembles Tj , j ∈ J, sont contenus dans Si∗
(puisque Si∗ participe à toutes les intersections qui donnent T i avec i = i∗ ). En conséquence,
tous les points xj , j ∈ J, appartiennent à Si∗ , et donc x, qui est une combinaison convexe de ces
points, appartient également à Si∗ (tous nos ensembles sont convexes !), comme requis. Dans le
deuxième cas le raisonnement semblable indique que tous les points xi , i ∈ I, appartiennent à
Si∗ , et donc x, qui est une combinaison convexe de ces points, appartient à Si∗ .
Dans la version mentionnée ci-dessus du Théorème de Helley nous avons traité les familles
finies d’ensembles convexes. Pour étendre ce résultat au cas des familles infinies, nous devons
renforcer légèrement les conditions :
2.2. THEOREMES CLASSIQUES SUR ENSEMBLES CONVEXES 51


Théorème 2.2.4 [Helley, II] Soit F une famille d’ensembles convexes dans Rn . Suppo-
sons que
(a) tous les n + 1 ensembles de la famille on un point commun,
et
(b) chaque ensemble de la famille est fermé, et l’intersection des ensembles d’une certaine
sous-famille finie est bornée (par exemple, un des ensembles dans la famille est borné).
Alors tous les ensembles de la famille on un point commun.

Preuve : Par le théorème précédent, tous les sous-familles finies de F ont les intersections
non vides, et ces intersections sont convexes (puisque l’intersection de n’importe quelle famille
des ensembles convexes est convexe par Théorème 2.1.2) ; grâce à (a) ces intersections sont
également fermées. Ajoutant à F toutes les intersections des sous-familles finies de F , nous
obtenons une famille plus nombreuse F  qui consiste en des ensembles convexes fermés, et
n’importe quel sous-famille finie de cette famille plus nombreuse a encore une intersection
non vide. Par ailleurs, (b) implique que cette nouvelle famille contient un ensemble borné Q.
Puisque tous les ensembles sont fermés, la famille d’ensembles

{Q ∩ Q | Q ∈ F }

est une famille emboitée d’ensembles compacts (c.-à-d. une famille d’ensembles compacts avec
l’intersection non vide de toute sous-famille finie) ; par le théorème bien connu d’analyse, une
telle famille a une intersection non vide 3) .

3. ) voici la preuve de ce théorème : supposez, au contraire, que les ensembles compacts Qα , α ∈ A en question
ont l’intersection vide. Choisissez un ensemble Qα∗ de la famille ; pour chaque x ∈ Qα∗ il y a un ensemble Qx dans
la famille qui ne contient pas x – autrement x serait un point commun de tous nos ensembles. Puisque Qx est fermé,
il y a une boule ouverte Vx centrée en x qui n’intersecte pas Qx . Les boules Vx , x ∈ Qα∗ , forment une couverture
ouverte de l’ensemble compact Qα∗ , et donc on peut en extraire une sous-couverture Vx1 , ..., VxN finie de Qα∗ .
Puisque Qxi n’intersecte pas Vxi , nous en concluons que l’intersection de la sous-famille fini Qα∗ , Qx1 , ..., QxN est
vide, qui est une contradiction
52 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION

2.3 Exercices
Exercice 2.1 Lesquels parmi les ensembles ci-dessous sont convexes :

– {x ∈ Rn | ni=1 x2i = 1}

– {x ∈ Rn | ni=1 x2i ≤ 1}

– {x ∈ Rn | ni=1 x2i ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi ≤ 1}
– {x ∈ Rn | maxi=1,...,n xi ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi = 1
– {x ∈ Rn | mini=1,...,n xi ≤ 1}
– {x ∈ Rn | mini=1,...,n xi ≥ 1}
– {x ∈ Rn | mini=1,...,n xi = 1}

Faites selon votre choix au moins 3 parmi 5 exercices suivants 2.2 - 2.6 :

Exercice 2.2 Prouvez la Proposition 2.1.4.

Exercice 2.3 Prouvez le résultat contenu dans l’Exemple 2.1.5.

Exercice 2.4 Prouvez la Proposition 2.1.5.

Exercice 2.5 Prouvez la partie (i) du Théorème 2.1.1.

Exercice 2.6 Prouvez le Corollaire 2.1.2.

Exercice 2.7 Δ 4) Prouvez le résultat suivant(Théorème de Kirchberger) :


Supposons que X = {x1 , ..., xk } et Y = {y1 , ..., ym } sont des ensembles finis dans Rn , avec
k + m ≥ n + 2, et que tous les points x1 , ..., xk , y1 , ..., ym sont distincts. Supposons aussi que
quelque soit le sous-ensemble S ⊂ X ∪ Y compris de n + 2 points, les enveloppes convexes des
ensembles X ∩ S et Y ∩ S ont l’intersection vide. Alors les enveloppes convexes de X et de Y
ont aussi l’intersection vide.
Indication : supposez, au contraire, que les enveloppes convexes de X et de Y intersectent, de
sorte que

k 
m
λi xi = μj y j
i=1 j=1
 
pour certains λi , i λi = 1, et certains μj , j μj = 1, non négatives. Maintenant, regardez
l’expression de ce type avec le plus petit possible nombre de coefficients non nuls λi , μj .

Exercice 2.8 Δ Montrez le théorème suivant (de Grunbaum) sur la partition de masse :
Soit x1 , ..., xN des points de Rn , et chaque point xi est assigné une masse non négative μi , la
somme des masses de tous les points étant égaux à 1. Alors il existe un point x∗ tel que n’importe
quel hyperplan {x | aT x = aT x∗ }, a = 0, passant par le point x∗ coupe l’espace Rn en deux
4. ) les exercices marqués Δ sont d’une nature toute particulière. Trois de ces exercices suffisent pour obtenir
une excellente note à l’examen théorique
2.3. EXERCICES 53

demi-espaces fermés de la masse au moins 1


n+1 chacun, c.-à-d. que pour n’importe quel a = 0
on a
 1
μi ≥
n+1
i| aT xi ≤aT x∗

et
 1
μi ≥ .
n+1
i| aT xi ≥aT x∗

Indication : considérez la famille de tous les demi-espaces fermés de μ-measure > n/(n + 1).
Montrez que la famille satisfait les hypothèses du Théorème de Helley et vérifiez que n’importe
quel point qui appartient à l’intersection des ensembles de la famille satisfait la conclusion du
théorème de Grunbaum.
54 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
Chapitre 3

Théorème de séparation Théorie


d’inégalités linéaires

Dans ce chapitre nous allons répondre à la question suivante : supposons que nous avons
deux ensembles convexes dans Rn , quand pouvons-nous les séparer par un hyperplan, c.-à-d.
trouver une forme linéaire non nulle qui en tout point d’un des ensembles est supérieur ou
égal à sa valeur en n’importe quel point de l’autre ensemble ? Nous verrons que la réponse à
cette question forme, dans un sens, le coeur de l’analyse convexe ; elle est à la base de tous nos
développements ultérieurs.

3.1 Théorème de séparation


Un hyperplan M dans Rn (un ensemble affine de dimension n − 1), comme nous le savons
de la Section 1.4.2, est un ensemble de niveau d’une forme linéaire non triviale :

∃a ∈ Rn , b ∈ R, a = 0 : M = {x ∈ Rn | aT x = b}.

Nous pouvons, par conséquent, associer à l’hyperplan (ou à la forme linéaire associée a, qui est
définie uniquement, à la multiplication par un réel non nul près) les ensembles suivants :
– les demi-espaces ouverts ”haut” et ”bas” M ++ = {x ∈ Rn | aT x > b}, M −− = {x ∈ Rn |
aT x < b} ;
ces ensembles sont convexes, et puisqu’une forme linéaire est continue, et ces ensembles
sont donnés par des inégalités strictes sur la valeur d’une fonction continue, ils sont en
effet ouverts.
Notez que puisque a est uniquement défini par M , à la multiplication par un réel non nul
près, ces demi-espaces ouverts sont uniquement défini par l’hyperplan, à la permutation
du ”haut” et du ”bas” près (qu’un demi-espace est le ”haut”, dépend du choix particulier
de a) ;
– les demi-espaces ”haut” et ”bas” fermés M + = {x ∈ Rn | aT x ≥ b}, M − = {x ∈ Rn |
aT x ≤ b} ;
Ceux-ci sont également les ensembles convexes, fermés (puisqu’ils sont donnés par des
inégalités non-strictes sur la valeur d’une fonction continue). On le voit facilement que
le demi-espace supérieur ou inférieur fermé est la fermeture du demi-espace ouvert cor-
respondant, et M lui-même est la frontière (c.-à-d. le complément de l’intérieur dans la
fermeture) de chacun des quatre demi-espaces.

55
56 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Il est evident que nos demi-espaces et M lui-même donnent une partition de Rn :


Rn = M −− ∪ M ∪ M ++
(partition par des ensembles disjoints),
Rn = M − ∪ M +
(M est une intersection des ensembles à droite).
Maintenant nous définissons la notion de base de séparation propre de deux ensembles
convexes T et S par un hyperplan.
Définition 3.1.1 [Séparation propre] On dit qu’un hyperplan
M = {x ∈ Rn | aT x = b} [a = 0]
sépare proprement deux ensembles convexes (non vides) S et T , si
(i) les ensembles appartiennent aux demi-espaces fermés opposés définis par M ,
et
(ii) au moins un des ensembles n’est pas contenu dans M .
Nous disons que S et T peuvent être proprement séparés, s’il existe un hyperplan qui sépare
proprement S et T , c.-à-d. si il existe a ∈ Rn tel que
sup aT x ≤ inf aT y
x∈S y∈T

et
inf aT x < sup aT y.
x∈S y∈T

Par exemple,
– l’hyperplane donné par aT x ≡ x2 − x1 = 1 dans R2 sépare proprement les ensembles
convexes polyhedraux T = {x ∈ R2 | 0 ≤ x1 ≤ 1, 3 ≤ x2 ≤ 5} et S = {x ∈ R2 | x2 =
0; x1 ≥ −1} ;
– l’hyperplane aT x ≡ x = 1 dans R1 sépare proprement les ensembles convexes S = {x ≤ 1}
et T = {x ≥ 1} ;
– l’hyperplane aT x ≡ x1 = 0 in R2 sépare proprement les ensembles S = {x ∈ R2 | x1 <
0, x2 ≥ −1/x1 } et T = {x ∈ R2 | x1 > 0, x2 > 1/x1 } ;
– l’hyperplane aT x ≡ x2 − x1 = 1 does not sépare proprement les ensembles convexes
S = {x ∈ R2 | x2 ≥ 1} et T = {x ∈ R2 | x2 = 0} ;
– l’hyperplane aT x ≡ x2 = 0 in R2 sépare les ensembles S = {x ∈ R2 | x2 = 0, x1 ≤ −1} et
T = {x ∈ R2 | x2 = 0, x1 ≥ 1}, mais ne les sépare pas proprement.
Notez que la partie de la définition 3.1.1 commençant par ”c.-à-d.” contient un certain
résultat (notamment, que la description verbale de la séparation est identique à la description
”analytique” indiquée). Je n’ai aucun doute que vous comprenez que ces deux descriptions
sont équivalentes.
Parfois nous sommes intéressés également par une notion plus forte de séparation :
Définition 3.1.2 [Séparation forte] Nous disons que deux ensembles non vides S et T dans Rn
peuvent être séparés fortement, si il existent deux hyperplans parallèles distincts qui séparent S
et T , c.-à-d. s’il existe a ∈ Rn tel que
sup aT x < inf aT y.
x∈S y∈T
3.1. THEOREME DE SEPARATION 57

Il est évident que le

Séparation forte → séparation propre


Nous pouvons immédiatement produire des exemples d’ensembles qui peuvent être séparés
proprement sans pouvoir être séparés fortement, par exemple, les ensembles {x ∈ R2 | x1 >
0, x2 ≥ 1/x1 } and {x ∈ R2 | x1 < 0, x2 ≥ −1/x1 }.
On arrive maintenant à la question :
quand une paire d’ensembles convexes non vides S et T dans Rn peut être séparée [propre-
ment ou fortement] ?
La question plus importante est celle sur la possibilité de séparation propre. La réponse est
suivante :

Théorème 3.1.1 [Théorème de séparation] Deux ensembles convexes non vides S et T dans
Rn peuvent être séparé proprement si et seulement si leurs intérieurs relatifs sont disjoints :

ri S ∩ ri T = ∅.

Nous allons maintenant démontrer ce théorème fondamental.

3.1.1 Nécessité
La nécessité de la propriété indiquée (la partie ”seulement si” du théorème) est plus ou moins
évidente. En effet, supposez que les ensembles sont proprement séparables, de sorte que pour un
certain a ∈ Rn non nul

sup aT x ≤ inf aT y; inf aT x < sup aT y. (3.1)


x∈S y∈T x∈S y∈T

Nous devrions mener à une contradiction l’hypothèse que ri S et ri T ont un certain point commun
x̄. Supposons que c’est le cas ; alors de la première inégalité dans (3.1) il est évident que x̄
maximise la fonction linéaire f (x) = aT x sur S et donne simultanément le minimum cette
fonction sur T . Maintenant, nous avons le simple résultat suivant :
Lemme 3.1.1 La fonction linéaire f (x) = aT x peut atteindre son maximum ou
minimum sur un ensemble convexe Q dans un point x ∈ ri Q si et seulement si la
fonction est constante sur Q.
Preuve : la partie ”si” est évidente. Pour prouver la partie ”seulement si”,
supposons que x̄ ∈ ri Q est le minimiseur de f (x) sur Q et y est un point arbitraire
de Q ; nous devrions montrer que f (x̄) = f (y). Il n’y a rien à prouver si y = x̄, ainsi
nous pouvons supposer que y = x̄. Comme x̄ ∈ ri Q le segment [y, x̄], qui est contenu
dans Q, peut être prolongé un peu par le point x̄, sans quitter Q, de sorte qu’il existe
z ∈ Q tel que x̄ ∈ [y, z), c.-à-d. x̄ = (1 − λ)z + λy avec un certain λ ∈ (0, 1]. Comme
y = x̄, nous avons en fait λ ∈ (0, 1). Et puisque f est linéaire, nous avons

f (x̄) = (1 − λ)f (z) + λf (y).

Comme f (x̄) ≤ min{f (y), f (z)} et 0 < λ < 1, cette relation peut être satisfaite
seulement si f (x̄) = f (y) = f (z).
58 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Revenant à nos considérations liées à (3.1), nous concluons du Lemme que sous notre hy-
pothèse (∃x̄ ∈ ri S ∩ ri T , c.-à-d. quand f (x) = aT x atteint son maximum sur S et son minimum
T en x̄) f est constante (et égale à aT x̄) sur les deux ensembles S et T ; mais ceci contredit la
deuxième inégalité dans (3.1).
Ainsi, nous avons montré que la condition ri S ∩ ri T = ∅ est nécessaire pour la séparation
propre de S et T .

3.1.2 Suffisance
La preuve de la partie suffisance du théorème de séparation est beaucoup plus instructif. Il
y a plusieurs manières de la prouver, et nous allons suivre le chemin qui passe par Lemme de
Farkas.

Lemme de Farkas Homogène


Soit a1 , ..., aN et a des vecteurs de Rn . On s’intéresse à la question : quand a appartient-il au
cône engendré par les vecteurs a1 , ..., an . Autrement dit, quand est-ce que a peut être représenté
comme une combinaison linéaire ai avec des coefficients non négatifs ? Une condition nécessaire
pour ceci est évidente : si

n
a= λi ai [λi ≥ 0, i = 1, ..., N ]
i=1
alors tout vecteur h qui a des produits scalaires non négatifs avec tous les ai doit aussi avoir le
produit scalaire non négatif avec a :

a= λi ai & λi ≥ 0 ∀i & hT ai ≥ 0 ∀i ⇒ hT a ≥ 0.
i

Le Lemme de Farkas Homogène dit que cette condition est aussi suffisante :

Lemme 3.1.2 [Lemme de Farkas Homogène] Soit a, a1 , ..., aN vecteurs de Rn . Le vecteur a est
une combinaison conique des vecteurs ai si et seulement si tout vecteur h qui satisfait hT ai ≥ 0,
i = 1, ..., N , satisfait aussi hT a ≥ 0.

Preuve : La nécessité – la partie “seulement si”– est évidente. Pour prouver la suffisance de la
condition du lemme supposons que chaque vecteur h satisfaisant hT ai ≥ 0 ∀i satisfait également
hT a ≥ 0, et montrons que a est une combinaison conique des vecteurs ai .
Il n’y a rien à montrer quand a = 0 – le vecteur zéro naturellement est une combinaison
conique des vecteurs ai . Ainsi, dorénavant nous supposons que a = 0.
10 . Soit
Π = {h | aT h = −1},
et soit
Ai = {h ∈ Π | aTi h ≥ 0}.
Π est un hyperplan dans Rn , et chaque Ai est un ensemble polyhedral contenu dans cet hyper-
plan.
20 . Nous savons que l’intersection de tous les ensembles Ai , i = 1, ..., n, est vide (puisqu’un
vecteur h de l’intersection aurait les produits intérieurs non négatifs avec tout le ai et le produit
intérieur −1 avec a, et on sait qu’un tel h n’existe pas). Choisissons la plus petite, en nombre
d’éléments, sous-famille de la famille A1 , ..., AN qui a toujours l’intersection vide de ses membres.
3.1. THEOREME DE SEPARATION 59

Sans perte de généralité nous pouvons supposer que c’est la famille A1 , ..., Ak . Ainsi, l’intersection
de tous les k ensembles A1 , ..., Ak est vide, mais l’intersection de n’importe quels ensembles de
k − 1 de la famille A1 , ..., Ak est non vide.
30 . J’affirme que
– A. a ∈ Lin({a1 , ..., ak }) ;
– B. Les vecteurs a1 , ..., ak sont linéairement indépendants.
A. est facile : en supposant que a ∈ E = Lin({a1 ..., ak }), nous obtenons que la
projection orthogonale f du vecteur a sur le complément orthogonal E ⊥ de E est non
nul. Le produit scalaire de f et de a est identique que f T f , c.-à-d. est positif, alors
que f T ai = 0, i = 1, ..., k. Si on pose h = −(f T f )−1 f , nous voyons que hT a = −1
et hT ai = 0, i = 1, ..., k. En d’autres termes, h appartient à chaque ensemble Ai ,
i = 1, ..., k, par la définition de ces ensembles, et donc l’intersection des ensembles
A1 , ..., Ak est non vide, qui est une contradiction.
La preuve de B. est donné par le Théorème de Helley I. En effet, supposons
que a1 , ..., ak sont linéairement dépendants, et menons cette supposition à une
contradiction. Comme a1 , ..., ak sont linéairement dépendants, la dimension m de
E = Lin({a1 , ..., ak }) est pour sûr < k. Nous savons déjà du A. que a ∈ E. Soit
maintenant Ai = Ai ∩ E. J’affirme que toutes les familles de k − 1 des ensembles Ai
ont une intersection non vide, alors que tous ces k ensembles ont l’intersection vide.
La deuxième affirmation est évidente – puisque A1 , ..., Ak ont l’intersection vide, le
même est le cas avec leurs parties Ai . La première affirmation est également facile-
ment verifiable : prenons par exemple k − 1 des ensembles “à trait” A1 , ..., Ak−1 . Par
la construction, l’intersection de A1 , ..., Ak−1 est non vide ; soit h un vecteur de cette
intersection, c.-à-d. un vecteur avec les produits scalaires non négatifs avec a1 , ..., ak−1
et le produit −1 avec a. En remplaçant h avec sa projection orthogonale h sur E, nous
ne changeons pas tous ces produits intérieurs, puisque ce sont des produits avec des
vecteurs de E ; ainsi, h est également un point commun de A1 , ..., Ak−1 , et puisque
c’est un point de E, c’est aussi bien un point commun des ensembles A1 , ..., Ak−1 .
Maintenant nous pouvons accomplir la preuve du B. : les ensembles A1 , ..., Ak sont
les ensembles convexes appartenant à l’hyperplan Π = Π∩ E = {h ∈ E | aT h = −1}
(Π est en effet un hyperplan dans E car 0 = a ∈ E) dans le sous-espace linéaire m-
dimensionnel E. Π est un ensemble affine de dimension l = dim E−1 = m−1 < k−1
(dans notre cas m = dim E < k), et tous l + 1 ≤ k − 1 des sous-ensembles convexes
A1 ,...,Ak de Π ont une intersection non vide. Du Théorème de Helley I (qui naturel-
lement est valide pour les sous-ensembles convexes d’un ensemble affine, la dimension
affine de l’ensemble jouant le rôle de n dans la formulation originale) il découle que
tous les ensembles A1 , ..., Ak ont un point commun, ce qui, comme nous le savons,
n’est pas le cas. Ainsi, par contradiction, on obtient que a1 , ..., ak sont linéairement
indépendant.
40 . Le A. et le B. étant dans notre disposition, nous pouvons facilement finir la preuve de la
partie“si” du lemme de Farkas comme suit : par A. nous avons

k
a= λi ai
i=1

avec des coefficients réels λi , et tous ce que nous avons à montrer est que ces coefficients ne
sont pas négatifs. Supposons, au contraire, que, par exemple λ1 < 0. Augmentons le système
60 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

(linéairement indépendant par B.) des vecteurs a1 , ..., ak par les vecteurs f1 , ..., fn−k à une base
dans Rn (ce qui est possible par Théorème 1.2.1). Soit maintenant ξi (x) soit les coordonnées
d’un vecteur x dans cette base (ξ1 correspond à a1 ). La fonction ξ1 (x) est une forme linéaire de
x et donc, selon la Section 1.1.2, est le produit intérieur avec un certain vecteur :

ξ1 (x) = f T x ∀x.

Nous avons
f T a = ξ1 (a) = λ1 < 0
et
1, i = 1,
f T ai =
0, i = 2, ..., k,
ainsi f T ai ≥ 0, i = 1, ..., k. On en déduit par la normalisation appropriée de f que le vecteur
|λ1 |−1 f , appartient aux A1 , ..., Ak , ce qui est la contradiction désirée – par la construction, cette
intersection est vide.

Remarque 3.1.1 Une conséquence immédiate du Lemme de Farkas Homogène est que l’enve-
loppe conique

N
Cone ({a1 , ..., aN }) = {a = λi ai | λi ≥ 0, i = 1, ..., N }
i=1

d’un ensemble fini non vide est l’ensemble de toutes les solutions d’un certain système d’inégalités
linéaires homogènes non strictes, notamment,

{hT a ≥ 0 ∀(h : hT ai ≥ 0, i = 1, ..., N )}.

Ainsi, l’enveloppe conique d’un ensemble fini de vecteurs est convexe et fermé.

Du Lemme de Farkas au Théorème de séparation


Maintenant nous sommes enfin équipés pour prouver la partie suffisance du Théorème de
Séparation.

Étape 1. Séparation d’un polytope convexe et d’un point extérieur au polytope.


Commençons par le cas apparemment très particulier du théorème, où un des ensembles est un
polytope – l’enveloppe convexe de l’ensemble fini de points x1 , ..., xN – et l’autre est un singleton
T = {x}. Nous devrions montrer que si x ∈ S = Conv({x1 ..., xN }), il existe alors une forme
linéaire qui sépare proprement x et S. En fait, nous prouverons même l’existence de la séparation
forte.    
x xi
Associons aux vecteurs n-dimensionnels x1 , ..., xN , x les vecteurs a = et ai =
1 1
(n + 1)-dimensionnels, i = 1, ..., n. J’affirme que a n’appartient pas à l’enveloppe conique de
a1 , ..., an . En effet, si a serait représentable comme une combinaison linéaire de a1 , ..., aN avec
des coefficients non négatifs, alors, en regardant la (n + 1)-ème coordonnée dans une telle
représentation, on déduirait que la somme des coefficients devrait être 1, de sorte que cette
représentation, en réalité, est une combinaison convexe de x1 , ..., xn avec la valeur x, ce qu’on a
supposé impossible.
3.1. THEOREME DE SEPARATION 61

Comme a n’appartient pas à l’enveloppe


  conique de a1 , ..., aN , par le Lemme de Farkas
f
Homogène, il existe un vecteur h = ∈Rn+1 qui “sépare” a et a1 , ..., aN , c.-à-d. que
α

hT a > 0, hT ai ≤ 0, i = 1, ..., N.

Ainsi, bien sûr,


hT a > max hT ai .
i

Puisque les composants dans tous les produits scalaires hT a, hT ai qui proviennent des (n + 1)-
émes coordonnées sont égaux entre eux, nous en concluons que le composant n-dimensionnel f
de h sépare x et x1 , ..., xN :

[hT a − α =] f T x > max f T xi [= max hT ai − α].


i i

Comme pour toute combinaison convexe y = i λi xi des points xi on a f T y ≤ maxi f T xi , on
conclut, finalement, que
fTx > max f T y,
y∈Conv({x1 ,...,xN })

et f sépare fortement T = {x} et S = Conv({x1 , ..., xN }).

Remarque 3.1.2 Un sous-produit de notre raisonnement est qu’un polytope – l’enveloppe


convexe
Conv({v1 , ..., vN })
d’un ensemble non vide fini de vecteurs – est l’ensemble de solutions d’un système d’inégalités
linéaires non strictes, notamment, du système

{f T x ≤ max f T vi ∀f }.
i=1,...,N

Il en suit que un polytope est non seulement convexe, mais également fermé.

Étape 2 Séparation d’un ensemble convexe et d’un point extérieur. Soit maintenant
S un ensemble non vide convexe arbitraire et T = {x} est un singleton extérieur à S (à la
différence avec l’Étape 1 est que maintenant on ne suppose pas que S soit un polytope).
Tout d’abord, sans perte de généralité nous pouvons supposer que S contient 0 (si ce n’est
pas le cas, nous pouvons soumettre S et T à la translation S → S − a, T → T − a avec a ∈ S).
Soit L l’enveloppe linéaire de S. Si x ∈ L, la séparation est facile : en prenant comme f la
composante de x orthogonale à L, nous obtenons

f T x = f T f > 0 = max f T y,
y∈S

et f sépare fortement S et T = {x}.


Il nous reste le cas x ∈ L. Comme S ⊂ L, x ∈ L et x ∈ S, L est un sous-espace linéaire
diffèrent de 0. Soit Σ = {h ∈ L | |h| = 1} la sphère unité dans L. C’est un ensemble fermé et
borné dans Rn (la fermeture vient du fait que | · | est continu et L est fermé, cf. la section 1.4.1).
En conséquence, Σ est un ensemble compact (Proposition 1.1.1). Montrons qu’il existe f ∈ Σ
qui sépare x et S dans le sens que
f T x ≥ sup f T y. (3.2)
y∈S
62 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Supposons, au contraire, qu’un tel f n’existe pas. Sous notre hypothèse pour chaque h ∈ Σ il
existe yh ∈ S tel que
hT yh > hT x.
Puisque l’inégalité est stricte, il existe un voisinage Uh du vecteur h tels que

(h )T yh > (h )T x ∀h ∈ Uh . (3.3)

La famille d’ensembles ouverts {uh }h∈Σ que nous obtenons est une couverture de Σ ; puisque
Σ est compact, nous pouvons en extraire une couverture finie Uh1 , ..., UhN de Σ. Soit y1 =
yh1 , y2 = yh2 , ..., yN = yhN les points correspondants et soit le polytope S  = Conv({y1 , ..., yN })
est engendré par ces points. En raison de l’origine de yi , ils sont tous des points de S ; puisque S
est convexe, le polytope S  est contenu dans S et, par conséquent, ne contient pas x. Par Étape
1, x peut être fortement séparé de S  : il existe a tels que

aT x > sup aT y. (3.4)


y∈S 

Comme x et S  ⊂ S appartiennent à L, nous pouvons supposer que a ∈ L (il suffit de remplacer a


avec sa projection orthogonale sur L, ce qui ne change pas les deux côtés de (3.4)). En normalisant
a, nous pouvons également avoir |a| = 1, de sorte que a ∈ Σ. Maintenant nous obtenons une
contradiction : comme a ∈ Σ et Uh1 , ..., UhN forment une couverture de Σ, a appartient à un
certain Uhi . Or, par la construction de Uhi (regardez (3.3) nous avons

aT yi ≡ aT yhi > aT x,

ce qui contredit (3.4) car yi ∈ S  .


La contradiction que nous obtenons montre que il existe f ∈ Σ qui satisfait (3.2). Montrons
qu’en fait f sépare proprement S et {x} : étant donné (3.2), tout ce que nous avons à montrer est
que la forme linéaire f (z) = f T z n’est pas constante sur S. C’est évident : par notre hypothèse
initiale, 0 ∈ S, de sorte que si f (z) étaient constants sur S, f soit orthogonal à n’importe
quel vecteur de S et par conséquent à L = Lin(S), ce qui est impossible, puisque, encore par
construction, f ∈ L and |f | = 1.
Un lecteur curieux pourrait remarquer qu’avec le raisonnement de l’Étape 2 nous sommes
entrés dans un monde complètement nouveau. En effet, toutes nos considérations à partir du
début de ce chapitre jusqu’au l’Étape 2 ont été ceux d’algèbre rationnelle – nous n’avons ja-
mais employé des notions comme la convergence, la compacité, etc., en employant seulement
l’arithmétique rationnelle (pas de racines carrées, etc.). Ceci signifie que tous les résultats
de la présente partie, y compris le Lemme de Farkas Homogène et ceux de l’Étape 1, de-
meurent valides si nous remplaçons, par exemple, notre univers Rn avec l’espace Qn des
vecteurs rationnels de dimension n (ceux avec des coordonnées rationnelles ; naturellement,
la multiplication devrait être limitée à la multiplication par des nombres rationnels dans cet
espace). La version “rationnelle” du Lemme de Farkas ou du théorème sur la séparation d’un
vecteur rationnel d’un polytope “rationnel” par une forme linéaire rationnelle sont certai-
nement d’intérêt (par exemple, en Programmation en Nombres Entiers). Contrairement à
ces “considérations d’algèbre rationnelle”, dans l’étape 2 nous avons employé la compacité
– quelque chose exploitant fortement le fait que notre univers est Rn et pas, par exemple,
Qn (dans le dernier espace les ensembles bornés et fermés ne sont pas nécessairement com-
pacts). Notez également que nous ne pourrions pas éviter des “choses” comme cet argument
de compacité à l’Étape 2, puisque le résultat même que nous prouvons est vrai dans Rn mais
il est faut, par exemple, dans Qn . En effet, considérez “le plan rationnel” – l’univers de tous
3.1. THEOREME DE SEPARATION 63

les vecteurs à deux dimensions avec les coordonnées rationnelles, soit S le demi-plan dans ce
plan rationnel donné par l’inégalité linéaire

x1 + αx2 ≤ 0,

avec α irrationnel. Bien sûr, S est “convexe” en Q2 ; mais on peut le voir immédiatement
qu’un point extérieur à cet ensemble ne peut pas être séparé de S par une forme linéaire
rationnelle.

Étape 3. Séparation de deux ensembles convexes non vides disjoints Maintenant


nous sommes en mesure de montrer que deux ensembles non vides et convexes d’intersection
vide S et T peuvent être proprement séparés. À cet effet considérons la différence arithmétique

Δ = S − T = {x − y | x ∈ S, y ∈ T }.

Nous savons de la Proposition 2.1.5 que Δ est un ensemble convexe (et, naturellement, non
vide) ; comme S ∩ T = ∅, Δ ne contient pas 0. Par Étape 2, nous pouvons proprement séparer
Δ et {0} : il existe h tels que

f T 0 = 0 ≥ sup f T z & f T 0 > inf f T z.


z∈Δ z∈Δ

Autrement dit,
0≥ sup [f T x − f T y] & 0 > inf [f T x − f T y],
x∈S,y∈T x∈S,y∈T

ce qui signifie que f sépare proprement S et T .

Étape 4. Séparation d’ensembles convexes non vides avec les intérieurs relatifs dis-
joints. Soit S et T deux ensembles convexes non vides avec les intérieurs relatifs dont l’in-
tersection est vide. Nous devrions montrer que S et T peuvent être proprement séparés. C’est
immédiat : comme nous savons du Théorème 2.1.1, les ensembles S  = ri S et T  = ri T sont non
vides et convexes ; puisque nous sommes donnés que leur intersection est vide, ils peuvent être
proprement séparés par Étape 3 : il existe f tels que

inf f T x ≥ sup f T x & sup f T x > inf  f T x. (3.5)


x∈T  y∈S  x∈T  y∈S

On peut voir facilement que f sépare proprement S et T . En effet, les quantités sur les côtés
gauches et droits de la première inégalité de (3.5) ne changent pas si nous remplaçons S  avec
cl S  et T  avec cl T  ; par Théorème 2.1.1, cl S  = cl S ⊃ S and cl T  = cl T ⊃ T , et nous
obtenons inf x∈T f T x = inf x∈T  f T x, et, de la même façon, supy∈S f T y = supy∈S  f T y. Ainsi,
nous obtenons de (3.5)
inf f T x ≥ sup f T y.
x∈T y∈S

Il suffit de remarquer que T  ⊂ T , S  ⊂ S, et la seconde inégalité dans (3.5) implique

sup f T x > inf f T x.


x∈T y∈S
64 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

3.1.3 Séparation forte


Nous savons du Théorème de Séparation ce qui sont les conditions nécessaires et suffi-
santes simples pour la séparation propre de deux ensembles convexes - leurs intérieurs relatifs
devraient être disjoints. Il y a également une condition nécessaire et suffisante simple pour
que deux ensembles soient fortement séparables :

Proposition 3.1.1 Deux ensembles convexe non vides S et T dans Rn peuvent être
séparés fortement si et seulement si la “distance entre ces ensembles est positive” :

ρ(S, T ) = inf |x − y| > 0.


x∈S,y∈T

Ceci est, en particulier, le cas quand un des ensembles est compact, l’autres est fermé et les
ensembles sont disjoints.

Preuve . La nécessité est évidente : si S et T peuvent être séparés proprement, c.-à-d. que
pour un certain a on a
α ≡ sup aT x < β ≡ inf aT y,
x∈S y∈T

alors pour toute paire (x, y) avec x ∈ S et y ∈ T on a

β−α
|x − y| ≥
|a|

(autrement on aurait par l’inégalité de Cauchy (1.2)

aT y − aT x = aT (y − x) ≤ |a||y − x| < β − α,

qui est impossible).


Pour prouver la suffisance, considérons l’ensemble Δ = S − T . C’est un ensemble convexe
qui ne contient pas de vecteurs de longueur plus petite que ρ(S, T ) > 0 ; par conséquent, il
n’intersecte pas la boule B d’un certain rayon positif r centré à l’origine. En conséquence,
par le Théorème de Séparation Δ peut être séparé proprement de B : il existe a tel que

inf aT z ≥ sup aT (x − y) & sup aT z > inf aT (x − y). (3.6)


z∈B x∈S,y∈T z∈B x∈S,y∈T

Du seconde inégalité nous obtenons que a = 0 ; ainsi inf z∈B aT z < 0, et la première inégalité
dans (3.6) dit que a sépare fortement S et T .
La partie “en particulier” de l’énoncé de la proposition est un simple exercice d’analyse :
deux sous-ensembles de Rn fermés disjoints non vides dont un est compact sont à une distance
positive l’un de l’autre.

3.2 Théorie de systèmes finis d’inégalités linéaires


Le théorème de séparation et l’outil principal que nous avons développé en le prouvant –
le Lemme de Farkas homogène sont des résultats les plus utiles et les plus utilisés de l’analyse
convexe. En ce moment nous emploierons le Lemme de Farkas pour obtenir un des résultats les
plus importants de la théorie de systèmes (finis) d’inégalités linéaires – le Théorème Général sur
l’Alternative.
Un système fini d’inégalités linéaires peut être écrit comme

Sx < p
(I)
Nx ≤ q
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 65

où x ∈ Rn est le vecteur d’inconnus, S (”stricte”) and N (”non-stricte”) sont des matrices fixes
de n colonnes et de certains nombres de lignes, et p, q sont les vecteurs fixes des dimensions
appropriées. Notez que nous pouvons aussi considerer dans ce cadre les égalités linéaires, en
représentant chaque égalité par une paire d’inégalités opposées non strictes.
La question principale liée au système (I) est si le système est soluble. Si nous savons répondre
à une telle question, nous savons également répondre à beaucoup d’autres questions, par exemple,
<
– si une inégalité linéaire donnée aT x ≤ b est une conséquence de (I), c.-à-d. est satisfait
=
par toutes les solutions du système (I)
(une inégalité est une conséquence de (I) si et seulement si le système (I) augmenté par la
négation de cette inégalité n’a aucune solution) ;
– si un point donné x̄ qui satisfait (I) minimise la forme linéaire donnée aT x sur l’ensemble
de solutions de (I)
(en effet, répondre à cette question est la même chose que dire si le système (I) augmenté
d’inégalité aT x < aT x̄ n’a aucune solution) ;
etc.
Il est clair comment certifier que (I) a une solution – nous devrions simplement la montrer.
Ce qui est bien moins clair, est comment certifier que (I) n’a aucune solution 1 . Heureusement,
dans notre problème il existe la condition suffisante pour (I) à être insoluble :
(*) si vous pouvez dériver à partir des relations du système une inégalité évidemment fausse,
alors (I) est clairement insoluble.
(*) est une remarque “philosophique”, pas un vrai résultat. Essayons de donner à cette
remarque un sens mathématique : la manière la plus simple de dériver de (I) une inégalité-
conséquence est de combiner les inequalities/equations du système d’une façon linéaire, c.-à-d.
– multiplier les inégalités strictes par des réels non négatifs et ajouter les inégalités
résultantes, ce qui nous amène à l’inégalité

σ T Sx ≤ σ T p;

ici σ ≥ 0 est le vecteur de nos réels non négatifs. Notez que si σ = 0, nous avons droit de
remplacer dans l’inégalité résultante ≤ avec < ;
– de la même façon, nous pouvons multiplier les inégalités non strictes par des réels non
négatifs et ajouter les inégalités résultantes, obtenant l’inégalité

ν T N x ≤ ν T q;

ici ν ≥ 0 est le vecteur correspondant des réels non négatifs ;


– faire la somme des inégalités obtenues, en arrivant à l’inégalité

(σ T S + ν T N )x ? σ T p + ν T q, (3.7)

où ? doit être remplacé par ≤ dans le cas σ = 0 et par < dans le cas σ = 0.
1. c’est un phénomène bien connu de la vie quotidienne : il est facile de certifier que vous avez fait quelque
chose, par exemple, avez appris le Russe : vous pouvez simplement parler en Russe. Mais comment pourriez-vous
certifier que vous n’avez pas fait quelque chose, par exemple, jamais étudié le Russe ? Un des avantages principaux
du système judiciaire dans “des bons pays démocratiques”, est que ce n’est pas à vous de montrer que vous n’êtes
pas coupable de quelque chose, c’est les autres qui devraient montrer que vous l’êtes
66 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

Nous pouvons faire l’observation suivante


(**) si l’inégalité obtenue (3.7) n’a aucune solution, alors le système (I) n’a également aucune
solution.
Le fait que notre observation est juste est complètement évident de l’origine de (3.7) : par
la construction, toute solution à (I) doit satisfaire (3.7).
Maintenant, quand est-ce que l’inégalité linéaire (3.7) n’a aucune solution ? Ceci est le cas
seulement si son côté gauche est 0 et ne dépend pas de la valeur de x, autrement l’inégalité serait
soluble, indépendamment de la valeur du côté droit. Ainsi, nous devrions avoir [σ T S +ν T N ]x = 0
pour tout x, ou, ce qui est identique,

S T σ + N T ν = 0.

Nos autres conclusions dépendent de la valeur de σ : si σ = 0, alors le signe dans l’inégalité est
≤, et il n’a aucune solution si le côté droit est strictement négatif ; dans le cas σ = 0 le signe
dans l’inégalité est <, et il n’a aucune solution si son côté droit est nonpositive. Ainsi, nous
avons établi le principe suivant :
Pour certifier que (I) n’a pas de solution il suffit de montrer la condition suivante :
( !) : Ils existent des vecteurs
σ ≥ 0, ν ≥ 0
de dimensions égales au nombre des lignes dans S et N respectivement, tels que

S T σ + N T ν = 0,

et, de plus,
 0 : σT p + ν T q ≤ 0 ;
– dans le cas σ =
– dans le cas σ = 0 : ν T q < 0.
Le fait crucial pour la théorie d’inégalités linéaires est que la condition ( !) est non seulement
suffisante, comme nous le venons d’observer, mais également nécessaire pour que (I) soit une
contradiction :

Théorème 3.2.1 [Théorème Général sur l’Alternative ] ( !) est nécessaire et suffisant pour que
(I) n’ait aucune solution.

Nous prouverons la partie “nécessité” de ce théorème (la partie de “suffisance” est déjà prouvée)
à la fin de cette section. Pour le moment je voudrais faire quelques remarques.
– L’avantage principal du Théorème 3.2.1 est qu’il reformule un certain résultat négatif –
“(I) n’a aucune solution” – comme un résultat positif : existence de certains vecteurs σ
et ν satisfaisant un certain nombre de relations explicites et vérifiables. C’est pourquoi ce
théorème est la clef des nombreux résultats utiles, par exemple, du Théorème de Dualité
pour la Programmation Linéaire.
– Il y a beaucoup de corollaires, ou, plutôt, cas particuliers du Théorème 3.2.1 (nous
énumérerons certains de ces corollaires ci-dessous). Tous ces cas sont obtenues en spécifiant
explicitement la condition ( !) pour la forme particulière des données de (I). Je ne pense
pas que vous devriez apprendre “par coeur” toutes les formes particulières du théorème ; il
est beaucoup plus facile de se rappeler quelle est la signification réelle du théorème – “un
système des inégalités linéaires n’a aucune solution si et seulement si en combinant d’une
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 67

façon linéaire les inégalités du système un peut obtenir une inégalité contradictoire” – et
regarder (c’est toujours tout à fait claire) ce qui ce ”reçu” signifie dans le cas particulier
dans le ca en question.
– La partie la plus importante, celle de la nécessité, du Théorème 3.2.1 est liée fortement au
fait que le système (I) en question est composé d’inégalités linéaires. Malheureusement,
sa généralisation naturelle au cas des inégalités plus générales, par exemple, les inégalités
quadratiques, n’est pas juste. Par exemple, le système d’inégalités quadratiques

x2 ≤ 1; y 2 ≤ 1; −(x + y)2 ≤ −5

avec deux inconnus x et y n’a aucune solution ; mais il n’y a pas de combinaison linéaire
de ces inégalités avec des coefficients non négatifs qui est “clairement contradictoire”, c.-
à-d. est de la forme 0 ≤ −1. C’est réellement un désastre – en fait c’est la raison de
l’existence des problèmes combinatoires compliqués pour lesquels aucun algorithme de
solution “efficace” n’est connu.
Nous allons maintenant formuler quelques cas particuliers du Théorème 3.2.1 qui sont souvent
employés ; c’est un bon exercice de dériver ces corollaires du Théorème Général sur l’Alternative.
Le premier cas est

Théorème 3.2.2 [Théorème de Gordan sur l’Alternative] Un des systèmes d’inégalités

(I) Ax < 0, x ∈ Rn ,

(II) AT y = 0, 0 = y ≥ 0, y ∈ Rm ,
A étant une matrice m × n, a une solution si et seulement si l’autre n’a aucune solution.

Le deuxième cas particulier est le Lemme de Farkas Homogène qui nous est déjà connu. Sa
“nouvelle forme” (équivalente à l’original) est suivante :

Théorème 3.2.3 [Lemme de Farkas Homogène] L’inégalité linéaire homogène

aT x ≤ 0 (3.8)

est une conséquence d’un système d’inégalités linéaires homogènes

Nx ≤ 0 (3.9)

si et seulement si
a = AT ν
pour un certain vecteur ν non negatif.

Notez que l’implication ”Théorème 3.2.1⇒Lemme de Farkas Homogène” est sans intérêt réel –
nous n’avons toujours pas montrer la partie de nécessité du théorème ; en fait notre preuve sera
basée exactement sur le Lemme de Farkas homogène.
Le cas suivant est

Théorème 3.2.4 [Lemme de Farkas Non-homogène] Une inégalité linéaire

aT x ≤ p (3.10)
68 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

est une conséquence d’un système soluble d’inégalités linéaires

Nx ≤ q (3.11)

si est seulement si elle est une “consequence linéaire” du système et de l’inégalité triviale

0T x ≤ 1.

Autrement dit, si elle peut être obtenue en prenant la somme pondérée, avec des coefficients non
négatifs, d’inégalités du système et de cette inégalité triviale.
La formulation algébrique de cet énonce : (3.10) est une conséquence du système soluble
(3.11) si et seulement si
a = NT ν
pour un vecteur ν non négatif tel que
ν T q ≤ p.

Le dernier exemple est

Théorème 3.2.5 [Théorème de Motzkin sur l’Alternative] Le système

Sx < 0, N x ≤ 0

n’a pas de solutions si et seulement si le système

S T σ + N T ν = 0, σ ≥ 0, ν ≥ 0, σ = 0

a une soultion.

3.2.1 Preuve de la partie ”nécessité” du Théorème sur l’Alternative


Nous dérivons le résultat du Lemme de Farkas Homogène. La situation est suivante :
nous savons que le système
Sx < p
(I)
Nx ≤ q
n’a pas de solutions, et nous avons à démontrer l’existence de σ et ν exigés par ( !).
À cet effet nous allons étendre notre espace des variables x par trois variables, u, v et t.
On considère le système suivant d’inégalités non strictes homogènes :

Sx + ue − vp ≤ 0
 N x − vq ≤ 0
(I ) ,
−u + t ≤ 0
−v + t ≤ 0

e étant le vecteur de uns e = (1, ..., 1) de dimension égale au nombre de lignes de S.


J’affirme que (I ) implique l’inégalité homogène linéaire

(I ) t ≤ 0.

En effet, s’il existait une solution (x, u, v, t) de (I ) avec t > 0, on obtiendrait des deux
dernières inégalités de (I ) u ≥ t > 0, v ≥ t > 0 ; alors les deux premières inégalités dedans
(I ) impliqueraient
x u x
S ≤ p − e < p, N ≤ q,
v v v
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 69

c.-à-d. (I) serait soluble, ce qui n’est pas le cas par hypothèse.
Ainsi, (I ) implique (I ). Par le Lemme de Farkas Homogène, ils existent des vecteurs
non négatifs σ, ν et des réels α, β non négatif tels que le vecteur des coefficients
⎛ ⎞
0x
⎜ 0u ⎟
⎝ ⎠
0v
1t

dans la partie gauche de l’inégalité (I ) (l’indice marque ici la dimension du vecteur corres-
pondant) est égal à la matrice transposée du système (I) fois le vecteur
⎛ ⎞
σ
⎜ν ⎟
⎝ ⎠.
α
β

C.-à-d.,
⎛ ⎞⎛ ⎞ ⎛ ⎞
ST NT 0 0 σ 0x
⎜ eT 0 −1 0 ⎟ ⎜ ν ⎟ ⎜ 0u ⎟
⎝ T ⎠⎝ ⎠ = ⎝ ⎠.
−p −q T 0 −1 α 0v
0 0 1 1 β 1t
Autrement dit,

S T σ + N T ν = 0; eT σ = α; pT σ + q T ν = −β; α + β = 1. (3.12)

Montrons que σ et ν sont bien les vecteurs exigés par ( !), ceci accomplira la preuve. En effet,
nous savons que σ, ν, (α et β) sont des vecteurs (respectivement, des réels) non négatifs par
construction ; et nous venons d’établir que S T σ + N T ν = 0.
Maintenant, si σ = 0, alors de la deuxième relation de (3.12) nous avons α = 0, d’où,
grâce à la quatrième relation, β = 1. Ainsi, de la troisième relation, q T ν = pT σ + q T ν < 0,
comme requis dans ( !). Si σ = 0, alors les conditions de ( !) sont donnés par la troisième
relation de (3.12).
70 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES

3.3 Exercices
Exercice 3.1 Lesquelles des paires (S, T ) d’ensembles ci-dessous sont (a) proprement séparés
et (b) fortement séparés par la forme linéaire f (x) = x1 :

– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;

– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;

– S = {x ∈ Rn | ni=1 |xi | ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;
– S = {x ∈ Rn | maxi=1,...,n xi ≤ 1}, T = {x ∈  Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 ≥ x22 + ... + x2n } ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 = 1} ;
– S = {x ∈ Rn | x1 = 0, x22 + ... + x2n ≤ 1}, T = {x ∈ Rn | x1 = 0, x2 ≥ 100} ;
– S = {x ∈ R2 | x1 > 0, x2 ≥ 1/x1 }, T = {x ∈ R2 | x1 < 0, x2 ≥ −1/x1 }.

Faites au moins deux exercices de votre choix parmi les Exercices 3.2 - 3.4 :
Exercice 3.2 Dériver le Théorème de Gordan sur l’Alternative (Théorème 3.2.2) du Théorème
Général sur l’Alternative

Exercice 3.3 Dériver le Lemme de Farkas Non homogène (Theorem 3.2.4) du Théorème
Général sur l’Alternative

Exercice 3.4 Dériver Théorème de Motzkin sur l’Alternative (Theorem 3.2.5) du Théorème
Général sur l’Alternative

Exercice 3.5 Marquer parmi les systèmes suivants d’inégalités linéaires avec deux inconnus
ceux ont des solutions par “s”, ceux qui n’ont pas de solutions par “a” (pour les systèmes qui
sont solubles, précisez une solution ; pour les systèmes non soluble, expliquez pourquoi ils le
sont) ⎧
:
⎨x + y ≥ 2
– 2x − y ≥ 1

⎧ −5x + y ≥ −5
⎨x + y ≥ 2
– 2x − y ≥ 1

⎧ −5x + y ≥ −4
⎨x + y ≥ 2
– 2x − y ≥ 1

−5x + y ≥ −3.5
Exercice 3.6 Considérez l’inégalité linéaire
x+y ≤2
et le système d’inégalités linéaires
x≤1
−x ≤ −100
Notre inégalité est clairement une conséquence du système – elle est satisfaite à chaque solution
du système (simplement parce qu’il n’y a aucune solution du système du tout). Selon le Lemme
de Farkas Non homogène, l’inégalité devrait être une conséquence linéaire du système et de
l’inégalité triviale 0 ≤ 1, c.-à-d. il devrait exister ν1 , ν2 non negatifs tels que
     
1 1 −1
= ν1 + ν2 , ν1 − 100ν2 ≤ 2,
1 0 0
3.3. EXERCICES 71

ce qui n’est certainement pas le cas. Quelle est la raison de la “contradiction” observée ?

Exercice 3.7  Montrer le résultat suivant :


Soit S un ensemble convexe non vide et fermé de Rn , et soit T = {x} être un
singleton en dehors de S (x ∈ S). Considérez le programme

min{|x − y| | y ∈ S}.

Le programme est soluble et a une solution unique y ∗ , et la forme linéaire aT h,


a = x − y ∗ , sépare fortement T et S :

sup aT y = aT y ∗ = aT x − |a|2 .
y∈S

Remarque : le résultat ci-dessus est un argument principal de la preuve alternative du


Théorème de Séparation. C’est un excellent exercice de dériver le Théorème de Séparation de
ce résultat.
72 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
Chapitre 4

Points Extrêmes. Structure


d’Ensembles Polyhedraux

Le Théorème de Séparation nous permet de mieux comprendre la géométrie d’ensembles


convexes.

4.1 Description externe d’un ensemble convexe fermé. Plans de


support
Tout d’abord, nous allons prouver la caractérisation “externe” d’un ensemble convexe fermé
annoncée dans le Chapitre 2.

Théorème 4.1.1 Tout ensemble convexe fermé M dans Rn est l’ensemble de solutions d’un
système (infini) d’inégalités linéaire non strictes.
Géométriquement : chaque ensemble convexe fermé M ⊂ Rn qui différe du Rn entier est l’in-
tersection de demi-espaces fermés, notamment, de tous les demi-espaces fermés qui contiennent
M.

Preuve : est déjà prête par le Théorème de Séparation. En effet, si M est vide, il n’y a rien
à prouver – un ensemble vide est une intersection des deux demi-espaces fermés appropriés.
Si M est l’espace entier, nous avons rien à montrer non plus – selon notre convention, notre
espace est la solution du système vide d’inégalités linéaires. Maintenant, supposons que M est
convexe, fermé, non vide et différent de l’espace entier. Soit x ∈ M ; alors x est à une distance
positive de M parce que M est fermé, et donc il existe un hyperplan approprié qui sépare x et
M (Proposition 3.1.1) :
∀x ∈ M ∃ax : aTx x > αx ≡ sup aTx y.
y∈M

Pour tout x ∈ M le demi-espace fermé Hx = {y | aTx y ≤ αx } contient M et ne contient pas x ;


par conséquent,
M = ∩x∈M Hx
et M n’est pas plus grand (et, bien sûr, pas plus petit) que l’intersection de tous les demi-espaces
fermés qui contiennent M .
Parmi les demi-espaces fermés qui contiennent un ensemble M fermé convexe et propre (c.-à-
d. non vide et différent de l’espace entier) les plus intéressants sont les demi-espaces “extrêmes”

73
74 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

– ceux dont l’hyperplan de frontière touche M . Cette notion a un sens pour un ensemble convexe
arbitraire (non nécessaire fermé), mais nous l’employons pour un ensemble fermé seulement, et
nous allons inclure la condition de fermeture dans le définition :

Définition 4.1.1 [Plan de support] Soit M un ensemble convexe fermé dans Rn , et soit x un
point de la frontière relative de M . Un hyperplan

Π = {y | aT y = aT x} [a = 0]

est appelé plan de support de M en x, s’il sépare proprement M et {x}, c.-à-d. si

aT x ≥ sup aT y & aT x > inf aT y. (4.1)


y∈M y∈M

Notez que puisque x est un point de la frontière relative de M et donc appartient à cl M = M ,


la premiere inégalité dans (4.1) est en fait une égalité. Ainsi, une définition équivalente d’un
plan de support est comme suit :

Soit M un ensemble fermé convexe et x un point de la frontière relative de M .


L’hyperplan {y | aT y = aT x} est appelé plan de support de M en x, si la forme
linéaire a(y) = aT y atteint en x son maximum sur M et n’est pas constante M .
Par exemple, l’hyperplan {x1 = 1} dans Rn est plan de support à la boule Euclidienne {x |
|x| ≤ 1} en x = e1 = (1, 0, ..., 0).
La propriété la plus importante du plan de support est son existence :

Proposition 4.1.1 [Existence de l’hyperplan de support] Soit M un ensemble convexe fermé


dans Rn et x un point de la frontière relative de M . Alors
(i) il existe au moins un hyperplan de support de M en x ;
(ii) si Π est plan de support de M en x, alors l’intersection M ∩ Π est d’une dimension affine
moindre que celle de M (rappelez vous que la dimension affine d’un ensemble est, par définition,
la dimension de son enveloppe affine).

Preuve : (i) est facile : si x est un point de la frontière relative de M , alors il est extérieur à
l’intérieur relatif de M , et donc {x} et ri M peuvent être séparés proprement par le Théorème
de Séparation ; l’hyperplan de separation est exactement l’hyperplan de support de M en x
hyperplan.
Pour prouver (ii) notez que si Π = {y | aT y = aT x} est plan de support de M en x ∈ ∂ri M ,
alors l’ensemble M  = M ∩ Π est ensemble convexe non vide (il contient x), et la forme linéaire
aT y est constante sur M  et donc (pourquoi ?) sur Aff(M  ). En même temps, la forme n’est pas
constante sur M par définition de plan de support. Ainsi, Aff(M  ) est un sous-ensemble propre
(plus petit que Aff(M ) entier) de Aff(M ), et la dimension affine de Aff(M  ) (c.-à-d. la dimension
affine de M  ) est plus petite que la dimension de Aff(M ) (= la dimension affine de M ). 1) .

1. ) dans le dernier raisonnement nous avons utilisé le fait suivant : si P ⊂ Q sont deux ensemble affines, alors
la dimension affine de P est ≤ que celle de Q, avec ≤ étant = si et seulement si P = Q. Nous connaissons un
résultat semblable pour les sous-espaces linéaires (voir Chapitre 1) ; prouvez svp que ce résultat (immédiat) est
aussi valide pour les ensembles affines
4.2. REPRESENTATION MINIMALE D’ENSEMBLES CONVEXES : POINTS EXTREMES75

4.2 Représentation minimale d’ensembles convexes : points


extrêmes
Plan de support est un outil très utile pour prouver l’existence de points extrêmes d’un
ensemble convexe. Géométriquement, un point extrême d’un ensemble convexe M est un point
de M qui ne peut pas être obtenu comme une combinaison convexe d’autres points de l’ensemble ;
l’importance de cette notion vient du fait (qu’on va prouver entre temps) que l’ensemble de tous
les point extrêmes d’un “assez bon” ensemble convexe M est la “plus courte instruction du
maçon pour bâtir l’ensemble” – c’est le plus petit ensemble de points dont M est l’enveloppe
convexe.
La définition exacte d’un point extrême est comme suit :

Définition 4.2.1 [Point extrême] Soit M un ensemble convexe non vide dans Rn . Un point
x ∈ M s’appelle un point extrême de M , si il n’existe aucun segment [u, v] ∈ M de longueur
positive pour qui x est un point intérieur, c.-à-d. si la relation

x = λu + (1 − λ)v

avec un certain λ ∈ (0, 1) et u, v ∈ M est possible si et seulement si

u = v = x.

Par exemple, les points extrêmes d’un segment sont exactement ses extrémités ; les points
extrêmes d’un triangle sont ses sommets ; les points extrêmes d’un disque (fermé) dans R2
sont les points du cercle.
Nous avons une définition équivalente de points extrêmes :
+
Proposition 4.2.1 Un point x d’un ensemble convexe M est extrême si et seulement si l’en-
semble M \{x} est convexe.

Il est clair qu’un ensemble convexe M ne possède pas nécessairement de points extrêmes – prenez
comme exemple la boule unité ouverte dans Rn . Cet exemple n’est pas vraiment intéressant –
l’ensemble en question n’est pas fermé. En remplaçant la boule ouverte avec sa fermeture, on
obtient un ensemble (la boule fermée) avec plein de points extrêmes – ces sont tous les points
de la frontière. Ils existent, cependant, des ensembles convexes fermés qui ne possèdent pas de
points extrêmes – par exemple, une droite ou un ensemble affine d’une dimension plus élevée.
Un fait bien sympathique est que l’absence de points extrêmes d’un ensemble M convexe fermé
a toujours une raison standard – l’ensemble contient une droite. Ainsi, un ensemble convexe M
fermé et non vide qui ne contient pas de droites pour sûr possède un point extrême. Et si M est
non vide convexe et, en plus, compact, alors il possède un ensemble tout à fait représentatif de
points extrêmes – leur enveloppe convexe est l’ensemble M entier.

Théorème 4.2.1 Soit M un ensemble convexe fermé et non vide dans Rn . Alors
(i) l’ensemble Ext(M ) de points extrêmes de M est non vide si et seulement si M ne contient
pas de droites ;
(ii) si M est borné, alors M est l’enveloppe convexe de ses points extrêmes :

M = Conv(Ext(M )),

de sorte que chaque point de M est une combinaison convexe des points de Ext(M ).
76 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Notez que la partie (ii) de ce théorème est la version “en dimension finie” du célèbre Théorème
de Krein-Milman.
Preuve : Commençons par (i). La partie ”seulement si” est facile.
Lemme 4.2.1 Soit M un ensemble convexe fermé dans Rn . Supposons que pour
un certain x̄ ∈ M et h ∈ Rn M contient le rayon

{x̄ + th | t ≥ 0}

partant de x̄ et ayant h comme direction. Alors M contient également tous les rayons
parallèles commençant en points de M :

(∀x ∈ M ) : {x + th | t ≥ 0} ⊂ M.

En particulier, si M contient une certaine droite, alors il contient également toutes


les droites parallèles passant par les points de M .

Commentaire. Pour un ensemble convexe M , l’ensemble de toutes les directions


h tels que x + th ∈ M pour un certain x ∈ M et tous t ≥ 0 (par le lemme, tel que
x + th ∈ M pour tout x ∈ M et tout t ≥ 0) s’appelle cône récessif de M [notation :
Rec(M ) ]. Avec le Lemme 4.2.1 on voit immédiatement (prouvez-le !) que Rec(M )
est en effet un cône, et que
M + Rec(M ) = M.
Les directions de Rec(M ) sont appelées directions récessives pour M .
Preuve du lemme est immédiate : si x ∈ M et x̄ + th ∈ M pour tout t ≥ 0, alors,
dû à la convexité, pour tout τ ≥ 0 fixé nous avons
τ
(x̄ + h) + (1 − )x ∈ M

pour tout  ∈ (0, 1). Quand  → +0, l’expression dans le côte gauche tend vers x+τ h,
et, comme M est fermé, x + τ h ∈ M pour tout τ ≥ 0.
Le Lemme 4.2.1 résout nos problèmes avec la partie ”seulement si”. En effet, ici nous devons
montrer que si M possède des points extrêmes, alors M ne contient pas de droites, ou, ce qui
est identique, que si M contient des droites, alors il n’a aucun point extrême. Mais le dernier
résultat est immédiat : si M contient une droite, alors, par le lemme, il y a toute une droite
dans M passant par n’importe quel point donné de M , de sorte qu’aucun point ne puisse être
extrême.
Il nous reste à prouver la partie ”si” de (i). Ainsi, dorénavant nous supposons que M ne
contient pas de droites ; notre but est de montrer qu’alors M possède des points extrêmes.
Commençons par le suivant
Lemme 4.2.2 Soit Q un ensemble convexe fermé non vide, soit x̄ un point de la
frontière relative de Q et Π un hyperplan de support à Q en x̄. Alors tous les points
extrêmes de l’ensemble convexe fermé non vide Π ∩ Q sont aussi les points extrêmes
de Q.
Preuve du lemme : D’abord, l’ensemble Π ∩ Q est fermé et convexe (comme
l’intersection des ensembles possédant ces propriétés) ; il n’est pas vide, puisqu’il
4.2. REPRESENTATION MINIMALE D’ENSEMBLES CONVEXES : POINTS EXTREMES77

contient x̄ (Π contient x̄ dû à la définition d’un plan de support, et Q contient x̄ dû


à la fermeture de Q). Deuxièmement, soit a la forme linéaire liée à Π :
Π = {y | aT y = aT x̄},

tel que
inf aT x < sup aT x = aT x̄ (4.2)
x∈Q x∈Q

(voir Proposition 4.1.1). Supposons que y est un point extrême de Π ∩ Q ; nous avons
à montrer que y est un point extrême de Q, c.-à-d. que la décomposition
y = λu + (1 − λ)v

pour certains u, v ∈ Q et λ ∈ (0, 1) est possible seulement si y = u = v. Pour cela


il suffit de vérifier que sous les hypothèses ci-dessus u, v ∈ Π ∩ Q c.-à-d. de montrer
que u, v ∈ Π, car on sait déjà que u, v ∈ Q). En effet nous savons que y est un point
extrême de Π ∩ Q, alors la relation y = λu + (1 − λ)v avec λ ∈ (0, 1) et u, v ∈ Π ∩ Q
implique y = u = v.
Pour montrer que u, v ∈ Π, notez que comme y ∈ Π on a

aT y = aT x̄ ≥ max{aT u, aT v}
(la dernière inégalité résulte de (4.2)). Par ailleurs,

aT y = λaT u + (1 − λ)aT v;

en combinant ces observations avec le fait que λ ∈ (0, 1), on déduit que
aT y = aT u = aT v.

Mais ces égalités impliquent exactement que u, v ∈ Π.


Équipés avec le lemme, nous pouvons facilement prouver (i) par induction en dimension de
l’ensemble M (rappelons, qui c’est la dimension de l’enveloppe affine de M , c.-à-d. la dimension
du sous-espace linéaire L tel que Aff(m) = a + L).
Il n’y a rien à montrer si la dimension de M est zéro, c.-à-d. si M est un point – alors,
naturellement, M = Ext(M ). Maintenant, supposons que nous avons déjà prouvé que Ext(T )
est non vide pour tout ensemble T convexe non vide fermé qui ne contient pas de droites de
dimension k, et prouvons que le même résultat est valide pour les ensembles de dimension k + 1.
Soit M un tel ensemble de dimension k + 1. Puisque M est de dimension positive et ne contient
pas de droites, il est diffèrent de Aff(M ) et donc possède un point de frontière relative x̄ 2) . Selon
Proposition 4.1.1, il existe un hyperplan Π = {x | aT x = aT x̄} qui supporte M en x̄ :
inf aT x < max aT x = aT x̄.
x∈M x∈M

2. )En effet, il existe z ∈ Aff(M )\M , de sorte que le point


xλ = x + λ(z − x)
(x est un point fixe arbitraire de M ) n’appartient pas à M pour un certain λ ≥ 1, tandis que x0 = x appartient
à M . L’ensemble des λ ≥ 0 pour lesquels xλ ∈ M est donc non vide et borné au-dessus ; cet ensemble est fermé
(puisque M est fermé). Alors, il existe le plus grand λ = λ∗ pour lequel xλ ∈ M . J’affirme que xλ∗ est un point
de la frontière relative de M . En effet, par construction c’est un point de M . Si xλ∗ est un point de l’intérieur
de M , alors tout le point xλ avec une valeur λ proche de λ∗ et plus grand que λ∗ appartient à M aussi, ce qui
contredit à l’origine λ∗
78 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Par la même proposition, l’ensemble T = Π ∩ M (qui est fermé, convexe et non vide) est de
dimension affine plus petite que celle de M , c.-à-d., de dimension ≤ k. Évidement, T ne contient
pas de droites (puisque l’ensemble M plus grand n’en contient pas). Par l’hypothèse inductive,
T possède un point extrême, et par le Lemme 4.2.2 ce point est aussi extrême pour M . L’étape
inductive est maintenant complétée, et (i) est prouvé.
Montrons (ii). Ainsi, soit M non vide, convexe, fermé et borné ; nous devons prouver que

M = Conv(Ext(M )).

Il est evident que par convexité de M , l’ensemble à droite est contenu dans celui à gauche. Il
nous reste à prouver que tout x ∈ M est une combinaison convexe des points de Ext(M ). Ici
encore nous employons l’induction sur la dimension de M . Le cas de dimension 0 (quand M
est un point) est trivial. Supposons que le résultat en question est juste pour tout ensemble k-
dimensionnel convexe fermé et borné. Soit M un ensemble convexe fermé et borné de dimension
k + 1. Soit x ∈ M ; pour représenter x comme une combinaison convexe des point de Ext(M ),
dressons à travers x une droite arbitraire l = {x + λh | λ ∈ R} (h = 0) dans l’enveloppe affine
Aff(M ). En se déplaçant le long de cette droite à partir de x dans chacune des deux directions
possibles, nous allons certainement quitter M (puisque M est borné). Comme c’est expliqué
dans le preuve de (i), cela signifie que il existe λ+ et λ− non négatifs tel que les points

x̄± = x + λ± h

appartiennent à la frontière relative de M . Il nous reste à vérifier que x̄± sont des combinaisons
convexes des points extrêmes de M (ça complete la preuve, puisque x est clairement une com-
binaison convexe des point x̄± ). En effet, M admet un hyperplan Π de support en x̄+ ; comme
c’est expliqué dans la preuve de (i), l’ensemble Π ∩ M (qui est convexe, fermé et borné) est d’une
dimension plus petite que celle de M ; par l’hypothèse inductive, le point x̄+ de cet ensemble est
une combinaison convexe des points extrêmes de cet ensemble, et par le Lemme 4.2.2 tout ces
points soin aussi les points extrêmes de M . Ainsi, x̄+ est une combinaison convexe des points
extrêmes de M . Le même raisonnement est valide pour x̄− .

4.3 Structure d’ensembles polyhedraux


Comme le premier fruit de notre développement, nous allons établir un résultat extrêmement
important sur la structure d’un ensemble polyhedral (qui forme la base de la théorie de Pro-
grammation Linéaire).
Selon notre définition (Chapitre 2), un ensemble polyhedral M est l’ensemble de solutions
d’un système fini d’inégalités linéaires non strices :

M = {x ∈ Rn | Ax ≤ b}, (4.3)

A est une matrice de n colonnes et m lignes et b est un vecteur m-dimensionnel. Ceci est la
description externe (“artistique”) d’un ensemble polyhedral ; et quelle est sa description interne
(“maçonnique”) ?
Pour répondre à cette question, considérons la construction suivante. Prenons deux ensembles
de vecteurs fini non vide S (“sommets”) et R (“rayons”) et construisons l’ensemble
  
M (S, R) = Conv(S) + Cone (R) = { λs s + μr r | λs ≥ 0, μr ≥ 0, λs = 1}.
s∈S r∈R s
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 79

Ainsi, nous prenons tout vecteur qui peut être représenter comme une somme d’une combinaison
convexe des points de S et d’une combinaison conique des points de R. L’ensemble M (S, R) est
convexe (comme la somme arithmétique des deux ensembles convexe Conv(S) et Cone (R)). La
description interne promise de la structure de l’ensemble polyhedral est suivante :

Théorème 4.3.1 [Structure d’ensemble polyhedral] Les ensembles de la forme M (S, R) sont
exactement les ensembles polyhedraux non vides : M (S, R) est polyhedral, et chaque ensemble
polyhedral non vide M est M (S, R) pour S et R proprement choisis.
Les polytopes M (S, {0}) = Conv(S) sont exactement les ensembles polyhedraux non vides
et bornés. Les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux (ensembles
donnés par un nombre fini d’inégalités linéaires non strictes homogènes).

Remarque 4.3.1 En plus des résultats du théorème, on peut prouver (nous ne le ferons pas
pour sauver du temps) que dans la représentation d’un ensemble polyhedral non vide M comme
M = Conv(S) + Cone (R)
– la partie “conique” Cone (R) (mais pas l’ensemble R lui-même !) peut être déterminé de
façon unique par M et est exactement le cône récessif de M (voir le commentaire après le Lemme
4.2.1) ;
– si M ne contient pas de droites, alors S peut être choisi comme l’ensemble de tous les
points extrêmes de M .

Nous allons remettre la preuve du théorème jusqu’à la fin du chapitre ; en ce moment permettez-


moi expliquer pourquoi ce théorème est si important – pourquoi c’est tellement bien de connaitre
les deux descriptions interne et externe de l’ensemble polyhedral.
Nous pouvons se poser plusieurs questions naturelles :
– A. Est-il vrai que l’image inverse d’un ensemble polyhedral M ⊂ Rn par une transforma-
tion affine y → P(y) = P y + p : Rm → Rn , c.-à-d. l’ensemble

P −1 (M ) = {y ∈ Rm | P y + p ∈ M }

est polyhedral ?
– B. Est-il vrai que l’image d’un ensemble polyhedral M ⊂ Rn par une transformation affine
x → y = P(x) = P x + p : Rn → Rm , c.-à-d. l’ensemble

P(M ) = {P x + p | x ∈ M }

est polyhedral ?
– C. Est-il vrai que l’intersection des deux ensembles polyhedraux est aussi un ensemble
polyhedral ?
– D. Est-il vrai que la somme arithmétique des deux ensembles polyhedraux est à nouveau
un ensemble polyhedral ?
Les réponses à toutes ces question sont, comme nous allons voir, positives ; ce qui est très
instructif, c’est comment ces réponses sont obtenues.
Il est facile de répondre affirmativement à la question A. à partir de la définition originale –
externe – d’un ensemble polyhedral : si M = {x | Ax ≤ b}, alors, naturellement,

P −1 (M ) = {y | A(P y + p) ≤ b} = {y | (AP )y ≤ b − Ap}

et donc P −1 (M ) est un ensemble polyhedral.


80 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Si vous essayez de répondre affirmativement à B. par l’intermédiaire de la même définition,


vous risquez de tomber en panne – on ne connait pas de façon simple de mettre à jour les inégalités
linéaires définissant un ensemble polyhedral pour obtenir ceux définissant son image, et il n’est
absolument pas clair pourquoi l’image en question serait donnée par un nombre fini d’inégalités
linéaires. Notez, cependant, que on n’a aucune difficulté pour répondre affirmativement à B.
en utilisant la description interne d’un ensemble polyhedral non vide : si M = M (S, R), alors,
évidemment,
P(M ) = M (P(S), P R),
où P R = {P r | r ∈ R} est l’image de R par l’action de la partie homogène de P.
De la même façon, la réponse positive à C. devient évident, si on emploie la description
externe d’un ensemble polyhedral : prendre l’intersection des ensembles de solution des deux
systèmes d’inégalités linéaires non strictes, est exactement la même chose que simplement mettre
ensemble toutes les inégalités des deux systèmes originaux. Et il est très difficile de répondre à
D. en utilisant la description externe d’un polyhedre – que se passe-t-il avec les inégalités quand
on ajoute les solutions des deux systèmes ? Contrairement à cela, la description interne donne
la réponse immédiatement :
M (S, R) + M (S  , R ) = Conv(S) + Cone (R) + Conv(S  ) + Cone (R )
= [Conv(S) + Conv(S  )] + [Cone (R) + Cone (R )]
= Conv(S + S  ) + Cone (R ∪ R )
= M (S + S  , R ∪ R ).
Notez que dans ce calcul nous avons utilisé deux règles qui doivent être justifiées : Conv(S) +
Conv(S  ) = Conv(S + S  ) and Cone (R) + Cone (R ) = Cone (R ∪ R ). La seconde est évidente
par la définition de l’enveloppe conique, et seulement la première doit être vérifiée. Pour la
démontrer, notez que Conv(S) + Conv(S  ) est un ensemble convexe qui contient S + S  et ainsi
contient Conv(S + S  ). L’inclusion inverse est montrée de façon suivante : si
 
x= λi si , y = λj sj
i j

sont des combinaisons convexes des points de S, et de S  respectivement, alors, (vérifiez, svp !),

x+y = λi λj (si + sj )
i,j

est la somme a droite est une combinaison convexe des points de S + S  .


Nous observons qu’il est extrêmement utile de garder dans l’esprit les deux description d’en-
sembles polyhedraux – ce qui est difficile à voir avec l’un est absolument clair avec l’autre.
Pour une application apparemment “plus importante” de la théorie qu’on vient de développer
considérons la problématique de Programmation Linéaire.

4.3.1 Théorie de Programmation Linéaire


Un problème général de Programmation Linéaire est celui de maximisation d’un objectif –
fonction linéaire sur un ensemble polyhedral :
(P) cT x → max | x ∈ M = {x ∈ Rn | Ax ≤ b};
ici c est un vecteur n-dimensionnel donné qu’on appelle objectif, A est une matrice de contraintes
m×n donnée et b ∈ Rm vecteur (terme) à droite. On appelle (P) le “programme de Programma-
tion Linéaire sous forme canonique” ; il existe d’autres formulations équivalentes du problème.
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 81

Existence de solutions d’un programme de Programmation Linéaire


Selon la terminologie de Programmation Linéaire, (P) est appelé
– admissible (faisable), si le système Ax ≤ b être soluble, et non admissible (infaisable)
autrement ;
– borné, si il est admissible l’objectif est borné supérieurement sur l’ensemble de faisabilité
(l’ensemble de solutions de Ax ≤ b), et non borné, si il est admissible, mais l’objectif n’est
pas borné sur l’ensemble de faisabilité ;
– soluble, s’il est faisable et la solution optimale existe – l’objectif atteint son maximum sur
l’ensemble faisable.
Si le problème est borné, alors la borne supérieure de la valeur de l’objectif sur l’ensemble de
faisabilité est un réel ; ce réel est appelé valeur optimale du problème et est noté par c∗ . Il est
commode d’associer une valeur optimale aux problèmes infinies et infaisables – pour un problème
non borné, par définition, cette valeur est +∞, et pour un problème infaisable elle est −∞.
Notez que notre terminologie vise le problème de maximisation ; si le problème est de trouver
le minimum de l’objectif, la terminologie peur être mise à jour de façon évidente : en définissant
le problème borné/non borné, nous devons parler de la borne inférieure plutôt que de la borne
supérieure, etc. Par exemple, la valeur optimale infinie pour un problème de minimisation non
borné sera −∞, et +∞ pour un problème infaisable. Cette terminologie est conformée avec
la manière habituelle de convertir un problème de minimisation en un problème équivalent de
maximisation en remplaçant l’objectif original c avec −c : les propriétés de faisabilité telles que
la bornitude et la solubilité restent inchangées, et la valeur optimale change son signe.
Un fait intéressant au sujet de la terminologie de Programmation Linéaire est que les
spécialistes emploient les expressions “programme LP infaisable”, “programme LP non borné”,
mais ne parlent jamais de “programme LP borné”, seulement du “programme soluble”. Le point
ici est que un programme LP borné est toujours soluble bien que cela n’est absolument pas
évident en avance. Avec les outils que nous disposons nous sommes maintenant capable de
prouver ce résultat fondamental de Programmation Linéaire.

Théorème 4.3.2
(i) un programme LP est soluble si et seulement s’il est borné.
(ii) si le programme est soluble et l’ensemble faisable du problème ne contient pas de droites,
alors au moins une des solutions optimales est un point extrême de l’ensemble faisable.

Preuve : (i) : la partie “seulement si” du résultat n’est qu’une tautologie : la définition de la
solubilité inclue la bornitude. Ce que nous devons prouver est la partie “ si” – que tout problème
borné est soluble. C’est donné immédiatement par la description interne de l’ensemble admissible
M du problème : c’est un ensemble polyhedral, et comme il n’est pas vide (notre problème est
borné), nous pouvons le représenter comme

M (S, R) = Conv(S) + Cone (R)

pour certains ensembles finis non vides S and R. J’affirme tout d’abord que puisque (P) est
borné, le produit scalaire de c avec tout vecteur de R est non positif. En effet, autrement il
existe r ∈ R avec cT r > 0 ; puisque M (S, R) clairement contient avec chaque point x le rayon
{x + tr | t ≥ 0}, et l’objectif est illimité sur ce rayon, il est non borne supérieurement sur M , ce
qui n’est pas le cas.
Maintenant choisissons dans l’ensemble S fini et non vide un point, appelé s∗ , qui maximise
l’objectif sur S. J’affirme que s∗ est une solution optimale de (P), c.-à-d. que (P) est soluble.
82 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Et je peux justifier immédiatement mon affirmation : s∗ appartient à M ; maintenant, un point


générique de M = M (S, R) est  
x= λs s + μr r
s∈S r∈R

avec des λs et μr non négatifs et v λv = 1. Ainsi,
 
cT x = λ cT s + μr cT r
s s T r
≤ λ c s [car μr ≥ 0 and cT r ≤ 0, r ∈ R]
s s T ∗
≤ s λs c s [comme λs ≥ 0 et cT s ≤ cT s∗ ]

= c s∗
T [car s λs = 1]

(ii) : si l’ensemble admissible de (P), appelons le M , ne contient pas de droites, est convexe
et fermé (tant qu’un ensemble polyhedral) il possède un point extrême. Il en suit que (ii) est
valide dans le cas trivial quand l’objectif de (P) est constant sur l’ensemble admissible, car dans
ce cas on peut prendre tout point extrême de M comme solution optimale. Le cas d’objectif
nonconstant sur M peut être immédiatement réduit au cas trivial ci-dessus : si x∗ est une
solution optimal de (P) et la forme linéaire cT x n’est pas constante sur M , alors l’hyperplan
Π = {x | cT x = c∗ } est celui de support à M en x∗ ; l’ensemble Π ∩ M est fermé, convexe, non
vide et ne contient pas de droites, il possède donc un point extrême x∗∗ qui, d’une part, est,
bien évidement, une solution optimale de (P), et, d’autre part, est un point extrême de M par
le Lemme 4.2.2.
Nous allons établir maintenant le deuxième résultat fondamental sur Programmation Linéaire
– le Théorème de Dualité ; mis à part des problèmes concernant le calcul, on peut dire que LP
consiste, essentiellement, en Théorème 4.3.2 et Théorème de Dualité.

Théorème de dualité pour Programmation Linéaire


On considère un programme LP faisable.
En parlant de la valeur optimale de (P), nous faisons en fait certaines affirmations au sujet
d’admissibilité/non admissibilité d’un système d’inégalités linéaires. Par exemple, quand on dit
que la valeur optimale de (P) est égal à c∗ ∈ R, on dit en fait que le système d’inégalités linéaires

(Sα ) :
cT x > α
Ax ≤ b

est n’est pas soluble pour α ≥ c∗ et est soluble pour α < c∗ .


Le Théorème sur l’Alternative de Chapitre 3 nous dit que la solubilité d’un système fini
d’inégalités linéaires est étroitement liée avec l’insolubilité d’un autre système d’inégalités
linéaires. Quel sera cet “autre système” pour (Sα ) ? Non admissibilité de (Sα ) pour un certain
α signifie que l’inégalité cT x ≤ α est une conséquence du système soluble d’inégalités Ax ≤ b ;
par le Lemme de Farkas Non homogène, c’est le cas si et seulement si le système

(Sα∗ ) :
bT y ≤ α
AT y = c
y ≥ 0

avec le vecteur d’inconnus y ∈ Rm est soluble. Ainsi, si (P) est faisable, alors
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 83

(*) (Sα ) est non soluble pour un α donné si et seulement si (Sα∗ ) est soluble pour cet α.
En consequence, la solubilité du système (Sα∗ ) peut aussi être interprété en termes d’un
certain programme LP, notamment, le programme dual à (P) :

(D) bT y → min | y ∈ M ∗ = {y ∈ Rm | AT y = c, y ≥ 0}

Précisément, la solubilité de (Sα∗ ) veut dire exactement que (D) est faisable et la valeur optimale
de ce problème est ≤ α. En fait, nous avons “plus ou moins établi”

Théorème 4.3.3 [Théorème de Dualité en Programmation Linéaire]


(i) (P) est borné si et seulement si (D) est soluble ; (D) est borné si et seulement si (P) est
soluble. Ainsi les deux problème (P) et (D) sont solubles si et seulement si l’un des deux est
borné. Si (P) et (D) sont solubles, alors
(i.1) les valeurs optimales des deux problèmes sont égales ;
(i.2) une paire x, y de solutions faisables des problèmes est composée de solutions optimales si
et seulement si
y T (b − Ax) = 0 [“condition de complémentarité”], (4.4)
ou, de façon équivalente, si et seulement si

bT y − cT x = 0 [“saut de dualité nul”] (4.5)

(ii) si (P) n’est pas borné, alors (D) n’est pas admissible ; si (D) n’est pas borné, alors (P)
n’est pas admissible.

Remarque 4.3.2 Notez que ”si... alors...” dans (ii) ne peut pas être remplacer avec ”si et
seulement si” – il se peut que les deux (P) et (D) ne sont pas faisables, comme c’est le cas dans
l’exemple
(P ) x1 − x2 → max | x1 + x2 ≤ 0, −(x1 + x2 ) ≤ −1,

(D) − y2 → min y1 − y2 = 1, y1 − y2 = −1, y1 , y2 ≥ 0.


Notez également que l’énoncé de (i) du Théorème de Dualité implique en fait qu’un programme
LP borné est soluble (en effet, si (P) est borné, alors, par (i), (D) est soluble et donc est borné ;
mais si (D) est borné, alors (P), par le même (i), est soluble). Ainsi, le Théorème de Dualité
contient en fait l’énoncé du (i) du Théorème d’Existence 4.3.2.

Preuve. (i) : supposons que (P) est borné avec la valeur optimale c∗ . Cela signifie que le système
(Sα ) est soluble quelque soit α < c∗ et n’est pas soluble quelque soit α ≥ c∗ ; Comme on sait de
(*), ceci signifie exactement que (Sα∗ ) est soluble quelque soit α ≥ c∗ et n’est pas soluble quelque
soit α < c∗ . En d’autres termes, (D) est soluble avec la valeur optimale c∗ .
Maintenant on peut répéter ce raisonnement en permutant les rôles de (P) et (D). Supposons
que (D) est borné avec la valeur optimal c∗ , et montrons que alors (P) est soluble avec la même
valeur optimale. Nos hypothèses à propos de (D) disent exactement que le système d’inégalités
linéaires
bT y < α
AT y = c
y ≥0
84 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

est soluble pour α > c∗ et n’est pas soluble sinon. Afin d’appliquer, comme dans le cas ci-dessus,
le Lemme de Farkas Non homogène, nous écrivons le système dans sous la forme équivalente :

(Tα ) bT y < α
⎛ ⎞ ⎛ ⎞
AT c
By ≡ ⎝ −AT ⎠ y ≤ q ≡ ⎝ −c ⎠
−I 0

où I est la matrice identité de la même dimension que b et y. Dire que (Tα ) n’est pas soluble est
le même que dire que l’inégalité −bT y ≤ −α est une conséquence du système By ≤ q. Puisque
le problème dual est faisable, le système By ≤ q est soluble ; donc par le Lemme de Farkas non
homogène, l’inégalité −bT y ≤⎛ −α⎞ est une conséquence du système si et seulement si il exister
u
un vecteur non négatif σ = ⎝ v ⎠ tel que b = σ T B et σ T q ≤ −α, ou, en d’autres termes, si et
w
seulement si
−b = Au − Av − w; cT (u − v) ≤ −α.

On peut voir immédiatement (posez x = v − u) que u, v et w non négatifs qui satisfont la dernier
relation existent si et seulement s’il existe x tel que Ax ≤ b et cT x ≥ α. Ainsi, si (D) est borné
avec la valeur optimale c∗ , c.-à-d. que le système (Tα ) est soluble pour α > c∗ et n’est pas soluble
sinon, alors le système d’inégalité
Ax ≤ b, cT x ≥ α
est soluble si α ≤ c∗ et n’est pas soluble sinon. Alors, (P) est soluble avec la valeur optimale c∗ .
Pour prouver (i.2), supposons qu’un des problèmes est soluble ; dans ce cas, selon la partie
déjà établie du résultat, les deux problèmes (P) et (D) sont solubles avec la même valeur optimale
c∗ . Puisque (P) est un problème de maximisation et (D) est celui de minimisation, nous avons

cT x ≤ c∗ ≤ bT y

pour toute paire x, y de solutions faisables de (P) et (D) ; par conséquent, le saut de dualité

bT y − cT x = [bT y − c∗ ] + [c∗ − cT x]

sur une telle paire est toujours non négatif et devient nul si et seulement si x est une solution
optimale de (P) et y est optimale pour (D), comme cela est dit dans (4.5).
(4.4) est une conséquence immédiate de (4.5) par le raisonnement suivant (ici x est faisable
pour (P) et y est faisable pour (D)) :

y T (b − Ax) = y T b − (AT y)x


= y T b − cT x [car y est faisable pour (D)]

(ii) : montrons d’abord que si (P) est non borné, alors (D) est infaisable. Non bornitude de
(P) signifie exactement que le système (Sα ) est soluble pour chaque α réel, d’où, comme on sait
déjà de (*), (Sα∗ ) n’est pas soluble pour tout α ; mais ceci est le même que de dire que (D) est
infaisable.
Par un raisonnement semblable avec (Tα ) jouant le rôle de (Sα ) on démontre que si (D) n’est
pas borné, alors (P) est infaisable.
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 85

Dans la preuve du théorème, nous n’avons pas utilisé la symétrie entre le problème primal
(P) et le dual (D), bien que la dualité LP est complètement symétrique : le problème dual au
dual “est” le même problème primal (ici “est” signifie “ est équivalent”). Pourquoi je n’ai pas
profité de cette symétrie est clair – à cause des guillemets dans dans “est” – j’ai préféré de ne
pas gaspiller le temps pour écrire des formes différentes du programme dual au programme
LP.

4.4 Structure d’ensembles polyhedraux : preuves


Seulement la Section 4.4.1 ci-dessous est obligatoire

4.4.1 Points extremes d’un ensemble polyhedral


Soit
K = {x ∈ Rn | Ax ≤ b},
ensemble polyhedral, où A est une matrice m × n et b un vecteur de Rm . Que sont les points
extrêmes de K ?

Théorème 4.4.1 [Points extrêmes d’un ensemble polyhedral]


Soit x ∈ K. Le vecteur x est un point extrême de K si et seulement si n certains inégalités
linéairement indépendantes du système Ax ≤ b (c.-à-d., avec les vecteurs de coefficients
linéairement indépendants) sont égalités en x.

Preuve : soit ai , i = 1, ..., m, les lignes de A.


La partie “seulement si” : soit x un point extrême de K, et soit I l’ensemble d’indices i pour
lesquels aTi x = bi ; nous avons à prouver que l’ensemble F de vecteurs {ai | i ∈ I} contient
exactement n vecteurs linéairement indépendants, c.-à-d. que Lin(F ) = Rn . Supposez que ce
n’est pas le cas ; alors le complément orthogonal de F contient un vecteur h non nul (puisque
le dimension F ⊥ est égal à n − dim Lin(F ), voir Chapitre 1, et donc est positive). Considérez
le segment δ = [x − h, x + h], où  > 0 est le paramètre de notre construction. Puisque h est
orthogonal aux vecteurs “actifs” ai – ceux avec i ∈ I, tout point y de ce segment satisfait la
relation aTi y = aTi x = bi . Maintenant, si i est un indice “inactif” – celui avec aTi x < bi – alors
aTi y ≤ bi pour tout y ∈ Δ , à condition que  soit assez petit. Puisque il y a seulement un nombre
fini d’indices inactifs, nous pouvons choisir  > 0 de telle manière que tout y ∈ Δ satisfait toutes
les inégalités “inactives” aTi x ≤ bi , pour i ∈ I. Puisque y ∈ Δ satisfait, comme nous avons vu,
aussi toutes les inégalités “actives”, on en conclut que ce choix de  permet d’obtenir δ ⊂ K,
qui est une contradiction :  > 0 et h = 0, de sorte que δ est un segment non trivial avec le
point x ∈ ri δ , et aucun tel segment ne peut pas être contenu dans K, puisque x être un point
extrême de K.
Pour prouver la partie “si”, supposons que x ∈ K est tel que parmi les inégalités aTi x ≤ bi
qui sont des égalités en x il y a n qui sont linéairement indépendantes, par exemple, ceux avec
les indices 1...., n, et montrons que x est un point extrême de K. C’est immédiat : en supposant
que x n’est pas un point extrême, nous obtiendrions l’existence d’un vecteur non nul h tels que
le x ± h ∈ K. En d’autres termes, pour i = 1, ..., n nous obtiendrions bi ± aTi h ≡ aTi (x ± h) ≤ bi ,
ce qui est possible seulement si aTi h = 0, i = 1, ..., n. Mais le seul vecteur qui est orthogonal
aux n vecteurs linéairement indépendants de Rn est le vecteur nul, et nous avons h = 0, et on
a supposé que ce n’est pas le cas. .
86 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Corollaire 4.4.1 L’ensemble de points extrêmes d’un ensemble polyhedral est fini

En effet, selon le théorème ci-dessus, chaque point extrême d’un ensemble polyhedral K = {x ∈
Rn | Ax ≤ b} est donné par le choix d’un sous-ensemble de n inégalités du système original
qui sont devenu les égalités, la matrice de ce sous-ensemble étant non singulière. Ainsi, un point
extrême est uniquement défini par le sous-ensemble correspondant, de sorte que le nombre de
points extrêmes n’excède pas le nombre Cm n de sous-matrices n × n de la matrice A.
n
Notez que Cm n’est qu’une borne supérieure (généralement très conservatrice) sur le nombre
de points extrêmes d’un ensemble polyhedral donné par m inégalités dans Rn : les sous-matrices
n×n de A peuvent être singulières et, ce qui est bien plus important, la majorité des matrices non
singulières produisent normalement “des candidats” qui ne satisfont pas certaines des inégalités
restantes.
Remarque 4.4.1 Le résultat du Théorème 4.4.1 est très important, en particu-
lier, pour la théorie de la Méthode de Simplex – l’outil de calcul traditionnel pour
la Programmation Linéaire. Une fois appliqué au programme de LP sous la forme
canonique 3)
cT x → min | P x = p, x ≥ 0 [x ∈ Rn ],
avec la matrice P k × n, le résultat du Théorème 4.4.1 est que les points extrêmes
de l’ensemble faisable sont exactement les solutions faisables de base du système
P x = p, c.-à-d., les vecteurs non négatifs x tels que P x = p et l’ensemble de co-
lonnes de P lié aux entrées positives de x est linéairement indépendant. Puisque
l’ensemble faisable d’un programme LP sous la forme standard ne contient pas des
droites, parmi les solutions optimales (si en existe une) d’un programme LP sous sa
forme canonique au moins un est un point extrême de l’ensemble faisable (Theorem
4.3.2.(ii)). Ainsi, en principe nous pourrions tester l’ensemble fini de tous les points
extrêmes de l’ensemble faisable (≡ à toutes les solutions faisables de base) et choisir
celui avec la meilleure valeur de l’objectif. Cette recette permet de trouver une solu-
tion faisable en nombre fini d’opérations arithmétiques, à condition que le problème
soit soluble, est ce que fait la Méthode de Simplex ; cette dernière parcourt les solu-
tions faisables de base d’une manière très futée qui permet de tester seulement une
partie négligeable de solutions candidates.
Une autre conséquence utile du Théorème 4.4.1 est que si toutes les données
dans un programme de LP sont rationnelles, alors n’importe quel point extrême
du domaine faisable du programme est un vecteur avec les entrées rationnelles. En
particulier, un programme soluble de LP dans la forme standard avec des données
rationnelles a au moins une solution optimale rationnelle.

4.4.2 Structure d’un polyhedre borné


Maintenant nous pouvons prouver une partie importante du Théorème 4.3.1 – celle qui
décrit la structure d’ensembles polyhedraux bornés.
Théorème 4.4.2 [structure d’ensembles polyhedraux bornés] Un ensemble polyhedral borné
non vide M dans Rn est un polytope, c.-à-d., une enveloppe convexe d’un ensemble non vide
fini :
M = M (S, {0}) = Conv(S);
on peut choisir comme S l’ensemble de tous les points extrêmes de M .

3. ) plutôt une des formes canoniques, cf. le problème dual (D) au problème LP dans la Section 4.3.1
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 87

Vice versa – un polytope est un ensemble polyhedral borné et non vide.


Preuve : la première partie du résultat – qu’un ensemble polyhedral non vide borné est un
polytope – découle du Théorème de Krein-Milman combiné avec le Corollaire 4.4.1. En effet,
un ensemble polyhedral est toujours fermé (comme ensemble donné par des inégalités non
strictes impliquant des fonctions continues) et convexe ; s’il est également borné et non vide,
il est, par le Théorème de Krein-Milman, l’enveloppe convexe de l’ensemble S de ses points
extrêmes ; S est fini par Corollary 4.4.1.
Maintenant prouvons la partie plus difficile du resultat – qu’un polytope est un ensemble
polyhedral borné. Le fait que l’enveloppe convexe d’un ensemble fini est borné est évident.
Ainsi, tout ce que nous avons à montrer est que l’enveloppe convexe d’un ensemble finie
de points est un ensemble polyhedral. La preuve passe par un concept géométrique très
intéressant et utile – le polaire d’un ensemble.

Le polaire d’un ensemble convexe


Soit M ⊂ Rn un ensemble convexe fermé qui contient 0. Le polaire de M (noté Polar (M ))
est défini comme ensemble de tous les vecteurs f qui ont les produits scalaires avec tous les
vecteurs de M n’excédant pas 1 :

Polar (M ) = {f | f T x ≤ 1 ∀x ∈ M }.

Le polaire d’un ensemble est non vide – il contient 0. Notez également que le polaire est une
extension naturelle de la notion de complément orthogonal à un sous-espace linéaire : si M
est un tel sous-espace, alors Polar (M ), comme on le voit immédiatement, est exactement M ⊥
(puisqu’une forme linéaire peut être bornée par 1 sur un sous-espace linéaire si et seulement si
elle est identiquement nulle sur le sous-espace). Nous avons l’extension suivante de la formule

(L⊥ )⊥ = L [L est un sous-espace linéaire] :

Lemme 4.4.1 Pour tout ensemble convexe fermé M qui contient 0 son polaire Polar (M )
est également un ensemble convexe et contenant 0, et

Polar (Polar (M )) = M. (4.6)

Preuve : soit M fermé, convexe et 0 ∈ M .


Le fait que Polar (M ) est convexe et fermé, est évident – c’est l’ensemble donné par un
système (infini) d’inégalités linéaires non strictes xT f ≤ 1 paramétrées par x ∈ M , et chaque
ensemble de ce type, comme nous le savons, est fermé et convexe. Nous avons déjà mentionné
que Polar (M ) contient 0.
Il reste à verifier (4.6). Il est absolument clair de la définition du polaire que M ⊂
Polar (Polar (M )) (si x ∈ M , puis xT f ≤ 1 pour tout le f ∈ Polar (M ) par la construction
de Polar (M ), d’où, encore par la construction, x ∈ Polar (Polar (M ))). Ainsi, il nous reste
à montrer que Polar (Polar (M )) ne contient que des points de M . Suppose, au contraire,
qu’un élément z de P olar(M ) tel que z ∈ M , existe. Puisque M est fermé, convexe, n’est
pas vide et z ∈ M , M et {z} peuvent être fortement séparés (Proposition 3.1.1) : il existe φ
tel que
φT z > α ≡ sup φT x.
x∈M

Comme 0 ∈ M , α ≥ 0, il existe β positif, disons, β = 12 (φT z + α), tel que

φT z > β > sup φT x.


x∈M

Et si on divise par β > 0 et on pose f = β −1 φ, nous avons

f T z > 1 > sup f T x.


x∈M
88 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Ici l’inégalité à droite implique que f ∈ Polar (M ) ; mais dans ce cas l’inégalité à gauche
contredit à l’origine de z qui est un point de Polar (Polar (M )).
Remarque 4.4.2 La notion du polaire a un sens pour un ensemble non vide
arbitraire M , pas nécessairement fermé, convexe ou contenant zéro. Pour M non
vide arbitraire nous avons
Polar (M ) = Polar (cl Conv(M ∪ {0})).
Cette identité combinée avec (4.6) conduit à l’identité
Polar (Polar (M )) = cl Conv(M ∪ {0}) [M = ∅],
qui est de nature bien similaire à l’identité pour le complément orthogonal :
(M ⊥ )⊥ = Lin(M ) [M = ∅].
Si M est un ensemble convexe fermé contenant zéro, alors Polar (M ) se rappelle de tout
M (M peut être reconstitué par l’intermédiaire de son polaire en appliquant la polarité de
nouveau, voir (4.6)). Il est très utile de savoir quelles sont les propriétés du polaire respon-
sables de telles et de telles propriétés de l’ensemble. Voici un exemple simple d’un résultat
dans ce genre :
+
Proposition 4.4.1 Soit M un ensemble convexe fermé dans Rn et 0 ∈ M . Alors 0 ∈
int M si et seulement si Polar (M ) est borné.

Fin de la preuve du Théorème 4.4.2


Maintenant nous pouvons accomplir la preuve du Théorème 4.4.2. Pour rendre notre
terminologie plus compacte, nous allons provisoirement appeler les polytopes – les enveloppes
convexes des ensembles finis non vides – S-ensembles (“S” du “sommet”), et les ensembles
non vides polyhedraux bornés – PB-ensembles (“P” du “polyhedral” et “B”, du “borné”).
De la partie déjà prouvée du théorème nous savons que chaque PB-ensemble est aussi un S-
ensemble, et ce que nous devrions prouver est que chaque S-ensemble M est un PB-ensemble.
Soit M = Conv({s1 ..., sn }) un S-ensemble, montrons qu’il est un PB-ensemble. Comme
d’habitude, nous pouvons supposer sans perte de généralité que l’ensemble est de dimension
n 4) . Ainsi, nous pouvons supposer que int M = ∅. Par translation, nous pouvons également
nous assurer que 0 ∈ int M . Maintenant regardons le polaire M ∗ = Polar (M ) de M . Selon
la Proposition 4.4.1, cet ensemble est borné. J’affirme que cet ensemble est également po-
lyhedral. En effet, un point f appartient à M ∗ si et seulement si f T x ≤ 1 pour tous les x
qui sont des combinaisons convexes des points s1 ..., sn , ou,ce qui est identique, f ∈ M ∗ si
et seulement si f T si ≤ 1, i = 1..., n. Ainsi, M ∗ est donné par un système fini d’inégalités
linéaires non strictes
sTi f ≤ 1, i = 1, ..., N
et donc polyhedral.
Maintenant nous sommes faits. M ∗ est PB-ensemble, et donc, comme nous savons déjà,
il est S-ensemble. Par ailleurs, M ∗ est le polaire d’un ensemble borné et donc 0 est un
point intérieur de M ∗ (Proposition 4.4.1). Mais nous venons de montrés que le polaire de
S-ensemble avec 0 dans son intérieur est un PB-ensemble. Ainsi, le polaire à M ∗ – et c’est
M par le Lemme 4.4.1 – est un PB-ensemble.
4. ) et voici la justification : par un décalage de M , nous pouvons supposer que M contient 0 ; en remplaçant
n
R par Lin(M ) nous obtenons la situation quand l’intérieur de M est non vide. Étant donné que le résultat que
nous prouvons est valide dans le cas particulier quand S-ensemble en question possède l’intérieur non vide, nous
pouvons conclure que M , comme un sous-ensemble de L, est défini par un système fini d’inégalités linéaires non
strictes. En ajoutant à ces inégalités les inégalités linéaires qui définissent L – nous savons du Chapitre 1 qu’un
sous-espace linéaire est un ensemble polyhedral – nous obtenons la description polyhedral désirée de M comme
un sous-ensemble de Rn .
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 89

4.4.3 Structure d’un ensemble polyhedral général : fin de la preuve


Maintenant prouvons le Théorème 4.3.1 dans le cas général. La preuve suit les lignes de
celle du Théorème 4.4.2, mais avec une différence significative : maintenant nous n’avons
plus de Théorème de Krein-Milman pour nous débarrasser d’une partie de difficultés.
Comme ci-dessus, pour simplifier notre language nous allons appeler SR-ensemble (“S” du
“sommet”, “R” du “rayon”) les ensembles de la forme M (S, R), et P-ensembles les ensembles
polyhedraux non vides. Nous devrions montrer que chaque P-ensemble est SR-ensemble, et
vice versa. Nous commençons par montrer que chaque P-ensemble est un SR-ensemble.

Implication P⇒SR
P⇒SR, Étape 1 : réduction au cas quand le P-ensemble ne contient pas
de droites. Soit M un P-ensemble, de sorte que M est l’ensemble de toutes les solutions
d’un système soluble d’inégalités linéaires :
M = {x ∈ Rn | Ax ≤ b} (4.7)
avec une matrice A m × n . Un tel ensemble peut contenir des droites ; si h est la direction
d’une droite dans M , alors A(x + th) ≤ b pour certains x et tout t ∈ R, qui est possible
seulement si Ah = 0. Vice versa, si h est dans le noyau de A, c.-à-d., si Ah = 0, alors la
droite x + Rh avec x ∈ M est contenue dans M . ainsi, nous venons au suivant
Lemme 4.4.2 L’ensemble polyhedral non vide (4.7) contient des droites si et
seulement si le noyau de A est non trivial, et les vecteurs non nuls du noyau sont
exactement les directions des droites contenues dans M : si M contient une droite
dirigée par h, alors h ∈ Ker A, et, réciproquement, si 0 = h ∈ Ker A et x ∈ M
alors M contient la droite entière x + Rh.
Étant donné un ensemble non vide (4.7), notons L = Ker A le noyaux de A et L⊥ le
complément orthogonal du noyau. Soit M  la section transversale de M par L⊥ :
M  = {x ∈ L⊥ | Ax ≤ b}.
L’ensemble M  ne contient pas de droites (car le vecteur-directeur de n’importe quelle droite
dans M  , d’une part, devrait appartenir à L⊥ en raison M  ⊂ L⊥ , et d’autre part, devrait
appartenir à L = Ker A, puisqu’une droite dans M  ⊂ M est une droite dans M aussi bien).
L’ensemble M  est non vide et, de plus, M = M  + L. En effet, M  contient les projections
orthogonales de tous les points de M sur L⊥ (car pour projeter un point sur L⊥ , vous devriez
vous déplacer de ce point suivant une certaine droite avec la direction dans L, et tous ces
déplacements qui commencent dans M , restent dans M par le Lemme) Ainsi M  est non
vide, et tel que M  + L ⊃ M . D’autre part, M  ⊂ M et M + L = M par le Lemme 4.4.2,
d’où M  + L ⊂ M , et, effectivement, M  + L = M .
Les résultats de nos efforts sont comme suit : étant donné un P-ensemble arbitraire M ,
nous l’avons représenté comme une somme d’un P-ensemble M  ne contenant pas de droites
et un sous-espace linéaire L Avec cette décomposition dans l’esprit nous voyons qu’afin de
réaliser notre objectif – montrer que chaque P-ensemble est SR-ensemble – il suffit de montrer
ce résultat pour des P-ensembles qui ne contiennent pas de droites. En effet, si M  = M (S, R )
en notant par R l’ensemble fini tels que L = Cone (R ) (pour obtenir R , prenez l’ensemble
de 2 dim L vecteurs ±ai , i = 1, ..., dim L où a1 , ..., adim L est une base de L) nous obtenons
M = M + L
= [Conv(S) + Cone (R)] + Cone (R )
= Conv(S) + [Cone (R) + Cone (R )]
= Conv(S) + Cone (R ∪ R )
= M (S, R ∪ R )
(la quatrième égalité évidente dans la chaine nous est déjà connue).
90 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

P⇒SR, étape 2 : P-ensemble ne contient pas de droites. Nous sommes donnés


un P-ensemble dans Rn ne contenant pas de droites et nous devons montrer que c’est un SR-
ensemble. Nous prouverons ce résultat par induction sur la dimension n de l’espace. Le cas
de n = 0 est trivial. Supposons maintenant que le résultat en question est valide pour n ≤ k,
et essayons de montrer qu’il est valide également pour n = k + 1. Soit M un P-ensemble en
question dans Rk+1 :

M = {x ∈ Rk+1 | aTi x ≤ bi , i = 1, ..., m}. (4.8)

Sans perte de généralité nous pouvons supposer que tous les ai sont des vecteurs non nul
(comme M est non vide, les inégalités avec ai = 0 sont satisfaites sur Rn entier, et en les
enlevant du système, nous ne changeons pas l’ensemble de solutions). Notez que m > 0, car
autrement M contiendrait des droites, pour k ≥ 0.
10 . Supposons que M n’est pas borné, car autrement le résultat désiré est donné par
Theorem 4.4.2. J’affirme qu’il existe une direction récessive de M (voir le commentaire au
Lemme 4.2.1). En effet, soit x ∈ M , et soit xi ∈ M une suite des vecteurs avec les normes
convergeant vers ∞ (une telle suite existe, si M n’est pas borné). Considérez la suite de
vecteurs unitaires
ri = |xi − x|−1 (xi − x).
puisque la boule unité dans Rn est compacte, en passant à une subsequence nous pouvons
supposer que les vecteurs ri convergent vers un vecteur unitaire r non nul. Ce vecteur r est
la direction demandée. En effet, si t ≥ 0, alors les vecteurs
t
xti = x + tri = x + (xi − x)
|xi − x|
pour tout i assez grand (ceux pour lesquels |xi − x| ≥ t) sont les combinaisons convexes de
x et xi et appartiennent donc à M . Comme i → ∞, ces vecteurs convergent vers x + tr,
et comme M est fermé, nous concluons que x + tr ∈ M pour tout t non négatif. Ainsi, M
contient le rayon {x + tr | t ≥ 0}, d’où, par le Lemme 4.2.1, M + Cone ({r}) = M .
20 . Pour chaque i ≤ m, m étant le nombre de lignes de A dans (4.8), c.-à-d., le nombre
d’inégalités linéaires dans la description de M , notons par Mi la “facette” correspondante
de M – l’ensemble polyhedral indiqué par le système d’inégalités (4.8) dans lequel l’inégalité
aTi x ≤ bi est remplacé par l’égalité aTi x = bi . Certaines de ces “facettes” peuvent être vides ;
soit I l’ensemble d’indices i de facettes Mi non vides.
Quand i ∈ I, l’ensemble Mi est un ensemble polyhedral non vide, c.-à-d., un P-ensemble
– qui ne contient pas de droites (puisque Mi ⊂ M et M ne contient pas de droites). Par
ailleurs, Mi appartient à l’hyperplan {aTi x = bi }, c.-à-d., est en fait un P-ensemble dans Rk .
Par l’hypothèse inductive, nous avons des représentations

Mi = M (Si , Ri ), i ∈ I,

pour les ensembles Si et Ri non vides finis correctement choisis. Je prétends que

M = M (∪i∈I Si , ∪i∈I Ri ∪ {r}), (4.9)

où r est la direction récessive de M trouvé dans 10 ; pour completer notre preuve inductive
il nous reste à verifier cette affirmation,
Pour montrer (4.9), notez, tout d’abord, que l’ensemble sur le côté droit de cette relation
est contenu dans celui à gauche. En effet, comme Mi ⊂ M et Si ⊂ Mi , nous avons Si ⊂ M ,
et, également, S = ∪i Si ⊂ M ; puisque M est convexe, nous avons

Conv(S) ⊂ M. (4.10)

De plus, si r ∈ Ri , alors r est une direction récessive de Mi ; et comme Mi ⊂ M , r est


une direction récessive de M par le Lemme 4.2.1. Ainsi, chaque vecteur de ∪i∈I Ri est une
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 91

direction récessive pour M , de même pour r ; ainsi, chaque vecteur de R = ∪i∈I Ri ∪ {r} est
une direction récessive de M , d’où, encore par le Lemme 4.2.1,

M + Cone (R) = M.

En combinant cette relation avec (4.10), nous obtenons M (S, R) ⊂ M , comme demandé.
Il nous reste à montrer que M est contenu dans l’ensemble sur le côté droit de (4.9).
Soit x ∈ M , déplaçons-nous à partir de x dans la direction (−r), c.-à-d., le long du rayon
{x − tr | t ≥ 0}. Pour un t assez grand le point x − tr quitte M (en effet, autrement le
rayon avec la direction −r qui commence en x serait contenu dans M , alors que le rayon
opposé pour sûr est contenu dans M puisque r est une direction récessive de M ; mais
c’aurait dit que M contient une droite, qui n’est pas le cas par hypothèse.) Comme le rayon
{x − tr | t ≥ 0} quite M et M est fermé, il existe le plus grand t, que l’on appelle t∗ , tels
que x = x − t∗ r appartient encore à M . Il est absolument clair qu’en x une des inégalités
linéaires définissant M devienne égalité, autrement nous pourrions légèrement augmenter
le paramètre t∗ en restant toujours dans M . Ainsi, x ∈ Mi pour un certain i ∈ I. En
conséquence,
x ∈ Conv(Si ) + Cone (Ri ),
et x = x + t∗ r ∈ Conv(Si ) + Cone (Ri ∪ {r}) ⊂ M (S, R), comme demandé.

SR⇒P
Nous savons déjà que chaque P-ensemble est un SR-ensemble. Maintenant nous mon-
trerons que chaque SR-ensemble est un P-ensemble, de ce fait accomplissant la preuve du
Théorème 4.3.1. Comme dans la preuve du Théorème 4.4.2, ceci sera fait en utilisant la
notion de l’ensemble polaire.
Ainsi soit M un SR-ensemble :

M = M (S, R), S = {s1 ..., sN }, R = {r1 ..., rM };

nous devons montrer que c’est un P-ensemble. Sans perte de généralité nous pouvons supposer
que 0 ∈ M .
10 . Soit M ∗ le polaire de M . J’affirme que M ∗ est un P-ensemble. En effet, f ∈ M ∗ si et
seulement si f T x ≤ 1 pour chaque x de la forme

(combinaison convexe de si ) + (combinaison conique de rj ),

c.-à-d., si et seulement si f T rj ≤ 0 pour tous j (autrement f T x n’est pas borné sur M ) et


f T si ≤ 1 pour tous i. Ainsi,

M ∗ = {f | sTi f ≤ 1, i = 1..., N, rjT f ≤ 0, j = 1..., n}

est un P-ensemble.
20 . Maintenant nous sommes faits : M ∗ est un P-ensemble, et par conséquent - nous le
savons déjà – est SR-ensemble. Par 10 , le polaire d’un SR-ensemble est un P-ensemble ; ainsi,

M = Polar (M ∗ ) [voir (4.6)]

est un P-ensemble.
Le Théorème 4.3.1 dit également que les ensembles du type M (S, {0}) sont exactement
les ensembles polyhedraux bornés (nous avons déjà vérifié ceci dans le Théorème 4.4.2) et
que les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux, c.-à-d., ceux
donnés par des systèmes finis d’inégalités linéaires homogènes non strictes. Ce dernier fait
est tout ce que nous avons encore à prouver. C’est facile :
92 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

D’abord, montrons qu’un cône polyhedral M peut être représenté comme M ({0}, S) pour
certain S . Comme tout ensemble polyhedral, M peut être représenté comme

M = Conv(S) + Cone (R); (4.11)

puisque, pour des raisons évidentes, Conv(S) ⊂ Cone (S), on obtient

M ⊂ Cone (S) + Cone (R) = Cone (S ∪ R). (4.12)

Puisque M , étant un cône, contient 0, et, d’autre part,

M + Cone (R) = Conv(S) + Cone (R) + Cone (R) = Conv(S) + Cone (R) = M

(puisque Cone (R) + Cone (R) est identique au Cone (R)), nous obtenons

Cone (R) = 0 + Cone (R) ⊂ M + Cone (R) = M ;

comme Cone (R) ⊂ M par (4.11) et S ⊂ M , le côté droit de (4.12) est l’enveloppe conique
des vecteurs de M et donc un sous-ensemble du cône M . Ainsi, l’inclusion dans (4.12) est en
fait égalité, et M = M ({0}, S ∪ R), comme exigé.
Il reste à démontrer que l’ensemble du type M = M ({0}, R) – qui est clairement un
cône – est un cône polyhedral. En tant qu’un SR-ensemble, M est donné par un système fini
d’inégalités,
aTi x ≤ bi , i = 1, ..., m,
et tout ce que nous devrions prouver est que on peut choisir les inégalités homogènes (avec
bi = 0) dans le système. C’est immédiat : comme M est un cône, pour n’importe quelle
solution x du système ci-dessus tous les vecteurs tx, t ≥ 0, sont également des solutions, ce
qui est possible si et seulement si bi ≥ 0 pour tous i et aTi x ≤ 0 pour toutes les i et toutes les
solutions x du système. Il suit qu’en “renforçant” le système, c.-à-d., en remplaçant bi ≥ 0
par bi = 0, et de ce fait rendant le système homogène, nous ne changeons pas l’ensemble de
solutions.
4.5. EXERCICES 93

4.5 Exercices
Exercice 4.1 Prouver la Proposition 4.2.1.

Exercice 4.2 Soit M ensemble convexe dans Rn et x un point extrême de M . Montrez que si

m
x= λi xi
i=1

est une représentation de x comme une combinaison convexe des points xi ∈ M avec des poids
positifs λi , alors x = x1 = ... = xm .

Exercice 4.3 Soit M ensemble convexe fermé dans Rn et x̄ un point de M . Montrez que s’il
existe une forme linéaire aT x telle que x̄ est le minimiseur unique de la forme sur M , alors x̄
est un point extrême de M .

Exercice 4.4 Trouvez tous les points extrêmes de l’ensemble

{x ∈ R2 | −x1 + 2x2 ≤ 8, 2x1 + x2 ≤ 9, 3x1 − x2 ≤ 6, x1 , x2 ≥ 0}.

Exercice 4.5 Marquez avec ”o” les énoncés justes ci-dessous :


– si M est un ensemble convexe non vide dans Rn qui ne contient pas de droites, alors M
possède un point extrême ;
– si M est un ensemble convexe dans Rn qui a un point extrême, alors M ne contient pas
de droites ;
– si M est un ensemble convexe fermé et non vide dans Rn qui ne contient pas de droites,
alors M a un point extrême ;
– si M est un ensemble convexe fermé dans Rn qui possède un point extrême, alors M ne
contient pas de droites ;
– si M est un ensemble convexe non vide borné dans Rn , alors M est l’enveloppe convexe
de Ext(M )
– si M est un ensemble convexe non vide borné et fermé dans Rn , alors M est l’enveloppe
convexe de Ext(M )
– si M est un ensemble convexe non vide fermé dans Rn qui est égal à l’enveloppe convexe
de Ext(M ), alors M est borné.

Exercice facultatif : Théorème de Birkhoff

Exercice 4.6 Une matrice π n × n s’appelle double stochastique, si toutes ses entrées sont non
négatives, et les sommes d’entrées dans chaque ligne et chaque colonne sont égales à 1, comme
c’est le cas avec la matrice identité ou, plus généralement, avec une matrice de permutation –
celle qui a exactement une entrée non nulle (égale à 1) dans chaque colonne et chaque ligne,
par exemple,
⎛ ⎞
0 1 0
π = ⎝0 0 1⎠.
1 0 0
Les matrices double stochastiques d’un ordre donné n forment un ensemble polyhedral convexe
borné et non vide D dans Rn×n . Quels sont les points extrêmes de cet ensemble ? La réponse
est donnée par le suivant
94 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX

Théorème 4.5.1 (Birkhoff) Les points extrêmes du polytope D de matrices double stochastique
n × n sont exactement les matrices de permutation d’ordre n.

Essayez de prouver le Théorème.

Le Théorème de Birkhoff est la source des nombreuses inégalités importantes ; certaines de ces
inégalités seront le sujet d’exercices facultatifs des prochains chapitres.
Chapitre 5

Fonctions Convexes

5.1 Fonctions convexes : premier abord


5.1.1 Définitions et Exemples
Définition 5.1.1 [Fonction convexe] Fonction f : Q → R défini sur un sous-ensemble Q non
vide de Rn à valeurs réelles s’appelle convexe, si
le domaine Q de la fonction est convexe ;
– pour tous x, y ∈ Q et chaque λ ∈ [0, 1],

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (5.1)

Si l’inégalité ci-dessus est stricte quelques soient x = y et 0 < λ < 1, la fonction f s’appelle
strictement convexe.

Fonction f telle que −f est convexe s’appelle concave ; le domaine Q d’une fonction concave
doit être convexe, et la fonction elle-même doit satisfaire l’inégalité opposée de (5.1) :

f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y), x, y ∈ Q, λ ∈ [0, 1].

L’exemple le plus simple d’une fonction convexe est la fonction affine

f (x) = aT x + b

– la somme d’une forme linéaire et d’une constante. Cette fonction est convexe sur l’espace
entier, et le “d’inégalité de convexité” devient égalité pour cette fonction ; la fonction affine est
également concave. On montre facilement que la fonction qui est convexe et concave sur l’espace
entier est une fonction d’affine.
Voici quelques exemples élémentaires des fonctions convexes de “non-linéaires” d’une va-
riable :
– fonctions convexes sur l’axe entier :
x2p , p étant un entier positif ;
exp{x} ;
– fonctions convexes sur le rayon non négatif :
xp , 1 ≤ p ;
−xp , 0 ≤ p ≤ 1 ;
x ln x ;

95
96 CHAPITRE 5. FONCTIONS CONVEXES

– fonctions convexe sur le rayon positif :


1/xp , p > 0 ;
− ln x.
Pour l’instant il n’est pas clair pourquoi ces fonctions sont convexes ; nous allons bientôt
dériver un critère analytique simple pour détecter la convexité qui nous permettra de montrer
immédiatement que les fonctions ci-dessus sont en effet convexes.
Une définition équivalente très commode d’une fonction convexe est donnée en termes de son
epigraph. Étant donné une fonction à valeurs réelles f , définie sur un sous-ensemble non vide Q
de Rn , nous définissons son epigraph comme ensemble
Epi(f ) = {(t, x) ∈ Rn+1 | x ∈ Q, t ≥ f (x)};
géométriquement, pour définir l’epigraph, vous devez prendre le graphe de la fonction – la surface
{t = f (x), x ∈ Q} dans Rn+1 – et ajouter à cette surface tous les points qui sont “au-dessus”.
La definitions géométrique (équivalente) d’une fonction convexe est donné par
+
Proposition 5.1.1 [Définition de la convexité en termes d’epigraph] La fonction f définie
sur un sous-ensemble de Rn est convexe si et seulement si son epigraph est un ensemble convexe
non vide dans Rn+1 .

Plus d’exemples de fonctions convexes : les normes. En utilisant la Proposition 5.1.1,


nous pouvons prolonger notre liste initiale de fonctions convexes (certaines fonctions unidimen-
sionnelles et affine) avec des normes. Comme nous nous rappelons du Chapitre 1, une fonction
à valeurs réelles π(x) sur Rn s’appelle une norme, si elle est non négative partout étant nulle
seulement en zéro, est homogène :
π(tx) = |t|p(x)
et satisfait l’inégalité de triangle
π(x + y) ≤ π(x) + π(y).

Pour l’instant nous connaissons trois exemples de normes – la norme Euclidienne |x| = xT x,

la norme-1 |x|1 = i |xi | et la norme-inf ty |x|∞ = maxi |xi |. Il était aussi réclamé (bien que
pas vérifie) que ces sont trois membres d’une famille infinie de, de normes
 n 1/p

|x|p = |xi |
p
, q≤p≤∞
i=1

(|x| est exactement |x|2 , et la partie à droite dans cette relation avec p = ∞ est par définition,
maxi |xi |).
Nous sommes sur le point de montrer que chaque norme est convexe :
Proposition 5.1.2 Soit π(x) une fonction à valeurs réelles sur Rn qui est positivement ho-
mogène de degré 1 :
π(tx) = tπ(x) ∀x ∈ Rn , t ≥ 0.
π est convexe si et seulement si elle est sous-additive :
π(x + y) ≤ π(x) + π(y) ∀x, y ∈ Rn .
En particulier, une norme (qui par définition est positivement homogène de degré 1 et est sous-
additive) est convexe.
5.1. FONCTIONS CONVEXES : PREMIER ABORD 97

Preuve est immédiate : l’epigraph d’une fonction π positivement homogène du degré 1 est
un ensemble conique : (t, x) ∈ Epi(π) → λ(t, x) ∈ Epi(π) pour tous λ ≥ 0. Maintenant, par
Proposition 5.1.1 π est convexe si et seulement si epi(π) est convexe. De la Proposition 2.1.4
nous savons qu’un ensemble conique est convexe (c.-à-d., est un cône) si et seulement s’il contient
la somme de chaque paire de ses éléments ; cette dernière propriété est satisfaite pour l’epigraph
d’une fonction à valeurs réelles si et seulement si la fonction est sous-additif (évident).

5.1.2 Propriétés élémentaires de fonctions convexes


Inégalité de Jensen
Proposition 5.1.3 [l’inégalité de Jensen] Soit f fonction convexe et soit Q le domaine de f .
Alors pour n’importe quelle combinaison convexe

N
λi xi
i=1

des points de Q on a

N 
N
f( λi xi ) ≤ λi f (xi ).
i=1 i=1

La preuve est immédiate : les points (f (xi ), xi ) appartiennent clairement à l’epigraph de f ;


comme f est convexe, son epigraph est un ensemble convexe, de sorte que la combinaison convexe

N 
N 
N
λi (f (xi ), xi ) = ( λi f (xi ), λi xi )
i=1 i=1 i=1

de ces points appartient également à Epi(f ). Par la définition de l’epigraph, ça implique
N N
i=1 λi f (xi ) ≥ f ( i=1 λi xi ).
Notez que la définition de la convexité d’une fonction f est exactement la condition que f
satisfait l’inégalité de Jensen dans le cas de N = 2 ; nous voyons que satisfaire cette inégalité
pour N = 2 est la même chose que la satisfaire pour tout N .

Convexité d’ensembles de niveau d’une fonction convexe


L’observation simple suivante est également très utile :
Proposition 5.1.4 [Convexité d’ensembles de niveau] Soit f une fonction convexe avec le do-
maine Q. Alors, pour tout réel α, l’ensemble
levα (f ) = {x ∈ Q | f (x) ≤ α}
– l’ensemble de niveau α de f – est convexe.
La preuve prend une ligne : si x, y ∈ levα (f ) et λ ∈ [0, 1], alors f (λx + (1 − λ)y) ≤ λf (x) + (1 −
λ)f (y) ≤ λα + (1 − λ)α = α, de sorte que λx + (1 − λ)y ∈ levα (f ).
Notez que la convexité des ensembles de niveau ne caractérise pas les fonctions convexes ; il y
a des fonctions non convexes qui partagent cette propriété (par exemple, toute fonction monotone
d’une variable). La caractérisation “correcte” des fonctions convexes en termes d’ensembles
convexes est donnée par Proposition 5.1.1 – les fonctions convexes sont exactement les fonctions
avec les épigraphes convexes. La convexité des ensembles de niveau définie une famille plus large
des fonctions, celle qu’on appelle fonctions quasi-convexes.
98 CHAPITRE 5. FONCTIONS CONVEXES

5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ?
Littéralement, cette question n’a pas de sens. Néanmoins, en parlant au sujet des fonctions
convexes, il est extrêmement commode de penser que la fonction a une valeur également en
dehors de son domaine, à savoir, la valeur +∞ ; avec cette convention, nous pouvons dire que
une fonction convexe sur Rn est une fonction à valeurs sur l’axe étendue R ∪ {+∞} tels que le
domaine domf de la fonction – l’ensemble des x où f (x) est fini – est non vide, et pour tous les
x, y ∈ Rn et tout λ ∈ [0, 1] on a

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (5.2)

Si l’expression dans le côté droit contient des valeurs infinies, sa valeur est déterminée selon
les conventions standard et raisonnables sur ce qui sont des opérations arithmétiques sur “l’axe
réelle étendue” R ∪ {+∞} ∪ {−∞} :
– les opérations arithmétiques avec des réels sont comprises dans leur sens habituel ;
– la somme de +∞ et d’un réel, de même que la somme de +∞ et de +∞ est +∞ ; La
somme d’un réel et de −∞, même que la somme de −∞ et de −∞ est −∞. La somme de
+∞ et de −∞ est non définie ;
– le produit d’un réel et de +∞ est +∞, 0 ou −∞, si le réel est positif, zéro ou négatif, de
même pour le produit d’un réel et de −∞. Le produit de deux “infinis” est encore infini,
avec la règle habituelle pour déterminer le signe du produit.
Note that it is not clear in advance that our new definition of a convex function is equivalent
to the initial one : initially we included into the definition requirement for the domain to be
convex, and now we omit explicit indicating this requirement. In fact, of course, the definitions
are equivalent : convexity of Dom f – i.e., the set where f is finite – is an immediate consequence
of the “convexity inequality” (5.2).
Il est commode de penser à une fonction convexe comme à quelque chose qui est définie
partout, puisque ça permet d’économiser beaucoup de mots. Par exemple, avec cette convention
je peux écrire f + g (quand f et g sont deux fonctions convexes sur Rn ), et tout le monde
comprendra ce qui cela signifie ; sans cette convention, j’aurais du ajouter à cette expression
l’explication comme suit : “f + g est une fonction avec le domaine étant l’intersection de ceux
de f et de g, et dans cette intersection elle est définie comme (f + g)(x) = f (x) + g(x)”.

5.2 Comment détecter la convexité


Dans un problème d’optimisation

f (x) → min | gj (x) ≤ 0, j = 1, ..., m

la convexité de l’objectif f et des contraintes gi est cruciale : il s’avère que les problèmes avec
cette propriété possèdent les propriétés théoriques très agréables (par exemple, les conditions
locales nécessaires d’optimalité pour ces problèmes sont suffisantes pour l’optimalité globale) ;
et ce qui est beaucoup plus important, des problèmes convexes peuvent être résolus efficacement
(dans le sens théorique et, dans une certaine mesure, dans le sens pratique de ce mot), ce qui
n’est pas, malheureusement, le cas pour des problèmes non convexes généraux. C’est pourquoi
il est si important de savoir comment détecter la convexité d’une fonction donnée.
5.2. COMMENT DETECTER LA CONVEXITE 99

Le plan de notre recherche est typique pour des mathématiques. Commençons par l’exemple
que vous connaissez de l’Analyse. Comment détectez-vous la continuité d’une fonction ? Natu-
rellement, il y a une définition de continuité en termes de  et δ, mais ce serait vraiment un
désastre si chaque fois que nous devons prouver la continuité d’une fonction, nous étions obligés
re-démontrer que “pour tout  positif il existe δ positif tels que...”. En fait nous employons une
autre approche : nous énumérons une fois pour toutes un certain nombre d’opérations standard
qui préservent la continuité, comme l’addition, la multiplication, des superpositions, etc., et
précisons un certain nombre d’exemples standards des fonctions continues. Pour montrer que
les opérations dans la liste préservent la continuité, de même que montrer que les fonctions
standards sont continues, ceci demande un certain effort, et les preuves sont faites en termes de
 − δ ; mais après que cet effort soit une fois fourni, nous n’avons normalement aucune difficulté
à prouver la continuité d’une fonction donnée : il suffit de démontrer que la fonction peut être
obtenue, en nombre fini d’étapes, de nos ”matières premières” – fonctions standards qui sont
continues – en appliquant nos “machines” – les règles de combinaison qui préservent la conti-
nuité. Normalement cette démonstration est effectuée par un mot simple ”évident” ou même est
comprise par défaut.
C’est exactement le cas avec la convexité. Ici nous devrions également préciser la liste
d’opérations qui préservent la convexité et un certain nombre de fonctions convexes standards.

5.2.1 Opérations préservant la convexité des fonctions


Ces opérations sont comme suit :
– [Stabilité par rapport aux sommes pondérées] si f et g sont des fonctions convexes sur
Rn , alors leur combinaison linéaire λf + μg avec des coefficients non négatifs est encore
convexe, à condition que elle soit finie au moins dans un point ;
[ceci est donné par la vérification directe de la définition]
– [Stabilité par rapport aux substitutions affines de l’argument] La superposition f (Ax + b)
d’une fonction convexe f sur Rn et d’une transformation affine x → Ax + b de Rm dans
Rn est convexe, à condition que il soit fini au moins en un point.
[ vous pouvez le prouver directement en vérifiant la définition ou en notant que l’epigraph
de la superposition, si il est non vide, est l’image inverse de l’epigraph de f sous une
transformation affine]
– [Stabilité par rapport à la maximisation] la borne supérieure supα fα (·) de n’importe quelle
famille des fonctions convexes sur Rn est convexe, à condition que cette borne soit finie
au moins en un point.
[pour le comprendre, notez que l’epigraph de la borne supérieure est bien l’intersection
des épigraphes des fonctions de la famille ; rappelez-vous que l’intersection de n’importe
quelle famille d’ensembles convexes est convexe]
– [“Superposition convexe monotone”] Soit f (x) = (f1 (x), ..., fk (x)) fonction vectorielle sur
Rn avec les composants fi convexes, et soit F une fonction convexe sur Rk qui est mono-
tone, c.-à-d., tels que z ≤ z  implique toujours F (z) ≤ F (z  ). Alors la superposition

φ(x) = F (f (x)) = F (f1 (x), ..., fk (x))

est convexe sur Rn , à condition qu’elle est finie au moins en un point.


Remarque 5.2.1 L’expression F (f1 (x), ..., fk (x)) n’a pas de sens au point x où certaines
des fi sont +∞. Par définition, dans ce point on assigne la valeur +∞ à la superposition.
100 CHAPITRE 5. FONCTIONS CONVEXES

[Pour justifier cette règle, notez que si λ ∈ (0, 1) et x, x ∈ Dom φ, alors z = f (x), z  = f (x )
sont les vecteurs dans Rk qui appartiennent au Dom F , et par la convexité des composants
de f nous avons
f (λx + (1 − λ)x ) ≤ λz + (1 − λ)z  ;
en particulier, nous avons sur la gauche un vecteur de Rk qui n’a pas d’entrees infinies, et
nous pouvons user la monotonie de F :

φ(λx + (1 − λ)x ) = F (f (λx + (1 − λ)x )) ≤ F (λz + (1 − λ)z  ).

Maintenant, on utilise la convexité de F :

F (λz + (1 − λ)z  ) ≤ λF (z) + (1 − λ)F (z  )

pour obtenir la relation demandée

φ(λx + (1 − λ)x ) ≤ λφ(x) + (1 − λ)φ(x ).

]
(Imaginez combien de mots supplémentaires seraient nécessaires ici s’il n’y avait aucune conven-
tion sur la valeur d’une fonction convexe en dehors de son domaine !)
nous avons deux règles supplémentaires :
– [stabilité sous la minimisation partielle] si f (x, y) : Rnx × Rm
y est convexe comme
fonction de z = (x, y) et la fonction

g(x) = inf f (x, y)


y

est dite propre, c.-à-d., est > −∞ partout et est fini au moins en un point, alors g est
convexe
[ceci peut être montré comme suit. Nous devrions prouver que si x, x ∈ Dom g et x =
λx + (1 − λ)x avec λ ∈ [0, 1], alors x ∈ Dom g et g(x ) ≤ λg(x) + (1 − λ)g(x ). Étant
donné  positif nous pouvons trouver y et y  tels que (x, y) ∈ Dom f , (x , y  ) ∈ Dom f
et g(x) +  ≥ f (x, y), g(x ) +  ≥ f (x , y  ). En prenant la somme pondérée de ces deux
inégalités, nous obtenons

λg(x) + (1 − λ)g(y) +  ≥ λf (x, y) + (1 − λ)f (x , y  ) ≥

(car f est convexe)

≥ f (λx + (1 − λ)x , λy + (1 − λ)y  ) = f (x , λy + (1 − λ)y  )

(le dernier ≥ suit à nouveau de la convexité de f ). La dernière quantité dans la chaine


est ≥ g(x ), et nous obtenons g(x ) ≤ λg(x) + (1 − λ)g(x ) + . En particulier, x ∈
Dom g (on a supposé que g prend seulement les valeurs dans R et la valeur +∞).
De plus, puisque l’inégalité résultante est valide pour tout le  > 0, nous venons au
g(x ) ≤ g(x)λ + (1 − λ)g(x ), comme exigé.]
– la “transformation conique” d’une fonction convexe f sur Rn , c.-à-d. la fonction
g(y, x) = yf (x/y), est convexe dans le demi-espace y > 0 de Rn+1 .
Maintenant nous savons quelles sont les opérations de base préservant la convexité. Voyons
quelles peuvent les fonctions simples auxquelles ces opérations peuvent être appliquées. Nous
avons deja un certain nombre d’exemples, mais nous ne savons toujours pas pourquoi les fonctions
dans les exemples sont convexes. La façon habituelle de vérifier la convexité d’une fonction
“simple” est basée sur le critère différentiel de convexité.
5.2. COMMENT DETECTER LA CONVEXITE 101

5.2.2 Critère différentiel de convexité


De la définition de la convexité d’une fonction il suit immédiatement que la convexité est
une propriété “unidimensionnelle” : une fonction propre f sur Rn (c.-à-d., finie au moins en un
point) qui prend ses valeurs dans R ∪ {+∞} est convexe si et seulement si sa restriction sur
n’importe quelle droite, c.-à-d., n’importe quelle fonction du type g(t) = f (x + th) sur la droite,
est soit convexe, soit identiquement +∞.
Il en découle que pour détecter la convexité d’une fonction, il suffit, en principe, de savoir
détecter la convexité des fonctions d’une variable. Cette dernière question peut être résolue par
les outils standard de calcul. À savoir, dans le calcul on a prouve

Proposition 5.2.1 [Condition nécessaire et suffisant de convexité pour des fonctions régulières
sur la droite] Soit (a, b) un intervalle sur l’axe réelle (nous n’excluons pas le cas de a = −∞
et/ou b = +∞). Alors
(i) Une fonction f qui est différentiable partout sur (a, b) est convexe sur (a, b) si et seulement
si sa dérivée f  est monotone non décroissante sur (a, b) ;
(ii) Une fonction f deux fois différentiable sur (a, b) est convexe sur (a, b) si et seulement sa
dérivée seconde f  est non négatif partout sur (a, b).

Avec la proposition, on peut immédiatement vérifier que les fonctions énumérées comme
exemples des fonctions convexes dans la Section 5.1.1 sont en effet convexes. La seule difficulté
qu’on rencontre est que certaines de ces fonctions (par exemple, xp , p ≥ 1, et −xp , 0 ≤ p ≤ 1
ont été annoncées d’être convexes sur le mi-intervalle [0, +∞), alors que la proposition parle
de la convexité des fonctions sur des intervalles ouverts. Pour surmonter cette difficulté, on va
employer le fait suivant :

Proposition 5.2.2 Soit M un ensemble convexe et f une fonction avec Dom f = M . Supposons
que f est convexe sur ri M et continu sur M , c.-à-d.

f (xi ) → f (x), i → ∞,

pour toutes suite convergeante (xi ) vers x dans M . Alors f est convexe sur M .
Preuve de la Proposition 5.2.1 :
(i), nécessité. Suppons que f est différentiable et convexe sur (a, b) ; nous devrions montrer
qu’alors f  monotone non décroissante. Soient x < y deux points de (a, b), et montrons que
f  (x) ≤ f  (y). En effet, soit z ∈ (x, y). Nous avons la représentation suivante de z comme
combinaison convexe de x et y :
y−z x−z
z= x+ y,
y−x y−x
d’où, par convexité,
y−z x−z
f (z) ≤ f (x) + f (y),
y−x y−x
d’où
f (z) − f (x) f (y) − f (z)
≤ .
x−z y−z
Passant ici à la limite quand z → x + 0, nous obtenons

f (y) − f (x)
f  (x) ≤ ,
y−x
102 CHAPITRE 5. FONCTIONS CONVEXES

et en passant dans la même inégalité à la limite en z → y − 0, nous obtenons

f (y) − f (x)
f  (y) ≥ ,
y−x

d’où f  (x) ≤ f  (y), comme promis.


(i), suffisance : nous devons montrer que si f est différentiable sur (a, b) et f  non mo-
notone non décroissante sur (a, b), alors f est convexe sur (a, b). Il suffit de vérifier que si
x < y, x, y ∈ (a, b), et z = (1 − λ)x + λy avec 0 < λ < 1, alors

f (z) ≤ (1 − λ)f (x) + λf (y),

ou, ce qui est la même chose (il suffit d’écrire f (z) comme λf (z) + (1 − λ)f (z)), que

f (z) − f (x) f (y) − f (z)


≤ .
λ 1−λ
Notez que z − x = λ(y − x) et y − z = (1 − λ)(y − x), nous voyons que l’inégalité que nous
devrions prouver est équivalent à

f (z) − f (x) f (y) − f (z)


≤ .
z−x y−z
Mais sous cette forme équivalente l’inégalité est évidente : par le Théorème de valeur in-
termédiaire de Lagrange, le côté gauche est f  (ξ) avec un certain ξ ∈ (x, z), alors que le côté
droit est f  (η) avec un certain η ∈ (z, y). Puisque f  est non décroissante et ξ ≤ z ≤ η, nous
avons f  (ξ) ≤ f  (η).
(ii) est conséquence immédiate de (i), puisque, comme nous savons, une fonction
différentiable – dans le cas en question, c’est f  , est monotone non décroissante sur un
intervalle si et seulement si son dérivée est non négatif sur cet intervalle.
En fait, pour les fonctions d’une variable il y a un critère différentiel de la convexité qui
“ne présume pas” de régularité (nous l’acceptons sans preuve) :
Proposition 5.2.3 [Critère de convexité pour des fonctions univariées]
Soit g : R → R∪{+∞} une fonction. Supposons que son domaine δ = {t | g(t) < ∞} est
un ensemble convexe qui n’est pas un singleton, c.-à-d.. un intervalle (a, b) avec probablement
un ou deux les deux extrémités (−∞ ≤ a < b ≤ ∞). Alors g est convexe si et seulement s’il
répond aux 3 exigences suivantes :
1) g est continu sur (a, b) ;
2) g est différentiable partout sur (a, b), à l’exclusion de’un ensemble dénombrable de
points, et la dérivée g  (t) est non décroissante sur son domaine ;
3) à chaque extrémité u de l’intervalle (a, b) qui appartient à δ g est semi-continu
supérieure :
g(u) ≥ lim supt∈(a,b),t→u g(t).
Preuve de la Proposition 5.2.2 : Soit x, y ∈ M et z = λx + (1 − λ)y, λ ∈ [0, 1]. Nous
devons prouver que
f (z) ≤ λf (x) + (1 − λ)f (y).
Comme nous savons du Théorème 2.1.1.(iii), ils existent des suites convergeantes xi ∈ ri M
et yi ∈ ri M , respectivement vers x et y. Alors zi = λxi + (1 − λ)yi converge vers z quand
i → ∞, et comme f est convexe sur ri M , nous avons

f (zi ) ≤ λf (xi ) + (1 − λ)f (yi );

En passant à la limite, comme xi , yi , zi convergent, quand i → ∞, vers x, y, lez ∈ M respec-


tivement et f continu sur M , nous obtenons l’inégalité exigée.
5.2. COMMENT DETECTER LA CONVEXITE 103

Des Propositions 5.2.1.(ii) et 5.2.2 nous obtenons la conditions nécessaire et suffisante suivant
pour la convexité de la fonction régulière de n variables :
Corollaire 5.2.1 [Critère de convexité pour des fonctions régulières sur Rn ]
Soit f : Rn → R ∪ {+∞} une fonction. Supposons que le domaine Q de f est un ensemble
convexe avec un intérieur non vide et que f est
– continu sur le Q
– deux fois différentiable sur l’intérieur de Q.
Alors f est convexe si et seulement si son Hessian est semidefinite positif sur l’intérieur de Q :
hT f  (x)h ≥ 0 ∀x ∈ int Q ∀h ∈ Rn .

Preuve : La partie “seulement si” est évidente : si f est convexe et x ∈ Q = int Q,
alors la fonction d’une variable g(t) = f (x + th), où h est une direction arbitraire dans
Rn , est convexe dans un certain voisinage du point t = 0 sur l’axe réelle (les substitutions
affines d’arguments conservent la convexité). Puisque f est deux fois différentiable dans
un voisinage de x, g est deux fois différentiable dans un voisinage de t = 0, de sorte que
g  (0) = hT f  (x)h ≥ 0 par Proposition 5.2.1.
Il nous reste de prouver la partie “si”. Supposons alors que nous soyons donnés
hT f  (x)h ≥ 0 pour chaque x ∈ int Q et chaque h ∈ Rn . Nous devons montrer que f
est convexe.
Montrons d’abord que f est convexe sur l’intérieur Q du domaine Q. Comme nous savons
du Théorème 2.1.1, Q est un ensemble convexe. Tout ce que nous devons prouver est que
chaque version unidimensionnelle
g(t) = f (x + t(y − x)) 0 ≤ t ≤ 1
avec x et y dans Q est convexe sur le segment 0 ≤ t ≤ 1. Puisque f est continu sur Q ⊃ Q , g


est continu sur le segment ; et puisque f est deux fois différentiable sur Q , g est différentiable
sur (0, 1) avec la deuxième dérivée
g  (t) = (y − x)T f  (x + t(y − x))(y − x) ≥ 0.
En conséquence, g est convexe sur [0, 1] (Propositions 5.2.1.(ii) et 5.2.2). Ainsi, f est convexe
sur Q . Il reste pour noter que f , étant convexe sur Q et continu sur Q, est convexe sur Q
par Proposition 5.2.2.
En appliquant les règles de combinaison qui préservent la convexité aux fonctions simples qui
passent le test “infinitésimal” de convexité, nous pouvons prouver la convexité des fonctions
complexes. Considérons, par exemple, un posynôme exponentiel – la fonction

N
f (x) = ci exp{aTi x}
i=1
avec les coefficients positifs ci (c’est pourquoi la fonction s’appelle posynomiale). Comment
pourrions-nous montrer que la fonction est convexe ? C’est immédiat :
exp{t} est convexe (puisque sa dérivée seconde est positive et donc la première dérivée est
monotone) ;
par conséquent, toutes les fonctions exp{ati x} sont convexes (la stabilité de la convexité par
rapport aux substitutions affines d’argument) ;
par conséquent, f est convexe (stabilité de la convexité par rapport aux combinaisons linéaires
avec des coefficients non négatifs).
Et si nous étions censés de montrer que le maximum des trois posynomes est convexe ? Et
bien, nous pourrions ajouter à nos trois étapes le quatrième, qui se rapporte à la stabilité de la
convexité sous p la maximisation ponctuelle.
104 CHAPITRE 5. FONCTIONS CONVEXES

5.3 Inégalité du Gradient


Une propriété extrêmement importante d’une fonction convexe est donnée par la proposition
suivante :
Proposition 5.3.1 [Inégalité du gradient] Soit f une fonction à valeurs finies et valeur +∞,
et soit x un point intérieur du domaine de f et soit Q soit un ensemble convexe contenant x.
On suppose que
– f est convexe sur Q,
– f est différentiable en x.
Soit ∇f (x) le gradient de la fonction en x. Alors nous avons l’inégalité suivante :

(∀y ∈ Q) : f (y) ≥ f (x) + (y − x)T ∇f (x). (5.3)

Géométriquement : le graph

{(y, t) ∈ Rn+1 | y ∈ Dom f ∩ Q, t = f (y)}

de la fonction f limitée à l’ensemble Q est au-dessus du graph

{(y, t) ∈ Rn+1 | t = f (x) + (y − x)T ∇f (x)}

de la forme linéaire tangente à f en x.


Preuve : Soit y ∈ Q. Il n’y a rien à prouver si y ∈ Dom f (puisque le côté droit dans l’inégalité
de gradient est +∞), même qu’il n’y a rien à montrer quand y = x. Ainsi, nous pouvons supposer
que y = x et y ∈ Dom f . Posons

yτ = x + τ (y − x), 0 < τ ≤ 1,

de sorte que y1 = y et yτ soit un point intérieur du segment [x, y] pour 0 < τ < 1. Maintenant
nous utilisons le lemme suivant :
Lemme 5.3.1 Soit x, x , x trois points distincts avec x ∈ [x, x ], et soit f
convexe et fini sur [x, x ]. Alors
f (x ) − f (x) f (x ) − f (x)
≤ . (5.4)
 x − x   x − x 
Preuve du Lemme : Nous avons
 x − x 
x = x + λ(x − x), λ= ∈ (0, 1)
 x − x 
ou
x = (1 − λ)x + λx .
Par la convexité de f ,
f (x ) ≤ (1 − λ)f (x) + λf (x ),
ou
f (x ) − f (x) ≤ λ(f (x ) − f (x )).
En divisant par λ et en soumettant dans cette formule la valeur de λ, nous obtenons
(5.4).
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES105

En appliquant le lemme au triplet x, x = yτ , x = y, nous obtenons


f (x + τ (y − x)) − f (x) f (y) − f (x)
≤ ;
τ y−x y−x
quand τ → +0, le côté gauche de cette inégalité, par la définition du gradient, tend vers 
y − x −1 (y − x)T ∇f (x), et nous avons

 y − x −1 (y − x)T ∇f (x) ≤ y − x −1 (f (y) − f (x)).

Autrement dit,
(y − x)T ∇f (x) ≤ f (y) − f (x);
ce qui est exactement l’inégalité (5.3).
Pour conclure l’histoire de l’Inégalité du Gradient, il est utile de noter que dans le
cas quand Q est un ensemble convexe avec l’intérieur non vide et f est continu sur Q et
différentiable sur int Q, alors f est convexe sur Q si et seulement si l’Inégalité du Gradient
(5.3) est vérifiée pour chaque paire x int Q et y ∈ Q.
En effet, la partie “seulement si”, c.-à-d., l’implication
la convexité de f → Inégalité du Gradient pour tout x ∈ int Q et tout y ∈ Q
est donnée par la Proposition 5.3.1. Pour prouver la partie “si”, c.-à-d., pour établir l’impli-
cation réciproque, supposons que f satisfait l’inégalité de gradient pour tout le x ∈ int Q et
tout le y ∈ Q, et vérifions que f est convexe sur Q. Il suffit de montrer que f est convexe sur
l’intérieur Q de l’ensemble Q (voir la Proposition 5.2.2). Pour montrer que f est convexe sur
Q , notez que Q est convexe (Théorème 2.1.1) et que, en raison de l’Inégalité du Gradient,
sur Q f est la borne supérieure de la famille affine (et donc convexe) des fonctions :

f (y) = sup fx (y), fx (y) = f (x) + (y − x)T ∇f (x).


x∈Q

5.4 Bornitude et la propriété de Lipschitz des fonctions


convexes
Les fonctions convexes possèdent des très bonnes propriétés locales.
Théorème 5.4.1 [Bornitude et continuité de Lipschitz de fonctions convexes]
Soit f une fonction convexe et soit K un ensemble fermé et borné contenu dans l’intérieur
relatif du domaine domf de f . Alors f est Lipschitzienne sur K, c.-à-d. qu’il existe la
constante L, nommée la constante de Lipschitz de f sur K, tels que

|f (x) − f (y)| ≤ L|x − y| ∀x, y ∈ K. (5.5)

En particulier, f est bornée sur K.


Remarque 5.4.1 Chacune des trois conditions sur K – (1) la fermeture, (2) la bornitude
et (3) K ⊂ ri Dom f – sont essentielles, ce qu’on peut voir dans les trois exemples suivants :
– f (x) = 1/x, Dom f = (0, +∞), K = (0, 1]. Nous avons (2), (3) mais pas (1) ; f n’est
ni bornée, ni Lipschitzienne sur K.
– f (x) = x2 , Dom f = R, K = R. Nous avons (1), (3) mais pas (2) ; f n’est ni bornée
ni Lipschitz
√ sur K.
– f (x) = − x, Dom f = [0, +∞), K = [0, 1]. Nous avons (1), (2) et pas (3) ; f n’est pas
Lipschitzienne sur K 1) , bien qu’elle soit bornée. Nous pourrions construire également

1. ) en effet, nous avons limt→+0 f (0)−f


t
(t)
= limt→+0 t−1/2 = +∞, alors que pour une fonction f Lipschitzienne
−1
les ratios t (f (0) − f (t)) devraient être bornées
106 CHAPITRE 5. FONCTIONS CONVEXES

une fonction convexe f de deux variables qui n’est pas bornée, avec un domaine com-
pact non-polyhedral (par exemple, avec Dom f étant le disque unité), pour lequel (1)
et (2) sont verifier, mais pas (3).
Remarque 5.4.2 Théorème 5.4.1 dit qu’une fonction convexe f est bornée sur tout sous-
ensemble compact de l’intérieur relatif de Dom f . En fait il y a un résultat bien plus fort sur
la borne inférieure de f : f est bornée inférieurement sur tout sous-ensemble borne de Rn !
Preuve du Théorème 5.4.1. Nous commencerons par la version locale suivante du
théorème.
Proposition 5.4.1 Soit f une fonction convexe, et soit x̄ un point de l’intérieur relatif du
domaine Dom f de f . Alors
(i) f est bornée en x̄ : il existe un r positif tels que f est bornée dans le r-voisinage Ur (x̄)
de x̄ dans l’enveloppe affine de Dom f :

∃r > 0, C : |f (x)| ≤ C ∀x ∈ Ur (x̄) = {x ∈ Aff(Dom f ) |  x − x̄ ≤ r};

(ii) f est Lipschitzienne en x̄, c.-à-d., il existe un ρ positif et une constante L tels que

|f (x) − f (x )| ≤ L  x − x  ∀x, x ∈ Uρ (x̄).

Implication “Proposition 5.4.1 ⇒ Théorème 5.4.1” est donné par un raisonnement


standard d’Analyse. Tout ce que nous avons besoin de montrer que si K est un sous-ensemble
borné et fermé (c.-à-d., un ensemble compacte) de ri Dom f , alors f est Lipschitzienne K
(la bornitude de f sur K est une conséquence évidente de la propriété de Lipschitz sur K et
de la bornitude de K). Supposons, au contraire, que f n’est pas Lipschitzienne sur K ; alors
pour chaque entier i il existe une paire de points xi , yi ∈ K tels que

f (xi ) − f (yi ) ≥ i|xi − yi |. (5.6)

Puisque K est compact, en passant à une sous-suite nous pouvons supposer que le xi → x ∈ K
de et yi → y ∈ K. Par la Proposition 5.4.1 le cas x = y est impossible – f est Lipschitzienne
dans un voisinage B de x = y ; comme xi → x et yi → y, ce voisinage devrait contenir tous
les xi et yi avec i assez grands ; mais alors, grâce à la propriété de Lipschitz de f dans B,
les rapports (f (xi ) − f (yi ))/|xi − yi | forment une suite bornée, ce qui n’est pas le cas par
hypothèse.
Le cas x = y est “encore moins” possible – puisque, par la proposition, f est continu
sur Dom f , en deux points x et y (notez que la propriété de Lipschitz en un point implique
clairement la continuité de la fonction), de sorte que nous ayons f (xi ) → f (x) et f (yi ) → f (y)
quand i → ∞. Ainsi, le côté gauche de (5.6) reste borné quand i → ∞. Dans le côté droit i
tend vers ∞, et le facteur |xi − yi | a une limite de non nulle |x − y|, ainsi le côté droit tend
vers ∞ avec i, ce qui mène à la contradiction.
Preuve de la Proposition 5.4.1.
10 . Nous commençons par montrer que la fonction f est bornée au-dessus dans un voisi-
nage de x̄. C’est immédiat : nous savons qu’il existe un voisinage Ur̄ (x̄) qui est contenu dans
Dom f (puisque, par hypothèse, x̄ est un point de l’intérieur relatif de Dom f ). Maintenant,
nous pouvons trouver un petit simplex Δ de dimension m = dim Aff(Dom f ) avec les som-
mets x0 , .., xm dans Ur̄ (x̄) de telle manière que x̄ soit une combinaison convexe des vecteurs
xi avec des coefficients positifs, et même avec les coefficients 1/(m + 1) :
m
 1
x̄ = xi 2) .
i=0
m+1

2. ) pour voir qu’un tel Δ existe, nous pouvons agir comme suit : d’abord, le cas de Dom f étant un singleton
est évident, ainsi nous pouvons supposer que Dom f est un ensemble convexe de dimension m ≥ 1. Prenons une
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES107

Nous savons que x̄ est le point de l’intérieur relatif de Δ (regarder la preuve du Théorème
2.1.1.(ii)) ; puisque Δ engendre le même ensemble affine que Dom f (m est bien la dimension
de Aff(Dom f ) !), cela signifie que Δ contient Ur (x̄) avec certain r > 0. Maintenant, dans
m
 
Δ={ λi xi | λi ≥ 0, λi = 1}
i=0 i

f est bornée supérieurement par max0≤i≤m f (xi ) grâce à l’inégalité de Jensen :


m m

f( λi xi ) ≤ λi f (xi ) ≤ max f (xi ).
i
i=0 i=0

En conséquence, f est bornée supérieurement (par la même quantité) dans Ur (x̄).


20 . Montrons que si f est bornée supérieurement par un certain C dans Ur (x̄), alors elle
est bornée inférieurement dans ce voisinage (et, par conséquent, est tout simplement bornée
dans Ur ). En effet, soit x ∈ Ur , de sorte que x ∈ Aff(Dom f ) et  x − x̄ ≤ r. En posant
x = x̄ − [x − x̄] = 2x̄ − x, on obtient x ∈ Aff(Dom f ) et  x − x̄ = x − x̄ ≤ r. Ainsi
x ∈ Ur . Comme x̄ = 12 [x + x ], nous avons
2f (x̄) ≤ f (x) + f (x ),
d’où
f (x) ≥ 2f (x̄) − f (x ) ≥ 2f (x̄) − C, x ∈ Ur (x̄),
et, effectivement, f est bornée inférieurement dans Ur , ce qui est (i).
30 . (ii) est une conséquence immédiate de (i) et du Lemme 5.3.1. En effet, montrons que
f est Lipschitzienne dans le voisinage Ur/2 (x̄), où r > 0 est tel que f est bornée dans Ur (x̄)
(nous savons déjà de (i) que un tel r existe). Soit |f | ≤ C dans Ur , et soit x, x ∈ Ur/2 ,
x = x . Nous pouvons éteindre le segment [x, x ] au travers du point x jusqu’il atteint la
frontière (relative) de Ur en un certain point x ; alors nous aurons
x ∈ (x, x );  x − x̄ = r.
Du (5.4) nous avons
f (x ) − f (x)
f (x ) − f (x) ≤ x − x  .
 x − x 
base affine y0 ..., ym arbitraire dans M = Aff(Dom f ) et puis passons de cette base à l’ensemble z0 = y0 , z1 =
y0 + (y1 − y0 ), z2 = y0 + (y2 − y0 )..., zm = y0 + (ym − y0 ) avec un certain  > 0. Bien évidemment, les vecteurs zi
appartiennent à M et forment une base affine (du fait que les vecteurs zi − z0 , i = 1..., m, sont  fois les vecteurs
yi − y0 , et ces derniers forment une base dans le sous-espace linéaire L tel que M = y0 + L, cf. le Théorème 1.3.1.
Par conséquent, les vecteurs zi − z0 , i = 1..., m, forment également une base dans L d’où, par le même Corollaire,
z0 , ..., zm forment la base affine de M ). Un choisissant epsilon > 0 assez petit, nous pouvons imposer que tous
les vecteurs z0 ..., zm soyons dans le (r̄/10)-voisinage du vecteur z0 . Maintenant, soit Δ l’enveloppe convexe de
z0 , ..., zm ; c’est un simplex avec les sommets contenus dans le voisinage de z0 du rayon r̄/10 (naturellement, nous
parlons de la boule dans M ). Ce voisinage est une intersection d’une boule Euclidienne, qui est un ensemble
convexe, et de M , qui est également convexe ; donc ce voisinage est convexe. Puisque les sommets de Δ sont
 −1 m
contenus dans ce voisinage, Δ entier est contenu dans le voisinage. Posons maintenant z̄ = (m + 1) z ;
i=0 i
évidemment, Δ est contenu dans le voisinage de z̄ dans M du rayon 2×(r̄/10) = r̄/5. Le choix de Δ = [x̄− z̄]+Δ ,


nous permet d’obtenir le m xi = zi + x̄ − z̄ qui est contenu dans le r̄/5-voisinage de x̄ dans
simplex avec les sommets
m
M et tel que (m + 1)−1 i=0 xi ≡ (m + 1)−1 i=0 [zi + x̄ − z̄] = z̄ + x̄ − z̄ = x̄, comme requis.
J’ai donné cet horrible “explication” pour montrer combien de mots nous avons besoin pour rendre rigoureuse
la recette évidente “prenons un petit simplex avec la moyenne de sommets égale à x̄”. Les “explications” de ce
type n’ont pas lieu d’être (et seront omises), parce que en faisant cela on risque de tuer même le raisonnement le
plus clair. Notez, en tous cas, que dans les mathématiques nous devrions pouvoir expliquer, si on nous demande,
ce qui signifie “prendre un petit simplex” et comment peut-on le “prendre”. Inutile de dire que vous êtes censés
pouvoir effectuer ce travail routine par vous-mêmes ; à cet effet vous devriez vous rappeler ce qui est la signification
exacte des mots que nous employons et ce qui sont les relations de base entre le concepts.
108 CHAPITRE 5. FONCTIONS CONVEXES

Le deuxième facteur du côté droit n’excède pas la quantité (2c)/(r/2) = 4c/r ; en effet, le
numérateur est, en valeur absolue, au plus 2C (puisque |f | est bornée par C dans Ur et x, x
sont dans Ur ) et le dénominateur est au moins r/2 (en effet, x est à la distance tout au plus
r/2 de x̄, et x est à la distance exactement r de x̄, de sorte que la distance entre x et x ,
par l’inégalité de triangle, soit au moins r/2). Ainsi, nous avons

f (x ) − f (x) ≤ (4C/r)  x − x , x, x ∈ Ur/2 ;

en permutant x et x , on arrive à

f (x) − f (x ) ≤ (4C/r)  x − x ,

d’où
|f (x) − f (x )| ≤ (4C/r)  x − x , x, x ∈ Ur/2 ,

comme exigé par (ii).

5.5 Maximum et minimum de fonctions convexes


Nous avons déjà mentionné que les problèmes d’optimisation impliquant des fonctions
convexes possèdent des bonnes propriétés théoriques. Une des plus importantes est donné par
le théorème suivant :

Théorème 5.5.1 [“Unimodalité”] Soit f une fonction convexe sur un ensemble convexe Q ⊂
Rn , et soit x∗ ∈ Q ∩ Dom f un minimiseur local de f sur Q :

(∃r > 0) : f (y) ≥ f (x∗ ) ∀y ∈ Q,  y − x < r. (5.7)

Alors x∗ est un minimiseur global de f sur Q :

f (y) ≥ f (x∗ ) ∀y ∈ Q. (5.8)

De plus, l’ensemble ArgminQ f de tous les minimiseurs locaux (≡ globaux) de f sur Q est
convexe.
Si f est strictement convexe (c.-à-d. que l’inégalité de convexité f (λx + (1 − λ)y) ≤ λf (x) +
(1− λ)f (y) est stricte quelques soient x = y et λ ∈ (0, 1)), alors soit cet ensemble est vide empty,
soit il est un singleton.

Preuve : 1) Soit x∗ un minimiseur local de f sur Q et y ∈ Q, y = x∗ ; on doit montrer que


f (y) ≥ f (x∗ ). Il n’y a rien à montrer si f (y) = +∞, ainsi on peut supposer que y ∈ Dom f .
Notez que, sûrement, x∗ ∈ Dom f – par la définition d’un minimiseur local.
Pour tout τ ∈ (0, 1) nous avons par le Lemme 5.3.1,

f (x∗ + τ (y − x∗ )) − f (x∗ ) f (y) − f (x∗ )


≤ .
τ  y − x∗   y − x∗ 

Comme x∗ est un minimiseur local de f , le côté gauche de cette inégalité est non négatif pour
tout τ > 0 assez petit. On en déduit que le côté droit est non négatif, c.-à-d., f (y) ≥ f (x∗ ).
2) Le convexité de ArgminQ f , vient du fait que ArgminQ f n’est rien d’autre que l’ensemble
de niveau levα (f ) de f associé à la valeur minimale minQ f de f sur Q ; comme tout ensemble
de niveau d’une fonction convexe, cet ensemble est convexe (Proposition 5.1.4).
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 109

3) Pour montrer que l’ensemble ArgminQ f lié à une fonction f strictement convexe est,
si non vide, un singleton, notez que s’il y avait deux minimizers distincts x , x , alors, de la
convexité stricte, nous aurions
1 1 1
f ( x + x ) < [f (x ) + f (x )] = min f,
2 2 2 Q

ce qui est impossible – l’argument dans le côté gauche est un point de Q !


Un autre fait plaisant est celui dans le cas de fonctions convexes différentiables la condition
nécessaire d’optimalité (la règle de Fermat) est suffisant pour l’optimalité globale :

Théorème 5.5.2 [Condition nécessaire et suffisante d’optimalité pour une fonction convexe
différentiable]
Soit f une fonction convexe sur l’ensemble convexe Q ⊂ Rn , et soit x∗ un point intérieur
de Q. Supposons que f est différentiable en x∗ . Alors x∗ est un minimizer de f sur Q si et
seulement si
∇f (x∗ ) = 0.

Preuve : comme condition nécessaire pour l’optimalité locale, la relation ∇f (x∗ ) = 0 est connue
de l’Analyse ; elle n’a rien en commun avec la convexité. L’essence de la matière est, naturelle-
ment, la suffisance de cette condition pour l’optimalité globale de x∗ dans le cas de f convexe.
Cette suffisance est donnée par l’Inégalité du Gradient (5.3) : en vertu de cette inégalité et en
raison de ∇f (x∗ ) = 0,
f (y) ≥ f (x∗ ) + (y − x∗ )∇f (x∗ ) = f (x∗ )
pour tout y ∈ Q.

Remarque 5.5.1 On pourrait se poser la question naturelle suivante : que se passe-t-il si x∗


dans la condition ci-dessus n’est pas nécessairement un point intérieur de Q. Ainsi, supposons que
x∗ est un point arbitraire d’un ensemble convexe Q et que f est convexe sur Q et différentiable
en x∗ (ce qui veut dire exactement que Dom f contient un voisinage de x∗ et f est derivable en
x∗ ). Dans ces conditions, quand est-ce que x∗ est un minimiseur de f sur Q ?
La réponse est comme suit : soit

TQ (x∗ ) = {h ∈ Rn | x∗ + th ∈ Q ∀ assez petit t > 0}

soit le cône tangent de Q en x∗ . Géométriquement, c’est l’ensemble de toutes les directions


menant de x∗ vers l’intérieur de Q, de sorte qu’un assez petit déplacement positive de x∗ le long
de cette direction garde le point dans Q. De la convexité de Q on conclut que le cône tangent est
en effet un cône convexe (mais pas nécessairement fermé). Par exemple, quand x∗ est un point
intérieur de Q, le cône tangent à Q en x∗ est Rn entier. Un exemple plus intéressant est le cône
tangent à un ensemble polyhedral

Q = {x | aTi x ≤ bi , i = 1, ..., m}; (5.9)

Pour x∗ ∈ Q le cône tangent correspondant est le cône polyhedral

{h | aTi h ≤ 0 ∀i : aTi x∗ = bi } (5.10)

qui correspond aux contraintes aTi x ≤ bi de la description de Q qui sont actives en x∗ (c.-à-d.,
ceux parmi les inégalités qui sont égalités en x∗ plutôt que des inégalités strictes(Pourquoi ?))
110 CHAPITRE 5. FONCTIONS CONVEXES

Maintenant, pour les fonctions convexes sur Q et différentiables à x∗ la condition nécessaire


et suffisante pour x∗ d’être un minimiseur de f sur Q est comme suit :
(*) la dérivée de f prise en x∗ le long de chaque direction de TQ (x∗ ) doit être non négative :

hT ∇f (x∗ ) ≥ 0 ∀h ∈ TQ (x∗ ).

Preuve est immédiate. La nécessité est évidente, ce qui n’a rien à voir avec la convexité :
en supposant que x∗ est un minimiseur local de f sur Q, nous notons que s’il y avait une
direction h ∈ TQ (x∗ ) avec hT ∇f (x∗ ) < 0, alors nous aurions

f (x∗ + th) < f (x∗ )

pour tout t > 0 assez petit. D’autre part, x∗ + th ∈ Q pour tout t > 0 assez petit dû à
h ∈ TQ (x∗ ). Combinant ces observations, nous concluons que dans chaque voisinage de x∗ il
y a des points de Q avec une valeur de f strictement plus petite que f (x∗ ) ; ceci contredit
l’hypothèse que x∗ est un minimiseur local de f sur Q.
La suffisance est une conséquence de l’Inégalité du Gradient, exactement comme dans le
cas quand x∗ est un point intérieur de Q.
La condition (*) indique que si f est convexe sur Q et différentiable en x∗ ∈ Q, la condition
nécessaire et suffisante pour que x∗ soit un minimiseur de f sur Q est que la forme linéaire
donnée par le gradient ∇f (x∗ ) de f en x∗ doit être non négative sur toutes les directions du
cône tangent TQ (x∗ ). Les formes linéaires non négatives sur toutes les directions du cône tangent
forment également un cône (Vérifiez cela !) ; ce cône s’appelle le cône normal à Q en x∗ et est noté
NQ (x∗ ). Ainsi, (*) dit que la condition nécessaire et suffisante pour que x∗ donne le minimum
de f sur Q est l’inclusion ∇f (x∗ ) ∈ NQ (x∗ ). Ce qui cette condition veut dire réellement, dépend
de ce qui est le cône normal : si nous avons une description explicite du cône normal, nous avons
une forme explicite de la condition d’optimalité.
Par exemple, quand TQ (x∗ ) = Rn (autrement dit, quand x∗ est un point intérieur de Q),
alors le cône normal est composé des formes linéaires non négatives sur l’espace entier, c.-à-d.,
c’est le cône trivial {0} ; par conséquent, dans ce cas en la condition d’optimalité devient la règle
∇f (x∗ ) = 0 de Fermat.
Quand Q est l’ensemble polyhedral (5.9), le cône tangent est le cône polyhedral (5.10) ; il est
composé de toutes les directions qui ont les produits scalaires non positifs avec tous les vecteurs
ai des inégalités actives en x∗ . Le cône normal est composé de tous les vecteurs qui ont les
produits scalaires non négatifs avec toutes ces directions, c.-à-d., il contient des vecteurs a tels
que l’inégalité hT a ≥ 0 est une conséquence des inégalités hT ai ≤ 0, i ∈ I(x∗ ) ≡ {i | aTi x∗ = bi }.
Nous concluons du Lemme de Farkas Homogène que le cône normal est simplement l’enveloppe
conique des vecteurs −ai , i ∈ I(x∗ ). Ainsi, dans le cas en question (*) lit :
x∗ ∈ Q est un minimiseur de f sur Q si et seulement si il existent des réels non négatifs λ∗i
associés “aux indices actifs” i (ceux dans I(x∗ )) tels que

∇f (x∗ ) + λ∗i ai = 0.
i∈I(x∗ )

Ceux-ci sont les célèbres conditions d’optimalité de Karush-Kuhn-Tucker ; dans le chapitre sui-
vant nous montrerons que ces conditions sont nécessaires et suffisantes d’optimalité dans une
situation bien plus générale.
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 111

Les résultats ci-dessus montrent que le fait qu’un point x∗ ∈ Dom f est un minimizer global
d’une fonction convexe f ne dépend que du comportement local de f en x∗ . Ce n’est pas le cas
avec des maximums d’une fonction convexe. Tout d’abord, un tel maximum, s’il existe, dans
tous les cas non triviaux devrait appartenir à la frontière du domaine de la fonction :

Théorème 5.5.3 Soit f convexe, et soit Q le domaine de f . Supposons que f atteint son
maximum sur Q en un point x∗ de l’intérieur relatif de Q. Alors f est constante sur Q.

Preuve : soit y ∈ Q ; nous devons prouver que f (y) = f (x∗ ). Il n’y a rien à prouver si y = x∗ ,
ainsi nous allons supposer que y = x∗ . Puisque, par hypothese, x∗ ∈ ri Q, nous pouvons prolonger
le segment [x∗ , y] par le point final x∗ , tout en gardant l’extrémité gauche du segment dans Q.
En d’autres termes, il existe un point y  ∈ Q tels que x∗ est un point intérieur du segment [y  , y] :

x∗ = λy  + (1 − λ)y
pour un certain λ ∈ (0, 1). Par définition de convexité

f (x∗ ) ≤ λf (y  ) + (1 − λ)f (y).

Comme f (y  ) et f (y) son inférieurs à f (x∗ ) (x∗ est un maximiseur de f sur Q !) et les poids λ et
1 − λ sont strictement positifs, cette inégalité n’est peut être valide que si f (y  ) = f (y) = f (x∗ ).

Dans certains cas nous pouvons être encore plus précis :

Théorème 5.5.4 Soit f une fonction convexe sur Rn et E un sous-ensemble de Rn . Alors

sup f = sup f. (5.11)


Conv E E

En particulier, si S ⊂ Rn est un ensemble convexe compact, alors la borne supérieure de f sur


S est égale à la borne supérieure de f sur l’ensemble Ext(S) des points extrêmes de S :

sup f = sup f (5.12)


S Ext(S)

Preuve : pour montrer (5.11), supposons que x ∈ ConvE, de façon que x est une combinaison
convexe des points de E (Théorème 2.1.3 sur la structure de l’enveloppe convexe) :
 
x= λi xi [xi ∈ E, λi ≥ 0, λi = 1].
i i

En appliquant l’inégalité de Jensen (Proposition 5.1.3), nous obtenons


 
f (x) ≤ λi f (xi ) ≤ λi sup f = sup f.
i i E E

Ainsi le côté gauche de (5.11) est ≤ le côté droit ; l’inégalité réciproque est évidente, car Conv E ⊃
E.
Pour obtenir (5.12) de (5.11), il suffit de noter que par le Théorème de Krein-Milman
(Théorème 4.2.1) pour S convexe nous avons S = Conv Ext(S).
Le dernier théorème sur des maximum des fonctions convexes est comme suit :
112 CHAPITRE 5. FONCTIONS CONVEXES


Théorème 5.5.5 Soit f une fonction convexe tels que le domaine Q de f est fermé et ne
contient pas de droites. Alors
(i) si l’ensemble de maximiseurs globaux de f

Argmax f ≡ {x ∈ Q | f (x) ≥ f (y) ∀y ∈ Q}


Q

est non vide, alors il rencontre l’ensemble Ext(Q) des points extrêmes de Q, de sorte qu’au
moins un des maximiseurs de f soit un point extrême de Q ;
(ii) si l’ensemble Q est polyhedral et f est bornée supérieurement sur Q, alors le maximum
de f sur Q est atteint : ArgmaxQ f = ∅.
Preuve : nous commençons par (i). Nous prouverons ce résultat par induction sur la
dimension de Q. Le cas dim Q = 0, c.-à-d., le cas d’un singleton Q, est trivial, car ici
Q = ExtQ = ArgmaxQ f . Supposons maintenant que le résultat en question est valide pour
le cas de dim Q ≤ p, et montrons qu’il est valide également pour le cas de dim Q = p + 1.
Vérifions d’abord que l’ensemble ArgmaxQ f rencontre la frontière (relative) de Q. En effet,
soit x ∈ ArgmaxQ f . Il n’y a rien à prouver si x lui-même est un point de la frontière relative
de Q ; et si x n’est pas un point de frontière, alors, par Théorème 5.5.3, f est constant sur Q,
de sorte que ArgmaxQ f = Q ; et puisque Q est fermé, n’importe quel point de la frontière
relative de Q (un tel point existe, puisque Q ne contient pas de droites et est de dimension
positive) est un maximiseur de f sur Q, de sorte que là encore ArgmaxQ f rencontre ∂r iQ.
Ainsi, parmi les maximiseurs de f il existe au moins un, disons x, qui appartient à la
frontière relative de Q. Alors, soit H un hyperplan de support de Q en x (voir la Section
4.1), et soit Q = Q ∩ H. L’ensemble Q est fermé et convexe (car Q et H le sont), non vide
(il contient x) et ne contient pas de droites (puisque Q ne contient pas de droites). Nous
avons maxQ f = f (x) = maxQ f (notez qui Q ⊂ Q), d’où

∅ = Argmax f ⊂ Argmax f.
Q Q

Comme dans la preuve du Théorème de Krein-Milman (Théorème 4.2.1), nous avons


dim Q < dim Q. En raison de cette inégalité nous pouvons appliquer à f et à Q notre
hypothèse inductive pour obtenir

Ext(Q ) ∩ Argmax f = ∅.
Q

Comme Ext(Q ) ⊂ Ext(Q), et, comme nous venons de voir ArgmaxQ f ⊂ ArgmaxQ f , nous
concluons que Ext(Q) ∩ ArgmaxQ f n’est pas plus petit que le Ext(Q ) ∩ ArgmaxQ f et donc
est non vide, comme exigé.
Pour prouver (ii), nous utilisons le résultat sur la structure de l’ensemble polyhedral :

Q = Conv(S) + Cone (R),

où S et R sont les ensembles finis. Nous sommes sur le point de montrer que la borne
supérieure de f sur Q est exactement le maximum de f sur l’ensemble fini S :

∀x ∈ Q : f (x) ≤ max f (s). (5.13)


s∈S

Ceci signifiera, en particulier, que f atteint son maximum sur Q – par exemple, dans le point
où f atteint son maximum sur S.
Pour prouver ce résultat, nous allons montrer d’abord que si f bornée supérieurement
sur Q, alors chaque direction r ∈ Cone (R) est celle de descente pour f , c.-à-d., est telle que
toute déplacement dans cette direction prise dans n’importe quel point x ∈ Q diminue f :

f (x + tr) ≤ f (x) ∀x ∈ Q∀t ≥ 0. (5.14)


5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 113

En effet, si, au contraire, il y avait x ∈ Q, r ∈ R et t ≥ 0 tels que f (x + tr) > f (x), nous
aurions t > 0 et, par le Lemme 5.3.1,
s
f (x + sr) ≥ f (x) + (f (x + tr) − f (x)), s ≥ t.
t
Somme x ∈ Q et r ∈ Cone (R), x + sr ∈ Q pour tout s ≥ 0, et puisque f est bornée
supérieurement sur Q, le côté gauche dans la dernière inégalité est borné, tandis que la
quantité à droite tend à +∞ quand s → ∞ en raison de f (x + tr >) > f (x).
Maintenant pour montrer (5.13) il suffit de remarquer qu’un point générique x ∈ Q peut
être représenté en comme
 
x= λs s + r [r ∈ Cone (R); λs = 1, λs ≥ 0],
s∈S s

et nous avons

f (x) = f (s∈S λs s + r)
≤ f ( s∈S λs s)
 [par (5.14)]
≤ s∈S λs f (s) [par l’inégalité de Jensen]
≤ maxs∈S f (s)
114 CHAPITRE 5. FONCTIONS CONVEXES

5.6 Exrecices
Exercice 5.1 Marquez par ”c” celles parmi les fonctions ci-dessous qui sont convexes sur les
domaines indiqués :
– f (x) ≡ 1 sur R
– f (x) = x sur R
– f (x) = |x| sur R
– f (x) = −|x| sur R
– f (x) = −|x| sur R+ = {x ≥ 0}
– exp{x} sur R
– exp{x2 } sur R
– exp{−x2 } sur R
– exp{−x2 } sur {x | x ≥ 100}

Exercice 5.2 Montrer que les fonctions suivantes sont convexes :


2
– xy sur {(x, y) ∈ R2 | y > 0}
– ln(exp{x} + exp{y}) sur le plan R2 .

Exercice 5.3 Une fonction réelle f définie sur un ensemble convexe Q est appelée log-convexe
sur Q, si elle est à valeurs positives sur Q et la fonction ln f est convexe sur Q. Montrez que
– une fonction log-convexe sur Q est convexe sur Q
– la somme (et plus généralement, toute combinaison linéaire avec des coefficients positifs)
des deux fonctions log-convexes sur Q est aussi log-convexe sur Q.
Indication : utilisez le résultat de l’exercice précèdent et votre connaissance d’operations
préservant la convexité

Exercice 5.4 On considère un programme de Programming Linéaire

cT x → min | Ax ≤ b

avec une matrice A m × n. Soit x∗ une solution optimale du problème, c.-à-d., x∗ est un minimi-
seur d’une fonction convexe différentiable f (x) = cT x sur l’ensemble convexe Q = {x | Ax ≤ b}
et, ainsi, selon la Remarque 5.5.1, ∇f (x∗ ) doit appartenir au cône normal de Q en x∗ – c’est
la condition nécessaire et suffisante d’optimalité de x∗ . Que veut dire cette condition en termes
de A, b et c ?
Chapitre 6

Programmation Convexe et Dualité


de Lagrange

Dans ce chapitre nous touchons à notre objectif principal – les conditions d’optimalité, nous
obtiendrons ces conditions pour le cas le plus favorable de programmation convexe.

6.1 Programme de Programmation Mathématique


Un programme de Programmation Mathématique (sous contraintes) est un problème comme
suit :

(P) min {f (x) | x ∈ X, g(x) ≡ (g1 (x), ..., gm (x)) ≤ 0, h(x) ≡ (h1 (x), ..., hk (x)) = 0} . (6.1)

La terminologie standardisée liée à (6.1) est suivante :


– [domaine] X s’appelle domaine du problème
– [objectif] f s’appelle l’objectif
– [ contraintes ] gi , i = 1, ..., m, s’appellent contraintes (fonctionnelles) d’inégalité ; hj , j =
1, ..., k, s’appellent contraintes d’égalité 1)
Dans la suite, si l’opposé n’est pas dit explicitement, il est toujours supposé que l’objectif et les
contraintes sont bien définis sur X.
– [solution faisable] un point x ∈ Rn s’appelle la solution faisable de (6.1), si x ∈ X,
gi (x) ≤ 0, i = 1, ..., m, et hj (x) = 0, j = 1, ..., k, c.-à-d., si x satisfait toutes les restrictions
imposées par la formulation du problème
– [ensemble faisable] l’ensemble de toutes les solutions faisables s’appelle ensemble faisable
du problème
– [problème faisable] un problème avec un ensemble faisable non vide (c.-à-d., celui qui
admet les solutions faisables) s’appelle faisable (ou consistant)
– [ contraintes actives ] une contrainte gi (·) ≤ 0 d’inégalité s’appelle active en une solution
faisable donnée x, si cette contrainte est satisfaite en ce point comme une égalité plutôt
qu’une inégalité stricte, c.-à-d., si
gi (x) = 0.
1. ) rigoureusement parlant, les contraintes ne sont pas les functions gi , hj , mais les relations gi (x) ≤ 0,
hj (x) = 0 ; en fait le mot “contraintes” est employé dans ces deux sens, et il est toujours clair ce qu’il signifie. Par
exemple, en disant que x satisfait les contraintes, nous sous-entendons les relations, et en disant que les contraintes
sont différentiables, nous sous-entendons que les functions

115
116 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Une contrainte d’égalité de hi (x) = 0 est active par définition en chaque solution faisable
x.
– [valeur optimale] la valeur
inf x∈X:g(x)≤0,h(x)=0 f (x), le problème faisable
f∗ =
+∞, le problème infaisable
s’appelle la valeur optimale du problème
– [bornitude] le problème s’appelle borné inférieurement, si son valeur optimale est > −∞,
c.-à-d., si l’objectif est borné inférieurement sur l’ensemble faisable
– [solution optimale] un point x ∈ Rn s’appelle solution optimale de (6.1), si x est faisable
et f (x) ≤ f (x ) pour n’importe quelle autre solution faisable x , c.-à-d., si

x∈ Argmin f (x )
x ∈X:g(x )≤0,h(x )=0

– [problème soluble] un problème s’appelle soluble, s’il admet des solutions optimales
– [ensemble optimal] l’ensemble de toutes les solutions optimales d’un problème s’appelle
son ensemble optimal
Résoudre le problème sous-entend trouver une solution optimale ou détecter qu’il n’existe aucune
solution optimale.

6.2 Convex Programming program and Duality Theorem


Un programme (P) de Programmation Mathématique s’appelle convexe (ou programme de
Programmation Convexe), si
– X est sous-ensemble convexe de Rn
– f, g1 ..., gm sont des fonctions convexes à valeurs réelles sur X,
et
– il n’y a aucune contrainte d’égalité du tout.
On note qu’au lieu de dire qu’il n’y a aucune contrainte d’égalité, on pourrait indiquer que les
seules contraintes de ce type qui sont admises sont des contraintes linéaires ; ce dernier cas peut
être immédiatement réduit au cas sans contraintes d’égalité en remplaçant Rn avec l’ensemble
affine donné par les contraintes (linéaires) d’égalité.

6.2.1 Théorème sur l’Alternative Convexe


Le cas le plus simple d’un programme convexe est, naturellement, un programme de Pro-
grammation Linéaire – celui où X = Rn et l’objectif et tous les contraintes sont linéaires. Nous
savons déjà ce qui sont des conditions d’optimalité pour ce cas particulier – elles sont données
par le Théorème de Dualité pour la Programmation Linéaire dans le Chapitre 4. Comment
avons-nous obtenu ces conditions ?
Nous avons commencé par l’observation que le fait qu’un point x∗ est une solution optimale
peut être exprimé en termes de solubilité/insolubilité des certains systèmes d’inégalités : en
utilisant notre notation “modernes”, ces systèmes sont

x ∈ G, f (x) ≤ c, gj (x) ≤ 0, j = 1, ..., m (6.2)

et
x ∈ G, f (x) < c, gj (x) ≤ 0, j = 1, ..., m; (6.3)
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 117

où c est un paramètre. L’optimalité de x∗ pour ce problème signifie exactement que pour c
convenablement choisi (ce choix, naturellement, est c = f (x∗ )) le premier de ces systèmes est
soluble et x∗ est sa solution, alors que le deuxième système est insoluble. En partant de cette
observation triviale, nous avons converti “sa partie négative” – l’affirmation que (6.3) est inso-
luble – en un résultat positif, en utilisant le Théorème Général sur l’Alternative, et ceci nous a
mené au Théorème de Dualité de LP.
Maintenant nous allons employer la même approche. Ce que nous avons besoin est un “ana-
logue convexe” du Théorème sur l’Alternative. Autrement dit, on cherche quelque chose comme
ce dernier résultat mais pour le cas quand les inégalités en question sont données par des fonctions
convexes plutôt que par des fonctions linéaires (et, de plus, nous avons une inclusion convexe
x ∈ X).
Le résultat dont on a besoin est facile à deviner. Comment sommes-nous venus à la formu-
lation du Théorème sur l’Alternative ? Nous nous sommes posé la question : comment exprimer
d’une façon affirmative le fait qu’un système d’inégalités linéaires n’a pas de solution ; et nous
avons observé que si nous pouvons combiner, d’une façon linéaire, les inégalités du système
et obtenir une inégalité évidemment fausse comme 0 ≤ −1, alors le système est insoluble ;
cette condition contient une certaine affirmation sur les poids avec lesquels nous combinons les
inégalités originales.
Maintenant, le schema du raisonnement ci-dessus n’a rien en commun avec la linéarité (et
même avec la convexité) des inégalités en question. En effet, considérez un système arbitraire
d’inégalités du type (6.3) :
(I)
f (x) < c
gj (x) ≤ 0, j = 1, ..., m
x ∈ X;
nous supposons que X soit un sous-ensemble non vide de Rn et f, g1 , ..., gm sont des fonctions
à valeurs réelles sur X. Il est absolument évident que
s’il existent λ1 , ..., λm non négatifs tels que l’inégalité

m
f (x) + λj gj (x) < c (6.4)
j=1

n’a aucune solution dans X, alors (I) n’a également aucune solution.
En effet, une solution de (I) est clairement une solution de (6.4) – la dernière inégalité n’est rien
qu’une combinaison des inégalités de (I) avec les poids 1 (pour la première inégalité) et λj (pour
le reste).
Maintenant, que signifie-t-il que (6.4) n’a aucune solution ? Une condition nécessaire et suf-
fisant pour ceci est que l’infinum du côté gauche de (6.4) en x ∈ X est ≥ c. Ainsi, nous venons
au
Proposition 6.2.1 [condition suffisant pour l’insolubilité de (I)] Considérons un système (I)
avec des données arbitraires et supposons que le système
(II)  
m
inf x∈X f (x) + j=1 λj gj (x) ≥ c
λj ≥ 0, j = 1, ..., m
avec des inconnus λ1 , ..., λm a une solution. Alors (I) est insoluble.
118 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Il est important de se rappeler que ce résultat est complètement général : il n’exige aucune
hypothèse sur les entités impliquées.
Le résultat que nous avons obtenu, malheureusement, ne nous aide pas : la force du Théorème
sur l’Alternative (et le fait que nous avons utilisé pour prouver le Théorème de Dualité pour
la Programmation Linéaire) n’était pas la suffisance de la condition dans la proposition pour
l’insolubilité de (I), mais la nécessité de cette condition. La justification de la nécessité de la
condition en question n’a rien en commun avec le raisonnement évident qui donne la suffisance.
Nous avons établi la nécessité pour le cas linéaire (quand X = Rn et f , g1 ..., gm sont linéaires)
dans le Chapitre 4 par l’intermédiaire du Lemme de Farkas. Nous allons prouver la nécessité
de la condition pour le cas convexe, et déjà dans ce cas nous avons besoin d’une hypothèse
additionnelle ; et dans le cas non convexe général la condition en question n’est simplement pas
nécessaire pour l’insolubilité de (I)
Ce “préface” explique ce que nous devrions faire. Nous commençons par l’hypothèse
supplémentaire de régularité mentionnée ci-dessus.

Définition 6.2.1 [Condition de Slater] Soit X ⊂ leRn et g1 ..., gm des fonctions à valeurs réelles
sur X. Nous disons que ces fonctions satisfont la condition de Slater sur X, s’il existe x ∈ X
tel que gj (x) < 0, j = 1, ..., m.
On dit qu’un problème avec des contraintes d’inégalités

(IC) f (x) → min | gj (x) ≤ 0, j = 1, ..., m, x ∈ X

(f, g1 , ..., gm sont des fonctions réelles sur X) satisfait la condition de Slater, si g1 , ..., gm satis-
font cette condition sur X.

nous sommes sur le point d’établir le fait fondamental suivant :

Théorème 6.2.1 [Théorème sur l’Alternative Convexe]


Soit X ⊂ Rn convexe, et soient f, g1 , ..., gm des fonctions réelles convexes sur X. De plus, on
suppose que g1 , ..., gm satisfont la condition de Slater sur X. Alors le système (I) est soluble si
et seulement si le système (II) est insoluble.
Une partie du résultat – “si (II) a une solution, alors (I) n’a aucune solution”– est donné
par la Proposition 6.2.1. Ce que nous avons à montrer est l’implication inverse. Ainsi nous
supposons que (I) n’a aucune solution, et nous allons montrer qu’alors (II) a une solution.
Sans perte de généralité nous pouvons supposer que X est de dimension “complete” :
ri X = int X (en effet, autrement nous pourrions remplacer notre “univers Rn avec l’enve-
loppe d’affine de X).
10 . On pose
⎛ ⎞
f (x)
⎜ g (x) ⎟
F (x) = ⎝ 1 ⎠
...
gm (x)
et on considère deux ensembles dans Rm+1 :

S = {u = (u0 , ..., um ) | ∃x ∈ X : F (x) ≤ u}

et
T = {(u0 , ..., um ) | u0 < c, u1 ≤ 0, u2 ≤ 0, ..., um ≤ 0}.
J’affirme que
– (i) S et T sont les ensembles convexes non vides ;
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 119

– (ii) S et T sont disjoints.


En effet, convexité de T est évidente, ainsi que le fait que S et T ne sont pas vides. La
convexité de S est une conséquence immédiate du fait que X et f, g1 , ..., gm sont convexes.
En effet, supposant que u , u ∈ S, on conclue que ils existent x , x ∈ X tels que F (x ) ≤ u
et F (x ) ≤ u , d’où, pour chaque λ ∈ [0, 1]

λF (x ) + (1 − λ)F (x ) ≤ λu + (1 − λ)u .

Le côté gauche dans cette inégalité, due à la convexité de X et de f, g1 , ..., gm , est ≥ F (y),
y = λx + (1 − λ)x . Alors, pour le point v = λu + (1 − λ)u , il existe y ∈ X avec F (y) ≤ v,
d’où v ∈ S. Ainsi, S est convexe.
Le fait que S ∩T = ∅ est une reformulation équivalente du fait que (I) n’a aucune solution.
20 . Comme S et T sont des ensembles convexes non vides avec l’intersection vide, selon
le Théorème de Séparation ils peuvent être séparés par une forme linéaire : il existe a =
(a0 , ..., am ) = 0 tel que
m m
inf aj uj ≥ sup aj u j . (6.5)
u∈S u∈T j=0
j=0

30 . Étudions les propriétés du vecteur a. J’affirme que, en premier,

a ≥ 0. (6.6)

et, en second,
a0 > 0. (6.7)
En effet, pour prouver (6.6) notons que si quelques ai étaient négatifs, alors le côté droit
dans (6.5) serait +∞ 2) , ce qui est interdit par (6.5).
Ainsi, a ≥ 0 ; alors, nous pouvons immédiatement calculer le côté droit de (6.5) :
m
 m

sup aj u j = sup aj uj = a0 c.
u∈T j=0 u0 <c,u1 ,...,um ≤0 j=0

Puisque pour chaque x ∈ X le point F (x) appartient à S, le côté gauche dans (6.5) n’est pas
moins que ⎡ ⎤
m

inf ⎣a0 f (x) + aj gj (x)⎦ ;
x∈X
j=1

et en combinant nos observations, nous concluons que (6.5) implique


⎡ ⎤
m

inf ⎣a0 f (x) + aj gj (x)⎦ ≥ a0 c. (6.8)
x∈X
j=1

Montrons maintenant que a0 > 0. Ce fait crucial est une conséquence immédiate de la
condition de Slater. En effet, soit x̄ ∈ X le point donné par cette condition, de sorte que
gj (x̄) < 0. De (6.8) nous concluons que
m

a0 f (x̄) + aj gj (x̄) ≥ a0 c.
j=0

Si a0 était 0, alors
mde côté droit de cette inégalité nous aurions 0, alors que le gauche serait
la combinaison j=0 aj gj (x̄) des réels gj (x̄) négatifs avec les coefficients aj non négatifs

2. ) regardez ce qui se produit quand toutes les coordonnées dans u, excepté la i-ème, sont fixées aux valeurs
permises par la description de T et ui est un “grand” réel négatif
120 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

et pas tous égaux à 0 3) , de façon que le côté gauche est strictement négatif ce qui est la
contradiction recherchée.
40 . Maintenant nous pouvons terminer la preuve : comme a0 > 0, on peut diviser les
deux côtés de (6.8) par a0 pour obtenir
⎡ ⎤
m
inf ⎣f0 (x) + λj gj (x)⎦ ≥ c, (6.9)
x∈X
j=1

où λj = aj /a0 ≥ 0. Ainsi, (II) a une solution.

6.2.2 Fonction de Lagrange et dualité de Lagrange


Le résultat du Théorème sur l’Alternative Convexe attire notre attention à la fonction
⎡ ⎤

m
L(λ) = inf ⎣f0 (x) + λj gj (x)⎦ , (6.10)
x∈X
j=1

ainsi qu’à l’agrégat



m
L(x, λ) = f0 (x) + λj gj (x) (6.11)
j=1

qui est à l’origine de cette fonction. L’agrégat (6.11) a un nom spécial – il s’appelle fonction de
Lagrange du programme d’optimisation sous contraintes d’inégalité

(IC) f (x) → min gj (x) ≤ 0, j = 1, ..., m, x ∈ X.

La fonction de Lagrange d’un programme d’optimisation est une entité très importante : la
plupart de conditions d’optimalité sont exprimées en termes de cette fonction. Commençons par
la traduction de ce que nous savons déjà en langage de fonction de Lagrange.

Théorème de dualité pour la programmation convexe


Théorème 6.2.2 Considérons un programme d’optimisation contraint par des inégalités arbi-
traires (IC). Alors
(i) l’infinum
L(λ) = inf L(x, λ)
x∈X

de la fonction de Lagrange en x ∈ X est, pour chaque λ ≥ 0, une borne inférieure pour la valeur
optimale de (IC), de sorte que la valeur optimale du programme d’optimisation

(IC∗ ) sup L(λ)


λ≥0

est également une borne inférieure pour la valeur optimale de (IC) ;


(ii) [Théorème de Dualité Convexe ] Si (IC)
– est convexe,
– est borné inférieurement,
et
– satisfait la condition de Slater,
3. ) en effet, dès le début on sait que a = 0, ainsi si a0 = 0, alors pas tous les aj , j ≥ 1, sont nuls
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 121

alors la valeur optimale de (IC∗ ) est atteint et est égal à la valeur optimale de (IC).

Preuve : (i) n’est rien que la Proposition 6.2.1 (comprenez svp pourquoi) ; cependant, il sera
utile de répéter le raisonnement sous-jacent :
Soit λ ≥ 0 ; afin de prouver que

m

L(λ) ≡ inf L(x, λ) ≤ c [L(x, λ) = f (x) + λj gj (x)],
x∈X
j=1

c∗ étant la valeur optimale de (IC), notons que si x est faisable pour (IC), alors,
évidemment, L(x, λ) ≤ f (x), de sorte que l’infinum de L dans x ∈ X soit ≤ la valeur
minimale c∗ de f sur l’ensemble faisable de (IC).
(ii) est une conséquence immédiate du Théorème sur l’Alternative Convexe. En effet, soit c∗
la valeur optimale de (IC). Alors le système

f (x) < c∗ , gj (x) ≤ 0, j = 1, ..., m

n’a pas de solutions dans X, et par le théorème ci-dessus le système (ii) lié à c = c∗ a une
solution, c.-à-d., il existe λ∗ ≥ 0 tel que L(λ∗ ) ≥ c∗ . Mais nous savons de (i) que l’inégalité
stricte ici est impossible et, par ailleurs, L(λ) ≤ c∗ pour chaque λ ≥ 0. Ainsi, L(λ∗ ) = c∗ et λ∗
est le maximiseur de L sur λ ≥ 0.

Programme Dual
Théorème 6.2.2 établit un certain lien entre deux programmes d’optimisation – le programme
“primal”
(IC) f (x) → min | gj (x) ≤ 0, j = 1, ..., m, x ∈ X.
et son Dual de Lagrange

(IC∗ ) sup L(λ), [L(λ) = inf L(x, λ)]


λ≥0 x∈X

(les variables λ du problème dual s’appellent les multiplicateurs de Lagrange du problème pri-
mal). Le théorème indique que la valeur optimale dans le problème dual est ≤ celle du primal,
et dans certaines circonstances favorables (le problème primal est convexe, borné inférieurement
et satisfait la condition de Slater) les valeurs optimales dans les deux programmes sont égales.
Dans notre formulation il y a une certaine asymétrie entre les programmes primal et dual.
En fait les deux programmes sont liés à la fonction de Lagrange d’une manière tout à fait
symétrique. En effet, considérez le programme

min L(x), L(x) = sup L(λ, x).


x∈X λ≥0

L’objectif dans ce programme est +∞ en chaque point x ∈ X qui n’est pas faisable pour (IC)
et est égale à f (x) sur l’ensemble faisable de (IC), de sorte que ce programme soit équivalent à
(IC). Nous voyons que les programmes primal et dual viennent de la fonction de Lagrange : dans
le problème primal, on minimise sur X du résultat de la maximisation de L(x, λ) sur λ ≥ 0, et
dans le programme dual on maximise sur λ ≥ 0 le résultat de la minimisation de L(x, λ) sur
x ∈ X. C’est un exemple particulier (et le plus important) du jeu de deux personnes à somme
nulle.
122 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Nous avons dit que les valeurs optimales de (IC) et de (IC∗ ) sont égales entre elles sous
quelques conditions de convexité et de régularité. Il y a également une autre manière de dire que
ces valeurs optimales sont égales – c’est toujours le cas quand la fonction de Lagrange possède
un point-selle, c.-à-d. qu’il existe une paire x∗ ∈ X, λ∗ ≥ 0 telle L(x, λ) atteint sur cette paire
son minimum en fonction de x ∈ X et atteint son maximum en fonction de λ ≥ 0 :

L(x, λ∗ ) ≥ L(x∗ , λ∗ ) ≥ L(x∗ , λ) ∀x ∈ X, λ ≥ 0.

On peut facilement démontrer (faites-le par vous-même) que

Proposition 6.2.2 (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange L du problème (IC)


si et seulement si x∗ est une solution optimale de (IC), λ∗ est une solution optimale de (IC∗ ) et
les valeurs optimales dans les deux problèmes sont égales entre elles.

Notre but maintenant sera d’extraire de ce que nous savons déjà sur la fonction de Lagrange
les conditions d’optimalité pour des programmes convexes.

6.2.3 Conditions d’Optimalité en Programmation Convexe


Nous commençons avec la formulation point-selle des conditions d’optimalité.

Théorème 6.2.3 [Formulation point-selle des Conditions d’Optimalité en Programmation


Convexe]
Soit (IC) un programme d’optimisation, L(x, λ) sa fonction de Lagrange, et x∗ ∈ X. Alors,
(i) une condition suffisante pour que x∗ soit une solution optimale de (IC) est l’existence du
vecteur de multiplicateurs de Lagrange λ∗ ≥ 0 tels que (x∗ , λ∗ ) est un point-selle de la fonction
de Lagrange L(x, λ). C.-à-d., un point où L(x, λ) atteint son minimum en fonction de x ∈ X et
atteint son maximum en fonction de λ ≥ 0 :

L(x, λ∗ ) ≥ L(x∗ , λ∗ ) ≥ L(x∗ , λ) ∀x ∈ X, λ ≥ 0. (6.12)

(ii) De plus, si le problème (IC) est convexe et satisfait la condition de Slater, alors cette
condition est aussi nécessaire pour l’optimalité de x∗ : si x∗ est optimal pour (IC), alors il existe
λ∗ ≥ 0 tels que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange.

Preuve : (i) : supposons que pour un x∗ ∈ X donné il existe λ∗ ≥ 0 tel que (6.12) est satisfait ;
montrons qu’alors x∗ est optimal pour (IC). Tout d’abord, x∗ est faisable : en effet, si gj (x∗ ) > 0
pour certains j, alors, immediatement, supλ≥0 L(x∗ , λ) = +∞ (regardez ce qui se produit quand
tous les λ’s, excepté λj , sont fixes, et λj → +∞) ; mais supλ≥0 L(x∗ , λ) = +∞ est interdit par
la deuxième inégalité de (6.12).
Puisque x∗ est faisable, supλ≥0 L(x∗ , λ) = f (x∗ ), et nous concluons de la deuxième inégalité
de (6.12) que L(x∗ , λ∗ ) = f (x∗ ). Maintenant la première inégalité dans (6.12) dit que


m
f (x) + λ∗j gj (x) ≥ f (x∗ ) ∀x ∈ X.
j=1

La dernière inegalite implique immédiatement que x∗ est optimal : en effet, si x est faisable pour
(IC), alors le côté gauche dans la dernière inégalité est ≤ f (x) (rappellons-nous que λ∗ ≥ 0), et
l’inégalité implique que f (x) ≥ f (x∗ ).
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 123

(ii) : supposons que (IC) est un programme convexe, x∗ est sa solution optimale et le problème
satisfait la condition de Slater ; nous devrions montrer qu’il existe alors λ∗ ≥ 0 tel que (x∗ , λ∗ )
est un point-selle de la fonction de Lagrange, c.-à-d. que (6.12) est satisfait. Comme nous savons
du Théorème de Dualité Convexe (Théorème 6.2.2.(ii)), le problème dual (IC∗ ) a une solution
λ∗ ≥ 0 et la valeur optimale du problème dual est égale à la valeur optimale du primal, c.-à-d.,
à f (x∗ ) :
f (x∗ ) = L(λ∗ ) ≡ inf L(x, λ∗ ). (6.13)
x∈X
Nous en concluons immédiatement que

λ∗j > 0 ⇒ gj (x∗ ) = 0

(ceci s’appelle condition de complémentarité : les multiplicateurs de Lagrange positifs peuvent


être associés seulement aux contraintes actives (celles qui sont satisfaites en x∗ comme égalités).
En effet, de (6.13) nous avons

m
∗ ∗ ∗ ∗ ∗
f (x ) = inf L(x, λ ) ≤ L(x , λ ) = f (x ) + λ∗j gj (x∗ );
x∈X
j=1

les termes de la j dans le côté droit sont nonpositifs (puisque x∗ est faisable pour (IC)), et la
somme elle-même est non négative due à notre inégalité, ce qui est possible si et seulement si
toutes les termes dans la somme sont zéro, et c’est exactement la complémentarité.
Des conditions de complémentarité nous concluons immédiatement que f (x∗ ) = L(x∗ , λ∗ ),
et donc (6.13) ait comme conséquence

L(x∗ , λ∗ ) = f (x∗ ) = inf L(x, λ∗ ).


x∈X

D’autre part, puisque x∗


est faisable pour (IC), nous avons L(x∗ , λ) ≤ f (x∗ ) si λ ≥ 0. En
combinant nos observations, nous concluons que

L(x∗ , λ) ≤ L(x∗ , λ∗ ) ≤ L(x, λ∗ )

pour tout le x ∈ X et tout le λ ≥ 0.


Notons que (i) est valide pour un programme d’optimisaton avec des contraintes inégalités
arbitraire, pas nécessairement convexe. C’est une toute autre histoire que dans le cas non convexe
la condition suffisante d’optimalité, donnée par (i), est “très loin d’être nécessaire” et n’est
“presque jamais” satisfaite. Contrairement à ceci, dans le cas convexe la condition en question
est non seulement suffisante, mais également “presque nécessaire” – il l’est certainement quand
(IC) est un programme convexe satisfaisant la condition de Slater.
Le Théorème 6.2.3 est la condition d’optimalité la plus forte pour un programme de pro-
grammation convexe, mais c’est, dans un sens, une “condition implicite” – elle est exprimée en
termes de point-selle de la fonction de Lagrange, et il est peu clair comment vérifier que quelque
chose est le point-selle de la fonction de Lagrange. Essayons de comprendre la signification du
fait que (x∗ , λ∗ ) est un point de selle de la fonction de Lagrange. Par définition, cela signifie que
– (A) L(x∗ , λ) atteint son maximum en λ ≥ 0 dans λ = λ∗
– (B) L(x, λ∗ ) atteint son minimum en x ∈ X dans x = x∗ .
Il est facile a voir que signifie (A) : il signifie exactement que
x∗ est faisable pour (IC) et les conditions de complémentarité

λ∗j gj (x∗ ) = 0
124 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

sont satisfaites (c.-à-d., les valeurs de λ∗j positives ne peuvent être associées que avec des
contraintes gj (x) ≤ 0 actives en x∗ ).
Effectivement, la fonction

m
L(x∗ , λ) = f (x∗ ) + λj gj (x∗ )
j=1

est affine en λ, et nous comprenons quand et où une telle fonction atteint son maximum sur
l’orthant non négatif : elle est borné supérieurement sur l’orthant si et seulement si tous les
coefficients devants λj sont non positifs (c.-à-d., si et seulement si x∗ est faisable pour (IC)), et
si c’est le cas, alors l’ensemble de maximiseurs est exactement l’ensemble

{λ ≥ 0 | λj gj (x∗ ) = 0, j = 1, ..., m}.

Maintenant, que signifie-t-il que la fonction L(x, λ∗ ) atteint son minimum sur X en x∗ ? La
réponse dépend de la “bonté” de la fonction de Lagrange comme fonction de x. Par exemple, si
(IC) est un convexe programme, alors

m
L(x, λ∗ ) = f (x) + λ∗j gj (x)
j=1

est convexe en x ∈ X (rappellez-vous que λ∗ ≥ 0) ; quand f, g1 , ..., gm sont différentiables en


x∗ , ainsi l’est L(x, λ∗ ). Rappelez-vous maintenant que nous savons ce qui sont les conditions
nécessaires et suffisantes pour qu’une fonction convexe atteint son minimum sur l’ensemble
convexe X en x∗ ∈ X où la fonction est différentiable : le gradient de la fonction en x∗ doit
appartenir au cône normal de l’ensemble X en x∗ (voir la Remarque 5.5.1 du Chapitre 5.1.1).
D’ailleurs, nous connaissons au moins deux cas quand ce “appartenir au cône normal” peut être
traduit dans des mots tout à fait explicites ; ce sont les cas quand
– (a) X est un ensemble convexe arbitraire et x∗ ∈ int X. Dans ce cas précis “appartenir au
cône normal” veut dire simplement d’être zéro ;
– (b) X est un ensemble convexe polyhedral :

X = {x ∈ Rn | aTi x − bi ≤ 0, i = 1..., M }

et x∗ est un point arbitraire de X. Dans ce cas “appartenir au cône normal de X en x∗ ”


signifie “être une combinaison, avec des coefficients nonpositifs, des vecteurs “actifs” ai –
ceux avec aTi x∗ = bi .
Considerons maintenant un “mélange” de ces deux cas : supposons que X dans (IC) est l’inter-
section d’un ensemble convexe arbitraire X  et d’un ensemble convexe de polyhedral X  :

X = X  ∩ X  ,

X  = {x | gi+m (x) ≡ aTi x − bi ≤ 0 i = 1..., M }.


Soit x∗ une solution faisable de (IC) qui est un point intérieur de X  , et soit f, g1 ..., gm des
fonctions convexes et différentiables en x∗ . Quand x∗ est optimal pour (IC) ?
Comme nous le savons déjà, la condition suffisante (qui est également nécessaire si g1 ..., gm
satisfont la condition de Slater sur X) est qu’ils existent des multiplicateurs de Lagrange λ∗1 ..., λ∗m
non négatifs tels que

λ∗j gj (x∗ ) = 0, j = 1, ..., m (6.14)


6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 125

et

m
x∗ ∈ Argmin[f (x) + λ∗j gj (x)] (6.15)
X j=1

Maintenant essayons de comprendre ce que signifie réellement cette condition. On sait que x∗
est un point intérieur de X  . Il en suit que si x∗ est un minimizer de la fonction φ(x) = f (x) +
m ∗ 
j=1 λj gj (x) sur X, c’est également un minimizer local de la fonction sur X ; puisque φ est
∗  ∗
convexe, x est également un minimizer global de φ sur X . Vice versa, si x est un minimizer de
φ sur X  , c’est, naturellement, un minimizer de la fonction sur l’ensemble plus petit X. Ainsi,
(6.15) dit exactement que φ atteint en x∗ son minimum sur l’ensemble polyhedral X  . Mais
nous savons de la Remarque 5.5.1 quand une fonction convexe et différentiable φ atteint son
minimum par rapport à x sur un ensemble polyhedral : c’est le cas si et seulement si

∇φ(x∗ ) + μ∗i ai = 0 (6.16)
i∈I

où μ∗i ≥ 0 et I est l’ensemble d’indices des contraintes linéaires gm+i (x) ≡ aTi x − b ≥ 0 dans la
description de X  qui sont actives (sont satisfaites comme égalités) en x∗ .
Mettons maintenant λ∗m+i = μ∗i pour i ∈ I et λ∗m+i = 0 pour i ∈ I, i ≤ M . Avec cette
notation, nous avons
λ∗j ≥ 0, λ∗j gj (x∗ ) = 0, j = 1, ..., m + M, (6.17)
tandis que (6.16 dit que

m+M
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0. (6.18)
i=1

Récapitulons : nous avons montré sous les conditions ci-dessus (le problème est convexe, les
données sont différentiables en x∗ , la solution faisable x∗ est un point intérieur X  ) que la
condition suffisante (et nécessaire et suffisante, si g1 , ..., gm satisfont la condition de Slater sur
X) de l’optimalité de x∗ est l’existence des multiplicateurs de Largange λ∗j , j = 1, ..., m + M ,
satisfaisant (6.17) et (6.18).
Notez que cette condition d’optimalité a“l’aire” comme si nous traitions les contraintes
g1 (x) ≤ 0, ..., gm (x) ≤ 0 et les contraintes linéaires définissant X  en tant que contraintes
fonctionnelles, et on traite X  , et pas X = X  ∩ X  , comme domaine du problème. Mais il
y a une différence importante : avec cette nouvelle interprétation des données, afin d’obtenir
la nécessité de notre condition d’optimalité, nous avons été censés de supposer que toutes les
m + M de nos nouvelles contraintes fonctionnelles satisfaisaient la condition de Slater : il existe
x̄ ∈ X  tel que gj (x̄) < 0, j = 1, ..., m + M . Avec notre approche nous avons obtenu la nécessité
sous une hypothèse plus faible : il devrait exister x̄ ∈ X  où les contraintes “compliquées”
g1 (x) ≤ 0, ..., gm (x) ≤ 0 sont satisfaits en tant qu’inégalités strictes, alors que les contraintes
“simples” linéaires gm+1 (x) ≤ 0¿..., gm+M (x) ≤ 0 simplement sont satisfaites.
Les résultats de nos considérations méritent certainement d’être formulés comme un théorème
(où nous changeons légèrement la notation : ce qui sera m et X, dans les considérations ci-dessus
étaient m + M et X  ) :

Théorème 6.2.4 [Conditions d’Optimalité de Karush-Kuhn-Tucker dans le cas Convexe]


Soit (IC) un programme convexe, x∗ ∈ X une solution faisable intérieure de (IC) (x∗ ∈
int X), et soit f, g1 ..., gm différentiables en x∗ .
(i) [Suffisance] la condition de Karush-Kuhn-Tucker :
126 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Ils existent des multiplicateurs nonnegatifs de Lagrange, λ∗j , j = 1..., m, tels que

λ∗j gj (x∗ ) = 0, j = 1, ..., m [complémentarité] (6.19)

et

m
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0, (6.20)
j=1

est suffisante pour que x∗ soit une solution optimale de (IC).


(ii) [Nécessité et suffisance ] sous la “condition de Slater restrante” :
il existe x̄ ∈ X tel que les gj non linéaires sont strictlement négatives, et gj
lineaires sont nonpositives en x̄ ∈ X
la condition de Karush-Kuhn-Tucker de (i) est necessaire et suffisante pour que x∗ soit une
solution optimale de (IC).

Notez que les conditions d’optimalité du Chapitre 5 (cf. le Théorème 5.5.2 et la Remarque 5.5.1)
sont des cas particuliers du Théorème ci-dessus pour le cas quand m = 0.

6.3 Dualité pour la Programmation Lineaire et Quadratique


convexe
Le rôle fondamental qui joue la fonction de Lagrange et la dualité de Lagrange dans l’opti-
misation n’est pas limitée au Théorème 6.2.3 seulement. Il y a plusieurs cas quand nous pouvons
décrire “explicitement” le problème dual, et toutes les fois quand c’est le cas, nous obtenons
une paire de programmes d’optimisation étroitement liés – la paire primal-dual ; en analysant
les deux problèmes simultanément, nous obtenons plus d’informations sur leurs propriétés (ainsi
qu’une possibilité de résoudre les problèmes numériquement d’une manière plus efficace) que si
nous nous limitions seulement à un problème de la paire. La recherche détaillée sur la dualité
dans le cas de Programmation Convexe “bien structuré”, quand nous pouvons explicitement
écrire les problèmes primal et dual, va au delà de la portée de notre cours (principalement parce
que la dualité de Lagrange n’est pas la meilleure approche ici ; dans ce cas la Dualité de Fenchel
est un meilleur outil – quelque chose de semblable, mais non identique). Il y a, cependant, des
cas simples quand déjà la dualité de Lagrange est tout à fait appropriée. Nous allons étudier
deux de tels cas.

6.3.1 La dualité en Programmation Linéaire


Commençons par une observation générale. Notez que la condition de Karush-Kuhn-Tucker
sous hypothèses du Théorème ((IC) est convexe, x∗ est un point intérieur de X, f, g1 ..., gm sont
différentiables en x∗ ) est exactement la condition que (x∗ , λ∗ = (λ∗1 ..., λ∗m )) est un point-selle de
la fonction de Lagrange

m
L(x, λ) = f (x) + λj gj (x) : (6.21)
j=1

(6.19) indique que L(x∗ , λ) atteint en λ∗ son maximum en λ ≥ 0, et (6.20) dit que L(x, λ∗ )
atteint en x∗ son minimum en x.
Considérons maintenant le cas particulier de (IC) où X = Rn est l’espace entier, l’objectif
f est convexe et différentiable partout et les contraintes g1 ..., gm sont lineaires. Dans ce cas, le
6.3. DUALITE POUR LA PROGRAMMATION LINEAIRE ET QUADRATIQUE CONVEXE127

Théorème 6.2.4 nous dit que la condition KKT (Karush-Kuhn-Tucker) est nécessaire et suffisante
pour l’optimalité de x∗ ; comme nous avons juste expliqué, c’est identique à dire que la condition
nécessaire et suffisante de l’optimalité de x∗ est que x∗ avec certain λ∗ ≥ 0 forment un point-selle
de la fonction de Lagrange. Combinant ces observations avec la Proposition 6.2.2, nous obtenons
le résultat suivant :
Proposition 6.3.1 Soit (IC) un programme convexe avec X = Rn , l’objectif f qui est differen-
tiable partout et les contraintes linéaires g1 ..., gm . Alors x∗ est la solution optimale de (IC) si et
seulement s’il existe λ∗ ≥ 0 tel que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange (6.21)
(considérée comme la fonction de x ∈ Rn et de λ ≥ 0). En particulier, (IC) est soluble si et
seulement si L possède des points-selle, et si c’est le cas, alors (IC) avec son dual de Lagrange

(IC∗ ) : L(λ) → max | λ ≥ 0

sont solubles avec des valeurs optimales égales.


Regardons que cette proposition indique dans le cas de Programmation Linéaire, c.-à-d., quand
(IC) est le programme

(P ) f (x) = cT x → min | gj (x) ≡ bj − aTj x ≤ 0, j = 1, ..., m.

Afin d’obtenir le dual de Lagrange, nous devrons former la fonction de lagrange



m 
m 
m
L(x, λ) = f (x) + λj gj (x) = [c − λj aj ]T x + λj bj
j=1 j=1 j=1

de (IC) et pour le minimiser en x ∈ Rn ; ceci nous donnera l’objectif dual. Dans notre cas la
 m
j=1 λj aj = 0, et
minimisation en x est immédiate : la valeur minimale est −∞, si c− m j=1 λj bj
sinon. Nous voyons que le dual de Lagrange est

m
(D) bT λ → max | λj aj = c, λ ≥ 0.
j=1

Le problème (D) que nous obtenons est le dual LP de (P ) habituel, et la Proposition 6.3.1 est
une des formes équivalentes du Théorème de Dualité en Programmation Linéaire du Chapitre
5.

6.3.2 La dualité en Programmation Quadratic


Considérons maintenant le cas quand le problème original est quadratique convexe avec des
contraintes linéaires :
1
(P ) f (x) = xT Dx + cT x | gj (x) ≡ bj − aTj x ≤ 0, j = 1, ..., m,
2
où l’objectif est une forme quadratique strictement convexe, de sorte que D = D T soit une
matrice définie positive : xT Dx > 0 quelque soit x = 0. Il est commode de réécrire les contraintes
sous une forme vectorielle :
⎛ ⎞ ⎛ ⎞
b1 aT1
g(x) = b − Ax ≤ 0, b = ⎝ ... ⎠ , A = ⎝ ... ⎠ .
bm aTm
128 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

Afin de former le dual de Lagrange au programme (P ), nous écrivons la fonction de Lagrange :



L(x, λ) = f (x) + m j=1 λj gj (x)
= cT x + λT (b − Ax) + 12 xT Dx
= 12 xT Dx − [AT λ − c]T x + bT λ
et la minimisons en x. Puisque la fonction est convexe et différentiable en x, le minimum, si
existe, est donné par la règle de Fermat :
∇x L(x, λ) = 0,
qui dans notre situation devient
Dx = [AT λ − c].
Comme D est définie positive, elle est non singuliere, de sorte que l’équation de Fermat a une
solution unique qui est le minimiseur recherché de L(·, λ) ; cette solution est
x = D −1 [AT λ − c].
Substituant la valeur de x dans l’expression pour la fonction de Lagrange, nous obtenons l’ob-
jectif dual :
1
L(λ) = − [AT λ − c]T D −1 [AT λ − c] + bT λ,
2
et le problème dual est à maximiser cet objectif sur l’orthant non négatif. Habituellement on
réécrit ce problème dual d’une manière equivalente en ajoutant des variables supplémentaires
t = −D −1 [AT λ − c] [[AT λ − c]T D −1 [AT λ − c] = tT Dt];
apres cette manipulation le problème dual devient
1
(D) − tT Dt + bT λ → max | AT λ + Dt = c, λ ≥ 0.
2
Nous observons que le problème dual est également un Programme Quadratique convexe avec
des contraintes linéaires.
Notez également que dans notre cas dans un problème faisable (P ) est automatiquement
soluble 4)
Avec cette observation, nous obtenons de la Proposition 6.3.1
Théorème 6.3.1 [Théorème de Dualité en Programmation Quadratique]
Soit (P ) un Programme Quadratique faisable avec la matrice symétrique définie positive D dans
l’objectif. Alors (P ) et (D) sont solubles, et les valeurs optimales de ces deux problèmes sont
égales entre elles.
La paire (x; (λ, t)) des solutions feasables des problèmes est composée des solutions optimales
(i) si et seulement si l’objectif primal en x est égal à l’objectif dual en (λ, t) [condition
d’optimalité de “saut de dualité nul”]
ou, ce qui est le même
(ii) si et seulement si
λi (Ax − b)i = 0, i = 1, ..., m, et t = −x. (6.22)
4. ) car son objectif, en raison de la positivité de D, va à l’infini avec |x| → ∞ et grâce au fait général suivant :
Soit (IC) un programme faisable avec le domaine fermé X, objectif et contraintes continus sur X, et tel que
f (x) → ∞ que x ∈ X “tend à l’infini” (c.-à-d. |x| → ∞). Alors (IC) est soluble.
Vous êtes invités à prouver ce petit résultat (il se trouve parmi les exercices accompagnant ce chapitre)
6.3. DUALITE POUR LA PROGRAMMATION LINEAIRE ET QUADRATIQUE CONVEXE129

Preuve (i) : nous savons de la Proposition 6.3.1 que la valeur optimale dans le problème (P )
de minimisation est égale à la valeur optimale dans le problème (D) de maximisation. Il en suit
que la valeur de l’objectif primal en n’importe quelle solution faisable primale est ≥ la valeur de
l’objectif dual en n’importe quelle solution faisable duale, et l’égalité est possible si et seulement
si ces valeurs coincident avec les valeurs optimales des problèmes, comme c’est affirmé dans (i).
(ii) : calculons la différence Δ entre la valeur de l’objectif primal en une solution faisable
primale x et celle de l’objectif dual en une solution faisable duale (λ, t) :

Δ = cT x + 12 xT Dx − [bT λ − 12 tT Dt]
= [AT λ + Dt]T x + 12 xT Dx + 12 tT Dt − bT λ
[comme AT λ + Dt = c]
= λT [Ax − b] + 12 [x + t]T D[x + t]

Comme Ax − b ≥ 0 et λ ≥ 0 grâce à la faisabilité (primale) de x et la faisabilité (duale) de (λ, t),


les deux termes dans l’expression finale de Δ sont non négatifs. Ainsi, Δ = 0 (ce qui, grâce à
(i), est équivalent à l’optimalité de x pour (P ) et l’optimalité de (λ, t) pour (D)) si et seulement

si m j=1 λj (Ax − b)j = 0 et (x + t) D(x + t) = 0. Comme λ ≥ 0 et Ax ≥ b, la première de ces
T

égalités, est équivalente à λj (Ax − b)j = 0, j = 1..., m. De plus, comme la matrice D est positive
definie, la seconde égalité est équivalente à x + t = 0.
130 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE

6.4 Exercices
Exercice 6.1 Montrez le résultat suivant :
Soit le programme d’optimisation

f (x) → min | gj (x) ≤ 0, j = 1, ..., m, hl (x) = 0, l = 1, ..., k, x ∈ X ⊂ Rn

faisable, avec le domaine X fermé, et soient f, g1 , ..., gm , h1 , ..., hk des fonctions continues sur
X. Supposons, de plus, que le problème est “coercive” , c.-à-d., il existe une fonction s(t) → ∞,
t → ∞, sur le rayon non négatif tel que

max{f (x), g1 (x), ..., gm (x), |h1 (x)|, ..., |hk (x)|} ≥ s(|x|) ∀x ∈ X.

Alors le problème est soluble.

Indication : considérez ce qu’on appelle suite relaxante {xi }, c.-à-d., une suite de solutions
faisables au problème avec les valeurs de l’objective qui convergent quand i → ∞ à la valeur
optimale du problème. Montrez que la suite est bornée et possède donc des points limites ; vérifiez
que chaque tel point est une solution optimale du problème.
Exercice 6.2 Trouver la solution le minimiseur de la fonction linéaire

f (x) = cT x

sur l’ensemble

n
Vp = {x ∈ Rn | |xi |p ≤ 1};
i=1
ici p, 1 < p < ∞, est un paramètre.

Exercice 6.3 Considérez la fonction


k
I(u, v) = ui ln(ui /vi )
i=1

vue comme une fonction de u ∈ Rk non négatif et de v ∈ Rk positif ; ici 0 ln 0 = 0.


1) Montrez que la fonction est convexe en (u, v) sur l’ensemble en question

2) Prouvez que si u, v ∈ Δ = {z ∈ Rk+ : i zi = 1} et u ≥ 0, alors

I(u, v) ≥ 0,

avec l’inégalité étant stricte à condition que u = v.

Indication : appliquer l’inégalité de Jensen à la fonction strictement convexe − ln t sur (0, ∞).
Commentaire : un vecteur z ∈ Δ peut être considéré comme la distribution de probabilité
sur l’ensemble de k points : zi est la probabilité assignée à l’i-ème élément de l’ensemble. Avec
cette interprétation, I(u, v) est une sorte de “distance dirigé” entre les lois de probabilité : il place
en correspondance à une paire ordonnée des distributions un réel non négatif qui est positif si
les distributions sont distinctes, et est zéro sinon. Cette quantité s’appelle distance de Kullback-
Leibler (ce n’est pas une distance dans le sens de notre définition du Chapitre 1, puisqu’elle n’est
pas symétrique : I(u, v) n’est pas identique à I(v, u)). La distance de Kullback-Leibler entre les
distributions joue un rôle important dans la Théorie de Décisions Statistiques.
6.4. EXERCICES 131

Exercice 6.4 Montrez le théorème suivant de Karhu-Bonnenblast :


Soit X ⊂ Rk un ensemble convexe et f1 , ..., fm des fonctions convexes à valeurs réelles sur X.
Prouvez que
– ou le système d’inégalités strictes

(∗) fi (u) < 0, i = 1, ..., m,

a une solution dans X,


– ou ils existent μi ≥ 0 dont la somme fait 1 tels que la fonction

m
μi fi (u)
i=1

est non négative pour tout x ∈ X.

Indicaton : Considérer le programme

(S) t → min | f0 (x) − t ≤ 0, f1 (x) − t ≤ 0, ..., fN (x) − t ≤ 0, x ∈ X.

C’est un programme convexe avec la valeur optimale

t∗ = min max fi (x)


x∈X i=0,...,N

(notez que (t, x) est faisable pour (S) si et seulement si x ∈ X et t ≥ maxi=0,...,N fi (x)).

Exercice 6.5 Prouvez le résultat suivant :


si r > 0 et μ ∈ Rk sont un réel et un vecteur donnés, alors
 k 

inf [r ln exp{vi } − μT v]
v∈Rk
i=1

est propre (diffèrent de −∞) si et seulement si



μ ≥ 0, μi = r,
i

et si c’est le cas, alors le inf indiqué est 0 (dans le cas r = 0), ou est


k
− μi ln(μi /r) [0 ln 0 = 0].
i=1

Indication : on voit immédiatement que μ ≥ 0 est la condition nécessaire pour que l’infinum en
question soit fini. Pour accomplir la preuve de la nécessité, vous devriez vérifier que inf est −∞

également dans le cas du μ ≥ 0 et ki=1 μi = r ; pour voir ceci, regardez ce qui se passe quand
vi = t, i = 1, ..., k, et t parcourt R.
Pour prouver la suffisance et obtenir la représentation requise de la valeur optimale, supposez
d’abord que tous les μi sont positifs et utilisez la règle de Fermat pour trouver le minimiseur
exacte, ensuite pensez comment éliminer les composants zéro de μ, s’ils sont présents.
132 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Chapitre 7

Conditions d’Optimalité

Ce chapitre, dernier dans la partie théorique du cours, est consacré aux conditions d’optima-
lité du premier ordre pour des programmes de Programmation Mathématiques de type général

(P ) f (x) → min | g(x) ≡ (g1 (x), g2 (x), ..., gm (x)) ≤ 0, h(x) = (h1 (x), ..., hk (x)) = 0, x ∈ X.

La question que nous intéresse est suivante :


– supposons que nous sommes donnés une solution faisable x∗ de (P ). Quelles sont les
conditions (nécessaires, suffisantes, nécessaires et suffisantes) pour que x∗ soit optimale ?
Nous allons répondre à cette question sous les conditions suivantes sur les données du problème :
– A. x∗ est un point intérieur du domaine X du problème ;
– B. les fonctions f, g1 , ..., gm , h1 , ...hk sont lisses en x∗ (au moins une fois continûment
différentiables dans un voisinage du point ; si nécessaire, nous aurons besoin de plus de
régularité).
Il est important que, contrairement à ce qui a été fait dans la conférence précédente, on n’impose
aucune contrainte structurelle telle que convexité.
Avant de venir aux considérations “techniques”, considérons quelques questions “philoso-
phiques” suivantes :
– Quelle sorte des conditions nous interesse ?
– Pourquoi sommes nous intéressés par ces conditions ?
La réponse à la première question est comme suit : nous sommes intéressés par des conditions
d’optimalité locales et vérifiables. La localité signifie que les conditions devraient être exprimées
en termes de propriétés locales des données – en termes de valeurs et dérivées (du premier, se-
cond... ordre) des fonctions f, g1 ..., gm , h1 ..., hk en x∗ . La vérifiabilité signifie que étant donné les
valeurs et les dérivées en x∗ des fonctions indiquées, nous devrions pouvoir vérifier efficacement
si la condition est ou n’est pas satisfaite.
Ces spécifications – tout à fait raisonnables – pour les conditions à dériver mènent aux
conséquences plutôt désagréables :
Nous pouvons espérer d’obtenir des conditions nécessaires pour l’optimalité de x∗
et des conditions suffisantes pour l’optimalité local de x∗ , mais pas de conditions
suffisantes d’optimalité global de x∗ .
Essayons de voir que signifie optimalité “local” et “globale”, et, en second lieu, pourquoi l’affir-
mation ci-dessus est vraie.
L’optimalité globale de x∗ n’est rien d’autre que l’optimalité “réelle” : x∗ est une solution
faisable de (P ) avec la plus petite valeur de l’objectif. Contrairement à ceci, l’optimalité locale

133
134 CHAPITRE 7. CONDITIONS D’OPTIMALITE

de x∗ signifie que x∗ est la solution faisable qui n’est pas plus mauvaise, du point de vue des
valeurs de l’objectif, que d’autres solutions faisables assez proches de x∗ . La définition formelle
est suivante :
Une solution faisable x∗ de (P ) s’appelle localement optimale, s’il existe un voisinage U de
x∗ tel que x∗ est solution optimale de la version (P ) “limitée à U ”, c.-à-d., si

x ∈ U, g(x) ≤ 0, h(x) = 0 ⇒ f (x) ≥ f (x∗ ).

Notez que dans la dernière relation j’ai sauté l’inclusion x ∈ X ; c’est parce que nous avons
supposé que x∗ est un point intérieur de X, de sorte que en resserrant U , nous pouvons toujours
le rendre une partie de X et rendre ainsi l’inclusion x ∈ X une conséquence de l’inclusion x ∈ U ).
Dans le cas convexe l’optimalité locale est équivalente à l’optimalité globale (cf. Théorème
5.5.1 combinée avec le fait que l’ensemble faisable d’un programme convexe est convexe). Dans
le cas général ces deux notions sont différentes – une solution globalement optimale est, naturel-
lement, localement optimale, mais pas vice versa : regardez quelque chose comme le problème

f (x) = 0.1x2 + sin2 x → min;

ici il y a plusieurs minimiseurs locaux x∗k de l’objectif, mais seulement un d’entre eux – x∗ = 0
– est son minimiseur global.
Notez que puisqu’une solution globalement optimale pour sûr est localement optimale, la
condition nécessaire d’optimalité locale est aussi nécessaire pour l’optimalité global.
Maintenant, il est claire pourquoi dans le cas général il est impossible de préciser une condi-
tion locale qui soit suffisante pour l’optimalité globale : parce que l’information locale sur une
fonction f en un minimiseur local x∗ de la fonction ne permet pas comprendre que ce minimiseur
est seulement local et pas global. En effet, prenons f ci-dessus et x∗k = 0 ; c’est seulement un
minimiseur local, pas global, de f . En même temps nous pouvons facilement changer f en dehors
d’un voisinage de x∗k et rendre x∗k minimiseur global de la fonction modifiée (tracez le graphe
de f pour le voir). Notez que nous pouvons facilement rendre la fonction modifiée f¯ aussi lisse
que nous le souhaitons. Maintenant, l’information locale – la valeur et les dérivées en x∗k – est
identique pour la fonction originale f et la fonction modifiée f¯, puisque les fonctions coincident
dans un voisinage de x∗ . Elle en suit qu’il n’y a aucun test qui prend l’information locale sur le
problème en x∗ et rend correctement la réponse à la question si x∗ est ou n’est pas un minimiseur
global de l’objectif, même si nous assumons que l’objectif soit très régulière. En effet, un tel test
ne peut pas distinguer f et f¯ dans l’exemple précèdent, et une fois demandé aurait donné deux
fois la même réponse. Cette réponse est forcement fausse dans un de ces deux cas !
La difficulté que nous avons décrite est intrinsèque pour l’optimisation non convexe : non
seulement il n’existe pas de “test local efficace” pour l’optimalité globale ; également, il n’existe
pas, comme nous le verrons dans les chapitres suivants, d’algorithme efficace capable d’approcher
le minimiseur global d’un problème de Programmation Mathématique de type général, même
un problème avec des données très lisses.
En raison de cette propriété désagréable et inévitable des problèmes de programmation
mathématiques de type général, la réponse à la seconde des questions annoncées – comment
nous allons utiliser les conditions d’optimalité dans la Programmation Mathématique – n’est
pas aussi optimiste que nous pourrions souhaiter. En ce qui concerne des conditions de l’op-
timalité globale, nous pouvons espérer avoir des conditions nécessaires seulement ; en d’autres
termes, nous pouvons espérer avoir un test qui est capable nous indiquer que ce que nous avons
n’est pas une solution globalement optimale. Puisqu’il n’y a pas de condition (locale) suffisante
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 135

de l’optimalité globale, nous n’avons aucun espoir de concevoir un test local capable nous dire
que ce qui nous avons est la solution “réelle” – globale – du problème. Le maximum de ce
que nous pouvons espérer dans cette direction est une condition suffisante de l’optimalité local,
c.-à-d., un test local capable de dire que ce que nous avons ne peut pas être amélioré par des
“petites modifications”. C’est la raison principale pourquoi je ne parle pas des conditions suffi-
sants de l’optimalité locale dans ce cours. Ceux de vous qui sont intéressée par ce sujet devraient
s’adresser à un texte traditionnel sur la Programmation Mathématique.
Le pessimisme provoqué par les remarques ci-dessus a cependant ses limites. Une condition
nécessaire d’optimalité est une certaine relation qui doit être satisfaite par la solution optimale.
Si nous sommes assez intelligents pour produire – sur le papier ou algorithmiquement – tous
les candidats x∗ qui satisfont cette relation, et si la liste de ces candidats s’avère finie, nous
pouvons parcourir la liste et choisir la meilleur, du point de vue de l’objectif, solution faisable
dans cette liste, ce qui va nous donner la solution globalement optimale (étant donné qu’elle
existe). Inutile de dire que la possibilité décrite est rencontrée seulement dans les cas parti-
culièrement simples, mais déjà ces cas sont parfois extrêmement importantes (nous discuterons
un exemple de ce type à la fin de ce chapitre). Une autre manière d’utiliser des conditions
nécessaires et/ou suffisantes de’optimalité local est de les employer en tant que “le guide” pour
des algorithmes d’optimisation. Ici nous produisons une suite des solutions approximatives et
les soumettons au test d’optimalité locale donné par notre condition d’optimalité. Si l’itération
courante passe le teste, nous terminons avec une solution localement optimale du problème ; si
ce n’est pas le cas, alors la condition d’optimalité (qui est violé sur l’iteration courante) indique
normalement comment mettre à jour l’itération afin de réduire la “violation” de la condition.
Par ces mises à jour séquentielles nous obtenons une suite d’itérations qui, sous des conditions
“raisonnables”, converge à une solution localement optimale du problème. Comme nous le ver-
rons dans les prochains chapitres, cette idée est à la base de toutes les méthodes traditionnelles
de Programmation Mathématique. Naturellement, dans ce cadre il est en principe impossible
de garantir la convergence à une solution globalement optimale (imaginez que on part d’une
solution localement optimale qui n’est pas globalement optimale ; selon le schéma décrit nous
terminons immédiatement !) Bien que ce soit un inconvénient grave de cette approche, il ne
tue pas les méthodes traditionnelles basées sur les conditions d’optimalité. D’abord, il peut se
produire que nous sommes chanceux et il n’y a aucune solution locale qui ne soit pas globale ;
alors le schéma ci-dessus rapprochera la solution optimale (bien que nous ne saurons jamais que
c’est le cas...) En second lieu, dans beaucoup de situations pratiques nous sommes intéressés en
une “amélioration significative” d’une solution initiale donnée du problème plutôt qu’à trouver
la “meilleure solution”, et les méthodes traditionnelles permettent de réaliser ce but restreint.

7.1 Conditions d’Optimalité du Premier Ordre


L’idée des conditions d’optimalité du premier ordre est extrêmement simple. Soit (P ) un
problème d’optimisation, et soit x∗ une solution faisable au problème. Dériver une condition
nécessaire d’optimalité locale de x∗ est équivalent à trover les conséquences du fait qui x∗ est
localement optimal ; chaque telle conséquence est, naturellement, une condition nécessaire d’op-
timalité. Supposons ainsi qui x∗ est localement optimal pour (P ), et essayons de deviner ce
qui peut être dérivé de ce fait. L’idée la plus directe est comme suit : approchons l’objectif et
les contraintes du problème réel (P ) dans un voisinage de x∗ par des fonctions “simples”, de
ce fait en venant à une “approximation” (P ) du problème (P ). Nous pouvons espérer que si
136 CHAPITRE 7. CONDITIONS D’OPTIMALITE

l’approximation est assez bonne localement, alors la propriété locale de (P ) que nous intéresse
– ce que x∗ est une solution localement optimale de (P ) – sera héritée par (P ). Si
– (A) (P ) est aussi simple que nous sommes capable de dire “de manière constructive” ce
qui signifie le fait que x∗ est localement optimal pour (P ),
et
– (B) nous pouvons montrer que notre hypothèse
“ si x∗ est localement optimal pour (P ), il est localement optimal pour (P )
aussi bien”
est vrai,
alors la condition donnée par (A) sera nécessaire pour l’optimalité locale de x∗ pour (P ).
Il y a, fondamentalement, seulement une façon “naturelle” d’implementer cette idée, étant
donné que nous sommes intéressés par des conditions d’optimalité du premier ordre et, par
conséquent, que (P ) devrait être posé en termes de valeurs et des gradients de l’objectif et des
contraintes originales en x∗ seulement. Cette façon consiste à linéariser l’objectif et les contraintes
originales en x∗ et de rendre les fonction affines qui en résultent, respectivement, l’objectif et les
contraintes de (P ). Les linéarisations en question sont

f¯(x) = f (x∗ ) + (x − x∗ )T ∇f (x∗ ),


ḡi (x) = gi (x∗ ) + (x − x∗ )T ∇gi (x∗ ), i = 1, ..., m,
h̄i (x) = hi (x∗ ) + (x − x∗ )T ∇hj (x∗ ), j = 1, ..., k,

ce qui donne le problème de Programmation Linéaire (P ) :

(P ) :
min f (x∗ ) + (x − x∗ )T ∇f (x∗ )
s.t.
gi (x∗ ) + (x − x∗ )T ∇gi (x∗ ) ≤ 0, i = 1, ..., m
(x − x∗ )T ∇hj (x∗ ) = 0, j = 1, ..., k

(j’ai laissé tomber hj (x∗ ) – elles sont nulles, car x∗ est faisable).
Maintenant, le Théorème de Dualité pour la Programmation Linéaire nous dit quand x∗
est une solution optimale au programme LP (P ). Puisque nous n’avons pas établi ce théorème
pour la forme particulière du programme de LP qui nous intéresse maintenant (celle avec des
contraintes d’égalité et pas seulement des contraintes d’inégalité), nous allons dériver la condition
d’optimalité explicitement de la source du Théorème de Dualité pour LP – du Lemme de Farkas
Homogène.
Supposons que x∗ (qui est faisable pour (P ) – rappelez-vous que x∗ est faisable pour (P ))
est optimal pour (P ). Soit I(x∗ ) l’ensemble d’indices de toutes les contraintes d’inégalité de (P )
qui sont actives (satisfaites comme égalités) en x∗ , et considérons l’ensemble

K = {d | dT ∇gi (x∗ ) ≤ 0, i ∈ I(x∗ ), dT ∇hj (x∗ ) = 0, j = 1, ..., k}.

Il est claire que si d ∈ K, alors tout vecteur xt = x∗ + td qui correspond à un assez petit t positif
est faisable pour (P ). Comme x∗ est optimal pour ce dernier problème, on doit avoir

f (x∗ ) + (xt − x∗ )T ∇f (x∗ ) ≥ f (x∗ )

pour ce t, d’où dT ∇f (x∗ ) ≥ 0. Ainsi,


7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 137

(*) si x∗ est optimal pour (P ), alors dT ∇f (x∗ ) ≥ 0 pour tout d ∈ K ;


en réalité “si ... alors ...” peut être remplacé par “si et seulement si” (pourquoi ?).
Ensuite, par le Lemme de Farkas Homogène (cf. Chapitre 3) l’affirmation (*) est équivalente
à une possibilité de representer
 
k
∇f (x∗ ) = − λ∗i ∇gj (x∗ ) − μ∗j ∇hj (x∗ ) (7.1)
i∈I(x∗ ) j=1

avec certains λ∗i non négatifs et certains μ∗j réels. Pour le voir, notez que K est exactement le
cône polyhedral
{d | dT ∇gi (x∗ ) ≤ 0, i ∈ I(x∗ ), dT ∇hj (x∗ ) ≤ 0, dT (−∇hj (x∗ )) ≤ 0, j = 1, ..., k},
et (*) dit que le vecteur ∇f (x∗ ) a le produit scalaire non négatif avec tout vecteur de K, i.e.,
avec tout vecteur qui a le produit scalaire non négatif avec les vecteur de l’ensemble fini
A = {−∇gi (x∗ ), i ∈ I(x∗ ), ±∇hj (x∗ ), j = 1, ..., k}.
Par le Lemme de Farkas Homogène ceci est le cas si et seulement si ∇f (x∗ ) est une combinaison
de vecteurs de A avec des coefficients non négatifs :
 
k
∇f (x∗ ) = − λ∗i ∇gi (x∗ ) + [μ∗j,+ − μ∗j,−]∇hj (x∗ )
i∈I(x∗ ) j=1

avec λ∗j , μ∗j,+ , μ∗j,− non négatifs. Et dire que ∇f (x∗ ) est représentable sous cette dernière forme
est la même chose qu’il soit représentable comme exigé dans (7.1).
Pour l’instant λ∗i sont définis pour i ∈ I(x∗ ) seulement. Nous allons poser λ∗i = 0 pour
i ∈ I(x∗ ) et en élargissant la somme du côté droit de (7.1) sur i = 1..., m. Notez également que
maintenant nous avons des relations de complémentarité λ∗i gi (x∗ ) = 0, i = 1..., m.
Nous avons établi le résultat conditionnel suivant :
Proposition 7.1.1 Soit x∗ localement optimal pour (P ) et tel que l’hypothèse (B) est vérifiée :
x∗ demeure une solution optimale pour le programme linéarisé (P ) également. Alors ils existent
λ∗i non négatifs et μ∗j réels tels que

λ∗i gi (x∗ ) = 0, i = 1, ..., m [complementary slackness]


m k
∇f (x∗ ) + ∗ ∗
i=1 λi ∇gi (x ) + ∗ ∗
j=1 μj ∇hj (x ) = 0 [Euler’s Equation]
(7.2)
La propriété de x∗ d’être faisable pour (P ) et de satisfaire la condition “ils existent λ∗i non
négatifs et ... tels que...” dans la proposition ci-dessus s’appelle Condition d’Optimalité de
Karush-Kuhn-Tucker ; nous connaissons déjà une version de cette condition pour des problèmes
contraints par des inégalités. Le point x∗ qui satisfait la condition d’optimalité de KKT s’appelle
un point KKT de (P ) (quelquefois ce nom est employé pour la paire (x∗ ; λ∗ , μ∗ ), c.-à-d., pour
le point x∗ avec le certificat qu’il satisfait la condition de KKT).
De la discussion ci-dessus il découle que tout ce que nous pouvons espérer est que la
condition de KKT soit necessaire pour l’optimalité locale de x∗ ; la Proposition 7.2 indique
que c’est en effet le cas, mais sous une condition supplémentaire implicite : “x∗ reste...”.
Le problème, par conséquent, est de convertir cette prétention implicite en quelque chose de
vérifiable ou d’éliminer cette condition. Le dernier, malheureusement, est impossible, ce qu’on
voit de l’exemple élémentaire suivant (où le problème est même convexe) :
138 CHAPITRE 7. CONDITIONS D’OPTIMALITE

f (x) ≡ x → min | g1 (x) ≡ x2 ≤ 0.


La solution optimale (la seule solution faisable) est x∗ = 0. Néanmoins, x∗ = 0 n’est pas un
point KKT – il est impossible de trouver λ∗1 non négatif tel que

∇f (0) + λ∗1 ∇g1 (0) ≡ 1 + λ∗1 × 0 = 0.

Ainsi, nous avons besoin d’une “condition de régularité” pour rendre la condition de KKT
nécessaire à l’optimalité locale. La condition la plus générale de ce type s’appelle “qualification
des contraintes”.

Qualification des contraintes indique réellement que l’ensemble faisable du problème actuel
(P ) “est proche” à l’ensemble faisable du problème linéarisé (P ) dans un voisinage de x∗ “aux
terme d’ordre supérieur en |x − x∗ | près”, de la même façon que les données des problèmes. Pour
donner la définition précise, nous allons écrire

θ(t) = o(ts )

(θ est une fonction sur le rayon non négatif, s > 0), si θ(t)t−s → 0 quand t → +0 et θ(0) = 0.
Et nous dirons que le problème (P ) a la propriété de Qualification de Contraintes en solution
faisable x∗ , s’il existe une fonction θ(t) = o(t) telle que
pour toute solution faisable x du problème linéarisé (P ) il existe une solution faisable
x du problème actuel (P ) telle que

|x − x | ≤ θ(|x − x∗ |)

– la distance entre x et x diminue plus vite que la distance entre x et x∗ quand


x → x∗ .
La condition de Qualification des Contraintes dit que l’ensemble faisable du problème linéarisé
(P ) ne peut pas être (localement, naturellement) “beaucoup plus large” que l’ensemble faisable
de (P ) : pour chaque x près de x∗ et faisable pour (P ) il existe un x “très proche” à x et faisable
pour (P ). Notez que dans le “ mauvais” exemple ci-dessus nous avons exactement l’opposé :
l’ensemble faisable de (P ) est la droite entière (puisque la contrainte dans le problème linéarisé
est 0 × x ≤ 0), qui est “un ensemble beaucoup plus large”, même localement, que l’ensemble
faisable {0} de (P ).
On voit facilement que sous l’hypothèse de Qualification de Contraintes l’optimalité locale
de x∗ pour (P ) implique l’optimalité globale de x∗ pour (P ), de sorte que cette condition rend
la condition de KKT nécessaire pour l’optimalité :
Proposition 7.1.2 Soit x∗ localement optimal pour (P ), où (P ) satisfait la condition de Qua-
lification de Contraintes en x∗ . Alors x∗ est optimal pour (P ) et, par conséquent, est un point
KKT de (P ).
Preuve. Soit x∗ localement optimal pour (P ) ; nous devrions montrer qu’alors x∗ est optimal
pour (P ). Supposez, au contraire, que x∗ n’est pas optimal pour (P ). Puisque x∗ est faisable
pour (P ), la “non optimalité” de x∗ pour le dernier problème signifie qu’il existe une solution
faisable x̄ de (P ) avec plus petite valeur de l’objective linéarisée f (x∗ ) + (x − x∗ )T ∇f (x∗ ) que
la valeur de cet objectif en x∗ . Posons d = x̄ − x∗ , nous obtenons donc

dT ∇f (x∗ ) < 0.
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 139

Maintenant, soit
xt = x∗ + t(x̄ − x∗ ), 0 ≤ t ≤ 1.
Les points xt sont des combinaisons convexes de deux solutions faisables de (P ) et sont donc
également les solutions faisables du dernier (c’est un programme LP). Par Qualification des
Contraintes, ils existent des solutions faisables xt du problème actuel (P ) tels que
|xt − xt | ≤ θ(|xt − x∗ |) = θ(t|x̄ − x∗ |) ≡ θ(tq), q = |x̄ − x∗ |, (7.3)
avec θ(t) = o(t). Maintenant, f est continûment différentiable dans un voisinage de x∗ (c’est la
condition que nous avons accepté une fois pour toutes au début de ce chapitre). Il en découle
que (c’est une conséquence immédiate du Théorème de Valeur Intermédiaire de Lagrange) f est
localement Lipschitzienne en x∗ : il existe un voisinage U de x∗ et une constante C < ∞ tels
que
|f (x) − f (y)| ≤ C|x − y|, x, y ∈ U. (7.4)
Quand t → +0, nous avons xt → x∗ , et comme
|xt − xt | ≤ θ(tq) → 0, t → 0,
xt converge également vers x∗ quand t → 0. En particulier, xt et xt appartiennent à U pour
tout t assez petit positif. De plus, de l’optimalité locale de x∗ et du fait que xt converge vers x∗
quand t → +0 et est faisable pour (P ) pour tout t nous concluons que
f (xt ) ≥ f (x∗ )
quelque soit t positif assez petit. Ainsi pour t petit positif nous avons
0 ≤ t−1 [f (xt ) − f (x∗ )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 [f (xt ) − f (xt )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 C|xt − xt | [see (7.4)]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 Cθ(tq) [see (7.3)]
f (x∗ +td)−f (x∗ ) −1
= t + t Cθ(tq).
Comme t → 0, la dernière expression dans la chaine tend vers dT ∇f (x∗ ) < 0 (car θ(tq) = o(t)),
alors que elle doit être non négative. C’est la contradiction désirée.
La Proposition 7.1.2 ressemble beaucoup à un pléonasme : on s’est posé la question quand la
condition de KKT est nécessaire pour l’optimalité locale, et la réponse que nous avons maintenant
dit que ce pour sûr est le cas quand (P ) satisfait la condition de Qualification des Contraintes
en x∗ . Si on gagne quelque chose avec cette réponse, ce quelque chose est en effet très mince
– nous ne savons pas certifier si la Qualification des Contraintes a lieu. Il y a un cas trivial –
celui quand les contraintes de (P ) sont linéaires ; dans ce cas-ci l’ensemble faisable du problème
linéarisé est simplement le même que l’ensemble faisable du problème initial (en fait il suffit de
supposer la linéarité des contraintes actives en x∗ seulement ; dans ce cas les ensembles faisables
de (P ) et de (P ) coincident l’un avec l’autre dans un voisinage de x∗ , ce qui est bien suffisant
pour la Qualification de Contraintes).
Parmi les certificats plus généraux – conditions suffisantes – pour la Qualification des
Contraintes 1) le plus fréquemment utilisé est l’hypothèse de régularité de x∗ pour (P ) :
1. ) regardez ce que nous faisons : nous discutons une condition suffisante pour quelque chose, notamment, la
Qualification des Contraintes, qui n’est à son tour, rien d’autre qu’une condition suffisante pour rendre quelque
chose d’autre – le KKT – une condition nécessaire pour l’optimalité locale. C’est une qualité tout à fait im-
pressionnante d’un être humain d’être capable de comprendre ce genre de “conditions des condition” et de les
manipuler !
140 CHAPITRE 7. CONDITIONS D’OPTIMALITE

(Régularité)
l’ensemble des gradients de toutes contraintes actives de (P ) en x∗ est un ensemble
linéairement indépendant
(rappelons qu’une contrainte est active en x∗ si elle est satisfaite en ce point comme
égalité ; en particulier, toutes les contraintes d’égalité sont actives en chaque solution
faisable).
Le Théorème fondamental suivant (c’est l’une des formes du Théorème de Fonction Implicite)
montre pourquoi (Régularité) implique la Qualification des Contraintes :

Théorème 7.1.1 Soit x∗ un point de Rn et soit φ1 ..., φl des fonction k ≥ 1 continûment


différentiables dans un voisinage de x∗ qui sont égales à 0 à x∗ et sont telles que leurs gra-
dients ∇φi (x∗ ) en x∗ ¿, i = 1, ..., l, forment un ensemble linéairement indépendant.
Alors il existe
– un voisinage X du point x∗ dans Rn
– un voisinage Y d’origine dans Rn
– un isomorphisme y → S(y) de Y sur X qui transforme y = 0 en x∗ : S(0) = x∗
– tel que
– (I) S est k fois continûment différentiables dans Y , et son inverse S −1 (x) est k fois
continûment différentiables dans X ;
– (II) les fonctions
ψi (y) ≡ φi (S(y))
dans Y sont les fonctions-coordonnées yi , i = 1, ..., l.

Corollaire 7.1.1 Soit x∗ , φ1 , ..., φl satisfont les hypothèses du Théorème 7.1.1, q ≤ l, X un


voisinage de x∗ donné par le théorème, et soit Φ l’ensemble de solutions du système

φi (x) ≤ 0, i = 1, ..., q; φi (x) = 0, i = q + 1, ..., l.

Il existe alors un voisinage U ⊂ X de x∗ tel que la distance d’un point x ∈ U jusqu’au Φ est
bornée supérieurement par un facteur proportionnel à la norme du “vecteur de violation”
⎛ ⎞
max{φ(x), 0}
⎜ ... ⎟
⎜ ⎟
⎜ max{φ (x), 0} ⎟
⎜ q ⎟
δ(x) = ⎜ ⎟.
⎜ |φq+1 (x)| ⎟
⎜ ⎟
⎝ ... ⎠
|φl (x)|

C.-à-d., qu’il existe une constante D < ∞ tel que pour chaque x ∈ U il existe x ∈ Φ avec

|x − x | ≤ D|δ(x)|. (7.5)

Preuve. Soit V une boule fermée du rayon positif r centré à l’origine et contenue dans Y .
Puisque S est au moins une fois continûment différentiable dans un voisinage de l’ensemble
compact V , ses premiers dérivées sont bornées dans V et donc S est Lipschitzienne dans V avec
une certaine constante D > 0 :

|S(y  ) − S(y  )| ≤ D|y  − y  | ∀y  , y  ∈ V.


7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 141

Puisque S −1 est continu et S −1 (x∗ ) = 0, il existe un voisinage U ⊂ X de x∗ tels que S −1 renvoie


ce voisinage dans V .
Maintenant, soit x ∈ U , et considérons le vecteur y = S −1 (x). En raison de l’origine de U , ce
vecteur appartient à V , et en raison de l’origine de S, les l premières coordonnées du vecteur sont
exactement φi (x), i = 1, ..., l (puisque x = S(y), et nous savons que φi (S(y)) = yi , i = 1, ..., l).
Considérons maintenant le vecteur y  avec les coordonnées

⎨ min{yi , 0}, i = 1, ..., q
yi = 0, i = q + 1, ..., l .

yi , i = l + 1, ..., n
Il est claire que
– (a) |y  | ≤ |y|, de sorte que y  ∈ V ainsi que y ;
– (b) les l premières coordonnées du vecteur y  − y forme le vecteur δ(x) de violation, et les
coordonnées restantes de y  − y sont zéro, ainsi |y  − y| = |δ(x)|.
Maintenant posons x = S(y  ). Puisque les l premières coordonnées de y  = S −1 (x ) sont exac-
tement φi (x ), i = 1, ..., l, nous voyons que les valeurs de φ1 ..., φq en x sont non positives, et les
valeurs des autre φs sont zéro, de sorte que x ∈ Φ. D’autre part,

|x − x | ≡ |S(y) − S(y  )| ≤ D|y − y  | = D|δ(x)|

(nous avons utilisé la propriété de Lipschitz de S dans V ), comme requis.

Conditions d’Optimalité du Premier Ordre Maintenant nous pouvons atteindre notre


cible – établir les Conditions d’Optimalité du Premier Ordre.

Théorème 7.1.2 [Conditions d’Optimalité du Premier Ordre en Programmation Mathématique]


Considérons le programme (P ) d’optimisation avec une solution faisable x∗ . Supposons que
f, g1 , ..., gm , h1 , ..., hk sont continûment différentiables dans un voisinage de x∗ et que
– soit toutes les contraintes de (P ) qui sont en activité à x∗ sont linéaires,
– ou (Régularité) a lieu, c.-à-d. que les gradients des contraintes actives en x∗ forme un
ensemble linéairement indépendant.
Alors la condition de KKT est nécessaire pour que x∗ soit une solution locale optimale de (P ). De
plus, si (Régularité) a lieu et x∗ est une solution locale optimale de (P ), alors les multiplicateurs
λ∗i et μ∗j de Lagrange, certifiant l’optimalité sont uniquement définis.

Dû à la Proposition 7.1.2, tout ce que nous avons besoin de vérifier est que
(i) (P ) satisfait la Qualification des Contraintes en x∗ (ceci impliquera que si x∗ est localement
optimal pour (P ), alors c’est un point KKT du problème)
et
(ii) si (Régularité) a lieu et x∗ est localement optimal pour (P ), de sorte que, d’après (i),
c’est un point KKT du problème, alors les multiplicateurs de Lagrange correspondants sont
uniquement définis.
(ii) est immédiat : les multiplicateurs de Lagrange qui correspondent aux contraintes
d’inégalité inactives en x∗ doivent être 0 par complémentarité, et les multiplicateurs restants,
par l’équation d’Euler (7.1), sont les coefficients de la représentation de −∇f (x∗ ) comme une
combinaison linéaire des gradients des contraintes actives en x∗ . Sous (Régularité), ces gradients
sont linéairement indépendants, de sorte que les coefficients dans la combinaison ci-dessus soient
uniquement définis.
142 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Nous allons maintenant vérifier (i). Il n’y a aucun problème d’établir (i) dans le cas quand
toutes les contraintes de (P ) actif en x∗ sont linéaires – dans ce cas la Qualification des
Contraintes est évidente. Ainsi, nous devons dériver la propriété de Qualification des Contraintes
en supposant que (Régularité) ait lieu. À cet effet on note {φ1 ..., φl } le groupe des contraintes
d’inégalité actives en x (les q premières fonctions du groupe) et toutes les contraintes d’égalité
(les l − q fonctions restantes). Ce groupe avec x∗ , satisfait les conditions du Corollaire 7.1.1 ;
selon le corollaire, il existe un voisinage U de x∗ et une constante D < ∞ tels que
∀x ∈ U ∃x : |x − x | ≤ D|δ(x)|, φi (x ) ≤ 0, i = 1, ..., q; φi (x ) = 0, i = q + 1, ..., l. (7.6)
De plus, il existe un voisinage W de x∗ tel que toutes les contraintes d’inégalité qui ne sont pas
actives en x∗ sont satisfaites dans W entier (en effet, toutes les fonctions de contraintes sont
continues en x∗ , et les contraintes inactives en x∗ , étant des inégalités strictes en ce point, restent
satisfaites dans un voisinage de x∗ ). Considérez maintenant une transformation
x → x (x)
suivante : pour x ∈ U , x (x) est le vecteur x donné par (7.6), si le dernier vecteur appartient à
W . Sinon, comme dans le cas x ∈ U , on pose x (x) = x∗ . Notez qu’avec cette définition x (x) est
toujours une solution faisable de (P ) (pourquoi ?) De plus, comme x → x∗ , le vecteur de viola-
tions δ(x) tend vers 0, et x donné par (7.6) tend également vers x∗ et donc devienne par la suite
un vecteur de W . D’ou pour tout x assez proche de x∗ , le vecteur x (x) est exactement le vecteur
donné par (7.6). En récapitulant nos observations, nous venons aux conclusions suivantes :
nous avons défini une transformation qui met en correspondance à un x ∈ Rn arbi-
traire une solution faisable x (x) de (P ). Cette transformation est bornée, et dans
un certain voisinage Q de x∗ est tel que
|x (x) − x| ≤ D|δ(x)|. (7.7)
Supposons maintenant que x soit une solution faisable du problème linéairisé (P ). Notons que
le vecteur φ(x) = (φ1 (x), ..., φl (x)) admet la représentation
φ(x) = φlin (x) + φrem (x),
où φlin vient des linéarisations des fonctions φi en x∗ – c.-à-d., des fonction-contraintes de (P ),
et φrem vient des restes des développements de Taylor du premier ordre de φi en x∗ . Puisque
x est faisable pour (P ), les q premières coordonnées de φlin (x) sont non positives, et les autres
coordonnées sont égales à 0. Il en découle que si x est faisable pour (P ), alors la norme du vecteur
de violations δ(x) n’excède pas la norme du vecteur φrem (x) (regardez la définition du vecteur
de violations), et la dernière norme est ≤ θ(|x − x∗ |) pour certain θ(t) = o(t), En effet, le reste
du développement de Taylor du premier ordre d’une fonctions continûment différentiable dans
un voisinage de x∗ est o(|x − x∗ |), x étant le point où le développement est évalué. Combinant
cette observation avec (7.7), nous concluons qu’il y a un voisinage Z de x∗ tels que si x ∈ Z est
faisable pour (P ), alors
|x (x) − x| ≤ D|δ(x)| ≤ D|φrem (x)| ≤ Dθ(|x − x∗ |) (7.8)
pour certain θ(t) = o(t). Hors Z le côté gauche est borné par D  |x − x∗ | pour un certain D 
(rappelez-vous que x (x) est borné). En modifiant la définition de θ(t) d’une façon appropriée en
dehors d’un voisinage de t = 0, on peut assurer que (7.8) soit valide quelque soit x faisable pour
(P ). Comme x (x), par construction, est faisable pour (P ), (7.8) démontre que la Qualification
des Contraintes a lieu.
7.2. EN GUISE DE CONCLUSION... 143

7.2 En guise de conclusion...


Nous avons annoncé dans la préface de ce cours et de ce chapitre que les conditions d’optima-
lité permettent dans certains cas de trouver les solutions explicites aux problèmes d’optimisation.
Il est temps maintenant d’expliquer comment peut-on les employer pour résoudre un problème
“sur le papier”. Le schéma est très simple. Étant donné un problème (P ) d’optimisation, nous
pouvons noter les conditions d’optimalité de KKT avec les conditions de faisabilité :
m k
∇f (x∗ ) + ∗ ∗
i=1 λi ∇gi (x ) + ∗
j=1 μj ∇hj (x )
∗ = 0 [n = dim x equations]
λi gi (x∗ )
∗ = 0, i = 1, ..., .m [m equations]
hj (x∗ ) = 0, j = 1, ..., k [k equations]
gi (x∗ ) ≤ 0, i = 1, ..., m
λ∗i ≥ 0, i = 1, ..., m

La partie “égalité” de ce système est un système de n+m+k équations non-linéaires avec n+m+k
inconnus – les coordonnées de x∗ , λ∗ , μ∗ . Normalement un tel système a seulement un nombre
fini de solutions. Si nous sommes assez intelligents pour trouver toutes ces solutions et si pour
une raison nous savons que la solution optimale existe et satisfait en effet la condition de KKT
(par exemple, les hypothèses du Théorème 7.1.2 sont vérifiées en chaque solution faisable), alors
nous pouvons être sûrs qu’en regardant toutes les solutions du système KKT et en choisissant
parmi elles celle qui est faisable et qui a la meilleure valeur de l’objectif, nous pouvons être
sûrs que nous finirons avec la solution optimale du problème. Dans ce processus, nous pouvons
employer la partie “inégalité” du système pour éliminer des candidats de la liste qui ne satisfont
pas les inégalités, ce qui permet d’éviter une analyse plus détaillée de ces candidats.
L’approche de ce type est particulièrement fructueuse si (P ) est convexe (c.-à-d., que
f, g1 ..., gm sont convexes et h1 ..., hk sont linéaires). Dans ce cas-ci les conditions de KKT sont
suffisantes pour l’optimalité globale (nous le savons du chapitre précèdent). Ainsi, si le problème
est convexe et nous pouvons calculer une solution du système KKT, alors nous pouvons être
sûrs que c’est une solution optimale globale de (P ), et nous ne devrions pas prendre la peine de
rechercher d’autres points KKT et de les comparer les uns aux autres.
Malheureusement, le programme décrit peut être réalisé seulement dans des cas simples ; le
système non-linéaire de KKT est trop difficile à étudier analytiquement. Considérons maintenant
un de ces cas simples (mais très instructif).

Minimisation d’une forme quadratique homogène sur la boule unité. Nous considérons
le problème
(Q) f (x) ≡ xT Ax → min | g1 (x) ≡ xT x − 1 ≤ 0,
A étant une matrice symétrique n × n. Essayons de lister toutes solutions localement optimales
du problème.
Étape 0. Notons f ∗ la valeur optimale. Puisque x = 0 est clairement une solution faisable
et f (0) = 0, nous avons f ∗ ≤ 0. Il y a, par conséquent, deux cas possibles :
Cas (A) : f ∗ = 0 ;
Cas (B) : f ∗ < 0.
Étape 1 : Cas (A). Le cas (A) a lieu si et seulement si xT Ax ≥ 0 pour tous x, |x| ≤ 1, ou,
dû à la homogénéité de f (x), si et seulement si

xT Ax ≥ 0 ∀x.
144 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Nous savons que les matrices symétriques avec cette propriété portent un nom spécial – elles
s’appellent symétriques semi-définie positives (nous avons rencontré ces matrices dans le critère
de convexité pour des fonctions deux fois différentiables). Dans l’Algèbre Linéaire il y a des tests
pour cette propriété, par exemple, la règle de Silvester 2) : une matrice symétrique est semi-
définie positive si et seulement si tous ses mineurs principaux – ceux constitués par des lignes et
des colonnes avec les mêmes indices – soient non négatifs. Maintenant, quelles sont les solutions
localement optimales du problème dans le cas de A semi-définie positive ? Ce sont exactement
les points x de la boule unité (l’ensemble faisable du problème) qui appartiennent au noyau de
A, c.-à-d., tels que
Ax = 0
(on note Ker(A)) : tout d’abord, si x ∈ Ker(A) alors xT Ax = 0 = f ∗ , de sorte que x∗ soit
même globalement optimal. Vice versa, supposons que x est localement optimal, et prouvons
que Ax = 0. La contrainte dans notre problème est convexe ; l’objectif est également convexe
(rappelez-vous le critère de la convexité pour des fonctions régulières et notez que f  (x) = 2A),
de sorte qu’une solution localement optimale soit en fait optimale. Ainsi, x est localement optimal
si et seulement si xT Ax = 0. En particulier, si x est localement optimal, alors x = x/2, par
exemple, l’est également. En cette nouvelle solution optimale, la contrainte est satisfaite comme
inégalité stricte, de sorte que x soit un minimizer local sans contrainte de fonction f (·), et par
la règle de Fermat nous obtenons ∇f (x ) ≡ 2Ax = 0 et Ax = 0.
Étape 2 : Cas (B). Considérons maintenant le cas de f ∗ < 0, c.-à-d., le cas quand il existe
h, |h| ≤ 1, tel que
(#) hT Ah < 0.
Que sont les solutions localement optimales x∗ du problème dans ce cas ?
Que disent les conditions d’optimalité du premier ordre. Logiquement, il y a deux possibilités :
la première quand |x∗ | < 1, et la seconde quand |x∗ | = 1.
Montrons d’abord que la première situation est en fait impossible. En effet, dans le cas
|x∗ | < 1 x∗ devrait être localement optimal pour le problème sans contraintes f (x) → min |
x ∈ Rn avec l’objectif régulier. Par la condition nécessaire du second degré d’optimalité locale
sans contraintes, le Hessian f  en x∗ (qui est égale à 2A) devrait être semi-défini positif, ce qui
contredit (#).
Ainsi, dans le cas en question une solution localement optimale x∗ est forcement sur la
frontière de la boule unité, et la contrainte g1 (x) ≤ 0 est active en x∗ . Le gradient 2x∗ de cette
contrainte est donc non nul en x∗ , et (par Theorem 7.1.2) x∗ est un point KKT :

∃λ∗1 ≥ 0 : ∇f (x∗ ) + λ∗1 ∇g1 (x∗ ) = 0,

ou, ce qui est identique,


Ax∗ = −λ∗1 x∗ .
Ainsi, x∗ devrait être un vecteur propre 3) de A avec une valeur propre nonpositive λ ≡ −λ∗1 . Et
c’est tout ce que nous pouvons tirer des conditions nécessaires d’optimalité du premier ordre.
En regardant l’exemple
A = Diag(1, 0, −1, −2, −3..., −8)

2. ) a ne pas confondre avec S. Stallone.


3. ) un vecteur propre d’une matrice carrée M est un vecteur non nul e tels que M e = se pour un certain s
réel (ce réel s’appelle la valeur propre de M , associé au vecteur propre e)
7.2. EN GUISE DE CONCLUSION... 145

dans R10 , nous observons que les conditions nécessaires d’optimalité du premier ordre sont satis-
faites par 18 vecteurs ±e2 , ±e3 ..., ±e10 , où ei , i = 1....10, sont les orths de la base canonique de
R10 . Tous ces 18 vecteurs sont des points de Karush-Kuhn-Tucker du problème, et les conditions
d’optimalité du premier ordre ne permettent pas de comprendre lesquels parmi ces 18 candidats
sont localement optimaux et lesquels ne le sont pas.

Remarque 7.2.1 Un produit secondaire de notre raisonnement est le résultat qui dit que une
matrice symétrique A qui satisfait (#) possède un vecteur propre ((Q) pour sûr est soluble,
et la condition nécessaire du premier ordre indique, comme nous avons vu, qu’une solution
optimale doit être un vecteur propre). Notez qu’il est loin d’être claire à l’avance pourquoi une
matrice symétrique devrait avoir un vecteur propre. Naturellement, notre raisonnement établit
l’existence d’un vecteur propre seulement sous la condition (#), mais on peut immédiatement
éliminer cette contrainte (étant donné une matrice symétrique arbitraire A , on peut appliquer
notre raisonnement à la matrice A = A − T I qui, pour un T grand, satisfait sûrement (#), et
démontrer l’existence d’un vecteur propre de A ; naturellement, celui sera également un vecteur
propre de A ).
L’existence d’un vecteur propre d’une matrice symétrique est, naturellement, un fait
élémentaire bien connu d’Algèbre Linéaire ; voici sa preuve en quelques lignes :

Montrons d’abord qu’une matrice arbitraire A, même avec les entrées complexes, possède
une valeur propre complexe. En effet, λ est une valeur propre de A si et seulement si il existe
un vecteur (complexe) non nul z tels que (A − λI)z = 0, c.-à-d., si et seulement si la matrice
λI − A est singulière, ou, ce qui est identique, le déterminant de la matrice est nul. D’autre
part, le déterminant de la matrice λI −A est clairement un polynôme nonconstant de λ, et un
tel polynôme, selon le Théorème Fondamental de l’Algèbre (FTA) – a une racine (complexe) ;
une telle racine est une valeur propre de A.
Maintenant on doit montrer que si A est symétrique et réelle, alors il existe une valeur
propre réelle et un vecteur propre réel. C’est immédiat : montrons que toutes les valeurs
propres de A sont réelles. En effet, si λ est une valeur propre de A (considérée comme
matrice complexe) et z est le vecteur propre correspondant (complexe), alors l’expression
n

Aij zj zi∗
i,j=1

(on note par ∗ la conjugaison complexe) est réelle (considérez son conjugué !) ; d’autre part,
pour le vecteur propre z nous avons j Aij zj = λzi , de sorte que notre expression devient
n n
λ i=1 zi zi∗ = λ i=1 |zi |2 ; comme z = 0, cette dernière expression est réelle si et seulement
si λ est réelle.
Enfin, quand on sait qu’une valeur propre λ d’une matrice symétrique réelle (considérée
comme une matrice avec les entrées complexes) est en fait réelle, on peut immédiatement
montrer que le vecteur propre lié à cette valeur propre peut être choisi pour être réel : en
effet, la matrice réelle λI − A est singulière et a donc un noyau non trivial.
Ainsi, dans notre exemple particulier la Théorie d’Optimisation avec ses Conditions d’Optimalité
est, dans un sens, superflue. Cependant, on devrait noter deux choses :
– que la preuve d’Algèbre Linéaire de l’existence d’un vecteur propre est basée sur le FTA
qui annonce l’existence de la racine (complexe) d’un polynôme. Pour obtenir le même
résultat sur l’existence d’un vecteur propre, dans notre preuve (et dans toutes les preuves
sur lesquelles elle se base) nous n’avons jamais parlé de quelque chose comme FTA ! Tout
ce que nous avons utilisé de l’Algèbre était la théorie élémentaire de systèmes d’équations
146 CHAPITRE 7. CONDITIONS D’OPTIMALITE

linéaires, et nous n’avons jamais pensé aux nombres complexes, aux racines des polynômes,
etc. !

– Il est utile de noter que la Théorie d’Optimisation (qui semble être superflue pour établir
l’existence d’un vecteur propre d’une matrice symétrique) devient inévitable si on cherche
à montrer une généralisation en dimension infinie de ce fait – le Théorème de Hilbert
qui dit qu’un opérateur linéaire symétrique compact dans un espace de Hilbert possède
un vecteur propre [et, en conclusion, même une base orthonormée de vecteurs propres].
Je ne vais pas expliquer ce que signifient tous ces mots ; en gros, on dit qu’une matrice
symétrique de dimension infinie peut être diagonalisée dans une base orthonormale propre-
ment choisie (par exemple, un opérateur intégral f (s) → 01 K(t, s)f (s)ds avec K(·, ·) pas
très mauvais (par exemple, carré integrable) symétrique (K(t, s) = K ∗ (s, t)), possède un
système orthonormal complet dans L2 [0, 1] des fonctions propres. Ce fait, en particulier,
explique pourquoi les spectres atomiques sont discrets plutôt que continus). En prouvant
ce théorème extrêmement important, on ne peut pas utiliser les outils d’Algèbre Linéaire
(il n’y a désormais aucun déterminant ou polynôme), mais on peut toujours employer
ceux d’Optimisation (la compacité de l’opérateur implique la solubilité du problème cor-
respondant (Q), et la condition nécessaire d’optimalité du premier ordre qui dans le cas
en question indique que la solution est un vecteur propre de l’opérateur, contrairement à
FTA, demeure valide dans le cas de dimension infinie).
7.3. EXERCICES 147

7.3 Exercices
Exercice 7.1 Considérez le problème de minimisation de la forme linéaire

f (x) = x2 + 0.1x1

sur le plan 2D sur le triangle avec les sommets (1, 0), (0, 1), (0, 1/2) (faites le dessin !).
1) Vérifiez que la solution optimale x∗ = (1, 0) est unique.
2) Vérifiez que le problème peut être écrit comme le programme LP :

x2 + 0.1x1 → min | x1 + x2 ≤ 1, x1 + 2x2 ≥ 1, x1 , x2 ≥ 0.

Montrez que dans cette formulation du problème la condition nécessaire d’optimalité de KKT
est satisfaite en x∗ .
Quelles sont les contraintes actives en x∗ ? Quels sont les multiplicateurs de Lagrange corres-
pondants ?
3) Vérifiez que le problème peut être réécrit comme Programme Non-linéaire avec les
contraintes d’inégalité :

x2 + 0.1x1 → min | x1 ≥ 0, x2 ≥ 0, (x1 + x2 − 1)(x1 + 2x2 − 1) ≤ 0.

La condition d’optimalité de KKT est-elle satisfaite en x∗ ?

Exercice 7.2 Considérez le problème élémentaire suivant :

f (x1 , x2 ) = x21 − x2 → min | x2 = 0

avec la solution optimale unique évidente (0, 0). La condition de KKT est-elle satisfaite en cette
solution ?
Réécrivez le problème d’une manière équivalente comme

f (x1 , x2 ) = x21 − x2 → min | x22 = 0.

Que diriez-vous de la condition de KKT dans ce problème équivalent ? Qu’empêche d’appliquer


le Théorème 7.1.2 ?

Exercice 7.3 Considérez un problème d’optimisation

f (x) → min | gi (x) ≤ 0, i = 1, ..., m.

Supposez que x∗ est une solution localement optimale, f, gi sont continûment différentiables
dans un voisinage de x∗ et les contraintes gi sont concaves dans ce voisinage. Montrez que la
Qualification des Contraintes a lieu en ce point. x∗ est-il un point de KKT du problème ?

Exercice 7.4 Soit a1 , ..., an positifs réels, et 0 < s < r sont des entiers. Trouver le maximum
et le minimum de la fonction

n
ai x2r
i
i=1
sur la surface

n
x2s
i = 1.
i=1
148 CHAPITRE 7. CONDITIONS D’OPTIMALITE

Exercice 7.5 Soit p(x) un polynôme de degré n > 0. Sans perte de généralité nous pouvons
supposer que p(x) = xn + ..., c.-à-d. le coefficient du monôme de degré le plus élevé est 1.
Considérez maintenant le module |p(z)| en fonction de l’argument complexe z ∈ C. Prouvez
que cette fonction a un minimum, et que le minimum est zéro.
Indication : comme |p(z)| → +∞ si |z| → +∞, la fonction continue |p(z)| doit atteindre un
minimum sur un plan complexe.
Soit z un point du plan complexe. Prouvez que pour le petit h complexe

p(z + h) = p(z) + hk ck + O(|h|k+1 )

pour certains k, 1 ≤ k ≤ n et ck = 0. Maintenant, si p(z) = 0 il y a un choix (lequel ?) de h


petit tel que |p(z + h)| < |p(z)|.
Chapitre 8

Méthodes d’Optimisation :
Introduction

On commence avec ce chapitre la deuxième partie de notre cours ; ce que nous intéresse
dorénavant sont des méthodes numériques pour l’optimisation continue non-linéaire, c.-à-d., les
algorithmes pour résoudre des problèmes du type

minimiser f (x) s.t. gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k. (8.1)

ici x varie sur Rn , et l’objectif f (x), ainsi que les fonctions gi et hj , sont assez régulières
(normalement nous les supposons être au moins une fois continûment différentiables). On appelle
les contraintes
gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k
les contraintes fonctionnelles, divisées de façon évidente en contraintes d’inégalité et d’égalité.
Nous appelons (8.1) le problème d’optimisation non-linéaire afin de distinguer ces problèmes
des programmes de Programmation Linéaires ; les derniers correspondent au cas quand toutes
les fonctions f, gi , hj sont linéaires. Et nous parlons de l’optimisation continue dans la descrip-
tion de notre sujet pour faire la distinction avec l’optimisation discrète, où nous recherchons une
solution sur un ensemble discret, par exemple, celui des vecteurs avec des coordonnées entiers
(programmation en nombres entiers), les vecteurs avec les coordonnées dans {0, 1} (program-
mation booléenne), etc...
Les problèmes (8.1) surgissent dans une variété d’applications, en gros, toutes les fois que
les gens prennent des décisions, ils essayent de les faire d’une façon “optimale”. Si la situa-
tion est assez simple, quand les décisions possibles puissent être paramétrisées par des vecteurs
de dimension finie, et la qualité de ces décisions puisse être caractérisée par un ensemble fini
de critères “calculables”, le concept de la décision “optimale” prend typiquement la forme du
problème (8.1). Notez que dans des applications réelles cette phase préliminaire – modélisation
du problème réel de décision comme problème d’optimisation avec l’objectif et les contraintes
calculables – est, normalement, beaucoup plus difficile et créatrice que la phase suivante où nous
résolvons le problème qui en résulte. Dans notre cours, de toute façon, nous ne touchons pas la
phase de modélisation, et nous nous concentrons sur la technique de resolution des programmes
d’optimisation.
Rappelez-vous que nous avons développé des conditions d’optimalité pour les problèmes (8.1)
dans les Chapitres 6 et 7. Nous nous rappelons qu’on peut former un système carré d’équations
non-linéaires et un système d’inégalités qui définissent un certain ensemble – celui des points de

149
150 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Karush-Kuhn-Tucker – qui, sous certaines conditions de régularité, contient toutes les solutions
optimales du problème. D’habitude, le système de Karush-Kuhn-Tucker a un nombre fini de
solutions, et si nous sommes assez intelligents pour trouver toutes les solutions analytiquement,
alors nous pourrions en sélectionner la meilleure, la solution optimale, toujours sous une forme
analytique. La difficulté, cependant, est qu’en règle générale nous ne sommes pas assez intelli-
gents pour résoudre analytiquement le système de Karush-Kuhn-Tucker, et nous ne savons pas
trouver analytiquement une solution optimale par d’autres moyens. Dans tous ces cas “difficiles”
– et tous les problèmes d’optimisation venant de vraies applications du monde sont difficiles dans
ce sens – tout ce que nous pouvons espérer est une routine numérique, un algorithme qui permet
de approcher numériquement les solutions qui nous intéressent. Ainsi, les méthodes numériques
d’optimisation forment l’outil principal pour résoudre des problèmes d’optimisation.

8.1 Préliminaires sur les Méthodes d’Optimisation


Il faut souligner qu’on ne peut pas espérer de concevoir une méthode d’optimisation capable
résoudre efficacement tous les problèmes d’optimisation non-linéaire – ces problèmes sont trop
divers. En fait il y a de nombreuses méthodes, et chacune d’elles est orienté vers une certaine
famille restreinte des problèmes d’optimisation.

8.1.1 Classification des Problèmes et des Méthodes d’Optimisation Non-


Linéaire
Traditionnellement, des problèmes d’optimisation non-linéaire (8.1) sont divisés en deux
grandes classes :
– Problèmes sans contraintes – aucune contrainte inégalité ou égalité n’est présente. La forme
générique d’un problème sans contrainte, par conséquent, est

minimize f (x) s.t. x ∈ Rn , (8.2)

où f est une fonction régulière (au moins une fois continûment différentiable) sur Rn ;
– Problèmes contraints, qui impliquent au moins une contrainte d’inégalité ou d’égalité.
Les problèmes contraints, à leur tour, sont subdivisés en plusieurs classes, selon qu’il y a des
contraintes non-linéaires, contraintes d’inégalité, et ainsi de suite.
Selon la classification décrite des problèmes d’optimisation, les méthodes d’optimisation sont
principalement divisées en celles pour l’optimisation sans contrainte et celles pour l’optimisation
sous contraintes. Bien que les problèmes sans contrainte plus simples ne soient pas très fréquents
dans les applications, les méthodes d’optimisation sans contrainte jouent le rôle très important :
elles sont employées directement pour résoudre des problèmes sans contrainte et indirectement,
comme modules, dans beaucoup de méthodes de minimisation sous contraintes.

8.1.2 Nature itérative des Méthodes d’Optimisation


Les méthodes de résolution numériques des problèmes d’optimisation non-linéaire sont, en
leur essence, des routines itératives : pour le problème (8.1), une méthode ne peut pas typi-
quement trouver la solution exacte en temps fini. En fait, la méthode génére une suite infini
{xt } de solutions approximatives. L’itération suivante xt+1 est formée, selon certaines règles,
sur la base de l’information locale sur le problème, collectée sur l’itération précédente. La partie
d’information It obtenue sur l’itération courante xt est un vecteur qui consiste en des valeurs
8.1. PRELIMINAIRES SUR LES METHODES D’OPTIMISATION 151

de l’objectif et des contraintes xt et, probablement, celles des gradients ou même des dérivés
supérieures de ces fonctions en xt . Ainsi, quand il s’agit de former xt+1 , la méthode “connait”
les valeurs et les dérivées, jusqu’à un certain ordre fixe, de l’objectif et des contraintes sur les
précédentes itérations x1 ..., xt . Et cette information est exactement toute l’information sur le
problème disponible à la méthode quand elle produit l’iteration xt+1 . En conséquence, cette
itération est une certaine fonction d’information accumulée jusqu’ici :

xt+1 = Xt+1 (I1 , I2 , ..., It ).

L’ensemble de règles de recherche Xt (·) prédétermine le comportement de la méthode sur un


problème arbitraire ; par conséquent, la méthode elle-même peut être identifiée avec la collection
{Xt }∞ t=1 . Notez que la liste d’arguments de Xt est composée des (t−1) parts d’information locale ;
en particulier, la liste d’arguments de la toute première règle de recherche X1 est vide, de sorte
que cette “fonction” soit simplement un vecteur fixe donné par la description de la méthode –
point initial.
Il découle du schéma général décrit ce-dessus d’une routine itérative que les méthodes d’op-
timisation peuvent être classifiées non seulement selon les types de problèmes que les méthodes
résolvent, mais également selon le type d’information locale qu’elles emploient. De ce point de
vue d’“information”, les méthodes sont divisées en
– routines d’ordre zero, qui utilisent seulement des valeurs de l’objectif et des contraintes et
pas leurs dérivés ;
– routines du premier ordre, celle qui utilisent les valeurs et les gradients de l’objectif et des
contraintes ;
– routines du second ordre, qui utilisent les valeurs, les gradients et les Hessians (c.-à-d.,
matrices des dérivées secondes) de l’objectif et des contraintes.
En principe, naturellement, nous pourrions parler aussi des méthodes d’ordres plus élevé ; ces
méthodes, cependant, ne sont jamais employées dans la pratique. En effet, pour employer une
méthode d’ordre k, on devrait avoir une possibilité de calculer les dérivés partiels de l’objectif et
des contraintes jusqu’à l’ordre k. Dans le cas multidimensionnel ce n’est pas exactement facile
même pour k = 1 et même quand vos fonctions sont données par des expressions analytiques
explicites (ce qui n’est pas toujours le cas). Et il y a une “explosion” de difficultés dans le calcul
des dérivées d’ordre supérieur : pour une fonction de n variables, il y a n premieres dérivées
à calculer, n(n+1)
2 dérivées secondes, n(n+1)(n+2)
2×3 de dérivées troisièmes, etc. ; en conséquence,
même dans le cas d’un problème d’échelle moyenne avec n ∼ quelques dizaines, les difficultés
avec la programmation, temps de calcul et la mémoire requise pour traiter les dérivés élevées
rend excessivement chère l’exploitation de ces dérivées. Par ailleurs, des méthodes d’ordre plus
élevé que 2 ne possède aucun avantage théorique, ainsi il n’y a aucune compensation pour l’effort
de calcul de ces dérivés.

8.1.3 Convergence des Méthodes d’Optimisation


Nous ne pouvons pas nous attendre à ce qu’un problème non-linéaire soit résolu de façon
exacte en nombre fini d’étapes ; tout ce que nous pouvons espérer est que la suite d’iterations {xt }
produite par la méthode en question converge vers l’ensemble de solution du problème quand
t → ∞. Dans la théorie d’optimisation numérique, la convergence d’une méthode d’optimisation
sur certaine famille des problèmes est exactement ce qui donne le droit à la méthode d’être
qualifié comme un outil pour résoudre des problèmes de la famille. La convergence n’est pas la
152 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

seule caractéristique d’une méthode, mais c’est la propriété qu’en fait une routine d’optimisation
théoriquement valide.

Vitesses de convergence
La convergence d’une méthode numérique d’optimisation (et tout autre) est la propriété la
plus faible qui donne à la méthode le droit d’exister. En principe, il y a autant de méthodes
avec cette propriété que vous voulez, et la question est comment ranger ces méthodes et les-
quelles parmi elles sont à recommander pour l’utilisation pratique. En Optimisation Non-linéaire
traditionnelle ce problème est généralement “résolu” en comparant le taux asymptotique de
convergence mesuré comme suit.
Supposons que la méthode pour le problème P produit une suite d’iterations
qui converge vers l’ensemble de solutions du problème XP∗ . Pour définir le taux de
convergence, nous introduisons d’abord la fonction d’erreur err(x) qui mesure la
qualité d’une solution approximative x ; cette fonction doit être positive en dehors
de XP∗ et zéro sur XP∗ .
Il y a plusieurs choix raisonnables de la fonction d’erreur. Par exemple, nous
pouvons toujours utiliser la distance entre la solution approximative et l’ensemble
de solutions :
distP (x) = ∗inf ∗ |x − x∗ |;
x ∈XP

un autre choix serait l’erreur résiduelle en termes de l’objectif et des contraintes :


resP (x) = max{f (x) − f ∗ ; [g1 (x)]+ ; ...; [gm (x)]+ ; |h1 (x)|; ...; |hk (x)|},
f ∗ étant la valeur optimale de P et [a]+ = max(a, 0) étant partie positive du réel a,
etc.
Pour une fonction d’erreur correctement choisie (par exemple, pour distP ), la
convergence des itérations vers l’ensemble de solutions implique que la suite scalaire
rt = err(xt )
converge vers 0, et nous mesurons la “qualité de la convergence” par la vitesse avec
laquelle les réels non négatifs rt tendent vers zéro.
Il existe une classification standard des vitesses de convergences :
– [convergence linéaire] une suite {rt ≥ 0} tels que pour un certain q ∈ (0, 1), C < ∞ et
tout t on a
rt ≤ Cq t
s’appelle convergeante linéairement vers 0 avec le taux q ; l’exemple le plus simple étant
rt = Cq t . La limite inférieure des qs pour lesquels {rt } converge linéairement vers 0 avec
le taux q de convergence s’appelle taux de convergence de la suite.
Par exemple, pour la suite rt = Cq t , ainsi que pour la suite {rt = C(q +t )t }, de t → 0 t →
∞, le taux de convergence est q, bien que la deuxième suite, d’une manière générale, ne
converge pas vers 0 avec le taux q (elle converge linéairement avec le taux q  de convergence
pour n’importe quel q  ∈ (q, 1)).
On voit immédiatement qu’une condition suffisante pour qu’une suite {rt > 0} converge
linéairement avec le taux q ∈ (0, 1) est que
rt+1
lim supt→∞ < q.
rt
8.1. PRELIMINAIRES SUR LES METHODES D’OPTIMISATION 153

– [convergence sous- et super-linéaire] Supposons qu’une suite converge vers 0, mais ne


converge pas linéairement (par exemple, la suite rt = t−1 ), dans ce cas on dit que la
suite converge sous-linéairement.
Une suite qui converge linéairement vers zéro avec n’importe quel taux positif (de sorte
que le taux de convergence de la suite soit 0) converge super-linéairement (par exemple,
la suite rt = t−t ).
Une condition suffisante pour qu’une suite {rt > 0} converge super-linéairement est

rt+1
lim = 0.
t→∞ rt

– [convergence d’ordre p > 1] On dit qu’une suite {rt ≥ 0} est convergeante d’ordre p > 1
vers 0, si pour un certain C et tout t assez grand on a

rt+1 ≤ Crtp .

La borne supérieure des p pour lesquels le suite converge vers 0 avec l’ordre p s’appelle
ordre de convergence de la suite.
t
Par exemple, la suite rt = a(p ) (a ∈ (0, 1), p > 1) converge vers zéro d’ordre p, car
rt+1 /rtp = 1. Les suites convergeantes vers 0 d’ordre 2 ont un nom spécial – on dit qu’elles
convergent quadratiquement.
Naturellement, une suite convergeante vers 0 d’ordre p > 1 converge super-linéairement
vers 0 (mais, d’une manière générale, pas vice versa).
Traditionnellement, le taux de convergence des routines numériques itératives est mesuré par le
rang de la suite correspondante d’erreurs {rt = err(xt )} dans l’échelle ci-dessus ; en particulier, on
parle de méthodes sous-linéaires, linéaires, super-linéaires, quadratique ou de méthodes d’ordre
p > 1. On pense souvent que meilleur est le taux de convergence d’une méthode, plus préférable
est la méthode elle-même. Par exemple, une méthode qui converge linéairement soit meilleure
que une méthode sous-linéaire ; parmi deux méthodes linéaire, celle avec le taux plus petit
de convergence soit préférable ; une méthode super-linéaire soit préférée à une méthode qui
possède une convergence linéaire. Naturellement, toutes ces préférences sont “conditionnées”
par l’absence de différences significatives dans la complexité numérique des itérations, etc.
On devrait souligner que le taux de la convergence, ainsi que la propriété même de la conver-
gence, est une caractéristique asymptotique de la suite d’erreurs ; il n’indique pas que quand “ar-
rive” le taux annoncé de convergence, c.-à-d., ce que sont les valeurs de C ou/et “assez grandes
valeurs” de t mentionnés dans les définitions correspondantes. Pour des méthodes concrètes, les
bornes de ces quantités typiquement peuvent être extraites à partir des preuves de convergence,
mais ça n’aide pas beaucoup – ces bornes sont habituellement très compliquées, grossières et
dépendent des caractéristiques quantitatives “invisibles” du problème comme les magnitudes des
dérivées d’ordre élevé, le conditionnement du Hessian, etc. A partir de ces observations (com-
binées avec le fait que notre vie est finie) il découle que on ne devrait pas surestimer l’importance
du taux de convergence des méthodes. Cette approche traditionnelle donne une sorte d’orienta-
tion, rien d’avantage ; malheureusement, il ne semble y avoir aucune manière purement théorique
d’obtenir un “rangement” détaillé des méthodes numériques d’optimisation. En conséquence,
les recommandations pratiques concernant des méthodes à employer sont basées sur différentes
considérations théoriques et empiriques : taux théorique de convergence, comportement réel sur
des problèmes d’essai, stabilité numérique, simplicité et robustesse, etc.
154 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

8.1.4 Solutions globales et locales


La difficulté intrinsèque et cruciale dans l’Optimisation Non-linéaire est que nous ne pou-
vons pas nous attendre à ce qu’une méthode numérique d’optimisation approche une solution
globalement optimale du problème.
Cette difficulté a ses racines en la nature locale d’information sur le problème qui est dis-
ponible aux méthodes. Supposez, par exemple, que notre tache est de minimiser la fonction
montrée sur l’image :

x’ x’’

La fonction a deux minimiseurs locaux, x et x . Il est impossible de deviner qu’il existe en
fait un autre minimiseur en observant un voisinage assez petit de chaque de ces minimizers.
En conséquence, n’importe quelle méthode “normale” d’optimisation non-linéaire lancée sur le
problème en question avec le point de départ dans un petit voisinage du “faux minimiseur”
(local, pas global) x , convergera vers x – l’information locale sur f disponible pour la méthode
ne laisse pas deviner que x existe !
Il serait erroné de dire que la difficulté est absolument unsurmountable. Nous pourrions lancer
la méthode avec les différents points de départ, ou même regarder les valeurs de l’objectif sur une
suite des point qui est dense dans R 1) et définir xt en tant que meilleur, en termes de valeurs de
f , des premiers t points de la suite. Cette dernière “méthode” peut être facilement étendue aux
problèmes multi-dimensionnels avec des contraintes générales ; on peut immédiatement prouver
sa convergence vers la solution globale ; la méthode est simple dans l’exécution, etc. Il y a
seulement un petit inconvénient de la méthode : le nombre énorme d’évaluations de fonction
requises pour résoudre un problème avec l’inexactitude .
On peut voir facilement que la méthode décrite, appliquée au problème

f (x) → min | x ∈ Rn , g1 (x) = |x|2 ≤ 1

avec l’objectif f Lipschitzien, avec la constante de Lipschitz 1 :

|f (x) − f (y)| ≤ |x − y|,

exige, dans le pire cas, au moins −n de pas pour trouver un point x avec l’erreur
résiduelle – la quantité f (x ) − min|x|≤1 f – n’excédant pas .

1. ) c.-à-d. qui visite tout voisinage arbitrairement petit de chaque point de R, comme le fait, par exemple,
la suite de tous les nombres rationnels (pour ranger des nombres rationnels dans une suite simple, énumérez-
les selon la somme de valeurs absolues du numérateur et du dénominateur dans les fractions correspondantes :
d’abord ceux avec la somme ci-dessus égale à 1 (le seul rationnel 0 = 0/1), puis ceux avec la somme égale à 2
(−1 = −1/1, 1 = 1/1), puis ceux avec la somme égale à 3 (−2/1, −1/2, 1/2, 2/1), etc.)
8.2. RECHERCHE LINEAIRE 155

Quand  = 0.01 et n = 20 (des conditions très modestes de precision et de


dimension), le nombre d’iterations devient > 1040 , 2) et ceci est la borne inférieure
de complexité !
D’ailleurs, pour la famille des problèmes en question la borne inférieure −n sur
le nombre d’evaluations de la fonction nécessaire pour garantir l’erreur résiduel exigé
 est valide pour une méthode arbitraire d’optimisation qui utilise seulement l’infor-
mation locale sur l’objectif.
Ainsi, nous pouvons approcher, avec n’importe quelle erreur donnée  > 0, la solution global de
n’importe quel problème d’optimisation ; mais dire que au mieux ça nous coûtera 1020 années
de calculs pour  = 0.01, n = 20, est pire que ne rien dire du tout.
Suite aux considérations ci-dessus, nous venons à la conclusion importante, bien que
désespérée :
Il ne semble pas raisonnable de s’attendre à ce qu’une méthode d’optimisation
puisse approcher, avec une erreur raisonnable en un temps raisonnable, une solution
à tous les problèmes d’optimisation global d’une taille donné (même assez modérée)
En fait, tout ce que nous pouvons espérer faire en temps raisonnable est de trouver des bonnes
approximations d’un certain (et pas nécessairement correspondant à la solution optimale) point
de Karush-Kuhn-Tucker du problème d’optimisation (dans le cas sans contrainte – à un point
critique de l’objectif). Dans les cas simples nous pouvons espérer également d’approcher une
solution localement optimale, sans aucune garantie de son optimalité globale.
Il y a, en tous cas, un “cas soluble” quand nous pouvons approcher une solution globalement
optimal d’un problème d’optimisation par une solution de complexité raisonnable. C’est le cas
quand le problème est convexe (c.-à-d., les fonctions f et gi , i = 1, ..., m, sont convexes, alors
que hj , si présentes, sont linéaires). Propriétés des problèmes convexes d’optimisation et des
méthodes numériques pour ces problèmes forme le sujet de la Programmation Convexe. La
Programmation Convexe est, en sa nature, plus simple et, par conséquent, beaucoup plus avancée
que l’Optimisation Non-linéaire générale. En particulier, dans la Programmation Convexe nous
pouvons concevoir des méthodes avec un taux global (pas asymptotique !)de convergence tout à
fait raisonnable, capables de garantir (avec un coût numérique raisonnable) des approximations
de grande précision pour des solutions globalement optimales, même pour dans le cas d’un
programme convexe général.
Personnellement, j’aimerais limiter le reste de notre cours au monde sympathique de la
Programmation Convexe, mais nous ne pouvons pas nous le permettre : dans des applications
réelles, malheureusement, nous rencontrons trop souvent des problèmes non convexes, et nous
n’avons d’autre choix que de les résoudre – même au prix d’affaiblir la notion de la “solution
optimal” jusqu’à considérer comme telle un point de Karush-Kuhn-Tucker.

8.2 Recherche Linéaire


Le reste de ce chapitre est consacré à l’optimisation unidimensionnelle sans contraintes, c.-
à-d., aux méthodes numériques pour résoudre des problèmes de type

f (x) → min | x ∈ R, (8.3)


2. ) Supposons qu’on dispose du super-ordinateur le plus rapid du moment – il s’agit du NEC Earth Simulator
/5120, capable approximativement de 35000 Gflops (c.-à-d. de 3.5 ∗ 1013 operations numériques élémentaires par
seconde. Cette machine aura besoin alors de O(1020 ) années pour accomplir cette tache !
156 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

f étant une fonction au moins continue sur l’axe ; d’habitude, on appelle ces méthodes recherche
linéaire.
Notre intérêt pour la recherche linéaire ne vient pas seulement du fait que dans les appli-
cations on rencontre, naturellement, des problèmes unidimensionnels, mais plutôt du fait que
la recherche linéaire est un composant fondamental de toutes les méthodes traditionnelles d’op-
timisation multi-dimensionnelle. D’habitude, nous avons le schéma suivant d’une méthode de
minimisation sans contraintes multi-dimensionnelle : en regardant le comportement local de
l’objectif f sur l’itération courante xt , la méthode choisit la “direction du movement” dt (qui,
normalement, est une direction de descente de l’objectif : dTt ∇f (xt ) < 0) et exécute un pas dans
cette direction :
xt → xt+1 = xt + αt dt
afin de réaliser un certain progrès en valeur de l’objective, c.-à-d., pour assurer que f (xt+1 ) <
f (xt ). Et dans la majorité des méthodes le pas dans la direction dt est choisie par la minimisation
unidimensionnelle de la fonction
φ(α) = f (xt + αdt ).
Ainsi, la technique de recherche linéaire est une brick de base fondamentale de toute méthode
multi-dimensionnelle.

8.2.1 Recherche linéaire d’ordre zéro


Nous commençons par la recherche linéaire d’ordre zéro, c.-à-d., par des méthodes pour
résoudre (8.3) qui utilisent des valeurs de f seulement, pas ces dérivées.
Les méthodes que nous sommes sur le point de développer résolvent pas le problème (8.3)
tel qi’il est, mais le problème
f (x) → min | a ≤ x ≤ b (8.4)
de minimisation de l’objectif sur un segment fini donné [a, b] (−∞ < a < b < ∞). Pour assurer
que le problème soit bien conditionné, nous faisons l’hypothèse suivante :
f est unimodale sur [a, b], c.-à-d., possède un minimum local unique x∗ sur le segment.
Cette hypothèse, comme on le voit facilement, implique qui f strictement décroissante sur [a, b]
à gauche de x∗ :
a ≤ x < x ≤ x∗ ⇒ f (x ) > f (x ) (8.5)
et est strictement croissante sur [a, b] à droite de x∗ :

x∗ ≤ x < x ≤ b ⇒ f (x ) < f (x ). (8.6)

En effet, si (8.5) étaient faux, il existerait x et x tels que

a ≤ x < x ≤ x∗ , f (x ) ≤ f (x ).

Il suit que l’ensemble de minimiseurs de f sur [a, x ] contient un minimiseur, x∗ , qui est
diffèrent de x 3) . Comme x∗ est un minimiseur de f sur [a, x ] et x∗ diffère de x , x∗ est
un minimiseur local de f sur [a, b], alors qu’on a supposé que le minimizer local unique de f
sur [a, b] est x∗ ; ceci donne la contradiction désirée. On a (8.6) de façon analogue.

3. ) regardez : si x soi-même n’est pas un minimiseur de f sur [a, x ], alors tout minimiseur de f sur [a, x ]
peut être choisi comme x∗ ; si x est un minimizer de f sur [a, x ], alors x est également un minimiseur, car
f (x ) ≤ f (x ), et nous pouvons poser x∗ = x
8.2. RECHERCHE LINEAIRE 157

Notez que les relations (8.5) et (8.6), à leur tour, impliquent qui f est unimodal sur [a, b] et
même sur chaque segment [a , b ] ⊂ [a, b] plus petit.
Étant donné que f est unimodal sur [a, b], nous pouvons préciser une stratégie pour approcher
x : choisissons deux points x− et x+ dans (a, b),

a < x− < x+ < b,


et calculons les valeurs f (x− ) et f (x+ ). On observe que
si [cas A] f (x− ) ≤ f (x+ ), alors x∗ se trouve a gauche de x+ [en effet, si x∗ était à droite de
x+ ,on aurait f (x− ) > f (x+ ) d’après (8.5)], et si [ cas B ] f (x− ) ≥ f (x+ ), x∗ est alors à droite
de x− [raisonnement “symétrique”].
En conséquence, dans le cas A nous pouvons remplacer le “segment d’incertitude” initial Δ0 =
[a, b] par le nouveau segment d’incertitude Δ1 = [a, x+ ], et dans le cas B par le segment Δ1 =
[x− , b] ; dans les deux cas les nouveau “segment d’incertitude” Δ1 couvre x∗ et est strictement
plus petit que Δ0 . Puisque, l’objectif, étant unimodal sur le segment initial Δ0 = [a, b], est
unimodal également sur le segment plus petit Δ1 ⊂ Δ0 , nous pouvons réitérer ce procédé –
choisir deux points dans Δ1 , calculer les valeurs de l’objectif en ces points, comparez les résultats
et remplacez Δ1 par un plus petit segment Δ2 , contenant la solution désirée x∗ , et ainsi de suite.
Ainsi, nous venons à

Algorithme 8.2.1 [la minimisation d’ordre zéro de fonction unimodale sur [a, b] ]
Initialisation : Poser δ0 = [a, b], t = 1
Étape t : Étant donné le segment précédent Δt−1 = [at−1 , bt−1 ] d’incertitude,
– choisir les points de recherche x− + − +
t , xt : at−1 < xt < xt < bt−1 ;
− +
– calculer f (xt ) et f (xt ) ;
– définir le nouveau segment incertain : si f (x− t ) ≤ f (xt ), poser Δt = [at−1 , xt ], poser
+ +

Δt = [xt , bt−1 ] sinon ;
– remplacer t par t + 1 et boucler.
On voit immédiatement que nous pouvons assurer la convergence linéaire des longueurs des
segments d’incertitude vers 0, ce qui nos donne un algorithme linéairement convergeant vers
x∗ . Par exemple, si x− +
t , xt sont choisis pour couper Δt−1 en trois parts égales, nous obtenons
|Δt+1 | = 3 |Δt | (|Δ| représente la longueur d’un segment Δ), ce qui nous donne un algorithme
2

qui converge linéairement, avec le taux 2/3 :


  k/2
2
|x∗ − xk | ≤ |b − a|, (8.7)
3
k étant le # d’évaluations de fonction exécutées jusqu’ici et xk étant un point arbitraire du
segment d’incertitude Δ k/2 , formé après k évaluations de la fonction.
L’estimation (8.7) est très bonne – nous avons la convergence linéaire non-asymptotique avec
le taux de convergence qui ne dépend pas de la fonction f . Existe-il quelque chose de mieux ?
La réponse est “oui”. Une façon d’améliorer le taux de convergence est de noter qu’un des
deux points de recherche employés pour passer de Δt au Δt+1 se trouve certainement en intérieur
de Δt+1 , et nous pourrions essayer de l’utiliser pour passer de Δt+1 à Δt+2 . Avec cette stratégie,
le coût de la mise à jour de Δt en Δt+1 sera une évaluation de fonction, et pas deux (excepté
le tout premier Δ0 → Δ1 , qui coûte toujours deux évaluations de fonction). Il y a deux façon
de mettre en application cette nouvelle stratégie – l’optimale (recherche de Fibonacci) et la
sous-optimale (“recherche d’or”).
158 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Recherche de Fibonacci
La recherche de Fibonacci peut être employée quand nous savons à l’avance le nombre
N > 2 d’évaluations de fonction que nous allons exécuter.
Étant donné N , on considère la suite des N + 1 premiers nombres entiers de Fibonacci
F0 , F1 , F2 ..., Fn définis par la récurrence

F0 = F1 = 1; Fk = Fk−1 + Fk−2

(les 10 premiers éléments de la suite sont 1, 1, 2, 3, 5, 8, 13, 21, 34, 55).


La méthode que nous allons utiliser est suivante : étant donné Δ0 = [a, b], on pose

d0 = |b − a|,

on choisit les deux premiers points x− +


1 et x1 de recherche à la distance

FN −1
d1 = d0
FN
de l’extrémité droite et de l’extrémité gauche de Δ0 respectivement (comme FN /FN −1 =
(FN −1 + FN −2 )/FN −1 = 1 + FN −2 /FN −1 < 2, nous avons d1 > d0 /2, de sorte que x− +
1 < x1 ).
La longueur du nouveau segment Δ1 d’incertitude est alors d1 .
En suite on réitère l’étape ci-dessus, avec N remplacé N − 1. Ainsi, maintenant nous
devrions évaluer f en deux points x− +
2 , x2 du segment Δ1 placés à la distance

FN −2 FN −2 FN −1 FN −2
d2 = d1 [= d0 = d0 ] (8.8)
FN −1 FN −1 FN FN

des bouts droit et gauche de Δ1 . Le fait crucial (qui résulte des propriétés arithmétiques des
nombres de Fibonacci) est que
un de ces deux points où f devrait être calculé est déjà traité – celui parmi les deux points
précédents qui appartient à l’intérieur de Δ1 .

En effet, supposons, sans perte de généralité, que Δ1 = [a, x+ 1 ] (le cas Δ1 = [x1 , b] est

complètement analogue), de sorte que x1 ∈ int Δ1 . Nous avons
 
− FN −1
x1 − a = (b − d1 ) − a = (b − a) − d1 = d0 − d1 = d0 1 − =
FN
FN −2
[comme FN = FN −1 + FN −2 et d2 = FN d0 ]

FN −2
= d0 = d2 .
FN
Ainsi, seulement un des deux points exigés de Δ1 est réellement “nouveau”, et l’autre vient
de l’étape précédente ; par conséquent, afin de mettre à jour Δ1 vers Δ2 nous avons besoin
d’une seule évaluation de fonction. Après cette nouvelle évaluation de fonction, nous pouvons
remplacer Δ1 avec Δ2 . Pour traiter Δ2 , nous agissons exactement comme ci-dessus, mais avec
N remplacé par N − 2 ; ici nous devons évaluer f aux deux points de Δ2 à la distance
FN −3 FN −3
d3 = d2 [= d0 , see (8.8)]
FN −2 FN

des extrémités du segment, et, à nouveau, un de ces point est deja traité.
Au bout des itérations nous venons au segment ΔN −1 qui couvre x∗ ; la longueur du
segment est
F1 b−a
dN −1 = d0 = ,
FN FN
8.2. RECHERCHE LINEAIRE 159

et le nombre total d’évaluations de f requis pour obtenir ce segment est N (nous avons
besoin de 2 évaluations de f pour passer de Δ0 vers Δ1 , et chacune des N − 2 mises à jour
suivantes Δt → Δt+1 nécessite une évaluation de f ).
Si on prend comme approximation de x∗ n’importe quel point xN du segment ΔN −1 ,
nous avons
b−a
|xN − x∗ | ≤ |ΔN | = . (8.9)
FN
Pour comparer (8.9) avec l’évaluation de précision (8.7) de notre méthode initiale – peu
sophistiquée – notez que

1 ! " 1+ 5
Ft = (λ + 1)λt + (−1)t λ−t , λ = > 1. 4) (8.10)
λ+2 2
En consequence, de (8.9) nous obtenons

λ + 2 −N
|xN − x∗ | ≤ λ |b − a|(1 + o(1)), (8.11)
λ+1
où on note o(1) une fonction de N qui converge vers 0 quand N → ∞).
Nous voyons que le taux de convergence pour la recherche de Fibonacci est
2
λ−1 = √ = 0.61803...
1+ 5

qui est bien meilleur que le taux 2/3 = 0.81649... donné par (8.7).
On peut montrer que la recherche de Fibonacci est une méthode optimale (dans un
certain sens précis) d’ordre zéro, en termes de precision garantie après N évaluations de
fonction. Malgré ces bonnes propriétés théoriques, la méthode n’est pas très commode du
point de vue pratique : nous devrions choisir à l’avance le nombre d’évaluations de fonction à
exécuter (c.-à-d., pour ajuster la méthode à une certaine précision, choisie à l’avance), ce qui
est parfois assez désagréable. La méthode de recherche d’or que nous sommes sur le point de
présenter est exempte de cette imperfection et, en même temps, pour des N pas trop petits,
aussi efficace que la recherche de Fibonacci originale.
L’idée de la méthode de recherche d’or est très simple : à l’étape k de recherche de la
recherche de Fibonacci à N pas, nous choisissons deux points de recherche dans le segment
Δk−1 , et chacun de ces points divise le segment (entre l’extrémité plus proche et la plus
éloignée) en rapport
[1 − FN −k /FN −k+1 ] : [FN −k /FN −k+1 ] ,

4. ) voici le calcul : les nombres de Fibonacci satisfont l’équation homogène en différences finies :

xt − xt−1 − xt−2 = 0

avec la condition initiale x0 = x1 = 1. Pour résoudre une équation homogène en différences finies, on doit
d’abord chercher ses solutions fondamentales – ceux du type xt = λt . En substituant xt = λt dans l’équation,
nous obtenons une équation quadratique pour λ :

λ2 − λ − 1 = 0,

et nous venons aux deux solutions fondamentales :



1+ 5
λti ,
(i)
xt = i = 1, 2, avec λ1 = > 1, λ2 = −1/λ1 .
2
N’importe quelle combinaison linéaire de ces solutions fondamentales est encore une solution de l’équation, et pour
obtenir {Ft }, il reste de choisir les coefficients de la combinaison pour satisfaire les conditions initiales F0 = F1 = 1.
En conséquence, nous venons au (8.10). Surprise : l’expression pour les quantités entières Ft implique les nombres
irrationnels !
160 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

c.-à-d., en rapport FN −k−1 : FN −k . Selon (8.10), ce rapport pour les grands N − k est proche

de 1/λ, λ = (1 + 5)/2. Dans la recherche d’or on utilise ce rapport sur chaque étape, et
c’est tout !

Recherche d’or

Soit λ = (1 + 5)/2 (aussi appelé le “nombre d’or”). Dans l’implementation de recherche
d’or de l’Algorithme 8.2.1 nous choisissons à chaque étape les points de recherche x− +
t et xt pour
diviser le segment précédent de l’incertitude Δt−1 = [at−1 , bt−1 ] dans le rapport 1/λ :

λ 1 1 λ
x−
t = at−1 + bt−1 ; x+
t = at−1 + bt−1 . (8.12)
1+λ 1+λ 1+λ 1+λ

On voit facilement que pour t ≥ 2, un des points de recherche exigés pour mettre à jour Δt−1
vers Δt est déjà traité en cours de la mise à jour de Δt−2 vers Δt−1 . Pour le vérifier, il suffit de

considérer le cas quand Δt−2 = [α, β] et Δt−1 = [α, x+ t−1 ] (le cas “symétrique” Δt−1 = [xt−1 , β]
est complètement analogue). Notons d = β − α, nous avons

1 λ
x−
t−1 = α + d, x+
t−1 = α + d. (8.13)
1+λ 1+λ

Maintenant, nous sommes dans la situation Δt−1 = [α, x+ t−1 ], de sorte que le second des deux
points de recherche requis pour mettre à jour Δt−1 vers Δt soit

λ λ2
x+
t =α+ t−1 − α) = α +
(x+ d
1+λ (1 + λ)2

(voyez la deuxième égalité dans (8.13)). La dernière quantité, dues à la première égalité dans
(8.13) et à l’équation caractéristique λ2 = 1 + λ qui donne λ, n’est rien d’autre que x− t−1 :

1 λ2
λ2 = 1 + λ ⇔ = .
1+λ (1 + λ)2

Ainsi, dans la recherche d’or chaque mise à jour Δt−1 → Δt , excepté la toute première, exige
une évaluation de fonction. La longueur du segment d’incertitude est réduite par chaque mise à
jour par le facteur
λ 1
= ,
1+λ λ
c.-à-d.,
|Δt | = λ−t (b − a).
Après N ≥ 2 évaluations de fonction (après t = N − 1 étapes de recherche d’or) nous pouvons
approcher x∗ par le point xN du segment ΔN −1 , est l’imprécision sera bornée par

|xN − x∗ | ≤ |ΔN −1 | ≤ λ1−N (b − a). (8.14)

Ainsi, nous observons une convergence linéaire avec le même taux λ−1 = 0.61803... que pour la
recherche de Fibonacci, mais maintenant la méthode est “stationnaire” – nous pouvons exécuter
autant de pas que nous le souhaitons.
8.2. RECHERCHE LINEAIRE 161

8.2.2 Dichotomie
L’avantage théorique des méthodes d’ordre zéro, comme la recherche de Fibonacci et la
recherche d’or, est que ces méthodes n’utilisent du’une information minimale sur l’objectif –
ses valeurs seulement. De plus, ces méthodes ont un champ des applications très large – la
seule condition imposée sur l’objectif est d’être unimodal sur un segment donné qui localise le
minimiseur à approcher. Et même dans ce cadre, très large, ces méthodes convergent linéairement
avec le taux de convergence indépendant de l’objectif ; d’ailleurs, les évaluations d’efficacité (8.11)
et (8.14) sont non-asymptotiques : elles ne contiennent pas des facteurs constants “incertains”
et sont valides pour toutes valeurs de N . En même temps, souvent notre objectif “se comporte
mieux” qu’une fonction unimodale générale, par exemple, la fonction f peut être lisse. En se
servant de ces propriétés additionnelles de l’objectif, nous pouvons améliorer le comportement
des méthodes de recherche linéaire.
Voyons ce qui se produit si nous résolvons le problème (8.4) avec un objectif lisse
(continûment différentiable). Comme ci-dessus, supposons que l’objectif est unimodal sur [a, b].
En fait nous faisons une hypothèse un peu plus forte :
(A) : le minimiseur x∗ de f sur [a, b] est un point intérieur du segment, et f  (x) change son
signe en x∗ :
f  (x) < 0, x ∈ [a, x∗ ); f  (x) > 0, x ∈ (x∗ , b]

[notez que unimodalité + derivabilité impliquent seulement f  (x) ≤ 0 sur [a, x∗ ) et f  (x) ≥ 0
sur (x∗ , b]].
Supposons, en plus, comme c’est normalement le cas, que nous pouvons calculer non seule-
ment la valeur, mais également la dérivée de l’objectif en un point donné.
Sous ces hypothèses nous pouvons résoudre (8.4) par la méthode la plus simple possible – la
dichotomie : calculons f  au point médian x1 de Δ0 = [a, b]. Il y a trois cas possibles :
– f  (x1 ) > 0. Ce cas, selon (A), est possible si et seulement si x∗ < x1 , et nous pouvons
remplacer le segment initial d’incertitude par [x1 , b], réduisant ainsi la longueur du segment
d’incertitude par le facteur 2 ;
– f  (x1 ) < 0. Comme dans le cas précédant, cette inégalité est possible si et seulement si
x∗ > x1 , et nous pouvons remplacer le segment initial d’incertitude par [a, x1 ], réduisant
de nouveau la longueur du segment d’incertitude par le facteur 2 ;
– f  (x1 ) = 0. Selon (A), c’est possible si et seulement si x1 = x∗ , et nous pouvons terminer
avec le minimiseur exact actuel.
Dans les deux premiers cas notre objectif possède clairement la propriété (A) par rapport au
nouveau segment d’incertitude, et nous pouvons réitérer notre construction. Ainsi, nous venons

Algorithme 8.2.2 [Dichotomie]


Initialisation : poser Δ0 = [a, b], t = 1
Étape t : Étant donné le segment Δt−1 = [at−1 , bt−1 ],
– définir le point courant de recherche xt comme le milieu de Δt−1 :

at−1 + bt−1
xt = ;
2

– calculer f  (xt ) ;
162 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

– dans le cas f  (xt ) = 0 terminer et sortir une solution exacte xt de (8.4). Autrement, poser

[at−1 , xt ], f  (xt ) > 0


Δt =
[xt , bt−1 ], f  (xt ) < 0

remplacer t par t + 1 et boucler.

Des considérations ci-dessus nous amènent à

Proposition 8.2.1 [Convergence linéaire de la Dichotomie]


Sous hypothèse (A), pour n’importe quel t ≥ 1, soit la Dichotomie termine en cours des t
premières étapes avec la solution exacte x∗ , ou le t-ème segment d’incertitude Δt est bien défini,
couvre x∗ et est de longueur 2−t (b − a).
Ainsi, la méthode de dichotomie converge linéairement avec le taux de convergence 0, 5.

Remarque 8.2.1 Le taux de convergence de l’algorithme de Dichotomie est meilleur que


0,61803... pour la recherche de Fibonacci ou la recherche d’or. Il n’y a aucune contradiction
avec l’optimalité annoncée de la recherche de Fibonacci : le dernier est optimal parmi toutes les
méthodes d’ordre zéro de minimisation de fonctions unimodales, alors que la dichotomie est une
méthode du premier ordre.

Remarque 8.2.2 La méthode de Dichotomie peut être vue comme “le cas limite” de l’algo-
rithme d’ordre zéro 8.2.1 : quand, dans le dernier algorithme, nous posons les deux points de
recherche x− + −
t et xt près du milieu du segment Δt−1 , le résultat de comparaison entre f (xt ) et
+
f (xt ) qui régit le choix du nouveau segment d’incertitude dans l’algorithme 8.2.1 est donné par
le signe de f  au point du milieu de Δt−1 .

Remarque 8.2.3 Notez que l’hypothèse (A) peut être affaiblie. En effet, supposons que f 
change son signe sur le segment [a, b] : f  (a) < 0, f  (b) > 0 ; et on ne suppose rien au sujet de la
dérivée sur (a, b), excepté sa continuité. Dans ce cas-ci nous pouvons encore utiliser la méthode
de dichotomie avec succès pour rapprocher un point critique de f dans (a, b), c.-à-d., un point
où f  (x) = 0. En effet, de la description de la méthode on voit que ce que la méthode produit
une suite de segments “emboités” Δ0 ⊃ Δ1 ⊃ Δ2 ⊃ ..., avec le segment suivant étant deux fois
plus petit que le précédent, avec la propriété que f  change son signe de − à + en passant de
l’extrémité gauche de chaque segment Δt à son extrémité droite. Ce processus peut être terminé
seulement dans le cas quand xt est un point critique de f . Si cet événement ne se produit pas,
alors les segments emboités Δt ont un point commun unique x∗ , et puisque dans n’importe quel
voisinage du point il y a des points avec des valeurs positives et négatives de f  , nous avons
f  (x∗ ) = 0 (f  est continu !). C’est le point critique de f et l’algorithme converge linéairement
vers x∗ avec le taux de convergence 0, 5.
La remarque ci-dessus explique la nature de l’algorithme de dichotomie. C’est un algorithme
pour trouver le zéro de la fonction f  plutôt que pour minimiser f (sous l’hypothèse (A), natu-
rellement, c’est la même chose). Et l’idée de la méthode est triviale : étant donné que le zéro de
f  est encadré par le segment initial Δ0 = [a, b] (c.-à-d., que f  aux points extrêmes du segment
est de signe différent), nous produisons une suite des segments inclus, qui encadrent également
le zéro de f  : nous avons scindé le segment précédent Δt = [at−1 , bt−1 ] par son milieu xt en
deux sous-segments [at−1 , xt ] et [xt , bt−1 ]. Comme f  change son signe en passant de at−1 à bt−1 ,
il change son signe soit en passant de at−1 à xt , soit en passant de xt à bt−1 (à condition que
f  (xt ) = 0, de sorte que nous puissions parler du signe de f  (xt ) ; si f  (xt ) = 0, nous sommes
8.2. RECHERCHE LINEAIRE 163

faits). Nous détectons sur lequel des deux sous-segments f  changent en fait son signe et le
prenons comme nouveau segment Δt d’incertitude ; par la construction, il encadre également le
zéro de f  .

8.2.3 Approximation de courbes


Les méthodes de recherche linéaire considérées jusqu’ici possèdent, sous l’hypothèse d’uni-
modalité, l’excellente propriété de convergence linéaire globale. Pouvons-nous espérer quelque
chose de mieux ? Naturellement, oui : on aimerait bien avoir une méthode de convergence super-
linéaire. Si l’objectif se comporte “bien”, autrement dit, est assez régulier, nous avons de bonnes
chances d’accélérer la convergence, au moins sur la phase finale, en utilisant l’approximation
de courbe, c.-à-d., en approchant l’objectif par une fonction simple dont le minimum peut être
trouvé de façon explicite. Par exemple, on peut approcher f par un polynôme, en choisissant les
coefficients du polynôme afin de l’adapter aux valeurs observées (et à celles des dérivées, si elles
sont disponibles) de f en des iterations “les plus prometteuses”. Une itération d’un algorithme
“pur” d’approximation de courbe est suivante :
– au début de l’itération, nous avons un certain ensemble de “points de travail” où nous avons
déjà calculé les valeurs et, probablement, certains dérivées de l’objectif. Avec ces données,
nous calculons le polynôme d’approximation courant p qui devrait avoir les mêmes valeurs
et les même dérivées aux points de travail que ceux de l’objectif ;
– après avoir calculé le polynôme p, nous trouvons analytiquement son minimiseur et le
prenons comme le nouveau point de recherche ;
– nous calculons la valeur (et, probablement, les dérivées) de l’objectif en ce point de re-
cherche et mettons à jour l’ensemble de points de travail, en ajoutant le dernier point de
recherche (ainsi que l’information sur l’objectif en ce point) et en excluant de cet ensemble
le “plus mauvais” des points de travail précédents ;
et on boucle.
L’idée sous-jacente est très simple : si nous somme capable obtenir la convergence de cette
méthode, les points de travail seront éventuellement à une petite distance d du minimiseur de f .
Si f est assez lisse, l’erreur qu’on commet en approchant f par p dans le d-voisinage des points
de travail sera de l’ordre de dq+1 , q étant le degré de p, et l’erreur de l’approximation de f  par p
sera de l’ordre de dq . En conséquence, nous pouvons espérer que la distance entre le minimiseur
de p (c.-à-d., le zéro de p ) et le minimiseur de f (le zéro de f  ) sera de l’ordre de dq , ce qui nous
donne “de bonnes chances” d’obtenir la convergence super-linéaire.
Naturellement, ce qui est dit n’est rien de plus qu’une idée très approximative. Voyons une
réalisation standard de cette idée.

Méthode de Newton

Supposons que nous résolvons le problème (8.3) avec l’objectif f deux fois continûment
différentiable, et que, étant donné x, nous pouvons calculer f (x), f  (x) et f  (x). Sous ces hy-
pothèses nous pouvons appliquer au problème la Méthode suivante de Newton :

Algorithme 8.2.3 [Méthode de Newton unidimensionnelle]


Initialisation : choisir le point initial x0
Étape t : étant donné l’itération précédente xt−1 ,
164 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

– calculer f (xt−1 ), f  (xt−1 ) et f  (xt−1 ) et approcher f autour de xt−1 par son développement
de Tailor du second ordre :
1
p(x) = f (xt−1 ) + f  (xt−1 )(x − xt−1 ) + f  (xt−1 )(x − xt−1 )2 ;
2
– choisir comme xt le minimiseur de la fonction quadratique p(·) :

f  (xt−1 )
xt = xt−1 − ,
f  (xt−1 )

remplacer t avec t + 1 et boucler.

La méthode de Newton, si initialisée près d’un minimiseur local non-dégénéré x∗ de f (c.-à-d.,


près d’un point x∗ satisfaisant la condition suffisante d’optimalité du second ordre : f  (x∗ ) = 0,
f  (x∗ ) > 0), converge vers x∗ quadratiquement :

Proposition 8.2.2 [Convergence quadratique locale de la Méthode de Newton] Soit x∗ ∈ R un


minimiseur local non-dégénéré de la fonction régulière f , c.-à-d., un point tels que f est trois
fois continûment différentiable dans un voisinage de x∗ avec f  (x∗ ) = 0, f  (x∗ ) > 0. Alors les
iteration de Newton convergent vers x∗ quadratiquement, à condition que le point de départ x0
soit assez proche de x∗ .

Preuve. Soit g(x) = f  (x), de sorte que g(x∗ ) = 0, g (x∗ ) > 0 et

g(xt−1 )
xt = xt−1 − .
g (xt−1 )

Puisque g = f  est deux fois continûment différentiable dans un voisinage de x∗ et g (x∗ ) > 0,
ils existent des constantes positives K1 , K2 et r tels que

|x − x∗ |, |x − x∗ | ≤ r ⇒ |g (x ) − g (x )| ≤ k1 |x − x |, g (x ) ≥ k2 . (8.15)

Maintenant, soit
k2
ρ = min{r; }. (8.16)
k1
Supposons que pour un certain t l’itération xt−1 appartient au ρ-voisinage

Uρ = [x∗ − ρ, x∗ + ρ]

de x∗ . Alors g (xt−1 ) ≥ k2 > 0 (grâce à (8.15) ; notez que ρ ≤ r), ainsi l’itération de Newton
xt−1 → xt est bien définie. Nous avons

g(xt−1 )
xt − x∗ = xt−1 − x∗ − =
g (xt−1 )

[car g(x∗ ) = 0]

g(xt−1 ) − g(x∗ ) g(x∗ ) − g(xt−1 ) − g (xt−1 )(x∗ − xt−1 )


= xt−1 − x∗ − = .
g (xt−1 ) g (xt−1 )
8.2. RECHERCHE LINEAIRE 165

Le numérateur dans la fraction à droite est le reste du développement de Taylor d’ordre 1 de


g en xt−1 ; par (8.15), et comme |xt−1 − x∗ | ≤ ρ ≤ r, il ne dépasse pas en valeur absolue

2 k1 |x − xt−1 | . Le dénominateur, par le même (8.15), est au moins k2 . D’où,
1 2

k1
xt−1 ∈ Uρ ⇒ |xt − x∗ | ≤ |xt−1 − x∗ |2 . (8.17)
2k2

Grâce à l’origine de ρ, (8.17) implique

|xt − x∗ | ≤ |xt−1 − x∗ |/2.

On observe que la trajectoire de la Méthode de Newton, après avoir une fois atteint Uρ , ne
quite jamais ce voisinage et converge vers x∗ linéairement avec le taux 0.5. C’est sûrement le
cas quand x0 ∈ Uρ , et nous allons specifier “assez proche de” dans l’énoncé de la proposition
comme l’inclusion x0 ∈ Uρ . Avec cette spécification, nous obtenons que la trajectoire converge
vers x∗ linéairement, et on déduit de (8.17) que l’ordre de convergence est (au moins) 2.

Remarque 8.2.4 Les deux hypothèses – que f  (x∗ ) > 0 et que x0 est assez près de x∗ sont
essentielles 5) . Par exemple, pour la fonction convexe régulière f (x) = x4 (avec le minimiseur
dégénéré x∗ = 0), la méthode devient

1 2
xt = xt−1 − xt−1 = xt−1 ;
3 3

dans cet exemple la méthode converge, mais la convergence est linéaire plutôt que quadratique.

Appliquée à la fonction régulière strictement convexe f (x) = 1 + x2 avec le minimizer local
(et global) unique (et non-dégénère x∗ = 0), la méthode devient, comme on voit immédiatement,

xt = −x3t−1 ;

cette suite converge (très rapidement : avec l’ordre 3) vers 0 à condition que le point de départ
soit dans (−1, 1), et diverge à l’infini – aussi rapidement – si |x0 | > 1.

En fait la Méthode de Newton est une Méthode de Linéarisation pour trouver le zéro de f  :
étant donné l’iteration précédente xt−1 , nous “linéarisons” g = f  en ce point et prenons comme
xt la solution à la linéarisation

g(xt−1 ) + g (xt−1 )(x − xt−1 ) = 0

de l’équation actuelle g(x) = 0.

5. ) en fait, la condition f  (x∗ ) > 0 peut être remplacé par f  (x∗ ) < 0, puisque la trajectoire de la méthode
ne change pas si on remplace f par −f (en d’autres termes, la Méthode de Newton ne distingue pas les minima
locaux et les maxima locaux de l’objectif). On parle du cas de f  (x∗ ) > 0, pas celui de f  (x∗ ) < 0, simplement
parce que le premier est le seul important pour la minimisation.
166 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

f’(x)

x x
t t-1

Méthode de Newton comme recherche de zéro

8.2.4 Recherche Linéaire Inexacte


Comme nous l’avons remarqué, l’application principale des méthodes de recherche linéaire
est en intérieur des algorithmes d’optimisation multi-dimensionnelle. Dans ces algorithmes on
admet seulement un petit nombre d’étapes du sous-programme de recherche linéaire à chaque
itération de l’algorithme principal, sinon la complexité globale de la méthode principale sera
trop importante. D’ailleurs, souvent dans l’algorithmique multi-dimensionnels nous n’avons pas
besoin de solutions très précises des sous-problèmes unidimensionnels ; ce qui est important pour
la méthode principale, est de garantir un progrès raisonnable sur l’objectif du sous-problème.
Si tel est le cas, nous pouvons terminer la recherche linéaire relativement loin de la solution
optimale du sous-problème en question, en utilisant certains tests simples pour du “progrès
raisonnable”. Nous allons presenter deux tests le plus populaires de ce type.

La règle d’Armijo
On considère la situation qui est typique pour l’application de la technique de recherche
linéaire à l’intérieur de la méthode principale multi-dimensionnelle. Sur une itération de la
dernière méthode nous avons l’iteration courante x ∈ Rn et la direction de recherche d ∈ Rn
qui est direction de descente pour notre objectif f (·) : Rn → R :

dT ∇f (x) < 0. (8.18)

Le but est de réduire “de façon importante” la valeur de l’objectif par un pas

x → x + γ ∗ d

de x dans la direction d.
Supposons que f est continûment différentiable. Alors la fonction

φ(γ) = f (x + γd)

d’une variable est également une fois continûment différentiable ; d’ailleurs, en raison de (8.18),
nous avons
φ (0) < 0,
8.2. RECHERCHE LINEAIRE 167

de sorte que pour le petit γ positif on a

φ(γ) − φ(0) ≈ γφ (0) < 0.

Nous désirons de choisir un pas “raisonnablement grand” γ ∗ > 0 qui a comme conséquence le
progrès φ(γ ∗ ) − φ(0) sur l’objectif “de l’ordre de γ ∗ φ (0)”. Le test d’Armijo de cette condition
est construit de façon suivante :
Test d’Armijo :
on fixe une fois pour toutes les constantes  ∈ (0, 1) (un choix populaire est  = 0.2) et η > 1
(disons, η = 2 ou η = 10) et on dit que la valeur candidate γ > 0 est appropriée, si les deux
conditions suivantes sont satisfaites :

φ(γ) ≤ φ(0) + γφ (0) (8.19)

[cette partie du test dit que le progrès en valeur de φ donné par le pas γ est “de l’ordre de
γφ (0)”]
φ(ηγ) ≥ φ(0) + ηγφ (0) (8.20)
[cette partie du test dit que γ est un pas “de l’ordre de grandeur maximal” qui satisfait encore
(8.19) – si on multiplie γ par η, la nouvelle valeur ne satisfait plus (8.19), comme une inégalité
stricte]
Sous l’hypothèse (8.18) et la condition (très naturelle) que f (et, par conséquent, φ) est borné
inférieurement, le test d’Armijo est consistant : ils existent des valeurs de γ > 0 qui passent le
test. Pour le voir, il suffit de remarquer que
A. (8.19) est satisfait pour tout γ positif assez petit.
En effet, puisque φ est différentiable, nous avons

φ(γ) − φ(0)
0 > φ (0) = lim ,
γ→+0 γ
d’où
φ(γ) − φ(0)
φ (0) ≥
γ
pour tout assez petit γ positif (comme φ (0) > φ (0) dû à φ (0) < 0,  ∈ (0, 1)). L’inégalité finale
est équivalente à (8.19) ;
B. (8.19) n’est pas vérifiée pour toutes valeurs γ assez grandes.
En effet, le côté droit de (8.19) tend vers −∞ quand γ → ∞, dû à φ (0) < 0, mais son côté
gauche est borné inférieurement.
Nous pouvons choisir un γ = γ0 positif et verifier s’il satisfait (8.19). Si c’est le cas, on
remplace cette valeur par γ1 = ηγ0 , γ2 = ηγ1 , etc., vérifiant chaque fois si la nouvelle valeur de
γ passe (8.19). Selon B , ceci ne peut pas durer toujours : pour un certain s ≥ 1, γs ne satisfait
sûrement pas (8.19). Quand cela se produit pour la première fois, la quantité γs−1 satisfait (8.19),
alors que la quantité γs = ηγs−1 ne satisfait pas (8.19), ce qui signifie que γ = γs−1 passe le test
d’Armijo.
Notez que la preuve présentée donne en fait un algorithme explicite (et rapide) pour trouver
le pas qui passe le test d’Armijo, et cet algorithme peut être utilisé (et il est, en effet, souvent
employé) dans la recherche d’Armijo au lieu des méthodes de recherche linéaire plus précises
(et, normalement, plus fastidieuses).
168 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Test de Goldstein
Un autre test populaire pour le “progrès suffisant” pour la recherche linéaire est le test
de Goldstein suivant :
on fixe  ∈ (0, 1/2) et on dit que la valeur candidat γ > 0 est appropriée, si

φ(0) + (1 − )γφ (0) ≤ φ(γ) ≤ φ(0) + γφ (0). (8.21)

Ici encore la relation (8.18) et la bornitude de f impliquent la consistance du test.


8.3. EXERCICES 169

8.3 Exercices
Exercice 8.1 [Recherche d’or] Codez la recherche d’or et testez la sur quelques fonctions uni-
modales de votre choix.

Exercice 8.2 [Dichotomie] Codez la méthode de dichotomie et tester la sur quelques fonctions
unimodales de votre choix.
Lancer 50 pas de l’algorithme de dichotomie sur la fonction (non-unimodale)
 

f (x) = − sin 2 [x ≥ 0]
17 + x

avec le segment initial (a) [0, 1] ; (b) [0, 4], prenant comme résultat le point central du segment
final. Pourquoi les résultats sont-ils différents ?

Exercice 8.3 [Recherche d’or contre le dichotomie] Supposons que le problème (8.4) à résoudre
satisfait l’hypothèse (A) (Section 8.2.2), et que les dérivées de l’objectif sont disponibles. Que
devrait être préféré – la recherche d’or ou la dichotomie ?
Naturellement, la dichotomie a une meilleure convergence (taux 0.5 contre 0.618... pour la
recherche d’or), mais cette comparaison est injuste : la recherche d’or n’utilise pas des dérivés,
et en excluant la partie du code qui calcul f  , on doit économiser du temps de calcul, malgré un
nombre plus grand d’étapes requises dans la recherche d’or pour réaliser la même precision.
La raison réelle de préférer le bisection est que cette méthode est plus stable numériquement.
En effet, supposons que nous devons résoudre (8.4) et toutes les valeurs de f, f  , f  dans [a, b],
mêmes que a et b eux-mêmes, sont des “réels normaux” – ceux de l’ordre de 1. Supposons aussi
que nous cherchons à obtenir le segment d’incertitude final de la longueur . Quelles sont les
valeur de  que nous pouvons obtenir réellement en utilisant les ordinateurs réels avec leurs
erreurs d’arrondie ?
Je vous propose le raisonnement approximatif suivant : pour implementer la recherche d’or,
nous devrions comparer des valeurs de l’objectif sur les étapes finales – aux points à la distance
O() du minimiseur. En ces points, les valeurs de f diffèrent de la valeur optimale (et, par
conséquent, l’un de l’autre) de O(2 ). Afin d’assurer la comparaison correcte des valeurs (et
la comparaison incorrecte rend tous les calculs suivants erronés), l’erreur d’arrondie absolue ∗
de la représentation d’ordinateur d’un nombre de l’ordre de 1 (pour les machines actuelles ∗
de double précision Fortran/C est quelque chose comme 10−16 ) devrait être moins que O(2 ).
Ainsi,√les valeurs de  que nous pouvons atteindre dans la recherche d’or devraient être d’ordre
de O( ∗ ).
Dans la méthode de dichotomie, nous devrions comparer les valeurs de f  à 0 ; si tous les
résultats intermédiaires dans le code qui calcule la dérivée sont de l’ordre de 1, la dérivée est cal-
culée avec l’erreur absolue ≤ c∗ , avec une certaine constante c. Si f  (x∗ ), x∗ étant le minimiseur
de f sur [a, b], est positif de l’ordre de 1 (le minimiseur est numériquement “bien conditionné”),
alors à la distance ≥ C de x∗ les valeurs réelles de f  sont, en valeurs absolues, au moins C  ,
C  étant une certaine constante. Nous voyons que si x se trouve à la distance  de x∗ et  est tel
que C   > c∗ (c.-à-d., la grandeur de f  (x) est plus grande que l’erreur absolue dans le calcul de
f  (x)), alors le signe de f  (x) réellement calculé considéra avec le signe exact de f  (x), et l’étape
de dichotomie sera correcte. Ainsi, dans les conditions ci-dessus, nous pouvons compter √ que la
dichotomie pourra atteindre une precision  = c(C  )−1 ∗ = O(∗ ) (comparez avec O( ∗ ) pour
la recherche d’or).
170 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION

Afin de valider ce raisonnement, j’ai tester la recherche d’or et la dichotomie sur le problème

f (x) = (x + 1)2 → min | −2 ≤ x ≤ 1.

À ma surprise (je suis peu expérimenté dans l’analyse d’erreur !), les deux méthodes ont résolu
le problème avec la précision sur x de O(10−16 ). Après une reflection, j’ai compris ce qui n’allait
pas et pu modifier l’objectif pour observer le phénomène décrit.
Pourriez-vous
a) deviner ce qui ne va pas avec mon exemple ?
b) corriger l’exemple et observez le phénomène ?

Exercice 8.4 [Méthode de Newton] Tester la Méthode de Newton sur les fonctions
1) f (x) = 12 x2 − x − 12 exp{−2x} (point initial 0.5)
2) f (x) = x4 exp{−x/6} (point initial 1.0)
Chapitre 9

Méthode de Descente de Gradient et


Méthode de Newton

Dans cette partie du cours nous étudions des méthodes d’optimisation sans contraintes.

f (x) → min | x ∈ Rn . (9.1)

Nous faisons maintenant une fois pour toutes l’hypothèse suivante :


– (A) l’objectif f dans (9.1) est continûment différentiable ;
– (B) le problème en question est soluble : l’ensemble

X ∗ = Argmin f
Rn

est non vide.

9.1 Descente de Gradient


Cette section est consacrée à la méthode pour résoudre (9.1) la plus ancienne et la plus
largement connue - Descente de Gradient .

9.1.1 L’idée
L’idée de la méthode est très simple. Supposez que nous sommes en un certain point x, et que
nous avons calculé f (x) et ∇f (x). Supposez que x n’est pas un point critique de f : ∇f (x) = 0
(c’est la même chose que dire que x n’est pas un point de Karush-Kuhn-Tucker du problème).
Alors g = −∇f (x) est une direction de descente de f en x :
d
|γ=0 f (x − γ∇f (x)) = −|∇f (x)|2 < 0.

De plus, c’est la meilleure parmi les directions h de descente (normalisées pour avoir la même
longueur que celle de g) de f en x : pour tout h, |h| = |g|, on a
d
|γ=0 f (x + γh) = hT ∇f (x) ≥ −|h||∇f (x)| = −|∇f (x)|2

(par l’inégalité de Cauchy, qui devient égalité si et seulement si h = g).

171
172CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

L’observation indiquée démontre qu’afin d’améliorer x – pour former un nouveau point avec
une plus petite valeur de l’objectif – on peur effectuer un déplacement (pas)
x → x + γg ≡ x − γ∇f (x)
à partir de x dans la direction de l’antigradient ; un tel déplacement avec la longueur de pas γ > 0
correctement choisi assure la décroissance de f . La méthode de Descente de Gradient consiste,
tout simplement, de réitérer ce pas. Ainsi, le schéma générique de la méthode est suivant :
Algorithme 9.1.1 [Descente de Gradient ]
Initialisation : choisir le point initial x0 et mettre t = 1.
Étape t : au début de l’étape t nous avons la précédente itération xt−1 . On
– calcule f (xt−1 ) et ∇f (xt−1 )
– choisit (d’une façon ou d’une autre) un pas positif γt et on pose
xt = xt−1 − γt ∇f (xt−1 ), (9.2)
on remplace t avec t + 1 et on boucle.
Ainsi, la méthode générique de Descente de Gradient est la répétition de (9.2) avec une certaine
règle pour choisir les pas γt > 0 ; normalement, les pas sont donnés par une sorte de recherche
linéaire, appliqué a la fonction univariée
φt (γ) = f (xt−1 − γ∇f (xt−1 )).

9.1.2 Implementations Standards


Les différentes versions de la recherche linéaire résultent dans différentes versions de la
méthode de Descente de Gradient. Parmi ces versions, on devrait mentionner
– DAr [ Descente de Gradient avec la recherche linéaire d’Armijo] : le pas γt > 0 à l’itération
t où ∇f (xt−1 ) = 0 est choisi selon le test d’Armijo (Section 8.2.4) :
f (xt−1 − γt ∇f (xt−1 )) ≤ f (xt−1 ) − γt |∇f (xt−1 )|2 ;
f (xt−1 − ηγt ∇f (xt−1 )) ≥ f (xt−1 ) − ηγt |∇f (xt−1 )|2 , (9.3)
 ∈ (0, 1) et η > 1 sont des paramètres de la méthode. Et si xt−1 est un point critique
de f , c.-à-d., ∇f (xt−1 ) = 0, le choix de γt > 0 n’a absolument aucune importance :
indépendamment de la valeur de γt , (9.2) aura comme conséquence xt = xt−1 .
– PRD [“Steepest Descent” (la Plus Rapide Descente)] : γt minimise f le long du rayon
{xt−1 − γ∇f (xt−1 ) | γ ≥ 0} :
γt ∈ Argmin f (xt−1 − γ∇f (xt−1 )). (9.4)
γ≥0

Évidemment, la Plus Rapide Descente est un genre d’idéalisation : dans des cas non triviaux
nous ne savons pas trouver un minimum exacte de l’objectif le long un rayon. D’ailleurs, pour
rendre cette idéalisation valide, nous devrions supposer que les pas correspondants sont bien
définis, c.-à-d., que
Argmin f (x − γ∇f (x)) = ∅
γ≥0
pour le chaque x ; dans ce qui suit, ceci est supposé “par défaut” toutes les fois que nous parlons
au sujet de la Plus Rapide Descente.
Contrairement à la Plus Rapide Descente, la Descente de Gradient avec la la recherche linéaire
d’Armijo est tout à fait “constructive” – nous savons de la Section 8.2.4 comment trouver un
pas γt qui passe le test d’Armijo.
9.1. DESCENTE DE GRADIENT 173

9.1.3 Convergence de la Descente de Gradient


Théorème General de Convergence
Nous commençons par établir, sous des conditions peut restrictives, la convergence globale
de la Descente de Gradient vers l’ensemble des points critiques de f , c.-à-d. vers l’ensemble :

X ∗∗ = {x ∈ Rn | ∇f (x) = 0}.

Théorème 9.1.1 [Convergence globale de Descente de Gradient] Les méthodes PRD et DAr
vérifient :
(i) si la trajectoire {xt } de la méthode est bornée, alors cette trajectoire possède des points
limites, et tous ces points sont des points critiques de f ;
(ii) si l’ensemble de niveau

S = {x ∈ Rn | f (x) ≤ f (x0 )}

de l’objectif est borné, alors la trajectoire de la méthode est bornée (et, par conséquent, tous ses
points limites, d’après (i), appartiennent à X ∗∗ ).

Preuve : (ii) est une conséquence immédiate de (i), puisque DAr et PRD sont clairement des
méthodes de descente :
xt = xt−1 ⇒ f (xt ) < f (xt−1 ). (9.5)
Par conséquent, la trajectoire, pour chacune des méthodes, est contenue dans l’ensemble S de
niveau ; puisque sous l’hypothèse de (ii) cet ensemble est borné, la trajectoire également est
bornée, selon (ii).
Il nous reste de prouver (i). Ainsi, supposons que la trajectoire {xt } soit bornée, et que
x∗ est un point limite de la trajectoire ; nous devons montrer que ∇f (x∗ ) = 0. Supposons, au
contraire, que ce n’est pas le cas, et menons cette hypothèse à une contradiction. L’idée de ce
qui suit est très simple : comme ∇f (x∗ ) = 0, un pas de la méthode à partir de x∗ doit diminuer
la valeur de f d’une certaine quantité positive δ ; c’est absolument clair de la construction du
pas. Ce qui est très probable (on devrait, naturellement, le prouver, et nous le ferons dans un
instant) que il existe un petit voisinage U de x∗ tels qu’un pas de la méthode à partir d’un
point arbitraire x ∈ U améliore également l’objectif au moins par la quantité positive fixe δ .
Il n’est absolument pas important pour nous ce qui est ce δ , tout ce que nous avons besoin à
savoir que cette quantité est positive et indépendante du choix particulier de x ∈ U . Supposez
que nous avons déjà montré que de tels U et δ existent. Sous cette hypothèse, nous obtenons
immédiatement une contradiction : puisque x∗ est un point limite de la trajectoire, la trajectoire
visite U un nombre infini de fois. Chaque fois qu’elle visite U , le pas correspondant diminue f au
moins de δ > 0, et aucun pas de la méthode n’augmente l’objectif. Ainsi, en cours de la méthode
nous diminuons l’objectif par δ un nombre infini de fois et ne l’augmentons jamais, de sorte
que l’objectif devrait diverger vers −∞ le long de notre trajectoire ; le dernier est impossible,
puisqu’on a assumé que l’objectif est borné inférieurement.
Maintenant il est temps de prouver notre argument principal – celui sur l’existence de U et
de δ nécessaires dans la construction ci-dessus. Je voudrais souligner qu’il y a là quelque chose
à prouver, malgré le fait déjà connu (la propriété de “descente”) que l’objectif est amélioré par
chaque pas à partir d’un point non critique de f (et de tous points assez proches de x∗ non
critique, qui ne sont également pas critiques, puisque ∇f est continu). La difficulté est que le
progrès dans f sur un pas dépend du point à partir du quel nous avons fait le pas ; en principe
174CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

il peut arriver qu’un pas de chaque point d’un voisinage de x∗ améliore l’objectif, mais il n’y
a aucune borne inférieure positive δ pour les améliorations qui soitindépendante du point. Et
dans le raisonnement ci-dessus nous avons besoin en effet du ‘’progrès uniforme” – autrement
il serait possible que les visites consécutives de U par la trajectoire ont comme conséquence
de plus en plus petites améliorations de f , dont la somme est finie. Cette possibilité tuerait le
raisonnement ci-dessus complètement.
Évidemment, de tels U et δ existent. Il suffit le prouver pour DAr seulement – il est
absolument clair que le progrès dans l’objectif sur un pas de PRD soit au moins celui de DAr
, les deux pas étant prises à partir du même point. La preuve pour le cas de DAr est comme
suit :
Puisque f est continûment différentiable et ∇f (x∗ ) = 0, il existent r, P et p positifs tels
que
|x − x∗ | < r ⇒ p ≤ |∇f (x)| ≤ P ;
Pour les mêmes raisons, il existe r ∈ (0, r) tel que nous avons dans le r -voisinage V de x∗ :

|∇f (x ) − ∇f (x )| ≤ ζ ≡ (1 − )P −1 p2 .

Soit U le r /2-voisinage de x∗ . J’affirme que


(*) si x ∈ U , le pas sx donné par la recherche linéaire d’Armijo pour la fonction

φx (s) = f (x − s∇f (x)) [φx (0) = −|∇f (x)|2 ]

est au moins
1  −1 −1
s∗ = rη P .
2
Notez que (*) est tout ce que nous avons besoin. En effet, le progrès dans l’objectif dans la
recherche linéaire d’Armijo pour une fonction φ et ayant pour résultat un pas s au moins
s|φ (0)|. En appliquant cette observation à un pas de DAr pris à partir d’un point x ∈ U
et en utilisant (*), nous venons à la conclusion que le progrès dans l’objectif sur ce pas est
au moins s∗ |∇f (x)|2 ≥ s∗ p2 , et cette dernière quantité (qui est positive et est indépendant
de x ∈ U ) peut nous servir de δ  .
Il nous reste à prouver (*), ce qui est immédiat : en supposant que x ∈ U et sx < s∗ , en
tenant compte de la construction du test d’Armijo, nous obtenons

φx (ηsx ) − φx (0) > ηsx φ (0). (9.6)

Maintenant, comme sx < s∗ , la longueur du segment [x, x − ηsx ∇f (x)] est au plus ηs∗ P ≤
r /2, et puisqu’une extrémité du segment appartient à U , le segment lui-même appartient à
V . En conséquence, la dérivée de f le long du segment change tout au plus de ζ, de sorte
que la dérivée de φ change sur le segment [0, ηsx ] tout au plus de

|∇f (x)|ζ ≤ P ζ = (1 − )p2 .

D’autre part, du théorème de valeur intermédiaire de Lagrange on sait que

φ(ηsx ) − φ(0) = ηsx φ (ξ) ≤ ηsx φ (0) + ηsx (1 − )p2 ;

Ici ξ est un certain point sur le segment [0, ηsx ]. En combinant cette inégalité avec (9.6),
nous obtenons

ηsx (1 − )p2 > −(1 − )ηsx φ (0) ≡ (1 − )ηsx |∇f (x)|2 ≥ (1 − )ηsx p2 ,

qui est une contradiction.


9.1. DESCENTE DE GRADIENT 175

Essayons de bien comprendre la preuve ci-dessus : sa structure est typique pour des preuves
de convergence dans l’optimisation traditionnelle : nous savons à l’avance que le processus itératif
en question possède une certaine fonction de Lyapunov L – qui diminue le long de la trajectoire
du processus et est bornée inférieurement (dans la preuve ci-dessus cette fonction est f elle-
même) ; nous supposons que la trajectoire soit bornée, et que l’ensemble de niveau de la fonction
de Lyapunov, associé à la valeur de la fonction au point initial de la trajectoire est borné
aussi (alors, évidemment, la trajectoire est sûrement bornée – puisque la fonction de Lyapunov
n’augmente jamais le long de la trajectoire, cette dernière ne peut pas quitter l’ensemble de
niveau). Supposez maintenant que les trois entités – (1) la fonction de Lyapunov, (2) notre
processus itératif, et (3) l’ensemble X ∗ qui est l’ensemble de solutions de notre problème – sont
liés par la relation suivante :
(**) si un point de la trajectoire n’appartient pas à X ∗ , alors le pas de processus
à partir de ce point fait décroitre strictement la fonction de Lyapunov
Normalement (**) est évident de la construction du processus et de la fonction de Lyapunov ;
par exemple, dans la preuve ci-dessus où L est l’objectif, le processus est DAr ou PRD et X ∗ est
l’ensemble des points critiques de l’objectif, vous ne devriez pas ouvrer trop dur afin de montrer
que le pas d’un point non critique diminue l’objectif. Maintenant, étant donné tout ceci, nous
sommes intéressés de montrer que la trajectoire du processus converge vers X ∗ ; quel est le point
principal de la preuve ? Naturellement, un équivalent de (*), c.-à-d., “une version localement
uniforme de (**)” – nous devrions montrer qu’un point n’appartenant pas à X ∗ possède un
voisinage tel que chaque fois que la trajectoire visite ce voisinage, le progrès dans la fonction
de Lyapunov sur le pas correspondant est séparé de zéro. Après que nous ayons prouvé ce fait
crucial, nous pouvons immédiatement appliquer le schéma de la preuve ci-dessus pour montrer
que la trajectoire converge vers X ∗ .
J’ai une bonne raison d’investir en explication de la “squelette” de cette preuve de conver-
gence : dorénavant, je sauterai les preuves semblables, puisque je crois que vous avez compris
ce principe général, et les details techniques ne sont pas d’un grand intérêt. J’espère que main-
tenant il devient clair pourquoi dans le test d’Armijo nous avons besoin du plus grand pas (au
facteur η près) qui permet d’obtenir un “progrès significatif” dans l’objectif. Si nous sautons
cette condition “maximale”, nous admettons des pas arbitrairement petits même à partir des
points qui sont loin de l’ensemble des solutions. En conséquence, (*) n’ai plus lieu, et nous serons
incapables d’assurer la convergence du processus (et elle sera en effet perdue).

Points limites de la Descente de Gradient


Nous avons montré que les versions standards de la Descente de Gradient, sous l’hypothèse
que la trajectoire est bornée, convergent vers l’ensemble X ∗∗ des points critiques de l’objectif. Cet
ensemble contient certainement l’ensemble X ∗ de minimiseurs globaux de f , ainsi que l’ensemble
de minimiseurs locaux de l’objectif, mais ce n’est pas tout : X ∗∗ contient également tous les
maximiseurs locaux de f et les points selles de la fonction. Une question importante est si un
point limite de la trajectoire de la descente de gradient peut être quelque chose que ne nous
intéresse pas – un point critique qui n’est pas un minimiseur local de l’objectif. Ce qui peut être
affirmer est le suivant : un maximiseur local x∗ non dégénéré de f (c.-à-d., un point critique de f
tels que f  (x∗ ) est défini négative) ne peut pas être un point limite de la trajectoire de DAr et de
PRD , à l’exclusion du cas quand, justement, x∗ s’avère être un point de la trajectoire ; ceci peut
se produire dans DAr (bien qu’il est “pratiquement impossible”), et il ne se produit jamais dans
PRD , excepté le cas “trivial” (et également “pratiquement impossible”) quand la trajectoire
176CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

commence en x∗ . En parlant “officieusement”, il est “très improbable” qu’un point limite de la


trajectoire est un point selle de l’objectif. Ainsi, de point de vue “pratique”, des points limites
de la trajectoire de la Descente de Gradient sont des minimiseurs locaux de l’objectif.

9.1.4 Vitesses de convergence


Vitesse de convergence globale : cas de C1,1 général
Comme nous le savons déjà, sous l’hypothèse de (ii) du Théorème 9.1.1 (c.-à-d., quand
l’ensemble de niveau S = {x | f (x) ≤ f (x0 )} est borné), les versions de la Descente de Gradient
citées dans le Théorème convergent vers l’ensemble X ∗∗ de points critiques de f . Que peut être
dit au sujet de la vitesse non-asymptotique de convergence ? La réponse dépend de la façon dont
nous mesurons la precision (ou l’imprecision). Si nous employons quelque chose comme

dist(x, X ∗∗ ) = min∗∗ |y − x|
y∈X

d’une solution approximative x à X ∗∗ , il n’y a aucune évaluation non triviale d’efficacité : la


convergence des quantités dist(xt , X ∗∗ ) vers 0 peut être arbitrairement lente, même lorsque f
est convexe. Il y a, cependant, une autre mesure d’exactitude,

f (x) = |∇f (x)|2 ,

bien plus appropriée. Notez que l’ensemble X ∗∗ vers lequel la trajectoire converge est exactement
l’ensemble où f (·) = 0, de sorte que f (x) en effet puisse être vu comme quelque chose qui mesure
le “résidu de l’inclusion x ∈ X ∗∗ ”. Et il s’avère que nous pouvons préciser le taux auquel ce résidu
converge vers 0 :

Proposition 9.1.1 [Vitesse Non-asymptotique de convergence de Descente de Gradient]


Supposons que l’objectif f est une fonction de C1,1 , c.-à-d., il est continûment différentiable avec
le gradient Lipschitzien :

|∇f (x) − ∇f (y)| ≤ Lf |x − y|, ∀x, y ∈ Rn . (9.7)

Alors pour tout entier N > 0 :


(i) Pour la trajectoire {xt } de PRD avec le point du départ x0 nous avons
2Lf
f [t] ≡ min |∇f (xt )|2 ≤ [f (x0 ) − min f ]. (9.8)
0≤t<N N
(ii) Pour la trajectoire {xt } de DAr avec le point du départ x0 nous avons
ηLf
f [t] ≡ min |∇f (xt )|2 ≤ [f (x0 ) − min f ], (9.9)
0≤t<N 2(1 − )N

 ∈ (0, 1), η > 1 étant les paramètres du test d’Armijo.


Preuve :
10 . On commence avec le lemme fondamental suivant :
Lemme 9.1.1 Sous l’hypothèse du Théorème on a
Lf
f (y) ≤ f (x) + (y − x)T ∇f (x) + |y − x|2 , ∀x, y ∈ Rn . (9.10)
2
9.1. DESCENTE DE GRADIENT 177

Preuve du Lemme. Soit φ(γ) = f (x+γ(y −x)). Notez que φ est continûment differentiable
(comme f l’est) et

|φ (α) − φ (β)| = |(y − x)T (∇f (x + α(y − x)) − ∇f (x + β(y − x))| ≤

[par l’inégalité de Cauchy]

≤ |y − x||∇f (x + α(y − x)) − ∇f (x + β(y − x))| ≤

[(9.7)]
≤ |y − x|2 Lf |α − β|.
Ainsi,
|φ (α) − φ (β)| ≤ Lf |y − x|2 |α − β|, ∀α, β ∈ R. (9.11)
Nous avons
# 1
f (y) − f (x) − (y − x)T ∇f (x) = φ(1) − φ(0) − φ (0) = φ (α)dα − φ (0) =
0
# 1
= [φ (α) − φ (0)]dα ≤
0

[cf. (9.11)]
# 1
Lf
≤ |y − x|2 Lf αdα = |y − x|2 ,
0 2
comme requit dans (9.10).
20 . Nous somme en mesure de prouver (i). Par construction de la Plus Rapide Descente,

f (xt ) = min f (xt−1 − γ∇f (xt−1 )) ≤


γ≥0

[par Lemme 9.1.1]



Lf
≤ min f (xt−1 ) + [−γ∇f (xt−1 )]T ∇f (xt−1 ) + |γ∇f (xt−1 )|2 =
γ≥0 2

Lf 2 1
= f (xt−1 ) + |∇f (xt−1 )| min −γ +
2
γ = f (xt−1 ) − |∇f (xt−1 )|2 .
γ≥0 2 2Lf
Ainsi, on arrive à l’inégalité importante :
1
f (xt−1 ) − f (xt ) ≥ |∇f (xt−1 )|2 (9.12)
2Lf

– le progrès dans l’objectif sur un pas de la Plus Rapide Descente est au moins de l’ordre de
la norme carrée du gradient sur l’iteration précédente.
Maintenant, pour conclure la preuve, il suffit de noter que, en raison de la monotonie
de la méthode, le progrès “total” sur l’objectif sur un une suite des pas de la méthode ne
peut pas dépasser l’erreur initial f (x0 ) − min f en valeur de l’objective ; par conséquent, dans
une long suite, il doit y être un pas avec le petit progrès, c.-à-d., avec la petite norme du
gradient. Pour rendre ce raisonnement quantitatif, prenons la somme des inégalités (9.12)
sur t = 1, ..., n, venant à
N −1
1 
|∇f (xt )|2 ≤ f (x0 ) − f (xN ) ≤ f (x0 ) − min f.
2Lf t=0

N
La partie à gauche est ≥ 2Lf min0≤t<N |∇f (xt )|2 , et nous obtenons (9.8).
178CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

30 . La preuve de (ii) est un peu plus compliquée, mais suit la même idée fondamentale : le
progrès sur un pas de DAr peut être petit seulement si le gradient sur l’iteration précédente
est petit, et dans une suite de pas on doit obligatoirement avoir un certain pas sur lequel le
progrès est petit, puisque tout le progrès ne peut pas excéder l’erreur initial.
Décrivons maintenant ce raisonnement quantitatif. Tout d’abord, le progrès dans l’objec-
tif sur l’iteration t de DAr n’est pas trop petit, à condition que γt et |∇f (xt−1 )|2 ne soient
pas trop petits :
f (xt−1 ) − f (xt ) ≥ γt |∇f (xt−1 )|2 . (9.13)
C’est une conséquence immédiate de la première inégalité de (9.3). Deuxièmement, γt n’est
pas trop petit. En effet, par le Lemme 9.1.1 appliqué à x = xt−1 , y = xt−1 − ηγt ∇f (xt−1 )
nous avons
Lf 2 2
f (xt−1 − ηγt ∇f (xt−1 )) ≤ f (xt−1 ) − ηγt |∇f (xt−1 )|2 + η γt |∇f (xt−1 )|2 ,
2
tandis que par la deuxième inégalité de (9.3)

f (xt−1 − ηγt ∇f (xt−1 )) ≥ f (xt−1 ) − ηγt |∇f (xt−1 )|2 .

En combinant ces inégalités, nous obtenons


Lf 2 2
(1 − )ηγt |∇f (xt−1 )|2 ≤ η γt |∇f (xt−1 )|2 .
2
Comme γt > 0, dans le cas ∇f (xt−1 ) = 0 nous obtenons

2(1 − )
γt ≥ ; (9.14)
ηLf

et dans le cas de ∇f (xt−1 ) = 0, comme on se le rappelle, γt peut être choisi de la manière


arbitraire sans influencer la trajectoire (cette derniere de toute façon satisfera xt−1 = xt =
xt+1 = ...), et nous pouvons supposer que γt toujours satisfait (9.14).
En combinant (9.13) et (9.14), nous venons à l’inégalité suivante (comparez à (9.12) :

2(1 − )
f (xt−1 ) − f (xt ) ≥ |∇f (xt−1 )|2 . (9.15)
ηLf

Nous pouvons maintenant accomplir la preuve exactement comme dans le cas de la Plus
Rapide Descente.

Remarque 9.1.1 L’évaluation d’efficacité donnée par la Proposition 9.1.1 donne une borne
supérieure non-asymptotique sous-linéaire de convergence vers 0 des “imprecisions” f (·). Notez,
néanmoins, que c’est une borne sur l’erreur de la le meilleure (avec la plus petite norme du
gradient) iteration produite en cours des N premières étapes de la méthode, pas sur l’erreur
de la derniere itération xN (les quantités |∇f (xt )|2 peuvent osciller, contrairement aux valeurs
f (xt ) de l’objectif).

Vitesse de convergence globale : cas C1,1 convexe


Le Théorème 9.1.1 dit que sous une hypothèse assez faible de régularité, la trajectoire de
DAr et PRD convergent vers l’ensemble X ∗∗ de points critiques de f . Si nous supposons, en
outre, que f est convexe, de sorte que l’ensemble de points critiques de f coincide avec l’ensemble
de minimiseurs globaux de la fonction, nous pouvons affirmer que la trajectoire de la méthode
convergent vers l’ensemble optimal du problème. De plus, dans le cas de l’objectif convexe
9.1. DESCENTE DE GRADIENT 179

C1,1 (voir la Proposition 9.1.1) nous pouvons obtenir des caractérisations non-asymptotiques
d’efficacité en termes de résidus f (xt ) − min f , et sous l’hypothèse supplémentaire disant que
l’objectif est non dégénéré (voir ci-dessous) – aussi en termes de distances |xt − x∗ | de l’iterations
xt à la solution optimale.
Pour simplifier les développements et les rendre plus “pratiques”, dans ce qui suit nous
considérons seulement la version d’Armijo de la Descente de Gradient DAr .

Cas C1,1 convexe :

Proposition 9.1.2 [Vitesse de convergence globale de DAr dans le cas C1,1 convexe]
Soit le paramètre  dans la méthode de DAr ≥ 0.5, et soit f fonction C1,1 convexe avec un
ensemble non vide X ∗ de minimiseurs globaux. Alors
(i) la trajectoire {xt } de DAr converge vers un certain point x∗ ∈ X ∗ ;
(ii) pour chaque N ≥ 1 nous avons

ηLf dist2 (x0 , x∗ )


f (xN ) − min f ≤ , (9.16)
4(1 − )N

où Lf est la constante de Lipschitz de ∇f (·) et

dist(x, X ∗ ) = min∗ |y − x|. (9.17)


y∈X

Preuve.
10 . Soit x∗ un point de X ∗ , regardons comments les distances

d2t = |xt − x∗ |2

varient avec t. Nous avons

d2t = |xt − x∗ |2 ≡ |[xt−1 − γt ∇f (xt−1 )] − x∗ |2 = |[xt−1 − x∗ ] − γt ∇f (xt−1 )|2 =

= |xt−1 − x∗ |2 − 2γt (xt−1 − x∗ )T ∇f (xt−1 ) + γt2 |∇f (xt−1 )|2 . (9.18)


Comme f est convexe, par l’Inégalité de Gradient

f (y) ≥ f (x) + (y − x)T ∇f (x) ∀x, y ∈ Rn

nous obtenons :

(xt−1 − x∗ )T ∇f (xt−1 ) ≥ f (xt−1 ) − f (x∗ ) = f (xt−1 ) − min f.

Cette inégalité, combinée avec (9.18) résulte en


! "
d2t ≤ d2t−1 − γt 2t−1 − γt |∇f (xt−1 )|2 , s ≡ f (xs ) − min f ≥ 0. (9.19)

Selon (9.13), nous avons

1 1
γt |∇f (xt−1 )|2 ≤ [f (xt−1 ) − f (xt )] = [t−1 − t ].
 
En combinant la dernière inégalité avec (9.19), nous obtenons
! "
d2t ≤ d2t−1 − γt (2 − −1 )t−1 + −1 t . (9.20)
180CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Comme, par notre hypothèse de départ, 1/2 ≤ , et, clairement, s ≥ 0, la quantité entre les
parenthèses dans la partie droite est non négative. Nous savons aussi de (9.14) que

2(1 − )
γt ≥ γ̄ = ,
ηLf

ainsi par (9.20) nous obtenons


! "
d2t ≤ d2t−1 − γ̄ (2 − −1 )t−1 + −1 t . (9.21)

On en déduit que
(*) Les distances entre les points xt et un point (quelconque) x∗ ∈ X ∗ n’augmentent pas
avec t. Et, en particulier, la trajectoire de la méthode est bornée.
De (*) il en suit immédiatement que {xt } converge vers un certain point x̄∗ ∈ X ∗ , comme
c’est affirmé dans (i). En effet, par le Théorème 9.1.1 la trajectoire, étant bornée, a tous ses
points limites dans l’ensemble X ∗∗ de points critiques de f , ou, ce qui est identique (f est
convexe !), dans l’ensemble X ∗ de minimiseurs globaux de f . Soit x̄∗ un de ces points limites,
et montrons qu’en fait {xt } converge vers x̄∗ . Pour cela notez que 0 est un point limite de la
suite non-croissante |xt − x̄∗ | ; par conséquent, la suite converge vers 0, de sorte que xt → x̄∗
quand t → ∞.
Il nous reste à verifier (9.16). En prenant la somme d’inégalités (9.21) entre t = 1 et
t = N , nous obtenons
! "
N γ̄ (2 − −1 )t−1 + −1 t ≤ d20 − d2N ≤ d20 ≡ |x0 − x∗ |2 .

Comme 0 ≥ 1 ≥ 2 ≥ ... (notre méthode est celle de descente – elle n’augmente jamais les
valeurs de l’objectif !), le côté gauche dans la dernière inégalité ne sera que plus petit si nous
remplaçons tout les t avec N ; ainsi, nous avons

2N γ̄N ≤ |x0 − x∗ |2 . (9.22)

Et en substituant l’expression pour γ̄,

ηLf |x0 − x∗ |2
N ≤ .
4(1 − )N

Comme cette dernière inégalité reste valide pour tout x∗ ∈ X ∗ , ceci implique (9.16).

Cas C1,1 fortement convexe. Dans la Proposition 9.1.2 nous traitons le cas de la fonction
f régulière et convexe, mais on n’a fait aucune hypothèse sur le conditionnement du minimum
– le minimiseur pourrait être non-unique, et le graphe de f pourrait être très “plat” autour de
X ∗ . Sous condition supplémentaire de convexité forte de f nous pouvons obtenir des résultats
de convergence bien meilleurs. Nous avons la definition suivante :

Définition 9.1.1 [Fonctions fortement convexes] Une fonction f : Rn → R s’appelle fortement


convexe avec les paramètres (lf , Lf ) de convexité forte, 0 < lf ≤ Lf ≤ ∞, si f est continûment
differentiable et satisfait les inégalités
lf Lf
f (x)+(y−x)T ∇f (x)+ |y−x|2 ≤ f (y) ≤ f (x)+(y−x)T ∇f (x)+ |y−x|2 , ∀x, y ∈ Rn . (9.23)
2 2
Dans l’optimisation “traditionnelle” les fonctions fortement convexes jouent le rôle des “bons”
objectifs, et c’est la famille sur laquelle l’analyse théorique de convergence des méthodes d’opti-
misation habituellement est fait. Il est important de savoir comment détecter la convexité forte
9.1. DESCENTE DE GRADIENT 181

et quelles sont les propriétés fondamentales des fonctions fortement convexes ; c’est la tache que
nous intéresse maintenant.
La condition suffisant la plus utile plus de la convexité forte est donné par la proposition
suivante :
Proposition 9.1.3 [Critère de la convexité forte pour des fonctions deux fois continûment
différentiables]
Soit f : Rn → R une fonction deux fois continûment différentiable, et soit (lf , Lf ), 0 < lf ≤
Lf < ∞, deux réels donnés. f est fortement convexe avec les paramètres lf , Lf si et seulement
si le spectre de la matrice d’Hessian de f en chaque point x ∈ Rn est contenu dans le segment
[lf , Lf ] :
lf ≤ λmin (∇2 f (x)) ≤ λmax (∇2 f (x)) ≤ Lf ∀x ∈ Rn , (9.24)
où λmin (A), λmax (A) est, respectivement, la plus petite et la plus grande valeur propre de la
matrice symétrique A and ∇2 f (x) est l’Hessian (la matrice de dérivées secondes) de f en x.

Exemple 9.1.1 La forme quadratique convexe


1 T
f (x) = x Ax − bT x + c,
2
A étant une matrice symétrique positive définie, est fortement convexe avec les paramètres lf =
λmin (A), Lf = λmax (A).

Voici les propriétés les plus importantes (pour nous) de fonctions fortement convexes :
Proposition 9.1.4 Soit f fortement convexe avec les paramètres (lf , Lf ). Alors
(i) Les ensembles de niveau {x | f (x) ≤ a} de f sont compactes pour tout réel a ;
(ii) f attaint son minimum global sur Rn , et son minimiseur x∗ est unique ;
(iii) ∇f (x) est Lipschitzien avec la constante de Lipschitz Lf .
Maintenant nous revenons à la Descente de Gradient. La proposition suivante indique que
pour un f fortement convexe la méthode converge linéairement :
Proposition 9.1.5 [Convergence linéaire de DAr appliqué à la fonction f fortement convexe]
Soit une fonction f fortement convexe, avec les paramètres (lf , Lf ). Pour minimiser f on utilise
la méthode DAr , initialisée en un certain point x0 , et soit le paramètre  du test d’Armijo
≥ 1/2. Alors, pour tout entier N ≥ 1, nous avons
$
∗ ∗ Qf − (2 − −1 )(1 − )η −1
|xN − x | ≤ θ |x0 − x |,
N
θ= , (9.25)
Qf + (−1 − 1)η −1

où x∗ est le minimiseur (unique, selon la Proposition 9.1.4.(ii)) de f et


Lf
Qf = (9.26)
lf
est le conditionnement de f .
De plus,
f (xN ) − min f ≤ θ 2N Qf [f (x0 ) − min f ]. (9.27)
Ainsi, la méthode possède une vitesse globale linéaire de convergence avec le taux θ (notez que
θ ∈ (0, 1) grâce à  ∈ [1/2, 1)).
182CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Preuve.
10 . Selon la Proposition 9.1.4, f est une fonction C1,1 convexe qui atteint son minimum, et le
gradient de f est Lipschitzien avec la constante Lf . En conséquence, toutes les conclusions
de la preuve de la Proposition 9.1.2 sont valides, en particulier, la relation (9.20) :

! " 2(1 − )
d2t ≡ |xt −x∗ |2 ≤ d2t−1 − γ̄ (2 − −1 )t−1 + −1 t , γ̄ = , s = f (xs )−min f. (9.28)
ηLf

En appliquant (9.23) au couple (x = x∗ , y = xs ), nous obtenons (car ∇f (x∗ ) = 0)

lf lf
s ≥ |xs − x∗ |2 = d2s ;
2 2
ainsi, grâce à (9.28),
γ̄lf ! "
d2t ≤ d2t−1 − (2 − −1 )d2t−1 + −1 d2t ,
2
ou, en substituant l’expression pour γ̄,

d2t ≤ θ2 d2t−1 , (9.29)

avec θ donné par (9.25), d’ou (9.25).


Il nous reste à prover (9.27). Pour cela il suffit de noter que, due à la première inégalité
dans (9.23), appliquée à x = x∗ , y = x0 , nous avons

2 2
|x0 − x∗ |2 ≤ [f (x0 ) − f (x∗ )] = [f (x0 ) − min f ], (9.30)
lf lf

tandis que la seconde inégalité dans (9.23), appliquée à x = x∗ , y = xN nous dit que

Lf
f (xN ) − min f ≡ f (xN ) − f (x∗ ) ≤ |xN − x∗ |2 .
2
En conséquence,
Lf
f (xN ) − min f ≤ |xN − x∗ |2 ≤
2
[cf. (9.25)]
Lf 2N
≤ θ |x0 − x∗ |2 ≤
2
[cf. (9.30)]
Lf 2N
≤ θ [f (x0 ) − min f ],
lf
comme requis dans (9.27).

Vitesse de convergence globale dans le cas C1,1 convexe : le résumé. Les résultats
donnés par Propositions 9.1.2 et 9.1.5 peuvent être récapitulés de façon suivante. Supposez que
nous résolvons
f (x) → min
avec l’objectif C1,1 convexe (c.-à-d., ∇f (x) est un champ de vecteur Lipschitzien), tel que l’en-
semble X ∗ de minimiseurs globaux de f est non vide. Supposez de plus que pour minimiser f
nous utilisons la méthode DAr avec le paramètre  correctement choisi, à savoir, 1/2 ≤  < 1.
Alors
9.1. DESCENTE DE GRADIENT 183

– A. Dans le cas général, où on n’impose aucune convexité forte de f , la trajectoire {xt } de la
méthode converge vers certain x̄∗ ∈ X ∗ , et les résidus en termes d’objectif – les quantités
n = f (xN ) − min f – convergent vers zéro au moins comme O(1/N ). Autrement dit, nous
avons l’estimation
ηLf dist2 (x0 , X ∗ ) 1
N ≤ . (9.31)
4(1 − ) N
Notez que
– aucun résultat quantitatif sur la vitesse de convergence des distances |xn − x̄∗ | ne peut
être donnée ; tout ce que nous savons, c’est que ces quantités convergent vers 0, mais la
convergence peut être aussi lente qu’on veut. C.-à-d., étant donné une suite décroissant
arbitraire {dt }, qui converge vers 0, on peut exhiber une fonction C1,1 convexe f sur le
plan 2D tels que dist(x0 , x∗ ) = d0 et dist(xt , x∗ ) ≥ dt pour tout t ;
– l’estimation (9.31) donne un ordre correct de la vitesse convergence vers 0 des erreurs
en termes d’objectif : pour la fonction C1,1 convexe correctement choisie f sur le plan
2D, on a
α
N ≥ , N = 1, 2, ...
N
avec un certain α positif.
– B. Si f est fortement convexe avec les paramètres (lf , Lf ), alors la méthode converge
linéairement :
|xN − x∗ | ≤ θ N |x0 − x∗ |, f (xN ) − min f ≤ Qf θ 2N [f (x0 ) − min f ],
$
Qf − (2 − −1 )(1 − )η −1
θ= , (9.32)
Qf + (−1 − 1)η −1
Qf = Lf /lf étant le conditionnement de f .
Notez que le taux de convergence θ (ou θ 2 , selon la mesure de precision – la distance de l’iteration
xt à l’ensemble optimal ou le résidu f (xt ) − f ∗ en termes d’objectif – que nous employons) tend
vers 1 quand le conditionnement du problème tend vers l’infini (on dit, quand le problème devient
mal conditionné). Quand Qf est grand, nous avons,
θ ≈ 1 − pQ−1 −1
f , p = (1 − )η , (9.33)
de sorte que pour baisser la borne supérieure (9.32) sur |x· − x∗ | par un facteur constant, par
exemple, par le facteur 10 (un chiffre supplémentaire dans l’écriture décimale de x∗ ), il nous faut
O(Qf ) itérations de la méthode. En d’autres termes, (9.32) nous dit que
(**) le nombre d’itérations de la méthode ayant pour résultat le progrès dans la précision donné
à l’avance (c.-à-d., diminuer la distance initiale de l’ensemble optimal par un facteur donné, par
exemple, 106 ), est proportionnel au conditionnement Qf de l’objectif.
Évidemment, cette conclusion est obtenue à partir de la boirne supérieure de l’erreur ; il se
peut que nos bornes supérieures “sous-estiment” la precision “réelle” de la méthode. Il s’avère,
pourtant, que nos bornes sont assez justes, et notre conclusion est valide :
le nombre d’itérations de la Descente de Gradient requis pour réduire l’erreur
initiale (mesurée comme distance de l’ensemble optimal ou comme résidu en termes
d’objectif) par un facteur donné est, en général, proportionnel au conditionnement
de f .
Pour justifier cette affirmation, regardons ce qui se produit dans le cas de l’objectif quadra-
tique.
184CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

Vitesse de convergence dans le cas quadratique


Nous considérons maintenant la Descente de Gradient appliquée au cas d’un objectif qua-
dratique fortement convexe
1
f (x) = xT Ax − bT x + c.
2
A étant une matrice symétrique positive définie. Comme nous le savons de l’exemple 9.1.1, f
est fortement convexe avec les paramètres lf = λmin (A), Lf = λmax (A) (les valeurs propres
minimale et maximale de A, respectivement).
Il est plus facile d’étudier la Plus Rapide Descente, plutôt que la descente d’Armijo (dans le
dernier cas que nos considérations souffriraient de l’incertitude dans le choix de longueurs des
pas).
Nous avons les relations suivantes :
– Le gradient de la fonction f est donné par la relation
g(x) ≡ ∇f (x) = Ax − b; (9.34)
en particulier, le minimiseur unique x∗ de f est donné par (la règle de Fermat)
Ax∗ = b. (9.35)
Notez aussi que, comme on le voit d’une ligne de calculs,
1
f (x) = E(x) + f (x∗ ), E(x) = (x − x∗ )T A(x − x∗ ); (9.36)
2
notez que E(·) n’est rien d’autre que l’erreur en termes d’objectif.
– La trajectoire de la Plus Rapide Descente est donnée par la récurrence
xt+1 = xt − γt+1 gt , gt ≡ g(xt ) ≡ ∇f (xt ) = Axt − b = A(xt − x∗ ), (9.37)
où γt+1 est le minimiseur de la fonction quadratique fortement convexe φ(γ) = f (xt − γgt )
de variable réelle γ. La solution de l’équation φ (γ) = 0 est
gtT gt
γt+1 = ; (9.38)
gtT Agt
ainsi, (9.37) devient
gtT gt
xt+1 = xt − gt . (9.39)
gtT Agt
– Les calculs explicites donnent 1)
% &
(gtT gt )2
E(xt+1 ) = 1− T E(xt ). (9.40)
[gt Agt ][gtT A−1 gt ]
1. Voici ces calculs : comme φ(γ) est une forme quadratique convexe et γt+1 est son minimiseur, nous avons
1 2
φ(0) = φ(γt+1 ) + γ φ ;
2 t+1
grâce à l’origine de φ, nous obtenons φ = gtT Agt , d’où
1 2
E(xt ) − E(xt+1 ) ≡ f (xt ) − f (xt+1 ) ≡ φ(0) − φ(γt+1 ) = γt+1 [gtT Agt ],
2
ou, due à (9.38),
(gtT gt )2
E(xt ) − E(xt+1 ) = .
2gtT Agt
9.1. DESCENTE DE GRADIENT 185

Maintenant nous pouvons obtenir le taux de convergence de la méthode en utilisant le lemme


suivant :

Lemme 9.1.2 [Kantorovich] Soit A une matrice symétrique définie positive avec le condition-
nement (le rapport entre la plus grande et plus petite valeurs propres) Q. Alors pour n’importe
quel vecteur non nul x on a
(xT x)2 4Q
≥ .
[x Ax][xT A−1 x]
T (1 + Q)2
Preuve. De l’algèbre linéaire on sait qu’une matrice symétrique A n × n est équivalente
à une matrice diagonale S (c.-à-d., A = U SU T avec une matrice U orthogonale), des valeurs
propres λ1 ≤ λ2 ≤ ... ≤ λn de A étant les entrées diagonales de S. En notant y = U T x, nous
voyons que le côté gauche dans l’inégalité en question est

( i yi2 )2
  . (9.41)
( i λi yi2 )( i λ−1 2
i yi )

Cette quantité demeure inchangée si tous les yi ’s sont multipliés par  un facteur non nul
commun ; ainsi, sans perte de généralité nous pouvons supposer que i yi2 = 1. De plus, la
quantité en question ne change pas si tous les λi ’s sont multipliés par un facteur positif com-
mun ; ainsi, nous pouvons supposer que λ1 = 1, de façon que λn = Q soit le conditionnement
de la matrice
A. Et si on pose ai −1 = yi2 , nous devons montrer que
si u = a λ
i i i , v = a λ
i i i , où 0 ≤ a i , i ai = 1, and 1 ≤ λi ≤ Q, alors uv ≤
(1 + Q)2 /(4Q).
C’est facile : due à son origine, le point (u, v) sur le plan 2D est la combinaison convexe,
avec des coefficients ai , des points Pi = (λi , λ−1 i ) appartenant à l’arc Γ sur le graphe de
la fonction η = 1/ξ. Cette arc correspond au segment [1, Q] des valeurs de ξ (ξ, η sont les
coordonnées sur le plan). En conséquence, (u, v) appartient à l’enveloppe convexe C de Γ.
Cette enveloppe convexe est voici :

P1

Pn

1 Q

Arc Γ et son enveloppe convexe

Au même temps par (9.36), (9.37) on a


1 1 1
E(xt ) = (xt − x∗ )T A(xt − x∗ ) = [A−1 gt ]T A[A−1 gt ] = gtT A−1 gt .
2 2 2
En combinant ces résultats, on arrive à

E(xt ) − E(xt+1 ) (gtT g)2


= T ,
E(xt ) [gt Agt ][gtT A−1 gt ]
comme requis dans (9.40).
186CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

La plus grande, sur (u, v) ∈ C, valeur de produit uv correspond au cas quand (u, v)
appartient au segment [P1 , Pn ] limitant C d’en haut, de sorte que
1−a
uv ≤ max [(a + (1 − a)Q)(a + )];
0≤a≤1 Q

le maximum de l’expression sur le côté droit peut être calculé explicitement (il correspond à
a = 1/2), sa valeur est (Q + 1)2 /(4Q).
En combinant le Lemme 9.1.2 et (9.40), nous venons au résultat suivant :

Proposition 9.1.6 [Taux de convergence pour la Plus Rapide Descente appliquée à la forme
quadratique fortement convexe]
La méthode de la Plus Rapide Descente, utilisée pour minimiser une forme quadratique fortement
convexe f avec le conditionnement Q, converge linéairement avec le taux de convergence au pire
 2
4Q Q−1
1− = , (9.42)
(Q + 1)2 Q+1

notamment, pour tout N on a


 2N
Q−1
f (xN ) − min f ≤ [f (x0 ) − min f ]. (9.43)
Q+1

Notez que la proposition ci-dessus indique que le taux de convergence est au pire (Q − 1)2 (Q +
1)−2 ; le taux réel de convergence dépend du point initial x0 . Il se trouve que (9.43) donne
la description correcte du taux de convergence : pour “presque tous” les points de départ, le
processus converge en effet avec le taux proche de la borne supérieure indiquée. Puisque le taux
de convergence donné par Proposition est 1 − O(1/Q) (cf. (9.33)), la conclusion quantitative
(**) de la sous-section précédente est en effet valide, même dans le cas f quadratique fortement
convexe.

Vitesse de convergence locale de la Plus Rapide Descente. La relation (9.43) est une
estimation non-asymptotique d’efficacité de la méthode de la Plus Rapide Descente dans le
cas quadratique. Dans le cas non-quadratique non-dégénéré la méthode admet une estimation
asymptotique d’efficacité semblable. C.-à-d. qu’on peut montrer le résultat suivant :

Théorème 9.1.2 [Vitesse locale de convergence de la Plus Rapide Descente]


Supposons que la trajectoire {xt } de la Plus Rapide Descente pour f converge vers un point x∗
qui est un minimiseur local non-dégénéré de f , c.-à-d., est tel que f est deux fois continûment
différentiable dans un voisinage de x∗ et l’Hessian ∇2 f (x∗ ) de l’objectif est définie positif en x∗ .
Alors la trajectoire converge vers x∗ linéairement, et le taux de convergence de la suite f (xt )−
f (x∗ ) des résidus en termes d’objectif est au pire
 2
Q−1
,
Q+1

Q étant le conditionnement de ∇2 f (x∗ ) :


 2N
∗ Q−1
(∀ > 0 ∃C < ∞) : f (xN ) − f (x ) ≤ C + , N = 1, 2, ... (9.44)
Q+1
9.1. DESCENTE DE GRADIENT 187

9.1.5 Conclusions
Essayons de récapituler ce que nous avons appris sur la Descente de Gradient. Nous savons
que
– dans le cas général, sous les hypothèses assez faibles de régularité, PRD et DAr convergent
vers l’ensemble des points critiques de l’objectif (voir le Théorème 9.1.1), et il y a une
certaine vitesse garantie (sous-linéaire) de convergence globale en termes de quantités
|∇f (xN )|2 (voir la Proposition 9.1.1) ;
– dans le cas convexe C1,1 , DAr converge vers un minimiseur global de l’objectif (à condi-
tion que un tel minimiseur existe), et il y une certaine vitesse garantie (sous-linéaire) de
convergence globale en termes d’erreur f (xN ) − min f dans la valeur de l’objectif (voir la
Proposition 9.1.2) ;
– dans le cas fortement convexe, DAr converge vers le minimiseur unique de l’objectif, et les
distances au minimiseur et les erreurs en termes d’objectif admettent les bornes supérieures
globales, qui convergent linéairement vers zéro. Le taux de convergence correspondant est
donné par le conditionnement Q de l’objectif (voir la Proposition 9.1.5) et est du type
1 − O(1/Q), de sorte que le nombre d’iteration nécessaire pour diminuer l’erreur initiale
par un facteur donné soit proportionnel à Q (c’est une borne supérieure, mais généralement
elle reflète le comportement réel de la méthode) ;
– La méthode PRD converge linéairement (globalement, dans le cas quadratique, et asymp-
totiquement dans le cas non-quadratique) avec le taux de convergence 1 − O(1/Q), Q
étant le conditionnement de l’Hessian de l’objectif en minimiseur vers lequel la méthode
converge (dans le cas quadratique, naturellement, cet Hessian est simplement la matrice
de notre forme quadratique).
C’est ce que nous savons. Quelles devraient être des conclusions – est-ce une méthode bonne ou
mauvaise ? Comme c’est d’habitude le cas dans l’optimisation numérique, nous ne sommes pas
capable donner une réponse exacte : il y a trop de différents critères à prendre en compte. Nous
sommes pourtant capable d’énumérer des avantages et des inconvénients de la méthode. Une
telle liste nous fournit une sorte d’orientation : quand nous nous savons ce qui sont les points
forts et faibles d’une méthode d’optimisation, étant donnés une application particulière qui nous
intéresse, nous pouvons décider si “les points forts sont assez forts et les points faibles sont assez
faibles” dans le cas en question, ce qui doit nous permettre de choisir la solution mieux adaptée à
la situation. En ce qui concerne la Descente de Gradient, les points forts évidents de la méthode
sont
– une large famille des problèmes pour lesquels nous pouvons garantir la convergence globale
vers un point critique (normalement - à un minimiseur local) de l’objectif ;
– simplicité d’une itération de la méthode : nous avons besoin d’une évaluation simple de ∇f
et un nombre restreint d’évaluations de f (les évaluations de f sont exigées par la recherche
linéaire ; si on emploie DAr avec la recherche linéaire simplifiée, décrite dans la Section
8.2.4, ce nombre est en effet petit). Notez que chaque évaluation de f est accompagnée
par d’un petit nombre (normalement, O(n), n étant la dimension du vecteur de décision)
d’opérations arithmétiques.
Le point de faible le plus important de la méthode est sa vitesse relativement basse de conver-
gence : même dans le cas quadratique fortement convexe, la méthode converge linéairement. Ce
n’est pas si mauvais en soit ; ce qui est en effet très mauvais, est que le taux de convergence est
trop sensible au conditionnement Q de l’objectif. Comme nous le savons, le nombre d’iterations
de la méthode, pour un progrès donné sur la precision, est proportionnel à Q. Et c’est vraiment
188CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

trop mauvais, puisque dans les applications nous rencontrons souvent des problèmes mal condi-
tionnés, avec des conditionnements d’ordre des milliers et des millions ; et si c’est le cas, nous
ne pouvons attendre de rien de bon de la Descente de Gradient, au moins quand ces sont des
solutions de grande précision qui nous intéressent.
Il est utile de comprendre la géométrie qui conditionne le ralentissement de la Descente de
Gradient dans le cas de l’objectif mal conditionné. Considérons le cas de f quadratique fortement
convexe. Les surfaces de niveau
Sδ = {x | f (x) = min f + δ}
de f sont les ellipsoides homothétiques centrés en minimiseur x∗ de f ; les carrés des “demi-axes”
de ces ellipsoides sont inversement proportionnelles aux valeurs propres de A = ∇2 f . En effet,
comme nous savons de (9.36),
1
(x − x∗ )T A(x − x∗ ) + min f,
f (x) =
2
de sorte que en coordonnées orthogonales xi , associées à la base de vecteurs propres de A avec
l’origine placée en x∗ nous avons
1
f (x) = λi x2i + min f,
2 i
où λi sont les valeurs propres de A. En conséquence, l’équation de Sδ en coordonnées indiquées
est 
λi x2i = 2δ.
i
Maintenant, si A est mal conditionnée, les ellipsoides Sδ deviennent un genre de “vallées” – ils
sont relativement étroits dans certaines directions (ceux liées aux plus petites demi-axes d’ellip-
soides) et relativement étendus dans d’autres directions (liées aux plus grandes demi-axes). Le
gradient – qui est orthogonal à la surface de niveau – sur la grande partie de cette surface regarde
“presque à travers la vallée”, et puisque la vallée est étroite, les pas de la méthode s’avèrent être
très courts. En conséquence, la trajectoire de la méthode est une sorte de mouvement en petits
zigzags avec une lente tendance globale vers le minimiseur.
On doit souligner que dans ce cas le problème lui-même n’est pas intrinsèquement mauvais ;
toutes les difficultés viennent du fait que nous relions l’objectif aux coordonnées initiales √ mal
choisies. Sous une transformation linéaire des coordonnées appropriée (passez de xi à yi = λi xi )
l’objectif devient parfaitement conditionné – il devient la somme de carrés des coordonnées,
de sorte que le conditionnement soit égale à 1, et la Descente de Gradient, lancée dans ces
nouvelles coordonnées, ira tout droit sur le minimiseur. Le problème, naturellement, est que la
Descente de Gradient est associé aux coordonnées Euclidiennes initiales, fixées une fois pour
toutes (puisque la notion fondamentale du gradient est une notion Euclidienne : les différentes
structures Euclidiennes ont comme conséquence différents vecteurs de gradient de la même
fonction au même point). Si ces coordonnées initiales sont mal choisies pour un objectif f donné
(de sorte que le conditionnement de f dans ces coordonnées soit grand), la Descente de Gradient
sera lente, bien que si nous étions assez intelligents pour exécuter d’abord une mis à échelle
approprié – une transformation non-orthogonale linéaire des coordonnées – et lancer ensuite la
Descente de Gradient dans ces nouvelles coordonnées, on aurait obtenu une convergence rapide.
Dans le prochain chapitre nous considérerons la célèbre Méthode de Newton qui, dans un sens,
n’est rien d’autre une Descente de Gradient, “mise à échelle localement” de façon optimale, avec
l’échelle qui varie de une iteration à l’autre.
9.2. METHODE DE NEWTON 189

9.2 Méthode de Newton


On continu l’étude de méthodes de minimisation sans contraintes pour le problème

f (x) → min | x ∈ Rn .

Ce qui est à notre ordre du jour est la célèbre Méthode de Newton basée sur le modèle quadra-
tique local de f . Pour pouvoir parler de ce modèle, nous supposons dorénavant que f est deux
fois continûment différentiable.

9.2.1 Version “de base” de la méthode de Newton


L’idée de la méthode est très simple, nous l’avons déjà employé cette idée dans le cas uni-
varié (Chapitre 8). Étant donné la valeur f (x), le gradient ∇f (x) et la matrice d’Hessian
∇2 f (x) de l’objectif en iteration courante x, nous rapprochons f dans le voisinage de x par
son développement de Taylor de second ordre :
1
f (y) ≈ f (x) + (y − x)T ∇f (x) + (y − x)T [∇2 f (x)](y − x)
2
et prenons en tant que prochaine iteration le minimiseur en y de la forme quadratique à droite.
Pour obtenir ce minimiseur, nous dérivons la forme en y et mettons le gradient à 0, ce qui nous
donne l’équation pour y :
[∇2 f (x)](y − x) = −∇f (x).
C’est un système linéaire par rapport à y ; en supposant que la matrice du système (l’Hessian
∇2 f (x)) est inversible, nous pouvons écrire la solution comme

y = x − [∇2 f (x)]−1 ∇f (x).

Dans la version “de base” de méthode de Newton, on applique cette simple itération :
Algorithme 9.2.1 [Méthode de Newton] Étant donné le point de départ x0 , faire

xt = xt−1 − [∇2 f (xt−1 )]−1 ∇f (xt−1 ). (9.45)

La méthode ci-dessus n’est pas nécessairement bien définie (par exemple, que faire quand l’Hes-
sian en xt−1 est singulier ?) Nous adresserons cette difficulté, ainsi que plusieurs autres problèmes
liés à la méthode, plus tard. Notre but en ce moment est d’établir le résultat fondamental sur
la méthode – sa convergence locale quadratique dans le cas non-dégénéré :
Théorème 9.2.1 [Convergence Locale Quadratique de la méthode de Newton dans le cas non-
dégénéré ]
Supposons que f est trois fois continûment différentiable dans un voisinage de x∗ ∈ Rn , et que
x∗ est un minimiseur local non-dégénéré de f , c.-à-d., ∇f (x∗ ) = 0 et la matrice ∇2 f (x∗ ) est
définie positive. Alors la méthode de Newton, étant lancée “assez près de x∗ ”, converge vers x∗
quadratiquement.
Preuve : Soit U un voisinage convexe de x∗ où les dérivés partiels du troisième ordre de f (c.-
à-d., les dérivés partiels du second degré des composants de ∇f ) sont bornées. Par conséquent,
dans ce voisinage,

| − ∇f (y) − ∇2 f (y)(x∗ − y)| ≡ |∇f (x∗ ) − ∇f (y) − ∇2 f (y)(x∗ − y)| ≤ β1 |y − x∗ |2 (9.46)


190CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

avec un certain β1 (nous avons utilisé la borne supérieure standard pour du reste du
développement de Taylor d’ordre 1 pour les composants de ∇f : si g(·) est une fonction scalaire
avec les dérivées secondes bornées dans U , alors

|g(x) − g(y) − ∇g(y)(x − y)| ≤ β|y − x|2

pour un certain β < ∞ 2) et tout x, y ∈ U ).


Puisque ∇2 f (x∗ ) est non singulière et ∇2 f (x) est continu en x = x∗ , il existe un (plus petit)
voisinage U  ⊂ U de x∗ , qu’on supposera une boule centré en x∗ du rayon r > 0, tel que

y ∈ U  ⇒ |[∇2 f (y)]−1 | ≤ β2 (9.47)

pour un certain constant beta2 . Ici et dans ce qui suit, on note |A| la norme d’opérateur de la
matrice A :
|A| = max |Ah|,
|h|≤1

les normes à droite étant les normes Euclidiennes sur les espaces vectoriels correspondants.
Supposez maintenant qu’un certain point xt de la trajectoire de la méthode de Newton pour
f soit assez proche de x∗ , c.-à-d. est tel que
1
xt ∈ U  , U  = {x | |x − x∗ | ≤ ρ ≡ min[ , r]}. (9.48)
2β1 β2
Nous avons
|xt+1 − x∗ | = |xt − x∗ − [∇2 f (xt )]−1 ∇f (xt )| =
 
= |[∇2 f (xt )]−1 ∇2 f (xt )(xt − x∗ ) − ∇f (xt ) | ≤ |[∇2 f (xt )]−1 || − ∇f (xt ) − ∇2 f (xt )(x∗ − xt )| ≤
[by (9.47) and (9.46)]
≤ β1 β2 |xt − x∗ |2 .
Ainsi, on arrive à

xt ∈ U  ⇒ |xt+1 − x∗ | ≤ β1 β2 |xt − x∗ |2 [≤ (β1 β2 |xt − x∗ |)|xt − x∗ | ≤ 0.5|xt − x∗ |] . (9.49)

On observe que la nouvelle itération xt+1 est au moins deux fois plus proche de x∗ que xt et,
par conséquent, xt+1 ∈ U  . Ainsi, une fois le voisinage U  atteint (ceci se produit sûrement si
la trajectoire est commencée dans U  ), la trajectoire ne quite jamais ce voisinage de x∗ , et

|xt+1 − x∗ | ≤ β1 β2 |xt − x∗ |2 ≤ 0.5|xt − x∗ |, t ≥ t̄,

de sorte que la trajectoire converge vers x∗ quadratiquement.


Le théorème ci-dessus établit la convergence rapide – quadratique – locale de la méthode
de Newton vers un minimizer local non-dégénéré de f , ce qui est très bien. En même temps,
nous nous rappelons du Chapitre 8 que même dans le cas univarié et pour l’objectif convexe
et régulier, la méthode de Newton peut diverger si le point initial n’est pas “assez” près du
minimiseur. On en conclue que nous ne pouvons pas compter sur cette méthode sous sa forme
présente dans des calculs réels – ainsi comment pourrions nous savoir que le point de départ
est “assez près” du minimiseur ? Nous voyons que certaines modifications sont nécessaires pour
rendre la méthode globalement convergeante.
2. notez que β est de l’ordre de l’amplitude des dérivées secondes de g dans U
9.3. EXERCICES 191

9.3 Exercices
Exercice 9.1 Montrez que dans la Plus Rapide Descente les directions des deux mouvements
successifs quelconques sont mutuellement orthogonales. Dérivez de ceci que dans le cas 2D toutes
les directions des pas paires sont colinéaires, et ceux des pas impaires sont également colinéaires.

Exercice 9.2 Écrivez le code mettant en oeuvre DAr (ou PRD , selon votre choix) et l’appliquez
aux problèmes suivants :
– Problème de Rosenbrock

f (x) = 100(x2 − x21 )2 + (1 − x1 )2 → min | x = (x1 , x2 ) ∈ R2 ,

avec le point initial x0 = (−1.2, 1).


Le problème de Rosenbrock est un exemple bien connu de test : son point critique unique
est x∗ = (1, 1) (le minimizer global de f ) ; les courbes de niveau de la fonction sont les
vallées en forme de banane, et la fonction est non convexe et plutôt mal conditionnée
– Probleme Quadratique de

fα (x) = x21 + αx22 → min | x = (x1 , x2 ) ∈ R2 .

Testez les valeur suivants de α :

10−1 ; 10−4 ; 10−6

et pour chaque valeur testez les points de départ



(1, 1); ( α, 1); (α, 1).

Combien de temps prend de diviser l’erreur initiale sur en termes de l’objectif par le facteur
de 10 ?
– Problème Quadratique
1
f (x) = xT Ax − bT x, x ∈ R4 ,
2
avec ⎛ ⎞ ⎛ ⎞
0.78 −0.02 −0.12 −0.14 0.76
⎜ −0.02 0.86 −0.04 0.06 ⎟ ⎜ ⎟
A=⎜ ⎟ , b = ⎜ 0.08 ⎟ , x0 = 0.
⎝ −0.12 −0.04 0.72 −0.08 ⎠ ⎝ 1.12 ⎠
−0.14 0.06 −0.08 0.74 0.68
Lancez la méthode jusque’à ce que la norme du gradient sur l’iteration courante soit ≤
10−6 . Est-ce que la convergence est rapide ?
Ceux qui emploient MATLAB ou SCILAB peuvent calculer le spectre de A et comparer la
borne supérieure théorique sur la vitesse de convergence avec la vitesse observée.
– Expérimentations avec la matrice de Hilbert. Soit H (n) la matrice n × n de Hilbert :
1
(H (n) )ij = , i, j = 1, ..., n.
i+j−1
1 n
C’est une matrice symétrique définie positive (car xT H (n) x = 0 ( i=1 xi t
i−1 )2 dt ≥ 0,
l’inégalité étant stricte pour x = 0).
Pour n = 2, 3, 4, 5 réaliser les expériences suivants :
192CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON

– choisissez un vecteur non nul x∗ de dimension n, par exemple, x∗ = (1, ..., 1)T ;
– calculez b = H (n) x∗ ;
– appliquent votre code de Descente de Gradient à la fonction quadratique
1
f (x) = xT H (n) x − bT x,
2
avec le point initial x0 = 0. Notez que x∗ est le minimizer unique de f .
– Terminez la méthode quand vous obtenez |xn − x∗ | ≤ 10−4 , ne lui permettant pas, de
toute façon, de faire plus de 104 iterations.
Quels sont vos conclusions ?
Ceux qui emploient MATLAB ou SCILAB peuvent essayer de calculer le conditionnement de
matrices de Hilbert en question.
Si vous utilisez la méthode DAr , jouez avec les paramètres  et η de la méthode pour obtenir la
meilleure convergence.

Vous aimerez peut-être aussi