Cours d'Optimisation et Analyse Convexe
Cours d'Optimisation et Analyse Convexe
OPTIMISATION
Analyse convexe
Théorie de programmation non-linéaire
Notes de cours
Anatoli Iouditski
http://www-lmc.imag.fr/lmc-sms/Anatoli.Iouditski/teaching/magistere.htm
2
Certaines énoncées du cours (théorèmes, propositions, lemmes, exemples (si ces derniers
∗ +
contiennent des conjectures) sont marquées par des indices où . Les énoncés qui ne sont
pas marquées sont obligatoires : vous devez connaitre le résultat et la preuve. Les énoncés
∗
marquées par sont semi-obligatoires : vous étés supposés connaitre le résultat sans la preuve
(normalement, cette dernière accompagne le résultat), mais il est préférable, bien entendu, de
+
lire également la preuve. Les preuves des conjectures marqués par ne sont pas données dans le
texte ; vous étés supposés d’être capable de les démontrer, et ces résultats font partie d’exercices.
Le sillabus du cours est le suivant :
Objectifs : Introduction à la Théorie de Programmation Non-linéaire et Algorithmes d’Optimisation
Continue.
Durée : 14 semaines, 2 heures par semaine.
Prérequis : : Algèbre Linéaire élémentaire (vecteurs, matrices, espaces Euclidiens) ; connaissances
de base en Analyse (gradients et Hessians de fonctions multi-variées) ; habilité d’écrire un simple code en
Matlab ou Scilab.
Contenu :
1ère Partie. Éléments d’Analyse Convexe et Conditions d’Optimalité
10 semaines
1-2. Ensembles affines et convexes (définitions, propriétés de base, théorèmes de Caratheodory-Radon-
Helley)
3-4. Théorème de séparation des ensembles convexes (Lemme de Farkas, Séparation, Théorème sur
l’alternative, Points extrémaux, Théorème de Krein-Milman dans Rn , structure des ensembles polyhe-
draux, théorie de Programmation Linéaire)
5. Fonctions convexes (définition, caractérisations différentielle, operations que préservent la convexité)
6. Les programmes de Programmation Mathématique et dualité de Lagrange en Programmation
Convexe (Théorème de Dualité en Programmation Convexe avec l’applications à la Programmation Qua-
dratique avec des contraintes linéaires)
7. Conditions d’optimalité en optimisation sans contraintes et avec des contraintes (Règle de Fermat ;
Conditions de Karush-Kuhn-Tucker dans le cas régulier ; conditions d’optimalité nécessaires/suffisantes
de second ordre pour le cas sans contraintes)
2nde Partie. Algorithmes de Programmation Nonlinéaire
4 semaines
8. Minimisation sans contraintes univariée (Méthode de Bi-section, Recherche linéaire)
9. Minimisation sans contraintes multi-variée (Méthode de Descente en Gradient, et Méthode de
Newton).
Table des matières
1 Introduction 7
1.1 Espace linéaire Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.1 Rn : structure linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2 Rn : Structure Euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Combinaisons Linéaires, Sous-espaces Linéaires, Dimension . . . . . . . . . . . . 14
1.2.1 Combinaisons linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.2 Sous-espaces linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3 Générateurs, Ensembles linéairement indépendants, Dimension . . . . . . 17
1.3 Ensembles affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.1 Ensembles affines et Enveloppes affines . . . . . . . . . . . . . . . . . . . 22
1.3.2 Générateurs affines, Ensembles independents affinement, Dimension affine 25
1.4 Description duale des sous-espaces linéaires et d’ensembles affines . . . . . . . . . 28
1.4.1 Ensembles affines et systèmes d’équations linéaires . . . . . . . . . . . . . 29
1.4.2 Structure des simples ensembles affines . . . . . . . . . . . . . . . . . . . . 31
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3
4 TABLE DES MATIERES
5 Fonctions Convexes 95
5.1 Fonctions convexes : premier abord . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.1 Définitions et Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.1.2 Propriétés élémentaires de fonctions convexes . . . . . . . . . . . . . . . . 97
5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ? . . 98
5.2 Comment détecter la convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.1 Opérations préservant la convexité des fonctions . . . . . . . . . . . . . . 99
5.2.2 Critère différentiel de convexité . . . . . . . . . . . . . . . . . . . . . . . . 101
5.3 Inégalité du Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4 Bornitude et la propriété de Lipschitz des fonctions convexes . . . . . . . . . . . 105
5.5 Maximum et minimum de fonctions convexes . . . . . . . . . . . . . . . . . . . . 108
5.6 Exrecices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Introduction
Ce cours traite les concepts de base liés à la théorie et aux algorithmes d’optimisation
pour résoudre des problèmes extrémaux avec un nombre fini de variables – ce qui s’appelle
Programmation Mathématique. Nos objectifs sont
– (A) comprendre quand un point x∗ est une solution du problème de Programmation Non-
linéaire
f (x) → min | gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k,
7
8 CHAPITRE 1. INTRODUCTION
x + y = (x1 + y1 ..., xn + yn ),
et
– la multiplication par des réels, qui met en correspondance à un λ réel et à un vecteur
x = (x1 , ..., xn ) n-dimensionnel un nouveau vecteur n-dimensionnel – le produit de λ et de
x, défini en tant que
λx = (λx1 ..., λxn ).
La structure que nous obtenons – l’ensemble de tous les vecteurs n-dimensionnels avec les deux
opérations qu’on vient de définir – s’appelle l’espace vectoriel réel Rn n-dimensionnel.
Remarque 1.1.1 pour ménager de l’espace, nous notons habituellement un vecteur en arran-
geant ses entrées dans la ligne : x = (x1 , > ..., xn ). On devra se rappeler, cependant, ⎛ que les
⎞
x1
conventions d’Algèbre Linéaire exigent des entrées d’être arrangées en colonne : x = ⎝ .... ⎠.
xn
C’est la seule manière d’être compatible avec les définitions de multiplication de vecteur par une
matrice et d’autres operations d’Algèbre Linéaire.
Essayez SVP de ne pas oublier cette petite contradiction !
Tant que l’addition et la multiplication par des réels sont concernés, “l’arithmétique de la struc-
ture que nous obtenons est absolument semblable à celle des réels. Par exemple (ci-dessous
emploie des lettres latines pour noter les vecteurs n-dimensionnels, et des lettres grecs pour
noter des réels) :
– le vecteur nul 0 = (0, ..., 0) joue le rôle du zero réel :
x+0 =0+x =x
for all x ;
– the à l’opposé −α du réel α (α + (−α) = 0) correspond la négation vectorielle
(x + (−x) = 0) ;
1.1. ESPACE LINEAIRE RN 9
– nous pouvons utiliser les règles standards de manipulation avec des expressions du type
λx + μy + νz + ...
– changer l’ordre :
λx + μy + νz = νz + μy + λx,
– ouvrir les parenthèses :
(λ − μ)(x − y) = λx − λy − μx + μy,
3x + 7y + z − 8x + 3y − z = −5x + 10y,
etc.
Tous ces résultats sont des conséquences immédiates du fait que les règles correspondantes
agissent sur des réels et que notre arithmétique vectoriel est “élément-par-élément” – pour ajou-
ter des vecteurs et pour les multiplier par des réels signifie d’effectuer les opérations semblables
avec leurs entrées. La seule chose que nous “ne savons pas” faire pour le moment est de multiplier
des vecteurs par des vecteurs.
Un étudiant curieux pourrait demander ce qui est la vraie signification des mots
“arithmétique des vecteurs est complètement semblable à l’arithmétique des réels”. La
réponse est suivante : la définition des opérations que nous l’avons présentée implique
immédiatement que les axiomes suivants sont satisfaits :
– Axiomes d’addition :
– associativité : x + (y + z) = (x + y) + z ∀x, y, z ;
– commutativité : x + y = y + x ∀x, y ;
– existence de zéro : il existe un vecteur zéro, noté 0, tel que x + 0 = x ∀x ;
– existence de négation : pour chaque vecteur x, il existe un vecteur, noté −x, tel que
x + (−x) = 0.
– Axiomes de multiplication :
– unitarité : 1 · x = x pour tout x ∈ E ;
– associativité :
λ · (μ · x) = (λμ) · x
pour tous les réels λ, μ et tous les vectors x ;
– Axiomes d’addition-multiplication :
– distributivité par rapport aux réels :
(λ + μ) · x = (λ · x) + (μ · x)
λ · (x + y) = (λ · x) + (λ · y)
Le produit intérieur possède les propriétés fondamentales suivantes qui découlent directement
de la définition :
– bilinéarité, i.e., la linéarité partielle par rapport aux premier et second arguments :
(λx + μy)T z = λ(xT z) + μ(y T z), xT (λy + μz) = λ(xT y) + μ(xT z);
– symétrie :
xT y = y T x;
– positivité :
n
xT x = x2i ≥ 0,
i=1
Notez que dans la dernière relation xi et yj sont les vecteurs n-dimensionnels et pas, comme
avant, les éléments d’un vecteur.
La structure Euclidienne engendre certains concepts importants.
pour tous les vecteurs x, y et tout réel λ. Étant donné un vecteur f ∈ Rn , nous pouvons lui
associer la fonction
f (x) = f T x
1.1. ESPACE LINEAIRE RN 11
x = x1 e1 + ... + xn en . (1.1)
fi = f (ei ), i = 1, ..., n,
sur les vecteurs de base et regardons le vecteur f = (f1 , ..., fn ). Je prétends que ça soit exactement
le vecteur qui “engendre” la forme f (·) :
f (x) = f T x ∀x.
En effet,
n
f (x) = f( x e ) [regardez (1.1)]
n i=1 i i
= x i f (ei ) [dû à la linéarité de f (·)]
i=1
n
= i=1 xi fi [l’origine de fi ]
= T
f x [la definition du produit scalaire]
Ainsi, chaque forme linéaire f (·) est en effet le produit scalaire avec un vecteur fixe. Le fait que
ce vecteur est uniquement défini par la forme est immédiat : si f (x) = f T x = (f )T x pour tous x
alors (f − f )t x = 0 pour tous x ; en substituant x = f − f , nous obtenons (f − f )t (f − f ) = 0,
qui, dû à la positivité du produit scalaire, implique f = f .
Ainsi, le produit scalaire permet d’identifier les formes linéaires sur Rn avec des vecteurs de
l’espace : prenant le produit scalaire d’un vecteur variable avec un vecteur fixe, nous obtenons une
forme linéaire, et chaque forme linéaire peut être obtenue de cette façon d’un vecteur uniquement
défini.
pour ceux qui se rappellent “encore” ce qui est un espace linéaire abstrait j’ajouterait le
suivant. Des formes linéaires sur un espace vectoriel E peuvent être naturellement arrangées
en un espace vectoriel : ajouter deux formes linéaires et multiplier ces formes par des réels
signifie, respectivement, les ajouter et les multiplier par des réels, comme fonctions sur E ; le
résultat encore sera une forme linéaire sur E. Ainsi, chaque espace linéaire E a une “contre-
parties” – l’espace linéaire E ∗ qui consiste en des formes linéaires sur E et appelé l’espace
conjugué E. Les considérations ci-dessus indiquent que le produit scalaire sur Rn permet
d’identifier l’espace Rn avec son conjugué. Proprement parlant, notre identification est iden-
tification des ensembles, pas celui des espaces linéaires. Cependant, on voit immédiatement
qu’en fait l’identification en question préserve des opérations linéaires (l’addition et la mul-
tiplication des formes par des réels correspondent aux mêmes opérations avec les vecteurs
représentant les formes) et est un isomorphisme des espaces linéaires.
La métrique Euclidienne
Des notions très importantes qui arrivent avec la structure Euclidienne sont ceux de
métrique :
12 CHAPITRE 1. INTRODUCTION
La norme Euclidienne possède les trois propriétés suivantes (qui sont par ailleurs des propriétés
caractéristiques de la notion générale d’une “norme sur un espace linéaire”) :
– positivité :
|x| ≥ 0,
où ≥ est = ssi x = 0 ;
– homogénéité :
|λx| = |λ||x|;
– inégalité de triangle :
|x + y| ≤ |x| + |y|.
Les deux premières propriétés découlent immédiatement de la définition ; l’inégalité de triangle
demande une preuve moins triviale, et cette preuve est très instructive : son résultat “collatéral”
est l’inégalité fondamentale de Cauchy
– “la valeur absolue du produit scalaire de deux vecteurs est moins ou égale que le produit des
normes des vecteurs”, avec l’inégalité étant égalité si et seulement si x et y sont colinéaires,
c.-à-d., si x = λy ou y = λx avec un réel λ convenablement choisi.
Étant donné l’inégalité de Cauchy, nous pouvons immédiatement démontrer l’inégalité
de triangle :
On ignore le cas trivial quand x = 0 (dans ce cas-ci l’inégalité de Cauchy est évidente), de
sorte que f soit une forme quadratique de λ avec le principal coefficient positif xT x. En
raison de la positivité du produit scalaire, cette forme est non négative sur l’axe entier, de
sorte que son discriminant
(2xT y)2 − 4(xT x)(y T y)
est non positive, et on arrive à l’inégalité désirée :
dist(xi , x) ≡ |xi − x| → 0, i → ∞;
∀x ∈ U ∃r > 0 : U ⊃ Br (x) ≡ {y | |y − x| ≤ r}
(notez que l’ensemble vide, en accord avec cette définition, est ouvert) ;
– ensemble fermé : un ensemble F ⊂ Rn est appelé fermé, s’il contient des limites de toutes
suites convergeantes d’elements de F :
(notez que l’ensemble vide, en accord avec cette définition, est fermé).
On le voit facilement que les ensembles fermés sont exactement les compléments à les
ouverts.
Notez que la convergence est compatible avec les structures linéaires et Euclidiennes de Rn .
Précisément :
– si deux suite de vecteurs {xi }, {yi } convergent vers x, resp., y, et deux suites de réels {λi }
and {μi } convergent vers λ, resp., μ, alors la suite {λi xi + μi yi } converge, et la limite est
λx + μy. Ainsi, on peut passer à la limite terme-par-terme dans des sommes finies comme
λx + μy + νz + ... ;
– si deux suites {xi } and {yi } de vecteurs convergent vers x, resp., y, alors
Des notions de convergence et des ensembles ouverts/fermés peuvent être associé à n’importe
quel espace métrique, non seulement avec Rn . Cependant, en ce qui concerne ces propriétés Rn
possède la propriété fondamentale suivante :
On le voit facilement que, vice versa, un ensemble compact dans Rn (et en fait, un
compact dans tout espace métrique) est borné et fermé. Autrement dit, Proposition 1.1.1
donne la caractérisation des ensembles compacts dans Rn : ceux-ci sont exactement les
ensembles fermés et bornés.
La propriété exprimée dans Proposition sera extrêmement importante pour nous : la compacité
des sous-ensembles bornés et fermés de notre univers est à la base de la majorité des résultats
que nous sommes sur le point d’obtenir. Notez que c’est une caractéristique très “personnelle”
des espaces Rn comme membres d’une famille beaucoup plus nombreuse d’espaces vectoriels to-
pologiques. Les problèmes d’optimisation dans ces espaces plus vastes sont également d’un grand
intérêt (ils surgissent, par exemple, dans la Commande à temps continue). La théorie de ces
problèmes est beaucoup plus compliquée techniquement que la théorie des problèmes d’optimi-
sation sur Rn , principalement puisqu’il y a des difficultés avec la compacité. Proposition 1.1.1
est la raison principale du fait que nous limitons nos considérations aux espaces de dimension
fini.
x = λ1 x1 + ... + λk xk
est appelé combinaison linéaire des vecteurs x1 , ..., xk avec des coefficients λ1 , ..., λk .
Une définition équivalente, bien évidemment, est : un sous-espace linéaire est un sous-ensemble
non vide de Rn qui contient toutes les combinaisons linéaires de ses éléments.
Par exemple, les sous-ensembles suivants de Rn sont clairement des sous-espaces :
– le sous-ensemble {0} compris du vecteur 0 ;
– Rn entier ;
– l’ensemble de tous les vecteurs avec la première entrée égale à 0.
1.2. COMBINAISONS LINEAIRES, SOUS-ESPACES LINEAIRES, DIMENSION 15
Notez que chaque sous-espace linéaire pour sûr contient zéro (en effet, il est non vide par
définition ; si x ∈ L, alors également par définition, L devrait contenir le vecteur 0x = 0).
Une conséquence immédiate de cette observation insignifiante est celle-ci :
l’intersection L = ∩α Lα d’une famille arbitraire des sous-espaces linéaires de Rn est encore un
sous-espace linéaire
En effet, L n’est pas vide – tous les Lα sont les sous-espaces linéaires et contiennent donc 0, de
sorte que L contienne également 0. Et chaque combinaison linéaire des vecteurs de L est contenue
dans chaque Lα (comme combinaison des vecteurs de Lα ) et, par conséquent, est contenu dans
L de sorte que L soit fermé en ce qui concerne des combinaisons linéaires.
Enveloppe linéaire
Soit X un sous-ensemble non vide arbitraire de Rn . Il existent des sous-espaces linéaires
dans Rn qui contiennent X – par exemple, le Rn entier. En prenant l’intersection de tous ces
sous-espaces, nous obtenons, comme nous savons déjà, un sous-espace linéaire. Ce sous-espace
linéaire s’appelle enveloppe linéaire de X et est noté Lin(X). Par construction, l’eveloppe linéaire
possède les deux propriétés suivantes :
– il contient X ;
– il est le plus petit sous-espace linéaire contenant X : si L est un sous-espace linéaire et
X ⊂ L, alors, également, Lin(X) ⊂ L.
Il est facile à voir quels sont les éléments de l’enveloppe linéaire de X :
Proposition 1.2.1 [Linear span]
Lin(X) = {l’ensemble de toutes combinaisons linéaires de vecteurs de X}.
En effet, toutes les combinaisons linéaires des vecteurs de X devrait appartenir à chaque sous-
espace linéaire L qui contient X, en particulier, à Lin(X). Il reste pour démontrer que chaque
élément de Lin(X) est une combinaison linéaire des vecteurs de X. Pour cela notons par L
l’ensemble de toutes ces combinaisons ; tout ce que nous avons besoin de montrer que L lui-
même est un sous-espace linéaire. En effet, en supposant ceci et en remarquant que X ⊂ L
(comme 1x = x, de sorte que chaque vecteur de X soit une combinaison linéaire triviale des
vecteurs de X), nous pourrions conclure que L ⊃ Lin(X), puisque Lin(X) est le plus petit parmi
des sous-espaces linéaires contenant X.
Il reste à vérifier que L est un sous-espace, c.-à-d., que la combinaison linéaire i λi yi des
combinaisons linéaires yi = j μij xj des vecteurs xj ∈ X est encore une combinaison linéaire
des vecteurs de X, ce qui est évident :
λi μij xj = ( λj μij )xj .
i j j i
Vous êtes invité à prêter l’attention à cette preuve simple et à penser à elle jusqu’à ce que
vous “ sentiez” la construction “en entier” plutôt que comprendre la preuve point par point –
nous emploierons le même raisonnement en parlant des enveloppes convexes.
Si on note par d la valeur commune de ces deux expressions, nous voyons que d ∈ L ∩ M
(en effet, le côté gauche de (1.4) indique que d ∈ L, et le côté droit que d ∈ M ). Ainsi,
la décomposition (ii) en effet est obtenue à partir (i) en ajoutant un vecteur de L ∩ M au
composant dans L et en soustrayant le même vecteur du composant dans M .
Nous voyons que d’une manière générale – quand L ∩ M contient des vecteurs non nul –
les composants de décomposition (1.3) ne sont pas uniquement définis par x. Par contre,
si L ∩ M = {0}, alors les composants xL et xM sont uniquement définis par x.
Dans le dernier cas la somme L + M s’appelle la somme directe ; pour x ∈ L + M , xL est
appelé la projection parallèle à M de x sur L et xM s’appelle la projection parallèle à L
de x sur M . Quand L + M est une somme directe, les projections dépendent linéairement
de x ∈ L + M : quand nous ajoutons/multiplions par des réels les vecteurs projetés, leurs
projections sommes sujets aux mêmes opérations.
par exemple, dans la situation de l’Exemple 1.2.1 la somme LI + LJ est une somme
directe (c.-à-d., LI ∩ LJ = {0}) si et seulement si le seul vecteur x dans Rn avec les indices
des entrées non nul appartenant à I et à J est le vecteur nul ; en d’autres termes, la somme
est directe si et seulement si I ∩ J = ∅. Dans ce cas-ci les projections de x ∈ LI + LJ = LI∪J
sur LI et LJ sont très simples : xLI a les mêmes entrées que x pour i ∈ I et a les entrées
restantes nulles, et de même pour xLJ .
Générateur
On appelé un ensemble X ⊂ L générateur de L, si chaque vecteur de L peut être représenté
comme une combinaison linéaire des vecteurs de X. Ou, ce qui est identique, si L = Lin(X). Dans
ce cas nous disons également que X génére (ou engendre) L et L est est généré (ou engendré)
par X.
Par exemple, (1.1) dit que la collection e1 , ..., en des vecteurs de base canonique de Rn
engendre tout l’espace.
Independence linéaire
Une collection x1 , ..., xk des vecteurs n-dimensionnels s’appele linéairement indépendante, si
chaque combinaison linéaire non triviale (avec au moins un coefficient non nul) des vecteurs est
non nulle :
k
(λ1 , ..., λk ) = 0 ⇒ λi xi = 0.
i=1
Parfois il est plus commode d’exprimer la même propriété sous la forme (équivalente) suivante :
un ensemble de vecteurs x1 , ..., xk est linéairement indépendant si et seulement si la seule com-
binaison linéaire nulle des vecteurs est triviale :
k
λi xi = 0 ⇒ λ1 = ... = λk = 0.
i=1
Par exemple, les vecteurs de la base canonique de Rn sont linéairement indépendants : puisque
les entrées dans le vecteur ni=1 λi ei sont exactement λ1 ..., λn , le vecteur est zéro si et seulement
si tous les coefficients λi sont zéro.
18 CHAPITRE 1. INTRODUCTION
L’essence de la notion de l’indépendance linéaire est donnée par le simple résultat suivant
(qui est en fait une définition équivalente de l’indépendance linéaire) :
+
Corollaire 1.2.1 Soit x1 , ..., xk linéairement independents. Alors les coefficients λi de la com-
binaison linéaire
k
x= λi xi
i=1
Notez que, par définition, un ensemble vide de vecteurs est linéairement indépendant (en effet,
vous ne pouvez pas présenter une combinaison linéaire non triviale des vecteurs de cet ensemble
qui est nulle – vous ne pouvez pas présenter une combinaison linéaire des vecteurs d’un ensemble
vide du tout !)
Dimension
En Algèbre nous avons le résultat fondamental suivant :
Proposition 1.2.3 [Dimension] Soit L (différent de {0}) un sous-espace linéaire non trivial de
Rn . Alors les deux quantités suivantes sont des nombres entiers finis qui sont égaux entre eux :
(i) le nombre minimal des éléments dans les sous-ensembles de L qui engendre L ;
(ii) le nombre maximal des éléments des sous-ensembles finis linéairement indépendants de
L.
La valeur commune de ces deux nombres entiers s’appelle la dimension de L (notation : dim (L)).
désirée, puisque cet ensemble contient plus que dim L vecteurs de L, et ceci est interdit
par Proposition 1.2.3). Si y, x1 , ..., xdim L étaient linéairement dépendants, il existerait une
combinaison linéaire non triviale des vecteurs égale à zéro :
L
dim
λ0 y + λi xi = 0. (1.5)
i=1
Le coefficient λ0 n’est sûrement nul (sinon notre combinaison serait une combinaison linéaire
non triviale nulle de vecteurs x1 , ..., xdim L linéairement indépendant (l’hypothèse)). Comme
λ0 = 0, nous pouvons résoudre (1.5) par rapport à y :
L
dim
y= (−λi /λ0 )xi ,
i=1
Formule de dimension
Nous savons déjà que si L et M sont des sous-espaces linéaires dans Rn , alors leur intersection
L ∩ M et leur somme arithmétique L + M sont des sous-espaces linéaires. Il existe une très
sympathique formule de dimension :
Pour montrer que les vecteurs ci-dessus forment une base dans L + M nous devrions
montrer qu’ils engendrent cet espace et sont linéairement indépendant. Le premier est évident
– les vecteurs en question par construction engendrent L et M et enjambent donc leur somme
L + M . Pour prouver l’indépendance linéaire, supposons que
{ λp fp } + { μq c q } + { νr dr } = 0 (1.7)
p q r
et montrons que dans ce cas tous les coefficients λp , μq , νr sont nuls. En effet, en notant les
sommes entre les parenthèses par sL , sL∩M et sM , respectivement, nous voyons de l’équation
que sL (qui est par sa construction un vecteur dans L) est moins la somme de sL∩M et
sM , lesquels sont tous les deux vecteurs de M . Ainsi, sL appartient à L ∩ M et peut être
donc représenté comme combinaison linéaire de c1 , ..., ck . Maintenant nous obtenons deux
représentations de sL comme combinaison linéaire des vecteurs c1 , ..., ck , f1 , ..., fl−k lesquels,
par construction, forment une base de L : celui donné par la définition de sL et qui n’implique
que les vecteurs f , et l’autre impliquant seulement c. Puisque les vecteurs de la base sont
linéairement indépendant, les coefficients des deux combinaisons sont uniquement définis par
sL (Corollaire 1.2.1) et devraient être identiques. Cela est possible seulement s’ils sont nuls ;
ainsi, tous les λ’s sont nuls et sL = 0. Par le raisonnement semblable, tous les ν’s sont
zéro et sM = 0. Maintenant (1.7) implique que sL∩M = 0, et tous les μ’s sont zéro dû à
l’indépendance linéaire de c1 , ..., ck .
(dans l’Algèbre ils montrent qu’une telle base existe toujours). En effet, si f1 , ..., fk est une base
orthonormale, puis pour x, y ∈ L nous avons
k
xT y = ( i=1 ξi (x)fi )T ( kj=1 ξj (y)fj ) [definition des coordonnées]
k k T
= j=1 ξi (x)ξj (y)fi fj [bilinearity du produit scalaire]
i=1
k
= i=1 ξi (x)ξi (y) [orthonormalité de la base]
= T
ξ (x)ξ(y).
Définition 1.3.1 [Ensemble affine] Un ensemble affine (un plan) M dans Rn est un ensemble
de la forme
M = a + L = {y = a + x | x ∈ L}, (1.8)
où L est un sous-espace linéaire de Rn et a est un vecteur de Rn 2) .
Par exemple, décalant le sous-espace linéaire L qui consiste en les vecteurs avec la première
entrée nulle par un vecteur a = (a1 , ..., an ), nous obtenons l’ensemble M = a + L de tous les
vecteurs x avec x1 = a1 ; selon notre terminologie, c’est un ensemble affine.
2. ) d’après notre convention sur le calcul des ensembles, j’aurais du écrire dans (1.8) {a} + L à la place de
a + L. D’habitude on ignore cette différence et omette les parenthèses en notant le singleton dans les expressions
semblables : nous écrirons a + L au lieu de {a} + L, Rd à la place de R{d}, etc.
1.3. ENSEMBLES AFFINES 23
La question immédiate au sujet de la notion d’un ensemble affine est : quels sont les “degrés
de liberté” dans la décomposition (1.8) – M détermine-t-il a et L ? La réponse est suivante :
Proposition 1.3.1 Le sous-espace linéaire L dans la décomposition (1.8) est uniquement défini
par M et est l’ensemble de toutes les différences des vecteurs de M :
L = M − M = {x − y | x, y ∈ M }. (1.9)
Le vecteur de décalage a n’est pas uniquement défini par M et peut être choisi comme un vecteur
arbitraire de M .
Preuve : commençons par le premier résultat. Un vecteur de M , par définition, est de la forme
a + x, d’où x est un vecteur L. La différence de deux vecteurs a + x, a + x de ce type est
x − x et donc elle appartient à L (puisque x, x ∈ L et L est un sous-espace linéaire). Ainsi,
M − M ⊂ L. Pour obtenir l’inclusion inverse, notez que n’importe quel vecteur x de L est une
différence de deux vecteurs de M , à savoir, des vecteurs a + x et a = a + 0 (rappel que le vecteur
zéro appartient à n’importe quel sous-espace linéaire).
Pour prouver la deuxième conjecture, nous devrions verifier que si M = a + L, alors a ∈ M
et nous avons également M = a + L pour chaque a ∈ M . Le premier fait est évident – depuis
0 ∈ L, nous avons a = a + 0 ∈ M . Pour établir le deuxième, notons d = a − a (ce vecteur
appartient à L car a ∈ M ) remarquons que
a + x = a + x , x = x − d;
quand x parcourt L. Alors, le vecteur à gauche de notre identité parcourt a + L, et, comme x
parcourt L, le vecteur a droite parcourt a + L. Nous en concluons que a + L = a + L.
M = a + (∩α Lα ),
Y que ressemble à celle de l’étendus linéaire (l’enveloppe linear de X est l’ensemble de toutes
les combinaisons linéaires des vecteurs de X) ? Bien sur !
Choisissons un point y0 ∈ Y , et considérons l’ensemble
X = Y − y0 .
Tout ensemble effine contenant Y devrait contenir également y0 et donc, par Proposition 1.3.1,
peut être représenté comme M = y0 + L, L étant un sous-espace linéaire. Il est évident qu’un
ensemble affine M = y0 + L contienne Y si et seulement si le sous-espace L contient X, et que
plus grand est L, le plus grand est M :
L ⊂ L ⇒ M = y 0 + L ⊂ M = y 0 + L .
Ainsi pour trouver le plus petit parmi les ensembles affines contenant Y , il suffit de trouver le
plus petit parmi des sous-espaces linéaires contenant X et de décaler ce dernier sous-espace par
y0 :
Aff(Y ) = y0 + Lin(X) = y0 + Lin(Y − y0 ). (1.10)
On sais ce qui est Lin(Y − y0 ) – un ensemble de toutes combinaisons linéaires de vecteurs de
Y − y0 , et l’élément générique de Lin(Y − y0 ) est
k
x= μi (yi − y0 ) [k peut dépendre de x]
i=1
avec yi ∈ Y et les coefficients réels μi . Il en découle que l’élément générique de Aff(Y ) est
k
k
y = y0 + μi (yi − y0 ) = λi yi ,
i=1 i=0
où
λ0 = 1 − μi , λi = μi , i ≥ 1.
i
On observe qu’un élément générique de Aff(Y ) est une combinaison linéaire des vecteurs de
Y . Notons, cependant, que les coefficients λi dans cette combinaison ne sont pas complètement
arbitraires : leur somme est égale à 1. Les combinaisons linéaires de ce type – avec la somme de
coefficients égale à 1 – ont un nom spécial – elles s’appellent les combinaisons affines.
Nous avons vu que n’importe quel vecteur de Aff(Y ) est une combinaison affine des vecteurs
de Y . Est-ce que l’inverse est vrai, c.-à-d., est-ce que Aff(Y ) contient toute combinaison affine
des vecteurs de Y ? La réponse à cette question est positive. En effet, si
k
y= λi yi
i=1
est une combinaison affine des vecteurs de Y , alors en utilisant l’identité i λi = 1, nous pouvons
l’écrire également comme
k
y = y0 + λi (yi − y0 ),
i=1
y0 étant “le vecteur marqué” que nous avons utilisé dans notre raisonnement précédent, Mais le
vecteur de ce type, comme nous savons déjà, appartient à Aff(Y ). Ainsi, nous venons au suivant
1.3. ENSEMBLES AFFINES 25
Quand Y lui-même est un ensemble affine, il coincide avec son enveloppe affine et la proposition
ci-dessus mène au
Corollaire 1.3.2 Un ensemble affine M est fermé par rapport à la prise des combinaisons
affines de ses membres – n’importe quelle combinaison de ce type est un vecteur de M . Et,
vice versa, un ensemble non vide qui est fermé en par rapport aux combinaisons affines de ses
membres est un ensemble affine.
Générateurs affines
Soit M = a + L ensemble affine. On dit que un sous-ensemble Y de M est générateur affine
de M (on dit aussi que Y engendre M affinement, ou que M et affinement engendré par Y ), si
M = Aff(Y ), ou, ce qui est la même chose dû à Proposition 1.3.2, si tout point de M est une
combinaison affine des points de Y . La conséquence immediate du raisonnement dans la section
précédente est suivante :
Proposition 1.3.3 Soit M = a+L ensemble affine et Y un sous-ensemble de M , et soit y0 ∈ Y .
L’ensemble Y engendre M affinement – M = Aff(Y ) – ssi l’ensemble
X = Y − y0
des vecteur d’un ensemble “affinement independent” de vecteurs y0 , ..., yk soit uniquement définis
par y. Non-unicité impliquerait que
k
k
λi yi = λi yi
i=0 i=0
pour deux vecteurs différents de coefficients λi et λi avec la somme des coefficients égale à 1 ; si
tel est le cas, alors
m
(λi − λi )yi = 0,
i=0
et yi ’s sont linéairement dependent. De plus, il existe leur combinaison nulle non trivial avec la
somme de coefficients nulle (car i (λi − λi ) = i λi − i λi = 1 − 1 = 0). Notre raisonnement
peut être inversé – si il existe une combinaison linéaire non triviale de yi ’s avec la somme nulle
de coefficients qui est nulle, alors les coefficients dans la représentation d’un vecteur par une
combinaison d’affine de yi ’s ne sont pas uniquement définis. Ainsi, afin de nous obtenir à unicité
nous devrions interdire les relations
k
μi y i = 0
i=0
avec des coefficients μi non triviaux dont la somme est nulle.
Définition 1.3.2 [Ensemble affinement indépendant] Une collection y0 , ..., yk de vecteurs n-
dimensionnels est appelée affinement indépendante si il n’existe pas d’une combinaison linéaire
nulle de ces vecteurs que soit non trivial et dont la somme des coefficients soit nulle :
k
k
λi yi = 0, λi = 0 ⇒ λ0 = λ1 = ... = λk = 0.
i=1 i=0
Avec cette definition nous obtenons le résultat complètement similaire au Corollaire 1.2.1 :
Corollaire 1.3.3 Soit y0 , ..., yk affinement indépendants. Alors les coefficients λi d’une combi-
naison affine
k
y= λi yi [ λi = 1]
i=0 i
des vecteurs y0 , ..., yk sont uniquement définis par la valeur y de la combinaison.
La vérification de l’indépendance affine d’un ensemble peut être immédiatement réduite à la
vérification de l’indépendance linéaire de la collection étroitement liée :
Proposition 1.3.4 k + 1 vecteurs y0 , ..., yk sont affinement indépendants si et seulement si les
k vecteurs (y1 − y0 ), (y2 − y0 ), ..., (yk − y0 ) sont linéairement indépendants.
De la dernière proposition il découle, par exemple, que la collection 0, e1 ..., en qui consiste de
l’origine et des vecteurs de base canonique est affinement indépendante. Notez que cette collec-
tion est linéairement dépendante (en tant que toute collection contenant zéro).
Vous devriez identifier de façon définitive la différence entre les deux notions de l’indépendance
que nous discutons : l’indépendance linéaire signifie qu’aucune combinaison linéaire non triviale
des vecteurs ne peut être zéro, tandis que l’indépendance affine signifie qu’aucune combinaison
linéaire non triviale d’une certaine classe restreinte (i.e., avec la somme de coefficients nulle) ne
peut être zéro. Par conséquent, il y a plus d’ensembles affinement indépendants que linéairement
indépendants : un ensemble linéairement indépendant est pour sûr affinement indépendant, mais
l’inverse n’est pas vrai.
1.3. ENSEMBLES AFFINES 27
Proposition 1.3.5 [Dimension affine] Soit M = a + L un ensemble affine dans Rn . Alors les
deux quantités suivantes sont des entiers positifs qui sont égaux :
(i) nombre minimal d’éléments de sous-ensembles de M qui engendre M affinement ;
(ii) nombre maximal d’éléments dans un sous-ensemble de M affinement indépendant.
Cette valeur commune est égale à la dimension dim L de L plus 1.
Par définition, la dimension affine d’un ensemble affine M = a + L est la dimension dim L de
L. Ainsi, si M est de dimension affine k, alors la cardinalité minimale des générateurs affines de
M , mêmes que la cardinalité maximale des sous-ensembles affinement indépendants de M , est
k + 1.
Nous savons déjà que la base canonique e1 , ..., en forme une base de l’espace Rn . Mais quelles sont
les bases affines de Rn ? Selon Théorème 1.3.1.A, on peut choisir comme telle base l’ensemble
e0 , e0 + e1 , ..., e0 + en , e0 étant un vecteur arbitraire.
Coordonnées Barycentriques
Soit M un ensemble affine, et soit y0 , ..., yk soient une base affine de M . Comme la base,
par définition, engendre affinement M , chaque vecteur y de M est une combinaison affine des
vecteurs de la base :
k
k
y= λi yi [ λi = 1],
i=0 i=0
et puisque les vecteurs de la base affine sont affinement indépendants, les coefficients de cette
combinaison sont uniquement définis par y (Corollaire 1.3.3). Ces coefficients s’appellent co-
ordonnées barycentriques de y par rapport à la base affine en question. Contrairement aux
coordonnées habituelles par rapport à une base (linéaire), les coordonnées barycentriques ne
pourraient pas être tout à fait arbitraires : leur somme devrait être égale à 1.
28 CHAPITRE 1. INTRODUCTION
Complément orthogonal
Deux vecteurs x, y ∈ Rn sont orthogonaux, si leur produit scalaire est 0 :
xT y = 0.
Étant donné un sous-ensemble non vide X de Rn , on définit son complément orthogonal X ⊥
comme l’ensemble de tous vecteurs qui sont orthogonaux à tout vecteur de X :
X ⊥ = {y ∈ Rn | y T x = 0 ∀x ∈ X}.
Le complément orthogonal est non vide (il contient zéro) et est clairement fermé par rapport
à l’addition de ses membres et la multiplication par des réels : en raison de la bilinéarité du
produit scalaire que nous avons
y T x = 0, z T x = 0 ∀x ∈ X ⇒ (λy + μz)T x = 0 ∀x ∈ X [∀λ, μ ∈ R].
Autrement dit, le complément orthogonal est un sous-espace linéaire.
Que se passe-t-il si on prend le complément orthogonal deux fois – en passant de X à (X ⊥ )⊥ ?
Tout d’abord, on obtient un sous-espace linéaire. De plus, ce sous-espace contient X (le produit
scalaire est symétrique et chaque élément de X ⊥ est orthogonal à tout x ∈ X, x, à son tour, est
orthogonal à tous les vecteurs de X ⊥ et appartient à (X ⊥ )⊥ ). Ainsi, (X ⊥ )⊥ est un sous-espace
linéaire subspace qui contient X et donc il contient l’enveloppe linéaire Lin(X) de X. Un résultat
utile d’Algèbre Linéaire dit que (X ⊥ )⊥ est exactement Lin(X) :
(∀X ⊂ Rn , X = ∅) : (X ⊥ )⊥ = Lin(X). (1.11)
En particulier, si X est un sous-espace linéaire (X = Lin(X)) alors le “double” complément
orthogonal de X est X lui-même :
X est un sous-espace linéaire ⇒ X = (X ⊥ )⊥ . (1.12)
Dans le dernier cas, il y a également une relation simple entre les dimensions de X et X ⊥ : on
le prouve dans l’algèbre linéaire que la somme de ces dimensions est exactement la dimension n
de l’espace entier :
X est un sous-espace linéaire ⇒ dim X + dim (X ⊥ ) = n. (1.13)
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES29
(aij est j-ème élément de ai ) pour un m et des vecteurs a1 , ..., am proprement choisis.
Par définition d’un sous-espace linéaire, vice versa, l’ensemble de solutions d’un système ho-
mogène des équations linéaires avec n variables est un sous-espace linéaire dans Rn . Une autre
manière de le voir est de noter que l’ensemble de solutions du système (1.15) est exactement le
complément orthogonal de l’ensemble {a1 ..., am }, et le complément orthogonal est toujours un
sous-espace linéaire.
À partir de Proposition 1.4.2 utilisant de ce que nous connaissons déjà sur la dimension nous
pouvons facilement dériver plusieurs conséquences importantes :
– Les systèmes (1.15) qui définissent un sous-espace linéaire donné L sont exactement les
systèmes donnés par les vecteurs a1 , ..., am qui engendre L⊥ 3)
3. ) le raisonnement qui nous a mené jusqu’à Proposition 1.4.2 dit que [a1 , ..., am engendre L⊥ ] ⇒ [(1.15) définit
L] ; maintenant on dit que l’inverse est également vra
30 CHAPITRE 1. INTRODUCTION
– Le plus petit nombre m d’équations dans (1.15) est la dimension de L⊥ , c.-à-d., par (1.13),
est égale à codim L ≡ n − dim L 4)
– Un sous-espace linéaire dans Rn est toujours un ensemble fermé (en effet, l’ensemble de
solutions (1.14) est clairement fermé).
Maintenant, un ensemble affine M est, par définition, un décalage d’un sous-espace linéaire :
M = a + L. Comme nous savons déjà, les vecteurs x de L sont exactement les solutions d’un
certain système homogène d’équations linéaires
aTi x = 0, i = 1, ..., m.
Il est évident qu’en ajoutant à ces vecteurs un vecteur fixe a, on obtient exactement l’ensemble
de solution du système linéaire soluble non homogène
aTi x = bi , i = 1, ..., m,
avec n variables est la somme d’une solution particulière du système et d’ensemble de solutions
du système homogène correspondant (ce dernier est un sous-espace linéaire dans Rn ), i.e., est
un ensemble affine.
ou
a11 x1 + ... + a1n xn = b1
............ (1.18)
ak1 x1 + ... + akn xn = bm
(aij est la j-ème entrée de ai ) avec un m et des vecteurs a1 , ..., am proprement choisis.
Vice versa, l’ensemble de toutes les solutions d’un système soluble d’équations linéaires avec
n variables est un sous-espace affine de Rn .
Le sous-espace linéaire L qui est associé à M est exactement l’ensemble de solutions de la
version homogène (avec la partie droite étant 0) du système (1.17).
4. ) pour rendre ce résultat juste dans le cas extrême quand L = Rn (c.-à-d., quand codim L = 0), nous
ferons dorénavant une convention que un ensemble vide d’équations ou d’inégalités définit, comme l’ensemble de
solutions, l’espace entier
1.4. DESCRIPTION DUALE DES SOUS-ESPACES LINEAIRES ET D’ENSEMBLES AFFINES31
linéaire/ensemble affine, ce qui n’est pas facile du tout à partir de sa description interne 5) . En fait
les deux descriptions sont “complémentaire” entre eux et travaillent parfaitement en parallèle :
ce qui est difficile à voir avec l’une d’entre elles, est clair avec l’autre. L’idée d’employer les
descriptions “interne” et “externe” des entités que nous rencontrons – des sous-espaces linéaires,
ensembles affines, ensembles convexes, problèmes d’optimisation – l’idée générale de dualité –
est, je dirais, la force principale de l’analyse et de l’optimisation convexes, et dans la suite nous
allons rencontrer des différentes réalisations de cette idée fondamentale.
1.5 Exercices
Exercice 1.1 Marquez par ”o” les énoncés qui sont toujours justes, avec ”n” ceux qui pour
sûr sont faux, et par ” ?” – ceux qui sont parfois justes et sont parfois faux, selon les entités y
participant :
– Tout sous-espace linéaire L de Rn contient le vecteur nul
– Tout sous-espace linéaire L de Rn contient un vecteur non nul
– L’union L ∪ M des deux sous-espaces linéaires de Rn est un sous-espace linéaire
– L’ntersection de toute famille de sous-espaces lineaires de Rn est un sous-espace linéaire
– Pour toute paire L, M de sous-espaces linéaires de Rn , dim (L + M ) = dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec L ∩ M = {0}, dim (L + M ) =
dim L + dim M
– Pour toute paire L, M de sous-espaces linéaires avec dim (L + M ) = dim L + dim M nous
avons L ∩ M = {0}
– L’ensemble de vecteurs 3-dimensionnels (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre R3
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) engendre le sous-espace linéaire L =
{x ∈ R3 : x1 + x2 + x3 = 0}
– L’ensemble des vecteurs (1, −1, 0), (0, 1, −1), (−1, 0, 1) est une base du sous-espace linéaire
L = {x ∈ R3 : x1 + x2 + x3 = 0}
– Si L ⊂ M sont deux sous-espace linéaires de Rn , alors dim L ≤ dim M , avec une égalité
ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , then dim Lin(X) ≤ dim Lin(Y ), avec
une égalité ssi X = Y
– Un ensemble affine M dans Rn contient le vecteur nul
– Tout ensemble affine L dans Rn contient un vecteur non nul ;
– L’union L ∪ M des deux ensembles affines dans Rn est un ensemble affine
– L’intersection de toute famille des sous-ensembles affines de Rn est un ensemble affine
– L’ensemble des vecteurs (0, 0, 0), (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement tout
R3
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) engendre affinement L = {x ∈ R3 :
x1 + x2 + x3 = 1}
– L’ensemble des vecteurs (1, 1, −1), (−1, 1, 1), (1, −1, 1) est une base affine de L = {x ∈
R3 : x1 + x2 + x3 = 1}
– Si L ⊂ M sont deux ensembles affines dans Rn , alors la dimension affine de L est ≤ que
celle de M , avec une égalité ssi L = M
– Si X ⊂ Y sont deux ensembles non vides dans Rn , alors la dimension de Aff(X) est ≤
que celle de Aff(Y ), avec une égalité ssi X = Y
dans Rn (2 ≤ m ≤ n) ?
– (D) :
n
(i + j)xj = i2 , i = 1, ..., m
j=1
dans Rn (3 ≤ m ≤ n) ?
Exercice supplémentaire
Exercice 1.5 Soit M un sous-ensemble non vide de Rn . Prouvez que M est un ensemble affine
si et seulement s’il contient, avec tout couple de points x, y ∈ M , la droite
{λx + (1 − λ)y | λ ∈ R}
Les sous-espaces linéaires et les ensembles affines sont “trop simples” pour satisfaire à tous
les besoins d’analyse convexe. Ce qui nous intéresse réellement sont les ensembles convexes dans
Rn .
[x, y] = {z = λx + (1 − λ)y | 0 ≤ λ ≤ 1}
x, y ∈ M, 0 ≤ λ ≤ 1 ⇒ λx + (1 − λ)y ∈ M.
Commentaire : Comme nous savons de la Section 1.4.2, ensemble de tous les combinaisons
affines {z = λx + (1 − λ)y | λ ∈ R} de deux vecteurs donnés est leur enveloppe affine qui est
une droite, à condition que x = y. Quand le paramètre λ de la combinaison est 0, nous obtenons
un des points x, y (notamment, y), et quand λ = 1 – l’autre (x). Et le segment [x, y], en accord
avec l’intuition géométrique, est composé de des combinaisons affines de x, y avec ces extrémités
et toutes les valeurs intermédiaires du paramètre λ.
Notez que par cette définition un ensemble vide est convexe (par convention, ou, plutôt, par
le sens exact de la définition : pour l’ensemble vide, vous ne pouvez pas présenter un contre-
exemple pour prouver qu’il n’est pas convexe).
35
36 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
Exemple 2.1.1 L’ensemble de solution d’un système (peut-être infini) d’inégalités linéaires
aTα x ≤ bα , α ∈ A
M = {x ∈ Rn | aTα x ≤ bα , α ∈ A}
est convexe.
En particulier, l’ensemble de solutions d’un système fini
Ax ≤ b
de m inégalités avec n inconnus (A et une matrice m × n) est convexe ; ce type d’ensemble porte
le nom de polyhedre.
En effet, soit x, y deux solutions du système ; il faut montrer que tout point z = λx + (1 − λy)
avec λ ∈ [0, 1] est aussi une solution du système. Cela est évident car pour tout α ∈ A on a
aTα x ≤ bα
aTα y ≤ bα .
Par consequence, en multipliant les inégalités par les réels non négatif λ et 1 − λ et en faisant la
somme :
λaTα x + (1 − λ)aTα y ≤ λbα + (1 − λ)bα = bα ,
et ce qui est sur la gauche est exactement aTα z.
Remarque 2.1.1 Remarquez que tout ensemble de l’Example 2.1.1 est aussi fermé (pourquoi ?)
Comme nous nous rappelons du cours précédent, tout ensemble affine dans Rn (et en par-
ticulier, tout sous-espace linéaire) est l’ensemble de toutes les solutions à un certain système
d’équations linéaires. Maintenant, un système d’équations linéaires est équivalent à un système
d’inégalités linéaires (vous pouvez d’une manière équivalente représenter une égalité linéaire par
une paire d’inégalités linéaires opposées). Il suit qu’un ensemble affine est un cas particulier d’un
ensemble polyhedral et donc est un ensemble convexe. Naturellement, nous pourrions obtenir
cette conclusion directement : la convexité d’un ensemble signifie qu’il est fermé par rapport aux
certaines combinaisons affines – notamment, les combinaisons des paires de ces éléments avec
les poids non négatifs ; et un ensemble affine est fermé par rapport à toutes les combinaisons
affines de ses éléments (Proposition 1.3.2).
Exemple 2.1.2 [ · -boule] Soit · une norme sur Rn c.-à-d. une fonction réelle sur Rn
qui satisfait les trois propriétés caractéristiques de la norme, mentionnées dans la Section 1.1.2.
Alors la boule unité dans cette norme – l’ensemble
{x ∈ E | x ≤ 1},
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES37
Ces sont réellement des normes (ce qui n’est pas évident au départ). Quand p = 2, nous
obtenons la norme Euclidienne ; bien sur, vous sauriez dessiner la boule Euclidienne. Quand
p = 1, nous obtenons
n
x 1 = |xi |,
i=1
V = {x ∈ Rn | −1 ≤ xi ≤ 1, 1 ≤ i ≤ n}.
{x | (x − a)T Q(x − a) ≤ r 2 }
est convexe.
La façon la plus simple de prouver qu’un ellipsoid est convexe est la suivante : étant
donné une matrice symétrique définie positive Q, on peut lui associer le produit scalaire :
x, y = xT Qy
|x|Q = xT Qx,
est une norme : en montrant que la norme Euclidienne standard est une norme (section 1.1.2),
nous avons employé la bilinéarité, la symétrie et la positivité du produit scalaire standard
seulement, et aucunes autres propriétés spécifiques). On voit maintenant qu’un Q-ellipsoid
n’est qu’une boule dans la norme | · |Q , de sorte que sa convexité soit prouvé dans l’Example
2.1.2.
+
Exemple 2.1.4 [-voisinage d’un ensemble convexe]
Soit M un ensemble convexe dans Rn , et soit > 0. Alors, quelque soit la norme · sur Rn ,
le -voisinage de M , c.-à-d. l’ensemble
est convexe.
où λi sont certains coefficients réels. À partir de cette définition, nous sommes venus à la notion de
combinaison affine – une combinaison linéaire avec la somme de coefficients égale à 1. Maintenant
nous présentons la notion suivante dans le genre : celle de combinaison convexe.
Définition 2.1.2 Une combinaison convexe des vecteurs y1 , ..., ym est leur combinaison affine
avec des coefficients non négatifs. Ou, ce qui est identique, une combinaison linéaire
m
y= λi yi
i=1
Le résultat suivant ressemble à ceux qui nous avons obtenu pour des sous-espaces linéaires et
ensembles affines :
Proposition 2.1.1 Un ensemble M dans Rn est convexe si et seulement s’il est fermé par
rapport à toutes les combinaisons convexes de ses éléments, c.-à-d., si et seulement si n’importe
quelle combinaison convexe des vecteurs de M est encore un vecteur de M .
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES39
Preuve.
partie ”si” (la suffisance) : supposons que M contient toutes les combinaisons convexes des
éléments de M . Alors, avec deux points quelconques x, y ∈ M , M contient également le vecteur
λx + (1 − λ)y pour tout λ ∈ [0, 1], puisque c’est une combinaison convexe de x et y ; ainsi, M
est convexe.
partie ”seulement si” (la nécessité) : supposez que M est convexe ; nous devrions montrer
qu’alors M contient n’importe quelle combinaison convexe
m
(∗) y= λi yi
i=1
y = (1 − λm )z + λm ym
Enveloppe convexe
Comme pour les sous-espaces linéaires et ensemble affines nous avons le fait fondamental
(bien qu’évident) suivant :
Proposition 2.1.2 [Convexité d’intersections] Soit {Mα }α une famille d’ensembles convexes
de Rn . Alors l’intersection
M = ∩α Mα
est convexe.
En effet, si les bouts d’un segment [x, y] appartiennent à M , ils appartient également au chaque
Mα ; en raison de la convexité de Mα , le segment [x, y] lui-même appartient au chaque Mα , et,
par conséquent, à leur intersection, c.-à-d., à M .
Une conséquence immédiate de cette proposition (cf. les résultats analogues pour des sous-
espaces linéaires et ensembles affines dans le Chapitre 1) est comme suit :
Enveloppe linéaire de M est l’ensemble de toutes les combinaisons linéaires des vecteurs de
M , enveloppe affine est l’ensemble de toutes les combinaisons affines des vecteurs de M . Comme
vous devinez,
Proposition 2.1.3 [Enveloppe convexe par combinaisons convexes] Pour M ⊂ Rn non vide :
Preuve : selon la Proposition 2.1.1, tout ensemble convexe contenant M (en particulier,
Conv(M )) contient toutes les combinaisons convexes des vecteurs de M . Il reste a vérifier que
Conv(M ) ne contient rien d’autre. À cet effet il suffit de montrer que l’ensemble de toutes les
combinaisons convexes des vecteurs de M , nous l’appelons M ∗ , lui-même est convexe (en tenant
compte du fait que Conv(M ) est le plus petit ensemble convexe contenant M , nous réalisons
notre but – l’inclusion Conv(M ) ⊂ M ∗ ). Montrer que M ∗ est convexe est la même chose que
de montrer que n’importe quelle combinaison convexe νx + (1 − ν)y de deux points quelconques
x = i λi xi , y = i μi xi de M ∗ – deux combinaisons convexes des vecteurs xi ∈ M – est encore
une combinaison convexe des vecteurs de M . C’est évident :
νx + (1 − ν)y = ν λi xi + (1 − ν) μ i xi = ξ i xi , ξi = νλi + (1 − ν)μi ,
i i i
Un polytope est, par définition, l’enveloppe convexe d’un un ensemble fini non vide dans Rn ,
c.-à-d. l’ensemble de forme
N
Conv({u1 , ..., uN }) = { λi ui | λi ≥ 0, λi = 1}.
i=1 i
Un cas important d’un polytope est le simplex : l’enveloppe convexe de n + 1 points v1 , ..., vn+1
affinement indépendants de Rn :
n+1
n+1
M = Conv({v1 , ..., vn+1 }) = { λi vi | λi ≥ 0, λi = 1};
i=1 i=1
Nous découvrirons sous peu qu’un polytope n’est rien d’autre qu’un ensemble polyhedral
borné, c.-à-d. un ensemble borné donné par un nombre fini d’inégalités linéaires. L’équivalence
de ces deux definitions – interne et externe — d’un polytope est l’un des faits les plus profonds
de l’Analyse Convexe.
Un cone Un sous-ensemble non vide M de Rn s’appelle conique, s’il contient, avec chaque
point x ∈ M , le rayon entier Rx = {tx | t ≥ 0} engendré par le point :
x ∈ M ⇒ tx ∈ M ∀t ≥ 0.
Comme conséquence immédiate, nous obtenons qu’un cône est fermé par rapport aux combinai-
sons linéaires avec des coefficients non négatifs de ces éléments. Et vice versa, un ensemble non
vide fermé par rapport à ces combinaisons est un cône.
+
Exemple 2.1.5 L’ensemble de solutions d’un système homogène (peut-être infini)
aTα x ≤ 0, α ∈ A
K = {x | aTα x ≤ 0 ∀α ∈ A},
est un cône.
En particulier, l’ensemble de solutions d’un système homogène fini de m inégalités linéaires
Ax ≤ 0
(A est une matrice m × n) est un cône ; un cône de ce dernier type s’appelle polyhedral.
Notez note que les cônes donnés par des systèmes d’inégalités homogènes linéaires non strictes
sont nécessairement fermés. Nous verrons bientôt que, vice versa, chaque cône convexe fermé est
l’ensemble de solutions d’un tel système, de sorte que l’Exemple 2.1.5 soit l’exemple générique
d’un cône convexe fermé.
Les cônes forment une famille très importante d’ensembles convexes, et on peut
développer la théorie de cônes absolument semblable (et dans un sens, équivalente) à celle des
ensembles convexes. Par exemple, en introduisant la notion de combinaison conique des vec-
teurs x1 , ..., xk comme combinaison linéaire des vecteurs avec des coefficients non négatifs,
vous pouvez facilement montrer les résultats suivants complètement analogues à ceux qui
concernent les ensembles convexes généraux, avec la combinaison conique jouant le rôle de
la combinaison convexe :
2. ) certains appellent cônes ce que nous appelons ensembles coniques et cônes convexes ce que nous appelons
cônes
42 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
– Un ensemble est un cône si et seulement s’il est non vide et est fermé par rapport à
toutes les combinaisons coniques de ses éléments ;
– L’intersection de n’importe quelle famille des cônes est encore un cône ; en particulier,
pour tout ensemble non vide M ⊂ Rn il existe le plus petit cône contenant M – son
enveloppe conique Cone (M ), et cette enveloppe conique est composé de toutes les
combinaisons coniques des vecteurs de M .
En particulier, l’enveloppe conique d’un ensemble fini non vide M = {u1 , ..., uN } de
vecteurs dans Rn est le cône
N
Cone (M ) = { λi ui | λi ≥ 0, i = 1, ..., N }.
i=1
Un fait fondamental (cf. l’histoire ci-dessus au sujet des polytopes) est que c’est la description
(interne) générique d’un cône polyhedral – d’un ensemble donné par (description externe)
un nombre fini d’inégalités linéaires homogènes.
k
λ1 M1 + ... + λk Mk = { λi xi | xi ∈ Mi , i = 1, ..., k}
i=1
est convexe.
– Prendre l’image par transformation affine : si M ⊂ Rn est convexe et x → A(x) ≡ Ax + b
est une transformation affine de Rn dans Rm (A est une matrice m × n, b est un m-
vecteur), alors l’ensemble
A(M ) = {y = A(x) ≡ Ax + a | x ∈ M }
A−1 (M ) = {y ∈ Rm | A(y) ∈ M }
Fermeture Il est claire de la définition d’un ensemble fermé que l’intersection de n’importe
quelle famille des ensembles fermés dans Rn est également fermée. De ce fait il découle, comme
d’habitude, que pour n’importe quel sous-ensemble M de Rn il existe le plus petit ensemble
fermé contenant M ; cet ensemble s’appelle fermeture de M et est noté cl M . Dans l’analyse ils
démontrent la description (“interne”) suivante de la fermeture d’un ensemble dans un espace
métrique (et, en particulier, dans Rn ) :
La fermeture d’un ensemble M ⊂ Rn est exactement l’ensemble de tous les point limites de
toutes suites convergeantes d’éléments de M .
Maintenant il est facile à démontrer que, par exemple, la fermeture d’une boule Euclidienne
ouverte
{x | |x − a| < r} [r > 0]
est la boule fermée {x | |x − a| ≤ r}. Une autre application utile est l’exemple de fermeture de
l’ensemble
M = {x | aTα x < bα , α ∈ A}
donné par un système strict d’inégalités linéaires : si un tel ensemble n’est pas vide, alors sa
fermeture est donnée par des versions non strictes des mêmes inégalités :
cl M = {x | aTα x ≤ bα , α ∈ A}.
La condition que M soit non vide dans le dernier exemple est essentielle : l’ensemble M
donné par deux inégalités strictes
x < 0, −x < 0
dans R est vide, ainsi que sa fermeture ; par contre, en appliquant formellement la règle
ci-dessus, on aurait la réponse fausse :
cl M = {x | x ≤ 0, x ≥ 0} = {0}.
∃r > 0 Br (x) ≡ {y | |y − x| ≤ r} ⊂ M.
1
x≤ , n = 1, 2, ...
n
44 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
∂M = cl M \ int M
M ⊂ int M ∪ ∂M [= cl M ],
Intérieur relatif. Plusieurs objets qu’on verra dans la suite possèdent des bonnes propriétés
seulement dans l’intérieur de l’ensemble lié à leur construction et peuvent perdre ces propriétés
aux points de frontière de l’ensemble ; c’est pourquoi dans beaucoup de cas nous sommes par-
ticulièrement intéressés par les points intérieurs des ensembles et voulons que l’ensemble de ces
points soit assez “ massif”. Que faire si ce n’est pas le cas, par exemple, s’il n’y a aucun point
intérieur du tout (considérez à un segment dans un plan) ? Il s’avère que dans ces cas nous
pouvons employer un bon substitut de l’intérieur “normal” – intérieur relatif défini comme suit :
Définition 2.1.3 [Intérieur relatif] Soit M ⊂ Rn . Nous disons qu’un point x ∈ M est
relativement intérieur pour M , si M contient l’intersection d’une assez petite boule centrée
en x avec Aff(M ) :
L’ensemble de tous les points relativement intérieurs de M s’appelle son intérieur relatif [nota-
tion : ri M ].
Par exemple l’intérieur relatif d’un singleton est le singleton lui-même (puisqu’un point dans
l’espace 0-dimensional est identique comme boule de n’importe quel rayon positif) ; de même,
l’intérieur relatif d’un ensemble affine est l’ensemble lui-même. L’intérieur d’un segment [x, y]
(x = y) dans Rn est vide dès que n > 1 ; contrairement à ceci, son intérieur relatif est non vide
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES45
indépendamment de n et est l’intervalle (x, y) – le segment avec des points extrémaux supprimés.
Géométriquement parlant, l’intérieur relatif est l’intérieur que nous obtenons en considérant M
comme sous-ensemble de son enveloppe affine (le dernier, géométriquement, n’est rien que Rk ,
k étant la dimension affine de Aff(M )).
Nous pouvons jouer avec la notion de l’intérieur relatif de la même manière qu’avec celle de
l’intérieur, à savoir :
– comme Aff(M ) est fermé (Chapitre 1, Section 1.4.1) et contient M , il contient également
le plus petit parmi les ensembles fermés contenant M , c.-à-d, cl M . Ainsi nous avons les
analogues suivants d’inclusions (2.1) :
– nous pouvons définir frontière relative ∂ri M = cl M \ri M qui est un ensemble fermé
contenu dans Aff(M ), et, comme pour le “vrai” intérieur et la “vraie” frontière, nous
avons
ri M ⊂ M ⊂ cl M = ri M + ∂ri M.
Naturellement, si Aff(M ) = Rn , alors l’intérieur relatif devient l’intérieur habituel, de même
pour la frontière ; ce pour sûr est le cas quand int M = ∅ (car alors M contient une boule B, et
donc l’enveloppe affine de M est le Rn entier, qui est l’enveloppe affine de B).
cl M = cl ri M
(en particulier, chaque point de cl M est la limite d’une suite des points de ri M )
(iv) l’intérieurs relatif reste inchangé quand nous remplaçons M avec sa fermeture cl M :
ri M = ri cl M.
Preuve :
(ii) soit M un ensemble convexe non vide, montrons que ri M = ∅. Il suffit de considérer le
cas quand Aff(M ) est l’espace entier Rn . En effet, par translation de M nous pouvons toujours
46 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
supposer que Aff(M ) contient 0, c.-à-d. est un sous-espace linéaire. Comme nous savons du
chapitre précèdent, un sous-espace linéaire dans Rn , en ce qui concerne les opérations linéaires
et la structure Euclidienne, est équivalent à un certain Rk . Puisque la notion d’intérieur relatif
traite seulement les structures linéaires et Euclidiennes, nous ne perdons rien en identifiant
Aff(M ) à Rk et le prenant en tant que notre univers au lieu de l’univers original Rn . Ainsi, dans
le reste de la preuve (ii) nous supposons que Aff(M ) = Rn , et ce que nous devrions prouver est
que l’intérieur de M (ce qui dans le cas en question est identique à l’intérieur relatif) est non
vide.
Selon Theorem 1.3.1, Aff(M ) = Rn possède une base a0 , ..., an affine qui consiste en des
vecteurs de M . Puisque a0 , ..., an appartiennent à M et M est convexe, l’enveloppe convexe
entière des vecteurs – le simplex Δ avec les sommets a0 , ..., an – est contenue dans M . En
conséquence, un point intérieur du simplex est certainement un point intérieur de M ; ainsi,
afin de montrer que int M = ∅, il suffit de montrer que l’intérieur de Δ est non vide, comme il
devrait être selon l’intuition géométrique.
La preuve du dernier fait est comme suit : comme a0 , ..., an est, par sa construction, une
base affine de Rn , chaque point x ∈ Rn est une combinaison affine des points de la base. Les
coefficients λi = λi (x) de la combinaison – les coordonnées barycentriques de x par rapport à la
base – sont des solutions du système suivant des équations :
n
n
λi ai = x; λi = 1,
i=0 i=0
Par continuité des λi (·), il y a un voisinage de x0 – la boule Br (x0 ) centré en x0 du rayon positif
r - où les fonctions λi sont encore positives :
et la dernière relation signifie que chaque x ∈ Br (x0 ) est une combinaison affine de ai avec des
coefficients positifs, c.-à-d. est une combinaison convexe des vecteurs, et donc x appartient à Δ.
Ainsi, Δ contient un voisinage de x0 , de sorte que x0 soit un point intérieur de Δ.
2.1. DEFINITION, EXEMPLES, DESCRIPTION INTERNE, PROPRIETES ALGEBRIQUES47
(iii) : On doit montrer que la fermeture de ri M est exactement la même que la fermeture de
M . En fait, on va montrer encore plus :
Lemme 2.1.1 Soit x ∈ ri M et y ∈ cl M . Alors tous les points du demi-segment [x, y),
M ⊂ Aff(M ) = x + L.
B = {h ∈ L | h ≤ 1}.
x + rB ⊂ M. (2.4)
Par ailleurs, comme y ∈ cl M , nous avons y ∈ Aff(M ) (voir (2.2)). De plus, pour tout > 0 il
existe y ∈ M tel que |y − y| ≤ ; comme y et y sont dans Aff(M ), le vecteur y − y est dans
L, et donc dans B. Ainsi
(∀ > 0) : y ∈ M + B. (2.5)
Maintenant, soit z ∈ [x, y), alors
z = (1 − λ)x + λy
avec un certain λ ∈ (0, 1). Il nous faut démontrer que z est relativement intérieur pour M , c.-à-d.
que il existe r > 0 tel que
z + r B ⊂ M. (2.6)
Grâce à (2.5), pour tout > 0 nous avons
λ
z+B ≡ (1−λ)x+λy+B ⊂ (1−λ)x+λ[M +B]+B = (1−λ)[x+ B+ B]+λM. (2.7)
1−λ 1−λ
Notons que pour tous t , t non négatifs
(1 + λ)
x+ B ⊂ M,
1−λ
48 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
et on arrive à
z + B ⊂ (1 − λ)M + λM = M
(la dernière égalité est dû à la convexité de M ). Ainsi, z ∈ ri M .
Notre Lemme implique immédiatement (iii). Effectivement, cl ri M ne peut être que plus
petite que cl M : cl ri M ⊂ cl M , de sorte que tout ce que nous avons besoin à montrer est
l’inclusion inverse : cl M ⊂ cl ri M c.-à-d. que chaque point y ∈ cl M est une limite d’une suite
de points de ri M . C’est immédiat : nous pouvons supposer M non vide (autrement, les ensembles
en question sont vides et coincident l’un avec l’autre), de sorte que par (ii) il existe un point
x ∈ ri M . Selon le Lemme, le demi-segment [x, y) appartient à ri M , et y est la limite d’une suite
des points de ce demi-segment, par exemple, de la suite xi = n1 x + (1 − n1 )y.
Une consequence intéressante du Lemme 2.1.1 est suivante :
+
Corollaire 2.1.2 Soit M un ensemble convexe. Alors toute combinaison convexe
λi xi
i
Théorème 2.2.1 [Caratheodory] Soit M ⊂ Rn , et soit dim ConvM = m. Alors tout point
x ∈ ConvM est une combinaison convexe d’au plus m + 1 points de M .
2.2. THEOREMES CLASSIQUES SUR ENSEMBLES CONVEXES 49
Preuve : Soit x ∈ ConvM . Par Proposition 2.1.3 sur la structure de l’enveloppe convexe, x est
une combinaison convexe de certains points x1 , ..., xN de M :
N
N
x= λi xi , [λi ≥ 0, λi = 1].
i=1 i=1
Choisissons parmi toutes ces représentations de x celle avec le plus petit possible nombre N de
coefficients non nuls, et supposons que c’est la combinaison ci-dessus. J’affirme que N ≤ m + 1
(cette affirmation mène au résultat désiré). En effet, si N > m + 1, alors les points x1 , ..., xN
ne sont pas affinement indépendants (puisque n’importe quel ensemble affinement indépendant
dans Aff(M ) ⊃ M est composé d’au plus de dim Aff(M ) + 1 = m + 1 points, cf. Proposition
1.3.5). Ainsi, certaine combinaison non triviale de x1 , ..., xN avec la somme zéro de coefficients
est nulle :
N
N
δi xi = 0, [ δi = 0, (δ1 , ..., δN ) = 0].
i=1 i=1
Il en suit que pour tout t la combinaison affine
N
(∗) [λi + tδi ]xi = x.
i=1
Ici à gauche nous avons une combinaison affine des xi . Quand t = 0, c’est une combinaison
convexe – tous les coefficients sont non négatifs. Quand t est grand, ce n’est pas une combinaison
convexe, puisque certains δi sont négatifs (en effet, pas tous les δi sont zéro, et la somme de δi
est 0). Il existe, évidemment, le plus grand t pour lequel la combinaison (*) a des coefficients
non négatifs, à savoir
λi
t∗ = min .
i:δi <0 |δi |
Pour cette valeur de t, la combinaison (*) a tous les coefficients non négatifs, et au moins un des
coefficients est zéro. Ainsi, nous avons représenté x comme une combinaison convexe de moins
de N vecteurs de M .
Preuve. Comme N > n + 1, les points x1 , ..., xN ne sont pas affinement indépendants (car dans
Rn tout ensemble affinement indépendant contient au plus n + 1 éléments). Ainsi, il existe un
combinaison non triviale de xi égale 0 avec la somme nulle des coefficients :
N
N
λi xi = 0, [ λi = 0, (λ1 , ..., λN ) = 0].
i=1 i=1
50 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
Soit I = {i | λi ≥ 0}, J = {i | λi < 0} ; alors I et J ne sont pas vides et forment une partition
de {1, ..., N }. Nous avons
a≡ λi = (−λj ) > 0
i∈I j∈J
(rappelez-vous que la somme des λi est nulle et tous les λi ne sont pas zéros). Si on pose
λi −λj
αi = , i ∈ I, βj = , j ∈ J,
a a
on obtient
αi ≥ 0, βj ≥ 0, αi = 1, βj = 1,
i∈I j∈J
et ⎛ ⎞
N
−1 ⎝
[ αi xi ] − [ βj xj ] = a [ λi xi ] − [ (−λj )xj ]⎠ = a−1 λi xi = 0.
i∈I j∈J i∈I j∈J i=1
Preuve : montrons le résultat par récurrence en nombre N d’ensembles dans la famille. Le cas
de N ≤ n + 1 est évident. Supposons maintenant que nous avons prouvé le théorème pour toutes
les familles avec un certain nombre N ≥ n + 1 d’ensembles, et soit S1 , ..., SN , SN +1 une famille
de N + 1 ensembles convexes qui satisfait les conditions du Théorème de Helley ; nous devrions
montrer que l’intersection des ensembles S1 , ..., SN , SN +1 est non vide.
En supprimant de notre famille de N +1 ensembles l’ensemble Si , nous obtenons la famille de
N ensemble qui satisfait les conditions du Théorème de Helley et ainsi, par l’hypothèse inductive,
possède une intersection non vide de ses membres :
∗
Théorème 2.2.4 [Helley, II] Soit F une famille d’ensembles convexes dans Rn . Suppo-
sons que
(a) tous les n + 1 ensembles de la famille on un point commun,
et
(b) chaque ensemble de la famille est fermé, et l’intersection des ensembles d’une certaine
sous-famille finie est bornée (par exemple, un des ensembles dans la famille est borné).
Alors tous les ensembles de la famille on un point commun.
∗
Preuve : Par le théorème précédent, tous les sous-familles finies de F ont les intersections
non vides, et ces intersections sont convexes (puisque l’intersection de n’importe quelle famille
des ensembles convexes est convexe par Théorème 2.1.2) ; grâce à (a) ces intersections sont
également fermées. Ajoutant à F toutes les intersections des sous-familles finies de F , nous
obtenons une famille plus nombreuse F qui consiste en des ensembles convexes fermés, et
n’importe quel sous-famille finie de cette famille plus nombreuse a encore une intersection
non vide. Par ailleurs, (b) implique que cette nouvelle famille contient un ensemble borné Q.
Puisque tous les ensembles sont fermés, la famille d’ensembles
{Q ∩ Q | Q ∈ F }
est une famille emboitée d’ensembles compacts (c.-à-d. une famille d’ensembles compacts avec
l’intersection non vide de toute sous-famille finie) ; par le théorème bien connu d’analyse, une
telle famille a une intersection non vide 3) .
3. ) voici la preuve de ce théorème : supposez, au contraire, que les ensembles compacts Qα , α ∈ A en question
ont l’intersection vide. Choisissez un ensemble Qα∗ de la famille ; pour chaque x ∈ Qα∗ il y a un ensemble Qx dans
la famille qui ne contient pas x – autrement x serait un point commun de tous nos ensembles. Puisque Qx est fermé,
il y a une boule ouverte Vx centrée en x qui n’intersecte pas Qx . Les boules Vx , x ∈ Qα∗ , forment une couverture
ouverte de l’ensemble compact Qα∗ , et donc on peut en extraire une sous-couverture Vx1 , ..., VxN finie de Qα∗ .
Puisque Qxi n’intersecte pas Vxi , nous en concluons que l’intersection de la sous-famille fini Qα∗ , Qx1 , ..., QxN est
vide, qui est une contradiction
52 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
2.3 Exercices
Exercice 2.1 Lesquels parmi les ensembles ci-dessous sont convexes :
– {x ∈ Rn | ni=1 x2i = 1}
– {x ∈ Rn | ni=1 x2i ≤ 1}
– {x ∈ Rn | ni=1 x2i ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi ≤ 1}
– {x ∈ Rn | maxi=1,...,n xi ≥ 1}
– {x ∈ Rn | maxi=1,...,n xi = 1
– {x ∈ Rn | mini=1,...,n xi ≤ 1}
– {x ∈ Rn | mini=1,...,n xi ≥ 1}
– {x ∈ Rn | mini=1,...,n xi = 1}
Faites selon votre choix au moins 3 parmi 5 exercices suivants 2.2 - 2.6 :
Exercice 2.8 Δ Montrez le théorème suivant (de Grunbaum) sur la partition de masse :
Soit x1 , ..., xN des points de Rn , et chaque point xi est assigné une masse non négative μi , la
somme des masses de tous les points étant égaux à 1. Alors il existe un point x∗ tel que n’importe
quel hyperplan {x | aT x = aT x∗ }, a = 0, passant par le point x∗ coupe l’espace Rn en deux
4. ) les exercices marqués Δ sont d’une nature toute particulière. Trois de ces exercices suffisent pour obtenir
une excellente note à l’examen théorique
2.3. EXERCICES 53
et
1
μi ≥ .
n+1
i| aT xi ≥aT x∗
Indication : considérez la famille de tous les demi-espaces fermés de μ-measure > n/(n + 1).
Montrez que la famille satisfait les hypothèses du Théorème de Helley et vérifiez que n’importe
quel point qui appartient à l’intersection des ensembles de la famille satisfait la conclusion du
théorème de Grunbaum.
54 CHAPITRE 2. ENSEMBLES CONVEXES : INTRODUCTION
Chapitre 3
Dans ce chapitre nous allons répondre à la question suivante : supposons que nous avons
deux ensembles convexes dans Rn , quand pouvons-nous les séparer par un hyperplan, c.-à-d.
trouver une forme linéaire non nulle qui en tout point d’un des ensembles est supérieur ou
égal à sa valeur en n’importe quel point de l’autre ensemble ? Nous verrons que la réponse à
cette question forme, dans un sens, le coeur de l’analyse convexe ; elle est à la base de tous nos
développements ultérieurs.
∃a ∈ Rn , b ∈ R, a = 0 : M = {x ∈ Rn | aT x = b}.
Nous pouvons, par conséquent, associer à l’hyperplan (ou à la forme linéaire associée a, qui est
définie uniquement, à la multiplication par un réel non nul près) les ensembles suivants :
– les demi-espaces ouverts ”haut” et ”bas” M ++ = {x ∈ Rn | aT x > b}, M −− = {x ∈ Rn |
aT x < b} ;
ces ensembles sont convexes, et puisqu’une forme linéaire est continue, et ces ensembles
sont donnés par des inégalités strictes sur la valeur d’une fonction continue, ils sont en
effet ouverts.
Notez que puisque a est uniquement défini par M , à la multiplication par un réel non nul
près, ces demi-espaces ouverts sont uniquement défini par l’hyperplan, à la permutation
du ”haut” et du ”bas” près (qu’un demi-espace est le ”haut”, dépend du choix particulier
de a) ;
– les demi-espaces ”haut” et ”bas” fermés M + = {x ∈ Rn | aT x ≥ b}, M − = {x ∈ Rn |
aT x ≤ b} ;
Ceux-ci sont également les ensembles convexes, fermés (puisqu’ils sont donnés par des
inégalités non-strictes sur la valeur d’une fonction continue). On le voit facilement que
le demi-espace supérieur ou inférieur fermé est la fermeture du demi-espace ouvert cor-
respondant, et M lui-même est la frontière (c.-à-d. le complément de l’intérieur dans la
fermeture) de chacun des quatre demi-espaces.
55
56 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
et
inf aT x < sup aT y.
x∈S y∈T
Par exemple,
– l’hyperplane donné par aT x ≡ x2 − x1 = 1 dans R2 sépare proprement les ensembles
convexes polyhedraux T = {x ∈ R2 | 0 ≤ x1 ≤ 1, 3 ≤ x2 ≤ 5} et S = {x ∈ R2 | x2 =
0; x1 ≥ −1} ;
– l’hyperplane aT x ≡ x = 1 dans R1 sépare proprement les ensembles convexes S = {x ≤ 1}
et T = {x ≥ 1} ;
– l’hyperplane aT x ≡ x1 = 0 in R2 sépare proprement les ensembles S = {x ∈ R2 | x1 <
0, x2 ≥ −1/x1 } et T = {x ∈ R2 | x1 > 0, x2 > 1/x1 } ;
– l’hyperplane aT x ≡ x2 − x1 = 1 does not sépare proprement les ensembles convexes
S = {x ∈ R2 | x2 ≥ 1} et T = {x ∈ R2 | x2 = 0} ;
– l’hyperplane aT x ≡ x2 = 0 in R2 sépare les ensembles S = {x ∈ R2 | x2 = 0, x1 ≤ −1} et
T = {x ∈ R2 | x2 = 0, x1 ≥ 1}, mais ne les sépare pas proprement.
Notez que la partie de la définition 3.1.1 commençant par ”c.-à-d.” contient un certain
résultat (notamment, que la description verbale de la séparation est identique à la description
”analytique” indiquée). Je n’ai aucun doute que vous comprenez que ces deux descriptions
sont équivalentes.
Parfois nous sommes intéressés également par une notion plus forte de séparation :
Définition 3.1.2 [Séparation forte] Nous disons que deux ensembles non vides S et T dans Rn
peuvent être séparés fortement, si il existent deux hyperplans parallèles distincts qui séparent S
et T , c.-à-d. s’il existe a ∈ Rn tel que
sup aT x < inf aT y.
x∈S y∈T
3.1. THEOREME DE SEPARATION 57
Théorème 3.1.1 [Théorème de séparation] Deux ensembles convexes non vides S et T dans
Rn peuvent être séparé proprement si et seulement si leurs intérieurs relatifs sont disjoints :
ri S ∩ ri T = ∅.
3.1.1 Nécessité
La nécessité de la propriété indiquée (la partie ”seulement si” du théorème) est plus ou moins
évidente. En effet, supposez que les ensembles sont proprement séparables, de sorte que pour un
certain a ∈ Rn non nul
Nous devrions mener à une contradiction l’hypothèse que ri S et ri T ont un certain point commun
x̄. Supposons que c’est le cas ; alors de la première inégalité dans (3.1) il est évident que x̄
maximise la fonction linéaire f (x) = aT x sur S et donne simultanément le minimum cette
fonction sur T . Maintenant, nous avons le simple résultat suivant :
Lemme 3.1.1 La fonction linéaire f (x) = aT x peut atteindre son maximum ou
minimum sur un ensemble convexe Q dans un point x ∈ ri Q si et seulement si la
fonction est constante sur Q.
Preuve : la partie ”si” est évidente. Pour prouver la partie ”seulement si”,
supposons que x̄ ∈ ri Q est le minimiseur de f (x) sur Q et y est un point arbitraire
de Q ; nous devrions montrer que f (x̄) = f (y). Il n’y a rien à prouver si y = x̄, ainsi
nous pouvons supposer que y = x̄. Comme x̄ ∈ ri Q le segment [y, x̄], qui est contenu
dans Q, peut être prolongé un peu par le point x̄, sans quitter Q, de sorte qu’il existe
z ∈ Q tel que x̄ ∈ [y, z), c.-à-d. x̄ = (1 − λ)z + λy avec un certain λ ∈ (0, 1]. Comme
y = x̄, nous avons en fait λ ∈ (0, 1). Et puisque f est linéaire, nous avons
Comme f (x̄) ≤ min{f (y), f (z)} et 0 < λ < 1, cette relation peut être satisfaite
seulement si f (x̄) = f (y) = f (z).
58 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
Revenant à nos considérations liées à (3.1), nous concluons du Lemme que sous notre hy-
pothèse (∃x̄ ∈ ri S ∩ ri T , c.-à-d. quand f (x) = aT x atteint son maximum sur S et son minimum
T en x̄) f est constante (et égale à aT x̄) sur les deux ensembles S et T ; mais ceci contredit la
deuxième inégalité dans (3.1).
Ainsi, nous avons montré que la condition ri S ∩ ri T = ∅ est nécessaire pour la séparation
propre de S et T .
3.1.2 Suffisance
La preuve de la partie suffisance du théorème de séparation est beaucoup plus instructif. Il
y a plusieurs manières de la prouver, et nous allons suivre le chemin qui passe par Lemme de
Farkas.
Le Lemme de Farkas Homogène dit que cette condition est aussi suffisante :
Lemme 3.1.2 [Lemme de Farkas Homogène] Soit a, a1 , ..., aN vecteurs de Rn . Le vecteur a est
une combinaison conique des vecteurs ai si et seulement si tout vecteur h qui satisfait hT ai ≥ 0,
i = 1, ..., N , satisfait aussi hT a ≥ 0.
Preuve : La nécessité – la partie “seulement si”– est évidente. Pour prouver la suffisance de la
condition du lemme supposons que chaque vecteur h satisfaisant hT ai ≥ 0 ∀i satisfait également
hT a ≥ 0, et montrons que a est une combinaison conique des vecteurs ai .
Il n’y a rien à montrer quand a = 0 – le vecteur zéro naturellement est une combinaison
conique des vecteurs ai . Ainsi, dorénavant nous supposons que a = 0.
10 . Soit
Π = {h | aT h = −1},
et soit
Ai = {h ∈ Π | aTi h ≥ 0}.
Π est un hyperplan dans Rn , et chaque Ai est un ensemble polyhedral contenu dans cet hyper-
plan.
20 . Nous savons que l’intersection de tous les ensembles Ai , i = 1, ..., n, est vide (puisqu’un
vecteur h de l’intersection aurait les produits intérieurs non négatifs avec tout le ai et le produit
intérieur −1 avec a, et on sait qu’un tel h n’existe pas). Choisissons la plus petite, en nombre
d’éléments, sous-famille de la famille A1 , ..., AN qui a toujours l’intersection vide de ses membres.
3.1. THEOREME DE SEPARATION 59
Sans perte de généralité nous pouvons supposer que c’est la famille A1 , ..., Ak . Ainsi, l’intersection
de tous les k ensembles A1 , ..., Ak est vide, mais l’intersection de n’importe quels ensembles de
k − 1 de la famille A1 , ..., Ak est non vide.
30 . J’affirme que
– A. a ∈ Lin({a1 , ..., ak }) ;
– B. Les vecteurs a1 , ..., ak sont linéairement indépendants.
A. est facile : en supposant que a ∈ E = Lin({a1 ..., ak }), nous obtenons que la
projection orthogonale f du vecteur a sur le complément orthogonal E ⊥ de E est non
nul. Le produit scalaire de f et de a est identique que f T f , c.-à-d. est positif, alors
que f T ai = 0, i = 1, ..., k. Si on pose h = −(f T f )−1 f , nous voyons que hT a = −1
et hT ai = 0, i = 1, ..., k. En d’autres termes, h appartient à chaque ensemble Ai ,
i = 1, ..., k, par la définition de ces ensembles, et donc l’intersection des ensembles
A1 , ..., Ak est non vide, qui est une contradiction.
La preuve de B. est donné par le Théorème de Helley I. En effet, supposons
que a1 , ..., ak sont linéairement dépendants, et menons cette supposition à une
contradiction. Comme a1 , ..., ak sont linéairement dépendants, la dimension m de
E = Lin({a1 , ..., ak }) est pour sûr < k. Nous savons déjà du A. que a ∈ E. Soit
maintenant Ai = Ai ∩ E. J’affirme que toutes les familles de k − 1 des ensembles Ai
ont une intersection non vide, alors que tous ces k ensembles ont l’intersection vide.
La deuxième affirmation est évidente – puisque A1 , ..., Ak ont l’intersection vide, le
même est le cas avec leurs parties Ai . La première affirmation est également facile-
ment verifiable : prenons par exemple k − 1 des ensembles “à trait” A1 , ..., Ak−1 . Par
la construction, l’intersection de A1 , ..., Ak−1 est non vide ; soit h un vecteur de cette
intersection, c.-à-d. un vecteur avec les produits scalaires non négatifs avec a1 , ..., ak−1
et le produit −1 avec a. En remplaçant h avec sa projection orthogonale h sur E, nous
ne changeons pas tous ces produits intérieurs, puisque ce sont des produits avec des
vecteurs de E ; ainsi, h est également un point commun de A1 , ..., Ak−1 , et puisque
c’est un point de E, c’est aussi bien un point commun des ensembles A1 , ..., Ak−1 .
Maintenant nous pouvons accomplir la preuve du B. : les ensembles A1 , ..., Ak sont
les ensembles convexes appartenant à l’hyperplan Π = Π∩ E = {h ∈ E | aT h = −1}
(Π est en effet un hyperplan dans E car 0 = a ∈ E) dans le sous-espace linéaire m-
dimensionnel E. Π est un ensemble affine de dimension l = dim E−1 = m−1 < k−1
(dans notre cas m = dim E < k), et tous l + 1 ≤ k − 1 des sous-ensembles convexes
A1 ,...,Ak de Π ont une intersection non vide. Du Théorème de Helley I (qui naturel-
lement est valide pour les sous-ensembles convexes d’un ensemble affine, la dimension
affine de l’ensemble jouant le rôle de n dans la formulation originale) il découle que
tous les ensembles A1 , ..., Ak ont un point commun, ce qui, comme nous le savons,
n’est pas le cas. Ainsi, par contradiction, on obtient que a1 , ..., ak sont linéairement
indépendant.
40 . Le A. et le B. étant dans notre disposition, nous pouvons facilement finir la preuve de la
partie“si” du lemme de Farkas comme suit : par A. nous avons
k
a= λi ai
i=1
avec des coefficients réels λi , et tous ce que nous avons à montrer est que ces coefficients ne
sont pas négatifs. Supposons, au contraire, que, par exemple λ1 < 0. Augmentons le système
60 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
(linéairement indépendant par B.) des vecteurs a1 , ..., ak par les vecteurs f1 , ..., fn−k à une base
dans Rn (ce qui est possible par Théorème 1.2.1). Soit maintenant ξi (x) soit les coordonnées
d’un vecteur x dans cette base (ξ1 correspond à a1 ). La fonction ξ1 (x) est une forme linéaire de
x et donc, selon la Section 1.1.2, est le produit intérieur avec un certain vecteur :
ξ1 (x) = f T x ∀x.
Nous avons
f T a = ξ1 (a) = λ1 < 0
et
1, i = 1,
f T ai =
0, i = 2, ..., k,
ainsi f T ai ≥ 0, i = 1, ..., k. On en déduit par la normalisation appropriée de f que le vecteur
|λ1 |−1 f , appartient aux A1 , ..., Ak , ce qui est la contradiction désirée – par la construction, cette
intersection est vide.
Remarque 3.1.1 Une conséquence immédiate du Lemme de Farkas Homogène est que l’enve-
loppe conique
N
Cone ({a1 , ..., aN }) = {a = λi ai | λi ≥ 0, i = 1, ..., N }
i=1
d’un ensemble fini non vide est l’ensemble de toutes les solutions d’un certain système d’inégalités
linéaires homogènes non strictes, notamment,
Ainsi, l’enveloppe conique d’un ensemble fini de vecteurs est convexe et fermé.
hT a > 0, hT ai ≤ 0, i = 1, ..., N.
Puisque les composants dans tous les produits scalaires hT a, hT ai qui proviennent des (n + 1)-
émes coordonnées sont égaux entre eux, nous en concluons que le composant n-dimensionnel f
de h sépare x et x1 , ..., xN :
{f T x ≤ max f T vi ∀f }.
i=1,...,N
Il en suit que un polytope est non seulement convexe, mais également fermé.
Étape 2 Séparation d’un ensemble convexe et d’un point extérieur. Soit maintenant
S un ensemble non vide convexe arbitraire et T = {x} est un singleton extérieur à S (à la
différence avec l’Étape 1 est que maintenant on ne suppose pas que S soit un polytope).
Tout d’abord, sans perte de généralité nous pouvons supposer que S contient 0 (si ce n’est
pas le cas, nous pouvons soumettre S et T à la translation S → S − a, T → T − a avec a ∈ S).
Soit L l’enveloppe linéaire de S. Si x ∈ L, la séparation est facile : en prenant comme f la
composante de x orthogonale à L, nous obtenons
f T x = f T f > 0 = max f T y,
y∈S
Supposons, au contraire, qu’un tel f n’existe pas. Sous notre hypothèse pour chaque h ∈ Σ il
existe yh ∈ S tel que
hT yh > hT x.
Puisque l’inégalité est stricte, il existe un voisinage Uh du vecteur h tels que
La famille d’ensembles ouverts {uh }h∈Σ que nous obtenons est une couverture de Σ ; puisque
Σ est compact, nous pouvons en extraire une couverture finie Uh1 , ..., UhN de Σ. Soit y1 =
yh1 , y2 = yh2 , ..., yN = yhN les points correspondants et soit le polytope S = Conv({y1 , ..., yN })
est engendré par ces points. En raison de l’origine de yi , ils sont tous des points de S ; puisque S
est convexe, le polytope S est contenu dans S et, par conséquent, ne contient pas x. Par Étape
1, x peut être fortement séparé de S : il existe a tels que
aT yi ≡ aT yhi > aT x,
les vecteurs à deux dimensions avec les coordonnées rationnelles, soit S le demi-plan dans ce
plan rationnel donné par l’inégalité linéaire
x1 + αx2 ≤ 0,
avec α irrationnel. Bien sûr, S est “convexe” en Q2 ; mais on peut le voir immédiatement
qu’un point extérieur à cet ensemble ne peut pas être séparé de S par une forme linéaire
rationnelle.
Δ = S − T = {x − y | x ∈ S, y ∈ T }.
Nous savons de la Proposition 2.1.5 que Δ est un ensemble convexe (et, naturellement, non
vide) ; comme S ∩ T = ∅, Δ ne contient pas 0. Par Étape 2, nous pouvons proprement séparer
Δ et {0} : il existe h tels que
Autrement dit,
0≥ sup [f T x − f T y] & 0 > inf [f T x − f T y],
x∈S,y∈T x∈S,y∈T
Étape 4. Séparation d’ensembles convexes non vides avec les intérieurs relatifs dis-
joints. Soit S et T deux ensembles convexes non vides avec les intérieurs relatifs dont l’in-
tersection est vide. Nous devrions montrer que S et T peuvent être proprement séparés. C’est
immédiat : comme nous savons du Théorème 2.1.1, les ensembles S = ri S et T = ri T sont non
vides et convexes ; puisque nous sommes donnés que leur intersection est vide, ils peuvent être
proprement séparés par Étape 3 : il existe f tels que
On peut voir facilement que f sépare proprement S et T . En effet, les quantités sur les côtés
gauches et droits de la première inégalité de (3.5) ne changent pas si nous remplaçons S avec
cl S et T avec cl T ; par Théorème 2.1.1, cl S = cl S ⊃ S and cl T = cl T ⊃ T , et nous
obtenons inf x∈T f T x = inf x∈T f T x, et, de la même façon, supy∈S f T y = supy∈S f T y. Ainsi,
nous obtenons de (3.5)
inf f T x ≥ sup f T y.
x∈T y∈S
Ceci est, en particulier, le cas quand un des ensembles est compact, l’autres est fermé et les
ensembles sont disjoints.
∗
Preuve . La nécessité est évidente : si S et T peuvent être séparés proprement, c.-à-d. que
pour un certain a on a
α ≡ sup aT x < β ≡ inf aT y,
x∈S y∈T
β−α
|x − y| ≥
|a|
aT y − aT x = aT (y − x) ≤ |a||y − x| < β − α,
Du seconde inégalité nous obtenons que a = 0 ; ainsi inf z∈B aT z < 0, et la première inégalité
dans (3.6) dit que a sépare fortement S et T .
La partie “en particulier” de l’énoncé de la proposition est un simple exercice d’analyse :
deux sous-ensembles de Rn fermés disjoints non vides dont un est compact sont à une distance
positive l’un de l’autre.
Sx < p
(I)
Nx ≤ q
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 65
où x ∈ Rn est le vecteur d’inconnus, S (”stricte”) and N (”non-stricte”) sont des matrices fixes
de n colonnes et de certains nombres de lignes, et p, q sont les vecteurs fixes des dimensions
appropriées. Notez que nous pouvons aussi considerer dans ce cadre les égalités linéaires, en
représentant chaque égalité par une paire d’inégalités opposées non strictes.
La question principale liée au système (I) est si le système est soluble. Si nous savons répondre
à une telle question, nous savons également répondre à beaucoup d’autres questions, par exemple,
<
– si une inégalité linéaire donnée aT x ≤ b est une conséquence de (I), c.-à-d. est satisfait
=
par toutes les solutions du système (I)
(une inégalité est une conséquence de (I) si et seulement si le système (I) augmenté par la
négation de cette inégalité n’a aucune solution) ;
– si un point donné x̄ qui satisfait (I) minimise la forme linéaire donnée aT x sur l’ensemble
de solutions de (I)
(en effet, répondre à cette question est la même chose que dire si le système (I) augmenté
d’inégalité aT x < aT x̄ n’a aucune solution) ;
etc.
Il est clair comment certifier que (I) a une solution – nous devrions simplement la montrer.
Ce qui est bien moins clair, est comment certifier que (I) n’a aucune solution 1 . Heureusement,
dans notre problème il existe la condition suffisante pour (I) à être insoluble :
(*) si vous pouvez dériver à partir des relations du système une inégalité évidemment fausse,
alors (I) est clairement insoluble.
(*) est une remarque “philosophique”, pas un vrai résultat. Essayons de donner à cette
remarque un sens mathématique : la manière la plus simple de dériver de (I) une inégalité-
conséquence est de combiner les inequalities/equations du système d’une façon linéaire, c.-à-d.
– multiplier les inégalités strictes par des réels non négatifs et ajouter les inégalités
résultantes, ce qui nous amène à l’inégalité
σ T Sx ≤ σ T p;
ici σ ≥ 0 est le vecteur de nos réels non négatifs. Notez que si σ = 0, nous avons droit de
remplacer dans l’inégalité résultante ≤ avec < ;
– de la même façon, nous pouvons multiplier les inégalités non strictes par des réels non
négatifs et ajouter les inégalités résultantes, obtenant l’inégalité
ν T N x ≤ ν T q;
(σ T S + ν T N )x ? σ T p + ν T q, (3.7)
où ? doit être remplacé par ≤ dans le cas σ = 0 et par < dans le cas σ = 0.
1. c’est un phénomène bien connu de la vie quotidienne : il est facile de certifier que vous avez fait quelque
chose, par exemple, avez appris le Russe : vous pouvez simplement parler en Russe. Mais comment pourriez-vous
certifier que vous n’avez pas fait quelque chose, par exemple, jamais étudié le Russe ? Un des avantages principaux
du système judiciaire dans “des bons pays démocratiques”, est que ce n’est pas à vous de montrer que vous n’êtes
pas coupable de quelque chose, c’est les autres qui devraient montrer que vous l’êtes
66 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
S T σ + N T ν = 0.
Nos autres conclusions dépendent de la valeur de σ : si σ = 0, alors le signe dans l’inégalité est
≤, et il n’a aucune solution si le côté droit est strictement négatif ; dans le cas σ = 0 le signe
dans l’inégalité est <, et il n’a aucune solution si son côté droit est nonpositive. Ainsi, nous
avons établi le principe suivant :
Pour certifier que (I) n’a pas de solution il suffit de montrer la condition suivante :
( !) : Ils existent des vecteurs
σ ≥ 0, ν ≥ 0
de dimensions égales au nombre des lignes dans S et N respectivement, tels que
S T σ + N T ν = 0,
et, de plus,
0 : σT p + ν T q ≤ 0 ;
– dans le cas σ =
– dans le cas σ = 0 : ν T q < 0.
Le fait crucial pour la théorie d’inégalités linéaires est que la condition ( !) est non seulement
suffisante, comme nous le venons d’observer, mais également nécessaire pour que (I) soit une
contradiction :
Théorème 3.2.1 [Théorème Général sur l’Alternative ] ( !) est nécessaire et suffisant pour que
(I) n’ait aucune solution.
Nous prouverons la partie “nécessité” de ce théorème (la partie de “suffisance” est déjà prouvée)
à la fin de cette section. Pour le moment je voudrais faire quelques remarques.
– L’avantage principal du Théorème 3.2.1 est qu’il reformule un certain résultat négatif –
“(I) n’a aucune solution” – comme un résultat positif : existence de certains vecteurs σ
et ν satisfaisant un certain nombre de relations explicites et vérifiables. C’est pourquoi ce
théorème est la clef des nombreux résultats utiles, par exemple, du Théorème de Dualité
pour la Programmation Linéaire.
– Il y a beaucoup de corollaires, ou, plutôt, cas particuliers du Théorème 3.2.1 (nous
énumérerons certains de ces corollaires ci-dessous). Tous ces cas sont obtenues en spécifiant
explicitement la condition ( !) pour la forme particulière des données de (I). Je ne pense
pas que vous devriez apprendre “par coeur” toutes les formes particulières du théorème ; il
est beaucoup plus facile de se rappeler quelle est la signification réelle du théorème – “un
système des inégalités linéaires n’a aucune solution si et seulement si en combinant d’une
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 67
façon linéaire les inégalités du système un peut obtenir une inégalité contradictoire” – et
regarder (c’est toujours tout à fait claire) ce qui ce ”reçu” signifie dans le cas particulier
dans le ca en question.
– La partie la plus importante, celle de la nécessité, du Théorème 3.2.1 est liée fortement au
fait que le système (I) en question est composé d’inégalités linéaires. Malheureusement,
sa généralisation naturelle au cas des inégalités plus générales, par exemple, les inégalités
quadratiques, n’est pas juste. Par exemple, le système d’inégalités quadratiques
x2 ≤ 1; y 2 ≤ 1; −(x + y)2 ≤ −5
avec deux inconnus x et y n’a aucune solution ; mais il n’y a pas de combinaison linéaire
de ces inégalités avec des coefficients non négatifs qui est “clairement contradictoire”, c.-
à-d. est de la forme 0 ≤ −1. C’est réellement un désastre – en fait c’est la raison de
l’existence des problèmes combinatoires compliqués pour lesquels aucun algorithme de
solution “efficace” n’est connu.
Nous allons maintenant formuler quelques cas particuliers du Théorème 3.2.1 qui sont souvent
employés ; c’est un bon exercice de dériver ces corollaires du Théorème Général sur l’Alternative.
Le premier cas est
(I) Ax < 0, x ∈ Rn ,
(II) AT y = 0, 0 = y ≥ 0, y ∈ Rm ,
A étant une matrice m × n, a une solution si et seulement si l’autre n’a aucune solution.
Le deuxième cas particulier est le Lemme de Farkas Homogène qui nous est déjà connu. Sa
“nouvelle forme” (équivalente à l’original) est suivante :
aT x ≤ 0 (3.8)
Nx ≤ 0 (3.9)
si et seulement si
a = AT ν
pour un certain vecteur ν non negatif.
Notez que l’implication ”Théorème 3.2.1⇒Lemme de Farkas Homogène” est sans intérêt réel –
nous n’avons toujours pas montrer la partie de nécessité du théorème ; en fait notre preuve sera
basée exactement sur le Lemme de Farkas homogène.
Le cas suivant est
aT x ≤ p (3.10)
68 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
Nx ≤ q (3.11)
si est seulement si elle est une “consequence linéaire” du système et de l’inégalité triviale
0T x ≤ 1.
Autrement dit, si elle peut être obtenue en prenant la somme pondérée, avec des coefficients non
négatifs, d’inégalités du système et de cette inégalité triviale.
La formulation algébrique de cet énonce : (3.10) est une conséquence du système soluble
(3.11) si et seulement si
a = NT ν
pour un vecteur ν non négatif tel que
ν T q ≤ p.
Sx < 0, N x ≤ 0
S T σ + N T ν = 0, σ ≥ 0, ν ≥ 0, σ = 0
a une soultion.
Sx + ue − vp ≤ 0
N x − vq ≤ 0
(I ) ,
−u + t ≤ 0
−v + t ≤ 0
(I ) t ≤ 0.
En effet, s’il existait une solution (x, u, v, t) de (I ) avec t > 0, on obtiendrait des deux
dernières inégalités de (I ) u ≥ t > 0, v ≥ t > 0 ; alors les deux premières inégalités dedans
(I ) impliqueraient
x u x
S ≤ p − e < p, N ≤ q,
v v v
3.2. THEORIE DE SYSTEMES FINIS D’INEGALITES LINEAIRES 69
c.-à-d. (I) serait soluble, ce qui n’est pas le cas par hypothèse.
Ainsi, (I ) implique (I ). Par le Lemme de Farkas Homogène, ils existent des vecteurs
non négatifs σ, ν et des réels α, β non négatif tels que le vecteur des coefficients
⎛ ⎞
0x
⎜ 0u ⎟
⎝ ⎠
0v
1t
dans la partie gauche de l’inégalité (I ) (l’indice marque ici la dimension du vecteur corres-
pondant) est égal à la matrice transposée du système (I) fois le vecteur
⎛ ⎞
σ
⎜ν ⎟
⎝ ⎠.
α
β
C.-à-d.,
⎛ ⎞⎛ ⎞ ⎛ ⎞
ST NT 0 0 σ 0x
⎜ eT 0 −1 0 ⎟ ⎜ ν ⎟ ⎜ 0u ⎟
⎝ T ⎠⎝ ⎠ = ⎝ ⎠.
−p −q T 0 −1 α 0v
0 0 1 1 β 1t
Autrement dit,
S T σ + N T ν = 0; eT σ = α; pT σ + q T ν = −β; α + β = 1. (3.12)
Montrons que σ et ν sont bien les vecteurs exigés par ( !), ceci accomplira la preuve. En effet,
nous savons que σ, ν, (α et β) sont des vecteurs (respectivement, des réels) non négatifs par
construction ; et nous venons d’établir que S T σ + N T ν = 0.
Maintenant, si σ = 0, alors de la deuxième relation de (3.12) nous avons α = 0, d’où,
grâce à la quatrième relation, β = 1. Ainsi, de la troisième relation, q T ν = pT σ + q T ν < 0,
comme requis dans ( !). Si σ = 0, alors les conditions de ( !) sont donnés par la troisième
relation de (3.12).
70 CHAPITRE 3. THEOREME DE SEPARATION THEORIE D’INEGALITES LINEAIRES
3.3 Exercices
Exercice 3.1 Lesquelles des paires (S, T ) d’ensembles ci-dessous sont (a) proprement séparés
et (b) fortement séparés par la forme linéaire f (x) = x1 :
– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;
– S = {x ∈ Rn | ni=1 x2i ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;
– S = {x ∈ Rn | ni=1 |xi | ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ 0} ;
– S = {x ∈ Rn | maxi=1,...,n xi ≤ 1}, T = {x ∈ Rn | x1 + x2 ≥ 2, x1 − x2 ≥ −1} ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 ≥ x22 + ... + x2n } ;
– S = {x ∈ Rn | x1 = 0}, T = {x ∈ Rn | x1 = 1} ;
– S = {x ∈ Rn | x1 = 0, x22 + ... + x2n ≤ 1}, T = {x ∈ Rn | x1 = 0, x2 ≥ 100} ;
– S = {x ∈ R2 | x1 > 0, x2 ≥ 1/x1 }, T = {x ∈ R2 | x1 < 0, x2 ≥ −1/x1 }.
Faites au moins deux exercices de votre choix parmi les Exercices 3.2 - 3.4 :
Exercice 3.2 Dériver le Théorème de Gordan sur l’Alternative (Théorème 3.2.2) du Théorème
Général sur l’Alternative
Exercice 3.3 Dériver le Lemme de Farkas Non homogène (Theorem 3.2.4) du Théorème
Général sur l’Alternative
Exercice 3.4 Dériver Théorème de Motzkin sur l’Alternative (Theorem 3.2.5) du Théorème
Général sur l’Alternative
Exercice 3.5 Marquer parmi les systèmes suivants d’inégalités linéaires avec deux inconnus
ceux ont des solutions par “s”, ceux qui n’ont pas de solutions par “a” (pour les systèmes qui
sont solubles, précisez une solution ; pour les systèmes non soluble, expliquez pourquoi ils le
sont) ⎧
:
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
⎧ −5x + y ≥ −5
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
⎧ −5x + y ≥ −4
⎨x + y ≥ 2
– 2x − y ≥ 1
⎩
−5x + y ≥ −3.5
Exercice 3.6 Considérez l’inégalité linéaire
x+y ≤2
et le système d’inégalités linéaires
x≤1
−x ≤ −100
Notre inégalité est clairement une conséquence du système – elle est satisfaite à chaque solution
du système (simplement parce qu’il n’y a aucune solution du système du tout). Selon le Lemme
de Farkas Non homogène, l’inégalité devrait être une conséquence linéaire du système et de
l’inégalité triviale 0 ≤ 1, c.-à-d. il devrait exister ν1 , ν2 non negatifs tels que
1 1 −1
= ν1 + ν2 , ν1 − 100ν2 ≤ 2,
1 0 0
3.3. EXERCICES 71
ce qui n’est certainement pas le cas. Quelle est la raison de la “contradiction” observée ?
min{|x − y| | y ∈ S}.
sup aT y = aT y ∗ = aT x − |a|2 .
y∈S
Théorème 4.1.1 Tout ensemble convexe fermé M dans Rn est l’ensemble de solutions d’un
système (infini) d’inégalités linéaire non strictes.
Géométriquement : chaque ensemble convexe fermé M ⊂ Rn qui différe du Rn entier est l’in-
tersection de demi-espaces fermés, notamment, de tous les demi-espaces fermés qui contiennent
M.
Preuve : est déjà prête par le Théorème de Séparation. En effet, si M est vide, il n’y a rien
à prouver – un ensemble vide est une intersection des deux demi-espaces fermés appropriés.
Si M est l’espace entier, nous avons rien à montrer non plus – selon notre convention, notre
espace est la solution du système vide d’inégalités linéaires. Maintenant, supposons que M est
convexe, fermé, non vide et différent de l’espace entier. Soit x ∈ M ; alors x est à une distance
positive de M parce que M est fermé, et donc il existe un hyperplan approprié qui sépare x et
M (Proposition 3.1.1) :
∀x ∈ M ∃ax : aTx x > αx ≡ sup aTx y.
y∈M
73
74 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
– ceux dont l’hyperplan de frontière touche M . Cette notion a un sens pour un ensemble convexe
arbitraire (non nécessaire fermé), mais nous l’employons pour un ensemble fermé seulement, et
nous allons inclure la condition de fermeture dans le définition :
Définition 4.1.1 [Plan de support] Soit M un ensemble convexe fermé dans Rn , et soit x un
point de la frontière relative de M . Un hyperplan
Π = {y | aT y = aT x} [a = 0]
Preuve : (i) est facile : si x est un point de la frontière relative de M , alors il est extérieur à
l’intérieur relatif de M , et donc {x} et ri M peuvent être séparés proprement par le Théorème
de Séparation ; l’hyperplan de separation est exactement l’hyperplan de support de M en x
hyperplan.
Pour prouver (ii) notez que si Π = {y | aT y = aT x} est plan de support de M en x ∈ ∂ri M ,
alors l’ensemble M = M ∩ Π est ensemble convexe non vide (il contient x), et la forme linéaire
aT y est constante sur M et donc (pourquoi ?) sur Aff(M ). En même temps, la forme n’est pas
constante sur M par définition de plan de support. Ainsi, Aff(M ) est un sous-ensemble propre
(plus petit que Aff(M ) entier) de Aff(M ), et la dimension affine de Aff(M ) (c.-à-d. la dimension
affine de M ) est plus petite que la dimension de Aff(M ) (= la dimension affine de M ). 1) .
1. ) dans le dernier raisonnement nous avons utilisé le fait suivant : si P ⊂ Q sont deux ensemble affines, alors
la dimension affine de P est ≤ que celle de Q, avec ≤ étant = si et seulement si P = Q. Nous connaissons un
résultat semblable pour les sous-espaces linéaires (voir Chapitre 1) ; prouvez svp que ce résultat (immédiat) est
aussi valide pour les ensembles affines
4.2. REPRESENTATION MINIMALE D’ENSEMBLES CONVEXES : POINTS EXTREMES75
Définition 4.2.1 [Point extrême] Soit M un ensemble convexe non vide dans Rn . Un point
x ∈ M s’appelle un point extrême de M , si il n’existe aucun segment [u, v] ∈ M de longueur
positive pour qui x est un point intérieur, c.-à-d. si la relation
x = λu + (1 − λ)v
u = v = x.
Par exemple, les points extrêmes d’un segment sont exactement ses extrémités ; les points
extrêmes d’un triangle sont ses sommets ; les points extrêmes d’un disque (fermé) dans R2
sont les points du cercle.
Nous avons une définition équivalente de points extrêmes :
+
Proposition 4.2.1 Un point x d’un ensemble convexe M est extrême si et seulement si l’en-
semble M \{x} est convexe.
Il est clair qu’un ensemble convexe M ne possède pas nécessairement de points extrêmes – prenez
comme exemple la boule unité ouverte dans Rn . Cet exemple n’est pas vraiment intéressant –
l’ensemble en question n’est pas fermé. En remplaçant la boule ouverte avec sa fermeture, on
obtient un ensemble (la boule fermée) avec plein de points extrêmes – ces sont tous les points
de la frontière. Ils existent, cependant, des ensembles convexes fermés qui ne possèdent pas de
points extrêmes – par exemple, une droite ou un ensemble affine d’une dimension plus élevée.
Un fait bien sympathique est que l’absence de points extrêmes d’un ensemble M convexe fermé
a toujours une raison standard – l’ensemble contient une droite. Ainsi, un ensemble convexe M
fermé et non vide qui ne contient pas de droites pour sûr possède un point extrême. Et si M est
non vide convexe et, en plus, compact, alors il possède un ensemble tout à fait représentatif de
points extrêmes – leur enveloppe convexe est l’ensemble M entier.
Théorème 4.2.1 Soit M un ensemble convexe fermé et non vide dans Rn . Alors
(i) l’ensemble Ext(M ) de points extrêmes de M est non vide si et seulement si M ne contient
pas de droites ;
(ii) si M est borné, alors M est l’enveloppe convexe de ses points extrêmes :
M = Conv(Ext(M )),
de sorte que chaque point de M est une combinaison convexe des points de Ext(M ).
76 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
Notez que la partie (ii) de ce théorème est la version “en dimension finie” du célèbre Théorème
de Krein-Milman.
Preuve : Commençons par (i). La partie ”seulement si” est facile.
Lemme 4.2.1 Soit M un ensemble convexe fermé dans Rn . Supposons que pour
un certain x̄ ∈ M et h ∈ Rn M contient le rayon
{x̄ + th | t ≥ 0}
partant de x̄ et ayant h comme direction. Alors M contient également tous les rayons
parallèles commençant en points de M :
(∀x ∈ M ) : {x + th | t ≥ 0} ⊂ M.
tel que
inf aT x < sup aT x = aT x̄ (4.2)
x∈Q x∈Q
(voir Proposition 4.1.1). Supposons que y est un point extrême de Π ∩ Q ; nous avons
à montrer que y est un point extrême de Q, c.-à-d. que la décomposition
y = λu + (1 − λ)v
aT y = aT x̄ ≥ max{aT u, aT v}
(la dernière inégalité résulte de (4.2)). Par ailleurs,
aT y = λaT u + (1 − λ)aT v;
en combinant ces observations avec le fait que λ ∈ (0, 1), on déduit que
aT y = aT u = aT v.
Par la même proposition, l’ensemble T = Π ∩ M (qui est fermé, convexe et non vide) est de
dimension affine plus petite que celle de M , c.-à-d., de dimension ≤ k. Évidement, T ne contient
pas de droites (puisque l’ensemble M plus grand n’en contient pas). Par l’hypothèse inductive,
T possède un point extrême, et par le Lemme 4.2.2 ce point est aussi extrême pour M . L’étape
inductive est maintenant complétée, et (i) est prouvé.
Montrons (ii). Ainsi, soit M non vide, convexe, fermé et borné ; nous devons prouver que
M = Conv(Ext(M )).
Il est evident que par convexité de M , l’ensemble à droite est contenu dans celui à gauche. Il
nous reste à prouver que tout x ∈ M est une combinaison convexe des points de Ext(M ). Ici
encore nous employons l’induction sur la dimension de M . Le cas de dimension 0 (quand M
est un point) est trivial. Supposons que le résultat en question est juste pour tout ensemble k-
dimensionnel convexe fermé et borné. Soit M un ensemble convexe fermé et borné de dimension
k + 1. Soit x ∈ M ; pour représenter x comme une combinaison convexe des point de Ext(M ),
dressons à travers x une droite arbitraire l = {x + λh | λ ∈ R} (h = 0) dans l’enveloppe affine
Aff(M ). En se déplaçant le long de cette droite à partir de x dans chacune des deux directions
possibles, nous allons certainement quitter M (puisque M est borné). Comme c’est expliqué
dans le preuve de (i), cela signifie que il existe λ+ et λ− non négatifs tel que les points
x̄± = x + λ± h
appartiennent à la frontière relative de M . Il nous reste à vérifier que x̄± sont des combinaisons
convexes des points extrêmes de M (ça complete la preuve, puisque x est clairement une com-
binaison convexe des point x̄± ). En effet, M admet un hyperplan Π de support en x̄+ ; comme
c’est expliqué dans la preuve de (i), l’ensemble Π ∩ M (qui est convexe, fermé et borné) est d’une
dimension plus petite que celle de M ; par l’hypothèse inductive, le point x̄+ de cet ensemble est
une combinaison convexe des points extrêmes de cet ensemble, et par le Lemme 4.2.2 tout ces
points soin aussi les points extrêmes de M . Ainsi, x̄+ est une combinaison convexe des points
extrêmes de M . Le même raisonnement est valide pour x̄− .
M = {x ∈ Rn | Ax ≤ b}, (4.3)
A est une matrice de n colonnes et m lignes et b est un vecteur m-dimensionnel. Ceci est la
description externe (“artistique”) d’un ensemble polyhedral ; et quelle est sa description interne
(“maçonnique”) ?
Pour répondre à cette question, considérons la construction suivante. Prenons deux ensembles
de vecteurs fini non vide S (“sommets”) et R (“rayons”) et construisons l’ensemble
M (S, R) = Conv(S) + Cone (R) = { λs s + μr r | λs ≥ 0, μr ≥ 0, λs = 1}.
s∈S r∈R s
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 79
Ainsi, nous prenons tout vecteur qui peut être représenter comme une somme d’une combinaison
convexe des points de S et d’une combinaison conique des points de R. L’ensemble M (S, R) est
convexe (comme la somme arithmétique des deux ensembles convexe Conv(S) et Cone (R)). La
description interne promise de la structure de l’ensemble polyhedral est suivante :
Théorème 4.3.1 [Structure d’ensemble polyhedral] Les ensembles de la forme M (S, R) sont
exactement les ensembles polyhedraux non vides : M (S, R) est polyhedral, et chaque ensemble
polyhedral non vide M est M (S, R) pour S et R proprement choisis.
Les polytopes M (S, {0}) = Conv(S) sont exactement les ensembles polyhedraux non vides
et bornés. Les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux (ensembles
donnés par un nombre fini d’inégalités linéaires non strictes homogènes).
Remarque 4.3.1 En plus des résultats du théorème, on peut prouver (nous ne le ferons pas
pour sauver du temps) que dans la représentation d’un ensemble polyhedral non vide M comme
M = Conv(S) + Cone (R)
– la partie “conique” Cone (R) (mais pas l’ensemble R lui-même !) peut être déterminé de
façon unique par M et est exactement le cône récessif de M (voir le commentaire après le Lemme
4.2.1) ;
– si M ne contient pas de droites, alors S peut être choisi comme l’ensemble de tous les
points extrêmes de M .
P −1 (M ) = {y ∈ Rm | P y + p ∈ M }
est polyhedral ?
– B. Est-il vrai que l’image d’un ensemble polyhedral M ⊂ Rn par une transformation affine
x → y = P(x) = P x + p : Rn → Rm , c.-à-d. l’ensemble
P(M ) = {P x + p | x ∈ M }
est polyhedral ?
– C. Est-il vrai que l’intersection des deux ensembles polyhedraux est aussi un ensemble
polyhedral ?
– D. Est-il vrai que la somme arithmétique des deux ensembles polyhedraux est à nouveau
un ensemble polyhedral ?
Les réponses à toutes ces question sont, comme nous allons voir, positives ; ce qui est très
instructif, c’est comment ces réponses sont obtenues.
Il est facile de répondre affirmativement à la question A. à partir de la définition originale –
externe – d’un ensemble polyhedral : si M = {x | Ax ≤ b}, alors, naturellement,
sont des combinaisons convexes des points de S, et de S respectivement, alors, (vérifiez, svp !),
x+y = λi λj (si + sj )
i,j
Théorème 4.3.2
(i) un programme LP est soluble si et seulement s’il est borné.
(ii) si le programme est soluble et l’ensemble faisable du problème ne contient pas de droites,
alors au moins une des solutions optimales est un point extrême de l’ensemble faisable.
Preuve : (i) : la partie “seulement si” du résultat n’est qu’une tautologie : la définition de la
solubilité inclue la bornitude. Ce que nous devons prouver est la partie “ si” – que tout problème
borné est soluble. C’est donné immédiatement par la description interne de l’ensemble admissible
M du problème : c’est un ensemble polyhedral, et comme il n’est pas vide (notre problème est
borné), nous pouvons le représenter comme
pour certains ensembles finis non vides S and R. J’affirme tout d’abord que puisque (P) est
borné, le produit scalaire de c avec tout vecteur de R est non positif. En effet, autrement il
existe r ∈ R avec cT r > 0 ; puisque M (S, R) clairement contient avec chaque point x le rayon
{x + tr | t ≥ 0}, et l’objectif est illimité sur ce rayon, il est non borne supérieurement sur M , ce
qui n’est pas le cas.
Maintenant choisissons dans l’ensemble S fini et non vide un point, appelé s∗ , qui maximise
l’objectif sur S. J’affirme que s∗ est une solution optimale de (P), c.-à-d. que (P) est soluble.
82 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
(ii) : si l’ensemble admissible de (P), appelons le M , ne contient pas de droites, est convexe
et fermé (tant qu’un ensemble polyhedral) il possède un point extrême. Il en suit que (ii) est
valide dans le cas trivial quand l’objectif de (P) est constant sur l’ensemble admissible, car dans
ce cas on peut prendre tout point extrême de M comme solution optimale. Le cas d’objectif
nonconstant sur M peut être immédiatement réduit au cas trivial ci-dessus : si x∗ est une
solution optimal de (P) et la forme linéaire cT x n’est pas constante sur M , alors l’hyperplan
Π = {x | cT x = c∗ } est celui de support à M en x∗ ; l’ensemble Π ∩ M est fermé, convexe, non
vide et ne contient pas de droites, il possède donc un point extrême x∗∗ qui, d’une part, est,
bien évidement, une solution optimale de (P), et, d’autre part, est un point extrême de M par
le Lemme 4.2.2.
Nous allons établir maintenant le deuxième résultat fondamental sur Programmation Linéaire
– le Théorème de Dualité ; mis à part des problèmes concernant le calcul, on peut dire que LP
consiste, essentiellement, en Théorème 4.3.2 et Théorème de Dualité.
(Sα ) :
cT x > α
Ax ≤ b
(Sα∗ ) :
bT y ≤ α
AT y = c
y ≥ 0
avec le vecteur d’inconnus y ∈ Rm est soluble. Ainsi, si (P) est faisable, alors
4.3. STRUCTURE D’ENSEMBLES POLYHEDRAUX 83
(*) (Sα ) est non soluble pour un α donné si et seulement si (Sα∗ ) est soluble pour cet α.
En consequence, la solubilité du système (Sα∗ ) peut aussi être interprété en termes d’un
certain programme LP, notamment, le programme dual à (P) :
(D) bT y → min | y ∈ M ∗ = {y ∈ Rm | AT y = c, y ≥ 0}
Précisément, la solubilité de (Sα∗ ) veut dire exactement que (D) est faisable et la valeur optimale
de ce problème est ≤ α. En fait, nous avons “plus ou moins établi”
(ii) si (P) n’est pas borné, alors (D) n’est pas admissible ; si (D) n’est pas borné, alors (P)
n’est pas admissible.
Remarque 4.3.2 Notez que ”si... alors...” dans (ii) ne peut pas être remplacer avec ”si et
seulement si” – il se peut que les deux (P) et (D) ne sont pas faisables, comme c’est le cas dans
l’exemple
(P ) x1 − x2 → max | x1 + x2 ≤ 0, −(x1 + x2 ) ≤ −1,
Preuve. (i) : supposons que (P) est borné avec la valeur optimale c∗ . Cela signifie que le système
(Sα ) est soluble quelque soit α < c∗ et n’est pas soluble quelque soit α ≥ c∗ ; Comme on sait de
(*), ceci signifie exactement que (Sα∗ ) est soluble quelque soit α ≥ c∗ et n’est pas soluble quelque
soit α < c∗ . En d’autres termes, (D) est soluble avec la valeur optimale c∗ .
Maintenant on peut répéter ce raisonnement en permutant les rôles de (P) et (D). Supposons
que (D) est borné avec la valeur optimal c∗ , et montrons que alors (P) est soluble avec la même
valeur optimale. Nos hypothèses à propos de (D) disent exactement que le système d’inégalités
linéaires
bT y < α
AT y = c
y ≥0
84 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
est soluble pour α > c∗ et n’est pas soluble sinon. Afin d’appliquer, comme dans le cas ci-dessus,
le Lemme de Farkas Non homogène, nous écrivons le système dans sous la forme équivalente :
(Tα ) bT y < α
⎛ ⎞ ⎛ ⎞
AT c
By ≡ ⎝ −AT ⎠ y ≤ q ≡ ⎝ −c ⎠
−I 0
où I est la matrice identité de la même dimension que b et y. Dire que (Tα ) n’est pas soluble est
le même que dire que l’inégalité −bT y ≤ −α est une conséquence du système By ≤ q. Puisque
le problème dual est faisable, le système By ≤ q est soluble ; donc par le Lemme de Farkas non
homogène, l’inégalité −bT y ≤⎛ −α⎞ est une conséquence du système si et seulement si il exister
u
un vecteur non négatif σ = ⎝ v ⎠ tel que b = σ T B et σ T q ≤ −α, ou, en d’autres termes, si et
w
seulement si
−b = Au − Av − w; cT (u − v) ≤ −α.
On peut voir immédiatement (posez x = v − u) que u, v et w non négatifs qui satisfont la dernier
relation existent si et seulement s’il existe x tel que Ax ≤ b et cT x ≥ α. Ainsi, si (D) est borné
avec la valeur optimale c∗ , c.-à-d. que le système (Tα ) est soluble pour α > c∗ et n’est pas soluble
sinon, alors le système d’inégalité
Ax ≤ b, cT x ≥ α
est soluble si α ≤ c∗ et n’est pas soluble sinon. Alors, (P) est soluble avec la valeur optimale c∗ .
Pour prouver (i.2), supposons qu’un des problèmes est soluble ; dans ce cas, selon la partie
déjà établie du résultat, les deux problèmes (P) et (D) sont solubles avec la même valeur optimale
c∗ . Puisque (P) est un problème de maximisation et (D) est celui de minimisation, nous avons
cT x ≤ c∗ ≤ bT y
pour toute paire x, y de solutions faisables de (P) et (D) ; par conséquent, le saut de dualité
bT y − cT x = [bT y − c∗ ] + [c∗ − cT x]
sur une telle paire est toujours non négatif et devient nul si et seulement si x est une solution
optimale de (P) et y est optimale pour (D), comme cela est dit dans (4.5).
(4.4) est une conséquence immédiate de (4.5) par le raisonnement suivant (ici x est faisable
pour (P) et y est faisable pour (D)) :
(ii) : montrons d’abord que si (P) est non borné, alors (D) est infaisable. Non bornitude de
(P) signifie exactement que le système (Sα ) est soluble pour chaque α réel, d’où, comme on sait
déjà de (*), (Sα∗ ) n’est pas soluble pour tout α ; mais ceci est le même que de dire que (D) est
infaisable.
Par un raisonnement semblable avec (Tα ) jouant le rôle de (Sα ) on démontre que si (D) n’est
pas borné, alors (P) est infaisable.
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 85
Dans la preuve du théorème, nous n’avons pas utilisé la symétrie entre le problème primal
(P) et le dual (D), bien que la dualité LP est complètement symétrique : le problème dual au
dual “est” le même problème primal (ici “est” signifie “ est équivalent”). Pourquoi je n’ai pas
profité de cette symétrie est clair – à cause des guillemets dans dans “est” – j’ai préféré de ne
pas gaspiller le temps pour écrire des formes différentes du programme dual au programme
LP.
Corollaire 4.4.1 L’ensemble de points extrêmes d’un ensemble polyhedral est fini
En effet, selon le théorème ci-dessus, chaque point extrême d’un ensemble polyhedral K = {x ∈
Rn | Ax ≤ b} est donné par le choix d’un sous-ensemble de n inégalités du système original
qui sont devenu les égalités, la matrice de ce sous-ensemble étant non singulière. Ainsi, un point
extrême est uniquement défini par le sous-ensemble correspondant, de sorte que le nombre de
points extrêmes n’excède pas le nombre Cm n de sous-matrices n × n de la matrice A.
n
Notez que Cm n’est qu’une borne supérieure (généralement très conservatrice) sur le nombre
de points extrêmes d’un ensemble polyhedral donné par m inégalités dans Rn : les sous-matrices
n×n de A peuvent être singulières et, ce qui est bien plus important, la majorité des matrices non
singulières produisent normalement “des candidats” qui ne satisfont pas certaines des inégalités
restantes.
Remarque 4.4.1 Le résultat du Théorème 4.4.1 est très important, en particu-
lier, pour la théorie de la Méthode de Simplex – l’outil de calcul traditionnel pour
la Programmation Linéaire. Une fois appliqué au programme de LP sous la forme
canonique 3)
cT x → min | P x = p, x ≥ 0 [x ∈ Rn ],
avec la matrice P k × n, le résultat du Théorème 4.4.1 est que les points extrêmes
de l’ensemble faisable sont exactement les solutions faisables de base du système
P x = p, c.-à-d., les vecteurs non négatifs x tels que P x = p et l’ensemble de co-
lonnes de P lié aux entrées positives de x est linéairement indépendant. Puisque
l’ensemble faisable d’un programme LP sous la forme standard ne contient pas des
droites, parmi les solutions optimales (si en existe une) d’un programme LP sous sa
forme canonique au moins un est un point extrême de l’ensemble faisable (Theorem
4.3.2.(ii)). Ainsi, en principe nous pourrions tester l’ensemble fini de tous les points
extrêmes de l’ensemble faisable (≡ à toutes les solutions faisables de base) et choisir
celui avec la meilleure valeur de l’objectif. Cette recette permet de trouver une solu-
tion faisable en nombre fini d’opérations arithmétiques, à condition que le problème
soit soluble, est ce que fait la Méthode de Simplex ; cette dernière parcourt les solu-
tions faisables de base d’une manière très futée qui permet de tester seulement une
partie négligeable de solutions candidates.
Une autre conséquence utile du Théorème 4.4.1 est que si toutes les données
dans un programme de LP sont rationnelles, alors n’importe quel point extrême
du domaine faisable du programme est un vecteur avec les entrées rationnelles. En
particulier, un programme soluble de LP dans la forme standard avec des données
rationnelles a au moins une solution optimale rationnelle.
3. ) plutôt une des formes canoniques, cf. le problème dual (D) au problème LP dans la Section 4.3.1
4.4. STRUCTURE D’ENSEMBLES POLYHEDRAUX : PREUVES 87
Polar (M ) = {f | f T x ≤ 1 ∀x ∈ M }.
Le polaire d’un ensemble est non vide – il contient 0. Notez également que le polaire est une
extension naturelle de la notion de complément orthogonal à un sous-espace linéaire : si M
est un tel sous-espace, alors Polar (M ), comme on le voit immédiatement, est exactement M ⊥
(puisqu’une forme linéaire peut être bornée par 1 sur un sous-espace linéaire si et seulement si
elle est identiquement nulle sur le sous-espace). Nous avons l’extension suivante de la formule
Lemme 4.4.1 Pour tout ensemble convexe fermé M qui contient 0 son polaire Polar (M )
est également un ensemble convexe et contenant 0, et
Ici l’inégalité à droite implique que f ∈ Polar (M ) ; mais dans ce cas l’inégalité à gauche
contredit à l’origine de z qui est un point de Polar (Polar (M )).
Remarque 4.4.2 La notion du polaire a un sens pour un ensemble non vide
arbitraire M , pas nécessairement fermé, convexe ou contenant zéro. Pour M non
vide arbitraire nous avons
Polar (M ) = Polar (cl Conv(M ∪ {0})).
Cette identité combinée avec (4.6) conduit à l’identité
Polar (Polar (M )) = cl Conv(M ∪ {0}) [M = ∅],
qui est de nature bien similaire à l’identité pour le complément orthogonal :
(M ⊥ )⊥ = Lin(M ) [M = ∅].
Si M est un ensemble convexe fermé contenant zéro, alors Polar (M ) se rappelle de tout
M (M peut être reconstitué par l’intermédiaire de son polaire en appliquant la polarité de
nouveau, voir (4.6)). Il est très utile de savoir quelles sont les propriétés du polaire respon-
sables de telles et de telles propriétés de l’ensemble. Voici un exemple simple d’un résultat
dans ce genre :
+
Proposition 4.4.1 Soit M un ensemble convexe fermé dans Rn et 0 ∈ M . Alors 0 ∈
int M si et seulement si Polar (M ) est borné.
Implication P⇒SR
P⇒SR, Étape 1 : réduction au cas quand le P-ensemble ne contient pas
de droites. Soit M un P-ensemble, de sorte que M est l’ensemble de toutes les solutions
d’un système soluble d’inégalités linéaires :
M = {x ∈ Rn | Ax ≤ b} (4.7)
avec une matrice A m × n . Un tel ensemble peut contenir des droites ; si h est la direction
d’une droite dans M , alors A(x + th) ≤ b pour certains x et tout t ∈ R, qui est possible
seulement si Ah = 0. Vice versa, si h est dans le noyau de A, c.-à-d., si Ah = 0, alors la
droite x + Rh avec x ∈ M est contenue dans M . ainsi, nous venons au suivant
Lemme 4.4.2 L’ensemble polyhedral non vide (4.7) contient des droites si et
seulement si le noyau de A est non trivial, et les vecteurs non nuls du noyau sont
exactement les directions des droites contenues dans M : si M contient une droite
dirigée par h, alors h ∈ Ker A, et, réciproquement, si 0 = h ∈ Ker A et x ∈ M
alors M contient la droite entière x + Rh.
Étant donné un ensemble non vide (4.7), notons L = Ker A le noyaux de A et L⊥ le
complément orthogonal du noyau. Soit M la section transversale de M par L⊥ :
M = {x ∈ L⊥ | Ax ≤ b}.
L’ensemble M ne contient pas de droites (car le vecteur-directeur de n’importe quelle droite
dans M , d’une part, devrait appartenir à L⊥ en raison M ⊂ L⊥ , et d’autre part, devrait
appartenir à L = Ker A, puisqu’une droite dans M ⊂ M est une droite dans M aussi bien).
L’ensemble M est non vide et, de plus, M = M + L. En effet, M contient les projections
orthogonales de tous les points de M sur L⊥ (car pour projeter un point sur L⊥ , vous devriez
vous déplacer de ce point suivant une certaine droite avec la direction dans L, et tous ces
déplacements qui commencent dans M , restent dans M par le Lemme) Ainsi M est non
vide, et tel que M + L ⊃ M . D’autre part, M ⊂ M et M + L = M par le Lemme 4.4.2,
d’où M + L ⊂ M , et, effectivement, M + L = M .
Les résultats de nos efforts sont comme suit : étant donné un P-ensemble arbitraire M ,
nous l’avons représenté comme une somme d’un P-ensemble M ne contenant pas de droites
et un sous-espace linéaire L Avec cette décomposition dans l’esprit nous voyons qu’afin de
réaliser notre objectif – montrer que chaque P-ensemble est SR-ensemble – il suffit de montrer
ce résultat pour des P-ensembles qui ne contiennent pas de droites. En effet, si M = M (S, R )
en notant par R l’ensemble fini tels que L = Cone (R ) (pour obtenir R , prenez l’ensemble
de 2 dim L vecteurs ±ai , i = 1, ..., dim L où a1 , ..., adim L est une base de L) nous obtenons
M = M + L
= [Conv(S) + Cone (R)] + Cone (R )
= Conv(S) + [Cone (R) + Cone (R )]
= Conv(S) + Cone (R ∪ R )
= M (S, R ∪ R )
(la quatrième égalité évidente dans la chaine nous est déjà connue).
90 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
Sans perte de généralité nous pouvons supposer que tous les ai sont des vecteurs non nul
(comme M est non vide, les inégalités avec ai = 0 sont satisfaites sur Rn entier, et en les
enlevant du système, nous ne changeons pas l’ensemble de solutions). Notez que m > 0, car
autrement M contiendrait des droites, pour k ≥ 0.
10 . Supposons que M n’est pas borné, car autrement le résultat désiré est donné par
Theorem 4.4.2. J’affirme qu’il existe une direction récessive de M (voir le commentaire au
Lemme 4.2.1). En effet, soit x ∈ M , et soit xi ∈ M une suite des vecteurs avec les normes
convergeant vers ∞ (une telle suite existe, si M n’est pas borné). Considérez la suite de
vecteurs unitaires
ri = |xi − x|−1 (xi − x).
puisque la boule unité dans Rn est compacte, en passant à une subsequence nous pouvons
supposer que les vecteurs ri convergent vers un vecteur unitaire r non nul. Ce vecteur r est
la direction demandée. En effet, si t ≥ 0, alors les vecteurs
t
xti = x + tri = x + (xi − x)
|xi − x|
pour tout i assez grand (ceux pour lesquels |xi − x| ≥ t) sont les combinaisons convexes de
x et xi et appartiennent donc à M . Comme i → ∞, ces vecteurs convergent vers x + tr,
et comme M est fermé, nous concluons que x + tr ∈ M pour tout t non négatif. Ainsi, M
contient le rayon {x + tr | t ≥ 0}, d’où, par le Lemme 4.2.1, M + Cone ({r}) = M .
20 . Pour chaque i ≤ m, m étant le nombre de lignes de A dans (4.8), c.-à-d., le nombre
d’inégalités linéaires dans la description de M , notons par Mi la “facette” correspondante
de M – l’ensemble polyhedral indiqué par le système d’inégalités (4.8) dans lequel l’inégalité
aTi x ≤ bi est remplacé par l’égalité aTi x = bi . Certaines de ces “facettes” peuvent être vides ;
soit I l’ensemble d’indices i de facettes Mi non vides.
Quand i ∈ I, l’ensemble Mi est un ensemble polyhedral non vide, c.-à-d., un P-ensemble
– qui ne contient pas de droites (puisque Mi ⊂ M et M ne contient pas de droites). Par
ailleurs, Mi appartient à l’hyperplan {aTi x = bi }, c.-à-d., est en fait un P-ensemble dans Rk .
Par l’hypothèse inductive, nous avons des représentations
Mi = M (Si , Ri ), i ∈ I,
pour les ensembles Si et Ri non vides finis correctement choisis. Je prétends que
où r est la direction récessive de M trouvé dans 10 ; pour completer notre preuve inductive
il nous reste à verifier cette affirmation,
Pour montrer (4.9), notez, tout d’abord, que l’ensemble sur le côté droit de cette relation
est contenu dans celui à gauche. En effet, comme Mi ⊂ M et Si ⊂ Mi , nous avons Si ⊂ M ,
et, également, S = ∪i Si ⊂ M ; puisque M est convexe, nous avons
Conv(S) ⊂ M. (4.10)
direction récessive pour M , de même pour r ; ainsi, chaque vecteur de R = ∪i∈I Ri ∪ {r} est
une direction récessive de M , d’où, encore par le Lemme 4.2.1,
M + Cone (R) = M.
En combinant cette relation avec (4.10), nous obtenons M (S, R) ⊂ M , comme demandé.
Il nous reste à montrer que M est contenu dans l’ensemble sur le côté droit de (4.9).
Soit x ∈ M , déplaçons-nous à partir de x dans la direction (−r), c.-à-d., le long du rayon
{x − tr | t ≥ 0}. Pour un t assez grand le point x − tr quitte M (en effet, autrement le
rayon avec la direction −r qui commence en x serait contenu dans M , alors que le rayon
opposé pour sûr est contenu dans M puisque r est une direction récessive de M ; mais
c’aurait dit que M contient une droite, qui n’est pas le cas par hypothèse.) Comme le rayon
{x − tr | t ≥ 0} quite M et M est fermé, il existe le plus grand t, que l’on appelle t∗ , tels
que x = x − t∗ r appartient encore à M . Il est absolument clair qu’en x une des inégalités
linéaires définissant M devienne égalité, autrement nous pourrions légèrement augmenter
le paramètre t∗ en restant toujours dans M . Ainsi, x ∈ Mi pour un certain i ∈ I. En
conséquence,
x ∈ Conv(Si ) + Cone (Ri ),
et x = x + t∗ r ∈ Conv(Si ) + Cone (Ri ∪ {r}) ⊂ M (S, R), comme demandé.
SR⇒P
Nous savons déjà que chaque P-ensemble est un SR-ensemble. Maintenant nous mon-
trerons que chaque SR-ensemble est un P-ensemble, de ce fait accomplissant la preuve du
Théorème 4.3.1. Comme dans la preuve du Théorème 4.4.2, ceci sera fait en utilisant la
notion de l’ensemble polaire.
Ainsi soit M un SR-ensemble :
nous devons montrer que c’est un P-ensemble. Sans perte de généralité nous pouvons supposer
que 0 ∈ M .
10 . Soit M ∗ le polaire de M . J’affirme que M ∗ est un P-ensemble. En effet, f ∈ M ∗ si et
seulement si f T x ≤ 1 pour chaque x de la forme
est un P-ensemble.
20 . Maintenant nous sommes faits : M ∗ est un P-ensemble, et par conséquent - nous le
savons déjà – est SR-ensemble. Par 10 , le polaire d’un SR-ensemble est un P-ensemble ; ainsi,
est un P-ensemble.
Le Théorème 4.3.1 dit également que les ensembles du type M (S, {0}) sont exactement
les ensembles polyhedraux bornés (nous avons déjà vérifié ceci dans le Théorème 4.4.2) et
que les ensembles du type M ({0}, R) sont exactement les cônes polyhedraux, c.-à-d., ceux
donnés par des systèmes finis d’inégalités linéaires homogènes non strictes. Ce dernier fait
est tout ce que nous avons encore à prouver. C’est facile :
92 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
D’abord, montrons qu’un cône polyhedral M peut être représenté comme M ({0}, S) pour
certain S . Comme tout ensemble polyhedral, M peut être représenté comme
M + Cone (R) = Conv(S) + Cone (R) + Cone (R) = Conv(S) + Cone (R) = M
(puisque Cone (R) + Cone (R) est identique au Cone (R)), nous obtenons
comme Cone (R) ⊂ M par (4.11) et S ⊂ M , le côté droit de (4.12) est l’enveloppe conique
des vecteurs de M et donc un sous-ensemble du cône M . Ainsi, l’inclusion dans (4.12) est en
fait égalité, et M = M ({0}, S ∪ R), comme exigé.
Il reste à démontrer que l’ensemble du type M = M ({0}, R) – qui est clairement un
cône – est un cône polyhedral. En tant qu’un SR-ensemble, M est donné par un système fini
d’inégalités,
aTi x ≤ bi , i = 1, ..., m,
et tout ce que nous devrions prouver est que on peut choisir les inégalités homogènes (avec
bi = 0) dans le système. C’est immédiat : comme M est un cône, pour n’importe quelle
solution x du système ci-dessus tous les vecteurs tx, t ≥ 0, sont également des solutions, ce
qui est possible si et seulement si bi ≥ 0 pour tous i et aTi x ≤ 0 pour toutes les i et toutes les
solutions x du système. Il suit qu’en “renforçant” le système, c.-à-d., en remplaçant bi ≥ 0
par bi = 0, et de ce fait rendant le système homogène, nous ne changeons pas l’ensemble de
solutions.
4.5. EXERCICES 93
4.5 Exercices
Exercice 4.1 Prouver la Proposition 4.2.1.
Exercice 4.2 Soit M ensemble convexe dans Rn et x un point extrême de M . Montrez que si
m
x= λi xi
i=1
est une représentation de x comme une combinaison convexe des points xi ∈ M avec des poids
positifs λi , alors x = x1 = ... = xm .
Exercice 4.3 Soit M ensemble convexe fermé dans Rn et x̄ un point de M . Montrez que s’il
existe une forme linéaire aT x telle que x̄ est le minimiseur unique de la forme sur M , alors x̄
est un point extrême de M .
Exercice 4.6 Une matrice π n × n s’appelle double stochastique, si toutes ses entrées sont non
négatives, et les sommes d’entrées dans chaque ligne et chaque colonne sont égales à 1, comme
c’est le cas avec la matrice identité ou, plus généralement, avec une matrice de permutation –
celle qui a exactement une entrée non nulle (égale à 1) dans chaque colonne et chaque ligne,
par exemple,
⎛ ⎞
0 1 0
π = ⎝0 0 1⎠.
1 0 0
Les matrices double stochastiques d’un ordre donné n forment un ensemble polyhedral convexe
borné et non vide D dans Rn×n . Quels sont les points extrêmes de cet ensemble ? La réponse
est donnée par le suivant
94 CHAPITRE 4. POINTS EXTREMES. STRUCTURE D’ENSEMBLES POLYHEDRAUX
Théorème 4.5.1 (Birkhoff) Les points extrêmes du polytope D de matrices double stochastique
n × n sont exactement les matrices de permutation d’ordre n.
Le Théorème de Birkhoff est la source des nombreuses inégalités importantes ; certaines de ces
inégalités seront le sujet d’exercices facultatifs des prochains chapitres.
Chapitre 5
Fonctions Convexes
Si l’inégalité ci-dessus est stricte quelques soient x = y et 0 < λ < 1, la fonction f s’appelle
strictement convexe.
Fonction f telle que −f est convexe s’appelle concave ; le domaine Q d’une fonction concave
doit être convexe, et la fonction elle-même doit satisfaire l’inégalité opposée de (5.1) :
f (x) = aT x + b
– la somme d’une forme linéaire et d’une constante. Cette fonction est convexe sur l’espace
entier, et le “d’inégalité de convexité” devient égalité pour cette fonction ; la fonction affine est
également concave. On montre facilement que la fonction qui est convexe et concave sur l’espace
entier est une fonction d’affine.
Voici quelques exemples élémentaires des fonctions convexes de “non-linéaires” d’une va-
riable :
– fonctions convexes sur l’axe entier :
x2p , p étant un entier positif ;
exp{x} ;
– fonctions convexes sur le rayon non négatif :
xp , 1 ≤ p ;
−xp , 0 ≤ p ≤ 1 ;
x ln x ;
95
96 CHAPITRE 5. FONCTIONS CONVEXES
(|x| est exactement |x|2 , et la partie à droite dans cette relation avec p = ∞ est par définition,
maxi |xi |).
Nous sommes sur le point de montrer que chaque norme est convexe :
Proposition 5.1.2 Soit π(x) une fonction à valeurs réelles sur Rn qui est positivement ho-
mogène de degré 1 :
π(tx) = tπ(x) ∀x ∈ Rn , t ≥ 0.
π est convexe si et seulement si elle est sous-additive :
π(x + y) ≤ π(x) + π(y) ∀x, y ∈ Rn .
En particulier, une norme (qui par définition est positivement homogène de degré 1 et est sous-
additive) est convexe.
5.1. FONCTIONS CONVEXES : PREMIER ABORD 97
Preuve est immédiate : l’epigraph d’une fonction π positivement homogène du degré 1 est
un ensemble conique : (t, x) ∈ Epi(π) → λ(t, x) ∈ Epi(π) pour tous λ ≥ 0. Maintenant, par
Proposition 5.1.1 π est convexe si et seulement si epi(π) est convexe. De la Proposition 2.1.4
nous savons qu’un ensemble conique est convexe (c.-à-d., est un cône) si et seulement s’il contient
la somme de chaque paire de ses éléments ; cette dernière propriété est satisfaite pour l’epigraph
d’une fonction à valeurs réelles si et seulement si la fonction est sous-additif (évident).
des points de Q on a
N
N
f( λi xi ) ≤ λi f (xi ).
i=1 i=1
de ces points appartient également à Epi(f ). Par la définition de l’epigraph, ça implique
N N
i=1 λi f (xi ) ≥ f ( i=1 λi xi ).
Notez que la définition de la convexité d’une fonction f est exactement la condition que f
satisfait l’inégalité de Jensen dans le cas de N = 2 ; nous voyons que satisfaire cette inégalité
pour N = 2 est la même chose que la satisfaire pour tout N .
5.1.3 Quelle est la valeur d’une fonction convexe en dehors de son domaine ?
Littéralement, cette question n’a pas de sens. Néanmoins, en parlant au sujet des fonctions
convexes, il est extrêmement commode de penser que la fonction a une valeur également en
dehors de son domaine, à savoir, la valeur +∞ ; avec cette convention, nous pouvons dire que
une fonction convexe sur Rn est une fonction à valeurs sur l’axe étendue R ∪ {+∞} tels que le
domaine domf de la fonction – l’ensemble des x où f (x) est fini – est non vide, et pour tous les
x, y ∈ Rn et tout λ ∈ [0, 1] on a
Si l’expression dans le côté droit contient des valeurs infinies, sa valeur est déterminée selon
les conventions standard et raisonnables sur ce qui sont des opérations arithmétiques sur “l’axe
réelle étendue” R ∪ {+∞} ∪ {−∞} :
– les opérations arithmétiques avec des réels sont comprises dans leur sens habituel ;
– la somme de +∞ et d’un réel, de même que la somme de +∞ et de +∞ est +∞ ; La
somme d’un réel et de −∞, même que la somme de −∞ et de −∞ est −∞. La somme de
+∞ et de −∞ est non définie ;
– le produit d’un réel et de +∞ est +∞, 0 ou −∞, si le réel est positif, zéro ou négatif, de
même pour le produit d’un réel et de −∞. Le produit de deux “infinis” est encore infini,
avec la règle habituelle pour déterminer le signe du produit.
Note that it is not clear in advance that our new definition of a convex function is equivalent
to the initial one : initially we included into the definition requirement for the domain to be
convex, and now we omit explicit indicating this requirement. In fact, of course, the definitions
are equivalent : convexity of Dom f – i.e., the set where f is finite – is an immediate consequence
of the “convexity inequality” (5.2).
Il est commode de penser à une fonction convexe comme à quelque chose qui est définie
partout, puisque ça permet d’économiser beaucoup de mots. Par exemple, avec cette convention
je peux écrire f + g (quand f et g sont deux fonctions convexes sur Rn ), et tout le monde
comprendra ce qui cela signifie ; sans cette convention, j’aurais du ajouter à cette expression
l’explication comme suit : “f + g est une fonction avec le domaine étant l’intersection de ceux
de f et de g, et dans cette intersection elle est définie comme (f + g)(x) = f (x) + g(x)”.
la convexité de l’objectif f et des contraintes gi est cruciale : il s’avère que les problèmes avec
cette propriété possèdent les propriétés théoriques très agréables (par exemple, les conditions
locales nécessaires d’optimalité pour ces problèmes sont suffisantes pour l’optimalité globale) ;
et ce qui est beaucoup plus important, des problèmes convexes peuvent être résolus efficacement
(dans le sens théorique et, dans une certaine mesure, dans le sens pratique de ce mot), ce qui
n’est pas, malheureusement, le cas pour des problèmes non convexes généraux. C’est pourquoi
il est si important de savoir comment détecter la convexité d’une fonction donnée.
5.2. COMMENT DETECTER LA CONVEXITE 99
Le plan de notre recherche est typique pour des mathématiques. Commençons par l’exemple
que vous connaissez de l’Analyse. Comment détectez-vous la continuité d’une fonction ? Natu-
rellement, il y a une définition de continuité en termes de et δ, mais ce serait vraiment un
désastre si chaque fois que nous devons prouver la continuité d’une fonction, nous étions obligés
re-démontrer que “pour tout positif il existe δ positif tels que...”. En fait nous employons une
autre approche : nous énumérons une fois pour toutes un certain nombre d’opérations standard
qui préservent la continuité, comme l’addition, la multiplication, des superpositions, etc., et
précisons un certain nombre d’exemples standards des fonctions continues. Pour montrer que
les opérations dans la liste préservent la continuité, de même que montrer que les fonctions
standards sont continues, ceci demande un certain effort, et les preuves sont faites en termes de
− δ ; mais après que cet effort soit une fois fourni, nous n’avons normalement aucune difficulté
à prouver la continuité d’une fonction donnée : il suffit de démontrer que la fonction peut être
obtenue, en nombre fini d’étapes, de nos ”matières premières” – fonctions standards qui sont
continues – en appliquant nos “machines” – les règles de combinaison qui préservent la conti-
nuité. Normalement cette démonstration est effectuée par un mot simple ”évident” ou même est
comprise par défaut.
C’est exactement le cas avec la convexité. Ici nous devrions également préciser la liste
d’opérations qui préservent la convexité et un certain nombre de fonctions convexes standards.
[Pour justifier cette règle, notez que si λ ∈ (0, 1) et x, x ∈ Dom φ, alors z = f (x), z = f (x )
sont les vecteurs dans Rk qui appartiennent au Dom F , et par la convexité des composants
de f nous avons
f (λx + (1 − λ)x ) ≤ λz + (1 − λ)z ;
en particulier, nous avons sur la gauche un vecteur de Rk qui n’a pas d’entrees infinies, et
nous pouvons user la monotonie de F :
]
(Imaginez combien de mots supplémentaires seraient nécessaires ici s’il n’y avait aucune conven-
tion sur la valeur d’une fonction convexe en dehors de son domaine !)
nous avons deux règles supplémentaires :
– [stabilité sous la minimisation partielle] si f (x, y) : Rnx × Rm
y est convexe comme
fonction de z = (x, y) et la fonction
est dite propre, c.-à-d., est > −∞ partout et est fini au moins en un point, alors g est
convexe
[ceci peut être montré comme suit. Nous devrions prouver que si x, x ∈ Dom g et x =
λx + (1 − λ)x avec λ ∈ [0, 1], alors x ∈ Dom g et g(x ) ≤ λg(x) + (1 − λ)g(x ). Étant
donné positif nous pouvons trouver y et y tels que (x, y) ∈ Dom f , (x , y ) ∈ Dom f
et g(x) + ≥ f (x, y), g(x ) + ≥ f (x , y ). En prenant la somme pondérée de ces deux
inégalités, nous obtenons
Proposition 5.2.1 [Condition nécessaire et suffisant de convexité pour des fonctions régulières
sur la droite] Soit (a, b) un intervalle sur l’axe réelle (nous n’excluons pas le cas de a = −∞
et/ou b = +∞). Alors
(i) Une fonction f qui est différentiable partout sur (a, b) est convexe sur (a, b) si et seulement
si sa dérivée f est monotone non décroissante sur (a, b) ;
(ii) Une fonction f deux fois différentiable sur (a, b) est convexe sur (a, b) si et seulement sa
dérivée seconde f est non négatif partout sur (a, b).
Avec la proposition, on peut immédiatement vérifier que les fonctions énumérées comme
exemples des fonctions convexes dans la Section 5.1.1 sont en effet convexes. La seule difficulté
qu’on rencontre est que certaines de ces fonctions (par exemple, xp , p ≥ 1, et −xp , 0 ≤ p ≤ 1
ont été annoncées d’être convexes sur le mi-intervalle [0, +∞), alors que la proposition parle
de la convexité des fonctions sur des intervalles ouverts. Pour surmonter cette difficulté, on va
employer le fait suivant :
Proposition 5.2.2 Soit M un ensemble convexe et f une fonction avec Dom f = M . Supposons
que f est convexe sur ri M et continu sur M , c.-à-d.
f (xi ) → f (x), i → ∞,
pour toutes suite convergeante (xi ) vers x dans M . Alors f est convexe sur M .
Preuve de la Proposition 5.2.1 :
(i), nécessité. Suppons que f est différentiable et convexe sur (a, b) ; nous devrions montrer
qu’alors f monotone non décroissante. Soient x < y deux points de (a, b), et montrons que
f (x) ≤ f (y). En effet, soit z ∈ (x, y). Nous avons la représentation suivante de z comme
combinaison convexe de x et y :
y−z x−z
z= x+ y,
y−x y−x
d’où, par convexité,
y−z x−z
f (z) ≤ f (x) + f (y),
y−x y−x
d’où
f (z) − f (x) f (y) − f (z)
≤ .
x−z y−z
Passant ici à la limite quand z → x + 0, nous obtenons
f (y) − f (x)
f (x) ≤ ,
y−x
102 CHAPITRE 5. FONCTIONS CONVEXES
f (y) − f (x)
f (y) ≥ ,
y−x
ou, ce qui est la même chose (il suffit d’écrire f (z) comme λf (z) + (1 − λ)f (z)), que
Des Propositions 5.2.1.(ii) et 5.2.2 nous obtenons la conditions nécessaire et suffisante suivant
pour la convexité de la fonction régulière de n variables :
Corollaire 5.2.1 [Critère de convexité pour des fonctions régulières sur Rn ]
Soit f : Rn → R ∪ {+∞} une fonction. Supposons que le domaine Q de f est un ensemble
convexe avec un intérieur non vide et que f est
– continu sur le Q
– deux fois différentiable sur l’intérieur de Q.
Alors f est convexe si et seulement si son Hessian est semidefinite positif sur l’intérieur de Q :
hT f (x)h ≥ 0 ∀x ∈ int Q ∀h ∈ Rn .
∗
Preuve : La partie “seulement si” est évidente : si f est convexe et x ∈ Q = int Q,
alors la fonction d’une variable g(t) = f (x + th), où h est une direction arbitraire dans
Rn , est convexe dans un certain voisinage du point t = 0 sur l’axe réelle (les substitutions
affines d’arguments conservent la convexité). Puisque f est deux fois différentiable dans
un voisinage de x, g est deux fois différentiable dans un voisinage de t = 0, de sorte que
g (0) = hT f (x)h ≥ 0 par Proposition 5.2.1.
Il nous reste de prouver la partie “si”. Supposons alors que nous soyons donnés
hT f (x)h ≥ 0 pour chaque x ∈ int Q et chaque h ∈ Rn . Nous devons montrer que f
est convexe.
Montrons d’abord que f est convexe sur l’intérieur Q du domaine Q. Comme nous savons
du Théorème 2.1.1, Q est un ensemble convexe. Tout ce que nous devons prouver est que
chaque version unidimensionnelle
g(t) = f (x + t(y − x)) 0 ≤ t ≤ 1
avec x et y dans Q est convexe sur le segment 0 ≤ t ≤ 1. Puisque f est continu sur Q ⊃ Q , g
est continu sur le segment ; et puisque f est deux fois différentiable sur Q , g est différentiable
sur (0, 1) avec la deuxième dérivée
g (t) = (y − x)T f (x + t(y − x))(y − x) ≥ 0.
En conséquence, g est convexe sur [0, 1] (Propositions 5.2.1.(ii) et 5.2.2). Ainsi, f est convexe
sur Q . Il reste pour noter que f , étant convexe sur Q et continu sur Q, est convexe sur Q
par Proposition 5.2.2.
En appliquant les règles de combinaison qui préservent la convexité aux fonctions simples qui
passent le test “infinitésimal” de convexité, nous pouvons prouver la convexité des fonctions
complexes. Considérons, par exemple, un posynôme exponentiel – la fonction
N
f (x) = ci exp{aTi x}
i=1
avec les coefficients positifs ci (c’est pourquoi la fonction s’appelle posynomiale). Comment
pourrions-nous montrer que la fonction est convexe ? C’est immédiat :
exp{t} est convexe (puisque sa dérivée seconde est positive et donc la première dérivée est
monotone) ;
par conséquent, toutes les fonctions exp{ati x} sont convexes (la stabilité de la convexité par
rapport aux substitutions affines d’argument) ;
par conséquent, f est convexe (stabilité de la convexité par rapport aux combinaisons linéaires
avec des coefficients non négatifs).
Et si nous étions censés de montrer que le maximum des trois posynomes est convexe ? Et
bien, nous pourrions ajouter à nos trois étapes le quatrième, qui se rapporte à la stabilité de la
convexité sous p la maximisation ponctuelle.
104 CHAPITRE 5. FONCTIONS CONVEXES
Géométriquement : le graph
yτ = x + τ (y − x), 0 < τ ≤ 1,
de sorte que y1 = y et yτ soit un point intérieur du segment [x, y] pour 0 < τ < 1. Maintenant
nous utilisons le lemme suivant :
Lemme 5.3.1 Soit x, x , x trois points distincts avec x ∈ [x, x ], et soit f
convexe et fini sur [x, x ]. Alors
f (x ) − f (x) f (x ) − f (x)
≤ . (5.4)
x − x x − x
Preuve du Lemme : Nous avons
x − x
x = x + λ(x − x), λ= ∈ (0, 1)
x − x
ou
x = (1 − λ)x + λx .
Par la convexité de f ,
f (x ) ≤ (1 − λ)f (x) + λf (x ),
ou
f (x ) − f (x) ≤ λ(f (x ) − f (x )).
En divisant par λ et en soumettant dans cette formule la valeur de λ, nous obtenons
(5.4).
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES105
Autrement dit,
(y − x)T ∇f (x) ≤ f (y) − f (x);
ce qui est exactement l’inégalité (5.3).
Pour conclure l’histoire de l’Inégalité du Gradient, il est utile de noter que dans le
cas quand Q est un ensemble convexe avec l’intérieur non vide et f est continu sur Q et
différentiable sur int Q, alors f est convexe sur Q si et seulement si l’Inégalité du Gradient
(5.3) est vérifiée pour chaque paire x int Q et y ∈ Q.
En effet, la partie “seulement si”, c.-à-d., l’implication
la convexité de f → Inégalité du Gradient pour tout x ∈ int Q et tout y ∈ Q
est donnée par la Proposition 5.3.1. Pour prouver la partie “si”, c.-à-d., pour établir l’impli-
cation réciproque, supposons que f satisfait l’inégalité de gradient pour tout le x ∈ int Q et
tout le y ∈ Q, et vérifions que f est convexe sur Q. Il suffit de montrer que f est convexe sur
l’intérieur Q de l’ensemble Q (voir la Proposition 5.2.2). Pour montrer que f est convexe sur
Q , notez que Q est convexe (Théorème 2.1.1) et que, en raison de l’Inégalité du Gradient,
sur Q f est la borne supérieure de la famille affine (et donc convexe) des fonctions :
une fonction convexe f de deux variables qui n’est pas bornée, avec un domaine com-
pact non-polyhedral (par exemple, avec Dom f étant le disque unité), pour lequel (1)
et (2) sont verifier, mais pas (3).
Remarque 5.4.2 Théorème 5.4.1 dit qu’une fonction convexe f est bornée sur tout sous-
ensemble compact de l’intérieur relatif de Dom f . En fait il y a un résultat bien plus fort sur
la borne inférieure de f : f est bornée inférieurement sur tout sous-ensemble borne de Rn !
Preuve du Théorème 5.4.1. Nous commencerons par la version locale suivante du
théorème.
Proposition 5.4.1 Soit f une fonction convexe, et soit x̄ un point de l’intérieur relatif du
domaine Dom f de f . Alors
(i) f est bornée en x̄ : il existe un r positif tels que f est bornée dans le r-voisinage Ur (x̄)
de x̄ dans l’enveloppe affine de Dom f :
(ii) f est Lipschitzienne en x̄, c.-à-d., il existe un ρ positif et une constante L tels que
Puisque K est compact, en passant à une sous-suite nous pouvons supposer que le xi → x ∈ K
de et yi → y ∈ K. Par la Proposition 5.4.1 le cas x = y est impossible – f est Lipschitzienne
dans un voisinage B de x = y ; comme xi → x et yi → y, ce voisinage devrait contenir tous
les xi et yi avec i assez grands ; mais alors, grâce à la propriété de Lipschitz de f dans B,
les rapports (f (xi ) − f (yi ))/|xi − yi | forment une suite bornée, ce qui n’est pas le cas par
hypothèse.
Le cas x = y est “encore moins” possible – puisque, par la proposition, f est continu
sur Dom f , en deux points x et y (notez que la propriété de Lipschitz en un point implique
clairement la continuité de la fonction), de sorte que nous ayons f (xi ) → f (x) et f (yi ) → f (y)
quand i → ∞. Ainsi, le côté gauche de (5.6) reste borné quand i → ∞. Dans le côté droit i
tend vers ∞, et le facteur |xi − yi | a une limite de non nulle |x − y|, ainsi le côté droit tend
vers ∞ avec i, ce qui mène à la contradiction.
Preuve de la Proposition 5.4.1.
10 . Nous commençons par montrer que la fonction f est bornée au-dessus dans un voisi-
nage de x̄. C’est immédiat : nous savons qu’il existe un voisinage Ur̄ (x̄) qui est contenu dans
Dom f (puisque, par hypothèse, x̄ est un point de l’intérieur relatif de Dom f ). Maintenant,
nous pouvons trouver un petit simplex Δ de dimension m = dim Aff(Dom f ) avec les som-
mets x0 , .., xm dans Ur̄ (x̄) de telle manière que x̄ soit une combinaison convexe des vecteurs
xi avec des coefficients positifs, et même avec les coefficients 1/(m + 1) :
m
1
x̄ = xi 2) .
i=0
m+1
2. ) pour voir qu’un tel Δ existe, nous pouvons agir comme suit : d’abord, le cas de Dom f étant un singleton
est évident, ainsi nous pouvons supposer que Dom f est un ensemble convexe de dimension m ≥ 1. Prenons une
5.4. BORNITUDE ET LA PROPRIETE DE LIPSCHITZ DES FONCTIONS CONVEXES107
Nous savons que x̄ est le point de l’intérieur relatif de Δ (regarder la preuve du Théorème
2.1.1.(ii)) ; puisque Δ engendre le même ensemble affine que Dom f (m est bien la dimension
de Aff(Dom f ) !), cela signifie que Δ contient Ur (x̄) avec certain r > 0. Maintenant, dans
m
Δ={ λi xi | λi ≥ 0, λi = 1}
i=0 i
nous permet d’obtenir le m xi = zi + x̄ − z̄ qui est contenu dans le r̄/5-voisinage de x̄ dans
simplex avec les sommets
m
M et tel que (m + 1)−1 i=0 xi ≡ (m + 1)−1 i=0 [zi + x̄ − z̄] = z̄ + x̄ − z̄ = x̄, comme requis.
J’ai donné cet horrible “explication” pour montrer combien de mots nous avons besoin pour rendre rigoureuse
la recette évidente “prenons un petit simplex avec la moyenne de sommets égale à x̄”. Les “explications” de ce
type n’ont pas lieu d’être (et seront omises), parce que en faisant cela on risque de tuer même le raisonnement le
plus clair. Notez, en tous cas, que dans les mathématiques nous devrions pouvoir expliquer, si on nous demande,
ce qui signifie “prendre un petit simplex” et comment peut-on le “prendre”. Inutile de dire que vous êtes censés
pouvoir effectuer ce travail routine par vous-mêmes ; à cet effet vous devriez vous rappeler ce qui est la signification
exacte des mots que nous employons et ce qui sont les relations de base entre le concepts.
108 CHAPITRE 5. FONCTIONS CONVEXES
Le deuxième facteur du côté droit n’excède pas la quantité (2c)/(r/2) = 4c/r ; en effet, le
numérateur est, en valeur absolue, au plus 2C (puisque |f | est bornée par C dans Ur et x, x
sont dans Ur ) et le dénominateur est au moins r/2 (en effet, x est à la distance tout au plus
r/2 de x̄, et x est à la distance exactement r de x̄, de sorte que la distance entre x et x ,
par l’inégalité de triangle, soit au moins r/2). Ainsi, nous avons
en permutant x et x , on arrive à
d’où
|f (x) − f (x )| ≤ (4C/r) x − x , x, x ∈ Ur/2 ,
Théorème 5.5.1 [“Unimodalité”] Soit f une fonction convexe sur un ensemble convexe Q ⊂
Rn , et soit x∗ ∈ Q ∩ Dom f un minimiseur local de f sur Q :
De plus, l’ensemble ArgminQ f de tous les minimiseurs locaux (≡ globaux) de f sur Q est
convexe.
Si f est strictement convexe (c.-à-d. que l’inégalité de convexité f (λx + (1 − λ)y) ≤ λf (x) +
(1− λ)f (y) est stricte quelques soient x = y et λ ∈ (0, 1)), alors soit cet ensemble est vide empty,
soit il est un singleton.
Comme x∗ est un minimiseur local de f , le côté gauche de cette inégalité est non négatif pour
tout τ > 0 assez petit. On en déduit que le côté droit est non négatif, c.-à-d., f (y) ≥ f (x∗ ).
2) Le convexité de ArgminQ f , vient du fait que ArgminQ f n’est rien d’autre que l’ensemble
de niveau levα (f ) de f associé à la valeur minimale minQ f de f sur Q ; comme tout ensemble
de niveau d’une fonction convexe, cet ensemble est convexe (Proposition 5.1.4).
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 109
3) Pour montrer que l’ensemble ArgminQ f lié à une fonction f strictement convexe est,
si non vide, un singleton, notez que s’il y avait deux minimizers distincts x , x , alors, de la
convexité stricte, nous aurions
1 1 1
f ( x + x ) < [f (x ) + f (x )] = min f,
2 2 2 Q
Théorème 5.5.2 [Condition nécessaire et suffisante d’optimalité pour une fonction convexe
différentiable]
Soit f une fonction convexe sur l’ensemble convexe Q ⊂ Rn , et soit x∗ un point intérieur
de Q. Supposons que f est différentiable en x∗ . Alors x∗ est un minimizer de f sur Q si et
seulement si
∇f (x∗ ) = 0.
Preuve : comme condition nécessaire pour l’optimalité locale, la relation ∇f (x∗ ) = 0 est connue
de l’Analyse ; elle n’a rien en commun avec la convexité. L’essence de la matière est, naturelle-
ment, la suffisance de cette condition pour l’optimalité globale de x∗ dans le cas de f convexe.
Cette suffisance est donnée par l’Inégalité du Gradient (5.3) : en vertu de cette inégalité et en
raison de ∇f (x∗ ) = 0,
f (y) ≥ f (x∗ ) + (y − x∗ )∇f (x∗ ) = f (x∗ )
pour tout y ∈ Q.
qui correspond aux contraintes aTi x ≤ bi de la description de Q qui sont actives en x∗ (c.-à-d.,
ceux parmi les inégalités qui sont égalités en x∗ plutôt que des inégalités strictes(Pourquoi ?))
110 CHAPITRE 5. FONCTIONS CONVEXES
hT ∇f (x∗ ) ≥ 0 ∀h ∈ TQ (x∗ ).
Preuve est immédiate. La nécessité est évidente, ce qui n’a rien à voir avec la convexité :
en supposant que x∗ est un minimiseur local de f sur Q, nous notons que s’il y avait une
direction h ∈ TQ (x∗ ) avec hT ∇f (x∗ ) < 0, alors nous aurions
pour tout t > 0 assez petit. D’autre part, x∗ + th ∈ Q pour tout t > 0 assez petit dû à
h ∈ TQ (x∗ ). Combinant ces observations, nous concluons que dans chaque voisinage de x∗ il
y a des points de Q avec une valeur de f strictement plus petite que f (x∗ ) ; ceci contredit
l’hypothèse que x∗ est un minimiseur local de f sur Q.
La suffisance est une conséquence de l’Inégalité du Gradient, exactement comme dans le
cas quand x∗ est un point intérieur de Q.
La condition (*) indique que si f est convexe sur Q et différentiable en x∗ ∈ Q, la condition
nécessaire et suffisante pour que x∗ soit un minimiseur de f sur Q est que la forme linéaire
donnée par le gradient ∇f (x∗ ) de f en x∗ doit être non négative sur toutes les directions du
cône tangent TQ (x∗ ). Les formes linéaires non négatives sur toutes les directions du cône tangent
forment également un cône (Vérifiez cela !) ; ce cône s’appelle le cône normal à Q en x∗ et est noté
NQ (x∗ ). Ainsi, (*) dit que la condition nécessaire et suffisante pour que x∗ donne le minimum
de f sur Q est l’inclusion ∇f (x∗ ) ∈ NQ (x∗ ). Ce qui cette condition veut dire réellement, dépend
de ce qui est le cône normal : si nous avons une description explicite du cône normal, nous avons
une forme explicite de la condition d’optimalité.
Par exemple, quand TQ (x∗ ) = Rn (autrement dit, quand x∗ est un point intérieur de Q),
alors le cône normal est composé des formes linéaires non négatives sur l’espace entier, c.-à-d.,
c’est le cône trivial {0} ; par conséquent, dans ce cas en la condition d’optimalité devient la règle
∇f (x∗ ) = 0 de Fermat.
Quand Q est l’ensemble polyhedral (5.9), le cône tangent est le cône polyhedral (5.10) ; il est
composé de toutes les directions qui ont les produits scalaires non positifs avec tous les vecteurs
ai des inégalités actives en x∗ . Le cône normal est composé de tous les vecteurs qui ont les
produits scalaires non négatifs avec toutes ces directions, c.-à-d., il contient des vecteurs a tels
que l’inégalité hT a ≥ 0 est une conséquence des inégalités hT ai ≤ 0, i ∈ I(x∗ ) ≡ {i | aTi x∗ = bi }.
Nous concluons du Lemme de Farkas Homogène que le cône normal est simplement l’enveloppe
conique des vecteurs −ai , i ∈ I(x∗ ). Ainsi, dans le cas en question (*) lit :
x∗ ∈ Q est un minimiseur de f sur Q si et seulement si il existent des réels non négatifs λ∗i
associés “aux indices actifs” i (ceux dans I(x∗ )) tels que
∇f (x∗ ) + λ∗i ai = 0.
i∈I(x∗ )
Ceux-ci sont les célèbres conditions d’optimalité de Karush-Kuhn-Tucker ; dans le chapitre sui-
vant nous montrerons que ces conditions sont nécessaires et suffisantes d’optimalité dans une
situation bien plus générale.
5.5. MAXIMUM ET MINIMUM DE FONCTIONS CONVEXES 111
Les résultats ci-dessus montrent que le fait qu’un point x∗ ∈ Dom f est un minimizer global
d’une fonction convexe f ne dépend que du comportement local de f en x∗ . Ce n’est pas le cas
avec des maximums d’une fonction convexe. Tout d’abord, un tel maximum, s’il existe, dans
tous les cas non triviaux devrait appartenir à la frontière du domaine de la fonction :
Théorème 5.5.3 Soit f convexe, et soit Q le domaine de f . Supposons que f atteint son
maximum sur Q en un point x∗ de l’intérieur relatif de Q. Alors f est constante sur Q.
Preuve : soit y ∈ Q ; nous devons prouver que f (y) = f (x∗ ). Il n’y a rien à prouver si y = x∗ ,
ainsi nous allons supposer que y = x∗ . Puisque, par hypothese, x∗ ∈ ri Q, nous pouvons prolonger
le segment [x∗ , y] par le point final x∗ , tout en gardant l’extrémité gauche du segment dans Q.
En d’autres termes, il existe un point y ∈ Q tels que x∗ est un point intérieur du segment [y , y] :
x∗ = λy + (1 − λ)y
pour un certain λ ∈ (0, 1). Par définition de convexité
Comme f (y ) et f (y) son inférieurs à f (x∗ ) (x∗ est un maximiseur de f sur Q !) et les poids λ et
1 − λ sont strictement positifs, cette inégalité n’est peut être valide que si f (y ) = f (y) = f (x∗ ).
Preuve : pour montrer (5.11), supposons que x ∈ ConvE, de façon que x est une combinaison
convexe des points de E (Théorème 2.1.3 sur la structure de l’enveloppe convexe) :
x= λi xi [xi ∈ E, λi ≥ 0, λi = 1].
i i
Ainsi le côté gauche de (5.11) est ≤ le côté droit ; l’inégalité réciproque est évidente, car Conv E ⊃
E.
Pour obtenir (5.12) de (5.11), il suffit de noter que par le Théorème de Krein-Milman
(Théorème 4.2.1) pour S convexe nous avons S = Conv Ext(S).
Le dernier théorème sur des maximum des fonctions convexes est comme suit :
112 CHAPITRE 5. FONCTIONS CONVEXES
∗
Théorème 5.5.5 Soit f une fonction convexe tels que le domaine Q de f est fermé et ne
contient pas de droites. Alors
(i) si l’ensemble de maximiseurs globaux de f
est non vide, alors il rencontre l’ensemble Ext(Q) des points extrêmes de Q, de sorte qu’au
moins un des maximiseurs de f soit un point extrême de Q ;
(ii) si l’ensemble Q est polyhedral et f est bornée supérieurement sur Q, alors le maximum
de f sur Q est atteint : ArgmaxQ f = ∅.
Preuve : nous commençons par (i). Nous prouverons ce résultat par induction sur la
dimension de Q. Le cas dim Q = 0, c.-à-d., le cas d’un singleton Q, est trivial, car ici
Q = ExtQ = ArgmaxQ f . Supposons maintenant que le résultat en question est valide pour
le cas de dim Q ≤ p, et montrons qu’il est valide également pour le cas de dim Q = p + 1.
Vérifions d’abord que l’ensemble ArgmaxQ f rencontre la frontière (relative) de Q. En effet,
soit x ∈ ArgmaxQ f . Il n’y a rien à prouver si x lui-même est un point de la frontière relative
de Q ; et si x n’est pas un point de frontière, alors, par Théorème 5.5.3, f est constant sur Q,
de sorte que ArgmaxQ f = Q ; et puisque Q est fermé, n’importe quel point de la frontière
relative de Q (un tel point existe, puisque Q ne contient pas de droites et est de dimension
positive) est un maximiseur de f sur Q, de sorte que là encore ArgmaxQ f rencontre ∂r iQ.
Ainsi, parmi les maximiseurs de f il existe au moins un, disons x, qui appartient à la
frontière relative de Q. Alors, soit H un hyperplan de support de Q en x (voir la Section
4.1), et soit Q = Q ∩ H. L’ensemble Q est fermé et convexe (car Q et H le sont), non vide
(il contient x) et ne contient pas de droites (puisque Q ne contient pas de droites). Nous
avons maxQ f = f (x) = maxQ f (notez qui Q ⊂ Q), d’où
∅ = Argmax f ⊂ Argmax f.
Q Q
Ext(Q ) ∩ Argmax f = ∅.
Q
Comme Ext(Q ) ⊂ Ext(Q), et, comme nous venons de voir ArgmaxQ f ⊂ ArgmaxQ f , nous
concluons que Ext(Q) ∩ ArgmaxQ f n’est pas plus petit que le Ext(Q ) ∩ ArgmaxQ f et donc
est non vide, comme exigé.
Pour prouver (ii), nous utilisons le résultat sur la structure de l’ensemble polyhedral :
où S et R sont les ensembles finis. Nous sommes sur le point de montrer que la borne
supérieure de f sur Q est exactement le maximum de f sur l’ensemble fini S :
Ceci signifiera, en particulier, que f atteint son maximum sur Q – par exemple, dans le point
où f atteint son maximum sur S.
Pour prouver ce résultat, nous allons montrer d’abord que si f bornée supérieurement
sur Q, alors chaque direction r ∈ Cone (R) est celle de descente pour f , c.-à-d., est telle que
toute déplacement dans cette direction prise dans n’importe quel point x ∈ Q diminue f :
En effet, si, au contraire, il y avait x ∈ Q, r ∈ R et t ≥ 0 tels que f (x + tr) > f (x), nous
aurions t > 0 et, par le Lemme 5.3.1,
s
f (x + sr) ≥ f (x) + (f (x + tr) − f (x)), s ≥ t.
t
Somme x ∈ Q et r ∈ Cone (R), x + sr ∈ Q pour tout s ≥ 0, et puisque f est bornée
supérieurement sur Q, le côté gauche dans la dernière inégalité est borné, tandis que la
quantité à droite tend à +∞ quand s → ∞ en raison de f (x + tr >) > f (x).
Maintenant pour montrer (5.13) il suffit de remarquer qu’un point générique x ∈ Q peut
être représenté en comme
x= λs s + r [r ∈ Cone (R); λs = 1, λs ≥ 0],
s∈S s
et nous avons
f (x) = f (s∈S λs s + r)
≤ f ( s∈S λs s)
[par (5.14)]
≤ s∈S λs f (s) [par l’inégalité de Jensen]
≤ maxs∈S f (s)
114 CHAPITRE 5. FONCTIONS CONVEXES
5.6 Exrecices
Exercice 5.1 Marquez par ”c” celles parmi les fonctions ci-dessous qui sont convexes sur les
domaines indiqués :
– f (x) ≡ 1 sur R
– f (x) = x sur R
– f (x) = |x| sur R
– f (x) = −|x| sur R
– f (x) = −|x| sur R+ = {x ≥ 0}
– exp{x} sur R
– exp{x2 } sur R
– exp{−x2 } sur R
– exp{−x2 } sur {x | x ≥ 100}
Exercice 5.3 Une fonction réelle f définie sur un ensemble convexe Q est appelée log-convexe
sur Q, si elle est à valeurs positives sur Q et la fonction ln f est convexe sur Q. Montrez que
– une fonction log-convexe sur Q est convexe sur Q
– la somme (et plus généralement, toute combinaison linéaire avec des coefficients positifs)
des deux fonctions log-convexes sur Q est aussi log-convexe sur Q.
Indication : utilisez le résultat de l’exercice précèdent et votre connaissance d’operations
préservant la convexité
cT x → min | Ax ≤ b
avec une matrice A m × n. Soit x∗ une solution optimale du problème, c.-à-d., x∗ est un minimi-
seur d’une fonction convexe différentiable f (x) = cT x sur l’ensemble convexe Q = {x | Ax ≤ b}
et, ainsi, selon la Remarque 5.5.1, ∇f (x∗ ) doit appartenir au cône normal de Q en x∗ – c’est
la condition nécessaire et suffisante d’optimalité de x∗ . Que veut dire cette condition en termes
de A, b et c ?
Chapitre 6
Dans ce chapitre nous touchons à notre objectif principal – les conditions d’optimalité, nous
obtiendrons ces conditions pour le cas le plus favorable de programmation convexe.
(P) min {f (x) | x ∈ X, g(x) ≡ (g1 (x), ..., gm (x)) ≤ 0, h(x) ≡ (h1 (x), ..., hk (x)) = 0} . (6.1)
115
116 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Une contrainte d’égalité de hi (x) = 0 est active par définition en chaque solution faisable
x.
– [valeur optimale] la valeur
inf x∈X:g(x)≤0,h(x)=0 f (x), le problème faisable
f∗ =
+∞, le problème infaisable
s’appelle la valeur optimale du problème
– [bornitude] le problème s’appelle borné inférieurement, si son valeur optimale est > −∞,
c.-à-d., si l’objectif est borné inférieurement sur l’ensemble faisable
– [solution optimale] un point x ∈ Rn s’appelle solution optimale de (6.1), si x est faisable
et f (x) ≤ f (x ) pour n’importe quelle autre solution faisable x , c.-à-d., si
x∈ Argmin f (x )
x ∈X:g(x )≤0,h(x )=0
– [problème soluble] un problème s’appelle soluble, s’il admet des solutions optimales
– [ensemble optimal] l’ensemble de toutes les solutions optimales d’un problème s’appelle
son ensemble optimal
Résoudre le problème sous-entend trouver une solution optimale ou détecter qu’il n’existe aucune
solution optimale.
et
x ∈ G, f (x) < c, gj (x) ≤ 0, j = 1, ..., m; (6.3)
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 117
où c est un paramètre. L’optimalité de x∗ pour ce problème signifie exactement que pour c
convenablement choisi (ce choix, naturellement, est c = f (x∗ )) le premier de ces systèmes est
soluble et x∗ est sa solution, alors que le deuxième système est insoluble. En partant de cette
observation triviale, nous avons converti “sa partie négative” – l’affirmation que (6.3) est inso-
luble – en un résultat positif, en utilisant le Théorème Général sur l’Alternative, et ceci nous a
mené au Théorème de Dualité de LP.
Maintenant nous allons employer la même approche. Ce que nous avons besoin est un “ana-
logue convexe” du Théorème sur l’Alternative. Autrement dit, on cherche quelque chose comme
ce dernier résultat mais pour le cas quand les inégalités en question sont données par des fonctions
convexes plutôt que par des fonctions linéaires (et, de plus, nous avons une inclusion convexe
x ∈ X).
Le résultat dont on a besoin est facile à deviner. Comment sommes-nous venus à la formu-
lation du Théorème sur l’Alternative ? Nous nous sommes posé la question : comment exprimer
d’une façon affirmative le fait qu’un système d’inégalités linéaires n’a pas de solution ; et nous
avons observé que si nous pouvons combiner, d’une façon linéaire, les inégalités du système
et obtenir une inégalité évidemment fausse comme 0 ≤ −1, alors le système est insoluble ;
cette condition contient une certaine affirmation sur les poids avec lesquels nous combinons les
inégalités originales.
Maintenant, le schema du raisonnement ci-dessus n’a rien en commun avec la linéarité (et
même avec la convexité) des inégalités en question. En effet, considérez un système arbitraire
d’inégalités du type (6.3) :
(I)
f (x) < c
gj (x) ≤ 0, j = 1, ..., m
x ∈ X;
nous supposons que X soit un sous-ensemble non vide de Rn et f, g1 , ..., gm sont des fonctions
à valeurs réelles sur X. Il est absolument évident que
s’il existent λ1 , ..., λm non négatifs tels que l’inégalité
m
f (x) + λj gj (x) < c (6.4)
j=1
n’a aucune solution dans X, alors (I) n’a également aucune solution.
En effet, une solution de (I) est clairement une solution de (6.4) – la dernière inégalité n’est rien
qu’une combinaison des inégalités de (I) avec les poids 1 (pour la première inégalité) et λj (pour
le reste).
Maintenant, que signifie-t-il que (6.4) n’a aucune solution ? Une condition nécessaire et suf-
fisant pour ceci est que l’infinum du côté gauche de (6.4) en x ∈ X est ≥ c. Ainsi, nous venons
au
Proposition 6.2.1 [condition suffisant pour l’insolubilité de (I)] Considérons un système (I)
avec des données arbitraires et supposons que le système
(II)
m
inf x∈X f (x) + j=1 λj gj (x) ≥ c
λj ≥ 0, j = 1, ..., m
avec des inconnus λ1 , ..., λm a une solution. Alors (I) est insoluble.
118 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Il est important de se rappeler que ce résultat est complètement général : il n’exige aucune
hypothèse sur les entités impliquées.
Le résultat que nous avons obtenu, malheureusement, ne nous aide pas : la force du Théorème
sur l’Alternative (et le fait que nous avons utilisé pour prouver le Théorème de Dualité pour
la Programmation Linéaire) n’était pas la suffisance de la condition dans la proposition pour
l’insolubilité de (I), mais la nécessité de cette condition. La justification de la nécessité de la
condition en question n’a rien en commun avec le raisonnement évident qui donne la suffisance.
Nous avons établi la nécessité pour le cas linéaire (quand X = Rn et f , g1 ..., gm sont linéaires)
dans le Chapitre 4 par l’intermédiaire du Lemme de Farkas. Nous allons prouver la nécessité
de la condition pour le cas convexe, et déjà dans ce cas nous avons besoin d’une hypothèse
additionnelle ; et dans le cas non convexe général la condition en question n’est simplement pas
nécessaire pour l’insolubilité de (I)
Ce “préface” explique ce que nous devrions faire. Nous commençons par l’hypothèse
supplémentaire de régularité mentionnée ci-dessus.
Définition 6.2.1 [Condition de Slater] Soit X ⊂ leRn et g1 ..., gm des fonctions à valeurs réelles
sur X. Nous disons que ces fonctions satisfont la condition de Slater sur X, s’il existe x ∈ X
tel que gj (x) < 0, j = 1, ..., m.
On dit qu’un problème avec des contraintes d’inégalités
(f, g1 , ..., gm sont des fonctions réelles sur X) satisfait la condition de Slater, si g1 , ..., gm satis-
font cette condition sur X.
et
T = {(u0 , ..., um ) | u0 < c, u1 ≤ 0, u2 ≤ 0, ..., um ≤ 0}.
J’affirme que
– (i) S et T sont les ensembles convexes non vides ;
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 119
Le côté gauche dans cette inégalité, due à la convexité de X et de f, g1 , ..., gm , est ≥ F (y),
y = λx + (1 − λ)x . Alors, pour le point v = λu + (1 − λ)u , il existe y ∈ X avec F (y) ≤ v,
d’où v ∈ S. Ainsi, S est convexe.
Le fait que S ∩T = ∅ est une reformulation équivalente du fait que (I) n’a aucune solution.
20 . Comme S et T sont des ensembles convexes non vides avec l’intersection vide, selon
le Théorème de Séparation ils peuvent être séparés par une forme linéaire : il existe a =
(a0 , ..., am ) = 0 tel que
m m
inf aj uj ≥ sup aj u j . (6.5)
u∈S u∈T j=0
j=0
a ≥ 0. (6.6)
et, en second,
a0 > 0. (6.7)
En effet, pour prouver (6.6) notons que si quelques ai étaient négatifs, alors le côté droit
dans (6.5) serait +∞ 2) , ce qui est interdit par (6.5).
Ainsi, a ≥ 0 ; alors, nous pouvons immédiatement calculer le côté droit de (6.5) :
m
m
sup aj u j = sup aj uj = a0 c.
u∈T j=0 u0 <c,u1 ,...,um ≤0 j=0
Puisque pour chaque x ∈ X le point F (x) appartient à S, le côté gauche dans (6.5) n’est pas
moins que ⎡ ⎤
m
inf ⎣a0 f (x) + aj gj (x)⎦ ;
x∈X
j=1
Montrons maintenant que a0 > 0. Ce fait crucial est une conséquence immédiate de la
condition de Slater. En effet, soit x̄ ∈ X le point donné par cette condition, de sorte que
gj (x̄) < 0. De (6.8) nous concluons que
m
a0 f (x̄) + aj gj (x̄) ≥ a0 c.
j=0
Si a0 était 0, alors
mde côté droit de cette inégalité nous aurions 0, alors que le gauche serait
la combinaison j=0 aj gj (x̄) des réels gj (x̄) négatifs avec les coefficients aj non négatifs
2. ) regardez ce qui se produit quand toutes les coordonnées dans u, excepté la i-ème, sont fixées aux valeurs
permises par la description de T et ui est un “grand” réel négatif
120 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
et pas tous égaux à 0 3) , de façon que le côté gauche est strictement négatif ce qui est la
contradiction recherchée.
40 . Maintenant nous pouvons terminer la preuve : comme a0 > 0, on peut diviser les
deux côtés de (6.8) par a0 pour obtenir
⎡ ⎤
m
inf ⎣f0 (x) + λj gj (x)⎦ ≥ c, (6.9)
x∈X
j=1
qui est à l’origine de cette fonction. L’agrégat (6.11) a un nom spécial – il s’appelle fonction de
Lagrange du programme d’optimisation sous contraintes d’inégalité
La fonction de Lagrange d’un programme d’optimisation est une entité très importante : la
plupart de conditions d’optimalité sont exprimées en termes de cette fonction. Commençons par
la traduction de ce que nous savons déjà en langage de fonction de Lagrange.
de la fonction de Lagrange en x ∈ X est, pour chaque λ ≥ 0, une borne inférieure pour la valeur
optimale de (IC), de sorte que la valeur optimale du programme d’optimisation
alors la valeur optimale de (IC∗ ) est atteint et est égal à la valeur optimale de (IC).
Preuve : (i) n’est rien que la Proposition 6.2.1 (comprenez svp pourquoi) ; cependant, il sera
utile de répéter le raisonnement sous-jacent :
Soit λ ≥ 0 ; afin de prouver que
m
∗
L(λ) ≡ inf L(x, λ) ≤ c [L(x, λ) = f (x) + λj gj (x)],
x∈X
j=1
c∗ étant la valeur optimale de (IC), notons que si x est faisable pour (IC), alors,
évidemment, L(x, λ) ≤ f (x), de sorte que l’infinum de L dans x ∈ X soit ≤ la valeur
minimale c∗ de f sur l’ensemble faisable de (IC).
(ii) est une conséquence immédiate du Théorème sur l’Alternative Convexe. En effet, soit c∗
la valeur optimale de (IC). Alors le système
n’a pas de solutions dans X, et par le théorème ci-dessus le système (ii) lié à c = c∗ a une
solution, c.-à-d., il existe λ∗ ≥ 0 tel que L(λ∗ ) ≥ c∗ . Mais nous savons de (i) que l’inégalité
stricte ici est impossible et, par ailleurs, L(λ) ≤ c∗ pour chaque λ ≥ 0. Ainsi, L(λ∗ ) = c∗ et λ∗
est le maximiseur de L sur λ ≥ 0.
Programme Dual
Théorème 6.2.2 établit un certain lien entre deux programmes d’optimisation – le programme
“primal”
(IC) f (x) → min | gj (x) ≤ 0, j = 1, ..., m, x ∈ X.
et son Dual de Lagrange
(les variables λ du problème dual s’appellent les multiplicateurs de Lagrange du problème pri-
mal). Le théorème indique que la valeur optimale dans le problème dual est ≤ celle du primal,
et dans certaines circonstances favorables (le problème primal est convexe, borné inférieurement
et satisfait la condition de Slater) les valeurs optimales dans les deux programmes sont égales.
Dans notre formulation il y a une certaine asymétrie entre les programmes primal et dual.
En fait les deux programmes sont liés à la fonction de Lagrange d’une manière tout à fait
symétrique. En effet, considérez le programme
L’objectif dans ce programme est +∞ en chaque point x ∈ X qui n’est pas faisable pour (IC)
et est égale à f (x) sur l’ensemble faisable de (IC), de sorte que ce programme soit équivalent à
(IC). Nous voyons que les programmes primal et dual viennent de la fonction de Lagrange : dans
le problème primal, on minimise sur X du résultat de la maximisation de L(x, λ) sur λ ≥ 0, et
dans le programme dual on maximise sur λ ≥ 0 le résultat de la minimisation de L(x, λ) sur
x ∈ X. C’est un exemple particulier (et le plus important) du jeu de deux personnes à somme
nulle.
122 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Nous avons dit que les valeurs optimales de (IC) et de (IC∗ ) sont égales entre elles sous
quelques conditions de convexité et de régularité. Il y a également une autre manière de dire que
ces valeurs optimales sont égales – c’est toujours le cas quand la fonction de Lagrange possède
un point-selle, c.-à-d. qu’il existe une paire x∗ ∈ X, λ∗ ≥ 0 telle L(x, λ) atteint sur cette paire
son minimum en fonction de x ∈ X et atteint son maximum en fonction de λ ≥ 0 :
Notre but maintenant sera d’extraire de ce que nous savons déjà sur la fonction de Lagrange
les conditions d’optimalité pour des programmes convexes.
(ii) De plus, si le problème (IC) est convexe et satisfait la condition de Slater, alors cette
condition est aussi nécessaire pour l’optimalité de x∗ : si x∗ est optimal pour (IC), alors il existe
λ∗ ≥ 0 tels que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange.
Preuve : (i) : supposons que pour un x∗ ∈ X donné il existe λ∗ ≥ 0 tel que (6.12) est satisfait ;
montrons qu’alors x∗ est optimal pour (IC). Tout d’abord, x∗ est faisable : en effet, si gj (x∗ ) > 0
pour certains j, alors, immediatement, supλ≥0 L(x∗ , λ) = +∞ (regardez ce qui se produit quand
tous les λ’s, excepté λj , sont fixes, et λj → +∞) ; mais supλ≥0 L(x∗ , λ) = +∞ est interdit par
la deuxième inégalité de (6.12).
Puisque x∗ est faisable, supλ≥0 L(x∗ , λ) = f (x∗ ), et nous concluons de la deuxième inégalité
de (6.12) que L(x∗ , λ∗ ) = f (x∗ ). Maintenant la première inégalité dans (6.12) dit que
m
f (x) + λ∗j gj (x) ≥ f (x∗ ) ∀x ∈ X.
j=1
La dernière inegalite implique immédiatement que x∗ est optimal : en effet, si x est faisable pour
(IC), alors le côté gauche dans la dernière inégalité est ≤ f (x) (rappellons-nous que λ∗ ≥ 0), et
l’inégalité implique que f (x) ≥ f (x∗ ).
6.2. CONVEX PROGRAMMING PROGRAM AND DUALITY THEOREM 123
(ii) : supposons que (IC) est un programme convexe, x∗ est sa solution optimale et le problème
satisfait la condition de Slater ; nous devrions montrer qu’il existe alors λ∗ ≥ 0 tel que (x∗ , λ∗ )
est un point-selle de la fonction de Lagrange, c.-à-d. que (6.12) est satisfait. Comme nous savons
du Théorème de Dualité Convexe (Théorème 6.2.2.(ii)), le problème dual (IC∗ ) a une solution
λ∗ ≥ 0 et la valeur optimale du problème dual est égale à la valeur optimale du primal, c.-à-d.,
à f (x∗ ) :
f (x∗ ) = L(λ∗ ) ≡ inf L(x, λ∗ ). (6.13)
x∈X
Nous en concluons immédiatement que
λ∗j gj (x∗ ) = 0
124 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
sont satisfaites (c.-à-d., les valeurs de λ∗j positives ne peuvent être associées que avec des
contraintes gj (x) ≤ 0 actives en x∗ ).
Effectivement, la fonction
m
L(x∗ , λ) = f (x∗ ) + λj gj (x∗ )
j=1
est affine en λ, et nous comprenons quand et où une telle fonction atteint son maximum sur
l’orthant non négatif : elle est borné supérieurement sur l’orthant si et seulement si tous les
coefficients devants λj sont non positifs (c.-à-d., si et seulement si x∗ est faisable pour (IC)), et
si c’est le cas, alors l’ensemble de maximiseurs est exactement l’ensemble
Maintenant, que signifie-t-il que la fonction L(x, λ∗ ) atteint son minimum sur X en x∗ ? La
réponse dépend de la “bonté” de la fonction de Lagrange comme fonction de x. Par exemple, si
(IC) est un convexe programme, alors
m
L(x, λ∗ ) = f (x) + λ∗j gj (x)
j=1
X = {x ∈ Rn | aTi x − bi ≤ 0, i = 1..., M }
X = X ∩ X ,
et
m
x∗ ∈ Argmin[f (x) + λ∗j gj (x)] (6.15)
X j=1
Maintenant essayons de comprendre ce que signifie réellement cette condition. On sait que x∗
est un point intérieur de X . Il en suit que si x∗ est un minimizer de la fonction φ(x) = f (x) +
m ∗
j=1 λj gj (x) sur X, c’est également un minimizer local de la fonction sur X ; puisque φ est
∗ ∗
convexe, x est également un minimizer global de φ sur X . Vice versa, si x est un minimizer de
φ sur X , c’est, naturellement, un minimizer de la fonction sur l’ensemble plus petit X. Ainsi,
(6.15) dit exactement que φ atteint en x∗ son minimum sur l’ensemble polyhedral X . Mais
nous savons de la Remarque 5.5.1 quand une fonction convexe et différentiable φ atteint son
minimum par rapport à x sur un ensemble polyhedral : c’est le cas si et seulement si
∇φ(x∗ ) + μ∗i ai = 0 (6.16)
i∈I
où μ∗i ≥ 0 et I est l’ensemble d’indices des contraintes linéaires gm+i (x) ≡ aTi x − b ≥ 0 dans la
description de X qui sont actives (sont satisfaites comme égalités) en x∗ .
Mettons maintenant λ∗m+i = μ∗i pour i ∈ I et λ∗m+i = 0 pour i ∈ I, i ≤ M . Avec cette
notation, nous avons
λ∗j ≥ 0, λ∗j gj (x∗ ) = 0, j = 1, ..., m + M, (6.17)
tandis que (6.16 dit que
m+M
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0. (6.18)
i=1
Récapitulons : nous avons montré sous les conditions ci-dessus (le problème est convexe, les
données sont différentiables en x∗ , la solution faisable x∗ est un point intérieur X ) que la
condition suffisante (et nécessaire et suffisante, si g1 , ..., gm satisfont la condition de Slater sur
X) de l’optimalité de x∗ est l’existence des multiplicateurs de Largange λ∗j , j = 1, ..., m + M ,
satisfaisant (6.17) et (6.18).
Notez que cette condition d’optimalité a“l’aire” comme si nous traitions les contraintes
g1 (x) ≤ 0, ..., gm (x) ≤ 0 et les contraintes linéaires définissant X en tant que contraintes
fonctionnelles, et on traite X , et pas X = X ∩ X , comme domaine du problème. Mais il
y a une différence importante : avec cette nouvelle interprétation des données, afin d’obtenir
la nécessité de notre condition d’optimalité, nous avons été censés de supposer que toutes les
m + M de nos nouvelles contraintes fonctionnelles satisfaisaient la condition de Slater : il existe
x̄ ∈ X tel que gj (x̄) < 0, j = 1, ..., m + M . Avec notre approche nous avons obtenu la nécessité
sous une hypothèse plus faible : il devrait exister x̄ ∈ X où les contraintes “compliquées”
g1 (x) ≤ 0, ..., gm (x) ≤ 0 sont satisfaits en tant qu’inégalités strictes, alors que les contraintes
“simples” linéaires gm+1 (x) ≤ 0¿..., gm+M (x) ≤ 0 simplement sont satisfaites.
Les résultats de nos considérations méritent certainement d’être formulés comme un théorème
(où nous changeons légèrement la notation : ce qui sera m et X, dans les considérations ci-dessus
étaient m + M et X ) :
Ils existent des multiplicateurs nonnegatifs de Lagrange, λ∗j , j = 1..., m, tels que
et
m
∇f (x∗ ) + λ∗j ∇gj (x∗ ) = 0, (6.20)
j=1
Notez que les conditions d’optimalité du Chapitre 5 (cf. le Théorème 5.5.2 et la Remarque 5.5.1)
sont des cas particuliers du Théorème ci-dessus pour le cas quand m = 0.
(6.19) indique que L(x∗ , λ) atteint en λ∗ son maximum en λ ≥ 0, et (6.20) dit que L(x, λ∗ )
atteint en x∗ son minimum en x.
Considérons maintenant le cas particulier de (IC) où X = Rn est l’espace entier, l’objectif
f est convexe et différentiable partout et les contraintes g1 ..., gm sont lineaires. Dans ce cas, le
6.3. DUALITE POUR LA PROGRAMMATION LINEAIRE ET QUADRATIQUE CONVEXE127
Théorème 6.2.4 nous dit que la condition KKT (Karush-Kuhn-Tucker) est nécessaire et suffisante
pour l’optimalité de x∗ ; comme nous avons juste expliqué, c’est identique à dire que la condition
nécessaire et suffisante de l’optimalité de x∗ est que x∗ avec certain λ∗ ≥ 0 forment un point-selle
de la fonction de Lagrange. Combinant ces observations avec la Proposition 6.2.2, nous obtenons
le résultat suivant :
Proposition 6.3.1 Soit (IC) un programme convexe avec X = Rn , l’objectif f qui est differen-
tiable partout et les contraintes linéaires g1 ..., gm . Alors x∗ est la solution optimale de (IC) si et
seulement s’il existe λ∗ ≥ 0 tel que (x∗ , λ∗ ) est un point-selle de la fonction de Lagrange (6.21)
(considérée comme la fonction de x ∈ Rn et de λ ≥ 0). En particulier, (IC) est soluble si et
seulement si L possède des points-selle, et si c’est le cas, alors (IC) avec son dual de Lagrange
de (IC) et pour le minimiser en x ∈ Rn ; ceci nous donnera l’objectif dual. Dans notre cas la
m
j=1 λj aj = 0, et
minimisation en x est immédiate : la valeur minimale est −∞, si c− m j=1 λj bj
sinon. Nous voyons que le dual de Lagrange est
m
(D) bT λ → max | λj aj = c, λ ≥ 0.
j=1
Le problème (D) que nous obtenons est le dual LP de (P ) habituel, et la Proposition 6.3.1 est
une des formes équivalentes du Théorème de Dualité en Programmation Linéaire du Chapitre
5.
Preuve (i) : nous savons de la Proposition 6.3.1 que la valeur optimale dans le problème (P )
de minimisation est égale à la valeur optimale dans le problème (D) de maximisation. Il en suit
que la valeur de l’objectif primal en n’importe quelle solution faisable primale est ≥ la valeur de
l’objectif dual en n’importe quelle solution faisable duale, et l’égalité est possible si et seulement
si ces valeurs coincident avec les valeurs optimales des problèmes, comme c’est affirmé dans (i).
(ii) : calculons la différence Δ entre la valeur de l’objectif primal en une solution faisable
primale x et celle de l’objectif dual en une solution faisable duale (λ, t) :
Δ = cT x + 12 xT Dx − [bT λ − 12 tT Dt]
= [AT λ + Dt]T x + 12 xT Dx + 12 tT Dt − bT λ
[comme AT λ + Dt = c]
= λT [Ax − b] + 12 [x + t]T D[x + t]
égalités, est équivalente à λj (Ax − b)j = 0, j = 1..., m. De plus, comme la matrice D est positive
definie, la seconde égalité est équivalente à x + t = 0.
130 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
6.4 Exercices
Exercice 6.1 Montrez le résultat suivant :
Soit le programme d’optimisation
faisable, avec le domaine X fermé, et soient f, g1 , ..., gm , h1 , ..., hk des fonctions continues sur
X. Supposons, de plus, que le problème est “coercive” , c.-à-d., il existe une fonction s(t) → ∞,
t → ∞, sur le rayon non négatif tel que
max{f (x), g1 (x), ..., gm (x), |h1 (x)|, ..., |hk (x)|} ≥ s(|x|) ∀x ∈ X.
Indication : considérez ce qu’on appelle suite relaxante {xi }, c.-à-d., une suite de solutions
faisables au problème avec les valeurs de l’objective qui convergent quand i → ∞ à la valeur
optimale du problème. Montrez que la suite est bornée et possède donc des points limites ; vérifiez
que chaque tel point est une solution optimale du problème.
Exercice 6.2 Trouver la solution le minimiseur de la fonction linéaire
f (x) = cT x
sur l’ensemble
n
Vp = {x ∈ Rn | |xi |p ≤ 1};
i=1
ici p, 1 < p < ∞, est un paramètre.
k
I(u, v) = ui ln(ui /vi )
i=1
I(u, v) ≥ 0,
Indication : appliquer l’inégalité de Jensen à la fonction strictement convexe − ln t sur (0, ∞).
Commentaire : un vecteur z ∈ Δ peut être considéré comme la distribution de probabilité
sur l’ensemble de k points : zi est la probabilité assignée à l’i-ème élément de l’ensemble. Avec
cette interprétation, I(u, v) est une sorte de “distance dirigé” entre les lois de probabilité : il place
en correspondance à une paire ordonnée des distributions un réel non négatif qui est positif si
les distributions sont distinctes, et est zéro sinon. Cette quantité s’appelle distance de Kullback-
Leibler (ce n’est pas une distance dans le sens de notre définition du Chapitre 1, puisqu’elle n’est
pas symétrique : I(u, v) n’est pas identique à I(v, u)). La distance de Kullback-Leibler entre les
distributions joue un rôle important dans la Théorie de Décisions Statistiques.
6.4. EXERCICES 131
(notez que (t, x) est faisable pour (S) si et seulement si x ∈ X et t ≥ maxi=0,...,N fi (x)).
et si c’est le cas, alors le inf indiqué est 0 (dans le cas r = 0), ou est
k
− μi ln(μi /r) [0 ln 0 = 0].
i=1
Indication : on voit immédiatement que μ ≥ 0 est la condition nécessaire pour que l’infinum en
question soit fini. Pour accomplir la preuve de la nécessité, vous devriez vérifier que inf est −∞
également dans le cas du μ ≥ 0 et ki=1 μi = r ; pour voir ceci, regardez ce qui se passe quand
vi = t, i = 1, ..., k, et t parcourt R.
Pour prouver la suffisance et obtenir la représentation requise de la valeur optimale, supposez
d’abord que tous les μi sont positifs et utilisez la règle de Fermat pour trouver le minimiseur
exacte, ensuite pensez comment éliminer les composants zéro de μ, s’ils sont présents.
132 CHAPITRE 6. PROGRAMMATION CONVEXE ET DUALITE DE LAGRANGE
Chapitre 7
Conditions d’Optimalité
Ce chapitre, dernier dans la partie théorique du cours, est consacré aux conditions d’optima-
lité du premier ordre pour des programmes de Programmation Mathématiques de type général
(P ) f (x) → min | g(x) ≡ (g1 (x), g2 (x), ..., gm (x)) ≤ 0, h(x) = (h1 (x), ..., hk (x)) = 0, x ∈ X.
133
134 CHAPITRE 7. CONDITIONS D’OPTIMALITE
de x∗ signifie que x∗ est la solution faisable qui n’est pas plus mauvaise, du point de vue des
valeurs de l’objectif, que d’autres solutions faisables assez proches de x∗ . La définition formelle
est suivante :
Une solution faisable x∗ de (P ) s’appelle localement optimale, s’il existe un voisinage U de
x∗ tel que x∗ est solution optimale de la version (P ) “limitée à U ”, c.-à-d., si
Notez que dans la dernière relation j’ai sauté l’inclusion x ∈ X ; c’est parce que nous avons
supposé que x∗ est un point intérieur de X, de sorte que en resserrant U , nous pouvons toujours
le rendre une partie de X et rendre ainsi l’inclusion x ∈ X une conséquence de l’inclusion x ∈ U ).
Dans le cas convexe l’optimalité locale est équivalente à l’optimalité globale (cf. Théorème
5.5.1 combinée avec le fait que l’ensemble faisable d’un programme convexe est convexe). Dans
le cas général ces deux notions sont différentes – une solution globalement optimale est, naturel-
lement, localement optimale, mais pas vice versa : regardez quelque chose comme le problème
ici il y a plusieurs minimiseurs locaux x∗k de l’objectif, mais seulement un d’entre eux – x∗ = 0
– est son minimiseur global.
Notez que puisqu’une solution globalement optimale pour sûr est localement optimale, la
condition nécessaire d’optimalité locale est aussi nécessaire pour l’optimalité global.
Maintenant, il est claire pourquoi dans le cas général il est impossible de préciser une condi-
tion locale qui soit suffisante pour l’optimalité globale : parce que l’information locale sur une
fonction f en un minimiseur local x∗ de la fonction ne permet pas comprendre que ce minimiseur
est seulement local et pas global. En effet, prenons f ci-dessus et x∗k = 0 ; c’est seulement un
minimiseur local, pas global, de f . En même temps nous pouvons facilement changer f en dehors
d’un voisinage de x∗k et rendre x∗k minimiseur global de la fonction modifiée (tracez le graphe
de f pour le voir). Notez que nous pouvons facilement rendre la fonction modifiée f¯ aussi lisse
que nous le souhaitons. Maintenant, l’information locale – la valeur et les dérivées en x∗k – est
identique pour la fonction originale f et la fonction modifiée f¯, puisque les fonctions coincident
dans un voisinage de x∗ . Elle en suit qu’il n’y a aucun test qui prend l’information locale sur le
problème en x∗ et rend correctement la réponse à la question si x∗ est ou n’est pas un minimiseur
global de l’objectif, même si nous assumons que l’objectif soit très régulière. En effet, un tel test
ne peut pas distinguer f et f¯ dans l’exemple précèdent, et une fois demandé aurait donné deux
fois la même réponse. Cette réponse est forcement fausse dans un de ces deux cas !
La difficulté que nous avons décrite est intrinsèque pour l’optimisation non convexe : non
seulement il n’existe pas de “test local efficace” pour l’optimalité globale ; également, il n’existe
pas, comme nous le verrons dans les chapitres suivants, d’algorithme efficace capable d’approcher
le minimiseur global d’un problème de Programmation Mathématique de type général, même
un problème avec des données très lisses.
En raison de cette propriété désagréable et inévitable des problèmes de programmation
mathématiques de type général, la réponse à la seconde des questions annoncées – comment
nous allons utiliser les conditions d’optimalité dans la Programmation Mathématique – n’est
pas aussi optimiste que nous pourrions souhaiter. En ce qui concerne des conditions de l’op-
timalité globale, nous pouvons espérer avoir des conditions nécessaires seulement ; en d’autres
termes, nous pouvons espérer avoir un test qui est capable nous indiquer que ce que nous avons
n’est pas une solution globalement optimale. Puisqu’il n’y a pas de condition (locale) suffisante
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 135
de l’optimalité globale, nous n’avons aucun espoir de concevoir un test local capable nous dire
que ce qui nous avons est la solution “réelle” – globale – du problème. Le maximum de ce
que nous pouvons espérer dans cette direction est une condition suffisante de l’optimalité local,
c.-à-d., un test local capable de dire que ce que nous avons ne peut pas être amélioré par des
“petites modifications”. C’est la raison principale pourquoi je ne parle pas des conditions suffi-
sants de l’optimalité locale dans ce cours. Ceux de vous qui sont intéressée par ce sujet devraient
s’adresser à un texte traditionnel sur la Programmation Mathématique.
Le pessimisme provoqué par les remarques ci-dessus a cependant ses limites. Une condition
nécessaire d’optimalité est une certaine relation qui doit être satisfaite par la solution optimale.
Si nous sommes assez intelligents pour produire – sur le papier ou algorithmiquement – tous
les candidats x∗ qui satisfont cette relation, et si la liste de ces candidats s’avère finie, nous
pouvons parcourir la liste et choisir la meilleur, du point de vue de l’objectif, solution faisable
dans cette liste, ce qui va nous donner la solution globalement optimale (étant donné qu’elle
existe). Inutile de dire que la possibilité décrite est rencontrée seulement dans les cas parti-
culièrement simples, mais déjà ces cas sont parfois extrêmement importantes (nous discuterons
un exemple de ce type à la fin de ce chapitre). Une autre manière d’utiliser des conditions
nécessaires et/ou suffisantes de’optimalité local est de les employer en tant que “le guide” pour
des algorithmes d’optimisation. Ici nous produisons une suite des solutions approximatives et
les soumettons au test d’optimalité locale donné par notre condition d’optimalité. Si l’itération
courante passe le teste, nous terminons avec une solution localement optimale du problème ; si
ce n’est pas le cas, alors la condition d’optimalité (qui est violé sur l’iteration courante) indique
normalement comment mettre à jour l’itération afin de réduire la “violation” de la condition.
Par ces mises à jour séquentielles nous obtenons une suite d’itérations qui, sous des conditions
“raisonnables”, converge à une solution localement optimale du problème. Comme nous le ver-
rons dans les prochains chapitres, cette idée est à la base de toutes les méthodes traditionnelles
de Programmation Mathématique. Naturellement, dans ce cadre il est en principe impossible
de garantir la convergence à une solution globalement optimale (imaginez que on part d’une
solution localement optimale qui n’est pas globalement optimale ; selon le schéma décrit nous
terminons immédiatement !) Bien que ce soit un inconvénient grave de cette approche, il ne
tue pas les méthodes traditionnelles basées sur les conditions d’optimalité. D’abord, il peut se
produire que nous sommes chanceux et il n’y a aucune solution locale qui ne soit pas globale ;
alors le schéma ci-dessus rapprochera la solution optimale (bien que nous ne saurons jamais que
c’est le cas...) En second lieu, dans beaucoup de situations pratiques nous sommes intéressés en
une “amélioration significative” d’une solution initiale donnée du problème plutôt qu’à trouver
la “meilleure solution”, et les méthodes traditionnelles permettent de réaliser ce but restreint.
l’approximation est assez bonne localement, alors la propriété locale de (P ) que nous intéresse
– ce que x∗ est une solution localement optimale de (P ) – sera héritée par (P ). Si
– (A) (P ) est aussi simple que nous sommes capable de dire “de manière constructive” ce
qui signifie le fait que x∗ est localement optimal pour (P ),
et
– (B) nous pouvons montrer que notre hypothèse
“ si x∗ est localement optimal pour (P ), il est localement optimal pour (P )
aussi bien”
est vrai,
alors la condition donnée par (A) sera nécessaire pour l’optimalité locale de x∗ pour (P ).
Il y a, fondamentalement, seulement une façon “naturelle” d’implementer cette idée, étant
donné que nous sommes intéressés par des conditions d’optimalité du premier ordre et, par
conséquent, que (P ) devrait être posé en termes de valeurs et des gradients de l’objectif et des
contraintes originales en x∗ seulement. Cette façon consiste à linéariser l’objectif et les contraintes
originales en x∗ et de rendre les fonction affines qui en résultent, respectivement, l’objectif et les
contraintes de (P ). Les linéarisations en question sont
(P ) :
min f (x∗ ) + (x − x∗ )T ∇f (x∗ )
s.t.
gi (x∗ ) + (x − x∗ )T ∇gi (x∗ ) ≤ 0, i = 1, ..., m
(x − x∗ )T ∇hj (x∗ ) = 0, j = 1, ..., k
(j’ai laissé tomber hj (x∗ ) – elles sont nulles, car x∗ est faisable).
Maintenant, le Théorème de Dualité pour la Programmation Linéaire nous dit quand x∗
est une solution optimale au programme LP (P ). Puisque nous n’avons pas établi ce théorème
pour la forme particulière du programme de LP qui nous intéresse maintenant (celle avec des
contraintes d’égalité et pas seulement des contraintes d’inégalité), nous allons dériver la condition
d’optimalité explicitement de la source du Théorème de Dualité pour LP – du Lemme de Farkas
Homogène.
Supposons que x∗ (qui est faisable pour (P ) – rappelez-vous que x∗ est faisable pour (P ))
est optimal pour (P ). Soit I(x∗ ) l’ensemble d’indices de toutes les contraintes d’inégalité de (P )
qui sont actives (satisfaites comme égalités) en x∗ , et considérons l’ensemble
Il est claire que si d ∈ K, alors tout vecteur xt = x∗ + td qui correspond à un assez petit t positif
est faisable pour (P ). Comme x∗ est optimal pour ce dernier problème, on doit avoir
avec certains λ∗i non négatifs et certains μ∗j réels. Pour le voir, notez que K est exactement le
cône polyhedral
{d | dT ∇gi (x∗ ) ≤ 0, i ∈ I(x∗ ), dT ∇hj (x∗ ) ≤ 0, dT (−∇hj (x∗ )) ≤ 0, j = 1, ..., k},
et (*) dit que le vecteur ∇f (x∗ ) a le produit scalaire non négatif avec tout vecteur de K, i.e.,
avec tout vecteur qui a le produit scalaire non négatif avec les vecteur de l’ensemble fini
A = {−∇gi (x∗ ), i ∈ I(x∗ ), ±∇hj (x∗ ), j = 1, ..., k}.
Par le Lemme de Farkas Homogène ceci est le cas si et seulement si ∇f (x∗ ) est une combinaison
de vecteurs de A avec des coefficients non négatifs :
k
∇f (x∗ ) = − λ∗i ∇gi (x∗ ) + [μ∗j,+ − μ∗j,−]∇hj (x∗ )
i∈I(x∗ ) j=1
avec λ∗j , μ∗j,+ , μ∗j,− non négatifs. Et dire que ∇f (x∗ ) est représentable sous cette dernière forme
est la même chose qu’il soit représentable comme exigé dans (7.1).
Pour l’instant λ∗i sont définis pour i ∈ I(x∗ ) seulement. Nous allons poser λ∗i = 0 pour
i ∈ I(x∗ ) et en élargissant la somme du côté droit de (7.1) sur i = 1..., m. Notez également que
maintenant nous avons des relations de complémentarité λ∗i gi (x∗ ) = 0, i = 1..., m.
Nous avons établi le résultat conditionnel suivant :
Proposition 7.1.1 Soit x∗ localement optimal pour (P ) et tel que l’hypothèse (B) est vérifiée :
x∗ demeure une solution optimale pour le programme linéarisé (P ) également. Alors ils existent
λ∗i non négatifs et μ∗j réels tels que
Ainsi, nous avons besoin d’une “condition de régularité” pour rendre la condition de KKT
nécessaire à l’optimalité locale. La condition la plus générale de ce type s’appelle “qualification
des contraintes”.
Qualification des contraintes indique réellement que l’ensemble faisable du problème actuel
(P ) “est proche” à l’ensemble faisable du problème linéarisé (P ) dans un voisinage de x∗ “aux
terme d’ordre supérieur en |x − x∗ | près”, de la même façon que les données des problèmes. Pour
donner la définition précise, nous allons écrire
θ(t) = o(ts )
(θ est une fonction sur le rayon non négatif, s > 0), si θ(t)t−s → 0 quand t → +0 et θ(0) = 0.
Et nous dirons que le problème (P ) a la propriété de Qualification de Contraintes en solution
faisable x∗ , s’il existe une fonction θ(t) = o(t) telle que
pour toute solution faisable x du problème linéarisé (P ) il existe une solution faisable
x du problème actuel (P ) telle que
|x − x | ≤ θ(|x − x∗ |)
dT ∇f (x∗ ) < 0.
7.1. CONDITIONS D’OPTIMALITE DU PREMIER ORDRE 139
Maintenant, soit
xt = x∗ + t(x̄ − x∗ ), 0 ≤ t ≤ 1.
Les points xt sont des combinaisons convexes de deux solutions faisables de (P ) et sont donc
également les solutions faisables du dernier (c’est un programme LP). Par Qualification des
Contraintes, ils existent des solutions faisables xt du problème actuel (P ) tels que
|xt − xt | ≤ θ(|xt − x∗ |) = θ(t|x̄ − x∗ |) ≡ θ(tq), q = |x̄ − x∗ |, (7.3)
avec θ(t) = o(t). Maintenant, f est continûment différentiable dans un voisinage de x∗ (c’est la
condition que nous avons accepté une fois pour toutes au début de ce chapitre). Il en découle
que (c’est une conséquence immédiate du Théorème de Valeur Intermédiaire de Lagrange) f est
localement Lipschitzienne en x∗ : il existe un voisinage U de x∗ et une constante C < ∞ tels
que
|f (x) − f (y)| ≤ C|x − y|, x, y ∈ U. (7.4)
Quand t → +0, nous avons xt → x∗ , et comme
|xt − xt | ≤ θ(tq) → 0, t → 0,
xt converge également vers x∗ quand t → 0. En particulier, xt et xt appartiennent à U pour
tout t assez petit positif. De plus, de l’optimalité locale de x∗ et du fait que xt converge vers x∗
quand t → +0 et est faisable pour (P ) pour tout t nous concluons que
f (xt ) ≥ f (x∗ )
quelque soit t positif assez petit. Ainsi pour t petit positif nous avons
0 ≤ t−1 [f (xt ) − f (x∗ )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 [f (xt ) − f (xt )]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 C|xt − xt | [see (7.4)]
≤ t−1 [f (xt ) − f (x∗ )] + t−1 Cθ(tq) [see (7.3)]
f (x∗ +td)−f (x∗ ) −1
= t + t Cθ(tq).
Comme t → 0, la dernière expression dans la chaine tend vers dT ∇f (x∗ ) < 0 (car θ(tq) = o(t)),
alors que elle doit être non négative. C’est la contradiction désirée.
La Proposition 7.1.2 ressemble beaucoup à un pléonasme : on s’est posé la question quand la
condition de KKT est nécessaire pour l’optimalité locale, et la réponse que nous avons maintenant
dit que ce pour sûr est le cas quand (P ) satisfait la condition de Qualification des Contraintes
en x∗ . Si on gagne quelque chose avec cette réponse, ce quelque chose est en effet très mince
– nous ne savons pas certifier si la Qualification des Contraintes a lieu. Il y a un cas trivial –
celui quand les contraintes de (P ) sont linéaires ; dans ce cas-ci l’ensemble faisable du problème
linéarisé est simplement le même que l’ensemble faisable du problème initial (en fait il suffit de
supposer la linéarité des contraintes actives en x∗ seulement ; dans ce cas les ensembles faisables
de (P ) et de (P ) coincident l’un avec l’autre dans un voisinage de x∗ , ce qui est bien suffisant
pour la Qualification de Contraintes).
Parmi les certificats plus généraux – conditions suffisantes – pour la Qualification des
Contraintes 1) le plus fréquemment utilisé est l’hypothèse de régularité de x∗ pour (P ) :
1. ) regardez ce que nous faisons : nous discutons une condition suffisante pour quelque chose, notamment, la
Qualification des Contraintes, qui n’est à son tour, rien d’autre qu’une condition suffisante pour rendre quelque
chose d’autre – le KKT – une condition nécessaire pour l’optimalité locale. C’est une qualité tout à fait im-
pressionnante d’un être humain d’être capable de comprendre ce genre de “conditions des condition” et de les
manipuler !
140 CHAPITRE 7. CONDITIONS D’OPTIMALITE
(Régularité)
l’ensemble des gradients de toutes contraintes actives de (P ) en x∗ est un ensemble
linéairement indépendant
(rappelons qu’une contrainte est active en x∗ si elle est satisfaite en ce point comme
égalité ; en particulier, toutes les contraintes d’égalité sont actives en chaque solution
faisable).
Le Théorème fondamental suivant (c’est l’une des formes du Théorème de Fonction Implicite)
montre pourquoi (Régularité) implique la Qualification des Contraintes :
Il existe alors un voisinage U ⊂ X de x∗ tel que la distance d’un point x ∈ U jusqu’au Φ est
bornée supérieurement par un facteur proportionnel à la norme du “vecteur de violation”
⎛ ⎞
max{φ(x), 0}
⎜ ... ⎟
⎜ ⎟
⎜ max{φ (x), 0} ⎟
⎜ q ⎟
δ(x) = ⎜ ⎟.
⎜ |φq+1 (x)| ⎟
⎜ ⎟
⎝ ... ⎠
|φl (x)|
C.-à-d., qu’il existe une constante D < ∞ tel que pour chaque x ∈ U il existe x ∈ Φ avec
|x − x | ≤ D|δ(x)|. (7.5)
Preuve. Soit V une boule fermée du rayon positif r centré à l’origine et contenue dans Y .
Puisque S est au moins une fois continûment différentiable dans un voisinage de l’ensemble
compact V , ses premiers dérivées sont bornées dans V et donc S est Lipschitzienne dans V avec
une certaine constante D > 0 :
Dû à la Proposition 7.1.2, tout ce que nous avons besoin de vérifier est que
(i) (P ) satisfait la Qualification des Contraintes en x∗ (ceci impliquera que si x∗ est localement
optimal pour (P ), alors c’est un point KKT du problème)
et
(ii) si (Régularité) a lieu et x∗ est localement optimal pour (P ), de sorte que, d’après (i),
c’est un point KKT du problème, alors les multiplicateurs de Lagrange correspondants sont
uniquement définis.
(ii) est immédiat : les multiplicateurs de Lagrange qui correspondent aux contraintes
d’inégalité inactives en x∗ doivent être 0 par complémentarité, et les multiplicateurs restants,
par l’équation d’Euler (7.1), sont les coefficients de la représentation de −∇f (x∗ ) comme une
combinaison linéaire des gradients des contraintes actives en x∗ . Sous (Régularité), ces gradients
sont linéairement indépendants, de sorte que les coefficients dans la combinaison ci-dessus soient
uniquement définis.
142 CHAPITRE 7. CONDITIONS D’OPTIMALITE
Nous allons maintenant vérifier (i). Il n’y a aucun problème d’établir (i) dans le cas quand
toutes les contraintes de (P ) actif en x∗ sont linéaires – dans ce cas la Qualification des
Contraintes est évidente. Ainsi, nous devons dériver la propriété de Qualification des Contraintes
en supposant que (Régularité) ait lieu. À cet effet on note {φ1 ..., φl } le groupe des contraintes
d’inégalité actives en x (les q premières fonctions du groupe) et toutes les contraintes d’égalité
(les l − q fonctions restantes). Ce groupe avec x∗ , satisfait les conditions du Corollaire 7.1.1 ;
selon le corollaire, il existe un voisinage U de x∗ et une constante D < ∞ tels que
∀x ∈ U ∃x : |x − x | ≤ D|δ(x)|, φi (x ) ≤ 0, i = 1, ..., q; φi (x ) = 0, i = q + 1, ..., l. (7.6)
De plus, il existe un voisinage W de x∗ tel que toutes les contraintes d’inégalité qui ne sont pas
actives en x∗ sont satisfaites dans W entier (en effet, toutes les fonctions de contraintes sont
continues en x∗ , et les contraintes inactives en x∗ , étant des inégalités strictes en ce point, restent
satisfaites dans un voisinage de x∗ ). Considérez maintenant une transformation
x → x (x)
suivante : pour x ∈ U , x (x) est le vecteur x donné par (7.6), si le dernier vecteur appartient à
W . Sinon, comme dans le cas x ∈ U , on pose x (x) = x∗ . Notez qu’avec cette définition x (x) est
toujours une solution faisable de (P ) (pourquoi ?) De plus, comme x → x∗ , le vecteur de viola-
tions δ(x) tend vers 0, et x donné par (7.6) tend également vers x∗ et donc devienne par la suite
un vecteur de W . D’ou pour tout x assez proche de x∗ , le vecteur x (x) est exactement le vecteur
donné par (7.6). En récapitulant nos observations, nous venons aux conclusions suivantes :
nous avons défini une transformation qui met en correspondance à un x ∈ Rn arbi-
traire une solution faisable x (x) de (P ). Cette transformation est bornée, et dans
un certain voisinage Q de x∗ est tel que
|x (x) − x| ≤ D|δ(x)|. (7.7)
Supposons maintenant que x soit une solution faisable du problème linéairisé (P ). Notons que
le vecteur φ(x) = (φ1 (x), ..., φl (x)) admet la représentation
φ(x) = φlin (x) + φrem (x),
où φlin vient des linéarisations des fonctions φi en x∗ – c.-à-d., des fonction-contraintes de (P ),
et φrem vient des restes des développements de Taylor du premier ordre de φi en x∗ . Puisque
x est faisable pour (P ), les q premières coordonnées de φlin (x) sont non positives, et les autres
coordonnées sont égales à 0. Il en découle que si x est faisable pour (P ), alors la norme du vecteur
de violations δ(x) n’excède pas la norme du vecteur φrem (x) (regardez la définition du vecteur
de violations), et la dernière norme est ≤ θ(|x − x∗ |) pour certain θ(t) = o(t), En effet, le reste
du développement de Taylor du premier ordre d’une fonctions continûment différentiable dans
un voisinage de x∗ est o(|x − x∗ |), x étant le point où le développement est évalué. Combinant
cette observation avec (7.7), nous concluons qu’il y a un voisinage Z de x∗ tels que si x ∈ Z est
faisable pour (P ), alors
|x (x) − x| ≤ D|δ(x)| ≤ D|φrem (x)| ≤ Dθ(|x − x∗ |) (7.8)
pour certain θ(t) = o(t). Hors Z le côté gauche est borné par D |x − x∗ | pour un certain D
(rappelez-vous que x (x) est borné). En modifiant la définition de θ(t) d’une façon appropriée en
dehors d’un voisinage de t = 0, on peut assurer que (7.8) soit valide quelque soit x faisable pour
(P ). Comme x (x), par construction, est faisable pour (P ), (7.8) démontre que la Qualification
des Contraintes a lieu.
7.2. EN GUISE DE CONCLUSION... 143
La partie “égalité” de ce système est un système de n+m+k équations non-linéaires avec n+m+k
inconnus – les coordonnées de x∗ , λ∗ , μ∗ . Normalement un tel système a seulement un nombre
fini de solutions. Si nous sommes assez intelligents pour trouver toutes ces solutions et si pour
une raison nous savons que la solution optimale existe et satisfait en effet la condition de KKT
(par exemple, les hypothèses du Théorème 7.1.2 sont vérifiées en chaque solution faisable), alors
nous pouvons être sûrs qu’en regardant toutes les solutions du système KKT et en choisissant
parmi elles celle qui est faisable et qui a la meilleure valeur de l’objectif, nous pouvons être
sûrs que nous finirons avec la solution optimale du problème. Dans ce processus, nous pouvons
employer la partie “inégalité” du système pour éliminer des candidats de la liste qui ne satisfont
pas les inégalités, ce qui permet d’éviter une analyse plus détaillée de ces candidats.
L’approche de ce type est particulièrement fructueuse si (P ) est convexe (c.-à-d., que
f, g1 ..., gm sont convexes et h1 ..., hk sont linéaires). Dans ce cas-ci les conditions de KKT sont
suffisantes pour l’optimalité globale (nous le savons du chapitre précèdent). Ainsi, si le problème
est convexe et nous pouvons calculer une solution du système KKT, alors nous pouvons être
sûrs que c’est une solution optimale globale de (P ), et nous ne devrions pas prendre la peine de
rechercher d’autres points KKT et de les comparer les uns aux autres.
Malheureusement, le programme décrit peut être réalisé seulement dans des cas simples ; le
système non-linéaire de KKT est trop difficile à étudier analytiquement. Considérons maintenant
un de ces cas simples (mais très instructif).
Minimisation d’une forme quadratique homogène sur la boule unité. Nous considérons
le problème
(Q) f (x) ≡ xT Ax → min | g1 (x) ≡ xT x − 1 ≤ 0,
A étant une matrice symétrique n × n. Essayons de lister toutes solutions localement optimales
du problème.
Étape 0. Notons f ∗ la valeur optimale. Puisque x = 0 est clairement une solution faisable
et f (0) = 0, nous avons f ∗ ≤ 0. Il y a, par conséquent, deux cas possibles :
Cas (A) : f ∗ = 0 ;
Cas (B) : f ∗ < 0.
Étape 1 : Cas (A). Le cas (A) a lieu si et seulement si xT Ax ≥ 0 pour tous x, |x| ≤ 1, ou,
dû à la homogénéité de f (x), si et seulement si
xT Ax ≥ 0 ∀x.
144 CHAPITRE 7. CONDITIONS D’OPTIMALITE
Nous savons que les matrices symétriques avec cette propriété portent un nom spécial – elles
s’appellent symétriques semi-définie positives (nous avons rencontré ces matrices dans le critère
de convexité pour des fonctions deux fois différentiables). Dans l’Algèbre Linéaire il y a des tests
pour cette propriété, par exemple, la règle de Silvester 2) : une matrice symétrique est semi-
définie positive si et seulement si tous ses mineurs principaux – ceux constitués par des lignes et
des colonnes avec les mêmes indices – soient non négatifs. Maintenant, quelles sont les solutions
localement optimales du problème dans le cas de A semi-définie positive ? Ce sont exactement
les points x de la boule unité (l’ensemble faisable du problème) qui appartiennent au noyau de
A, c.-à-d., tels que
Ax = 0
(on note Ker(A)) : tout d’abord, si x ∈ Ker(A) alors xT Ax = 0 = f ∗ , de sorte que x∗ soit
même globalement optimal. Vice versa, supposons que x est localement optimal, et prouvons
que Ax = 0. La contrainte dans notre problème est convexe ; l’objectif est également convexe
(rappelez-vous le critère de la convexité pour des fonctions régulières et notez que f (x) = 2A),
de sorte qu’une solution localement optimale soit en fait optimale. Ainsi, x est localement optimal
si et seulement si xT Ax = 0. En particulier, si x est localement optimal, alors x = x/2, par
exemple, l’est également. En cette nouvelle solution optimale, la contrainte est satisfaite comme
inégalité stricte, de sorte que x soit un minimizer local sans contrainte de fonction f (·), et par
la règle de Fermat nous obtenons ∇f (x ) ≡ 2Ax = 0 et Ax = 0.
Étape 2 : Cas (B). Considérons maintenant le cas de f ∗ < 0, c.-à-d., le cas quand il existe
h, |h| ≤ 1, tel que
(#) hT Ah < 0.
Que sont les solutions localement optimales x∗ du problème dans ce cas ?
Que disent les conditions d’optimalité du premier ordre. Logiquement, il y a deux possibilités :
la première quand |x∗ | < 1, et la seconde quand |x∗ | = 1.
Montrons d’abord que la première situation est en fait impossible. En effet, dans le cas
|x∗ | < 1 x∗ devrait être localement optimal pour le problème sans contraintes f (x) → min |
x ∈ Rn avec l’objectif régulier. Par la condition nécessaire du second degré d’optimalité locale
sans contraintes, le Hessian f en x∗ (qui est égale à 2A) devrait être semi-défini positif, ce qui
contredit (#).
Ainsi, dans le cas en question une solution localement optimale x∗ est forcement sur la
frontière de la boule unité, et la contrainte g1 (x) ≤ 0 est active en x∗ . Le gradient 2x∗ de cette
contrainte est donc non nul en x∗ , et (par Theorem 7.1.2) x∗ est un point KKT :
dans R10 , nous observons que les conditions nécessaires d’optimalité du premier ordre sont satis-
faites par 18 vecteurs ±e2 , ±e3 ..., ±e10 , où ei , i = 1....10, sont les orths de la base canonique de
R10 . Tous ces 18 vecteurs sont des points de Karush-Kuhn-Tucker du problème, et les conditions
d’optimalité du premier ordre ne permettent pas de comprendre lesquels parmi ces 18 candidats
sont localement optimaux et lesquels ne le sont pas.
Remarque 7.2.1 Un produit secondaire de notre raisonnement est le résultat qui dit que une
matrice symétrique A qui satisfait (#) possède un vecteur propre ((Q) pour sûr est soluble,
et la condition nécessaire du premier ordre indique, comme nous avons vu, qu’une solution
optimale doit être un vecteur propre). Notez qu’il est loin d’être claire à l’avance pourquoi une
matrice symétrique devrait avoir un vecteur propre. Naturellement, notre raisonnement établit
l’existence d’un vecteur propre seulement sous la condition (#), mais on peut immédiatement
éliminer cette contrainte (étant donné une matrice symétrique arbitraire A , on peut appliquer
notre raisonnement à la matrice A = A − T I qui, pour un T grand, satisfait sûrement (#), et
démontrer l’existence d’un vecteur propre de A ; naturellement, celui sera également un vecteur
propre de A ).
L’existence d’un vecteur propre d’une matrice symétrique est, naturellement, un fait
élémentaire bien connu d’Algèbre Linéaire ; voici sa preuve en quelques lignes :
Montrons d’abord qu’une matrice arbitraire A, même avec les entrées complexes, possède
une valeur propre complexe. En effet, λ est une valeur propre de A si et seulement si il existe
un vecteur (complexe) non nul z tels que (A − λI)z = 0, c.-à-d., si et seulement si la matrice
λI − A est singulière, ou, ce qui est identique, le déterminant de la matrice est nul. D’autre
part, le déterminant de la matrice λI −A est clairement un polynôme nonconstant de λ, et un
tel polynôme, selon le Théorème Fondamental de l’Algèbre (FTA) – a une racine (complexe) ;
une telle racine est une valeur propre de A.
Maintenant on doit montrer que si A est symétrique et réelle, alors il existe une valeur
propre réelle et un vecteur propre réel. C’est immédiat : montrons que toutes les valeurs
propres de A sont réelles. En effet, si λ est une valeur propre de A (considérée comme
matrice complexe) et z est le vecteur propre correspondant (complexe), alors l’expression
n
Aij zj zi∗
i,j=1
(on note par ∗ la conjugaison complexe) est réelle (considérez son conjugué !) ; d’autre part,
pour le vecteur propre z nous avons j Aij zj = λzi , de sorte que notre expression devient
n n
λ i=1 zi zi∗ = λ i=1 |zi |2 ; comme z = 0, cette dernière expression est réelle si et seulement
si λ est réelle.
Enfin, quand on sait qu’une valeur propre λ d’une matrice symétrique réelle (considérée
comme une matrice avec les entrées complexes) est en fait réelle, on peut immédiatement
montrer que le vecteur propre lié à cette valeur propre peut être choisi pour être réel : en
effet, la matrice réelle λI − A est singulière et a donc un noyau non trivial.
Ainsi, dans notre exemple particulier la Théorie d’Optimisation avec ses Conditions d’Optimalité
est, dans un sens, superflue. Cependant, on devrait noter deux choses :
– que la preuve d’Algèbre Linéaire de l’existence d’un vecteur propre est basée sur le FTA
qui annonce l’existence de la racine (complexe) d’un polynôme. Pour obtenir le même
résultat sur l’existence d’un vecteur propre, dans notre preuve (et dans toutes les preuves
sur lesquelles elle se base) nous n’avons jamais parlé de quelque chose comme FTA ! Tout
ce que nous avons utilisé de l’Algèbre était la théorie élémentaire de systèmes d’équations
146 CHAPITRE 7. CONDITIONS D’OPTIMALITE
linéaires, et nous n’avons jamais pensé aux nombres complexes, aux racines des polynômes,
etc. !
– Il est utile de noter que la Théorie d’Optimisation (qui semble être superflue pour établir
l’existence d’un vecteur propre d’une matrice symétrique) devient inévitable si on cherche
à montrer une généralisation en dimension infinie de ce fait – le Théorème de Hilbert
qui dit qu’un opérateur linéaire symétrique compact dans un espace de Hilbert possède
un vecteur propre [et, en conclusion, même une base orthonormée de vecteurs propres].
Je ne vais pas expliquer ce que signifient tous ces mots ; en gros, on dit qu’une matrice
symétrique de dimension infinie peut être diagonalisée dans une base orthonormale propre-
ment choisie (par exemple, un opérateur intégral f (s) → 01 K(t, s)f (s)ds avec K(·, ·) pas
très mauvais (par exemple, carré integrable) symétrique (K(t, s) = K ∗ (s, t)), possède un
système orthonormal complet dans L2 [0, 1] des fonctions propres. Ce fait, en particulier,
explique pourquoi les spectres atomiques sont discrets plutôt que continus). En prouvant
ce théorème extrêmement important, on ne peut pas utiliser les outils d’Algèbre Linéaire
(il n’y a désormais aucun déterminant ou polynôme), mais on peut toujours employer
ceux d’Optimisation (la compacité de l’opérateur implique la solubilité du problème cor-
respondant (Q), et la condition nécessaire d’optimalité du premier ordre qui dans le cas
en question indique que la solution est un vecteur propre de l’opérateur, contrairement à
FTA, demeure valide dans le cas de dimension infinie).
7.3. EXERCICES 147
7.3 Exercices
Exercice 7.1 Considérez le problème de minimisation de la forme linéaire
f (x) = x2 + 0.1x1
sur le plan 2D sur le triangle avec les sommets (1, 0), (0, 1), (0, 1/2) (faites le dessin !).
1) Vérifiez que la solution optimale x∗ = (1, 0) est unique.
2) Vérifiez que le problème peut être écrit comme le programme LP :
Montrez que dans cette formulation du problème la condition nécessaire d’optimalité de KKT
est satisfaite en x∗ .
Quelles sont les contraintes actives en x∗ ? Quels sont les multiplicateurs de Lagrange corres-
pondants ?
3) Vérifiez que le problème peut être réécrit comme Programme Non-linéaire avec les
contraintes d’inégalité :
avec la solution optimale unique évidente (0, 0). La condition de KKT est-elle satisfaite en cette
solution ?
Réécrivez le problème d’une manière équivalente comme
Supposez que x∗ est une solution localement optimale, f, gi sont continûment différentiables
dans un voisinage de x∗ et les contraintes gi sont concaves dans ce voisinage. Montrez que la
Qualification des Contraintes a lieu en ce point. x∗ est-il un point de KKT du problème ?
Exercice 7.4 Soit a1 , ..., an positifs réels, et 0 < s < r sont des entiers. Trouver le maximum
et le minimum de la fonction
n
ai x2r
i
i=1
sur la surface
n
x2s
i = 1.
i=1
148 CHAPITRE 7. CONDITIONS D’OPTIMALITE
Exercice 7.5 Soit p(x) un polynôme de degré n > 0. Sans perte de généralité nous pouvons
supposer que p(x) = xn + ..., c.-à-d. le coefficient du monôme de degré le plus élevé est 1.
Considérez maintenant le module |p(z)| en fonction de l’argument complexe z ∈ C. Prouvez
que cette fonction a un minimum, et que le minimum est zéro.
Indication : comme |p(z)| → +∞ si |z| → +∞, la fonction continue |p(z)| doit atteindre un
minimum sur un plan complexe.
Soit z un point du plan complexe. Prouvez que pour le petit h complexe
Méthodes d’Optimisation :
Introduction
On commence avec ce chapitre la deuxième partie de notre cours ; ce que nous intéresse
dorénavant sont des méthodes numériques pour l’optimisation continue non-linéaire, c.-à-d., les
algorithmes pour résoudre des problèmes du type
ici x varie sur Rn , et l’objectif f (x), ainsi que les fonctions gi et hj , sont assez régulières
(normalement nous les supposons être au moins une fois continûment différentiables). On appelle
les contraintes
gi (x) ≤ 0, i = 1, ..., m; hj (x) = 0, j = 1, ..., k
les contraintes fonctionnelles, divisées de façon évidente en contraintes d’inégalité et d’égalité.
Nous appelons (8.1) le problème d’optimisation non-linéaire afin de distinguer ces problèmes
des programmes de Programmation Linéaires ; les derniers correspondent au cas quand toutes
les fonctions f, gi , hj sont linéaires. Et nous parlons de l’optimisation continue dans la descrip-
tion de notre sujet pour faire la distinction avec l’optimisation discrète, où nous recherchons une
solution sur un ensemble discret, par exemple, celui des vecteurs avec des coordonnées entiers
(programmation en nombres entiers), les vecteurs avec les coordonnées dans {0, 1} (program-
mation booléenne), etc...
Les problèmes (8.1) surgissent dans une variété d’applications, en gros, toutes les fois que
les gens prennent des décisions, ils essayent de les faire d’une façon “optimale”. Si la situa-
tion est assez simple, quand les décisions possibles puissent être paramétrisées par des vecteurs
de dimension finie, et la qualité de ces décisions puisse être caractérisée par un ensemble fini
de critères “calculables”, le concept de la décision “optimale” prend typiquement la forme du
problème (8.1). Notez que dans des applications réelles cette phase préliminaire – modélisation
du problème réel de décision comme problème d’optimisation avec l’objectif et les contraintes
calculables – est, normalement, beaucoup plus difficile et créatrice que la phase suivante où nous
résolvons le problème qui en résulte. Dans notre cours, de toute façon, nous ne touchons pas la
phase de modélisation, et nous nous concentrons sur la technique de resolution des programmes
d’optimisation.
Rappelez-vous que nous avons développé des conditions d’optimalité pour les problèmes (8.1)
dans les Chapitres 6 et 7. Nous nous rappelons qu’on peut former un système carré d’équations
non-linéaires et un système d’inégalités qui définissent un certain ensemble – celui des points de
149
150 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
Karush-Kuhn-Tucker – qui, sous certaines conditions de régularité, contient toutes les solutions
optimales du problème. D’habitude, le système de Karush-Kuhn-Tucker a un nombre fini de
solutions, et si nous sommes assez intelligents pour trouver toutes les solutions analytiquement,
alors nous pourrions en sélectionner la meilleure, la solution optimale, toujours sous une forme
analytique. La difficulté, cependant, est qu’en règle générale nous ne sommes pas assez intelli-
gents pour résoudre analytiquement le système de Karush-Kuhn-Tucker, et nous ne savons pas
trouver analytiquement une solution optimale par d’autres moyens. Dans tous ces cas “difficiles”
– et tous les problèmes d’optimisation venant de vraies applications du monde sont difficiles dans
ce sens – tout ce que nous pouvons espérer est une routine numérique, un algorithme qui permet
de approcher numériquement les solutions qui nous intéressent. Ainsi, les méthodes numériques
d’optimisation forment l’outil principal pour résoudre des problèmes d’optimisation.
où f est une fonction régulière (au moins une fois continûment différentiable) sur Rn ;
– Problèmes contraints, qui impliquent au moins une contrainte d’inégalité ou d’égalité.
Les problèmes contraints, à leur tour, sont subdivisés en plusieurs classes, selon qu’il y a des
contraintes non-linéaires, contraintes d’inégalité, et ainsi de suite.
Selon la classification décrite des problèmes d’optimisation, les méthodes d’optimisation sont
principalement divisées en celles pour l’optimisation sans contrainte et celles pour l’optimisation
sous contraintes. Bien que les problèmes sans contrainte plus simples ne soient pas très fréquents
dans les applications, les méthodes d’optimisation sans contrainte jouent le rôle très important :
elles sont employées directement pour résoudre des problèmes sans contrainte et indirectement,
comme modules, dans beaucoup de méthodes de minimisation sous contraintes.
de l’objectif et des contraintes xt et, probablement, celles des gradients ou même des dérivés
supérieures de ces fonctions en xt . Ainsi, quand il s’agit de former xt+1 , la méthode “connait”
les valeurs et les dérivées, jusqu’à un certain ordre fixe, de l’objectif et des contraintes sur les
précédentes itérations x1 ..., xt . Et cette information est exactement toute l’information sur le
problème disponible à la méthode quand elle produit l’iteration xt+1 . En conséquence, cette
itération est une certaine fonction d’information accumulée jusqu’ici :
seule caractéristique d’une méthode, mais c’est la propriété qu’en fait une routine d’optimisation
théoriquement valide.
Vitesses de convergence
La convergence d’une méthode numérique d’optimisation (et tout autre) est la propriété la
plus faible qui donne à la méthode le droit d’exister. En principe, il y a autant de méthodes
avec cette propriété que vous voulez, et la question est comment ranger ces méthodes et les-
quelles parmi elles sont à recommander pour l’utilisation pratique. En Optimisation Non-linéaire
traditionnelle ce problème est généralement “résolu” en comparant le taux asymptotique de
convergence mesuré comme suit.
Supposons que la méthode pour le problème P produit une suite d’iterations
qui converge vers l’ensemble de solutions du problème XP∗ . Pour définir le taux de
convergence, nous introduisons d’abord la fonction d’erreur err(x) qui mesure la
qualité d’une solution approximative x ; cette fonction doit être positive en dehors
de XP∗ et zéro sur XP∗ .
Il y a plusieurs choix raisonnables de la fonction d’erreur. Par exemple, nous
pouvons toujours utiliser la distance entre la solution approximative et l’ensemble
de solutions :
distP (x) = ∗inf ∗ |x − x∗ |;
x ∈XP
rt+1
lim = 0.
t→∞ rt
– [convergence d’ordre p > 1] On dit qu’une suite {rt ≥ 0} est convergeante d’ordre p > 1
vers 0, si pour un certain C et tout t assez grand on a
rt+1 ≤ Crtp .
La borne supérieure des p pour lesquels le suite converge vers 0 avec l’ordre p s’appelle
ordre de convergence de la suite.
t
Par exemple, la suite rt = a(p ) (a ∈ (0, 1), p > 1) converge vers zéro d’ordre p, car
rt+1 /rtp = 1. Les suites convergeantes vers 0 d’ordre 2 ont un nom spécial – on dit qu’elles
convergent quadratiquement.
Naturellement, une suite convergeante vers 0 d’ordre p > 1 converge super-linéairement
vers 0 (mais, d’une manière générale, pas vice versa).
Traditionnellement, le taux de convergence des routines numériques itératives est mesuré par le
rang de la suite correspondante d’erreurs {rt = err(xt )} dans l’échelle ci-dessus ; en particulier, on
parle de méthodes sous-linéaires, linéaires, super-linéaires, quadratique ou de méthodes d’ordre
p > 1. On pense souvent que meilleur est le taux de convergence d’une méthode, plus préférable
est la méthode elle-même. Par exemple, une méthode qui converge linéairement soit meilleure
que une méthode sous-linéaire ; parmi deux méthodes linéaire, celle avec le taux plus petit
de convergence soit préférable ; une méthode super-linéaire soit préférée à une méthode qui
possède une convergence linéaire. Naturellement, toutes ces préférences sont “conditionnées”
par l’absence de différences significatives dans la complexité numérique des itérations, etc.
On devrait souligner que le taux de la convergence, ainsi que la propriété même de la conver-
gence, est une caractéristique asymptotique de la suite d’erreurs ; il n’indique pas que quand “ar-
rive” le taux annoncé de convergence, c.-à-d., ce que sont les valeurs de C ou/et “assez grandes
valeurs” de t mentionnés dans les définitions correspondantes. Pour des méthodes concrètes, les
bornes de ces quantités typiquement peuvent être extraites à partir des preuves de convergence,
mais ça n’aide pas beaucoup – ces bornes sont habituellement très compliquées, grossières et
dépendent des caractéristiques quantitatives “invisibles” du problème comme les magnitudes des
dérivées d’ordre élevé, le conditionnement du Hessian, etc. A partir de ces observations (com-
binées avec le fait que notre vie est finie) il découle que on ne devrait pas surestimer l’importance
du taux de convergence des méthodes. Cette approche traditionnelle donne une sorte d’orienta-
tion, rien d’avantage ; malheureusement, il ne semble y avoir aucune manière purement théorique
d’obtenir un “rangement” détaillé des méthodes numériques d’optimisation. En conséquence,
les recommandations pratiques concernant des méthodes à employer sont basées sur différentes
considérations théoriques et empiriques : taux théorique de convergence, comportement réel sur
des problèmes d’essai, stabilité numérique, simplicité et robustesse, etc.
154 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
x’ x’’
La fonction a deux minimiseurs locaux, x et x . Il est impossible de deviner qu’il existe en
fait un autre minimiseur en observant un voisinage assez petit de chaque de ces minimizers.
En conséquence, n’importe quelle méthode “normale” d’optimisation non-linéaire lancée sur le
problème en question avec le point de départ dans un petit voisinage du “faux minimiseur”
(local, pas global) x , convergera vers x – l’information locale sur f disponible pour la méthode
ne laisse pas deviner que x existe !
Il serait erroné de dire que la difficulté est absolument unsurmountable. Nous pourrions lancer
la méthode avec les différents points de départ, ou même regarder les valeurs de l’objectif sur une
suite des point qui est dense dans R 1) et définir xt en tant que meilleur, en termes de valeurs de
f , des premiers t points de la suite. Cette dernière “méthode” peut être facilement étendue aux
problèmes multi-dimensionnels avec des contraintes générales ; on peut immédiatement prouver
sa convergence vers la solution globale ; la méthode est simple dans l’exécution, etc. Il y a
seulement un petit inconvénient de la méthode : le nombre énorme d’évaluations de fonction
requises pour résoudre un problème avec l’inexactitude .
On peut voir facilement que la méthode décrite, appliquée au problème
exige, dans le pire cas, au moins −n de pas pour trouver un point x avec l’erreur
résiduelle – la quantité f (x ) − min|x|≤1 f – n’excédant pas .
1. ) c.-à-d. qui visite tout voisinage arbitrairement petit de chaque point de R, comme le fait, par exemple,
la suite de tous les nombres rationnels (pour ranger des nombres rationnels dans une suite simple, énumérez-
les selon la somme de valeurs absolues du numérateur et du dénominateur dans les fractions correspondantes :
d’abord ceux avec la somme ci-dessus égale à 1 (le seul rationnel 0 = 0/1), puis ceux avec la somme égale à 2
(−1 = −1/1, 1 = 1/1), puis ceux avec la somme égale à 3 (−2/1, −1/2, 1/2, 2/1), etc.)
8.2. RECHERCHE LINEAIRE 155
f étant une fonction au moins continue sur l’axe ; d’habitude, on appelle ces méthodes recherche
linéaire.
Notre intérêt pour la recherche linéaire ne vient pas seulement du fait que dans les appli-
cations on rencontre, naturellement, des problèmes unidimensionnels, mais plutôt du fait que
la recherche linéaire est un composant fondamental de toutes les méthodes traditionnelles d’op-
timisation multi-dimensionnelle. D’habitude, nous avons le schéma suivant d’une méthode de
minimisation sans contraintes multi-dimensionnelle : en regardant le comportement local de
l’objectif f sur l’itération courante xt , la méthode choisit la “direction du movement” dt (qui,
normalement, est une direction de descente de l’objectif : dTt ∇f (xt ) < 0) et exécute un pas dans
cette direction :
xt → xt+1 = xt + αt dt
afin de réaliser un certain progrès en valeur de l’objective, c.-à-d., pour assurer que f (xt+1 ) <
f (xt ). Et dans la majorité des méthodes le pas dans la direction dt est choisie par la minimisation
unidimensionnelle de la fonction
φ(α) = f (xt + αdt ).
Ainsi, la technique de recherche linéaire est une brick de base fondamentale de toute méthode
multi-dimensionnelle.
Il suit que l’ensemble de minimiseurs de f sur [a, x ] contient un minimiseur, x∗ , qui est
diffèrent de x 3) . Comme x∗ est un minimiseur de f sur [a, x ] et x∗ diffère de x , x∗ est
un minimiseur local de f sur [a, b], alors qu’on a supposé que le minimizer local unique de f
sur [a, b] est x∗ ; ceci donne la contradiction désirée. On a (8.6) de façon analogue.
3. ) regardez : si x soi-même n’est pas un minimiseur de f sur [a, x ], alors tout minimiseur de f sur [a, x ]
peut être choisi comme x∗ ; si x est un minimizer de f sur [a, x ], alors x est également un minimiseur, car
f (x ) ≤ f (x ), et nous pouvons poser x∗ = x
8.2. RECHERCHE LINEAIRE 157
Notez que les relations (8.5) et (8.6), à leur tour, impliquent qui f est unimodal sur [a, b] et
même sur chaque segment [a , b ] ⊂ [a, b] plus petit.
Étant donné que f est unimodal sur [a, b], nous pouvons préciser une stratégie pour approcher
x : choisissons deux points x− et x+ dans (a, b),
∗
Algorithme 8.2.1 [la minimisation d’ordre zéro de fonction unimodale sur [a, b] ]
Initialisation : Poser δ0 = [a, b], t = 1
Étape t : Étant donné le segment précédent Δt−1 = [at−1 , bt−1 ] d’incertitude,
– choisir les points de recherche x− + − +
t , xt : at−1 < xt < xt < bt−1 ;
− +
– calculer f (xt ) et f (xt ) ;
– définir le nouveau segment incertain : si f (x− t ) ≤ f (xt ), poser Δt = [at−1 , xt ], poser
+ +
−
Δt = [xt , bt−1 ] sinon ;
– remplacer t par t + 1 et boucler.
On voit immédiatement que nous pouvons assurer la convergence linéaire des longueurs des
segments d’incertitude vers 0, ce qui nos donne un algorithme linéairement convergeant vers
x∗ . Par exemple, si x− +
t , xt sont choisis pour couper Δt−1 en trois parts égales, nous obtenons
|Δt+1 | = 3 |Δt | (|Δ| représente la longueur d’un segment Δ), ce qui nous donne un algorithme
2
Recherche de Fibonacci
La recherche de Fibonacci peut être employée quand nous savons à l’avance le nombre
N > 2 d’évaluations de fonction que nous allons exécuter.
Étant donné N , on considère la suite des N + 1 premiers nombres entiers de Fibonacci
F0 , F1 , F2 ..., Fn définis par la récurrence
F0 = F1 = 1; Fk = Fk−1 + Fk−2
d0 = |b − a|,
FN −1
d1 = d0
FN
de l’extrémité droite et de l’extrémité gauche de Δ0 respectivement (comme FN /FN −1 =
(FN −1 + FN −2 )/FN −1 = 1 + FN −2 /FN −1 < 2, nous avons d1 > d0 /2, de sorte que x− +
1 < x1 ).
La longueur du nouveau segment Δ1 d’incertitude est alors d1 .
En suite on réitère l’étape ci-dessus, avec N remplacé N − 1. Ainsi, maintenant nous
devrions évaluer f en deux points x− +
2 , x2 du segment Δ1 placés à la distance
FN −2 FN −2 FN −1 FN −2
d2 = d1 [= d0 = d0 ] (8.8)
FN −1 FN −1 FN FN
des bouts droit et gauche de Δ1 . Le fait crucial (qui résulte des propriétés arithmétiques des
nombres de Fibonacci) est que
un de ces deux points où f devrait être calculé est déjà traité – celui parmi les deux points
précédents qui appartient à l’intérieur de Δ1 .
−
En effet, supposons, sans perte de généralité, que Δ1 = [a, x+ 1 ] (le cas Δ1 = [x1 , b] est
−
complètement analogue), de sorte que x1 ∈ int Δ1 . Nous avons
− FN −1
x1 − a = (b − d1 ) − a = (b − a) − d1 = d0 − d1 = d0 1 − =
FN
FN −2
[comme FN = FN −1 + FN −2 et d2 = FN d0 ]
FN −2
= d0 = d2 .
FN
Ainsi, seulement un des deux points exigés de Δ1 est réellement “nouveau”, et l’autre vient
de l’étape précédente ; par conséquent, afin de mettre à jour Δ1 vers Δ2 nous avons besoin
d’une seule évaluation de fonction. Après cette nouvelle évaluation de fonction, nous pouvons
remplacer Δ1 avec Δ2 . Pour traiter Δ2 , nous agissons exactement comme ci-dessus, mais avec
N remplacé par N − 2 ; ici nous devons évaluer f aux deux points de Δ2 à la distance
FN −3 FN −3
d3 = d2 [= d0 , see (8.8)]
FN −2 FN
des extrémités du segment, et, à nouveau, un de ces point est deja traité.
Au bout des itérations nous venons au segment ΔN −1 qui couvre x∗ ; la longueur du
segment est
F1 b−a
dN −1 = d0 = ,
FN FN
8.2. RECHERCHE LINEAIRE 159
et le nombre total d’évaluations de f requis pour obtenir ce segment est N (nous avons
besoin de 2 évaluations de f pour passer de Δ0 vers Δ1 , et chacune des N − 2 mises à jour
suivantes Δt → Δt+1 nécessite une évaluation de f ).
Si on prend comme approximation de x∗ n’importe quel point xN du segment ΔN −1 ,
nous avons
b−a
|xN − x∗ | ≤ |ΔN | = . (8.9)
FN
Pour comparer (8.9) avec l’évaluation de précision (8.7) de notre méthode initiale – peu
sophistiquée – notez que
√
1 ! " 1+ 5
Ft = (λ + 1)λt + (−1)t λ−t , λ = > 1. 4) (8.10)
λ+2 2
En consequence, de (8.9) nous obtenons
λ + 2 −N
|xN − x∗ | ≤ λ |b − a|(1 + o(1)), (8.11)
λ+1
où on note o(1) une fonction de N qui converge vers 0 quand N → ∞).
Nous voyons que le taux de convergence pour la recherche de Fibonacci est
2
λ−1 = √ = 0.61803...
1+ 5
qui est bien meilleur que le taux 2/3 = 0.81649... donné par (8.7).
On peut montrer que la recherche de Fibonacci est une méthode optimale (dans un
certain sens précis) d’ordre zéro, en termes de precision garantie après N évaluations de
fonction. Malgré ces bonnes propriétés théoriques, la méthode n’est pas très commode du
point de vue pratique : nous devrions choisir à l’avance le nombre d’évaluations de fonction à
exécuter (c.-à-d., pour ajuster la méthode à une certaine précision, choisie à l’avance), ce qui
est parfois assez désagréable. La méthode de recherche d’or que nous sommes sur le point de
présenter est exempte de cette imperfection et, en même temps, pour des N pas trop petits,
aussi efficace que la recherche de Fibonacci originale.
L’idée de la méthode de recherche d’or est très simple : à l’étape k de recherche de la
recherche de Fibonacci à N pas, nous choisissons deux points de recherche dans le segment
Δk−1 , et chacun de ces points divise le segment (entre l’extrémité plus proche et la plus
éloignée) en rapport
[1 − FN −k /FN −k+1 ] : [FN −k /FN −k+1 ] ,
4. ) voici le calcul : les nombres de Fibonacci satisfont l’équation homogène en différences finies :
xt − xt−1 − xt−2 = 0
avec la condition initiale x0 = x1 = 1. Pour résoudre une équation homogène en différences finies, on doit
d’abord chercher ses solutions fondamentales – ceux du type xt = λt . En substituant xt = λt dans l’équation,
nous obtenons une équation quadratique pour λ :
λ2 − λ − 1 = 0,
c.-à-d., en rapport FN −k−1 : FN −k . Selon (8.10), ce rapport pour les grands N − k est proche
√
de 1/λ, λ = (1 + 5)/2. Dans la recherche d’or on utilise ce rapport sur chaque étape, et
c’est tout !
Recherche d’or
√
Soit λ = (1 + 5)/2 (aussi appelé le “nombre d’or”). Dans l’implementation de recherche
d’or de l’Algorithme 8.2.1 nous choisissons à chaque étape les points de recherche x− +
t et xt pour
diviser le segment précédent de l’incertitude Δt−1 = [at−1 , bt−1 ] dans le rapport 1/λ :
λ 1 1 λ
x−
t = at−1 + bt−1 ; x+
t = at−1 + bt−1 . (8.12)
1+λ 1+λ 1+λ 1+λ
On voit facilement que pour t ≥ 2, un des points de recherche exigés pour mettre à jour Δt−1
vers Δt est déjà traité en cours de la mise à jour de Δt−2 vers Δt−1 . Pour le vérifier, il suffit de
−
considérer le cas quand Δt−2 = [α, β] et Δt−1 = [α, x+ t−1 ] (le cas “symétrique” Δt−1 = [xt−1 , β]
est complètement analogue). Notons d = β − α, nous avons
1 λ
x−
t−1 = α + d, x+
t−1 = α + d. (8.13)
1+λ 1+λ
Maintenant, nous sommes dans la situation Δt−1 = [α, x+ t−1 ], de sorte que le second des deux
points de recherche requis pour mettre à jour Δt−1 vers Δt soit
λ λ2
x+
t =α+ t−1 − α) = α +
(x+ d
1+λ (1 + λ)2
(voyez la deuxième égalité dans (8.13)). La dernière quantité, dues à la première égalité dans
(8.13) et à l’équation caractéristique λ2 = 1 + λ qui donne λ, n’est rien d’autre que x− t−1 :
1 λ2
λ2 = 1 + λ ⇔ = .
1+λ (1 + λ)2
Ainsi, dans la recherche d’or chaque mise à jour Δt−1 → Δt , excepté la toute première, exige
une évaluation de fonction. La longueur du segment d’incertitude est réduite par chaque mise à
jour par le facteur
λ 1
= ,
1+λ λ
c.-à-d.,
|Δt | = λ−t (b − a).
Après N ≥ 2 évaluations de fonction (après t = N − 1 étapes de recherche d’or) nous pouvons
approcher x∗ par le point xN du segment ΔN −1 , est l’imprécision sera bornée par
Ainsi, nous observons une convergence linéaire avec le même taux λ−1 = 0.61803... que pour la
recherche de Fibonacci, mais maintenant la méthode est “stationnaire” – nous pouvons exécuter
autant de pas que nous le souhaitons.
8.2. RECHERCHE LINEAIRE 161
8.2.2 Dichotomie
L’avantage théorique des méthodes d’ordre zéro, comme la recherche de Fibonacci et la
recherche d’or, est que ces méthodes n’utilisent du’une information minimale sur l’objectif –
ses valeurs seulement. De plus, ces méthodes ont un champ des applications très large – la
seule condition imposée sur l’objectif est d’être unimodal sur un segment donné qui localise le
minimiseur à approcher. Et même dans ce cadre, très large, ces méthodes convergent linéairement
avec le taux de convergence indépendant de l’objectif ; d’ailleurs, les évaluations d’efficacité (8.11)
et (8.14) sont non-asymptotiques : elles ne contiennent pas des facteurs constants “incertains”
et sont valides pour toutes valeurs de N . En même temps, souvent notre objectif “se comporte
mieux” qu’une fonction unimodale générale, par exemple, la fonction f peut être lisse. En se
servant de ces propriétés additionnelles de l’objectif, nous pouvons améliorer le comportement
des méthodes de recherche linéaire.
Voyons ce qui se produit si nous résolvons le problème (8.4) avec un objectif lisse
(continûment différentiable). Comme ci-dessus, supposons que l’objectif est unimodal sur [a, b].
En fait nous faisons une hypothèse un peu plus forte :
(A) : le minimiseur x∗ de f sur [a, b] est un point intérieur du segment, et f (x) change son
signe en x∗ :
f (x) < 0, x ∈ [a, x∗ ); f (x) > 0, x ∈ (x∗ , b]
[notez que unimodalité + derivabilité impliquent seulement f (x) ≤ 0 sur [a, x∗ ) et f (x) ≥ 0
sur (x∗ , b]].
Supposons, en plus, comme c’est normalement le cas, que nous pouvons calculer non seule-
ment la valeur, mais également la dérivée de l’objectif en un point donné.
Sous ces hypothèses nous pouvons résoudre (8.4) par la méthode la plus simple possible – la
dichotomie : calculons f au point médian x1 de Δ0 = [a, b]. Il y a trois cas possibles :
– f (x1 ) > 0. Ce cas, selon (A), est possible si et seulement si x∗ < x1 , et nous pouvons
remplacer le segment initial d’incertitude par [x1 , b], réduisant ainsi la longueur du segment
d’incertitude par le facteur 2 ;
– f (x1 ) < 0. Comme dans le cas précédant, cette inégalité est possible si et seulement si
x∗ > x1 , et nous pouvons remplacer le segment initial d’incertitude par [a, x1 ], réduisant
de nouveau la longueur du segment d’incertitude par le facteur 2 ;
– f (x1 ) = 0. Selon (A), c’est possible si et seulement si x1 = x∗ , et nous pouvons terminer
avec le minimiseur exact actuel.
Dans les deux premiers cas notre objectif possède clairement la propriété (A) par rapport au
nouveau segment d’incertitude, et nous pouvons réitérer notre construction. Ainsi, nous venons
à
at−1 + bt−1
xt = ;
2
– calculer f (xt ) ;
162 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
– dans le cas f (xt ) = 0 terminer et sortir une solution exacte xt de (8.4). Autrement, poser
Remarque 8.2.2 La méthode de Dichotomie peut être vue comme “le cas limite” de l’algo-
rithme d’ordre zéro 8.2.1 : quand, dans le dernier algorithme, nous posons les deux points de
recherche x− + −
t et xt près du milieu du segment Δt−1 , le résultat de comparaison entre f (xt ) et
+
f (xt ) qui régit le choix du nouveau segment d’incertitude dans l’algorithme 8.2.1 est donné par
le signe de f au point du milieu de Δt−1 .
Remarque 8.2.3 Notez que l’hypothèse (A) peut être affaiblie. En effet, supposons que f
change son signe sur le segment [a, b] : f (a) < 0, f (b) > 0 ; et on ne suppose rien au sujet de la
dérivée sur (a, b), excepté sa continuité. Dans ce cas-ci nous pouvons encore utiliser la méthode
de dichotomie avec succès pour rapprocher un point critique de f dans (a, b), c.-à-d., un point
où f (x) = 0. En effet, de la description de la méthode on voit que ce que la méthode produit
une suite de segments “emboités” Δ0 ⊃ Δ1 ⊃ Δ2 ⊃ ..., avec le segment suivant étant deux fois
plus petit que le précédent, avec la propriété que f change son signe de − à + en passant de
l’extrémité gauche de chaque segment Δt à son extrémité droite. Ce processus peut être terminé
seulement dans le cas quand xt est un point critique de f . Si cet événement ne se produit pas,
alors les segments emboités Δt ont un point commun unique x∗ , et puisque dans n’importe quel
voisinage du point il y a des points avec des valeurs positives et négatives de f , nous avons
f (x∗ ) = 0 (f est continu !). C’est le point critique de f et l’algorithme converge linéairement
vers x∗ avec le taux de convergence 0, 5.
La remarque ci-dessus explique la nature de l’algorithme de dichotomie. C’est un algorithme
pour trouver le zéro de la fonction f plutôt que pour minimiser f (sous l’hypothèse (A), natu-
rellement, c’est la même chose). Et l’idée de la méthode est triviale : étant donné que le zéro de
f est encadré par le segment initial Δ0 = [a, b] (c.-à-d., que f aux points extrêmes du segment
est de signe différent), nous produisons une suite des segments inclus, qui encadrent également
le zéro de f : nous avons scindé le segment précédent Δt = [at−1 , bt−1 ] par son milieu xt en
deux sous-segments [at−1 , xt ] et [xt , bt−1 ]. Comme f change son signe en passant de at−1 à bt−1 ,
il change son signe soit en passant de at−1 à xt , soit en passant de xt à bt−1 (à condition que
f (xt ) = 0, de sorte que nous puissions parler du signe de f (xt ) ; si f (xt ) = 0, nous sommes
8.2. RECHERCHE LINEAIRE 163
faits). Nous détectons sur lequel des deux sous-segments f changent en fait son signe et le
prenons comme nouveau segment Δt d’incertitude ; par la construction, il encadre également le
zéro de f .
Méthode de Newton
Supposons que nous résolvons le problème (8.3) avec l’objectif f deux fois continûment
différentiable, et que, étant donné x, nous pouvons calculer f (x), f (x) et f (x). Sous ces hy-
pothèses nous pouvons appliquer au problème la Méthode suivante de Newton :
– calculer f (xt−1 ), f (xt−1 ) et f (xt−1 ) et approcher f autour de xt−1 par son développement
de Tailor du second ordre :
1
p(x) = f (xt−1 ) + f (xt−1 )(x − xt−1 ) + f (xt−1 )(x − xt−1 )2 ;
2
– choisir comme xt le minimiseur de la fonction quadratique p(·) :
f (xt−1 )
xt = xt−1 − ,
f (xt−1 )
g(xt−1 )
xt = xt−1 − .
g (xt−1 )
Puisque g = f est deux fois continûment différentiable dans un voisinage de x∗ et g (x∗ ) > 0,
ils existent des constantes positives K1 , K2 et r tels que
Maintenant, soit
k2
ρ = min{r; }. (8.16)
k1
Supposons que pour un certain t l’itération xt−1 appartient au ρ-voisinage
Uρ = [x∗ − ρ, x∗ + ρ]
de x∗ . Alors g (xt−1 ) ≥ k2 > 0 (grâce à (8.15) ; notez que ρ ≤ r), ainsi l’itération de Newton
xt−1 → xt est bien définie. Nous avons
g(xt−1 )
xt − x∗ = xt−1 − x∗ − =
g (xt−1 )
[car g(x∗ ) = 0]
k1
xt−1 ∈ Uρ ⇒ |xt − x∗ | ≤ |xt−1 − x∗ |2 . (8.17)
2k2
On observe que la trajectoire de la Méthode de Newton, après avoir une fois atteint Uρ , ne
quite jamais ce voisinage et converge vers x∗ linéairement avec le taux 0.5. C’est sûrement le
cas quand x0 ∈ Uρ , et nous allons specifier “assez proche de” dans l’énoncé de la proposition
comme l’inclusion x0 ∈ Uρ . Avec cette spécification, nous obtenons que la trajectoire converge
vers x∗ linéairement, et on déduit de (8.17) que l’ordre de convergence est (au moins) 2.
Remarque 8.2.4 Les deux hypothèses – que f (x∗ ) > 0 et que x0 est assez près de x∗ sont
essentielles 5) . Par exemple, pour la fonction convexe régulière f (x) = x4 (avec le minimiseur
dégénéré x∗ = 0), la méthode devient
1 2
xt = xt−1 − xt−1 = xt−1 ;
3 3
dans cet exemple la méthode converge, mais la convergence est linéaire plutôt que quadratique.
√
Appliquée à la fonction régulière strictement convexe f (x) = 1 + x2 avec le minimizer local
(et global) unique (et non-dégénère x∗ = 0), la méthode devient, comme on voit immédiatement,
xt = −x3t−1 ;
cette suite converge (très rapidement : avec l’ordre 3) vers 0 à condition que le point de départ
soit dans (−1, 1), et diverge à l’infini – aussi rapidement – si |x0 | > 1.
En fait la Méthode de Newton est une Méthode de Linéarisation pour trouver le zéro de f :
étant donné l’iteration précédente xt−1 , nous “linéarisons” g = f en ce point et prenons comme
xt la solution à la linéarisation
5. ) en fait, la condition f (x∗ ) > 0 peut être remplacé par f (x∗ ) < 0, puisque la trajectoire de la méthode
ne change pas si on remplace f par −f (en d’autres termes, la Méthode de Newton ne distingue pas les minima
locaux et les maxima locaux de l’objectif). On parle du cas de f (x∗ ) > 0, pas celui de f (x∗ ) < 0, simplement
parce que le premier est le seul important pour la minimisation.
166 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
f’(x)
x x
t t-1
La règle d’Armijo
On considère la situation qui est typique pour l’application de la technique de recherche
linéaire à l’intérieur de la méthode principale multi-dimensionnelle. Sur une itération de la
dernière méthode nous avons l’iteration courante x ∈ Rn et la direction de recherche d ∈ Rn
qui est direction de descente pour notre objectif f (·) : Rn → R :
Le but est de réduire “de façon importante” la valeur de l’objectif par un pas
x → x + γ ∗ d
de x dans la direction d.
Supposons que f est continûment différentiable. Alors la fonction
φ(γ) = f (x + γd)
d’une variable est également une fois continûment différentiable ; d’ailleurs, en raison de (8.18),
nous avons
φ (0) < 0,
8.2. RECHERCHE LINEAIRE 167
Nous désirons de choisir un pas “raisonnablement grand” γ ∗ > 0 qui a comme conséquence le
progrès φ(γ ∗ ) − φ(0) sur l’objectif “de l’ordre de γ ∗ φ (0)”. Le test d’Armijo de cette condition
est construit de façon suivante :
Test d’Armijo :
on fixe une fois pour toutes les constantes ∈ (0, 1) (un choix populaire est = 0.2) et η > 1
(disons, η = 2 ou η = 10) et on dit que la valeur candidate γ > 0 est appropriée, si les deux
conditions suivantes sont satisfaites :
[cette partie du test dit que le progrès en valeur de φ donné par le pas γ est “de l’ordre de
γφ (0)”]
φ(ηγ) ≥ φ(0) + ηγφ (0) (8.20)
[cette partie du test dit que γ est un pas “de l’ordre de grandeur maximal” qui satisfait encore
(8.19) – si on multiplie γ par η, la nouvelle valeur ne satisfait plus (8.19), comme une inégalité
stricte]
Sous l’hypothèse (8.18) et la condition (très naturelle) que f (et, par conséquent, φ) est borné
inférieurement, le test d’Armijo est consistant : ils existent des valeurs de γ > 0 qui passent le
test. Pour le voir, il suffit de remarquer que
A. (8.19) est satisfait pour tout γ positif assez petit.
En effet, puisque φ est différentiable, nous avons
φ(γ) − φ(0)
0 > φ (0) = lim ,
γ→+0 γ
d’où
φ(γ) − φ(0)
φ (0) ≥
γ
pour tout assez petit γ positif (comme φ (0) > φ (0) dû à φ (0) < 0, ∈ (0, 1)). L’inégalité finale
est équivalente à (8.19) ;
B. (8.19) n’est pas vérifiée pour toutes valeurs γ assez grandes.
En effet, le côté droit de (8.19) tend vers −∞ quand γ → ∞, dû à φ (0) < 0, mais son côté
gauche est borné inférieurement.
Nous pouvons choisir un γ = γ0 positif et verifier s’il satisfait (8.19). Si c’est le cas, on
remplace cette valeur par γ1 = ηγ0 , γ2 = ηγ1 , etc., vérifiant chaque fois si la nouvelle valeur de
γ passe (8.19). Selon B , ceci ne peut pas durer toujours : pour un certain s ≥ 1, γs ne satisfait
sûrement pas (8.19). Quand cela se produit pour la première fois, la quantité γs−1 satisfait (8.19),
alors que la quantité γs = ηγs−1 ne satisfait pas (8.19), ce qui signifie que γ = γs−1 passe le test
d’Armijo.
Notez que la preuve présentée donne en fait un algorithme explicite (et rapide) pour trouver
le pas qui passe le test d’Armijo, et cet algorithme peut être utilisé (et il est, en effet, souvent
employé) dans la recherche d’Armijo au lieu des méthodes de recherche linéaire plus précises
(et, normalement, plus fastidieuses).
168 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
Test de Goldstein
Un autre test populaire pour le “progrès suffisant” pour la recherche linéaire est le test
de Goldstein suivant :
on fixe ∈ (0, 1/2) et on dit que la valeur candidat γ > 0 est appropriée, si
8.3 Exercices
Exercice 8.1 [Recherche d’or] Codez la recherche d’or et testez la sur quelques fonctions uni-
modales de votre choix.
Exercice 8.2 [Dichotomie] Codez la méthode de dichotomie et tester la sur quelques fonctions
unimodales de votre choix.
Lancer 50 pas de l’algorithme de dichotomie sur la fonction (non-unimodale)
2π
f (x) = − sin 2 [x ≥ 0]
17 + x
avec le segment initial (a) [0, 1] ; (b) [0, 4], prenant comme résultat le point central du segment
final. Pourquoi les résultats sont-ils différents ?
Exercice 8.3 [Recherche d’or contre le dichotomie] Supposons que le problème (8.4) à résoudre
satisfait l’hypothèse (A) (Section 8.2.2), et que les dérivées de l’objectif sont disponibles. Que
devrait être préféré – la recherche d’or ou la dichotomie ?
Naturellement, la dichotomie a une meilleure convergence (taux 0.5 contre 0.618... pour la
recherche d’or), mais cette comparaison est injuste : la recherche d’or n’utilise pas des dérivés,
et en excluant la partie du code qui calcul f , on doit économiser du temps de calcul, malgré un
nombre plus grand d’étapes requises dans la recherche d’or pour réaliser la même precision.
La raison réelle de préférer le bisection est que cette méthode est plus stable numériquement.
En effet, supposons que nous devons résoudre (8.4) et toutes les valeurs de f, f , f dans [a, b],
mêmes que a et b eux-mêmes, sont des “réels normaux” – ceux de l’ordre de 1. Supposons aussi
que nous cherchons à obtenir le segment d’incertitude final de la longueur . Quelles sont les
valeur de que nous pouvons obtenir réellement en utilisant les ordinateurs réels avec leurs
erreurs d’arrondie ?
Je vous propose le raisonnement approximatif suivant : pour implementer la recherche d’or,
nous devrions comparer des valeurs de l’objectif sur les étapes finales – aux points à la distance
O() du minimiseur. En ces points, les valeurs de f diffèrent de la valeur optimale (et, par
conséquent, l’un de l’autre) de O(2 ). Afin d’assurer la comparaison correcte des valeurs (et
la comparaison incorrecte rend tous les calculs suivants erronés), l’erreur d’arrondie absolue ∗
de la représentation d’ordinateur d’un nombre de l’ordre de 1 (pour les machines actuelles ∗
de double précision Fortran/C est quelque chose comme 10−16 ) devrait être moins que O(2 ).
Ainsi,√les valeurs de que nous pouvons atteindre dans la recherche d’or devraient être d’ordre
de O( ∗ ).
Dans la méthode de dichotomie, nous devrions comparer les valeurs de f à 0 ; si tous les
résultats intermédiaires dans le code qui calcule la dérivée sont de l’ordre de 1, la dérivée est cal-
culée avec l’erreur absolue ≤ c∗ , avec une certaine constante c. Si f (x∗ ), x∗ étant le minimiseur
de f sur [a, b], est positif de l’ordre de 1 (le minimiseur est numériquement “bien conditionné”),
alors à la distance ≥ C de x∗ les valeurs réelles de f sont, en valeurs absolues, au moins C ,
C étant une certaine constante. Nous voyons que si x se trouve à la distance de x∗ et est tel
que C > c∗ (c.-à-d., la grandeur de f (x) est plus grande que l’erreur absolue dans le calcul de
f (x)), alors le signe de f (x) réellement calculé considéra avec le signe exact de f (x), et l’étape
de dichotomie sera correcte. Ainsi, dans les conditions ci-dessus, nous pouvons compter √ que la
dichotomie pourra atteindre une precision = c(C )−1 ∗ = O(∗ ) (comparez avec O( ∗ ) pour
la recherche d’or).
170 CHAPITRE 8. METHODES D’OPTIMISATION : INTRODUCTION
Afin de valider ce raisonnement, j’ai tester la recherche d’or et la dichotomie sur le problème
À ma surprise (je suis peu expérimenté dans l’analyse d’erreur !), les deux méthodes ont résolu
le problème avec la précision sur x de O(10−16 ). Après une reflection, j’ai compris ce qui n’allait
pas et pu modifier l’objectif pour observer le phénomène décrit.
Pourriez-vous
a) deviner ce qui ne va pas avec mon exemple ?
b) corriger l’exemple et observez le phénomène ?
Exercice 8.4 [Méthode de Newton] Tester la Méthode de Newton sur les fonctions
1) f (x) = 12 x2 − x − 12 exp{−2x} (point initial 0.5)
2) f (x) = x4 exp{−x/6} (point initial 1.0)
Chapitre 9
Dans cette partie du cours nous étudions des méthodes d’optimisation sans contraintes.
X ∗ = Argmin f
Rn
9.1.1 L’idée
L’idée de la méthode est très simple. Supposez que nous sommes en un certain point x, et que
nous avons calculé f (x) et ∇f (x). Supposez que x n’est pas un point critique de f : ∇f (x) = 0
(c’est la même chose que dire que x n’est pas un point de Karush-Kuhn-Tucker du problème).
Alors g = −∇f (x) est une direction de descente de f en x :
d
|γ=0 f (x − γ∇f (x)) = −|∇f (x)|2 < 0.
dγ
De plus, c’est la meilleure parmi les directions h de descente (normalisées pour avoir la même
longueur que celle de g) de f en x : pour tout h, |h| = |g|, on a
d
|γ=0 f (x + γh) = hT ∇f (x) ≥ −|h||∇f (x)| = −|∇f (x)|2
dγ
(par l’inégalité de Cauchy, qui devient égalité si et seulement si h = g).
171
172CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
L’observation indiquée démontre qu’afin d’améliorer x – pour former un nouveau point avec
une plus petite valeur de l’objectif – on peur effectuer un déplacement (pas)
x → x + γg ≡ x − γ∇f (x)
à partir de x dans la direction de l’antigradient ; un tel déplacement avec la longueur de pas γ > 0
correctement choisi assure la décroissance de f . La méthode de Descente de Gradient consiste,
tout simplement, de réitérer ce pas. Ainsi, le schéma générique de la méthode est suivant :
Algorithme 9.1.1 [Descente de Gradient ]
Initialisation : choisir le point initial x0 et mettre t = 1.
Étape t : au début de l’étape t nous avons la précédente itération xt−1 . On
– calcule f (xt−1 ) et ∇f (xt−1 )
– choisit (d’une façon ou d’une autre) un pas positif γt et on pose
xt = xt−1 − γt ∇f (xt−1 ), (9.2)
on remplace t avec t + 1 et on boucle.
Ainsi, la méthode générique de Descente de Gradient est la répétition de (9.2) avec une certaine
règle pour choisir les pas γt > 0 ; normalement, les pas sont donnés par une sorte de recherche
linéaire, appliqué a la fonction univariée
φt (γ) = f (xt−1 − γ∇f (xt−1 )).
Évidemment, la Plus Rapide Descente est un genre d’idéalisation : dans des cas non triviaux
nous ne savons pas trouver un minimum exacte de l’objectif le long un rayon. D’ailleurs, pour
rendre cette idéalisation valide, nous devrions supposer que les pas correspondants sont bien
définis, c.-à-d., que
Argmin f (x − γ∇f (x)) = ∅
γ≥0
pour le chaque x ; dans ce qui suit, ceci est supposé “par défaut” toutes les fois que nous parlons
au sujet de la Plus Rapide Descente.
Contrairement à la Plus Rapide Descente, la Descente de Gradient avec la la recherche linéaire
d’Armijo est tout à fait “constructive” – nous savons de la Section 8.2.4 comment trouver un
pas γt qui passe le test d’Armijo.
9.1. DESCENTE DE GRADIENT 173
X ∗∗ = {x ∈ Rn | ∇f (x) = 0}.
Théorème 9.1.1 [Convergence globale de Descente de Gradient] Les méthodes PRD et DAr
vérifient :
(i) si la trajectoire {xt } de la méthode est bornée, alors cette trajectoire possède des points
limites, et tous ces points sont des points critiques de f ;
(ii) si l’ensemble de niveau
S = {x ∈ Rn | f (x) ≤ f (x0 )}
de l’objectif est borné, alors la trajectoire de la méthode est bornée (et, par conséquent, tous ses
points limites, d’après (i), appartiennent à X ∗∗ ).
Preuve : (ii) est une conséquence immédiate de (i), puisque DAr et PRD sont clairement des
méthodes de descente :
xt = xt−1 ⇒ f (xt ) < f (xt−1 ). (9.5)
Par conséquent, la trajectoire, pour chacune des méthodes, est contenue dans l’ensemble S de
niveau ; puisque sous l’hypothèse de (ii) cet ensemble est borné, la trajectoire également est
bornée, selon (ii).
Il nous reste de prouver (i). Ainsi, supposons que la trajectoire {xt } soit bornée, et que
x∗ est un point limite de la trajectoire ; nous devons montrer que ∇f (x∗ ) = 0. Supposons, au
contraire, que ce n’est pas le cas, et menons cette hypothèse à une contradiction. L’idée de ce
qui suit est très simple : comme ∇f (x∗ ) = 0, un pas de la méthode à partir de x∗ doit diminuer
la valeur de f d’une certaine quantité positive δ ; c’est absolument clair de la construction du
pas. Ce qui est très probable (on devrait, naturellement, le prouver, et nous le ferons dans un
instant) que il existe un petit voisinage U de x∗ tels qu’un pas de la méthode à partir d’un
point arbitraire x ∈ U améliore également l’objectif au moins par la quantité positive fixe δ .
Il n’est absolument pas important pour nous ce qui est ce δ , tout ce que nous avons besoin à
savoir que cette quantité est positive et indépendante du choix particulier de x ∈ U . Supposez
que nous avons déjà montré que de tels U et δ existent. Sous cette hypothèse, nous obtenons
immédiatement une contradiction : puisque x∗ est un point limite de la trajectoire, la trajectoire
visite U un nombre infini de fois. Chaque fois qu’elle visite U , le pas correspondant diminue f au
moins de δ > 0, et aucun pas de la méthode n’augmente l’objectif. Ainsi, en cours de la méthode
nous diminuons l’objectif par δ un nombre infini de fois et ne l’augmentons jamais, de sorte
que l’objectif devrait diverger vers −∞ le long de notre trajectoire ; le dernier est impossible,
puisqu’on a assumé que l’objectif est borné inférieurement.
Maintenant il est temps de prouver notre argument principal – celui sur l’existence de U et
de δ nécessaires dans la construction ci-dessus. Je voudrais souligner qu’il y a là quelque chose
à prouver, malgré le fait déjà connu (la propriété de “descente”) que l’objectif est amélioré par
chaque pas à partir d’un point non critique de f (et de tous points assez proches de x∗ non
critique, qui ne sont également pas critiques, puisque ∇f est continu). La difficulté est que le
progrès dans f sur un pas dépend du point à partir du quel nous avons fait le pas ; en principe
174CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
il peut arriver qu’un pas de chaque point d’un voisinage de x∗ améliore l’objectif, mais il n’y
a aucune borne inférieure positive δ pour les améliorations qui soitindépendante du point. Et
dans le raisonnement ci-dessus nous avons besoin en effet du ‘’progrès uniforme” – autrement
il serait possible que les visites consécutives de U par la trajectoire ont comme conséquence
de plus en plus petites améliorations de f , dont la somme est finie. Cette possibilité tuerait le
raisonnement ci-dessus complètement.
Évidemment, de tels U et δ existent. Il suffit le prouver pour DAr seulement – il est
absolument clair que le progrès dans l’objectif sur un pas de PRD soit au moins celui de DAr
, les deux pas étant prises à partir du même point. La preuve pour le cas de DAr est comme
suit :
Puisque f est continûment différentiable et ∇f (x∗ ) = 0, il existent r, P et p positifs tels
que
|x − x∗ | < r ⇒ p ≤ |∇f (x)| ≤ P ;
Pour les mêmes raisons, il existe r ∈ (0, r) tel que nous avons dans le r -voisinage V de x∗ :
est au moins
1 −1 −1
s∗ = rη P .
2
Notez que (*) est tout ce que nous avons besoin. En effet, le progrès dans l’objectif dans la
recherche linéaire d’Armijo pour une fonction φ et ayant pour résultat un pas s au moins
s|φ (0)|. En appliquant cette observation à un pas de DAr pris à partir d’un point x ∈ U
et en utilisant (*), nous venons à la conclusion que le progrès dans l’objectif sur ce pas est
au moins s∗ |∇f (x)|2 ≥ s∗ p2 , et cette dernière quantité (qui est positive et est indépendant
de x ∈ U ) peut nous servir de δ .
Il nous reste à prouver (*), ce qui est immédiat : en supposant que x ∈ U et sx < s∗ , en
tenant compte de la construction du test d’Armijo, nous obtenons
Maintenant, comme sx < s∗ , la longueur du segment [x, x − ηsx ∇f (x)] est au plus ηs∗ P ≤
r /2, et puisqu’une extrémité du segment appartient à U , le segment lui-même appartient à
V . En conséquence, la dérivée de f le long du segment change tout au plus de ζ, de sorte
que la dérivée de φ change sur le segment [0, ηsx ] tout au plus de
Ici ξ est un certain point sur le segment [0, ηsx ]. En combinant cette inégalité avec (9.6),
nous obtenons
ηsx (1 − )p2 > −(1 − )ηsx φ (0) ≡ (1 − )ηsx |∇f (x)|2 ≥ (1 − )ηsx p2 ,
Essayons de bien comprendre la preuve ci-dessus : sa structure est typique pour des preuves
de convergence dans l’optimisation traditionnelle : nous savons à l’avance que le processus itératif
en question possède une certaine fonction de Lyapunov L – qui diminue le long de la trajectoire
du processus et est bornée inférieurement (dans la preuve ci-dessus cette fonction est f elle-
même) ; nous supposons que la trajectoire soit bornée, et que l’ensemble de niveau de la fonction
de Lyapunov, associé à la valeur de la fonction au point initial de la trajectoire est borné
aussi (alors, évidemment, la trajectoire est sûrement bornée – puisque la fonction de Lyapunov
n’augmente jamais le long de la trajectoire, cette dernière ne peut pas quitter l’ensemble de
niveau). Supposez maintenant que les trois entités – (1) la fonction de Lyapunov, (2) notre
processus itératif, et (3) l’ensemble X ∗ qui est l’ensemble de solutions de notre problème – sont
liés par la relation suivante :
(**) si un point de la trajectoire n’appartient pas à X ∗ , alors le pas de processus
à partir de ce point fait décroitre strictement la fonction de Lyapunov
Normalement (**) est évident de la construction du processus et de la fonction de Lyapunov ;
par exemple, dans la preuve ci-dessus où L est l’objectif, le processus est DAr ou PRD et X ∗ est
l’ensemble des points critiques de l’objectif, vous ne devriez pas ouvrer trop dur afin de montrer
que le pas d’un point non critique diminue l’objectif. Maintenant, étant donné tout ceci, nous
sommes intéressés de montrer que la trajectoire du processus converge vers X ∗ ; quel est le point
principal de la preuve ? Naturellement, un équivalent de (*), c.-à-d., “une version localement
uniforme de (**)” – nous devrions montrer qu’un point n’appartenant pas à X ∗ possède un
voisinage tel que chaque fois que la trajectoire visite ce voisinage, le progrès dans la fonction
de Lyapunov sur le pas correspondant est séparé de zéro. Après que nous ayons prouvé ce fait
crucial, nous pouvons immédiatement appliquer le schéma de la preuve ci-dessus pour montrer
que la trajectoire converge vers X ∗ .
J’ai une bonne raison d’investir en explication de la “squelette” de cette preuve de conver-
gence : dorénavant, je sauterai les preuves semblables, puisque je crois que vous avez compris
ce principe général, et les details techniques ne sont pas d’un grand intérêt. J’espère que main-
tenant il devient clair pourquoi dans le test d’Armijo nous avons besoin du plus grand pas (au
facteur η près) qui permet d’obtenir un “progrès significatif” dans l’objectif. Si nous sautons
cette condition “maximale”, nous admettons des pas arbitrairement petits même à partir des
points qui sont loin de l’ensemble des solutions. En conséquence, (*) n’ai plus lieu, et nous serons
incapables d’assurer la convergence du processus (et elle sera en effet perdue).
dist(x, X ∗∗ ) = min∗∗ |y − x|
y∈X
bien plus appropriée. Notez que l’ensemble X ∗∗ vers lequel la trajectoire converge est exactement
l’ensemble où f (·) = 0, de sorte que f (x) en effet puisse être vu comme quelque chose qui mesure
le “résidu de l’inclusion x ∈ X ∗∗ ”. Et il s’avère que nous pouvons préciser le taux auquel ce résidu
converge vers 0 :
Preuve du Lemme. Soit φ(γ) = f (x+γ(y −x)). Notez que φ est continûment differentiable
(comme f l’est) et
|φ (α) − φ (β)| = |(y − x)T (∇f (x + α(y − x)) − ∇f (x + β(y − x))| ≤
[(9.7)]
≤ |y − x|2 Lf |α − β|.
Ainsi,
|φ (α) − φ (β)| ≤ Lf |y − x|2 |α − β|, ∀α, β ∈ R. (9.11)
Nous avons
# 1
f (y) − f (x) − (y − x)T ∇f (x) = φ(1) − φ(0) − φ (0) = φ (α)dα − φ (0) =
0
# 1
= [φ (α) − φ (0)]dα ≤
0
[cf. (9.11)]
# 1
Lf
≤ |y − x|2 Lf αdα = |y − x|2 ,
0 2
comme requit dans (9.10).
20 . Nous somme en mesure de prouver (i). Par construction de la Plus Rapide Descente,
– le progrès dans l’objectif sur un pas de la Plus Rapide Descente est au moins de l’ordre de
la norme carrée du gradient sur l’iteration précédente.
Maintenant, pour conclure la preuve, il suffit de noter que, en raison de la monotonie
de la méthode, le progrès “total” sur l’objectif sur un une suite des pas de la méthode ne
peut pas dépasser l’erreur initial f (x0 ) − min f en valeur de l’objective ; par conséquent, dans
une long suite, il doit y être un pas avec le petit progrès, c.-à-d., avec la petite norme du
gradient. Pour rendre ce raisonnement quantitatif, prenons la somme des inégalités (9.12)
sur t = 1, ..., n, venant à
N −1
1
|∇f (xt )|2 ≤ f (x0 ) − f (xN ) ≤ f (x0 ) − min f.
2Lf t=0
N
La partie à gauche est ≥ 2Lf min0≤t<N |∇f (xt )|2 , et nous obtenons (9.8).
178CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
30 . La preuve de (ii) est un peu plus compliquée, mais suit la même idée fondamentale : le
progrès sur un pas de DAr peut être petit seulement si le gradient sur l’iteration précédente
est petit, et dans une suite de pas on doit obligatoirement avoir un certain pas sur lequel le
progrès est petit, puisque tout le progrès ne peut pas excéder l’erreur initial.
Décrivons maintenant ce raisonnement quantitatif. Tout d’abord, le progrès dans l’objec-
tif sur l’iteration t de DAr n’est pas trop petit, à condition que γt et |∇f (xt−1 )|2 ne soient
pas trop petits :
f (xt−1 ) − f (xt ) ≥ γt |∇f (xt−1 )|2 . (9.13)
C’est une conséquence immédiate de la première inégalité de (9.3). Deuxièmement, γt n’est
pas trop petit. En effet, par le Lemme 9.1.1 appliqué à x = xt−1 , y = xt−1 − ηγt ∇f (xt−1 )
nous avons
Lf 2 2
f (xt−1 − ηγt ∇f (xt−1 )) ≤ f (xt−1 ) − ηγt |∇f (xt−1 )|2 + η γt |∇f (xt−1 )|2 ,
2
tandis que par la deuxième inégalité de (9.3)
2(1 − )
γt ≥ ; (9.14)
ηLf
2(1 − )
f (xt−1 ) − f (xt ) ≥ |∇f (xt−1 )|2 . (9.15)
ηLf
Nous pouvons maintenant accomplir la preuve exactement comme dans le cas de la Plus
Rapide Descente.
Remarque 9.1.1 L’évaluation d’efficacité donnée par la Proposition 9.1.1 donne une borne
supérieure non-asymptotique sous-linéaire de convergence vers 0 des “imprecisions” f (·). Notez,
néanmoins, que c’est une borne sur l’erreur de la le meilleure (avec la plus petite norme du
gradient) iteration produite en cours des N premières étapes de la méthode, pas sur l’erreur
de la derniere itération xN (les quantités |∇f (xt )|2 peuvent osciller, contrairement aux valeurs
f (xt ) de l’objectif).
C1,1 (voir la Proposition 9.1.1) nous pouvons obtenir des caractérisations non-asymptotiques
d’efficacité en termes de résidus f (xt ) − min f , et sous l’hypothèse supplémentaire disant que
l’objectif est non dégénéré (voir ci-dessous) – aussi en termes de distances |xt − x∗ | de l’iterations
xt à la solution optimale.
Pour simplifier les développements et les rendre plus “pratiques”, dans ce qui suit nous
considérons seulement la version d’Armijo de la Descente de Gradient DAr .
Proposition 9.1.2 [Vitesse de convergence globale de DAr dans le cas C1,1 convexe]
Soit le paramètre dans la méthode de DAr ≥ 0.5, et soit f fonction C1,1 convexe avec un
ensemble non vide X ∗ de minimiseurs globaux. Alors
(i) la trajectoire {xt } de DAr converge vers un certain point x∗ ∈ X ∗ ;
(ii) pour chaque N ≥ 1 nous avons
Preuve.
10 . Soit x∗ un point de X ∗ , regardons comments les distances
d2t = |xt − x∗ |2
nous obtenons :
1 1
γt |∇f (xt−1 )|2 ≤ [f (xt−1 ) − f (xt )] = [t−1 − t ].
En combinant la dernière inégalité avec (9.19), nous obtenons
! "
d2t ≤ d2t−1 − γt (2 − −1 )t−1 + −1 t . (9.20)
180CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
Comme, par notre hypothèse de départ, 1/2 ≤ , et, clairement, s ≥ 0, la quantité entre les
parenthèses dans la partie droite est non négative. Nous savons aussi de (9.14) que
2(1 − )
γt ≥ γ̄ = ,
ηLf
On en déduit que
(*) Les distances entre les points xt et un point (quelconque) x∗ ∈ X ∗ n’augmentent pas
avec t. Et, en particulier, la trajectoire de la méthode est bornée.
De (*) il en suit immédiatement que {xt } converge vers un certain point x̄∗ ∈ X ∗ , comme
c’est affirmé dans (i). En effet, par le Théorème 9.1.1 la trajectoire, étant bornée, a tous ses
points limites dans l’ensemble X ∗∗ de points critiques de f , ou, ce qui est identique (f est
convexe !), dans l’ensemble X ∗ de minimiseurs globaux de f . Soit x̄∗ un de ces points limites,
et montrons qu’en fait {xt } converge vers x̄∗ . Pour cela notez que 0 est un point limite de la
suite non-croissante |xt − x̄∗ | ; par conséquent, la suite converge vers 0, de sorte que xt → x̄∗
quand t → ∞.
Il nous reste à verifier (9.16). En prenant la somme d’inégalités (9.21) entre t = 1 et
t = N , nous obtenons
! "
N γ̄ (2 − −1 )t−1 + −1 t ≤ d20 − d2N ≤ d20 ≡ |x0 − x∗ |2 .
Comme 0 ≥ 1 ≥ 2 ≥ ... (notre méthode est celle de descente – elle n’augmente jamais les
valeurs de l’objectif !), le côté gauche dans la dernière inégalité ne sera que plus petit si nous
remplaçons tout les t avec N ; ainsi, nous avons
ηLf |x0 − x∗ |2
N ≤ .
4(1 − )N
Comme cette dernière inégalité reste valide pour tout x∗ ∈ X ∗ , ceci implique (9.16).
Cas C1,1 fortement convexe. Dans la Proposition 9.1.2 nous traitons le cas de la fonction
f régulière et convexe, mais on n’a fait aucune hypothèse sur le conditionnement du minimum
– le minimiseur pourrait être non-unique, et le graphe de f pourrait être très “plat” autour de
X ∗ . Sous condition supplémentaire de convexité forte de f nous pouvons obtenir des résultats
de convergence bien meilleurs. Nous avons la definition suivante :
et quelles sont les propriétés fondamentales des fonctions fortement convexes ; c’est la tache que
nous intéresse maintenant.
La condition suffisant la plus utile plus de la convexité forte est donné par la proposition
suivante :
Proposition 9.1.3 [Critère de la convexité forte pour des fonctions deux fois continûment
différentiables]
Soit f : Rn → R une fonction deux fois continûment différentiable, et soit (lf , Lf ), 0 < lf ≤
Lf < ∞, deux réels donnés. f est fortement convexe avec les paramètres lf , Lf si et seulement
si le spectre de la matrice d’Hessian de f en chaque point x ∈ Rn est contenu dans le segment
[lf , Lf ] :
lf ≤ λmin (∇2 f (x)) ≤ λmax (∇2 f (x)) ≤ Lf ∀x ∈ Rn , (9.24)
où λmin (A), λmax (A) est, respectivement, la plus petite et la plus grande valeur propre de la
matrice symétrique A and ∇2 f (x) est l’Hessian (la matrice de dérivées secondes) de f en x.
Voici les propriétés les plus importantes (pour nous) de fonctions fortement convexes :
Proposition 9.1.4 Soit f fortement convexe avec les paramètres (lf , Lf ). Alors
(i) Les ensembles de niveau {x | f (x) ≤ a} de f sont compactes pour tout réel a ;
(ii) f attaint son minimum global sur Rn , et son minimiseur x∗ est unique ;
(iii) ∇f (x) est Lipschitzien avec la constante de Lipschitz Lf .
Maintenant nous revenons à la Descente de Gradient. La proposition suivante indique que
pour un f fortement convexe la méthode converge linéairement :
Proposition 9.1.5 [Convergence linéaire de DAr appliqué à la fonction f fortement convexe]
Soit une fonction f fortement convexe, avec les paramètres (lf , Lf ). Pour minimiser f on utilise
la méthode DAr , initialisée en un certain point x0 , et soit le paramètre du test d’Armijo
≥ 1/2. Alors, pour tout entier N ≥ 1, nous avons
$
∗ ∗ Qf − (2 − −1 )(1 − )η −1
|xN − x | ≤ θ |x0 − x |,
N
θ= , (9.25)
Qf + (−1 − 1)η −1
Preuve.
10 . Selon la Proposition 9.1.4, f est une fonction C1,1 convexe qui atteint son minimum, et le
gradient de f est Lipschitzien avec la constante Lf . En conséquence, toutes les conclusions
de la preuve de la Proposition 9.1.2 sont valides, en particulier, la relation (9.20) :
! " 2(1 − )
d2t ≡ |xt −x∗ |2 ≤ d2t−1 − γ̄ (2 − −1 )t−1 + −1 t , γ̄ = , s = f (xs )−min f. (9.28)
ηLf
lf lf
s ≥ |xs − x∗ |2 = d2s ;
2 2
ainsi, grâce à (9.28),
γ̄lf ! "
d2t ≤ d2t−1 − (2 − −1 )d2t−1 + −1 d2t ,
2
ou, en substituant l’expression pour γ̄,
2 2
|x0 − x∗ |2 ≤ [f (x0 ) − f (x∗ )] = [f (x0 ) − min f ], (9.30)
lf lf
tandis que la seconde inégalité dans (9.23), appliquée à x = x∗ , y = xN nous dit que
Lf
f (xN ) − min f ≡ f (xN ) − f (x∗ ) ≤ |xN − x∗ |2 .
2
En conséquence,
Lf
f (xN ) − min f ≤ |xN − x∗ |2 ≤
2
[cf. (9.25)]
Lf 2N
≤ θ |x0 − x∗ |2 ≤
2
[cf. (9.30)]
Lf 2N
≤ θ [f (x0 ) − min f ],
lf
comme requis dans (9.27).
Vitesse de convergence globale dans le cas C1,1 convexe : le résumé. Les résultats
donnés par Propositions 9.1.2 et 9.1.5 peuvent être récapitulés de façon suivante. Supposez que
nous résolvons
f (x) → min
avec l’objectif C1,1 convexe (c.-à-d., ∇f (x) est un champ de vecteur Lipschitzien), tel que l’en-
semble X ∗ de minimiseurs globaux de f est non vide. Supposez de plus que pour minimiser f
nous utilisons la méthode DAr avec le paramètre correctement choisi, à savoir, 1/2 ≤ < 1.
Alors
9.1. DESCENTE DE GRADIENT 183
– A. Dans le cas général, où on n’impose aucune convexité forte de f , la trajectoire {xt } de la
méthode converge vers certain x̄∗ ∈ X ∗ , et les résidus en termes d’objectif – les quantités
n = f (xN ) − min f – convergent vers zéro au moins comme O(1/N ). Autrement dit, nous
avons l’estimation
ηLf dist2 (x0 , X ∗ ) 1
N ≤ . (9.31)
4(1 − ) N
Notez que
– aucun résultat quantitatif sur la vitesse de convergence des distances |xn − x̄∗ | ne peut
être donnée ; tout ce que nous savons, c’est que ces quantités convergent vers 0, mais la
convergence peut être aussi lente qu’on veut. C.-à-d., étant donné une suite décroissant
arbitraire {dt }, qui converge vers 0, on peut exhiber une fonction C1,1 convexe f sur le
plan 2D tels que dist(x0 , x∗ ) = d0 et dist(xt , x∗ ) ≥ dt pour tout t ;
– l’estimation (9.31) donne un ordre correct de la vitesse convergence vers 0 des erreurs
en termes d’objectif : pour la fonction C1,1 convexe correctement choisie f sur le plan
2D, on a
α
N ≥ , N = 1, 2, ...
N
avec un certain α positif.
– B. Si f est fortement convexe avec les paramètres (lf , Lf ), alors la méthode converge
linéairement :
|xN − x∗ | ≤ θ N |x0 − x∗ |, f (xN ) − min f ≤ Qf θ 2N [f (x0 ) − min f ],
$
Qf − (2 − −1 )(1 − )η −1
θ= , (9.32)
Qf + (−1 − 1)η −1
Qf = Lf /lf étant le conditionnement de f .
Notez que le taux de convergence θ (ou θ 2 , selon la mesure de precision – la distance de l’iteration
xt à l’ensemble optimal ou le résidu f (xt ) − f ∗ en termes d’objectif – que nous employons) tend
vers 1 quand le conditionnement du problème tend vers l’infini (on dit, quand le problème devient
mal conditionné). Quand Qf est grand, nous avons,
θ ≈ 1 − pQ−1 −1
f , p = (1 − )η , (9.33)
de sorte que pour baisser la borne supérieure (9.32) sur |x· − x∗ | par un facteur constant, par
exemple, par le facteur 10 (un chiffre supplémentaire dans l’écriture décimale de x∗ ), il nous faut
O(Qf ) itérations de la méthode. En d’autres termes, (9.32) nous dit que
(**) le nombre d’itérations de la méthode ayant pour résultat le progrès dans la précision donné
à l’avance (c.-à-d., diminuer la distance initiale de l’ensemble optimal par un facteur donné, par
exemple, 106 ), est proportionnel au conditionnement Qf de l’objectif.
Évidemment, cette conclusion est obtenue à partir de la boirne supérieure de l’erreur ; il se
peut que nos bornes supérieures “sous-estiment” la precision “réelle” de la méthode. Il s’avère,
pourtant, que nos bornes sont assez justes, et notre conclusion est valide :
le nombre d’itérations de la Descente de Gradient requis pour réduire l’erreur
initiale (mesurée comme distance de l’ensemble optimal ou comme résidu en termes
d’objectif) par un facteur donné est, en général, proportionnel au conditionnement
de f .
Pour justifier cette affirmation, regardons ce qui se produit dans le cas de l’objectif quadra-
tique.
184CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
Lemme 9.1.2 [Kantorovich] Soit A une matrice symétrique définie positive avec le condition-
nement (le rapport entre la plus grande et plus petite valeurs propres) Q. Alors pour n’importe
quel vecteur non nul x on a
(xT x)2 4Q
≥ .
[x Ax][xT A−1 x]
T (1 + Q)2
Preuve. De l’algèbre linéaire on sait qu’une matrice symétrique A n × n est équivalente
à une matrice diagonale S (c.-à-d., A = U SU T avec une matrice U orthogonale), des valeurs
propres λ1 ≤ λ2 ≤ ... ≤ λn de A étant les entrées diagonales de S. En notant y = U T x, nous
voyons que le côté gauche dans l’inégalité en question est
( i yi2 )2
. (9.41)
( i λi yi2 )( i λ−1 2
i yi )
Cette quantité demeure inchangée si tous les yi ’s sont multipliés par un facteur non nul
commun ; ainsi, sans perte de généralité nous pouvons supposer que i yi2 = 1. De plus, la
quantité en question ne change pas si tous les λi ’s sont multipliés par un facteur positif com-
mun ; ainsi, nous pouvons supposer que λ1 = 1, de façon que λn = Q soit le conditionnement
de la matrice
A. Et si on pose ai −1 = yi2 , nous devons montrer que
si u = a λ
i i i , v = a λ
i i i , où 0 ≤ a i , i ai = 1, and 1 ≤ λi ≤ Q, alors uv ≤
(1 + Q)2 /(4Q).
C’est facile : due à son origine, le point (u, v) sur le plan 2D est la combinaison convexe,
avec des coefficients ai , des points Pi = (λi , λ−1 i ) appartenant à l’arc Γ sur le graphe de
la fonction η = 1/ξ. Cette arc correspond au segment [1, Q] des valeurs de ξ (ξ, η sont les
coordonnées sur le plan). En conséquence, (u, v) appartient à l’enveloppe convexe C de Γ.
Cette enveloppe convexe est voici :
P1
Pn
1 Q
La plus grande, sur (u, v) ∈ C, valeur de produit uv correspond au cas quand (u, v)
appartient au segment [P1 , Pn ] limitant C d’en haut, de sorte que
1−a
uv ≤ max [(a + (1 − a)Q)(a + )];
0≤a≤1 Q
le maximum de l’expression sur le côté droit peut être calculé explicitement (il correspond à
a = 1/2), sa valeur est (Q + 1)2 /(4Q).
En combinant le Lemme 9.1.2 et (9.40), nous venons au résultat suivant :
Proposition 9.1.6 [Taux de convergence pour la Plus Rapide Descente appliquée à la forme
quadratique fortement convexe]
La méthode de la Plus Rapide Descente, utilisée pour minimiser une forme quadratique fortement
convexe f avec le conditionnement Q, converge linéairement avec le taux de convergence au pire
2
4Q Q−1
1− = , (9.42)
(Q + 1)2 Q+1
Notez que la proposition ci-dessus indique que le taux de convergence est au pire (Q − 1)2 (Q +
1)−2 ; le taux réel de convergence dépend du point initial x0 . Il se trouve que (9.43) donne
la description correcte du taux de convergence : pour “presque tous” les points de départ, le
processus converge en effet avec le taux proche de la borne supérieure indiquée. Puisque le taux
de convergence donné par Proposition est 1 − O(1/Q) (cf. (9.33)), la conclusion quantitative
(**) de la sous-section précédente est en effet valide, même dans le cas f quadratique fortement
convexe.
Vitesse de convergence locale de la Plus Rapide Descente. La relation (9.43) est une
estimation non-asymptotique d’efficacité de la méthode de la Plus Rapide Descente dans le
cas quadratique. Dans le cas non-quadratique non-dégénéré la méthode admet une estimation
asymptotique d’efficacité semblable. C.-à-d. qu’on peut montrer le résultat suivant :
9.1.5 Conclusions
Essayons de récapituler ce que nous avons appris sur la Descente de Gradient. Nous savons
que
– dans le cas général, sous les hypothèses assez faibles de régularité, PRD et DAr convergent
vers l’ensemble des points critiques de l’objectif (voir le Théorème 9.1.1), et il y a une
certaine vitesse garantie (sous-linéaire) de convergence globale en termes de quantités
|∇f (xN )|2 (voir la Proposition 9.1.1) ;
– dans le cas convexe C1,1 , DAr converge vers un minimiseur global de l’objectif (à condi-
tion que un tel minimiseur existe), et il y une certaine vitesse garantie (sous-linéaire) de
convergence globale en termes d’erreur f (xN ) − min f dans la valeur de l’objectif (voir la
Proposition 9.1.2) ;
– dans le cas fortement convexe, DAr converge vers le minimiseur unique de l’objectif, et les
distances au minimiseur et les erreurs en termes d’objectif admettent les bornes supérieures
globales, qui convergent linéairement vers zéro. Le taux de convergence correspondant est
donné par le conditionnement Q de l’objectif (voir la Proposition 9.1.5) et est du type
1 − O(1/Q), de sorte que le nombre d’iteration nécessaire pour diminuer l’erreur initiale
par un facteur donné soit proportionnel à Q (c’est une borne supérieure, mais généralement
elle reflète le comportement réel de la méthode) ;
– La méthode PRD converge linéairement (globalement, dans le cas quadratique, et asymp-
totiquement dans le cas non-quadratique) avec le taux de convergence 1 − O(1/Q), Q
étant le conditionnement de l’Hessian de l’objectif en minimiseur vers lequel la méthode
converge (dans le cas quadratique, naturellement, cet Hessian est simplement la matrice
de notre forme quadratique).
C’est ce que nous savons. Quelles devraient être des conclusions – est-ce une méthode bonne ou
mauvaise ? Comme c’est d’habitude le cas dans l’optimisation numérique, nous ne sommes pas
capable donner une réponse exacte : il y a trop de différents critères à prendre en compte. Nous
sommes pourtant capable d’énumérer des avantages et des inconvénients de la méthode. Une
telle liste nous fournit une sorte d’orientation : quand nous nous savons ce qui sont les points
forts et faibles d’une méthode d’optimisation, étant donnés une application particulière qui nous
intéresse, nous pouvons décider si “les points forts sont assez forts et les points faibles sont assez
faibles” dans le cas en question, ce qui doit nous permettre de choisir la solution mieux adaptée à
la situation. En ce qui concerne la Descente de Gradient, les points forts évidents de la méthode
sont
– une large famille des problèmes pour lesquels nous pouvons garantir la convergence globale
vers un point critique (normalement - à un minimiseur local) de l’objectif ;
– simplicité d’une itération de la méthode : nous avons besoin d’une évaluation simple de ∇f
et un nombre restreint d’évaluations de f (les évaluations de f sont exigées par la recherche
linéaire ; si on emploie DAr avec la recherche linéaire simplifiée, décrite dans la Section
8.2.4, ce nombre est en effet petit). Notez que chaque évaluation de f est accompagnée
par d’un petit nombre (normalement, O(n), n étant la dimension du vecteur de décision)
d’opérations arithmétiques.
Le point de faible le plus important de la méthode est sa vitesse relativement basse de conver-
gence : même dans le cas quadratique fortement convexe, la méthode converge linéairement. Ce
n’est pas si mauvais en soit ; ce qui est en effet très mauvais, est que le taux de convergence est
trop sensible au conditionnement Q de l’objectif. Comme nous le savons, le nombre d’iterations
de la méthode, pour un progrès donné sur la precision, est proportionnel à Q. Et c’est vraiment
188CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
trop mauvais, puisque dans les applications nous rencontrons souvent des problèmes mal condi-
tionnés, avec des conditionnements d’ordre des milliers et des millions ; et si c’est le cas, nous
ne pouvons attendre de rien de bon de la Descente de Gradient, au moins quand ces sont des
solutions de grande précision qui nous intéressent.
Il est utile de comprendre la géométrie qui conditionne le ralentissement de la Descente de
Gradient dans le cas de l’objectif mal conditionné. Considérons le cas de f quadratique fortement
convexe. Les surfaces de niveau
Sδ = {x | f (x) = min f + δ}
de f sont les ellipsoides homothétiques centrés en minimiseur x∗ de f ; les carrés des “demi-axes”
de ces ellipsoides sont inversement proportionnelles aux valeurs propres de A = ∇2 f . En effet,
comme nous savons de (9.36),
1
(x − x∗ )T A(x − x∗ ) + min f,
f (x) =
2
de sorte que en coordonnées orthogonales xi , associées à la base de vecteurs propres de A avec
l’origine placée en x∗ nous avons
1
f (x) = λi x2i + min f,
2 i
où λi sont les valeurs propres de A. En conséquence, l’équation de Sδ en coordonnées indiquées
est
λi x2i = 2δ.
i
Maintenant, si A est mal conditionnée, les ellipsoides Sδ deviennent un genre de “vallées” – ils
sont relativement étroits dans certaines directions (ceux liées aux plus petites demi-axes d’ellip-
soides) et relativement étendus dans d’autres directions (liées aux plus grandes demi-axes). Le
gradient – qui est orthogonal à la surface de niveau – sur la grande partie de cette surface regarde
“presque à travers la vallée”, et puisque la vallée est étroite, les pas de la méthode s’avèrent être
très courts. En conséquence, la trajectoire de la méthode est une sorte de mouvement en petits
zigzags avec une lente tendance globale vers le minimiseur.
On doit souligner que dans ce cas le problème lui-même n’est pas intrinsèquement mauvais ;
toutes les difficultés viennent du fait que nous relions l’objectif aux coordonnées initiales √ mal
choisies. Sous une transformation linéaire des coordonnées appropriée (passez de xi à yi = λi xi )
l’objectif devient parfaitement conditionné – il devient la somme de carrés des coordonnées,
de sorte que le conditionnement soit égale à 1, et la Descente de Gradient, lancée dans ces
nouvelles coordonnées, ira tout droit sur le minimiseur. Le problème, naturellement, est que la
Descente de Gradient est associé aux coordonnées Euclidiennes initiales, fixées une fois pour
toutes (puisque la notion fondamentale du gradient est une notion Euclidienne : les différentes
structures Euclidiennes ont comme conséquence différents vecteurs de gradient de la même
fonction au même point). Si ces coordonnées initiales sont mal choisies pour un objectif f donné
(de sorte que le conditionnement de f dans ces coordonnées soit grand), la Descente de Gradient
sera lente, bien que si nous étions assez intelligents pour exécuter d’abord une mis à échelle
approprié – une transformation non-orthogonale linéaire des coordonnées – et lancer ensuite la
Descente de Gradient dans ces nouvelles coordonnées, on aurait obtenu une convergence rapide.
Dans le prochain chapitre nous considérerons la célèbre Méthode de Newton qui, dans un sens,
n’est rien d’autre une Descente de Gradient, “mise à échelle localement” de façon optimale, avec
l’échelle qui varie de une iteration à l’autre.
9.2. METHODE DE NEWTON 189
f (x) → min | x ∈ Rn .
Ce qui est à notre ordre du jour est la célèbre Méthode de Newton basée sur le modèle quadra-
tique local de f . Pour pouvoir parler de ce modèle, nous supposons dorénavant que f est deux
fois continûment différentiable.
Dans la version “de base” de méthode de Newton, on applique cette simple itération :
Algorithme 9.2.1 [Méthode de Newton] Étant donné le point de départ x0 , faire
La méthode ci-dessus n’est pas nécessairement bien définie (par exemple, que faire quand l’Hes-
sian en xt−1 est singulier ?) Nous adresserons cette difficulté, ainsi que plusieurs autres problèmes
liés à la méthode, plus tard. Notre but en ce moment est d’établir le résultat fondamental sur
la méthode – sa convergence locale quadratique dans le cas non-dégénéré :
Théorème 9.2.1 [Convergence Locale Quadratique de la méthode de Newton dans le cas non-
dégénéré ]
Supposons que f est trois fois continûment différentiable dans un voisinage de x∗ ∈ Rn , et que
x∗ est un minimiseur local non-dégénéré de f , c.-à-d., ∇f (x∗ ) = 0 et la matrice ∇2 f (x∗ ) est
définie positive. Alors la méthode de Newton, étant lancée “assez près de x∗ ”, converge vers x∗
quadratiquement.
Preuve : Soit U un voisinage convexe de x∗ où les dérivés partiels du troisième ordre de f (c.-
à-d., les dérivés partiels du second degré des composants de ∇f ) sont bornées. Par conséquent,
dans ce voisinage,
avec un certain β1 (nous avons utilisé la borne supérieure standard pour du reste du
développement de Taylor d’ordre 1 pour les composants de ∇f : si g(·) est une fonction scalaire
avec les dérivées secondes bornées dans U , alors
pour un certain constant beta2 . Ici et dans ce qui suit, on note |A| la norme d’opérateur de la
matrice A :
|A| = max |Ah|,
|h|≤1
les normes à droite étant les normes Euclidiennes sur les espaces vectoriels correspondants.
Supposez maintenant qu’un certain point xt de la trajectoire de la méthode de Newton pour
f soit assez proche de x∗ , c.-à-d. est tel que
1
xt ∈ U , U = {x | |x − x∗ | ≤ ρ ≡ min[ , r]}. (9.48)
2β1 β2
Nous avons
|xt+1 − x∗ | = |xt − x∗ − [∇2 f (xt )]−1 ∇f (xt )| =
= |[∇2 f (xt )]−1 ∇2 f (xt )(xt − x∗ ) − ∇f (xt ) | ≤ |[∇2 f (xt )]−1 || − ∇f (xt ) − ∇2 f (xt )(x∗ − xt )| ≤
[by (9.47) and (9.46)]
≤ β1 β2 |xt − x∗ |2 .
Ainsi, on arrive à
On observe que la nouvelle itération xt+1 est au moins deux fois plus proche de x∗ que xt et,
par conséquent, xt+1 ∈ U . Ainsi, une fois le voisinage U atteint (ceci se produit sûrement si
la trajectoire est commencée dans U ), la trajectoire ne quite jamais ce voisinage de x∗ , et
9.3 Exercices
Exercice 9.1 Montrez que dans la Plus Rapide Descente les directions des deux mouvements
successifs quelconques sont mutuellement orthogonales. Dérivez de ceci que dans le cas 2D toutes
les directions des pas paires sont colinéaires, et ceux des pas impaires sont également colinéaires.
Exercice 9.2 Écrivez le code mettant en oeuvre DAr (ou PRD , selon votre choix) et l’appliquez
aux problèmes suivants :
– Problème de Rosenbrock
Combien de temps prend de diviser l’erreur initiale sur en termes de l’objectif par le facteur
de 10 ?
– Problème Quadratique
1
f (x) = xT Ax − bT x, x ∈ R4 ,
2
avec ⎛ ⎞ ⎛ ⎞
0.78 −0.02 −0.12 −0.14 0.76
⎜ −0.02 0.86 −0.04 0.06 ⎟ ⎜ ⎟
A=⎜ ⎟ , b = ⎜ 0.08 ⎟ , x0 = 0.
⎝ −0.12 −0.04 0.72 −0.08 ⎠ ⎝ 1.12 ⎠
−0.14 0.06 −0.08 0.74 0.68
Lancez la méthode jusque’à ce que la norme du gradient sur l’iteration courante soit ≤
10−6 . Est-ce que la convergence est rapide ?
Ceux qui emploient MATLAB ou SCILAB peuvent calculer le spectre de A et comparer la
borne supérieure théorique sur la vitesse de convergence avec la vitesse observée.
– Expérimentations avec la matrice de Hilbert. Soit H (n) la matrice n × n de Hilbert :
1
(H (n) )ij = , i, j = 1, ..., n.
i+j−1
1 n
C’est une matrice symétrique définie positive (car xT H (n) x = 0 ( i=1 xi t
i−1 )2 dt ≥ 0,
l’inégalité étant stricte pour x = 0).
Pour n = 2, 3, 4, 5 réaliser les expériences suivants :
192CHAPITRE 9. METHODE DE DESCENTE DE GRADIENT ET METHODE DE NEWTON
– choisissez un vecteur non nul x∗ de dimension n, par exemple, x∗ = (1, ..., 1)T ;
– calculez b = H (n) x∗ ;
– appliquent votre code de Descente de Gradient à la fonction quadratique
1
f (x) = xT H (n) x − bT x,
2
avec le point initial x0 = 0. Notez que x∗ est le minimizer unique de f .
– Terminez la méthode quand vous obtenez |xn − x∗ | ≤ 10−4 , ne lui permettant pas, de
toute façon, de faire plus de 104 iterations.
Quels sont vos conclusions ?
Ceux qui emploient MATLAB ou SCILAB peuvent essayer de calculer le conditionnement de
matrices de Hilbert en question.
Si vous utilisez la méthode DAr , jouez avec les paramètres et η de la méthode pour obtenir la
meilleure convergence.