0% ont trouvé ce document utile (0 vote)
147 vues4 pages

Optimisation Convexe: Concepts et Applications

Ce document décrit un cours sur l'analyse convexe et l'optimisation convexe. Il introduit des concepts clés comme les ensembles et fonctions convexes, et traite de problèmes d'optimisation contraints et non contraints, ainsi que de la dualité lagrangienne.

Transféré par

Azer Tyuiop
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
147 vues4 pages

Optimisation Convexe: Concepts et Applications

Ce document décrit un cours sur l'analyse convexe et l'optimisation convexe. Il introduit des concepts clés comme les ensembles et fonctions convexes, et traite de problèmes d'optimisation contraints et non contraints, ainsi que de la dualité lagrangienne.

Transféré par

Azer Tyuiop
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Apprentissage - ENS Math/Info

Analyse Convexe

Francis Bach

17 octobre 2014

Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe
(disponible gratuitement : [Link]

La convexité intervient dans de nombreuses branches des mathématiques et de l’informatique. Deux


aspects seront vus dans le cours d’apprentissage : l’analyse convexe (propriétés des fonctions et
problèmes d’optimisation convexes) et l’optimisation convexe (algorithmes de résolution).

Exemple classique en apprentissage : minimisation du risque empirique régularisé


n
1X
min `(yi , f (xi )) + λΩ(f ),
f ∈F n i=1

avec
— (xi , yi ) ∈ X × Y, i = 1, . . . , n données d’apprentissage
— F : ensemble convexe de prédicteurs f : X → R
— u 7→ `(y, u) perte convexe pour tout y ∈ Y
— Ω pénalité convexe.

1 Ensembles convexes

On ne considère dans ce cours que la convexité dans un espace Euclidien de dimension finie (le plus
généralement Rn ).

— Définition : K ⊂ Rn est convexe si et seulement si, pour tout x, y ∈ K, le segment [x, y] est
inclus dans K, i.e., ∀α ∈ [0, 1], αx + (1 − α)y ∈ K.
— Exemples classiques : hyperplan a> x = b (a ∈ Rn , a 6= 0, b ∈ R), demi-espace a> x > b,
sous-espace affine Ax = b, boules {kxk 6 1} ⊂ Rn , cone {kxk 6 t} ⊂ Rn+1 .
— Propriétés : l’intersection d’une famille (non nécessairement dénombrables) de convexes est
convexe ; la convexité est préservée par les applications affines (image et image inverse).
— Enveloppe convexe : Etant donné un ensemble A, l’enveloppe convexe est le plus petit
ensemble convexe contenant A. Elle est égale à l’intersection de tous les convexes contenant
A. Elle est égale à l’ensemble
Pp des barycentres à coefficients
Pp positifs ou nuls de familles finies
de points de A (i.e., i=1 αi xi , pour xi ∈ A, αi > 0 et i=1 αi = 1).

1
— Séparation des convexes : Si C et D sont deux ensemble convexes disjoints (C ∩ D = ∅),
il existe un hyperplan séparant C et D, i.e., ∃a 6= 0 et b ∈ R tels que C ⊂ {a> x > b} et
D ⊂ {a> x 6 b} (forme géométrique du théorème de Hahn-Banach). Si C et D sont compacts,
alors il existe une séparation stricte, i.e., C ⊂ {a> x > b} et D ⊂ {a> x < b}.

Exercice : Montrer le théorème de séparation stricte quand C et D sont compacts (indication : on


utilisera la paire (x, y) minimisant kx − yk2 pour (x, y) ∈ C × D et la médiatrice des points x et y).

2 Fonctions convexes
— Définition : Une fonction f définie sur D ⊂ Rn est convexe ssi (a) D est convexe et (b) pour
tout x, y ∈ D, et α ∈ [0, 1], alors f (αx + (1 − α)y) 6 αf (x) + (1 − α)f (y).
— Convexité stricte : même définition sauf : si α ∈ (0, 1), f (αx+(1−α)y) < αf (x)+(1−α)f (y)
— Convexité forte : même définition sauf : f (αx + (1 − α)y) 6 αf (x) + (1 − α)f (y) − µ2 α(1 −
α)kx − yk2
— Exemples classiques en une dimension : x, x2 , − log x, ex , log(1 + e−x ), |x|p pour p > 1,
−xp pour p < 1 et x > 0.
— Exemples classiques en dimension supérieure : fonctions linéaires a> x, fonctions qua-
dratiques 21 x> Qx pour Q symmétrique semidéfinie positive, normes.
— Caractérisation pour f dérivable : ∀x, y ∈ D, f (x) > f (y) + f 0 (y)> (x − y).
— Caractérisation pour f deux fois dérivable : ∀x ∈ D, f 00 (x) semidéfinie positive.
— Opérations préservant la convexité : supremum d’une famille de fonctions convexes
supi∈I fi (x), combinaison linéaires positives, minimisation partielle inf x∈C f (x, y) (si f est
convexe sur C × D).
— Propriétés : f est continue sur l’intérieur de D.
Pn Pn
— Inégalité de Jensen : f ( i=1 αi xi ) 6 i=1 αi f (xi ) et f (EX) 6 Ef (X).
— Fonctions convexes étendues (à valeurs dans R ∪ {+∞}) : f˜ : Rn 7→ R finie sur son
domaine, infinie sur son complément. Permet de gérer simplement les fonctions à domaine
D 6= Rn .

3 Problèmes d’optimisation non-contraints

On suppose f convexe et finie sur Rn . Alors, les trois cas exclusifs suivants sont possibles :
— inf x∈Rn f (x) = −∞ : pas de minimum (exemple f linéaire)
— inf x∈Rn f (x) > −∞ non atteint (exemple log(1 + e−x ))
— inf x∈Rn f (x) > −∞ atteint (exemple le plus classique) : f est dite coercive (limkxk→+∞ f (x) =
+∞)

Minimas locaux vs. minimas globaux : x est minimum local ssi il existe un voisinage V de x
tel que x est le minimum de f sur V . Lorsque f est convexe, tout minimum local est global.

2
Stricte convexité et minimum unique : si f est strictement convexe, alors il y a au plus un
minimum.

Condition nécessaire et suffisante d’optimalité (cas dérivable) : Si f est convexe et dérivable,


x est un minimum de f sur Rn si et seulement si f 0 (x) = 0.

4 Problèmes d’optimisation contraints

On suppose f convexe et finie sur D ⊂ Rn . On cherche à minimiser f sur un convexe C ⊂ D.

L’ensemble de contraintes C peut être spécifié par une intersection d’ensembles hi (x) = 0 et gj (x) 6 0
(voir section suivante).

Minimisation d’une fonction linéaire sur une enveloppe convexe : Soit A un compact de
Rn et a ∈ Rn , a 6= 0. Alors

min a> x = min a> x


x∈A x∈ Enveloppe convexe(A)

Exemple classique du problème d’affectation : on a p employés et p tâches, et à chaque paire em-


ployé/tâche est de trouver une permutation σ : {1, . . . , p} 7→ {1, . . . , p}
Pp(i, j), on a un coût cij , le butPp
telle que i=1 ciσ(i) est minimum. On a i=1 ciσ(i) = hc, Mσ i où Mσ est la matrice de permutation
associée. L’enveloppe convexe des matrices de permutations est l’ensemble des matrices double-
ment stochastiques (théorème de Birkhoff), qui correspond à un problème d’optimisation comvexe
contraint.

5 Dualité Lagrangienne

On s’intéresse au problème d’optimisation suivant (dit problème primal ) :

min f (x) tel que ∀i ∈ {1, . . . , m}, hi (x) = 0 et ∀j ∈ {1, . . . , r}, gj (x) 6 0.
x∈D

On note D∗ l’ensemble des x ∈ D vérifiant les contraintes.

— Définition du Lagrangien : on appelle Lagrangien la fonction L : Rm × Rr+ définie par

L(x, λ, µ) = f (x) + λ> h(x) + µ> g(x).

λ et µ sont appelés multiplicateurs de Lagrange (ou variables duales).


— Problème primal comme supremum du Lagrangien par rapport aux variables
duales : pour tout x ∈ D,

f (x) si x ∈ D∗

sup L(x, λ, µ) =
(λ,µ)∈Rm ×Rr +∞ sinon
+

Le problème primal est donc équivalent à

p∗ = inf sup L(x, λ, µ).


x∈D (λ,µ)∈Rm ×Rr
+

3
— Fonction duale : q : Rm × Rr+ → R définie par q(λ, µ) = inf x∈D L(x, λ, µ). Le problème dual
est la minimisation de q sur Rm × Rr+ , équivalent à

d∗ = sup inf L(x, λ, µ).


(λ,µ)∈Rm ×Rr+ x∈D

— Concavité du problème dual : sans aucune hypothèses sur D, f, g, h, la fonction duale q


est concave.
— Dualité faible : sans aucune hypothèses sur D, f, g, h, pour tout (λ, µ) ∈ Rm × Rr+ , et
x ∈ D∗ ,
inf
0
L(x0 , λ, µ) 6 L(x, λ, µ) 6 sup L(x, λ0 , µ0 )
x ∈D (λ0 ,µ0 )∈Rm ×Rr+

ce qui implique q(λ, µ) 6 f (x). Ceci implique d∗ 6 p∗ .


— Problèmes non faisables, non-bornés

Interprétation géometrique : problème à une contrainte d’inégalité

— Conditions de Slater : si f et D sont convexes, hi affines et gj convexes et il existe un


point strictement faisable (∃x̄ ∈ D∗ tel que ∀j, gj (x̄) < 0), alors d∗ = p∗ (dualité forte).
— Conditions de Karush-Kühn-Tucker (KKT) : Si il y a dualité forte, alors x∗ est une
variable primale optimale et (λ∗ , µ∗ ) une paire duale optimale si et seulement si
— stationarité primale : x∗ minimise x 7→ L(x, λ∗ , µ∗ ).
— faisabilité : x∗ et (λ∗ , µ∗ ) sont faisables
— conditions de complémentarité : ∀j, µ∗ gj (x∗ ) = 0
— Preuve pour les conditions de KKT : soit x∗ ∈ D faisable (i.e., x ∈ D∗ ) et (λ∗ , µ∗ ) ∈ Rm ×Rr+ .
Alors

q(λ∗ , µ∗ ) = inf f (x) + (λ∗ )> h(x) + (µ∗ )> g(x)


x∈D

6 f (x ) + (λ∗ )> h(x∗ ) + (µ∗ )> g(x∗ )


6 f (x∗ ).

La paire (x∗ , λ∗ , µ∗ ) est alors optimale si et seulement si il y a égalité dans les deux inégalités
précédentes, ce qui aboutit aux conditions de KKT.
— Remarques : (a) le dual du dual est le dual, (b) plusieurs problèmes duaux, dualité forte pas
toujours vraie.
— Exemple (Programmation linéaire) : minAx=b,x>0 c> x = maxA> y6c b> y
— Exemple (Problème quadratique avec contrainte d’égalité) : mina> x=b 21 x> Qx − q > x
— Exemple (Relaxation Lagrangienne de problème combinatoire - Max Cut) : minx∈{−1,1}n x> W x
— Exemple (Dualité forte pour problème non convexe) : minx> x61 12 x> Qx − q > x
Pn
— Exemple (Fenchel) : maxAx=b −f (x) = miny −b> y + f ∗ (A> y) avec f (x) = p1 i=1 xpi ,
Pn xi Pn xi 
f (x) = i=1 e , f (x) = log i=1 e .

Vous aimerez peut-être aussi