Cours - Optimisation Master 1
Cours - Optimisation Master 1
3
La démonstration est immédiate.
Définition 1.1.2 (Norme) Une norme sur R2 est une application notée ∥ · ∥ de R2 dans R ;
∥ · ∥ : R2 → R
(x1 , x2 ) 7→ ∥(x1 , x2 )∥
Exemple 1.1.1
∥ · ∥1 : R 2 → R
•
(x1 , x2 ) 7→ ∥(x1 , x2 )∥1 = |x1 | + |x2 |
∥ · ∥2 : R 2 → R √ √
•
(x1 , x2 ) 7→ ∥(x1 , x2 )∥2 = x21 + x22 = ⟨x, x⟩
(appelée norme euclidienne car définie à partir du produit scalaire)
∥ · ∥3 : R 2 → R
•
(x1 , x2 ) 7→ ∥(x1 , x2 )∥3 = max{|x1 |, |x2 |}
On a donc plusieurs façons de mesurer un vecteur qui ne correspondent toutes à la longueur
usuelle. Notons que la norme euclidienne correspond à la longueur usuelle.
Définition 1.1.3 Une distance (ou métrique) sur R2 est une application d : R2 × R2 → R+ telle
que :
i) ∀ x, y ∈ R2 , d(x, y) = 0 ⇔ x = y
ii) ∀ x, y ∈ R2 , d(x, y) = d(y, x)
iii) ∀ x, y, z ∈ R2 , d(x, y) ≤ d(x, y) + d(y, z) (inégalité triangulaire)
Si d est une distance sur R2 alors (R2 , d) est un espace métrique.
Exemple 1.1.2
d : R2 × R2 → R+
(x, y) 7→ ∥y − x∥
est une distance. C’est la distance associée à la norme ∥ · ∥. Dans le cas de la norme euclidienne,
on parle de distance euclidienne.
4
Définition 1.1.4 Soient x ∈ R2 , r > 0 et ∥ · ∥ une norme sur R2 .
On appelle boule ouverte de centre x et de rayon r par rapport à la norme ∥ · ∥, l’ensemble
Bf (x, r) = {y ∈ R2 : ∥y − x∥ ≤ r}.
S(x, r) = {y ∈ R2 : ∥y − x∥ = r}.
Définition 1.1.5 On considère R2 muni de la norme ∥·∥. On appelle voisinage d’un point a ∈ R2 ,
toute partie de X contenant une boule ouverte ou une boule fermée de centre a et de rayon r > 0.
On désigne par V(a) l’ensemble des voisinages de a.
Proposition 1.1.2 Toute partie qui contient un voisinage de a est encore un voisinage de a ;
Toute intersection d’un nombre fini de voisinages de a est un voisinage de a.
Définition 1.1.6 On considère R2 muni de la norme ∥ · ∥. Soit A ⊂ R2 . On dit que A est borné
s’il est inclus dans une boule fermée de R2 . Autrement dit, il existe r > 0 tel que ∥x∥ ≤ r pour
tout x ∈ A.
Remarque 1.1.1 Dans la définition ci-dessus, on peut remplacer ”boule ouverte” par ”boule
fermée”.
On en déduit que
Proposition 1.1.4 Pour qu’une partie de X soit ouverte il faut et il suffit qu’elle soit réunion
de boules ouvertes.
Exemple 1.1.3
Dans R2 , les ensembles R2 , R∗+ × R∗+ , ]a, b[×]c, d[ avec a, b, c, d ∈ R sont des ouverts.
5
Définition 1.1.8 Dans R2 muni de la norme ∥ · ∥, une partie A de R2 est dite fermée si son
complémentaire C’est-à-dire l’ensemble {x ∈ R2 : x ∈
/ A} est ouvert.
Exemple 1.1.4
1.1.3 Généralisation à Rn
Toutes les notions précédentes définies dans R2 se généralisent
sans
n
difficulté à R .
x1
..
Un point x ∈ R considéré comme vecteur sera noté x = . dont la transposée xT =
n
xn
(x1 , · · · , xn ) est une matrice ligne.
Définition 1.1.10 (Norme) Une norme sur Rn est une application notée ∥ · ∥ de Rn dans R ;
∥ · ∥ : Rn → R
x 7→ ∥x∥
∀x ∈ Rn , ∥x∥ ≥ 0 (N1 )
∀x ∈ Rn , ∥x∥ = 0 ⇒ (x1 , x2 , · · · , xn ) = (0, 0, · · · , 0) (N2 )
∀x ∈ Rn , ∀λ ∈ R, ∥λx∥ = |λ|∥x∥ (N3 )
∀x ∈ Rn , ∀y ∈ Rn , ∥x + y∥ ≤ ∥x∥ + ∥y∥ (N4 )
(appelée inégalité triangulaire)
6
Exemple de normes
∥ · ∥1 : R n → R
•
x 7→ ∥x∥1 = |x1 | + |x2 | + · · · + |xn |
∥ · ∥2 : R n → R √ √
•
x 7→ ∥x∥2 = x21 + x22 + · · · + x2n = ⟨x, x⟩
(appelée norme euclidienne car définie à partir du produit scalaire)
∥ · ∥3 : R n → R
•
x 7→ ∥x∥3 = max{|x1 |, |x2 |, · · · , |xn |}
Définition 1.1.11 Une distance (ou métrique) sur Rn est une application d : R2 × Rn → R+ telle
que :
i) ∀ x, y ∈ Rn , d(x, y) = 0 ⇔ x = y
ii) ∀ x, y ∈ Rn , d(x, y) = d(y, x)
iii) ∀ x, y, z ∈ Rn , d(x, y) ≤ d(x, y) + d(y, z) (inégalité triangulaire)
Si d est une distance sur Rn alors (Rn , d) est un espace métrique.
Exemple 1.1.5
d : Rn × Rn → R+
(x, y) 7→ ∥y − x∥
est une distance. C’est la distance associée à la norme ∥ · ∥. Dans le cas de la norme euclidienne,
on parle de distance euclidienne.
Les notions de boule ouvertes, boules fermées et de voisinage ensemble ouvert, ensemble fermés
se définissent de façon analogue au cas de R2 .
Définition 1.2.1 On appelle ensemble de définition de f l’ensemble des couples (x, y) ∈ R2 qui
ont une image par f . On le note Df . Df est une partie de R2 .
7
Définition 1.2.3 Soit α ∈ R. On appelle courbe de niveau α de la fonction f , l’intersection de la
surface représentat f et du plan z = α. c’est l’ensemble des points (x, y) tels que f (x, y) = α.
Exemple 1.2.1
Soit :
f : R2 → R
(x, y) 7→ f (x, y) = x2 + y 2
Df = R2 . Pour α > 0, la courbe de niveau α est le cercle d’équation x2 + y 2 = α dans le plan
z = α.
• ce qui se note :
lim f (x) = lou plus simplement lim f (x) = l.
x→a,x̸=a x→a
• ce qui se comprend : f (x) peut aussi voisin qu’on le veut de l (dans un intervalle ]l − ε, l + ε[)
pourvu que x soit assez voisin de a (dans une boule centrée en a).
Dans R on a vu que la limite existe, si et seulement si la limite çà gauche existe, la limite à
droite existe et les deux sont égales. Dans R2 on peut s’approcher d’un point du plan le long d’une
infinité de chemins.
Les propriétés de la limite d’une fonction de deux variables sont les mêmes que celles de la
limite d’une fonction d’une seule variable.
si de plus f est définie en a et le nombre réel l se trouve être exactement f (a) alors on dit que
f est contninue en a. Ce qui fait l’objet de ce qui suit.
Définition 1.2.5 Soit a = (a1 , a2 ) ∈ R2 et f une fonction réelle de deux variables réelles définie
sur un voisinage V de a.
On dit que f est continue en a lorsque, limx→a f (x) = f (a).
• ce qui s’écrit en utilisant la définition de la limite :
Définition 1.2.6 On dit que f est continue sur un ouvert D de R2 , lorsque f est continue en
tout point de D.
Si f est continue sur un ouvert, alors f est continue sur tout sous-ensemble de cet ouvert.
8
Proposition 1.2.1 Soit a ∈ R2 et f et g deux fonctions réelles de deux variables réelles définie
sur un voisinage de a.
Si f et g sont continues en a alors :
a) f + g est continue en a.
b) Pour tout λ ∈ R, λf est continue en a.
c) le produit f g de ces deux fonctions est continue en a.
d) f1 est continue en a (pourvu que f ne s’annule pas en a).
Si g ne s’annule pas en a, alors en combinant c) et d) on a fg qui est continue en a.
Proposition 1.2.2 Soit f une fonction réelle de deux variables réelles, continue en a et g une
fonction réelle d’une variable réelle continue en f (a). Alors g ◦ f est continue en a.
Exemple 1.2.2
x1 7→ f (x1 , a2 ) et x2 7→ f (a1 , x2 )
9
On utilise aussi l’écriture équivalente :
f (a1 + h1 , a2 ) − f (a1 , a2 )
lim .
h1 →0 h1
Cette limite est alors notée : fx′ 1 (a) ou ∂x
∂f
1
(a).
On dit aussi ”dérivée partielle de f par rapport à la première variable”.
On reprend le procédé ci-dessus en permuttant le rôle des deux variables : on fixe la première
variable x1 = a1 et on considère la fonction ψ défine par :x2 7→ ψ(x2 ) = f (a1 , x2 ), c’est une
fonction d’une seule variable, on sait donc exprimer son nombre dérivé au point a1 ∈ R s’il existe :
ψ(x2 ) − ψ(a2 ) f (a1 , x2 ) − f (a1 , a2 )
ψ ′ (a2 ) = lim = lim .
x2 →a2 x 2 − a2 x2 →a2 x 2 − a2
Définition 1.2.8 On appelle dérivée partielle de f par rapport à x2 en a = (a1 , a2 ), la limite
suivante lorsqu’elle existe :
f (a1 , x2 ) − f (a1 , a2 )
lim .
x2 →a2 x 2 − a2
Cette limite est alors notée : fx′ 2 (a) ou ∂x
∂f
2
(a).
On dit aussi ”dérivée partielle de f par rapport à la deuxième variable”.
Définition 1.2.9 On dit que la fonction f est dérivable en a = (a1 , a2 ) lorsque les dérivées
partielles de f par rapport à x1 , et x2 , en a,exitent.
Définition 1.2.11 Soit f définie sur un ouvert D de R2 . On dit que la fonction f est dérivable
sur D lorsque f est dérivable en tout point de D.
Définition 1.2.12 Lorsque f est dérivable sur D, on définit deux nouvelles fonctions de D dans
R:
∂f
- l’une ∂x 1
: x = (x1 , x2 ) 7→ ∂x∂f
1
(x) appelée fonction dérivée partielle de f par rapport à la
première variable :
∂f
- l’autre ∂x 2
: x = (x1 , x2 ) 7→ ∂x
∂f
2
(x) appelée fonction dérivée partielle de f par rapport à la
deuxième variable.
10
c) f g est dérivable en a et :
∂(f g) ∂f ∂g
∀ i = 1, 2, (a) = g(a) (a) + f (a) (a).
∂xi ∂xi ∂xi
1
d) f
est dérivable en a et :
∂f
∂( f1 ) ∂xi
(a)
∀ i = 1, 2, (a) = − .
∂xi [f (a)]2
pourvu que f (a) ̸= 0.
Si g(a) ̸= 0 alors en combinant c) et d), on obtient que f
g
est dérivable en a et :
∂( fg ) ∂f
g(a) ∂x (a) − f (a) ∂x
∂g
(a)
∀ i = 1, 2, (a) = i i
.
∂xi [g(a)]2
Proposition 1.2.4 Soit f définie et dérivable sur un ouvert D de R2 (dont les dérivées partielles
existent sur D) et g une fonction d’une variable dérivable sur f (D).
Alors g ◦ f est dérivable et :
∂(g◦f )
∂x1
(x1 , x2 ) = g ′ (f (x1 , x2 )) ∂x
∂f
1
(x1 , x2 )
∂(g◦f )
∂x2
(x1 , x2 ) = g ′ (f (x1 , x2 )) ∂x2 (x1 , x2 )
∂f
Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .
Donnons uniquement certaines d’entre elles.
Soit a = (a1 , a2 , · · · , an ) ∈ Rn et f une fonction réelle de n variables réelles définie sur un
voisinage V de a.
1.2.4 Différentielle
Définition 1.2.15 On dit que la fonction f est différentiable en a = (a1 , a2 ) ∈ R2 lorsqu’il existe
des nombres réels β1 , β2 et une fonction ε tels que pour tout h = (h1 , h2 ) avec a + h au voisinage
de a :
f (a + h) = f (a) + β1 h1 + β2 h2 + ∥h∥ε(h)
avec limh→0 ε(h) = 0.
11
Exemple 1.2.3
Définition 1.2.16 On dit que la fonction f est de classe C 1 en a ∈ R2 lorsque les dérivées
∂f ∂f
partielles de f , ∂x 1
(a), ∂x 2
(a) existent au voisinage de a et sont continues en a.
f ′ (a) : R2 → R
h 7→ f ′ (a)(h) = ∂f
∂x1
(a)h1 + ∂f
∂x2
(a)h2 = ∇f (a)T h = ⟨∇f (a), h⟩
La différentielle de f en a permet d’obtenir des approximations de f (a+h)−f (a), pour h petit.
∂f ∂f
La fonction f étant généralement non-linéaire, approximer f (a+h) par f (a)+ ∂x 1
(a)h1 + ∂x 2
(a)h2 ,
pour h petit, est un procédé de linéarisation locale (autour) de a) de f .
c) f
g
est différentiable (resp. de classe C 1 ) en a et :
( )′
f g(a)f ′ (a) − f (a)g ′ (a)
(a) =
g [g(a)]2
12
Remarque 1.2.1 Pour montrer qu’une fonction f est différentiable en a on peut appliquer (1.2.15)
ou utiliser les opérations sur les fonctions différentiables.
On peut essayer de voir si f est de classe C 1 ) en a et dans ce cas utiliser la condition suffisante :
f de classe C 1 ) en a =⇒ f différentiable en a.
Définition 1.2.18 Soit f définie sur un ouvert D de R2 . on dit que la fonction f est différentiable
sur D lorsque f est différentiable en tout point de D.
f est de classe C 1 sur D lorsque f est de classe C 1 en tout point de D
La différentiabilité des fonctions projections et la proposition (1.2.5) impliquent que les fonc-
tions polynômes, les fonctions quotients de polynômes (pourvu que le dénominateur ne s’annule
pas) sont différentiables.
Il est clair qu’elles sont mêmes de classe C 1
Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .
Donnons uniquement certaines d’entre elles.
Soit a = (a1 , a2 , · · · , an ) ∈ Rn et f une fonction réelle de n variables réelles définie sur un
voisinage V de a.
f (a + h) = f (a) + β1 h1 + β2 h2 + · · · + βn hn )∥h∥ε(h)
13
∂2f ∂2f
Théorème 1.2.3 (Théorème de Schwarz) Si ∂x1 ∂x2
et ∂x2 ∂x1
sont continues en a = (a1 , a2 ),
∂2f ∂2f
alors ∂x1 ∂x2
(a) = ∂x2 ∂x1
(a).
∂2f ∂2f
Donc si les dérivées partielles secondes ∂x1 ∂x2
et ∂x2 ∂x1
sont continues en a la matrice hessienne
en a est symétrique.
Définition 1.2.23 On dit que f est de classe C 2 en a lorsque les dérivées partielles secondes de
f existent au voisinage de a et sont continues en a.
Donc, lorsque f est de classe C 2 en a la matrice hessienne de f en a est symétrique.
Il est clair que la somme, le produit, le quotient (lorsque le dénominateur ne s’annule pas) de
fonctions de classe C 2 en a sont des fonctions de classe C 2 en a.
On définit de façon analogue pour ∈ N, les fonctions de claase C p en a : ce sont les fonctions
dont les dérivvées partielles d’ordre p existent au voisinage de a et sont continues en a. Une
fonction qui est de classe C p en a pour tout p ∈ N, est dite de classe C ∞ . C’est le cas des fonctions
polynômes par exzmple.
Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .
14
Supposons que f : Ω −→ R est différentiable sur un ouvert Ω de Rn , x et y sont tels que [x, y]
est inclus dans Ω. Alors il existe θ ∈]0, 1[ tel que :
1
f (y) = f (x) + ⟨∇f (x), y − x⟩ + ⟨∇2 f (x + θ(y − x))(y − x), y − x⟩.
2
Proposition 1.2.7 (Formules de Taylor-Young)
1) Formule de Taylor-Young à l’ordre 1 :
Supposons que f : Ω −→ R est continue sur Ω un ouvert de Rn et différentiable au point x de
Ω. Alors il existe un voisinage V de 0 et une fonction ε; V −→ R avec limu→0 ε(u) = 0 tels que :
15
Chapitre 1
Ensembles convexes
Le cadre général de ce cours est un espace vectoriel réel de dimension n. On peut donc
sans perdre de généralités considérer l’espace vectoriel réel Rn .
De façon générale :
∑
k ∑
k
x= λi xi avec λi ≥ 0 et λi = 1.
i=1 i=1
5
6 CHAPITRE 1. ENSEMBLES CONVEXES
On définit aussi ]x, y] et [x, y[ qui sont appelés segment semi ouvert en x respectivement
en y.
Définition 1.1.5 Soit C une partie de Rn . C est convexe si seulement si pour tout x, y ∈
C, (1 − λ) x + λy ∈ C pour tout λ ∈ [0, 1]. Autrement dit, C est convexe si seulement si
C contient tout segment fermé d’extrémités deux quelconques de ses points.
Exemple 1.1.1 - Dans Rn , les ensembles suivants sont convexes. Rn , l’ensemble vide,
les singletons, les segments, les boules, les sous-espaces affines.
- Dans R, une partie est convexe si et seulemùent si c’est un intervalle.
On a la proposition :
Proposition 1.1.1 Une partie C de Rn est convexe si seulement si elle contient toute
combinaison linéaire convexe de toute famille finie d’éléments qui lui appartiennent.
Preuve : Si C contient toute combinaison linéaire convexe de familles finies d’éléments
qui lui appartiennent, en particulier, prenant une famille de deux éléments x et y de C,
on a [x, y] ⊂ C et donc C est convexe.
Réciproquement, soit C un ensemble convexe de Rn . Alors C contient toute combi-
naison linéaire convexe de deux quelconques de ses éléments. Donc la propriété est vraie
pour une famille comportant deux éléments. Supposons qu’elle est vraie pour une famille
de k − 1 éléments.
Soit { }
F = x 1 , x 2 , · · · , xk
une famille de k élément de C.
Soit
∑ k ∑
k
x= λi x avec λi ≥ 0,
i
λi = 1.
i=1 i=1
On a
∑
k ∑
k−1
i
x= λi x = λi xi + λk xk .
i=1 i=1
Soit
∑
k−1
λ= λi .
i=1
On a λ ∈ [0, 1].
Si λ = 0 alors λi = 0 pour tout i = 1, · · · , k − 1 et donc λk = 1. Il vient alors que
x = λk xk = xk ∈ C.
Si λ ̸= 0, on peut écrire
∑k−1 ( )
λi
x=λ xi + λk xk .
i=1
λ
1.1. DÉFINITIONS ET PROPRIÉTÉS PREMIÈRES 7
L’élément
k−1 (
∑ )
λi
y= xi ,
i=1
λ
est une combinaison linéaire convexe de k − 1 éléments de C. C’est donc un élément de
C, par hypothèse de recurrence. Donc x = λy + λk xk . Or λk = 1 − λ avec λ ∈ [0, 1]. Donc
x est combinaison linéaire convexe de deux éléments de C. Comme par hypothèse, C est
convexe, on a alors x ∈ C.
Définition 1.1.6 Une application f de Rn dans Rm est dite affine si l’une des conditions
suivantes est vérifiée.
i) Pour tout x, y dans Rn et λ ∈ R, on a
∀ x ∈ Rn , f (x) = L(x) + a.
On a la proposition suivante
αC + βC = (α + β)C.
Preuve : Comme les scalaires α et β sont positifs ou nuls, le cas où α + β = 0 est trivial
Considérons α et β tels que α + β > 0.
L’inclusion ci-dessous est immédiate :
(α + β)C ⊂ αC + βC.
On a
α β α β
> 0, > 0, + = 1.
α+β α+β α+β α+β
Comme C est convexe, alors
α β
x+ y ∈ C.
α+β α+β
D’où le résultat
Nous donnons à présent quelques propriétés topologiques.
Bien avant notons que pour x ∈ Rn , et ε > 0, B(x, ε) désigne la boule euclidienne
fermée de centre x et de rayon ε
On remarque qu’on a toujours B(x, ε) = x + εB(0, 1), B(0, 1) étant la boule unité
euclidienne fermée.
∥p(x) − x∥ ≤ ∥y − x∥ ∀y ∈ S.
Théorème 1.2.2 Soit S un convexe fermé non vide de Rn et x ∈ Rn . Alors p(x) est la
projection de x sur S si et seulement si
⟨x − p(x), y − p(x)⟩ ≤ 0 ∀y ∈ S.
Preuve : Soit p(x) la projection sur S un convexe fermé de Rn . Supposons qu’il existe
un point y0 ∈ S tel que ⟨y0 − p(x), x − p(x)⟩ > 0.
Posons
φ(t) = ∥x − [(1 − t)p(x) + ty0 ] ∥2 , t ∈ R+ .
On a
φ(t) = ∥x − p(x)∥2 + 2t⟨x − p(x), p(x) − y0 ⟩ + t2 ∥p(x) − y0 ∥2
= ∥x − p(x)∥2 + t (2⟨x − p(x), p(x) − y0 ⟩ + t∥p(x) − y0 ∥2 ) .
Comme ⟨x − p(x), p(x) − y0 ⟩ < 0, pour t suffisamment petit, on aura φ′ (t) < 0 et donc
φ est strictement décroissante au voisinage de 0. On aura donc pour t suffisamment petit
φ(t) < ∥x − p(x)∥2 .
Or pour t ∈ [0; 1], zt = (1 − t)p(x) + ty0 ∈ S car S est convexe. Soit donc t ∈ [0; 1]
suffisamment petit tel que φ(t) < ∥x − p(x)∥2 . Pour un tel t on aura zt ∈ S et ∥x − zt ∥2 <
∥x − p(x)∥2 . Ce qui contredit le fait que p(x) est la projection de x sur S.
Réciproquement supposons que
⟨y − z; x − z⟩ ≤ 0 ∀y ∈ S.
Montrons que z est la projection de x sur S.
Soit y ∈ S. On a
∥x − y∥2 = ∥x − z + z − y∥2 = ∥x − z∥2 + 2⟨x − z; z − y⟩ + ∥y − z∥2 .
Par suite on a ∥x − y∥2 ≥ ∥x − z∥2 , et donc p(x) = z.
n
L’application projection est lipschitzienne sur R .
10 CHAPITRE 1. ENSEMBLES CONVEXES
Proposition 1.2.1 Soit S un convexe fermé non vide de Rn et pour tout x ∈ Rn , p(x) la
projection de x sur S. On a
⟨z − p(x), x − p(x)⟩ ≤ 0 ∀z ∈ S.
En prenant z = p(y) on obtient
⟨z − p(y), y − p(y)⟩ ≤ 0 ∀z ∈ S.
Pour z = p(x) on a
⟨p(x) − p(y), y − p(y)⟩ ≤ 0. (1.2)
En additionnant (1.1)et (1.2) on obtient
Corollaire 1.2.1 l’application définie sur Rn qui à tout x ∈ Rn associe sa projection sur
S un convexe fermé est continue.
Chapitre 3
Fonctions convexes
- strictement convexe si :
λ(1 − λ)r
∀ x, y ∈ I, f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) − ∥y − x∥2 ∀λ ∈ [0, 1].
2
On dit que f est concave (resp. strictement concave, fortement concave de module r > 0) si
−f est convexe, (resp. strictement convexe, fortement convexe de module r > 0).
L’application f est convexe si et seulement si, la courbe est en dessous de chacune de ses cordes
(une corde étant ici un segment joignant deux points de la courbe).
Preuve :
Soit x < y dans I − {a}.
•x<a<y
Dans ce cas on peut écrire a = x + t(y − x) avec t = a−x
y−x
et donc de part la convexité de f on a
21
Soit (1 − t)(f (a) − f (x)) ≤ t(f (y) − f (a)). Donc en remplaçant t par sa valeur, on obtient :
y−a a−x
( )(f (a) − f (x)) ≤ ( )(f (y) − f (a)).
y−x y−x
C’est-à-dire
f (x) − f (a) f (y) − f (a)
≤ .
x−a y−a
• a < x < y.
Ici on peut écrire x = a + t(y − a) avec t = x−a
y−a
. Alors on a
⇔ f (x)−f (a)
x−a
≤ f (y)−f (a)
y−a
• x < y < a.
On a y = x + t(a − x) avec t = y−x
a−x
. Alors la convexité de f donne
⇔ f (y)−f (a)
a−y
≤ f (x)−f (a)
a−x
22
Définition 3.1.2 Soit f : I → R. On appelle épigraphe de f , l’ensemble :
epi(f ) = {(x, λ) ∈ I × R : f (x) ≤ λ} .
On appelle épigraphe strict de f , l’ensemble :
f ) = {(x, λ) ∈ I × R : f (x) < λ} .
epi(f
On appelle section inférieure de niveau λ de f , l’ensemble :
Sλ (f ) = {x ∈ I : f (x) ≤ λ} .
On appelle section inférieure stricte de niveau λ de f , l’ensemble :
^
Sλ (f ) = {x ∈ I : f (x) < λ} .
23
3.1.2 Opérations sur les fonctions convexes
On montre facilement que
Proposition 3.1.10 Toute combinaison linéaire finie et positive de fonctions convexes est convexe.
C’est-à-dire : si pour tout i = 1, · · · , p, fi : I → R est convexe sur intervalle I de R, alors pour
∑
tout αi ≥ 0, i = 1, · · · , p, la fonction f = pi=1 αi fi est convexe sur I.
Proposition 3.1.11 L’enveloppe supérieure d’une famille de fonction convexes est convexe. Au-
trement dit, si {fj }j∈ est une famille quelconque de fonctions convexes sur un intervalle I de R
et à valeurs dans R, alors la fonction f définie par f (x) = supj∈J fj (x) est une fonction convexe
sur I.
Preuve : Soient x et y deux éléments de I et λ ∈ [0, 1]. Comme pour tout j ∈ J, fj est convexe,
on a
Donc
sup fi ((1 − λ)x + λy) ≤ (1 − λ) sup fj (x) + λ sup fj (y).
j∈J j∈J j∈J
Définition 3.2.2 Soit C un convexe non vide de Rn . Une fonction f : C → R est strictement
convexe sur C si :
∀ x, y ∈ C, x ̸= y, ∀ λ ∈]0, 1[,
f ((1 − λ)x + λy) < (1 − λ)f (x) + λf (y).
24
Définition 3.2.3 Soit C un convexe non vide de Rn . Une fonction f : C → R est fortement
convexe de module r > 0 sur C si :
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) − 21 rλ(1 − λ)∥y − x∥2 .
On définit aussi une fonction concave, strictement concave fortement concave de module r > 0
sur C.
Définition 3.2.4 Soit C un convexe non vide de Rn . Une fonction f : C → R est concave
(respectivement strictement concave, fortement concave de module r > 0 sur C si :
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y),
respectivement
∀ x, y ∈ C, x ̸= y, ∀ λ ∈]0, 1[,
f ((1 − λ)x + λy) > (1 − λ)f (x) + λf (y),
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y) + 21 rλ(1 − λ)∥y − x∥2 .
Pour la suite nous allons considèrer sans perdre de généralités que C = Rn . On définit d’abord
les notions suivantes.
Sλ (f ) = {x ∈ Rn : f (x) ≤ λ} .
25
Proposition 3.2.3 Soit f : Rn → R. On a les équivalences suivantes.
i) f est convexe ;
∑
ii) Pour toute combinaison linéaire convexe x = ki=1 λi xi , on a
∑
k ∑
k
f( λi xi ) ≤ λi f (xi ).
i=1 i=1
26
Proposition 3.2.6 Si f : Rn → R est convexe alors les sections de niveau Sλ (f ), λ ∈ R sont
convexes.
On montre que
Proposition 3.2.7 Une matrice A ∈ Mn (R) est semi définie négative (resp. définie négative) si
et seulement si −A semi définie positive (resp. définie positive).
on montre que :
Proposition 3.2.8 Une matrice A ∈ Sn (R) est semi définie positive si et seulement si toutes ses
valeurs propres sont positives ou nulles.
Une matrice A ∈ Sn (R) est définie positive si et seulement si toutes ses valeurs propres sont
strictement positives.
Proposition 3.2.9 Une matrice A ∈ Sn (R) est semi définie négative si et seulement si toutes ses
valeurs propres sont négatives ou nulles.
Une matrice A ∈ Sn (R) est définie négative si et seulement si toutes ses valeurs propres sont
strictement négatives.
On sait que le déterminant d’une matrice carrée est égal au produit de ses valeurs propres et
sa trace est égale à la somme de ses valeurs propres. Alors on a le corollaire.
27
Corollaire 3.2.1 Soit A une matrice carrée d’ordre 2 symétrique et à coefficients réels.
1) A est semi définie positive si et seulement si son déterminant et sa trace sont positifs.
2) A est définie positive si et seulement si son déterminant et sa trace sont strictement positifs.
1) A est semi définie négative si et seulement si son déterminant est positif et sa trace négative.
2) A est définie négative si et seulement si son déterminant est strictement positif et sa trace
strictement négative.
Corollaire 3.2.2 Soit A une matrice carrée d’ordre 3 symétrique et à coefficients réels. Si A est
telle que det(A) < 0 et trace(A) > 0 alors la matrice A n’est ni semi définie positive ni semi
définie négative.
Définition 3.2.8 Soit A une matrice de Mn (R). Les mineurs principaux diagonaux de A sont
les n sous-matrices carrées A(p) d’ordre p obtenues en supprimant les n − p dernières lignes et
colonnes, p = 1 · · · , n. Ce sont les matrices
( ) a11 · · · a1p
a11 a12 .. , · · · , A = A.
A(1) = (a11 ), A(2) , · · · , A(p) = ... . (n)
a21 a22
ap1 · · · app
Proposition 3.2.10 Une matrice A ∈ Sn (R) est définie positive si et seulement si les déterminants
des n mineurs principaux diagonaux sont strictement positifs.
Si A est semi définie positive alors on a det(A(p) ) > 0 pour 1 ≤ p ≤ n. Mais cette condition
nécessaire n’est pas suffisante. Par exemple la matrice symétrique d’ordre trois
1 1 0
A= 1 1 0
0 0 −1
vérifie det(A(1) ) > 0, det(A(2) ) = det(A(3) ) = 0. Ses valeurs propres sont 0, 2 et −1. Elle n’est
donc semi definie positive ni semi definie négative.
Définition 3.2.9 Soit A une matrice de Sn (R). Un mineur principal d’ordre p de A est la sous-
matrice de A d’ordre p obtenue en supprimant n − p lignes et les n − p colonnes correspondantes
dans A.
28
B) Caractérisation des fonctions convexes différentiables
Dans les résultats qui suivent, nous donnons des caractérisations de la convexité dans le cas
différentiable.
Preuve : 1)⇒ 2) Soient x, y dans Rn et λ ∈]0, 1[. Comme f est convexe, alors on a
Ce qui donne
f (x + λ(y − x)) − f (x)
≤ f (y) − f (x).
λ
En passant à la limite, on obtient :
Soient x, et y dans Rn et λ ∈ [0, 1]. En considérant respectivement les couples (x + λ(y − x), x) et
(x + λ(y − x), y), on a :
et
f (y) ≥ f (x + λ(y − x) + (1 − λ)⟨∇f (x + λ(y − x), y − x⟩ (3.2)
On multiplie (3.1) par (1 − λ) et (3.2) par λ et on fait la somme des deux résultats. On obtient
alors
(1 − λ)f (x) + λf (y) ≥ f (x + λ(y − x).
Ce qui prouve que f est convexe.
2)⇒ 3) Soient x et y dans Rn . On a
et
f (x) ≥ f (y) + ⟨∇f (y), x − y⟩ (3.4)
En considérant la somme de (3.3) et de (3.4), on obtient
29
3)⇒ 2) Soient x et y dans Rn . Comme f est differentiable alors :
Soit
⟨∇f (z) − ∇f (x), y − x⟩ ≥ 0
car λ ∈]0, 1[. C’est-à-dire
⟨∇f (z), y − x⟩ ≥ ⟨∇f (x), y − x⟩.
En utilisant (3.5), on obtient
Dans le cas où la fonction est deux fois differentiable, on a aussi les caractérisations suivantes.
t2 2
f (x + th) = f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t).
2
Par hypothèse, la fonction f est convexe, donc on a pour tout h ∈ Rn et t ∈ R,
Donc
t2 2
f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t) ≥ f (x) + t⟨∇f (x), h⟩.
2
Ce qui donne
30
Comme la fonction ε tend vers 0 quand t tend vers 0, on obtient :
⟨∇2 f (x)h, h⟩ ≥ 0.
Théorème 3.2.4 Soit f : Rn → R deux fois differentiable. Si pour tout x ∈ Rn , on a ⟨∇2 f (x)h, h⟩ >
0 ∀ h ∈ Rn , h ̸= 0 alors f est strictement convexe sur Rn .
Remarque 3.2.2 Il faut signaler que la réciproque de ce résultat n’est pas vraie. On peut considérer
la fonction φ définie sur R suivante : φ(t) = t4 . Cette fonction est strictement convexe mais sa
dérivée seconde en 0 est nulle.
31
On peut aussi montrer que :
Proposition 3.2.17 Toute combinaison linéaire finie et positive de fonctions convexes est convexe.
C’est-à-dire : Si pour tout i = 1, · · · , p, fi : Rn → R est convexe, alors pour tout αi ≥ 0,
∑
i = 1, · · · , p, la fonction f = pi=1 αi fi est convexe.
Proposition 3.2.18 L’enveloppe supérieure d’une famille de fonction convexes est convexe. Au-
trement dit, si {fi }i∈I est une famille quelconque de fonctions convexes définies sur Rn et à valeurs
dans R, alors la fonction f définie par f (x) = supi∈I fi (x) est une fonction convexe.
Preuve : Soient x et y deux éléments de Rn et λ ∈ [0, 1]. Comme pour tout i ∈ I, fi est convexe,
on a
Donc
sup fi ((1 − λ)x + λy) ≤ (1 − λ) sup fk (x) + λ sup fk (y).
i∈I k∈I k∈I
32
Chapitre 4
Introduction à l’optimisation
33
Ces notions sont aussi caractérisées par :
On a le résultat suivant.
Définition 4.2.3 (Suite minimisante/Suite maximisante) Soit X une partie non vide de R.
On appelle suite minimisante de X, toute suite {xk } d’éléments de X telle que
lim xk = inf(X).
k→+∞
lim xk = sup(X).
k→+∞
On montre que
Proposition 4.2.3 Si X est une partie non vide R, alors il existe toujours une suite minimisante
de X et une suite maximisante de X.
Preuve : Montrons d’abord l’existence d’une suite minimisante. Comme X est non vide, alors
nécessairement inf(X) ∈ R ∪ {−∞}
i) inf(X) ∈ R. D’après la proposition (4.2.1)
1
∀k ∈ N∗ , ∃xk ∈ X : inf(X) ≤ xk ≤ inf(X) + .
k
La suite {xk } ainsi construite converge vers inf(X).
ii) inf(X) = −∞. X admet seulement −∞ comme minorant. Par conséquent pour tout k ∈ N,
il existe xk ∈ X tel que
xk ≤ −k
La suite {xk } ainsi construite converge vers −∞.
On montre de façon analogue l’existence d’une suite maximisante.
34
4.3 Notion de programme mathématique
4.3.1 Définitions et premières propriétés
Soit f : Rn → R une fonction définie sur Df et C une partie de Df .
∀ x ∈ C, f (x∗ ) ≤ f (x).
Minimiser la fonction f sur C consiste à déterminer la valeur minimale (le minimum) de f sur
C ainsi que les point de C où f atteint cette valeur minimale. Dans ce cas on dit qu’on a résolu
un programme de minimisation de f sur C. On le note symboliquement :
min f (x).
x∈C
Les points où la valeur minimale est atteinte (on dit aussi les points qui réalisent le minimum)
sont les solutions du programme de minimisation de f sur C. On note cet ensemble arg min{f (x) :
x ∈ C}. Compte tenu de ce qui précède, on a :
Maximiser la fonction f sur C consiste à déterminer la valeur maximale (le maximum) de f sur
C ainsi que le ou les point(s) de C s’ils existent où f atteint cette valeur maximale. Dans ce cas
on dit qu’on a résolu un programme de maximisation de f sur C et on le note symboliquement :
max f (x).
x∈C
Les points où la valeur maximale est atteinte (on dit aussi les points qui réalisent le maximum)
sont les solutions optimales du programme de maximisation de f sur C. On note cet ensemble
arg max{f (x) : x ∈ C}. On a :
Exemple 4.3.1
35
1) Considérons le programme de minimisation ”minimiser f (x) = x2 + 1 sur R”. On a :
∀ x ∈ R, f (x) ≥ 1 = f (0).
∀ x ∈ C, f (x∗ ) ≥ f (x).
Définition 4.3.2 Un élément x∗ ∈ C est dit point de minimum local (respectivement de maximum
local) de f sur C s’il existe un voisinage V de x∗ tel que :
36
Dans la suite on distinguera systématiquement les optima locaux appélés également optima re-
latifs et les optima globaux appelés également optima absolus. Tout optimum global a évidemment
les propriétés d’un optimum local alors que la réciproque est fausse ; un optimum local peut ne
pas être un optimum global.
Très souvent la nature des problèmes d’optimisation conduit à privilégier la recherche d’un
optima globaux plutôt que des optima locaux. On peut penser que pour détecter les minima
(resp. maxima) globaux il suffit de déterminer les minima (resp. maxima) locaux puis de repérer
le plus petit (resp. le plus grand). Cette stragtégie est logique mais parfois difficile à mettre en
œuvre surtout dans les problèmes théoriques.
Dans le cas convexe le problème ne se pose pas comme indiqué dans le théorème ci-dessous.
Preuve :
On donne la démonstration pour f convexe.
1) Montrons d’abord par l’absurde que tout minimu local est nécessairement global.
Soit x∗ un minimum local qui n’est pas un minimum global. Il existe un r > 0 tel que :
Comme x∗ n’est pas minimum global, il existe x∗∗ tel que f (x∗ ) < f (x∗∗ ).
Puisque C est convexe alors,
Ce qui contredit le fait que f atteint un minimum local en x∗ sur la boule ouverte B(x∗ , r).
2) Considérons à présent l’ensemble des solutions optimales
f (x∗ ) = f (x∗∗ ) = α.
37
Comme f est convexe, on a
Donc on a
∀λ ∈]0, 1[, f ((1 − λ)x∗ + λx∗∗ ) = α.
Par suite
(1 − λ)x∗ + λx∗∗ ∈ A, ∀λ ∈]0, 1[.
D’où le théorème.
On donne à présent deux propriétés très générales des problèmes d’optimisation. En pratique
elles peuvent permettre de transformer un problème en un autre problème parfaitement équivalent
qui peut être plus simple à résoudre.
Proposition 4.3.1 On a :
max f (x) = − min(−f )(x).
x∈C x∈C
38
Preuve : Si f atteint un maximum sur C en un point x∗ , alors par définition,
∀ x ∈ C, f (x) ≤ f (x∗ ).
En multipliant par −1 les deux membres de l’inégalité, on a :
∀ x ∈ C, −f (x) ≤ −f (x∗ ).
Ce qui signifie que (−f ) atteint un minimum en x∗ .
La réciproque est immédiate
D’après cette proposition, les résultats concernant les programmes de maximisation peuvent
être transposés dans les programmes de minimisation, à condition bien entendu de changer le
signe de la fonction-objectif. Par conséquent, tout programme mathématique peut se ramener à
un programme de minimisation.
Théorème 4.3.3 Soit le programme de minimisation ”minimiser f sur C” dans lequel l’ensemble-
image f (C) est un intervalle de R.
Soit φ : R → R une fonction continue strictement croissante sur f (C).
La fonction f atteint un minimum sur C en un point x∗ si et seulement si la fonction φ ◦ f
atteint un minimum sur C en x∗ .
Preuve :
Condition nécessaire :
Comme x∗ minimise f sur C, on a :
∀ x ∈ C, f (x∗ ) ≤ f (x).
Ce qui entraı̂ne (puisque φ est croissante sur f (C)) :
∀ x ∈ C, φ ◦ f (x∗ ) ≤ φ ◦ f (x).
Donc x∗ minimise φ ◦ f sur C.
Condition suffisante :
Si x∗ minimise φ ◦ f sur C, on a :
∀ x ∈ C, φ ◦ f (x∗ ) ≤ φ ◦ f (x).
Puisque φ est continue et strictement croissante sur l’intervalle f (C), elle réalise une bijection de
f (C) sur φ(f (C)) et admet donc une bijection réciproque φ−1 définie sur l’intervalle φ(f (C)) et
à valeur dans f (C). Cette bijection réciproque a même sens de variation que φ. Alors pour tout
x∈C :
φ ◦ f (x∗ ) ≤ φ ◦ f (x)
entraı̂ne que :
φ−1 (φ ◦ f (x∗ )) ≤ φ−1 (φ ◦ f (x))
c’est-à-dire :
f (x∗ ) ≤ f (x),
donc x∗ minimise f sur C.
39
4.3.2 Typologie des programmes mathématiques
On distingue plusieurs types de problèmes d’optimisation. Si l’ensemble des solutions réalisables
est un sous-ensemble ouvert du domaine de définition de la fonction-objectif on a affaire à un
problème d’optimisation sans contraintes ou libre et avec contraintes dans le cas contraire. Dans
ce cas très souvent l’ensemble des solutions réalisables est défini en compréhension par la donnée
d’une liste de contraintes d’égalité ou d’inégalité. Une contrainte d’égalité se présente formellement
comme une équation cartésienne du type h(x) = 0 où h est une fonction de Rn dans R et une
contrainte d’inégalité, comme une inéquation du type g(x) ≤ 0 où g est une fonction de Rn dans
R.
Définition 4.3.5 - Un programme mathématique sans contraintes est du type optx∈C f (x) où C
est un sous-ensemble ouvert de Df (Df étant le domaine de définition de f ).
- Un programme mathématique avec contraintes est de la forme optx∈C f (x) où C est défini
par :
gi (x) ≤ 0, i = 1, · · · , m
C = x ∈ R : hj (x) = 0, j = 1, · · · , p
n
x ∈ Ω.
avec Ω est un sous-ensemble ouvert de Rn et les fonctions f , les gi et hj définies sur Rn .
40
Chapitre 5
Ce chapitre est familier pour tous ceux qui ont appris à étudier une fonction d’une variable
réelle en suivant une méthode ”mécanique” et qui savent détecter les points singuliers que sont
les maxima et les minima locaux à coup d’annulation de dérivée première et d’examen du signe
de la dérivée seconde. Tant mieux car ce bagage constitue sans aucun doute le coeur de la théorie
de l’optimisation ou, la base sur laquelle viendront s’appuyer les développements ultérieurs quand
la fonction-objectif sera définie sur Rn .
Preuve :
Démontrons ce résultat dans le cas d’un maximum local en x∗ .
On a par définition : f (x) ≤ f (x∗ ) dans un voisinage V (x∗) de x∗ .
Donc pour tout x ∈ V (x∗ ), on a f (x) − f (x∗ ) ≤ 0.
Si x > x∗ , on a
f (x) − f (x∗ )
≤0
x − x∗
et
Si x < x∗ , on a
f (x) − f (x∗ )
≥ 0.
x − x∗
Ainsi, à gauche de x∗ , le taux d’accroissement de f entre x et x∗ est positif et à droite de x∗ ,
le taux d’accroissement de f entre x∗ et x est négatif.
41
Définition 5.1.1 Si f est dérivable en point x∗ , on dira qu’il est un point critique ou stationnaire
de f s’il vérifie l’équation dite d’Euler : f ′ (x) = 0. On dit aussi point candidat.
Théorème 5.1.2 Soit f définie et dérivable sur l’intervalle ouvert E. Si f admet un extremum
local en x∗ ∈ E alors x∗ est un point stationnaire de f .
Preuve :
Démontrons ce résultat dans le cas d’un minimum local en x∗ .
On a par définition : f (x) ≥ f (x∗ ) dans un voisinage V de x∗ .
Pour x ∈ V ∩ E tel que x > x∗ , alors on a :
f (x) − f (x∗ )
≥ 0. (1)
x − x∗
Pour x ∈ V ∩ E tel que x < x∗ , alors on a :
f (x) − f (x∗ )
≤ 0. (2)
x − x∗
Et comme f est dérivable en x∗ , on a :
f (x) − f (x∗ ) f (x) − f (x∗ ) f (x) − f (x∗ )
f ′ (x∗ ) = lim = lim = lim .
x → x∗ x − x∗ x → x∗ x − x∗ x→x∗ x − x∗
x > x∗ x < x∗
soit f ′ (x∗ ) ≥ 0.
De même pour (2) on obtient :
f (x) − f (x∗ )
lim ≤ 0,
x → x∗ x − x∗
x < x∗
soit f ′ (x∗ ) ≤ 0.
Finalement, on obtient f ′ (x∗ ) = 0.
Pour le cas d’un maximum local, la démonstration est analogue.
Théorème 5.1.3 Soit f définie et deux fois continûment dérivable sur l’intervalle ouvert E.
- Si f admet un maximum local en x∗ ∈ E, alors x∗ est un point stationnaire de f et on a
f ′′ (x∗ ) ≤ 0.
Si f admet un minimum local en x∗ ∈ E, alors x∗ est un point stationnaire de f et on a
f ′′ (x∗ ) ≥ 0.
42
Preuve :
Démontrons ce résultat dans le cas d’un maximum local en x∗ . D’après la condition d’optimalité
du premier ordre, on f ′ (x∗ ) = 0.
Par définition, comme x∗ est un point de maximum local, alors il existe un voisinage V (x∗ ) de
∗
x tel que :
f (x) ≤ f (x∗ ) ∀ x ∈ V (x∗ ) ∩ E.
Comme f est deux fois continûment dérivable sur l’intervalle ouvert E, elle admet un développement
de Taylor d’ordre 2 sur V (x∗ ) de x∗ qui s’écrit : ∀ x ∈ V (x∗ ) ∩ E, il existe c compris entre x et x∗
tel que :
1
f (x) = f (x∗ ) + f ′ (x∗ )(x − x∗ ) + (x − x∗ )2 f ′′ (c).
2
′ ∗
Mais comme f (x ) = 0, cette relation devient :
1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c).
2
Posons x = x∗ + h, on obtient donc :
1
f (x∗ + h) = f (x∗ ) + h2 f ′′ (c).
2
En posant c = x∗ + θh (avec θ qui dépend de x et x∗ et vérifie 0 < θ < 1) on a :
1
f (x∗ + h) = f (x∗ ) + h2 f ′′ (x∗ + θh).
2
L’inégalité f (x) ≤ f (x∗ ) équivaut alors à :
1 2 ′′ ∗
h f (x + θh) ≤ 0 ∀ h tel que x∗ + θh ∈ V (x∗ ) ∩ E.
2
Soit encore f ′′ (x∗ + θh) ≤ 0.
Par passage à la limite dans l’inégalité précédente, on a limh→0 f ′′ (x∗ + θh) ≤ 0 et puisque f ′′
est continue en x∗ , on en déduit que :
D’où le théorème.
Preuve : Démontrons ce résultat dans le cas d’un maximum. On a donc les hypothèses : f ′ (x∗ ) = 0
et f ′′ (x∗ ) < 0.
On veut montrer qu’il existe un voisinage V (x∗ ) de x∗ dans lequel in a : f (x) < f (x∗ ) pour
tout x ∈ V (x∗ ), x ̸= x∗ .
43
Comme f est deux fois continûment dérivable sur l’intervalle ouvert E, elle admet un développement
de Taylor d’ordre 2 en tout point de E.
En x∗ et en tenant compte du fait que f ′ (x∗ ) = 0, on a :
1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c)
2
avec c compris entre x et x∗ .
Puisuqe f ′′ est continue sur E, pour tout ε > 0, il existe un réel α > 0 tel que pour tout x ̸= x∗ ,
vérifiant |x − x∗ | < α, alors |f ′′ (x) − f ′′ (x∗ )| < ε, soit encore f ′′ (x∗ ) − ε < f ′′ (x) < f ′′ (x∗ ) + ε.
Choisissons ε > 0 tel que ε < −f ′′ (x∗ ) ( cela est posible car on a f ′′ (x∗ ) > 0) ; il existe donc
α > 0 tel que :
|x − x∗ | < α ⇒ f ′′ (x∗ ) − ε < f ′′ (x) < f ′′ (x∗ ) + ε
donc f ′′ (x) < 0.
Puisque c est compris entre x et x∗ , on a : |c − x∗ | ≤ |x − x∗ | < α < α, ce qui entraı̂ne f ′′ (c) < 0
et par suite si |x − x∗ | < α et si x ̸= x∗ on a : 12 (x − x∗ )2 f ′′ (c) < 0 donc
1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c) < f ′′ (x∗ ).
2
On a ainsi montré que pour tout ε > 0 tel que 0 < ε < −f ′′ (x∗ ), on peut trouver un réel α > 0
tel que :
∀ x ∈]x∗ − α, x∗ + α[ et x ̸= x∗ , f (x) < f (x∗ ).
Ce qui signifie que dans un voisinage de demi-longueur α, centré sur x∗ , la fonction atteint en x∗
un maximum strict.
Remarque 5.1.1 Ce théorème suggère une stratégie de recherche des optima. Dans la résolution
pratique des problèmes d’optimisation, la première étape consiste à rechercher les points candidats.
La seconde étape est de calculer la valeur de la dérivée seconde en chaque point candidat, ce qui
permet de conclure sur leur nature.
Remarque 5.1.2 On note que les inégalités caractérisant le signe de la dérivée seconde au point
candidat sont strictes alors qu’elles étaient larges dans la condition nécessaire du second ordre.
Ainsi la condition nécessaire et la condition suffisante ne font pas une condition nécessaire et
suffisante. moralité : quand on a un point candidat x avec f ′′ (x) = 0, il ne faut rien conclure sans
un examen complémentaire
Exemple 5.1.1
44
5.1.3 Une condition nécessaire et suffisante d’optimalité locale
Cette condition convient aux fonctions définies et indéfiniment continûment dérivable sur un
intervallle ouvert E. Elle doit être utilisée quand la dérivée seconde est nulle en un point candidat.
Théorème 5.1.5 Soit f de classe C ∞ sur l’ouvert E et soit x∗ ∈ E tel que f ′′ (x∗ ) = 0.
f admet un maximum local en x∗ si et seulement si la première dérivée non nulle au point x∗
est d’ordre pair et négative.
f admet un minimum local en x∗ si et seulement si la première dérivée non nulle au point x∗
est d’ordre pair et positive.
Remarque 5.1.3 En pratique, ce théorème s’applique quand la dérivée seconde en un point can-
didat est nulle. Il faut dériver la fonction jusqu’à ce qu’une dérivée non nulle au point candidat
soit détectée. Si l’ordre de celle-ci est paire, on est en présence d’un optimum : maximum si elle
est négative, minimum si elle est positive. Et si son ordre est impair, on est en présence d’un point
d’inflexion.
Exemple 5.1.2
La fonction f définie par f (x) = x3 admet un point d’inflexion en x∗ = 0 car f ′ (0) = f ′′ (0) = 0 et
f ′′′ (0) = 6. La première dérivée non nulle au point candidat est d’ordre impair.
La fonction f définie par f (x) = x4 présente un minimum en x∗ = 0 car f ′ (0) = f ′′ (0) = 0 =
f ′′′ (0) = 0 et f (4) (0) = 24. La première dérivée non nulle au point candidat est d’ordre pair et est
strictement positive.
Théorème 5.2.1 (Théorème de Weierstrass) Si f est continue sur E un intervalle non vide
fermé et borné [a, b] ⊂ R, alors f admet au moins un minimum global et un maximum global sur
I.
D’après le théorème de Weierstrass, une fonction continue sur un intervalle compact E = [a, b]
a la propriété d’atteindre son maximum et son minimum en un point au moins. Dès lors :
- soit ce point est intérieur et les théorèmes de la section précédente permettent de le détecter ;
- soit ce point est une borne, et on dispose des théorèmes suivants, valables si la fonction est
dérivable à droite en a et dérivable à gauche en b.
Pour la borne inférieure a, on a une condition nécessaire et une condition suffisante.
45
Pour la borne supérieure b aussi, on a une condition nécessaire et une condition suffisante.
Exemple 5.2.1
46
vii) Si f ′′ (x) ne conserve pas un signe constant sur E, la fonction f n’est ni convexe ni
concave sur E. On doit calculer f ′′ (x∗ )
• si f ′′ (x∗ ) > 0, alors f admet un minimum local strict au point candidat
• si f ′′ (x∗ ) < 0, alors f admet un maximum local strict au point candidat
• si f ′′ (x∗ ) = 0, et si f est de classe C ∞ sur E, on recherche la première dérivée non
nulle en x∗ soit f (k) (x∗ ) cette première dérivée. deux cas se présentent :
Cas 1 : k est pair alors :
si f (k) (x∗ ) > 0, f présente un minimum local en x∗ ;
si f (k) (x∗ ) < 0, f présente un maximum local en x∗ ;
Cas 2 : k est impair : alors f présente un point d’inflexion en x∗ .
2) E est un compact de R : E = [a, b] avec a < b.
Il faut distinguer les points intérieurs de E et les bornes.
a) Pour les points intérieurs, l’étude est menée sur ]a, b[ comme il a été indiqué dans 1).
b) Pour la borne a, on calcule fd′ (a) et :
i) si fd′ (a) > 0, alors f admet un minimum local en a
ii) si fd′ (a) < 0, alors f admet un maximum local en a
iii) si fd′ (a) = 0, alors on est en présence d’un cas douteux
c) Pour la borne b, on calcule fg′ (b) et :
i) si fg′ (b) > 0, alors f admet un minimum local en b
ii) si fg′ (b) < 0, alors f admet un maximum local en b
iii) si fg′ (b) = 0, alors on est en présence d’un cas douteux
47
Chapitre 6
α = inf f (x) (P )
x∈Ω
où f est une fonction définie sur Ω un sous-ensemble ouvert non vide de Rn et à valeurs dans R.
Un problème d’optimisation étant donné, deux questions se posent : existe-t-il des solutions ?
Et comment détecter les solutions éventuelles ? La théorie de l’optimisation affronte donc deux
problèmes classiques en mathématiques : celui de l’existence et celui de des méthodes de recherche.
Nous allons considérer et cela sans perdre de généralités que Ω = Rn .
Définition 6.1.1 La fonction f est dite coercive (on dit aussi que f est infinie à l’infini) si on
a : f (x) −→ +∞ quand ∥x∥ −→ +∞.
Exemple 6.1.1
Preuve : Immédiate
48
Théorème 6.1.1 Si f : Rn → R est continue et coercive (infinie à l’infini), alors il existe un
point qui réalise le minimum de f sur Rn . Autrement dit, il existe x ∈ Rn tel que
f (x) ≤ f (y) ∀y ∈ Rn .
Preuve :
Soit α = inf x∈Rn f (x) < +∞. Soit (xk )k∈N une suite minimisante c’est-à-dire telle que :
Montrons que la suite (xk )k∈N est bornée. Par l’absurde, on suppose qu’elle ne l’est pas c’est-
à-dire qu’il existe une sous suite notée (xφ(k) )k de (xk )k∈N telle que : limk→+∞ ∥xφ(k) ∥ = +∞. Par
coercivité de f , on a alors : limk→+∞ f (xφ(k) ) = +∞, ce qui contredit (6.1).
La suite (xk )k∈N est donc bornée : il existe alors une suite extraite notée (xψ(k) )k de (xk )k∈N
qui converge vers x ∈ Rn . En utilisant maintenant la continuité de f , on a alors :
Théorème 6.1.3 (Condition suffisante d’unicité) Si f est strictement convexe, alors le problème
(P ) a au plus une solution optimale globale.
Ce théorème n’est pas une condition d’existence de minimum pour la fonction f . Par exemple
la fonction f (x) = ex est strictement convexe mais n’atteint pas son minimum sur R.
Remarque 6.1.1 Il faut noter que l’hypothèse de continuité dans le théorème ci-dessus n’est pas
nécessaire, car toute fonction convexe sur Rn et à valeurs dans R est continue.
Définition 6.1.2 On appelle fonction elliptique une fonction f ∈ C 1 (Rn , R) fortement convexe.
Théorème 6.1.5 (Condition suffisante d’existence et d’unicité) Si f est une fonction el-
liptique alors le problème (P ) admet une et une seule solution optimale globale.
49
6.2 Conditions d’optimalité
6.2.1 Conditions d’optimalité du premier ordre
Les conditions que nous donnons ici concernent le cas où la fonction-objectif f est différentiable.
On définit :
Définition 6.2.1 Si f : Rn → R une fonction différentiable. On dit que x∗ est un point station-
naire ou critique de f si ∇f (x∗ ) = 0.
On a le théorème :
Remarque 6.2.1 1) Ce théorème n’a pas de sens si la fonction f n’est pas différentiable en x∗ .
2) Cette condition nécessaire du premier ordre permet de sélectionner un certain nombre de
candidats à être des minima locaux ou globaux. La réciproque est fausse. Un point critique n’est pas
nécessairement un minimum local (global). Ce peut être un minimum local ou global, un maximum
local ou global ou ni l’un ni l’autre. C’est dire que ce résultat n’est en général pas une condition
suffisante.
Dans le cas convexe, la condition nécessaire du premier ordre ci-dessus est suffisante.
Corollaire 6.2.1 Si f est une fonction quadratique avec f (x) = 21 ⟨Ax, x⟩ − ⟨b, x⟩ où A est une
matrice carrée d’ordre n à coefficients réels, symmetrique et définie positive, alors il existe un
minimum unique x̄ ∈ Rn de f et qui est l’unique solution du système Ax = b.
50
6.2.2 Conditions d’optimalité du second ordre
Théorème 6.2.3 (Condition nécessaire d’optimalité du second ordre) Si f : Rn → R est
une fonction deux fois différentiable sur Rn , une condition nécessaire pour que x∗ soit un minimum
local (global) de f sur Rn est que : ∇f (x∗ ) = 0 et ∇2 f (x∗ ) est semi défini positif.
Preuve : Soit x∗ un minimum local de f sur Rn . On sait que la condition 1) est satisfaite. Il reste
à montrer la condition 2). Par définition du minimum local, il existe un voisinage V de x∗ dans
Rn tel que f (x) ≥ f (x∗ ) pour tout x ∈ V .
Soit h ∈ Rn . En utilisant le développement de Taylor au voisinage de x∗ , à l’ordre deux et la
condition 1), on a : pour t suffisamment petit,
t2 2
f (x∗ + th) = f (x∗ ) + ⟨∇ f (x∗ )h, h⟩ + t2 ∥h∥2 ε(th),
2
avec ε continue et limt→0 ε(th) = 0.
Pour t ̸= 0 suffisamment petit de sorte que x∗ + th ∈ V , on a :
51
Elle est semi-définie positive (respectivement semi-définie négative) si, et seulement si, ses
valeurs propres sont positives ou nulles (respectivement négatives ou nulles).
Donc si on trouve une valeur propre nulle on ne peut pas conclure quant à l’optimalité du
point étudié.
Dans le cas d’une fonction de deux variables, le signe des valeurs propres peut être déterminé
en calculant le déterminant et la trace de la matrice. Le déterminant étant égal au produit des
deux valeurs propres et la trace égale à la somme des deux valeurs propres, si le déterminant
est strictement positif les deux valeurs propres sont du même signe et dans ce cas, si la trace est
strictement positive, les deux valeurs propres sont strictement positives et si la trace est strictement
négative, les deux valeurs propres sont strictement négatives. Si le déterminant est nul alors l’une
des valeurs propres est nulle. Par contre si le déterminant est strictement négatif les deux valeurs
propres sont de signes contraires. Attention : ceci n’est valable que pour des matrices symétriques
d’ordre 2. Pour des fonctions de plus de deux variables il faut calculer les valeurs propres de
la matrices hessienne au point candidat pour trouver leur signe ou bien utiliser le critère des
déterminants des sous-matrices.
Corollaire 6.2.3 (cas de dimension deux) Si x est un point critique de f ∈ C 2 (R2 , on définit
les coefficients r, s, t par :
∂ 2f ∂ 2f ∂ 2f ∂ 2f
r= (x), s= (x) = (x), t= (x).
∂x2 ∂x∂y ∂y∂x ∂y 2
Alors
• Si rt − s2 > 0 et r > 0, f admet un minimum local en x.
• Si rt − s2 > 0 et r < 0, f admet un maximum local en x.
• Si rt − s2 < 0, f n’admet pas d’extremum en x, c’est un point selle.
• Si rt − s2 = 0, on ne peut pas conclure.
52
On suppose de plus Ω convexe
• f convexe
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un minimum global en a
• f strcictement convexe
Condition nécessaire et suffisante ∇f (a) = 0 ⇐⇒ f admet un minimum global strict en
a
• f concave
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un maximum global en a
• f strcictement concave
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un maximum global strict
en a
Point méthode
Soit f de classe C 2 sur un ouvert Ω de Rn . Pour étudier les extrema de f sur Ω, on procède de
la façon suivante :
On cherche les candidats en résolvant ∇f (x) = 0. Soit a ∈ Ω un candidat :
- On calcule ∇2 f (x).
Si ∇2 f (x) n’est pas de même nature sur Ω alors on étudie la nature de ∇2 f (a) :
- si ∇2 f (a) est définie positive, alors f admet un minimum local strict en a ;
- si ∇2 f (a) est définie négative, alors f admet un maximum local strict en a ;
- si ∇2 f (a) est semi-définie positive ou semi-définie négative, alors on ne peut pas conclure ;
- si ∇2 f (a) est indéfinie alors f n’admet pas d’extremum en a.
Si ∇2 f (x) est de même nature sur Ω et Ω convexe :
- si ∇2 f (x) est semi-définie positive ∀x ∈ Ω, alors f est convexe sur Ω d’où f admet un
minimum global en a ;
- si ∇2 f (x) est définie positive ∀x ∈ Ω, alors f est strictement convexe sur Ω d’où f admet un
minimum global strict en a ;
- si ∇2 f (x) est semi-définie négative ∀x ∈ Ω, alors f est concave sur Ω d’où f admet un
maximum global en a ;
- si ∇2 f (x) est définie négative ∀x ∈ Ω, alors f est strictement concave sur Ω d’où f admet
un maximum global strict en a.
53
Chapitre 7
Définition 7.1.1 On appelle suite minimisante de f sur C toute suite {xk } de C telle
Théorème 7.1.1 (Théorème de Weierstrass) Si f est continue et C est compact non vide,
alors le problème (P ) admet au moins une solution optimale.
Pour le cas où C est non borné, on considère d’abord les définitions suivantes.
Théorème 7.1.2 Si f est continue, coercive, C est non vide, fermé alors le problème (P ) admet
au moins une solution optimale.
Preuve :
Soit {xk } une suite minimisante de f sur C.
La suite {xk } est bornée. En effet si ça n’était pas le cas, il existerait une sous suite {xkl } de
{xk } telle que ∥xkl ∥ −→ +∞. Comme f est coercive, cela impliquerait que α = liml f (xkl ) = +∞.
Ce qui est impossible car f est finie en au moins un point de C car non vide.
La suite {xk } étant bornée, il existe une sous suite {xkl } de {xk } qui converge vers un point x̄
de C car C est fermé.
Comme f est continue, alors on a
α = lim f (xkl ) = f (lim xkl ) = f (x̄).
l l
Donc α = f (x̄) ∈ R.
On a le résultat sur l’unicité de la solution optimale.
54
Théorème 7.1.3 Si C est convexe et f strictement convexe sur C alors (P ) admet au plus une
solution optimale.
La démonstration est immédiate.
Définition 7.2.2 On appelle lagrangien associé au problème (P ) avec containtes d’égalité, c’est-
à-dire
min [f (x) : hj (x) = 0, j = 1, · · · , q]
la fonction
L : Rn × Rq −→ R
∑
(x, µ) 7−→ f (x) + qj=1 µj hj (x).
Les conditions nécessaires du premier ordre s’écrivent alors avec la fonction de Lagrange de la
façon suivante.
55
Y a-t-il des situations où la condition nécessaire du théorème (7.2.1) ci-dessus est suffisante
pour que x∗ minimise f sur C ? Oui.
Théorème 7.2.2 (CNS d’optimalité du premier ordre) Supposons f convexe sur un ouvert
contenant C et les hj affines (i.e. de la forme x 7−→ hj (x) = ⟨aj , x⟩−bj ) linéairement indépendantes.
Alors, un élément x∗ ∈ C pour lequel
∑
q
∗ ∗
∃µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0
j=1
Définition 7.2.3 Soit x̄ ∈ C. On dit que la contrainte d’inégalité gi (x) ≤ 0 est active en x̄, si on
a gi (x̄) = 0.
Pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0} l’ensemble des indices des contraintes
actives en x.
Définition 7.2.4 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi sont affines et
C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i, c’est-à-dire
que C est d’intérieur non vide.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi sont
toutes différentiables dans un voisinage de x et le système formé des gradients des contraintes
actives en x est libre.
On a les conditions d’optimalité :
Dans le cas où le problème (P ) est convexe, la condition nécessaire d’optimalité de Kuhn-Tucker
est aussi suffisante.
56
7.2.3 Problème avec contraintes d’égalité et d’inégalité
On s’intéresse ici au
{ }
g (x) ≤ 0, i = 1, · · · , p,
C= x∈R : i
n
hj (x) = 0, j = 1, · · · , q
où les fonctions gi , i = 1, · · · , p et hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans R.
Comme dans le cas précédent, pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0}
l’ensemble des indices des contraintes actives en x.
On définit ici aussi les conditions de qualification.
Définition 7.2.5 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi et hj sont affines
et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, les fonctions hj sont affines linéairement indépendantes,
et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi et hj
sont toutes différentiables dans un voisinage de x et le système formé des gradients de toutes les
contraintes actives en x est libre c’est-àdire : {∇gi (x̄), i ∈ I(x̄), ∇hj (x̄) j = 1, · · · , q} est libre.
Théorème 7.2.4 Soit x∗ ∈ C. On suppose que les fonctions f , gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :
∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q
tels que
∑p ∑q
∇f (x ∗
) + λ∗
∇g (x ∗
) + ∗ ∗
j=1 µj ∇hj (x ) = 0,
i=1 i i
∗
λi gi (x∗ ) = 0, i = 1, · · · , p.
Dans le cas convexe la condition nécessaire devient aussi suffisante.
57
Comme dans les cas précédents, on définit la fonction de Lagrange.
la fonction
L : Rn × Rp+ × Rq −→ R
∑ ∑
(x, λ, µ) 7−→ f (x) + pi=1 λi gi (x) + qj=1 µj hj (x).
On montre alors
Proposition 7.2.2 Soit x∗ ∈ C, on suppose que les fonctions f , les gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour qu’il soit une solution optimale locale de (P ) est :
∗ ∗
∃ λ ∈ R+ , µj ∈ R, j = 1, · · · , q tel que :
p
∇x L(x∗ , λ∗ , µ∗ ) = 0
λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i
58
Chapitre 6
α = inf f (x) (P )
x∈C
Définition 6.1.1 On appelle suite minimisante de f sur C toute suite {xk } de C telle
Pour le cas où C est non borné, on considère d’abord les définitions suivantes.
∥x∥ → +∞ .
x∈C
Théorème 6.1.2 Si f est continue, coercive, C est non vide, fermé alors le problème
(P ) admet au moins une solution optimale.
Preuve :
Soit {xk } une suite minimisante de f sur C.
La suite {xk } est bornée. En effet si ça n’était pas le cas, il existerait une sous suite
{x } de {xk } telle que ∥xkl ∥ −→ +∞. Comme f est coercive, cela impliquerait que
kl
47
48 CHAPITRE 6. OPTIMISATION AVEC CONTRAINTES
α = liml f (xkl ) = +∞. Ce qui est impossible car f est finie en au moins un point de C
car non vide.
La suite {xk } étant bornée, il existe une sous suite {xkl } de {xk } qui converge vers un
point x̄ de C car C est fermé.
Comme f est continue, alors on a
Donc α = f (x̄) ∈ R.
Dans le cas où la fonction f est convexe, on a les propriétés suivantes.
Proposition 6.1.2 Si C est convexe compact non vide et f continue et concave sur C,
alors l’ensemble des solutions optimales de (P ) est non vide et contient des points extrêmes
de C.
Proposition 6.1.3 Si C est un polyèdre convexe non vide et f concave et continue sur
C et si α > −∞ alors l’ensemble des solutions optimales de (P ) est non vide et contient
au moins un sommet de C.
C = {x ∈ Rn : hj (x) = 0, j = 1, · · · , q}
∑
q
∗ ∗
∃!µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0.
j=1
Les conditions nécessaires du premier ordre s’écrivent alors avec la fonction de La-
grange de la façon suivante.
Y a-t-il des situations où la condition nécessaire du théorème (6.2.1) ci-dessus est
suffisante pour que x∗ minimise f sur C ? Oui.
50 CHAPITRE 6. OPTIMISATION AVEC CONTRAINTES
Le théorème qui suit donne des conditions suffisantes d’optimalité du second ordre.
C = {x ∈ Rn : gi (x) ≤ 0, i = 1, · · · , p}
Définition 6.3.1 Soit x̄ ∈ C. On dit que la contrainte d’inégalité gi (x) ≤ 0 est active en
x̄, si on a gi (x̄) = 0.
Définition 6.3.2 On dira que les contraintes sont qualifiées en un point x de C, si l’une
des conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi sont
affines et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont
convexes et différentiables sur un ouvert contenant C, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour
tout i, c’est-à-dire que C est d’intérieur non vide.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi
sont toutes différentiables dans un voisinage de x et le système formé des gradients des
contraintes actives en x est libre.
On a les conditions d’optimalité :
Définition 6.4.1 On dira que les contraintes sont qualifiées en un point x de C, si l’une
des conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi et hj
sont affines et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont
convexes et différentiables sur un ouvert contenant C, les fonctions hj sont affines linéairement
indépendantes, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi
et hj sont toutes différentiables dans un voisinage de x et le système formé des gradients
de toutes les contraintes actives en x est libre c’est-àdire : {∇gi (x̄), i ∈ I(x̄), ∇hj (x̄) j =
1, · · · , q} est libre.
Théorème 6.4.1 Soit x∗ ∈ C. On suppose que les fonctions f , gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors
une condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :
∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q
tels que
∑ ∑
∇f (x∗ ) + pi=1 λ∗i ∇gi (x∗ ) + qj=1 µ∗j ∇hj (x∗ ) = 0,
∗
λi gi (x∗ ) = 0, i = 1, · · · , p.
∇x L(x∗ , λ∗ , µ∗ ) = 0
λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i
5
6 CHAPITRE 1. CALCUL DES VARIATIONS
On sait que :
∆x(t) = ẋ(t)∆(t) + o(∆t).
Ainsi, durant la période [t, t + ∆t], la dépense totale de l’entreprise est égale à :
∆x(t)
c1 ∆x(t) + c2 x(t)∆t = [c1 ẋ(t)2 + c2 x(t)]∆t + o(∆t).
∆t
Soit
F (t, x(t), ẋ(t)) = c1 ẋ(t)2 + c2 x(t).
L’objectif de l’entreprise est de déterminer la vitesse de production ẋ(t) (et donc le stock x(t))
pour 0 ≤ t ≤ T de façon à minimiser
Z T
J(x) = F (t, x(t), ẋ(t))dt
0
sachant que
x(0) = 0
x(T ) = B
ẋ(t) ≥ 0 ∀t ∈ [0, T ].
2) Soit déterminer la plus courte distance dans le plan entre deux points (t0 , x0 ) et (t1 , x1 ). On
sait que dans le triangle rectangle le carré de l’hypothénuse est égal à la somme des carrés des
autres côtés
Pour une petite distance dl on aura alors
p p
dl = (dt)2 + (dx)2 = 1 + ẋ(t)2 dt.
Ces trois exemples mettent en évidence l’importance du calcul des variations c’est-à-dire de la
résolution des problèmes pouvant s’énoncer de la façon suivante :
Etant donnés t0 , t1 ∈ R avec t0 < t1 , et F : [t0 , t1 ] × Rn × Rn → R une fonction de classe C 1 ,
déterminer les applications
x : [t0 , t1 ] → Rn
1) minimisant (maximisant) la fonctionnelle
Z t1
f (x) = F (t, x(t), ẋ(t))dt
t0
On le note symboliquement
Z t1 x ∈ C 1 ([t0 , t1 ], Rn ),
(P)
α = inf f (x) = F (t, x(t), ẋ(t))dt : x(t0 ) = x0 , .
t0 x(t1 ) − x1 ∈ C(I, J, K)
Dans ce problème, x est appelée variable d’état, les conditions x(t0 ) = x0 et x(t1 ) − x1 ∈
C(I, J, K) sont dites conditions aux limites.
Si I = J = K = ∅, on dit que la valeur terminale de la variable d’état n’est pas astreinte.
On dira que le critère du problème (P) est à coût terminal si on a
Z t1
f (x) = F (t, x(t), ẋ(t))dt + G(x(t1 ))
t0
Cette règle permet de dériver une intégrale par rapport à un paramètre sous le signe intégral.
Exemple 1.2.1
8 CHAPITRE 1. CALCUL DES VARIATIONS
Si Z r
V (r) = e−rx P (x)dx
r2
alors Z r
dV (r) 2 3
= P (r)e−r − 2P (r 2)re−r − xe−rx P (x)dx.
dr r2
Rt
Proposition 1.2.2 Si g est une fonction donnée continue sur [t0 , t1 ] et vérifie t01 g(t)h′ (t)dt = 0
pour toute fonction h de classe C 1 sur [t0 , t1 ] avec h(t0 ) = h(t1 ) = 0, alors la fonction g est
constante sur [t0 , t1 ].
Preuve :
Soit c la valeur moyenne de g sur [t0 , t1 ] c’est-à-dire :
Z t1
1
c= g(t)dt.
t1 − t0 t0
En particulier pour Z t
h(t) = [g(s) − c]ds,
t0
pour toute fonction h C 1 sur [t0 , t1 ] avec h(t1 ) = h(t0 ) = 0, alors la fonction ϕ est dérivable et
ϕ′ (t) = g(t) ∀t ∈ [t0 , t1 ].
Preuve :
Puisque h est dérivable, on peut intégrer par partie
Z t1 Z t1
g(t)h(t)dt = − G(t)h′ (t)dt
t0 t0
où Z t
G(t) = g(s)ds
t0
Il vient alors
Z t1 Z t1
′
0= [g(t)h(t) + ϕ(t)h (t)]dt = [ϕ(t) − G(t)]h′ (t)dt.
t0 t0
pour toute fonction h continue sur [t0 , t1 ] telle que h(t1 ) = h(t0 ) = 0 alors g(t) = 0 ∀t ∈ [t0 , t1 ].
Preuve :
Supposons qu’il existe t tel que g(t) > 0. Comme g est continue, on a g(t) > 0 sur un intervalle
[a, b] ⊂ [t0 , t1 ].
Soit
(t − a)(b − t) si a ≤ t ≤ b
h̄(t) =
0 sinon
On a Z Z
t1 b
g(t)h̄(t)dt = g(t)(t − a)(b − t)dt > 0.
t0 a
Théorème 1.2.1 Soit F : [t0 , t1 ] × R × R → R une fonction continue en (t, x, ẋ) et de classe C 1
par rapport à la 2ème et 3ème variable.
Une condition nécessaire d’optimalité pour le problème
R t1
min
f (x) = t0
F (t, x(t), ẋ(t))dt
1
x ∈ C ([t0 , t1 ], R) (P)
x(t0 ) = x0
x(t ) = x
1 1
est :
d
Fẋ (t, x(t), ẋ(t)) = Fx (t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ] (Equation d’Euler)
dt
(les solutions de l’équation d’Euler sont dites extrémales du critère).
10 CHAPITRE 1. CALCUL DES VARIATIONS
Preuve :
Supposons que x∗ définie sur [t0 , t1 ] est une solution optimale du problème.
Soit x une solution réalisable. On définit la fonction h telle que h(t) est égale à la déviation
entre la courbe optimale et celle de x(t) à l’instant t : h(t) = x(t) − x∗ (t).
Puisque x∗ et x sont réalisables, on a :
h(t0 ) = x(t0 ) − x∗ (t0 ) = x0 − x0 = 0,
h(t1 ) = x(t1 ) − x∗ (t1 ) = x1 − x1 = 0
Puisque x∗ est une solution optimale alors g atteint son minimum en a = 0. Et comme g est
dérivable, alors on a g ′ (0) = 0.
On a : Rt
g ′ (a) = t01 dF (t, x∗ + ah(t), ẋ∗ (t) + ah′ (t))dt
R t1 da
= t0 [Fx (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))h(t)
+Fẋ (t, ẋ(t) + ah(t), ẋ∗ (t) + ah′ (t))h′ (t)]dt
Ce qui donne
Z t1
′
g (0) = [Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt.
t0
Donc Z t1
′
g (0) = 0 ⇔ [Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt = 0.
t0
Remarque 1.2.1 1) Il est important de noter que l’équation d’Euler est vérifiée pour tout t ∈
[t0 , t1 ].
2) L’équation d’Euler est aussi une condition nécessaire d’optimalité pour un problème de
maximisation.
3) Il faut avoir à l’esprit que Fẋ est une fonction de trois variables (t, x, ẋ) et comme dF
dt
ẋ
est
la dérivée totale par rapport à t. Dans le cas où F et x sont deux fois dérivables, on a :
d
Fẋ (t, x, ẋ) = Fẋt + Fẋx ẋ + Fẋẋ ẍ.
dt
Donc l’équation d’Euler s’écrit :
C’est une équation différentielle du second ordre de x(t) à résoudre avec les conditions aux
limites.
En général les coefficients dans (1.1) (les dérivées partielles de F ) ne sont pas constants et
l’équation différentielle est assez difficile à résoudre.
Exemple 1.2.2
2ẍ(t) = 0 ⇔ ẍ(t) = 0,
soit
ẋ(t) = c1 ⇒ x(t) = c1 t + c2 .
Comme x(0) = 0, alors c2 = 0.
Aussi on a x(T ) = B : alors c1 = B
T
.
B
Donc x(t) = T t pour tout t tel que 0 ≤ t ≤ T.
2) Soit le problème : R1
min
0
[[ẋ(t)]2 + 10tx(t)]dt
x(0) = 1
x(1) = 2
Puisque F (t, x, ẋ) = ẋ2 + 10tx on a
dFẋ
Fx = 10t, Fẋ = 2ẋ et = 2ẍ.
dt
12 CHAPITRE 1. CALCUL DES VARIATIONS
Remarque 1.2.2 (cas spéciaux d’équations d’Euler) 1) Dans le cas où F ne depend que de
t et de ẋ, c’est-à-dire : F (t, x, ẋ) = F (t, ẋ), on a alors Fx = 0. L’équation d’Euler s’écrit alors :
d
Fẋ = 0 ⇒ Fẋ = cte.
dt
2) Si F (t, x, ẋ) = F (x, ẋ), alors
dF
= Fx ẋ + Fẋ ẍ.
dt
En tenant compte de l’équation d’Euler : dF
dt
ẋ
= Fx , on obtient :
dF dFẋ d
= ẋ + Fẋ ẍ = (ẋFẋ )
dt dt dt
oit :
d
(F − ẋFẋ ) = 0.
dt
Ce qui implique que
F − ẋFẋ = cte.
Exemple 1.2.3
Soit le problème R t1
min
t0
[3ẋ − tẋ2 ]dt
x(t0 ) = x0
x(t1 ) = x1
Ici F ne depend pas de x. L’équation d’Euler est donc :
Fẋ = 3 − 2tẋ = c0 (constante)
Ce qui est équivalent à :
3 − c0
tẋ =
= c1 .
2
On obtient donc ẋ = ct1 soit x(t) = c1 ln t + c2 .
Les constantes c1 et c2 sont obtenues en considérant les conditions aux limites, à savoir :
x0 = c1 ln t0 + c2 x1 = c1 ln t1 + c2 .
1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 13
Exemple 1.2.4
Soit à résoudre le problème qui consiste à déterminer parmi toutes les courbes joignant (t0 , x0 )
et (t1 , x1 ), celle qui génère une surface de révolution minimale autour de l’axe de t.
Cela revient à résoudre le problème :
R t1 1
min
t0
2πx[1 + ẋ2 ] 2 dt
x(t0 ) = x0 ,
x(t1 ) = x1 .
Sans perdre de généralités on peut ignorer la constante 2π.
On a
xẋ
Fẋ = 1
(1 + ẋ2 ) 2
l’équation d’Euler est : F − ẋFẋ = cte. Soit :
1 xẋ2 1
x(1 + ẋ2 ) 2 − 1 = c ⇔ x = c(1 + ẋ2 ) 2 .
(1 + ẋ2 ) 2
D’où
x2 − c2
x2 = c2 + c2 ẋ2 ⇔ ẋ2 = .
c2
On a alors r
x2 − c2
ẋ = ± ,
c2
et donc
cdx 1
1 = dt ⇒ c ln(x + (x2 − c2 ) 2 ) = t + k.
(x2 − c2 ) 2
Remarque 1.2.3 Les équations d’Euler simplifiées ci-dessus ne sont pas les voies les plus simples
toujours comme on peut le constater dans l’exemple ci-dessous.
Exemple 1.2.5
Considérons le problème :
R t1
min
t0
(2x2 + 3xẋ − 4ẋ2 )dt
x(t0 ) = x0 on a F = F (x, ẋ)
x(t1 ) = x1
F − ẋFẋ = cte
on aura à résoudre l’équation 2x2 + 4ẋ2 = c qui est une équation différentielle non linéaire.
Mais par contre si on considère l’équation d’Euler directe
on obtient :
4x + 3ẋ = 3ẋ − 8ẍ
⇔ 4x = −8ẍ
⇔ 2ẍ + x = 0
14 CHAPITRE 1. CALCUL DES VARIATIONS
qui est une équation différentielle du second ordre à coefficients constants et qui est plus facile à
résoudre.
Dans le théorème (1.2.1) nous avons considéré des solutions de classe C 1 . Il existe des problèmes
de calcul des variations qui n’ont pas de solution de classe C 1 . C’est pour cela qu’on utilise souvent
le résultat du théorème ci-dessous.
Théorème 1.2.2 Soit F : [t0 , t1 ] × R × R → R une fonction continue en (t, x, ẋ) et de classe C 1
par rapport à la 2ème et 3ème variable.
Une condition nécessaire d’optimalité pour le problème
Rt
min f (x) = t01 F (t, x(t), ẋ(t))dt
1
x ∈ Cpm ([t0 , t1 ], R) (P)
x(t0 ) = x0
x(t ) = x
1 1
est : Z t
∃ c ∈ R : ∀ t ∈ [t0 , t1 ], Fẋ (t, x(t), ẋ(t)) = Fx (s, x(s), ẋ(x))ds + c.
t0
Ce qui s’écrit :
(
d
F (t, x(t), ẋ(t)) = Fx (t, x(t), ẋ(t)) si x est dérivable en t ∈]t0 , t1 [
dt ẋ
lims→t− Fẋ (s, x(s), ẋ(s)) = lims→t+ Fẋ (s, x(s), ẋ(s)) si x n’est pas dérivable en t
Lemme 1.2.1 Soit P et Q des fonctions continues sur un intervalle ouvert J contenant [t0 , t1 ].
Si on a Z t1
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≥ 0
t0
pour toute fonction h continue sur J et de classe C 1 sur [t0 , t1 ] avec h(t0 ) = h(t1 ) = 0 alors
P (t) ≥ 0 ∀t ∈ [t0 , t1 ].
Preuve :
Supposons qu’il existe un élément t̄ de [t0 , t1 ] tel que P (t̄) < 0. Puisque P est continue, il existe
un intervalle [s − c, s + c] inclus dans [t0 , t1 ] tel que
Posons
sin2 π( t−s ) pour s−c≤t≤s+c
h(t) = c
0 ailleurs
Alors ∀t ∈ [s − c, s + c]
2π π π(t − s)
h′ (t) = sin θ cos θ = sin 2θ où θ= .
c c c
Alors h est continue sur [t0 , t1 ] et de classe C 1 sur [t0 , t1 ] avec
h(t0 ) = h(t1 ) = 0.
Donc
R t1
t0
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≥ 0
R s+c R s+c 2
⇔ s−c
Q(t) sin4 dt + s−c
P (t) πc2 sin2 2θdt ≥ 0
or
Z s+c Z 2π
π2 bπ bπ 2 2π(t − s)
P (t) 2 sin2 2θdt ≤ sin2 xdx = (x = 2θ = ).
s−c c 2c −2π c c
Q étant continue sur [s − c, s + c], il existe un nombre réel M tel que
∀t ∈ [s − c, s + c] − M ≤ Q(t) ≤ M.
16 CHAPITRE 1. CALCUL DES VARIATIONS
Alors Z Z
s+c s+c
4
Q(t) sin dt ≤ (M)dt = 2cM.
s−c s−c
Donc Z t1
bπ 2
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≤ + 2cM.
t0 c
bπ 2 bπ 2
Par ailleurs c + 2cM < 0 ⇔ 2M < −c2 .
Donc en choisissant c suffisamment petit nous pouvons obtenir
Z t1
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt < 0
t0
pour toute fonction h de classe C 1 sur [t0 , t1 ] tel que h(t1 ) = h(t0 ) = 0. D’où le résultat.
Montrons à présent la condition nécessaire d’optimalité du second ordre de Legendre.
Supposons que F est continue et de classe C 2 par rapport à x et ẋ et Fxẋ est de classe C 1 par
rapport à t.
Une condition nécessaire d’optimalité pour le problème ci-dessus est
dFẋ
i)Fx (t, x(t), ẋ(t)) = dt (t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ],
ii)F (t, x(t), ẋ(t)) ≥ 0 ∀t ∈ [t , t ].
ẋẋ 0 1
Preuve : Supposons que x∗ est une solution optimale du problème et considérons un élément h
de classe C 1 sur [t0 , t1 ] tel que h(t1 ) = h(t0 ) = 0, et la fonction réelle en a
Z t1
∗
g(a) = f (x (t) + ah(t)) = F (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))dt.
t0
et R t1
g”(0) = [Fxx (t, x∗ (t), ẋ∗ (t))(h(t))2 + 2Fxẋ (t, x∗ (t), ẋ∗ (t))h(t)h′ (t)+
t0 (1.3)
Fẋ2 (t, x∗ (t), ẋ∗ (t))(h′ (t))2 ]dt ≥ 0.
Or Z Z
t1 t1
∗ ∗ ′ d
Fxẋ (t, x (t), ẋ (t))h(t)h (t)dt = − Fxẋ (t, x∗ (t), ẋ∗ (t))(h(t))2 dt.
t0 t0 dt
La condition (1.2) donne l’équation d’Euler.
La condition (1.3) s’écrit encore
Z t1
d 2
g”(0) = [(Fxx (t, x∗ (t), ẋ∗ (t)) − Fxẋ (t, x∗ (t), ẋ∗ (t)))h2 (t) + Fẋ2 h′ (t)]dt ≥ 0.
t0 dt
Posons
d
P (t) = Fẋ2 (t, x∗ (t), ẋ∗ (t)) et Q(t) = Fxx (t, x∗ (t), ẋ∗ (t)) − Fxẋ (t, x∗ (t), ẋ∗ (t)).
dt
Alors d’après le lemme (1.2.1) ci-dessus on doit avoir P (t) ≥ 0 ∀t ∈ [t0 , t1 ], c’est-à-dire :
2) La condition Fẋ2 (t, x∗ (t), ẋ∗ (t)) > 0 ∀t ∈ [t0 , t1 ] n’est pas une condition suffisante d’opti-
malité comme on peut l’observer dans l’exemple ci-dessous.
Exemple 1.2.6
Considérons le problème :
R 2π 2 2
min
f (x) = 0 (−x + ẋ )dt
x(0) = x(2π) = 0.
Donc Z t1
′
g (0) = 0 ⇔ [Fx (t, x(t), ẋ(t))h(t) + Fẋ (t, x(t), ẋ(t))h′ (t)]dt = 0.
t0
Comme
R t1 Rt
Fẋ (t, x(t), ẋ(t))h′ (t)dt = [Fẋ (t, x(t), ẋ(t))h(t)]tt10 − t01 dFẋ
(t, x(t), ẋ(t)) h(t)dt
t0 Rt dt
dFẋ
= Fẋ (t1 , x(t1 ), ẋ(t1 ))h(t1 ) − t01 dt
(t, x(t), ẋ(t)) h(t)dt
est (
Fx (t, x(t), ẋ(t)) = dF dt
ẋ
(t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ]
Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0 (Condition de transversalité)
Exemple 1.3.1
x(t) = c1 t + c2 .
La condition de transversalité donne Fẋ (t1 ) = √ ẋ(t1 ) = 0 c’est-à-dire ẋ(t1 ) = 0 soit alors
1+ẋ(t1 )2
c1 = 0.
Donc x(t) = c2 . Et comme x(t0 ) = x0 , on obtient x(t) = x0 pour tout t vérifiant t0 ≤ t ≤ t1 .
kx − x∗ k = max |h(t)| + max |h′ (t)| + |δt1 | + |x(t1 + δt1 ) − x∗ (t1 )| : t ∈ [t0 , max{t1 , t1 + δt1 }].
t t
Les deux derniers termes représentent les différences des coordonnées des points terminaux des
courbes x∗ (t) et x(t) non étendues. Donc les deux courbes sont proches si en chaque point du
domaine étendu, leurs valeurs sont proches, leurs pentes sont égales et leurs points terminaux sont
proches.
On définit pour δt1 assez petit,
Z t1 +aδt1
g(a) = F (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))dt.
t0
F (t1 , x∗ (t1 ), ẋ∗ (t1 ))δt1 + Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))h(t1 )
Rt (1.6)
+ t01 Fx (t, x∗ (t), ẋ∗ (t)) − dF dt
ẋ
(t, x∗ (t), ẋ∗ (t)) h(t)dt = 0.
δx1 ≃ x(t1 ) + ẋ(t1 )δt1 − x∗ (t1 ) ≃ x(t1 ) + ẋ∗ (t1 )δt1 − x∗ (t1 )
= x(t1 ) − x∗ (t1 ) + ẋ∗ (t1 )δt1
= h(t1 ) + ẋ∗ (t1 )δt1 .
Puisque la courbe de comparaison x peut se terminer au même point que x∗ avec δt1 = 0 et
δx1 = 0, il vient que
Z t1
dFẋ
(Fx (t, x∗ (t), ẋ∗ (t)) − (t, x∗ (t), ẋ∗ (t))h(t)dt = 0
t0 dt
et cela pour toute fonction réalisable vérifiant h(t0 ) = h(t1 ) = 0. On obtient alors : Fx (t, x∗ (t), ẋ∗ (t))−
dFẋ
dt
(t, x∗ (t), ẋ∗ (t)) = 0 : c’est l’équation d’Euler. Par suite (1.7) devient
Fẋ (t1 , x∗ (t1 ), ẋ(t1 ))δx1 + [F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0 (1.8)
1.3. PROBLÈMES AVEC CONDITIONS PARTICULIÈRES 21
est
i) Equation d’Euler Fx (t, x(t), ẋ(t)) − dF dt
ẋ
(t, x(t), ẋ(t)) = 0, ∀t ∈ [t0 , t1 ]
ii) Condition de transversalité
( ( .
F (t 1 , x(t1 ), ẋ(t1 )) − ẋ(t1 )F (t
ẋ 1 , x(t1 ), ẋ(t 1 )) = 0, F (t1 , x(t1 ), ẋ(t1 )) = 0,
⇐⇒
Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0 Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0.
Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))δx1 + [F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.
22 CHAPITRE 1. CALCUL DES VARIATIONS
Or on a
δx1
R′ (t1 ) = ⇔ δx1 = R′ (t1 )δt1 .
δt1
l’équation ci-dessus s’écrit alors
[R′ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 )) + F (t1 , x(t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.
C’est-à-dire
[F (t1 , x∗ (t1 ), ẋ∗ (t1 )) + (R′ (t1 ) − ẋ∗ (t1 ))Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0 (1.11)
F (t1 , x∗ (t1 ), ẋ∗ (t1 )) + (R′ (t1 ) − ẋ∗ (t1 ))Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 )) = 0. (1.12)
est
i) Equation d’Euler
F (t, x(t), ẋ(t)) − dFẋ (t, x(t), ẋ(t)) = 0 pour tout t ∈ [t , t ]
x dt 0 1
ii) Condition de transversalité
F (t1 , x(t1 ), ẋ(t1 )) + (R′ (t1 ) − ẋ(t1 ))Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0.
Remarque 1.3.2 Si la courbe terminale est sous la forme implicite Q(t1 , x1 ) = 0 où Q est une
fonction en (t, x) différentiable, alors on a :
Qt
Qt δt1 + Qx δx1 = 0 ⇔ δx1 = − δt1
Qx
et la condition de transversalité (1.12) devient
Qt (t1 , x(t1 ))
F (t1 , x(t1 ), ẋ(t1 )) − ẋ(t1 ) + Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0. (1.13)
Qx (t1 , x(t1 ))
En plus
R t1
f − f ∗ = F ∗ (t1 )δt1 + [(x(t) − x∗ (t))Fx∗ (t) + (ẋ(t) − ẋ∗ (t))Fẋ∗ (t)]dt
t0 (1.15)
+ termes de degrés supérieurs
avec Fx∗ (t) = Fx (t, x∗ (t), ẋ(t)), Fẋ∗ (t) = Fẋ (t, x∗ (t), ẋ∗ (t)).
Posons h(t) = x(t) − x∗ (t) on a alors
Z t1
∗ ∗
f − f = F (t1 )δt1 + (Fx∗ (t)h(t) + Fẋ∗ (t)h′ (t))dt + . . . (1.16)
t0
Posons Z t1
∗
δJ = F (t1 )δt1 + (Fx∗ (t)h(t) + Fẋ∗ (t)h′ (t))dt (1.17)
t0
On a Z t1
∗ dFẋ∗
δJ = F (t1 )δt1 + Fẋ∗ (t1 )h(t1 ) + (Fẋ∗ (t) − (t))h(t)dt
t0 dt
car h(t0 ) = 0.
Comme h(t1 ) = δx1 − ẋ∗ (t1 )δt1 , alors
Z t1
∗ ∗ dFẋ∗(t)
δJ = (F (t1 ) − ẋ (t1 )Fẋ∗ (t1 ))δt1 + Fẋ∗ (t1 )δx1 + (Fx∗ (t) − )h(t)dt (1.18)
t0 dt
Comme f − f ∗ ≥ 0, on a nécessairement δJ ≥ 0.
En choisissant les courbes de comparaison tel que δt1 = δx1 = 0, on obtient :
Z t1
dF ∗ (t)
(Fx∗ (t) − ẋ )h(t)dt ≥ 0
t0 dt
dFẋ∗(t)
Fx∗ (t) = , ∀t ∈ [t0 , t1 ].
dt
24 CHAPITRE 1. CALCUL DES VARIATIONS
Cette équation reste valable pour les courbes de comparaison terminant en (t1 , x1 ) et donc
δt1 = δx1 = h(t1 ) = 0. Ce qui implique que
dFẋ
Fx (t, x∗ (t), ẋ∗ (t)) − (t, x∗ (t), x˙∗ (t)) = 0 tout le long de x∗ (t), t0 ≤ t ≤ t1 .
dt
On a approximativement
h(t1 ) ≃ δx1 − x∗ (t1 )δt1
En tenant compte de ces équations dans (1.25) on tire
(F (t1 , x∗ (t1 ), x˙∗ (t1 )) − x˙∗ Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gt (t1 , x1 ))δt1
(1.26)
+(Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gx (t1 , x1 ))δx1 = 0.
C’est le résultat fondamental pour déterminer les conditions de transversalité par le problème
considéré ici. On peut à présent tirer les résultats suivants :
i) si t1 est libre dans ce cas δt1 peut avoir n’importe quel signe dans (1.26) donc son coefficient
doit être nul. C’est-à-dire :
F (t1 , x∗ (t1 ), x˙∗ (t1 )) − x˙∗ (t1 )Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gt (t1 , x1 ) = 0 (1.27)
ii) si x1 est libre alors dans ce cas on a δx1 quelconque. Par suite on a :
δx1
R′ (t1 ) = ⇔ δx1 = R′ (t1 )δt1
δt1
et en remplaçant δx1 par sa valeur dans (1.26) on obtient
F (t1 , x∗ (t1 ), x˙∗ (t1 )) + (R′ (t1 ) − x˙∗ (t1 ))Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 ))
(1.29)
+R′ (t1 )Gx (t1 , x1 ) + Gt (t1 , x1 ) = 0.
est
:
1) Equation d’Euler
Fx (t, x(t), ẋ(t)) − dF
dt
ẋ
(t, x(t), ẋ(t)) = 0 ∀t ∈ [t0 , t1 ]
2) Condition de transversalité
La condition de transversalité étant :
- si t1 est libre,
- si x1 est libre,
Fẋ (t1 , x(t1 ), ẋ(t1 )) + Gx (t1 , x1 ) = 0
- si on a la relation R(t1 ) = x1 ,
F (t1 , x(t1 ), ẋ(t1 )) + (R′ (t1 ) − ẋ(t1 ))Fẋ (t1 , x(t1 ), ẋ(t1 ))
+R′ (t1 )Gx (t1 , x1 ) + Gt (t1 , x1 ) = 0.