0% ont trouvé ce document utile (0 vote)
23 vues86 pages

Cours - Optimisation Master 1

Le document traite des fonctions réelles de plusieurs variables, en commençant par les normes et distances dans R2, définissant des concepts tels que le produit scalaire, les normes, et les distances. Il généralise ensuite ces notions à Rn et introduit les fonctions de deux variables, leurs ensembles de définition et graphes. Enfin, il aborde les limites et la continuité des fonctions de plusieurs variables.

Transféré par

2004yalamoussatuo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
23 vues86 pages

Cours - Optimisation Master 1

Le document traite des fonctions réelles de plusieurs variables, en commençant par les normes et distances dans R2, définissant des concepts tels que le produit scalaire, les normes, et les distances. Il généralise ensuite ces notions à Rn et introduit les fonctions de deux variables, leurs ensembles de définition et graphes. Enfin, il aborde les limites et la continuité des fonctions de plusieurs variables.

Transféré par

2004yalamoussatuo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Fonctions réelles de plusieurs variables


réelles

1.1 Normes et distances sur R2


1.1.1 L’ensemble R2
On définit
R2 = R × R = {(x, y) : x ∈ R, et y ∈ R}.
Les éléments de (x, y) R2 s’appellent des couples.
On définit dans R2 l’égalité suivante :

(x1 , x2 ) = (y1 , y2 ) ⇔ [x1 = y1 et x2 = y2 ].

On voit donc que l’ordre intervient dans l’écriture du couple.


On définit une addition dans R2 telle que :

∀(x1 , x2 ) ∈ R2 , ∀(y1 , y2 ) ∈ R2 , (x1 , x2 ) + (y1 , y2 ) = (x1 + y1 , x2 + y2 ).

On définit une multiplication externe dans R2 telle que :

∀(x1 , x2 ) ∈ R2 , ∀λ ∈ R, λ(x1 , x2 ) = (λx1 , λx2 ).

Muni de ces deux opérations l’ensemble R2 a une structure d’espace vectoriel.

1.1.2 Produit scalaire usuel, normes et distances


Définition 1.1.1 Soit x = (x1 , x2 ) ∈ R2 et y = (y1 , y2 ) ∈ R2 . Le produit scalaire usuel de x et de
y est le réel :
⟨x, y⟩ = x1 y1 + x2 y2 .
On a donc ⟨x, x⟩ = x21 + x22 .

Proposition 1.1.1 (Inégalité de Schwarz) Pour tout x = (x1 , x2 ) ∈ R2 et y = (y1 , y2 ) ∈ R2 ,


on a : √ √
|⟨x, y⟩| ≤ x1 + x2 y12 + y22 .
2 2

3
La démonstration est immédiate.

Définition 1.1.2 (Norme) Une norme sur R2 est une application notée ∥ · ∥ de R2 dans R ;

∥ · ∥ : R2 → R
(x1 , x2 ) 7→ ∥(x1 , x2 )∥

qui satisfait les conditions suivantes :

∀(x1 , x2 ) ∈ R2 , ∥(x1 , x2 )∥ ≥ 0 (N1 )


∀(x1 , x2 ) ∈ R2 , ∥(x1 , x2 )∥ = 0 ⇒ (x1 , x2 ) = (0, 0) (N2 )
∀(x1 , x2 ) ∈ R2 , ∀λ ∈ R, ∥λ(x1 , x2 )∥ = |λ|∥(x1 , x2 )∥ (N3 )
∀x = (x1 , x2 ) ∈ R2 , ∀y = (y1 , y2 ) ∈ R2 , ∥x + y∥ ≤ ∥x∥ + ∥y∥ (N4 )
(appelée inégalité triangulaire)

Exemple 1.1.1

∥ · ∥1 : R 2 → R

(x1 , x2 ) 7→ ∥(x1 , x2 )∥1 = |x1 | + |x2 |
∥ · ∥2 : R 2 → R √ √

(x1 , x2 ) 7→ ∥(x1 , x2 )∥2 = x21 + x22 = ⟨x, x⟩
(appelée norme euclidienne car définie à partir du produit scalaire)
∥ · ∥3 : R 2 → R

(x1 , x2 ) 7→ ∥(x1 , x2 )∥3 = max{|x1 |, |x2 |}
On a donc plusieurs façons de mesurer un vecteur qui ne correspondent toutes à la longueur
usuelle. Notons que la norme euclidienne correspond à la longueur usuelle.

Définition 1.1.3 Une distance (ou métrique) sur R2 est une application d : R2 × R2 → R+ telle
que :
i) ∀ x, y ∈ R2 , d(x, y) = 0 ⇔ x = y
ii) ∀ x, y ∈ R2 , d(x, y) = d(y, x)
iii) ∀ x, y, z ∈ R2 , d(x, y) ≤ d(x, y) + d(y, z) (inégalité triangulaire)
Si d est une distance sur R2 alors (R2 , d) est un espace métrique.

Exemple 1.1.2

Soit ∥ · ∥ une norme sur R2 . L’application :

d : R2 × R2 → R+
(x, y) 7→ ∥y − x∥

est une distance. C’est la distance associée à la norme ∥ · ∥. Dans le cas de la norme euclidienne,
on parle de distance euclidienne.

4
Définition 1.1.4 Soient x ∈ R2 , r > 0 et ∥ · ∥ une norme sur R2 .
On appelle boule ouverte de centre x et de rayon r par rapport à la norme ∥ · ∥, l’ensemble

Bo (x, r) = {y ∈ R2 : ∥y − x∥ < r}.

On appelle boule fermée de centre x et de rayon r par rapport à la norme ∥ · ∥, l’ensemble

Bf (x, r) = {y ∈ R2 : ∥y − x∥ ≤ r}.

On appelle sphère de centre x et de rayon r par rapport à la norme ∥ · ∥, l’ensemble

S(x, r) = {y ∈ R2 : ∥y − x∥ = r}.

Définition 1.1.5 On considère R2 muni de la norme ∥·∥. On appelle voisinage d’un point a ∈ R2 ,
toute partie de X contenant une boule ouverte ou une boule fermée de centre a et de rayon r > 0.
On désigne par V(a) l’ensemble des voisinages de a.

Les voisinges d’un point a possèdent les propriétés suivantes :

Proposition 1.1.2 Toute partie qui contient un voisinage de a est encore un voisinage de a ;
Toute intersection d’un nombre fini de voisinages de a est un voisinage de a.

Définition 1.1.6 On considère R2 muni de la norme ∥ · ∥. Soit A ⊂ R2 . On dit que A est borné
s’il est inclus dans une boule fermée de R2 . Autrement dit, il existe r > 0 tel que ∥x∥ ≤ r pour
tout x ∈ A.

Définition 1.1.7 On considère R2 muni de la norme ∥ · ∥, une partie A de R2 est appelée un


ouvert si pour tout a dans A il existe une boule ouverte centrée en a et de rayon ρ contenue dans
A. C’est-à-dire :
∀ a ∈ A, ∃ρ > 0 : Bo (a, ρ) ⊂ A.

Remarque 1.1.1 Dans la définition ci-dessus, on peut remplacer ”boule ouverte” par ”boule
fermée”.

On a les propriétés suivantes

Proposition 1.1.3 a) R2 et ∅ sont des ouverts.


b) Toute intersection d’un nombre fini d’ouverts est un ouvert.
c) Toute réunion d’une famille quelconque d’ouverts est un ouvert.

On en déduit que

Proposition 1.1.4 Pour qu’une partie de X soit ouverte il faut et il suffit qu’elle soit réunion
de boules ouvertes.

Exemple 1.1.3

Dans R2 , les ensembles R2 , R∗+ × R∗+ , ]a, b[×]c, d[ avec a, b, c, d ∈ R sont des ouverts.

5
Définition 1.1.8 Dans R2 muni de la norme ∥ · ∥, une partie A de R2 est dite fermée si son
complémentaire C’est-à-dire l’ensemble {x ∈ R2 : x ∈
/ A} est ouvert.

En transformant par passage aux complémentaires les propriétés a) b) et c) de la proposi-


tion (1.1.3) des ouverts, on en déduit immédiatement des propriétés équivalentes pour les parties
fermées.

Proposition 1.1.5 a) R2 et ∅ sont fermés ;


b) Toute réunion d’un nombre fini de fermés est un fermé ;
c) Toute intersection d’une famille quelconque de fermés est un fermé.

Exemple 1.1.4

Dans R2 , les ensembles R2 , R+ × R+ , [a, b] × [c, d] avec a, b, c, d ∈ R sont fermés.

1.1.3 Généralisation à Rn
Toutes les notions précédentes définies dans R2 se généralisent
 sans
n
 difficulté à R .
x1
 .. 
Un point x ∈ R considéré comme vecteur sera noté x =  .  dont la transposée xT =
n

xn
(x1 , · · · , xn ) est une matrice ligne.

Définition 1.1.9 Le produit scalaire de deux éléments x et y de Rn est le réel :



n
⟨x, y⟩ = xi y i .
i=1

Proposition 1.1.6 (innégalité de Schwarz) Pour x et y dans Rn , on a :


v v
u n u n
∑n
u∑ u∑
|⟨x, y⟩| = xi y i ≤ t x2i t yi2 .
i=1 i=1 i=1

Définition 1.1.10 (Norme) Une norme sur Rn est une application notée ∥ · ∥ de Rn dans R ;

∥ · ∥ : Rn → R
x 7→ ∥x∥

qui satisfait les conditions suivantes :

∀x ∈ Rn , ∥x∥ ≥ 0 (N1 )
∀x ∈ Rn , ∥x∥ = 0 ⇒ (x1 , x2 , · · · , xn ) = (0, 0, · · · , 0) (N2 )
∀x ∈ Rn , ∀λ ∈ R, ∥λx∥ = |λ|∥x∥ (N3 )
∀x ∈ Rn , ∀y ∈ Rn , ∥x + y∥ ≤ ∥x∥ + ∥y∥ (N4 )
(appelée inégalité triangulaire)

6
Exemple de normes

∥ · ∥1 : R n → R

x 7→ ∥x∥1 = |x1 | + |x2 | + · · · + |xn |
∥ · ∥2 : R n → R √ √

x 7→ ∥x∥2 = x21 + x22 + · · · + x2n = ⟨x, x⟩
(appelée norme euclidienne car définie à partir du produit scalaire)
∥ · ∥3 : R n → R

x 7→ ∥x∥3 = max{|x1 |, |x2 |, · · · , |xn |}

Définition 1.1.11 Une distance (ou métrique) sur Rn est une application d : R2 × Rn → R+ telle
que :
i) ∀ x, y ∈ Rn , d(x, y) = 0 ⇔ x = y
ii) ∀ x, y ∈ Rn , d(x, y) = d(y, x)
iii) ∀ x, y, z ∈ Rn , d(x, y) ≤ d(x, y) + d(y, z) (inégalité triangulaire)
Si d est une distance sur Rn alors (Rn , d) est un espace métrique.

Exemple 1.1.5

Soit ∥ · ∥ une norme sur Rn . L’application :

d : Rn × Rn → R+
(x, y) 7→ ∥y − x∥

est une distance. C’est la distance associée à la norme ∥ · ∥. Dans le cas de la norme euclidienne,
on parle de distance euclidienne.
Les notions de boule ouvertes, boules fermées et de voisinage ensemble ouvert, ensemble fermés
se définissent de façon analogue au cas de R2 .

1.2 Fonctions de deux variables réelles et généralisation


aux fonctions de n variables
1.2.1 Définitions, exemples, graphes
Soit
f : R2 → R
(x, y) 7→ f (x, y)

Définition 1.2.1 On appelle ensemble de définition de f l’ensemble des couples (x, y) ∈ R2 qui
ont une image par f . On le note Df . Df est une partie de R2 .

Définition 1.2.2 On appelle graphe de f l’ensemble G tel que

G = {(x, y, f (x, y)) : (x, y) ∈ Df }.

G est une partie de R3 , sa représentation graphique dans R3 est une surface de R3 .


On confond souvent graphe et représentation graphique.

7
Définition 1.2.3 Soit α ∈ R. On appelle courbe de niveau α de la fonction f , l’intersection de la
surface représentat f et du plan z = α. c’est l’ensemble des points (x, y) tels que f (x, y) = α.

Exemple 1.2.1

Soit :
f : R2 → R
(x, y) 7→ f (x, y) = x2 + y 2
Df = R2 . Pour α > 0, la courbe de niveau α est le cercle d’équation x2 + y 2 = α dans le plan
z = α.

1.2.2 Limite, continuité


Définition 1.2.4 Soit a = (a1 , a2 ) ∈ R2 et f une fonction réelle de deux variables réelles définie
sur un voisinage V de a sauf peut-être en a.
On dit que f a pour limite le nombre réel l quand x = (x1 , x2 ) tend vers a = (a1 , a2 ), lorsque :

∀ ε > 0, ∃ηε > 0 tel que ∀ x ∈ V, x ̸= a et ∥x − a∥ < ηε ⇒ |f (x) − l| < ε.

• ce qui se note :
lim f (x) = lou plus simplement lim f (x) = l.
x→a,x̸=a x→a

• ce qui s’écrit aussi de façon équivalente :

∀ ε > 0, ∃ηε > 0 tel que ∀ x ∈ V, x ̸= a et x ∈ Bo (a, ηε ) ⇒ f (x) ∈]l − ε, l + ε[.

• ce qui se comprend : f (x) peut aussi voisin qu’on le veut de l (dans un intervalle ]l − ε, l + ε[)
pourvu que x soit assez voisin de a (dans une boule centrée en a).

Dans R on a vu que la limite existe, si et seulement si la limite çà gauche existe, la limite à
droite existe et les deux sont égales. Dans R2 on peut s’approcher d’un point du plan le long d’une
infinité de chemins.
Les propriétés de la limite d’une fonction de deux variables sont les mêmes que celles de la
limite d’une fonction d’une seule variable.
si de plus f est définie en a et le nombre réel l se trouve être exactement f (a) alors on dit que
f est contninue en a. Ce qui fait l’objet de ce qui suit.

Définition 1.2.5 Soit a = (a1 , a2 ) ∈ R2 et f une fonction réelle de deux variables réelles définie
sur un voisinage V de a.
On dit que f est continue en a lorsque, limx→a f (x) = f (a).
• ce qui s’écrit en utilisant la définition de la limite :

∀ ε > 0, ∃ηε > 0 tel que ∀ x ∈ V, ∥x − a∥ < ηε ⇒ |f (x) − f (a)| < ε.

Définition 1.2.6 On dit que f est continue sur un ouvert D de R2 , lorsque f est continue en
tout point de D.

Si f est continue sur un ouvert, alors f est continue sur tout sous-ensemble de cet ouvert.

8
Proposition 1.2.1 Soit a ∈ R2 et f et g deux fonctions réelles de deux variables réelles définie
sur un voisinage de a.
Si f et g sont continues en a alors :
a) f + g est continue en a.
b) Pour tout λ ∈ R, λf est continue en a.
c) le produit f g de ces deux fonctions est continue en a.
d) f1 est continue en a (pourvu que f ne s’annule pas en a).
Si g ne s’annule pas en a, alors en combinant c) et d) on a fg qui est continue en a.

Proposition 1.2.2 Soit f une fonction réelle de deux variables réelles, continue en a et g une
fonction réelle d’une variable réelle continue en f (a). Alors g ◦ f est continue en a.

Exemple 1.2.2

• Les fonctions projections


pr1 : (x1 , x2 ) 7→ pr1 (x1 , x2 ) = x1
et
pr2 : (x1 , x2 ) 7→ pr2 (x1 , x2 ) = x2
sont continues sur R2 .
• Soit a = (a1 , a2 ) ∈ R2 et f une fonction réelle de deux variables réelles définie sur un voisinage
V de a. Si f est continue en a alors les fonctions d’une seule variable suivantes :

x1 7→ f (x1 , a2 ) et x2 7→ f (a1 , x2 )

sont continues en a1 , respectivement a2 .


La réciproque est fausse.
• La fonction
∥x∥ : x → ∥x∥
est une fonction continue.
• Les fonctions polynômes sont continues sur R2 .
• Les fonctions rationnelles (quotient de fonctions polynômes) sont continues en tout point qui
n’annule pas le dénominateur.
Toutes ces définitions se généralisent sans difficultés à Rn .

1.2.3 Dérivées partielles


Soit a = (a1 , a2 ) ∈ R2 et f une fonction réelle de deux variables réelles définie sur un voisinage
V de a.
On fixe x2 = a2 , et on considère la fonction φ définie par : x1 7→ φ(x1 ) = f (x1 , a2 ), c’est une
fonction d’une seule variable, on sait donc exprimer son nombre dérivé au point a1 ∈ R s’il existe :

φ(x1 ) − φ(a1 ) f (x1 , a2 ) − f (a1 , a2 )


φ′ (a1 ) = lim = lim .
x1 →a1 x 1 − a1 x1 →a1 x 1 − a1

Définition 1.2.7 On appelle dérivée partielle de f par rapport à x1 en a = (a1 , a2 ), la limite


suivante lorsqu’elle existe :
f (x1 , a2 ) − f (a1 , a2 )
lim .
x1 →a1 x 1 − a1

9
On utilise aussi l’écriture équivalente :
f (a1 + h1 , a2 ) − f (a1 , a2 )
lim .
h1 →0 h1
Cette limite est alors notée : fx′ 1 (a) ou ∂x
∂f
1
(a).
On dit aussi ”dérivée partielle de f par rapport à la première variable”.

On reprend le procédé ci-dessus en permuttant le rôle des deux variables : on fixe la première
variable x1 = a1 et on considère la fonction ψ défine par :x2 7→ ψ(x2 ) = f (a1 , x2 ), c’est une
fonction d’une seule variable, on sait donc exprimer son nombre dérivé au point a1 ∈ R s’il existe :
ψ(x2 ) − ψ(a2 ) f (a1 , x2 ) − f (a1 , a2 )
ψ ′ (a2 ) = lim = lim .
x2 →a2 x 2 − a2 x2 →a2 x 2 − a2
Définition 1.2.8 On appelle dérivée partielle de f par rapport à x2 en a = (a1 , a2 ), la limite
suivante lorsqu’elle existe :
f (a1 , x2 ) − f (a1 , a2 )
lim .
x2 →a2 x 2 − a2
Cette limite est alors notée : fx′ 2 (a) ou ∂x
∂f
2
(a).
On dit aussi ”dérivée partielle de f par rapport à la deuxième variable”.

Définition 1.2.9 On dit que la fonction f est dérivable en a = (a1 , a2 ) lorsque les dérivées
partielles de f par rapport à x1 , et x2 , en a,exitent.

Définition 1.2.10 (Gradient) Soit f dérivable en a = (a1 , a2 ). Le gradient de f en a est :


∂f ∂f
∇f (a) = ( (a), (a)) = (fx′ 1 (a), fx′ 2 (a)) ∈ R2 .
∂x1 ∂x2

Définition 1.2.11 Soit f définie sur un ouvert D de R2 . On dit que la fonction f est dérivable
sur D lorsque f est dérivable en tout point de D.

Définition 1.2.12 Lorsque f est dérivable sur D, on définit deux nouvelles fonctions de D dans
R:
∂f
- l’une ∂x 1
: x = (x1 , x2 ) 7→ ∂x∂f
1
(x) appelée fonction dérivée partielle de f par rapport à la
première variable :
∂f
- l’autre ∂x 2
: x = (x1 , x2 ) 7→ ∂x
∂f
2
(x) appelée fonction dérivée partielle de f par rapport à la
deuxième variable.

Proposition 1.2.3 (Opérations sur les fonctions dérivables) Si f et g sont dérivables en


a, alors :
a) f + g est dérivable en a et
∂(f + g) ∂f ∂g
∀ i = 1, 2, (a) = (a) + (a).
∂xi ∂xi ∂xi
b) ∀λ ∈ R, λf est dérivable en a et :
∂(λf ) ∂f
∀ i = 1, 2, (a) = λ (a).
∂xi ∂xi

10
c) f g est dérivable en a et :
∂(f g) ∂f ∂g
∀ i = 1, 2, (a) = g(a) (a) + f (a) (a).
∂xi ∂xi ∂xi
1
d) f
est dérivable en a et :
∂f
∂( f1 ) ∂xi
(a)
∀ i = 1, 2, (a) = − .
∂xi [f (a)]2
pourvu que f (a) ̸= 0.
Si g(a) ̸= 0 alors en combinant c) et d), on obtient que f
g
est dérivable en a et :

∂( fg ) ∂f
g(a) ∂x (a) − f (a) ∂x
∂g
(a)
∀ i = 1, 2, (a) = i i
.
∂xi [g(a)]2

Proposition 1.2.4 Soit f définie et dérivable sur un ouvert D de R2 (dont les dérivées partielles
existent sur D) et g une fonction d’une variable dérivable sur f (D).
Alors g ◦ f est dérivable et :
∂(g◦f )
∂x1
(x1 , x2 ) = g ′ (f (x1 , x2 )) ∂x
∂f
1
(x1 , x2 )
∂(g◦f )
∂x2
(x1 , x2 ) = g ′ (f (x1 , x2 )) ∂x2 (x1 , x2 )
∂f

Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .
Donnons uniquement certaines d’entre elles.
Soit a = (a1 , a2 , · · · , an ) ∈ Rn et f une fonction réelle de n variables réelles définie sur un
voisinage V de a.

Définition 1.2.13 Pour tout i = 1, 2, · · · , n, on appelle dérivée partielle de f par rapport à xi en


a, la limite suivante lorsqu’elle existe :
f (a1 , a2 , · · · , ai−1 , xi , ai+1 , · · · , an ) − f (a1 , a2 , · · · , ai−1 , ai , ai+1 , · · · , an )
lim .
xi →ai x i − ai

Cette limite est alors notée fx′ i (a) ou ∂f


∂xi
(a).

Définition 1.2.14 (Gradient) Soit f dérivable en a = (a1 , a2 · · · , an ). Le gradient de f en a


est :
∂f ∂f ∂f
∇f (a) = ( (a), (a), · · · , (a)) ∈ Rn .
∂x1 ∂x2 ∂xn

1.2.4 Différentielle
Définition 1.2.15 On dit que la fonction f est différentiable en a = (a1 , a2 ) ∈ R2 lorsqu’il existe
des nombres réels β1 , β2 et une fonction ε tels que pour tout h = (h1 , h2 ) avec a + h au voisinage
de a :
f (a + h) = f (a) + β1 h1 + β2 h2 + ∥h∥ε(h)
avec limh→0 ε(h) = 0.

11
Exemple 1.2.3

Les fonctions projections sont différentiables en tout point a de R2 .

Théorème 1.2.1 Si f est différentaible en a ∈ R2 , alors f est continue en a, dérivable en a (les


∂f ∂f
dérivées partielles existent en a) et β1 = ∂x 1
(a), β2 = ∂x 2
(a).

Une condition suffisante de différentiabilité est donnée dans le théorème suivant.

Théorème 1.2.2 Si les dérivées partielles de f existent au voisinage de a et sont continues en a


alors f est différentiable en a.

Définition 1.2.16 On dit que la fonction f est de classe C 1 en a ∈ R2 lorsque les dérivées
∂f ∂f
partielles de f , ∂x 1
(a), ∂x 2
(a) existent au voisinage de a et sont continues en a.

Le théorème (1.2.2) se lit alors : si f est de classe C 1 en a alors f est différentiable en a.

Définition 1.2.17 La différentielle de f en a est l’application linéaire φ de R2 dans R, qui à


h = (h1 , h2 ) ∈ R2 associe φ(h) = ∂x
∂f
1
∂f
(a)h1 + ∂x2
(a)h2 .

C’est donc une fonction qui dépend du point a.


Pour marquer cette dépendance on utilise la notation df (a) ou f ′ (a) pour la différentielle de f
en a au lieu de φ. On a donc :

f ′ (a) : R2 → R
h 7→ f ′ (a)(h) = ∂f
∂x1
(a)h1 + ∂f
∂x2
(a)h2 = ∇f (a)T h = ⟨∇f (a), h⟩
La différentielle de f en a permet d’obtenir des approximations de f (a+h)−f (a), pour h petit.
∂f ∂f
La fonction f étant généralement non-linéaire, approximer f (a+h) par f (a)+ ∂x 1
(a)h1 + ∂x 2
(a)h2 ,
pour h petit, est un procédé de linéarisation locale (autour) de a) de f .

Proposition 1.2.5 [Opérations sur les fonctions différentiables]


Soit f et g deux fonctions différentiable (respectivement de classe C 1 ) en a ∈ R2 alors :
a) f + g est différentiable (resp. de classe C 1 ) en a et :

(f + g)′ (a) = f ′ (a) + g ′ (a)

b) f g est différentiable (resp. de classe C 1 ) en a et :

(f g)′ (a) = g(a)f ′ (a) + f (a)g ′ (a)

c) f
g
est différentiable (resp. de classe C 1 ) en a et :
( )′
f g(a)f ′ (a) − f (a)g ′ (a)
(a) =
g [g(a)]2

pourvu que g(a) ̸= 0.

12
Remarque 1.2.1 Pour montrer qu’une fonction f est différentiable en a on peut appliquer (1.2.15)
ou utiliser les opérations sur les fonctions différentiables.
On peut essayer de voir si f est de classe C 1 ) en a et dans ce cas utiliser la condition suffisante :
f de classe C 1 ) en a =⇒ f différentiable en a.

Définition 1.2.18 Soit f définie sur un ouvert D de R2 . on dit que la fonction f est différentiable
sur D lorsque f est différentiable en tout point de D.
f est de classe C 1 sur D lorsque f est de classe C 1 en tout point de D

La différentiabilité des fonctions projections et la proposition (1.2.5) impliquent que les fonc-
tions polynômes, les fonctions quotients de polynômes (pourvu que le dénominateur ne s’annule
pas) sont différentiables.
Il est clair qu’elles sont mêmes de classe C 1
Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .
Donnons uniquement certaines d’entre elles.
Soit a = (a1 , a2 , · · · , an ) ∈ Rn et f une fonction réelle de n variables réelles définie sur un
voisinage V de a.

Définition 1.2.19 On dit que la fonction f est différentiable en a = (a1 , a2 , · · · , an ) ∈ Rn lorsqu’il


existe des nombres réels β1 , β2 , · · · , βn et une fonction ε tels que pour tout h(h1 , h2 , · · · , hn ) avec
a + h au voisinage de a :

f (a + h) = f (a) + β1 h1 + β2 h2 + · · · + βn hn )∥h∥ε(h)

avec limh→0 ε(h) = 0.

Définition 1.2.20 La différentielle de f en a est l’application linéaire f ′ (a) de Rn dans R telle


que :
f ′ (a) : Rn → R

h 7→ f ′ (a)(h) = ni=1 ∂x
∂f
i
(a)hi = ∇f (a)T h = ⟨∇f (a), h⟩

1.2.5 Dérivées partielles secondes


Définition 1.2.21 La dérivée partielle seconde de f par rapport à x1 , x2 en a = (a1 , a2 ), lors-
∂f
qu’elle existe est la dérivée partielle de ∂x 1
par rapport à x2 en a.
2
On la note ∂x∂1 ∂x f
2
(a) ou fx′′1 x2 (a).
On définit de même les dérivées partielles secondes de f par rapport à x1 , x1 que l’on note
∂2f
∂x2
(a) ou fx′′1 x1 (a) ainsi que celles par rapport à x2 , x1 et à x2 , x2 en a.
1

Définition 1.2.22 La matrice hessienne de f en a = (a1 , a2 ) est la matrice carrée d’ordre 2


suivante :
 ∂2f ∂2f

∂x21
(a) ∂x1 ∂x2
(a)
 
∇2 f (a) = Hess(f, a) =  
∂2f ∂2f
∂x2 ∂x1
(a) ∂x22
(a)

13
∂2f ∂2f
Théorème 1.2.3 (Théorème de Schwarz) Si ∂x1 ∂x2
et ∂x2 ∂x1
sont continues en a = (a1 , a2 ),
∂2f ∂2f
alors ∂x1 ∂x2
(a) = ∂x2 ∂x1
(a).
∂2f ∂2f
Donc si les dérivées partielles secondes ∂x1 ∂x2
et ∂x2 ∂x1
sont continues en a la matrice hessienne
en a est symétrique.

Définition 1.2.23 On dit que f est de classe C 2 en a lorsque les dérivées partielles secondes de
f existent au voisinage de a et sont continues en a.
Donc, lorsque f est de classe C 2 en a la matrice hessienne de f en a est symétrique.

Il est clair que la somme, le produit, le quotient (lorsque le dénominateur ne s’annule pas) de
fonctions de classe C 2 en a sont des fonctions de classe C 2 en a.
On définit de façon analogue pour ∈ N, les fonctions de claase C p en a : ce sont les fonctions
dont les dérivvées partielles d’ordre p existent au voisinage de a et sont continues en a. Une
fonction qui est de classe C p en a pour tout p ∈ N, est dite de classe C ∞ . C’est le cas des fonctions
polynômes par exzmple.
Généralisation à Rn
Toutes ces définitions se généralisent sans difficulté à Rn .

Définition 1.2.24 La dérivée partielle seconde de f par rapport à xi , xj en a = (a1 , a2 , · · · , an ),


∂f
lorsqu’elle existe est la dérivée partielle de ∂x i
par rapport à xj en a.
∂2f
On la note ∂xj ∂xi
(a) ou fx′′i xj (a).

Définition 1.2.25 La matrice hessienne de f en a = (a1 , a2 , · · · , an ) est la matrice carrée d’ordre


n suivante :
 ∂2f ∂2f ∂2f

∂x21
(a) ∂x1 ∂x2
(a) ··· ∂x1 ∂xn
(a)
 
 
 
 ∂2f
(a) ∂2f
(a) ··· ∂2f
(a) 
 ∂x2 ∂x1 ∂x22 ∂x2 ∂xn 
 
 
∇2 f (a) = Hess(f, a) =  
 ··· ··· ··· ··· 
 
 
 
 ∂2f ∂2f ∂2f 
 ∂xn ∂x1
(a) ∂xn ∂x2
(a) ··· ∂x2n
(a) 

Elle est symétrique lorsque f est de classe C 2 en a (théorème de Schwarz).

1.2.6 Formules de Taylor


Nous donnons ces formules à l’ordre 1 et 2 pour une fonction définie sur un ouvert de Rn et à
valeurs dans R.
Pour x et y dans Rn , on note :

[x, y] = {z = (1 − λ)x + λy : λ ∈ [0, 1]}.

Proposition 1.2.6 (Formules de Taylor-Lagrange)


1) Formule de Taylor-Lagrange à l’ordre 1 :

14
Supposons que f : Ω −→ R est différentiable sur un ouvert Ω de Rn , x et y sont tels que [x, y]
est inclus dans Ω. Alors il existe θ ∈]0, 1[ tel que :

f (y) = f (x) + ⟨∇f (x + θ(y − x)), y − x⟩.


2) Formule de Taylor-Lagrange à l’ordre 2 :
Supposons que f : Ω −→ R est 2 fois différentiable sur un ouvert Ω de Rn , x et y sont tels que
[x, y] est inclus dans Ω. Alors il existe θ ∈]0, 1[ tel que :

1
f (y) = f (x) + ⟨∇f (x), y − x⟩ + ⟨∇2 f (x + θ(y − x))(y − x), y − x⟩.
2
Proposition 1.2.7 (Formules de Taylor-Young)
1) Formule de Taylor-Young à l’ordre 1 :
Supposons que f : Ω −→ R est continue sur Ω un ouvert de Rn et différentiable au point x de
Ω. Alors il existe un voisinage V de 0 et une fonction ε; V −→ R avec limu→0 ε(u) = 0 tels que :

f (x + h) = f (x) + ⟨∇f (x), h⟩ + ∥h∥ε(h).

2) Formule de Taylor-Young à l’ordre 2 :


Supposons que f : Ω −→ R est de classe C 1 sur Ω et deux fois différentiable au point x de Ω.
Alors il existe un voisinage V de 0 et une fonction ε; V −→ R avec limu→0 ε(u) = 0 tels que : Pour
m = 1 la formule de Taylor-Young s’écrit :
1
f (x + h) = f (x) + ⟨∇f (x), h⟩ + ⟨∇2 f (x)h, h⟩ + ∥h∥2 ε(h).
2

15
Chapitre 1

Ensembles convexes

Le cadre général de ce cours est un espace vectoriel réel de dimension n. On peut donc
sans perdre de généralités considérer l’espace vectoriel réel Rn .

1.1 Définitions et propriétés premières


La notion de combinaison linéaire convexe est donnée dans la définition suivante.

Définition 1.1.1 On appelle combinaison linéaire convexe de deux points x et y de Rn ,


tout point z = (1 − λ)x + λy avec λ ∈ [0, 1].

De façon générale :

Définition 1.1.2 On appelle combinaison linéaire convexe de k points x1 , · · · , xk de Rn ,


tout élément x ∈ Rn tel que


k ∑
k
x= λi xi avec λi ≥ 0 et λi = 1.
i=1 i=1

On définit les notions suivantes :

Définition 1.1.3 Soit x, y ∈ Rn ; on appelle segment ”fermé” d’extrémités x et y, l’en-


semble noté [x, y] et défini par :

[x, y] = {z ∈ Rn : z = (1 − λ) x + λy : λ ∈ [0, 1]} .

C’est l’ensemble de toutes les combinaisons linéaires convexes des points x et y.

De façon analogue, on définit :

Définition 1.1.4 On appelle segment ”ouvert” d’extrémités x et y, et on le note ]x, y[,


l’ensemble
]x, y[ = {z ∈ Rn : z = (1 − λ) x + λy : λ ∈ ]0, 1[} .

5
6 CHAPITRE 1. ENSEMBLES CONVEXES

On définit aussi ]x, y] et [x, y[ qui sont appelés segment semi ouvert en x respectivement
en y.

]x, y] = {z ∈ Rn : z = (1 − λ) x + λy λ ∈ ]0, 1]} .

[x, y[ = {z ∈ Rn : z = (1 − λ) x + λy λ ∈ [0, 1[} .

Définition 1.1.5 Soit C une partie de Rn . C est convexe si seulement si pour tout x, y ∈
C, (1 − λ) x + λy ∈ C pour tout λ ∈ [0, 1]. Autrement dit, C est convexe si seulement si
C contient tout segment fermé d’extrémités deux quelconques de ses points.

Exemple 1.1.1 - Dans Rn , les ensembles suivants sont convexes. Rn , l’ensemble vide,
les singletons, les segments, les boules, les sous-espaces affines.
- Dans R, une partie est convexe si et seulemùent si c’est un intervalle.

On a la proposition :

Proposition 1.1.1 Une partie C de Rn est convexe si seulement si elle contient toute
combinaison linéaire convexe de toute famille finie d’éléments qui lui appartiennent.
Preuve : Si C contient toute combinaison linéaire convexe de familles finies d’éléments
qui lui appartiennent, en particulier, prenant une famille de deux éléments x et y de C,
on a [x, y] ⊂ C et donc C est convexe.
Réciproquement, soit C un ensemble convexe de Rn . Alors C contient toute combi-
naison linéaire convexe de deux quelconques de ses éléments. Donc la propriété est vraie
pour une famille comportant deux éléments. Supposons qu’elle est vraie pour une famille
de k − 1 éléments.
Soit { }
F = x 1 , x 2 , · · · , xk
une famille de k élément de C.
Soit
∑ k ∑
k
x= λi x avec λi ≥ 0,
i
λi = 1.
i=1 i=1
On a

k ∑
k−1
i
x= λi x = λi xi + λk xk .
i=1 i=1
Soit

k−1
λ= λi .
i=1

On a λ ∈ [0, 1].
Si λ = 0 alors λi = 0 pour tout i = 1, · · · , k − 1 et donc λk = 1. Il vient alors que
x = λk xk = xk ∈ C.
Si λ ̸= 0, on peut écrire
∑k−1 ( )
λi
x=λ xi + λk xk .
i=1
λ
1.1. DÉFINITIONS ET PROPRIÉTÉS PREMIÈRES 7

L’élément
k−1 (
∑ )
λi
y= xi ,
i=1
λ
est une combinaison linéaire convexe de k − 1 éléments de C. C’est donc un élément de
C, par hypothèse de recurrence. Donc x = λy + λk xk . Or λk = 1 − λ avec λ ∈ [0, 1]. Donc
x est combinaison linéaire convexe de deux éléments de C. Comme par hypothèse, C est
convexe, on a alors x ∈ C. 

Bien avant de donner quelques propriétés algébriques on rappelle que :

Définition 1.1.6 Une application f de Rn dans Rm est dite affine si l’une des conditions
suivantes est vérifiée.
i) Pour tout x, y dans Rn et λ ∈ R, on a

f ((1 − λ)x + λy) = (1 − λ)f (x) + λf (y).

ii) Il existe une application linéaire L de Rn dans Rm et a ∈ Rm tels que :

∀ x ∈ Rn , f (x) = L(x) + a.

On démontre facilement les propriétés suivantes :

Proposition 1.1.2 1) Si C1 et C2 sont convexes alors pour tous α1 et α2 dans R, α1 C1 +


α2 C2 est convexe.
2) Toute intersection de parties convexes est convexe.
3) Toute réunion d’une suite croissante de convexes est convexe.
4) Le produit cartésien de deux convexes est convexe.
5) L’image d’un convexe par une application affine est convexe.
6) L’image réciproque d’un convexe par une application affine est convexe.

On a la proposition suivante

Proposition 1.1.3 Si C est convexe alors pour tout α et β positifs ou nuls, on a

αC + βC = (α + β)C.

Preuve : Comme les scalaires α et β sont positifs ou nuls, le cas où α + β = 0 est trivial
Considérons α et β tels que α + β > 0.
L’inclusion ci-dessous est immédiate :

(α + β)C ⊂ αC + βC.

Montrons à présent que


αC + βC ⊂ (α + β)C.
Soit z ∈ αC + βC. Alors il existe x, y dans C tels que z = αx + βy.
On peut écrire : [ ]
α β
z = (α + β) x+ y .
α+β α+β
8 CHAPITRE 1. ENSEMBLES CONVEXES

On a
α β α β
> 0, > 0, + = 1.
α+β α+β α+β α+β
Comme C est convexe, alors
α β
x+ y ∈ C.
α+β α+β
D’où le résultat 
Nous donnons à présent quelques propriétés topologiques.
Bien avant notons que pour x ∈ Rn , et ε > 0, B(x, ε) désigne la boule euclidienne
fermée de centre x et de rayon ε
On remarque qu’on a toujours B(x, ε) = x + εB(0, 1), B(0, 1) étant la boule unité
euclidienne fermée.

Proposition 1.1.4 Soit C un convexe de Rn . Alors :


1) son adhérence C est convexe ;
2) son intérieur int(C) est convexe.
Preuve : 1) Soit x, y ∈ C et z = (1 − λ)x + λy, λ ∈ [0, 1].
Comme x ∈ C il est équivalent de dire qu’il existe une suite {xk } de points de C
convergent vers x. De même il existe une suite {y k } de points de C convergent vers y.
L’ensemble C étant convexe, on a pour tout k, z k = (1 − λ)xk + λy k ∈ C. Comme la suite
{z k } converge vers z alors z ∈ C. Donc C est convexe.
2) Soient x et y deux éléments de int(C), λ ∈ [0, 1] et z = (1 − λ)x + λy. D’après la
définition de int(C), il existe ε1 et ε2 tels que B(x, ε1 ) ⊂ C et B(y, ε2 ) ⊂ C. Donc pour
ε = min{ε1 , ε2 }, on a
B(x, ε) ⊂ C, B(y, ε) ⊂ C.
Comme
B(z, ε) = z + B(0, ε)
= (1 − λ)x + λy + B(0, ε)
= (1 − λ)x + λy + ((1 − λ) + λ)B(0, ε)
= (1 − λ) [x + B(0, ε)] + λ [y + B(0, ε)]
= (1 − λ)B(x, ε) + λB(y, ε)
et
(1 − λ)B(x, ε) + λB(y, ε) ⊂ (1 − λ)C + λC = C,
car C est convexe, on conclut que B(z, ε) ⊂ C. Par suite z ∈ int(C). Donc int(C) est
convexe. 

1.2 Projection sur un convexe


Le théorême ci-dessous est fondamental en optimisation.

Théorème 1.2.1 Soit S un convexe fermé non vide de Rn et x ∈ Rn . Alors il existe un


unique point p(x) ∈ S dont la distance à x est minimale. C’est-à-dire

∥p(x) − x∥ ≤ ∥y − x∥ ∀y ∈ S.

p(x) est appelé projection de x sur S.


1.2. PROJECTION SUR UN CONVEXE 9

Preuve : Soit d = inf y [∥y − x∥ : y ∈ S], B(x, d + 1) la boule fermée de centre x et de


rayon d + 1. Considérons K = S ∩ B(x, d + 1). L’ensemble K est fermé et borné, c’est
donc un compact. Alors l’application y 7→ ∥y − x∥ étant continue elle atteint ses bornes
sur K. Donc il existe p(x) ∈ K et donc p(x) ∈ S tel que ∥p(x) − x∥ = d. D’où le résultat
d’existence. Montrons maintenant l’unicité.
Soient a et b deux points de S tels que
∥a − x∥ = ∥b − x∥ = d = inf [∥y − x∥ : y ∈ S] .
y

Comme S est convexe alors 12 a + 21 b ∈ S. Donc


a+b 1 1
d ≤ ∥x − ∥ = ∥2x − a − b∥ = ∥(x − a) + (x − b)∥.
2 2 2
Ce qui implique que
a+b 1
d ≤ ∥x − ∥ ≤ (∥x − a∥ + ∥x − b∥) = d.
2 2
On en déduit que ∥x − a+b 2
∥ = d. Il s’ensuit que ∥x − a + x − b∥ = ∥x − a∥ + ∥x − b∥
c’est-à-dire qu’il existe λ ∈ R+ tel que x − a = λ(x − b). Donc on a λ = 1 c’est-à-dire
x − a = x − b et donc a = b. D’où l’unicité. 
Une caractérisation de la projection est donnée ici.

Théorème 1.2.2 Soit S un convexe fermé non vide de Rn et x ∈ Rn . Alors p(x) est la
projection de x sur S si et seulement si

⟨x − p(x), y − p(x)⟩ ≤ 0 ∀y ∈ S.
Preuve : Soit p(x) la projection sur S un convexe fermé de Rn . Supposons qu’il existe
un point y0 ∈ S tel que ⟨y0 − p(x), x − p(x)⟩ > 0.
Posons
φ(t) = ∥x − [(1 − t)p(x) + ty0 ] ∥2 , t ∈ R+ .
On a
φ(t) = ∥x − p(x)∥2 + 2t⟨x − p(x), p(x) − y0 ⟩ + t2 ∥p(x) − y0 ∥2
= ∥x − p(x)∥2 + t (2⟨x − p(x), p(x) − y0 ⟩ + t∥p(x) − y0 ∥2 ) .
Comme ⟨x − p(x), p(x) − y0 ⟩ < 0, pour t suffisamment petit, on aura φ′ (t) < 0 et donc
φ est strictement décroissante au voisinage de 0. On aura donc pour t suffisamment petit
φ(t) < ∥x − p(x)∥2 .
Or pour t ∈ [0; 1], zt = (1 − t)p(x) + ty0 ∈ S car S est convexe. Soit donc t ∈ [0; 1]
suffisamment petit tel que φ(t) < ∥x − p(x)∥2 . Pour un tel t on aura zt ∈ S et ∥x − zt ∥2 <
∥x − p(x)∥2 . Ce qui contredit le fait que p(x) est la projection de x sur S.
Réciproquement supposons que
⟨y − z; x − z⟩ ≤ 0 ∀y ∈ S.
Montrons que z est la projection de x sur S.
Soit y ∈ S. On a
∥x − y∥2 = ∥x − z + z − y∥2 = ∥x − z∥2 + 2⟨x − z; z − y⟩ + ∥y − z∥2 .
Par suite on a ∥x − y∥2 ≥ ∥x − z∥2 , et donc p(x) = z. 
n
L’application projection est lipschitzienne sur R .
10 CHAPITRE 1. ENSEMBLES CONVEXES

Proposition 1.2.1 Soit S un convexe fermé non vide de Rn et pour tout x ∈ Rn , p(x) la
projection de x sur S. On a

∥p(x) − p(y)∥ ≤ ∥x − y∥ ∀x, y ∈ Rn .

Preuve : Soient x et y fixés dans Rn . Considérons p(x) et p(y) respectivement leurs


projections sur S. On sait d’après la caractérisation de la projection que p(x) est tel que

⟨z − p(x), x − p(x)⟩ ≤ 0 ∀z ∈ S.
En prenant z = p(y) on obtient

⟨p(y) − p(x), x − p(x)⟩ ≤ 0. (1.1)

De même en considérant p(y) on a

⟨z − p(y), y − p(y)⟩ ≤ 0 ∀z ∈ S.
Pour z = p(x) on a
⟨p(x) − p(y), y − p(y)⟩ ≤ 0. (1.2)
En additionnant (1.1)et (1.2) on obtient

⟨p(x) − p(y), y − p(y) + p(x) − x⟩ ≤ 0,

qui est équivalent à


⟨p(x) − p(y), p(x) − p(y) − (x − y)⟩ ≤ 0,
c’est-à-dire
⟨p(x) − p(y), p(x) − p(y)⟩ ≤ ⟨p(x) − p(y), x − y⟩.
On en déduit
∥p(x) − p(y)∥2 ≤ ∥p(x) − p(y)∥∥x − y∥.
D’où le résultat. 

Corollaire 1.2.1 l’application définie sur Rn qui à tout x ∈ Rn associe sa projection sur
S un convexe fermé est continue.
Chapitre 3

Fonctions convexes

3.1 Fonctions convexes d’une variable réelle


3.1.1 Définitions et caractérisations
Définition 3.1.1 Soient I un intervalle de R. Une application f : I 7→ R est :
- convexe si :

∀ x, y ∈ I, f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) ∀λ ∈ [0, 1];

- strictement convexe si :

∀ x, y ∈ I, x ̸= y, f ((1 − λ)x + λy) < (1 − λ)f (x) + λf (y) ∀λ ∈]0, 1[;

- fortement convexe de module r > 0, si :

λ(1 − λ)r
∀ x, y ∈ I, f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) − ∥y − x∥2 ∀λ ∈ [0, 1].
2
On dit que f est concave (resp. strictement concave, fortement concave de module r > 0) si
−f est convexe, (resp. strictement convexe, fortement convexe de module r > 0).

L’application f est convexe si et seulement si, la courbe est en dessous de chacune de ses cordes
(une corde étant ici un segment joignant deux points de la courbe).

Proposition 3.1.1 Soient I un intervalle de R, f : I 7→ R. Pour tout a ∈ I on note τa : I −{a} →


R définie par τa (x) = f (x)−f
x−a
(a)
appelée taux d’accroissement en a. La fonction f est convexe si et
seulement si pour tout a ∈ I, τa est une application croissante sur I − {a}.

Preuve :
Soit x < y dans I − {a}.
•x<a<y
Dans ce cas on peut écrire a = x + t(y − x) avec t = a−x
y−x
et donc de part la convexité de f on a

f (a) ≤ (1 − t)f (x) + tf (y) ⇔ (1 − t + t)f (a) ≤ (1 − t)f (x) + tf (y).

21
Soit (1 − t)(f (a) − f (x)) ≤ t(f (y) − f (a)). Donc en remplaçant t par sa valeur, on obtient :
y−a a−x
( )(f (a) − f (x)) ≤ ( )(f (y) − f (a)).
y−x y−x
C’est-à-dire
f (x) − f (a) f (y) − f (a)
≤ .
x−a y−a
• a < x < y.
Ici on peut écrire x = a + t(y − a) avec t = x−a
y−a
. Alors on a

f (x) ≤ (1 − t)f (a) + tf (y)

⇔ f (x) − f (a) ≤ t(f (y) − f (a))

⇔ f (x) − f (a) ≤ ( x−a


y−a
)(f (y) − f (a))

⇔ f (x)−f (a)
x−a
≤ f (y)−f (a)
y−a

• x < y < a.
On a y = x + t(a − x) avec t = y−x
a−x
. Alors la convexité de f donne

f (y) ≤ (1 − t)f (x) + tf (a)

⇔ f (y) − f (a) ≤ (1 − t)f (x) − (1 − t)f (a))

⇔ f (y) − f (a) ≤ (1 − t)(f (x) − f (a))

⇔ f (y) − f (a) ≤ ( a−x


a−y
)(f (x) − f (a))

⇔ f (y)−f (a)
a−y
≤ f (x)−f (a)
a−x

Ce qui s’écrit encore

f (x) − f (a) f (y) − f (a)


≤ .
x−a y−a
Réciproquement supposons que pour tout a ∈ I, τa est une application croissante sur I − {a}.
Soit x et y, x < y deux éléments de I et λ ∈]0, 1[. Posons z = x + λ(y − x). On a z < y
et λ = y−x z−x
. Comme l’application τx est croissante sur I − {x}, on doit avoir τx (z) ≤ τx (y),
c’est-à-dire :
f (z) − f (x) f (y) − f (x)
≤ .
z−x y−x
Soit
z−x
f (z) − f (x) ≤ (f (y) − f (x)).
y−x
Ce qui s’écrit encore f (z) − f (x) ≤ λ(f (y) − f (x)).
D’où la convexité de f . 
On considère les définitions suivantes :

22
Définition 3.1.2 Soit f : I → R. On appelle épigraphe de f , l’ensemble :
epi(f ) = {(x, λ) ∈ I × R : f (x) ≤ λ} .
On appelle épigraphe strict de f , l’ensemble :
f ) = {(x, λ) ∈ I × R : f (x) < λ} .
epi(f
On appelle section inférieure de niveau λ de f , l’ensemble :
Sλ (f ) = {x ∈ I : f (x) ≤ λ} .
On appelle section inférieure stricte de niveau λ de f , l’ensemble :
^
Sλ (f ) = {x ∈ I : f (x) < λ} .

On a une caractérisation géométrique de la convexité d’une fonction.


Proposition 3.1.2 Soit f : I → R où I est un intervalle de R. Les propositions suivantes sont
équivalentes :
i) f est convexe sur I ;
ii) La restriction de l’épigraphe de f , à I × R, c’est-à-dire
(epi(f )) ∩ (I × R) = {(x, λ) ∈ I × R : f (x) ≤ λ}
est convexe.
On montre aussi que :
Proposition 3.1.3 si f : I 7→ R est convexe sur I un intervalle de R, alors l’ensemble :
I ∩ Sλ (f ) = {x ∈ I : f (x) ≤ λ}
est convexe.
Proposition 3.1.4 (Caractérisation des fonctions convexes dérivables) Soient I un inter-
valle de R et f : I 7→ R dérivable sur I. On a les équivalences suivantes :
1) f est convexe sur I ;
2) f (y) ≥ f (x) + f ′ (x)(y − x) pour tout x, y ∈ I, (la courbe sur I est au-dessus de sa tangente
en tout point) ;
3) (f ′ (y) − f ′ (x))(y − x) ≥ 0 pour tout x, y ∈ I. (f ′ est croissante sur I).
Proposition 3.1.5 (Caractérisation des fonctions strictement convexes dérivables) Soient
I un intervalle de R et f : I 7→ R dérivable sur I. On a les équivalences suivantes :
1) f est strictement convexe ;
2) f (y) > f (x) + f ′ (x)(y − x) pour tout x, y ∈ I, x ̸= y ;
3) (f ′ (y) − f ′ (x))(y − x) > 0 pour tout x, y ∈ I, x ̸= y.
Proposition 3.1.6 (Caractérisation des fonctions convexes 2 fois dérivable) Soient I un
intervalle de R et f : I 7→ R 2 fois dérivable sur I. f est convexe si et seulement si f ′′ (x) ≥ 0 pour
tout x ∈ I.
Proposition 3.1.7 (Fonctions strictement convexes) Soient I un intervalle de R et f : I 7→
R 2 fois dérivable sur I. Si on a f ′′ (x) > 0 pour tout x ∈ I, alors f est strictement convexe

23
3.1.2 Opérations sur les fonctions convexes
On montre facilement que

Proposition 3.1.8 Si f : I → R est convexe avec f (I) un intervalle de R et φ : f (I) → R est


convexe et croissante alors la fonction h = φ ◦ f est convexe sur I.

On peut aussi montrer que :

Proposition 3.1.9 Si I est un intervalle de R, f : I → R strictement convexe avec f (I) un


intervalle de R et φ : f (I) → R convexe et strictement croissante alors la fonction h = φ ◦ f est
strictement convexe sur I.

On obtient aussi des fonctions convexes en considérant les opérations suivantes :

Proposition 3.1.10 Toute combinaison linéaire finie et positive de fonctions convexes est convexe.
C’est-à-dire : si pour tout i = 1, · · · , p, fi : I → R est convexe sur intervalle I de R, alors pour

tout αi ≥ 0, i = 1, · · · , p, la fonction f = pi=1 αi fi est convexe sur I.

Proposition 3.1.11 L’enveloppe supérieure d’une famille de fonction convexes est convexe. Au-
trement dit, si {fj }j∈ est une famille quelconque de fonctions convexes sur un intervalle I de R
et à valeurs dans R, alors la fonction f définie par f (x) = supj∈J fj (x) est une fonction convexe
sur I.

Preuve : Soient x et y deux éléments de I et λ ∈ [0, 1]. Comme pour tout j ∈ J, fj est convexe,
on a

∀ j ∈ J, fj ((1 − λ)x + λy) ≤ (1 − λ)fj (x) + λfj (y)


≤ (1 − λ) sup fk (x) + λ sup fk (y).
k∈J k∈J

Donc
sup fi ((1 − λ)x + λy) ≤ (1 − λ) sup fj (x) + λ sup fj (y).
j∈J j∈J j∈J

Ce qui signifie que f est convexe. 

3.2 Fonctions convexes de plusieurs variables


3.2.1 Définitions et propriétés de base
Définition 3.2.1 Soit C un convexe non vide de Rn . Une fonction f : C → R est convexe sur C,
si :
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y).

Définition 3.2.2 Soit C un convexe non vide de Rn . Une fonction f : C → R est strictement
convexe sur C si :
∀ x, y ∈ C, x ̸= y, ∀ λ ∈]0, 1[,
f ((1 − λ)x + λy) < (1 − λ)f (x) + λf (y).

24
Définition 3.2.3 Soit C un convexe non vide de Rn . Une fonction f : C → R est fortement
convexe de module r > 0 sur C si :

∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) − 21 rλ(1 − λ)∥y − x∥2 .

On définit aussi une fonction concave, strictement concave fortement concave de module r > 0
sur C.

Définition 3.2.4 Soit C un convexe non vide de Rn . Une fonction f : C → R est concave
(respectivement strictement concave, fortement concave de module r > 0 sur C si :

∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y),

respectivement
∀ x, y ∈ C, x ̸= y, ∀ λ ∈]0, 1[,
f ((1 − λ)x + λy) > (1 − λ)f (x) + λf (y),

∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y) + 21 rλ(1 − λ)∥y − x∥2 .

Proposition 3.2.1 Une fonction f : C → R est concave (respectivement strictement concave,


fortement concave de module r > 0 sur C si −f est convexe, (respectivement strictement convexe,
fortement convexe de module r sur C).

Pour la suite nous allons considèrer sans perdre de généralités que C = Rn . On définit d’abord
les notions suivantes.

Définition 3.2.5 Soit f : Rn → R.


On appelle épigraphe de f , l’ensemble :

epi(f ) = {(x, λ) ∈ Rn × R : f (x) ≤ λ} .

On appelle section de niveau λ de f , l’ensemble

Sλ (f ) = {x ∈ Rn : f (x) ≤ λ} .

On a une caractérisation géométrique de la convexité d’une fonction.

Proposition 3.2.2 Soit f : Rn → R. Les propositions suivantes sont équivalentes.


i) f est convexe ;
ii) L’épigraphe de f , (epi(f )), est convexe.

La démonstration est immédiate.


On a les caractérisations suivantes :

25
Proposition 3.2.3 Soit f : Rn → R. On a les équivalences suivantes.
i) f est convexe ;

ii) Pour toute combinaison linéaire convexe x = ki=1 λi xi , on a

k ∑
k
f( λi xi ) ≤ λi f (xi ).
i=1 i=1

Proposition 3.2.4 f : Rn → R est convexe (respectivement strictement convexe) si et seulement


si pour toute droite D ⊂ Rn , la restriction de f à D est convexe (respectivement strictement
convexe). C’est-à-dire, pour tout a et d dans Rn , la fonction φa, d définie sur R par φa, d (t) =
f (a + td) est convexe (respectivement strictement convexe).
Preuve : Supposons f convexe. Soit a, d ∈ Rn , montrons que φ est convexe.
Soient t1 et t2 deux réels et λ ∈ [0, 1]. On a
φa, d (λt1 + (1 − λ)t2 ) = f (a + (λt1 + (1 − λ)t2 )d)
= f (λa + (1 − λ)a + λt1 d + (1 − λ)t2 d)
= f (λ(a + t1 d) + (1 − λ)(a + t2 d))
≤ λf (a + t1 d) + (1 − λ)f (a + t2 d)
= λφa, d (t1 ) + (1 − λ)φa, d (t2 )
d’où la convexité de φa, d .
Réciproquement supposons que pour tous a, d ∈ Rn , la fonction φ définie sur R par φ(t) =
f (a + td) est convexe. Montrons que f est convexe.
Soient x, y ∈ Rn et λ ∈ [0, 1]. On a
f (λx + (1 − λ)y) = f (y + λ(x − y)) = φy, x−y (λ)
= φy, x−y (λ × 1 + (1 − λ) × 0).
Comme φy, x−y est convexe, on a
φy, x−y (λ × 1 + (1 − λ) × 0) ≤ λφy, x−y (1) + (1 − λ)φy, x−y (0)
= λf (x) + (1 − λ)f (y)
d’où la convexité de f .
Pour la stricte convexité, on procède de la même façon. 

Proposition 3.2.5 Si f : Rn → R est convexe alors pour a ∈ domf et d ∈ Rn , l’application


définie sur ]0, +∞[ par
f (a + td) − f (a)
φ(t) =
t
est croissante.
Preuve : Soient 0 < t1 ≤ t2 . On a alors 0 < t1
t2
≤ 1. Donc
t1 t1 t1 t1
f (a + t1 d) = f ((1 − )a + (a + t2 d)) ≤ (1 − )f (a) + f (a + t2 d).
t2 t2 t2 t2
Il s’ensuit alors que
f (a + t1 d) − f (a) f (a + t2 d) − f (a)
≤ .
t1 t2
Ce qui prouve la proposition. 
On a aussi la proposition suivante.

26
Proposition 3.2.6 Si f : Rn → R est convexe alors les sections de niveau Sλ (f ), λ ∈ R sont
convexes.

Preuve : Soit λ ∈ R et x, y deux éléments de Sλ (f ) et α ∈ [0, 1].


La convexité de f et la définition de Sλ (f ) nous donnent :

f ((1 − α)x + αy) ≤ (1 − α)f (x) + αf (y) ≤ (1 − α)λ + αλ = λ.

Donc (1 − α)x + αy ∈ Sλ (f ) qui est donc convexe. 

Remarque 3.2.1 La réciproque de cette proposition n’est pas vraie.

3.2.2 Caractérisation des fonctions convexes différentiables


A) Matrices définies positives
Nous rappelons ici la notion de matrice définie positive, semi-définie positive. On considère les
notations suivantes :
Mn (R) désigne l’ensemble des matrices carrées d’ordre n et Sn (R) l’ensemble des matrices
carrées d’ordre n symétriques à coefficients réels.

Définition 3.2.6 Soit A une matrice de Mn (R).


- On dit que A est semi définie positive, si on a ⟨Ax, x⟩ ≥ 0 pour tout x ∈ Rn
- On dit que A est définie positive, si on a ⟨Ax, x⟩ > 0 pour tout x ∈ Rn non nul.

Définition 3.2.7 Soit A une matrice de Mn (R).


- On dit que A est semi définie négative, si on a ⟨Ax, x⟩ ≤ 0 pour tout x ∈ Rn .
- On dit que A est définie négative, si on a ⟨Ax, x⟩ < 0 pour tout x ∈ Rn non nul.

On montre que

Proposition 3.2.7 Une matrice A ∈ Mn (R) est semi définie négative (resp. définie négative) si
et seulement si −A semi définie positive (resp. définie positive).

on montre que :

Proposition 3.2.8 Une matrice A ∈ Sn (R) est semi définie positive si et seulement si toutes ses
valeurs propres sont positives ou nulles.
Une matrice A ∈ Sn (R) est définie positive si et seulement si toutes ses valeurs propres sont
strictement positives.

Proposition 3.2.9 Une matrice A ∈ Sn (R) est semi définie négative si et seulement si toutes ses
valeurs propres sont négatives ou nulles.
Une matrice A ∈ Sn (R) est définie négative si et seulement si toutes ses valeurs propres sont
strictement négatives.

On sait que le déterminant d’une matrice carrée est égal au produit de ses valeurs propres et
sa trace est égale à la somme de ses valeurs propres. Alors on a le corollaire.

27
Corollaire 3.2.1 Soit A une matrice carrée d’ordre 2 symétrique et à coefficients réels.
1) A est semi définie positive si et seulement si son déterminant et sa trace sont positifs.
2) A est définie positive si et seulement si son déterminant et sa trace sont strictement positifs.
1) A est semi définie négative si et seulement si son déterminant est positif et sa trace négative.
2) A est définie négative si et seulement si son déterminant est strictement positif et sa trace
strictement négative.

Corollaire 3.2.2 Soit A une matrice carrée d’ordre 3 symétrique et à coefficients réels. Si A est
telle que det(A) < 0 et trace(A) > 0 alors la matrice A n’est ni semi définie positive ni semi
définie négative.

Définition 3.2.8 Soit A une matrice de Mn (R). Les mineurs principaux diagonaux de A sont
les n sous-matrices carrées A(p) d’ordre p obtenues en supprimant les n − p dernières lignes et
colonnes, p = 1 · · · , n. Ce sont les matrices
 
( ) a11 · · · a1p
a11 a12  ..  , · · · , A = A.
A(1) = (a11 ), A(2) , · · · , A(p) =  ... .  (n)
a21 a22
ap1 · · · app
Proposition 3.2.10 Une matrice A ∈ Sn (R) est définie positive si et seulement si les déterminants
des n mineurs principaux diagonaux sont strictement positifs.

det(A(p) ) > 0 pour 1 ≤ p ≤ n.

Proposition 3.2.11 Une matrice A ∈ Sn (R) est définie négative si et seulement si on a :

(−1)p det(A(p) ) > 0 pour 1 ≤ p ≤ n.

Si A est semi définie positive alors on a det(A(p) ) > 0 pour 1 ≤ p ≤ n. Mais cette condition
nécessaire n’est pas suffisante. Par exemple la matrice symétrique d’ordre trois
 
1 1 0
A= 1 1 0 
0 0 −1
vérifie det(A(1) ) > 0, det(A(2) ) = det(A(3) ) = 0. Ses valeurs propres sont 0, 2 et −1. Elle n’est
donc semi definie positive ni semi definie négative.

Définition 3.2.9 Soit A une matrice de Sn (R). Un mineur principal d’ordre p de A est la sous-
matrice de A d’ordre p obtenue en supprimant n − p lignes et les n − p colonnes correspondantes
dans A.

Proposition 3.2.12 Soit A ∈ Sn (R).


A est semi définie positive si et seulement si les déterminants de tous ses mineurs principaux
sont positifs ou nuls.

Proposition 3.2.13 Soit A ∈ Sn (R).


A est semi définie négative si et seulement si les déterminants de ses mineurs principaux
d’ordre k sont alternativement ≤ 0 pour k impair et ≥ 0 pour k pair.

28
B) Caractérisation des fonctions convexes différentiables
Dans les résultats qui suivent, nous donnons des caractérisations de la convexité dans le cas
différentiable.

Théorème 3.2.1 Soit f : Rn → R differentiable.


On a les équivalences suivantes :
1) f est convexe sur Rn ;
2) f (y) ≥ f (x) + ⟨∇f (x), y − x⟩, ∀ x, y ∈ Rn ;
3) ⟨∇f (y) − ∇f (x), y − x⟩ ≥ 0, ∀ x, y ∈ Rn .

Preuve : 1)⇒ 2) Soient x, y dans Rn et λ ∈]0, 1[. Comme f est convexe, alors on a

f (x + λ(y − x)) − f (x) ≤ λ(f (y) − f (x)).

Ce qui donne
f (x + λ(y − x)) − f (x)
≤ f (y) − f (x).
λ
En passant à la limite, on obtient :

⟨∇f (x), y − x⟩ ≤ f (y) − f (x).

D’où la proposition 2).


2)⇒ 1) On sait par hypothèse que

f (y) ≥ f (x) + ⟨∇f (x), y − x⟩, ∀ (x, y) ∈ Rn × Rn .

Soient x, et y dans Rn et λ ∈ [0, 1]. En considérant respectivement les couples (x + λ(y − x), x) et
(x + λ(y − x), y), on a :

f (x) ≥ f (x + λ(y − x) − λ⟨∇f (x + λ(y − x)), y − x⟩ (3.1)

et
f (y) ≥ f (x + λ(y − x) + (1 − λ)⟨∇f (x + λ(y − x), y − x⟩ (3.2)
On multiplie (3.1) par (1 − λ) et (3.2) par λ et on fait la somme des deux résultats. On obtient
alors
(1 − λ)f (x) + λf (y) ≥ f (x + λ(y − x).
Ce qui prouve que f est convexe.
2)⇒ 3) Soient x et y dans Rn . On a

f (y) ≥ f (x) + ⟨∇f (x), y − x⟩ (3.3)

et
f (x) ≥ f (y) + ⟨∇f (y), x − y⟩ (3.4)
En considérant la somme de (3.3) et de (3.4), on obtient

⟨∇f (y) − ∇f (x), y − x⟩ ≥ 0.

Montrons à présent que la proposition 3) implique 2).

29
3)⇒ 2) Soient x et y dans Rn . Comme f est differentiable alors :

∃ z ∈]x, y[ : f (y) − f (x) = ⟨∇f (z), y − x⟩ (3.5)

Comme z ∈]x, y[, il existe λ ∈]0, 1[ tel que z = x + λ(y − x).


D’après la proposition 3), on a :

⟨∇f (z) − ∇f (x), z − x⟩ ≥ 0.

Or z − x = λ(y − x). Il vient donc

λ⟨∇f (z) − ∇f (x), y − x⟩ ≥ 0.

Soit
⟨∇f (z) − ∇f (x), y − x⟩ ≥ 0
car λ ∈]0, 1[. C’est-à-dire
⟨∇f (z), y − x⟩ ≥ ⟨∇f (x), y − x⟩.
En utilisant (3.5), on obtient

f (y) − f (x) = ⟨∇f (z), y − x⟩ ≥ ⟨∇f (x), y − x⟩.

D’où la proposition 2). Ce qui termine la démonstration 

On a des résultats similaires pour la stricte convexité.

Théorème 3.2.2 Soit f : Rn → R differentiable. On a les équivalences suivantes.


1) f est strictement convexe sur Rn ;
2) f (y) > f (x) + ⟨∇f (x), y − x⟩, ∀ x, y ∈ Rn , x ̸= y ;
3) ⟨∇f (y) − ∇f (x), y − x⟩ > 0, ∀ x, y ∈ Rn , x ̸= y.

Dans le cas où la fonction est deux fois differentiable, on a aussi les caractérisations suivantes.

Théorème 3.2.3 Soit f : Rn → R deux fois differentiable. On a les équivalences suivantes.


1) f est convexe sur Rn ;
2) Pour tout x ∈ Rn , ⟨∇2 f (x)h, h⟩ ≥ 0 ∀ h ∈ Rn ;

Preuve : Soit x ∈ Rn . On sait que pour tout h ∈ Rn et t ∈ R, suffisamment petit, on a

t2 2
f (x + th) = f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t).
2
Par hypothèse, la fonction f est convexe, donc on a pour tout h ∈ Rn et t ∈ R,

f (x + th) ≥ f (x) + t⟨∇f (x), h⟩.

Donc
t2 2
f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t) ≥ f (x) + t⟨∇f (x), h⟩.
2
Ce qui donne

⟨∇2 f (x)h, h⟩ + ∥h∥2 ε(t) ≥ 0.

30
Comme la fonction ε tend vers 0 quand t tend vers 0, on obtient :

⟨∇2 f (x)h, h⟩ ≥ 0.

On conclut que la matrice hessienne ∇2 f (x) est semi définie positive.


Réciproquement supposons que pour tout x ∈ Rn , ∇2 f (x) est semi définie positive.
Soit x ∈ Rn . On sait que pour tout y ∈ Rn , on a
1
f (y) = f (x) + ⟨∇f (x), y − x⟩ + ⟨∇2 f (z)(y − x), y − x⟩,
2
avec z ∈]x, y[. Comme par hypothèse la matrice ∇2 f (z) est semi définie positive, alors on a

⟨∇2 f (z)(y − x), y − x⟩ ≥ 0.

Ce qui implique que


f (y) ≥ f (x) + ⟨∇f (x), y − x⟩.
Par suite la fonction f est convexe. 

Le résultat qui suit concerne la stricte convexité.

Théorème 3.2.4 Soit f : Rn → R deux fois differentiable. Si pour tout x ∈ Rn , on a ⟨∇2 f (x)h, h⟩ >
0 ∀ h ∈ Rn , h ̸= 0 alors f est strictement convexe sur Rn .

Preuve : Soit x, y ∈ Rn avec x ̸= y. On a


1
f (y) = f (x) + ⟨∇f (x), y − x⟩ + ⟨∇2 f (z)(y − x), y − x⟩,
2
avec z ∈]x, y[. Comme par hypothèse la matrice ∇2 f (z) est définie positive, alors on a ⟨∇2 f (z)(y −
x), y − x⟩ > 0 car x ̸= y. On obtient alors

f (y) > f (x) + ⟨∇f (x), y − x⟩.

Ce qui signifie que f est strictement convexe. 

Remarque 3.2.2 Il faut signaler que la réciproque de ce résultat n’est pas vraie. On peut considérer
la fonction φ définie sur R suivante : φ(t) = t4 . Cette fonction est strictement convexe mais sa
dérivée seconde en 0 est nulle.

3.2.3 Opérations sur les fonctions convexes


On montre facilement que

Proposition 3.2.14 Si f : Rn → R est convexe et φ : R → R est convexe et croissante alors la


fonction h = φ ◦ f est convexe.

On en déduit alors que

Proposition 3.2.15 Si f : Rn → R est concave et φ : R → R est concave et croissante alors la


fonction h = φ ◦ f est concave.

31
On peut aussi montrer que :

Proposition 3.2.16 Si f : Rn → R est strictement convexe et φ : R → R est convexe et stricte-


ment croissante alors la fonction h = φ ◦ f est strictement convexe.

On obtient aussi des fonctions convexes en considérant les opérations suivantes :

Proposition 3.2.17 Toute combinaison linéaire finie et positive de fonctions convexes est convexe.
C’est-à-dire : Si pour tout i = 1, · · · , p, fi : Rn → R est convexe, alors pour tout αi ≥ 0,

i = 1, · · · , p, la fonction f = pi=1 αi fi est convexe.

Proposition 3.2.18 L’enveloppe supérieure d’une famille de fonction convexes est convexe. Au-
trement dit, si {fi }i∈I est une famille quelconque de fonctions convexes définies sur Rn et à valeurs
dans R, alors la fonction f définie par f (x) = supi∈I fi (x) est une fonction convexe.

Preuve : Soient x et y deux éléments de Rn et λ ∈ [0, 1]. Comme pour tout i ∈ I, fi est convexe,
on a

∀ i ∈ I, fi ((1 − λ)x + λy) ≤ (1 − λ)fi (x) + λfi (y)


≤ (1 − λ) sup fk (x) + λ sup fk (y).
k∈I k∈I

Donc
sup fi ((1 − λ)x + λy) ≤ (1 − λ) sup fk (x) + λ sup fk (y).
i∈I k∈I k∈I

Ce qui signifie que f est convexe. 

32
Chapitre 4

Introduction à l’optimisation

4.1 Introduction et Notations


L’optimisation, c’est-à-dire les techniques permettant de chercher les minima ou les maxima
de fonctions ou de fonctionnelles intervient dans pratiquement tous les processus de modélisation
actuels. Qu’il s’agisse de problèmes directs (ajustement de données, contrôle optimal, résolution
des ystèmes linéaires par moindres carrés, etc) ou inverses (identification de paramètres), il est
rare qu’un problème d’optimisation plus ou moins complexe n’intervienne pas à un stade donné
de la modélisation et/ou de la simulation.

4.2 Notion d’infimum, supremum, minimum, maximum


On définit ici les notions d’infimum de supremum, minimum et de maximum qui sont des
prérequis pour les démonstrations des résulatst d’existence et d’unicité d’extrema d’une fonction
donnée.
Définition 4.2.1 (Minorant/Majorant) Soit X une partie de R.
m ∈ R ∪ {−∞, +∞} est un minorant de X si et seulement si
∀ x ∈ X, m ≤ x.
M ∈ R ∪ {−∞, +∞} est un majorant de X si et seulement si
∀ x ∈ X, x ≤ M.
Définition 4.2.2 (Infimum/Supremum) Soit X une partie de R.
1) Si X est non vide et admet des minorants, par définition l’infimum de X est le plus grand
des minorants de X. On le note inf(X) ou inf x∈X (x).
Si X est non vide et n’admet pas de minorants, par convention, l’infimum de X est égal à
−∞.
Si X = ∅, par convention son infimum est égal à +∞ : inf(∅) = +∞
2) Si X est non vide et admet des majorants, par définition le supremum de X noté sup(X)
ou supx∈X (x) est le plus petit des majorants de X.
Si X est non vide et n’admet pas de majorants, par convention, le supremum de X est égal à
+∞.
Si X = ∅, par convention sup(∅) = −∞.

33
Ces notions sont aussi caractérisées par :

Proposition 4.2.1 1) Si X est non vide et admet des minorants,


{
m ≤ x ∀x ∈ X
m = inf(X) ⇔
∀ε > 0, ∃xε ∈ X : m ≤ xε < m + ε.

2) Si X est non vide et admet des majorants,


{
x ≤ M ∀x ∈ X
M = sup(X) ⇔
∀ε > 0, ∃xε ∈ X : M − ε < xε ≤ M.

On a le résultat suivant.

Proposition 4.2.2 Pour tout X ⊂ R, on a supx∈X (x) = − inf x∈X (−x)

Définition 4.2.3 (Suite minimisante/Suite maximisante) Soit X une partie non vide de R.
On appelle suite minimisante de X, toute suite {xk } d’éléments de X telle que

lim xk = inf(X).
k→+∞

On appelle suite maximisante de X, toute suite {xk } d’éléments de X telle que

lim xk = sup(X).
k→+∞

On montre que

Proposition 4.2.3 Si X est une partie non vide R, alors il existe toujours une suite minimisante
de X et une suite maximisante de X.

Preuve : Montrons d’abord l’existence d’une suite minimisante. Comme X est non vide, alors
nécessairement inf(X) ∈ R ∪ {−∞}
i) inf(X) ∈ R. D’après la proposition (4.2.1)
1
∀k ∈ N∗ , ∃xk ∈ X : inf(X) ≤ xk ≤ inf(X) + .
k
La suite {xk } ainsi construite converge vers inf(X).
ii) inf(X) = −∞. X admet seulement −∞ comme minorant. Par conséquent pour tout k ∈ N,
il existe xk ∈ X tel que

xk ≤ −k
La suite {xk } ainsi construite converge vers −∞.
On montre de façon analogue l’existence d’une suite maximisante. 

Définition 4.2.4 (Minimum/Maximum) Soit X une partie de R.


On dit que X a un minimum si inf(X) ∈ X. Dans ce cas, on note min(X) = inf(X).
On dit que X a un maximum si sup(X) ∈ X. Dans ce cas, on note max(X) = sup(X).

34
4.3 Notion de programme mathématique
4.3.1 Définitions et premières propriétés
Soit f : Rn → R une fonction définie sur Df et C une partie de Df .

Définition 4.3.1 On dit que la fonction f atteint un minimum sur C au point x∗ ∈ C si on a :

∀ x ∈ C, f (x∗ ) ≤ f (x).

Dans ce cas le réel α = f (x∗ ) est dit valeur minimale de f sur C.


De la même manière, on dit que la fonction f atteint un maximum sur C au point x∗ ∈ C si
on a :
∀ x ∈ C, f (x∗ ) ≥ f (x).
Dans ce cas, β = f (x∗ ) est dit valeur maximale de f sur C.

Minimiser la fonction f sur C consiste à déterminer la valeur minimale (le minimum) de f sur
C ainsi que les point de C où f atteint cette valeur minimale. Dans ce cas on dit qu’on a résolu
un programme de minimisation de f sur C. On le note symboliquement :

min f (x).
x∈C

Les points où la valeur minimale est atteinte (on dit aussi les points qui réalisent le minimum)
sont les solutions du programme de minimisation de f sur C. On note cet ensemble arg min{f (x) :
x ∈ C}. Compte tenu de ce qui précède, on a :

arg min{f (x) : x ∈ C} = {x∗ ∈ C : ∀ x ∈ C, f (x∗ ) ≤ f (x)}.

Maximiser la fonction f sur C consiste à déterminer la valeur maximale (le maximum) de f sur
C ainsi que le ou les point(s) de C s’ils existent où f atteint cette valeur maximale. Dans ce cas
on dit qu’on a résolu un programme de maximisation de f sur C et on le note symboliquement :

max f (x).
x∈C

Les points où la valeur maximale est atteinte (on dit aussi les points qui réalisent le maximum)
sont les solutions optimales du programme de maximisation de f sur C. On note cet ensemble
arg max{f (x) : x ∈ C}. On a :

arg max{f (x) : x ∈ C} = {x∗ ∈ C : ∀ x ∈ C, f (x∗ ) ≥ f (x)}.

Optimiser f sur C consiste à minimiser et à maximiser la fonction f sur C. On le note sym-


boliquement :
extx∈C f (x) ou optx∈C f (x).
Etant donné le programme mathématique ”optimiser f sur C”, les éléments de C sont ap-
pelés solutions réalisables ou admissibles ou variables de commande ou variables de contrôle du
programme et la fonction f , fonction-objectif ou critère du programme. La valeur minimale ou
maximale selon qu’il s’agisse d’un problème de minimisation ou de maximisation est dite valeur
optimale. Les points de C qui réalisent cet optimum sont dits solutions optimales.

Exemple 4.3.1

35
1) Considérons le programme de minimisation ”minimiser f (x) = x2 + 1 sur R”. On a :

∀ x ∈ R, f (x) ≥ 1 = f (0).

Donc la fonction un minimum en x∗ = 0.


2) Le programme de maximisation ”maximiser f (x) = x + 3 sur R” n’a pas de solution. En
effet supposons que la fonction f atteigne son maximum en un point x∗ . On a alors

∀ x ∈ C, f (x∗ ) ≥ f (x).

Or la fonction f est strictement croissante. Ce qui entraı̂ne que :

∀ x > x∗ , f (x) > f (x∗ ).

Ce qui est contradictoire.


On a alors
arg max{f (x) = x + 3 : x ∈ R} = ∅.
On montre de même que le programme de minimisation de f sur R n’a pas de solution.
A priori, un problème d’optimisation peut n’admettre aucune solution ou en admettre au moins
une. En toute généralité, aucun argument mathématique ne garantit l’existence de solution(s). On
dispose cependant d’une condition suffisante grâce au théorème de Weierstrass qui ne concerne
que les fonctions continues sur un compact de Rn .
La première idée qui vient à l’esprit est de calculer les valeurs que prend la fonction f pour
toutes les valeurs prises par les arguments puis de repérer les plus grandes et les plus petites
valeurs prises par les images. Ce n’est évidemment pas la bonne option si les arguments peuvent
prendre une infinité de valeurs.
Si la fonction à optimiser est une fonction d’une variable réelle, on peut toujours construire le
tableau de variations ou tracer la fonction dans le plan. C’est fastidieux dans la mesure où on ne
s’intéresse qu’aux optima et à eux seuls.
Si la fonction à optimiser est à [Link] réelles, on peut à la rigueur demander à un
logiciel approprié de tracer sa surface repésentative ou des courbes de niveau et conclure au vu
des graphes. Ce peut être parfois utile mais c’est frustrant dans la mesure où on ignore a priori où
se trouvent les optima, ce entraı̂ne qu’on est en peine de donner toutes les indications au traceur
de fonction.
Quoiqu’il en soit, dès que la fonction a plus de trois variables, les méthodes graphiques ne sont
d’aucun secours. Il faut disposer d’une théorie solide pour déterminer les optima. L’optimum peut
être global (ou absolu) ou local (ou relatif). Il peut être aussi large ou strict (ou unique).
Résoudre le programme de minimisation minx∈C f (x) (respectivement de maximisation maxx∈C f (x))
consiste à déterminer les points x∗ ∈ C tels que ∀x ∈ C, f (x∗ ) ≤ f (x) (respectivement f (x∗ ) ≥
f (x)).
Dans ce cas on dit f passe par un minimum global (respectivement un maximum global) en
x∗ sur C. Et x∗ est alors dite solution optimale globale du programme d’optimisation.
Outre les solutions optimales globales, on distingue aussi les solutions optimales locales définies
comme suit :

Définition 4.3.2 Un élément x∗ ∈ C est dit point de minimum local (respectivement de maximum
local) de f sur C s’il existe un voisinage V de x∗ tel que :

∀ x ∈ C ∩ V, f (x) ≥ f (x∗ )(respectivementf (x) ≤ f (x∗ ).

36
Dans la suite on distinguera systématiquement les optima locaux appélés également optima re-
latifs et les optima globaux appelés également optima absolus. Tout optimum global a évidemment
les propriétés d’un optimum local alors que la réciproque est fausse ; un optimum local peut ne
pas être un optimum global.
Très souvent la nature des problèmes d’optimisation conduit à privilégier la recherche d’un
optima globaux plutôt que des optima locaux. On peut penser que pour détecter les minima
(resp. maxima) globaux il suffit de déterminer les minima (resp. maxima) locaux puis de repérer
le plus petit (resp. le plus grand). Cette stragtégie est logique mais parfois difficile à mettre en
œuvre surtout dans les problèmes théoriques.
Dans le cas convexe le problème ne se pose pas comme indiqué dans le théorème ci-dessous.

Théorème 4.3.1 Si C est convexe et f : Rn → R est convexe (respectivement concave) sur C,


alors :
i) tout minimum(resp. maximum) local de f sur C est un minimum (resp. maximum) global
de f sur C,
ii) l’ensemble des solutions optimales globales arg min{f (x) : x ∈ C} (resp. arg max{f (x) : x ∈
C}) est convexe (il peut être vide).

Preuve :
On donne la démonstration pour f convexe.
1) Montrons d’abord par l’absurde que tout minimu local est nécessairement global.
Soit x∗ un minimum local qui n’est pas un minimum global. Il existe un r > 0 tel que :

∀x ∈ B(x∗ , r) ∩ C, f (x) ≥ f (x∗ ).

Comme x∗ n’est pas minimum global, il existe x∗∗ tel que f (x∗ ) < f (x∗∗ ).
Puisque C est convexe alors,

∀λ ∈]0, 1[, (1 − λ)x∗ + λx∗∗ ∈ C.

Et puisque f est convexe sur C, on aura :

f ((1 − λ)x∗ + λx∗∗ ) ≤ (1 − λ)f (x∗ ) + λf (x∗∗ ),

ce qui entraine que


f ((1 − λ)x∗ + λx∗∗ ) < f (x∗ ).
Choisissons λ proche de 0 de sorte que (1 − λ)x∗ + λx∗∗ soit dans B(x∗ , r). Alors, on a :

f ((1 − λ)x∗ + λx∗∗ ) < f (x∗ ).

Ce qui contredit le fait que f atteint un minimum local en x∗ sur la boule ouverte B(x∗ , r).
2) Considérons à présent l’ensemble des solutions optimales

A = arg min{f (x) : x ∈ C}

Si A est vide, alors c’est terminé, il est convexe.


Si A est réduit à un singleton, là aussi c’est terminé, il est convexe.
Supposons que A a plus d’un élément, alors notons x∗ et x∗∗ deux éléments distcincts quel-
conques. Si α est la valeur optimale, on a alors :

f (x∗ ) = f (x∗∗ ) = α.

37
Comme f est convexe, on a

∀λ ∈]0, 1[, α ≤ f ((1 − λ)x∗ + λx∗∗ ) ≤ (1 − λ)f (x∗ ) + λf (x∗∗ ) = α.

Donc on a
∀λ ∈]0, 1[, f ((1 − λ)x∗ + λx∗∗ ) = α.
Par suite
(1 − λ)x∗ + λx∗∗ ∈ A, ∀λ ∈]0, 1[.
D’où le théorème. 

Définition 4.3.3 (Optimum large) La fonction f atteint un minimum (respectivement : un


maximum) global au sens large en x∗ sur C si et seulement si :

∀ x ∈ C, f (x) ≥ f (x∗ )(respectivementf (x) ≤ f (x∗ ).

La fonction f atteint un minimum (respectivement : un maximum) local au sens large en x∗


sur C si et seulement s’il existe un voisinage V de x∗ tel que :

∀ x ∈ C ∩ V, f (x) ≥ f (x∗ )(respectivementf (x) ≤ f (x∗ ).

Définition 4.3.4 (Optimum strict) La fonction f atteint un minimum (respectivement : un


maximum) global strict en x∗ sur C si et seulement si :

∀ x ∈ C, x ̸= x∗ , f (x) > f (x∗ )(respectivementf (x) < f (x∗ ).

La fonction f atteint un minimum (respectivement : un maximum) local strict en x∗ sur C si


et seulement s’il existe un voisinage V de x∗ tel que :

∀ x ∈ C ∩ V, x ̸= x∗ , f (x) > f (x∗ )(respectivementf (x) < f (x∗ ).

L’hypothèse de convexité ou de concavité stricte de la fonction-objectif sur un domaine convexe


garantit l’unicité de la solution globale s’il y en a une.

Théorème 4.3.2 Si C est convexe et f : Rn → R est strictement convexe (respectivement stric-


tement concave) sur C, alors : l’ensemble des solutions optimales globales arg min{f (x) : x ∈ C}
(resp. arg max{f (x) : x ∈ C}) est soit vide soit réduit à un singleton.

On donne à présent deux propriétés très générales des problèmes d’optimisation. En pratique
elles peuvent permettre de transformer un problème en un autre problème parfaitement équivalent
qui peut être plus simple à résoudre.

Proposition 4.3.1 On a :
max f (x) = − min(−f )(x).
x∈C x∈C

Autrement dit la fonction f atteint un maximum sur C en un point x∗ si et seulement si la fonction


−f atteint un minimum sur C en x∗ .

38
Preuve : Si f atteint un maximum sur C en un point x∗ , alors par définition,
∀ x ∈ C, f (x) ≤ f (x∗ ).
En multipliant par −1 les deux membres de l’inégalité, on a :
∀ x ∈ C, −f (x) ≤ −f (x∗ ).
Ce qui signifie que (−f ) atteint un minimum en x∗ .
La réciproque est immédiate 
D’après cette proposition, les résultats concernant les programmes de maximisation peuvent
être transposés dans les programmes de minimisation, à condition bien entendu de changer le
signe de la fonction-objectif. Par conséquent, tout programme mathématique peut se ramener à
un programme de minimisation.

Théorème 4.3.3 Soit le programme de minimisation ”minimiser f sur C” dans lequel l’ensemble-
image f (C) est un intervalle de R.
Soit φ : R → R une fonction continue strictement croissante sur f (C).
La fonction f atteint un minimum sur C en un point x∗ si et seulement si la fonction φ ◦ f
atteint un minimum sur C en x∗ .
Preuve :
Condition nécessaire :
Comme x∗ minimise f sur C, on a :
∀ x ∈ C, f (x∗ ) ≤ f (x).
Ce qui entraı̂ne (puisque φ est croissante sur f (C)) :
∀ x ∈ C, φ ◦ f (x∗ ) ≤ φ ◦ f (x).
Donc x∗ minimise φ ◦ f sur C.
Condition suffisante :
Si x∗ minimise φ ◦ f sur C, on a :
∀ x ∈ C, φ ◦ f (x∗ ) ≤ φ ◦ f (x).
Puisque φ est continue et strictement croissante sur l’intervalle f (C), elle réalise une bijection de
f (C) sur φ(f (C)) et admet donc une bijection réciproque φ−1 définie sur l’intervalle φ(f (C)) et
à valeur dans f (C). Cette bijection réciproque a même sens de variation que φ. Alors pour tout
x∈C :
φ ◦ f (x∗ ) ≤ φ ◦ f (x)
entraı̂ne que :
φ−1 (φ ◦ f (x∗ )) ≤ φ−1 (φ ◦ f (x))
c’est-à-dire :
f (x∗ ) ≤ f (x),
donc x∗ minimise f sur C. 

Remarque 4.3.1 Ce résultat reste valable pour les problèmes de maximisation.


Ce théorème doit être utilisé pour rendre un problème d’optimisation plus maniable. Par
exemple il est plus facile de résoudre le problème ”maximiser f (x, y) = 23 ln x + 54 ln y sur R∗+ × R∗+ ”
que celui-ci ”maximiser g(x, y) = x 3 y 5 sur R∗+ × R∗+ ”.
2 4

39
4.3.2 Typologie des programmes mathématiques
On distingue plusieurs types de problèmes d’optimisation. Si l’ensemble des solutions réalisables
est un sous-ensemble ouvert du domaine de définition de la fonction-objectif on a affaire à un
problème d’optimisation sans contraintes ou libre et avec contraintes dans le cas contraire. Dans
ce cas très souvent l’ensemble des solutions réalisables est défini en compréhension par la donnée
d’une liste de contraintes d’égalité ou d’inégalité. Une contrainte d’égalité se présente formellement
comme une équation cartésienne du type h(x) = 0 où h est une fonction de Rn dans R et une
contrainte d’inégalité, comme une inéquation du type g(x) ≤ 0 où g est une fonction de Rn dans
R.

Définition 4.3.5 - Un programme mathématique sans contraintes est du type optx∈C f (x) où C
est un sous-ensemble ouvert de Df (Df étant le domaine de définition de f ).
- Un programme mathématique avec contraintes est de la forme optx∈C f (x) où C est défini
par :
 

 gi (x) ≤ 0, i = 1, · · · , m 

C = x ∈ R : hj (x) = 0, j = 1, · · · , p
n

 

x ∈ Ω.
avec Ω est un sous-ensemble ouvert de Rn et les fonctions f , les gi et hj définies sur Rn .

- Si C est un polyèdre convexe fermé et f affine on parle de programme non linéaire.


- Si C est un polyèdre convexe fermé et f quadratique, on parle de programme quadratique.

40
Chapitre 5

Optimisation d’une variable réelle

Ce chapitre est familier pour tous ceux qui ont appris à étudier une fonction d’une variable
réelle en suivant une méthode ”mécanique” et qui savent détecter les points singuliers que sont
les maxima et les minima locaux à coup d’annulation de dérivée première et d’examen du signe
de la dérivée seconde. Tant mieux car ce bagage constitue sans aucun doute le coeur de la théorie
de l’optimisation ou, la base sur laquelle viendront s’appuyer les développements ultérieurs quand
la fonction-objectif sera définie sur Rn .

5.1 Optimisation sur un ouvert


Soit f définie sur l’intervalle ouvert I =]a, b[ avec a < b.

Théorème 5.1.1 f admet un maximum local en x∗ sur I si et seulement si f est croissante à


gauche de x∗ et décroissante à droite de x∗ .
f admet un minimum local en x∗ sur I si et seulement si f est décroissante à gauche de x∗ et
croissante à droite de x∗ .

Preuve :
Démontrons ce résultat dans le cas d’un maximum local en x∗ .
On a par définition : f (x) ≤ f (x∗ ) dans un voisinage V (x∗) de x∗ .
Donc pour tout x ∈ V (x∗ ), on a f (x) − f (x∗ ) ≤ 0.
Si x > x∗ , on a
f (x) − f (x∗ )
≤0
x − x∗
et
Si x < x∗ , on a
f (x) − f (x∗ )
≥ 0.
x − x∗
Ainsi, à gauche de x∗ , le taux d’accroissement de f entre x et x∗ est positif et à droite de x∗ ,
le taux d’accroissement de f entre x∗ et x est négatif. 

5.1.1 Conditions nécessaires d’optimalité locale


A) Condition nécessaire d’optimalité du premier ordre
Soit un intervalle ouvert E =]a, b[ avec a < b de R.

41
Définition 5.1.1 Si f est dérivable en point x∗ , on dira qu’il est un point critique ou stationnaire
de f s’il vérifie l’équation dite d’Euler : f ′ (x) = 0. On dit aussi point candidat.

Théorème 5.1.2 Soit f définie et dérivable sur l’intervalle ouvert E. Si f admet un extremum
local en x∗ ∈ E alors x∗ est un point stationnaire de f .

Preuve :
Démontrons ce résultat dans le cas d’un minimum local en x∗ .
On a par définition : f (x) ≥ f (x∗ ) dans un voisinage V de x∗ .
Pour x ∈ V ∩ E tel que x > x∗ , alors on a :
f (x) − f (x∗ )
≥ 0. (1)
x − x∗
Pour x ∈ V ∩ E tel que x < x∗ , alors on a :
f (x) − f (x∗ )
≤ 0. (2)
x − x∗
Et comme f est dérivable en x∗ , on a :
f (x) − f (x∗ ) f (x) − f (x∗ ) f (x) − f (x∗ )
f ′ (x∗ ) = lim = lim = lim .
x → x∗ x − x∗ x → x∗ x − x∗ x→x∗ x − x∗
x > x∗ x < x∗

Par passage à la limite dans (1), on obtient :


f (x) − f (x∗ )
lim ≥ 0,
x → x∗ x − x∗
x > x∗

soit f ′ (x∗ ) ≥ 0.
De même pour (2) on obtient :
f (x) − f (x∗ )
lim ≤ 0,
x → x∗ x − x∗
x < x∗

soit f ′ (x∗ ) ≤ 0.
Finalement, on obtient f ′ (x∗ ) = 0.
Pour le cas d’un maximum local, la démonstration est analogue. 

Les fonctions convexes et concaves dérivables présentent une particularité intéressante : la


condition nécessaire d’optimisation locale est ipso facto une condition suffisante d’optimum global.

B) Condition nécessaire d’optimalité du second ordre

Théorème 5.1.3 Soit f définie et deux fois continûment dérivable sur l’intervalle ouvert E.
- Si f admet un maximum local en x∗ ∈ E, alors x∗ est un point stationnaire de f et on a
f ′′ (x∗ ) ≤ 0.
Si f admet un minimum local en x∗ ∈ E, alors x∗ est un point stationnaire de f et on a
f ′′ (x∗ ) ≥ 0.

42
Preuve :
Démontrons ce résultat dans le cas d’un maximum local en x∗ . D’après la condition d’optimalité
du premier ordre, on f ′ (x∗ ) = 0.
Par définition, comme x∗ est un point de maximum local, alors il existe un voisinage V (x∗ ) de

x tel que :
f (x) ≤ f (x∗ ) ∀ x ∈ V (x∗ ) ∩ E.
Comme f est deux fois continûment dérivable sur l’intervalle ouvert E, elle admet un développement
de Taylor d’ordre 2 sur V (x∗ ) de x∗ qui s’écrit : ∀ x ∈ V (x∗ ) ∩ E, il existe c compris entre x et x∗
tel que :
1
f (x) = f (x∗ ) + f ′ (x∗ )(x − x∗ ) + (x − x∗ )2 f ′′ (c).
2
′ ∗
Mais comme f (x ) = 0, cette relation devient :
1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c).
2
Posons x = x∗ + h, on obtient donc :
1
f (x∗ + h) = f (x∗ ) + h2 f ′′ (c).
2
En posant c = x∗ + θh (avec θ qui dépend de x et x∗ et vérifie 0 < θ < 1) on a :
1
f (x∗ + h) = f (x∗ ) + h2 f ′′ (x∗ + θh).
2
L’inégalité f (x) ≤ f (x∗ ) équivaut alors à :
1 2 ′′ ∗
h f (x + θh) ≤ 0 ∀ h tel que x∗ + θh ∈ V (x∗ ) ∩ E.
2
Soit encore f ′′ (x∗ + θh) ≤ 0.
Par passage à la limite dans l’inégalité précédente, on a limh→0 f ′′ (x∗ + θh) ≤ 0 et puisque f ′′
est continue en x∗ , on en déduit que :

lim f ′′ (x∗ + θh) = f ′′ (lim (x∗ + θh)) = f ′′ (x∗ ) ≤ 0.


h→0 h→0

D’où le théorème. 

5.1.2 Condition suffisante d’optimalité du second ordre


Théorème 5.1.4 Soit f définie et deux fois continûment dérivable sur l’intervalle ouvert E.
- Si x∗ est un point stationnaire de f avec f ′′ (x∗ ) < 0, alors f admet un maximum local strict
en x∗ .
- Si x∗ est un point stationnaire de f avec f ′′ (x∗ ) > 0, alors f admet un minimum local strict
en x∗ .

Preuve : Démontrons ce résultat dans le cas d’un maximum. On a donc les hypothèses : f ′ (x∗ ) = 0
et f ′′ (x∗ ) < 0.
On veut montrer qu’il existe un voisinage V (x∗ ) de x∗ dans lequel in a : f (x) < f (x∗ ) pour
tout x ∈ V (x∗ ), x ̸= x∗ .

43
Comme f est deux fois continûment dérivable sur l’intervalle ouvert E, elle admet un développement
de Taylor d’ordre 2 en tout point de E.
En x∗ et en tenant compte du fait que f ′ (x∗ ) = 0, on a :
1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c)
2
avec c compris entre x et x∗ .
Puisuqe f ′′ est continue sur E, pour tout ε > 0, il existe un réel α > 0 tel que pour tout x ̸= x∗ ,
vérifiant |x − x∗ | < α, alors |f ′′ (x) − f ′′ (x∗ )| < ε, soit encore f ′′ (x∗ ) − ε < f ′′ (x) < f ′′ (x∗ ) + ε.
Choisissons ε > 0 tel que ε < −f ′′ (x∗ ) ( cela est posible car on a f ′′ (x∗ ) > 0) ; il existe donc
α > 0 tel que :
|x − x∗ | < α ⇒ f ′′ (x∗ ) − ε < f ′′ (x) < f ′′ (x∗ ) + ε
donc f ′′ (x) < 0.
Puisque c est compris entre x et x∗ , on a : |c − x∗ | ≤ |x − x∗ | < α < α, ce qui entraı̂ne f ′′ (c) < 0
et par suite si |x − x∗ | < α et si x ̸= x∗ on a : 12 (x − x∗ )2 f ′′ (c) < 0 donc

1
f (x) = f (x∗ ) + (x − x∗ )2 f ′′ (c) < f ′′ (x∗ ).
2
On a ainsi montré que pour tout ε > 0 tel que 0 < ε < −f ′′ (x∗ ), on peut trouver un réel α > 0
tel que :
∀ x ∈]x∗ − α, x∗ + α[ et x ̸= x∗ , f (x) < f (x∗ ).
Ce qui signifie que dans un voisinage de demi-longueur α, centré sur x∗ , la fonction atteint en x∗
un maximum strict. 

Remarque 5.1.1 Ce théorème suggère une stratégie de recherche des optima. Dans la résolution
pratique des problèmes d’optimisation, la première étape consiste à rechercher les points candidats.
La seconde étape est de calculer la valeur de la dérivée seconde en chaque point candidat, ce qui
permet de conclure sur leur nature.

Remarque 5.1.2 On note que les inégalités caractérisant le signe de la dérivée seconde au point
candidat sont strictes alors qu’elles étaient larges dans la condition nécessaire du second ordre.
Ainsi la condition nécessaire et la condition suffisante ne font pas une condition nécessaire et
suffisante. moralité : quand on a un point candidat x avec f ′′ (x) = 0, il ne faut rien conclure sans
un examen complémentaire

Exemple 5.1.1

La fonction f définie par f (x) = x2 a un point candidat x∗ = 0. En ce point on a : f ′′ (0) = 2 > 0.


D’après le théorème, f admet un minimum local strict au point 0.
La fonction f définie par f (x) = x3 a un point candidat x∗ = 0. En ce point on a : f ′′ (0) = 0.
On ne peut rien conclure à l’existence d’un extremum local en 0.
La fonction f définie par f (x) = x3 +5x2 +3x+5 a deux points candidats x∗1 = −3 et x∗2 = − 13 .
On calcule facilement f ′′ (x∗1 ) = f ′′ (−3) = −8 et f ′′ (x∗2 ) = f ′′ (− 13 ) = 8. Par conséquent la fonction
f passe par un maximum local en x∗1 et un minimum local en x∗2 .

44
5.1.3 Une condition nécessaire et suffisante d’optimalité locale
Cette condition convient aux fonctions définies et indéfiniment continûment dérivable sur un
intervallle ouvert E. Elle doit être utilisée quand la dérivée seconde est nulle en un point candidat.

Théorème 5.1.5 Soit f de classe C ∞ sur l’ouvert E et soit x∗ ∈ E tel que f ′′ (x∗ ) = 0.
f admet un maximum local en x∗ si et seulement si la première dérivée non nulle au point x∗
est d’ordre pair et négative.
f admet un minimum local en x∗ si et seulement si la première dérivée non nulle au point x∗
est d’ordre pair et positive.

Remarque 5.1.3 En pratique, ce théorème s’applique quand la dérivée seconde en un point can-
didat est nulle. Il faut dériver la fonction jusqu’à ce qu’une dérivée non nulle au point candidat
soit détectée. Si l’ordre de celle-ci est paire, on est en présence d’un optimum : maximum si elle
est négative, minimum si elle est positive. Et si son ordre est impair, on est en présence d’un point
d’inflexion.

Exemple 5.1.2

La fonction f définie par f (x) = x3 admet un point d’inflexion en x∗ = 0 car f ′ (0) = f ′′ (0) = 0 et
f ′′′ (0) = 6. La première dérivée non nulle au point candidat est d’ordre impair.
La fonction f définie par f (x) = x4 présente un minimum en x∗ = 0 car f ′ (0) = f ′′ (0) = 0 =
f ′′′ (0) = 0 et f (4) (0) = 24. La première dérivée non nulle au point candidat est d’ordre pair et est
strictement positive.

5.2 Optimisation sur un compact


On s’intéreese ici à l’optimum d’une fonction f sur un intervalle fermé et borné de R. On a le
résultat d’existence suivant.

Théorème 5.2.1 (Théorème de Weierstrass) Si f est continue sur E un intervalle non vide
fermé et borné [a, b] ⊂ R, alors f admet au moins un minimum global et un maximum global sur
I.

D’après le théorème de Weierstrass, une fonction continue sur un intervalle compact E = [a, b]
a la propriété d’atteindre son maximum et son minimum en un point au moins. Dès lors :
- soit ce point est intérieur et les théorèmes de la section précédente permettent de le détecter ;
- soit ce point est une borne, et on dispose des théorèmes suivants, valables si la fonction est
dérivable à droite en a et dérivable à gauche en b.
Pour la borne inférieure a, on a une condition nécessaire et une condition suffisante.

Théorème 5.2.2 (Condition nécessaire) On suppose que f est dérivable à droite en a. Si f


admet un maximum (respectivement un minimum) local en a, alors on a : fd′ (a) ≤ 0 (respective-
ment fd′ (a) ≥ 0).

Théorème 5.2.3 (Condition suffisante) On suppose que f est dérivable à droite en a. Si


fd′ (a) < 0 (respectivement fd′ (a) > 0), alors f admet un maximum (respectivement un minimum)
local en a.

45
Pour la borne supérieure b aussi, on a une condition nécessaire et une condition suffisante.

Théorème 5.2.4 (Condition nécessaire) On suppose que f est dérivable à gauche en b. Si f


admet un maximum (respectivement un minimum) local en a, alors on a : fg′ (b) ≥ 0 (respectivement
fg′ (b) ≤ 0).

Théorème 5.2.5 (Condition suffisante) On suppose que f est dérivable à gauche en b. Si


fg′ (b) > 0 (respectivement fg′ (b) < 0), alors f admet un maximum (respectivement un minimum)
local en b.

Exemple 5.2.1

On considère la fonction f définie par f (x) = 3−x 1+x


sur le compact E = [0, 3].
Cpmme f est une fonction rationnelle définie sur Df = R \ {−1} et puisque E est inclus dans
Df , on sait que f est continue sur le compact E et passe donc par un maximum et un minimum
en veru du théorème de Weierstrass.
Sur E ′ =]0, 3[, la dérivée première f ′ (x) = (1+x)
1
2 ne s’annule pas. Par conséquent f ne prend

pas ses valeurs extremales sur le points intérieurs de E.


Puisque fd′ (0) = −4 < 0 et fg′ (3) = − 14 < 0, on en déduit que f admet un maximum local (qui
est aussi global dans ce cas) en 0 et un minimum local (qui est aussi global) en 3. On a :

max f (x) = f (0) = 3, min f (x) = f (3) = 0.


x∈[0,3] x∈[0,3]

5.3 Fiche pratique de résolution d’un programme d’opti-


misation
L’hypothèse de base est que dans le programme d’optimisation, la fonction-objectif f est définie
et au moins deux fois continûment dérivable sur un sous-ensemble E de R. Deux cas principaux
doivent être distingués : E est un intervalle ouvert, E est un compact.
1) E est un intervalle ouvert de R : E =]a, b[ avec a < b.
On procède comme suit :
a) Recherche des points candidats
i) Calcul de f ′ (x)
ii) Recherche des solutions de l’équation d’Euler : f ′ (x) = 0
iii) S’il existe des solutions, ce sont des points candidats
b) Etude de la nature de chaque point candidat
i) Calcul de f ′′ (x)
ii) Etude du signe de f ′′ (x) sur E (cette étude permet de savoir si f est convexe, est
concave ou ni convexe ni concave.
iii) Si f ′′ (x) ≥ 0 sur E, alors f est convexe sur E et la fonction admet un minimum global
au sens large sur E au point candidat.
iv) Si f ′′ (x) > 0 sur E, alors f est strictement convexe sur E et la fonction admet un
minimum global unique sur E au point candidat.
v) Si f ′′ (x) ≤ 0 sur E, alors f est concave sur E et la fonction admet un maximum global
au sens large sur E au point candidat.
vi) Si f ′′ (x) < 0 sur E, alors f est strictement concave sur E et la fonction admet un
maximum global unique sur E au point candidat.

46
vii) Si f ′′ (x) ne conserve pas un signe constant sur E, la fonction f n’est ni convexe ni
concave sur E. On doit calculer f ′′ (x∗ )
• si f ′′ (x∗ ) > 0, alors f admet un minimum local strict au point candidat
• si f ′′ (x∗ ) < 0, alors f admet un maximum local strict au point candidat
• si f ′′ (x∗ ) = 0, et si f est de classe C ∞ sur E, on recherche la première dérivée non
nulle en x∗ soit f (k) (x∗ ) cette première dérivée. deux cas se présentent :
Cas 1 : k est pair alors :
si f (k) (x∗ ) > 0, f présente un minimum local en x∗ ;
si f (k) (x∗ ) < 0, f présente un maximum local en x∗ ;
Cas 2 : k est impair : alors f présente un point d’inflexion en x∗ .
2) E est un compact de R : E = [a, b] avec a < b.
Il faut distinguer les points intérieurs de E et les bornes.
a) Pour les points intérieurs, l’étude est menée sur ]a, b[ comme il a été indiqué dans 1).
b) Pour la borne a, on calcule fd′ (a) et :
i) si fd′ (a) > 0, alors f admet un minimum local en a
ii) si fd′ (a) < 0, alors f admet un maximum local en a
iii) si fd′ (a) = 0, alors on est en présence d’un cas douteux
c) Pour la borne b, on calcule fg′ (b) et :
i) si fg′ (b) > 0, alors f admet un minimum local en b
ii) si fg′ (b) < 0, alors f admet un maximum local en b
iii) si fg′ (b) = 0, alors on est en présence d’un cas douteux

47
Chapitre 6

Optimisation à plusieurs variables sans


contraintes

Dans cette partie nous nous intéressons aux problèmes du type

α = inf f (x) (P )
x∈Ω

où f est une fonction définie sur Ω un sous-ensemble ouvert non vide de Rn et à valeurs dans R.
Un problème d’optimisation étant donné, deux questions se posent : existe-t-il des solutions ?
Et comment détecter les solutions éventuelles ? La théorie de l’optimisation affronte donc deux
problèmes classiques en mathématiques : celui de l’existence et celui de des méthodes de recherche.
Nous allons considérer et cela sans perdre de généralités que Ω = Rn .

6.1 Résultats d’existence et unicité


On considère d’abord la définition suivante.

Définition 6.1.1 La fonction f est dite coercive (on dit aussi que f est infinie à l’infini) si on
a : f (x) −→ +∞ quand ∥x∥ −→ +∞.

Exemple 6.1.1

1) f : Rn → R telle que f (x) = ∥x∥ est coercive.


2) f : R2 → R telle que f (x, y) = x2 − y 2 n’est pas coercive.
3) f : Rn → R définie par f (x) = ⟨a, x⟩ + b avec a ∈ Rn et b ∈ R n’est pas coercive.
4) f (x, y) = x4 + y 4 − (x − y)2 est coercive sur R2 .
5) f : x ∈ Rn 7→ 12 ⟨Ax, x⟩ − ⟨b, x⟩ où A ∈ Sn (R) est définie positive et b ∈ Rn est coercive.
Pour montrer que f est coercive, on utilise souvent la proposition suivante :

Proposition 6.1.1 Si f : Rn → R est une application et g : R → R vérifie

f (x) ≥ g(∥x∥) avec lim g(t) = +∞


t→+∞

alors f est infinie à l’infini.

Preuve : Immédiate 

48
Théorème 6.1.1 Si f : Rn → R est continue et coercive (infinie à l’infini), alors il existe un
point qui réalise le minimum de f sur Rn . Autrement dit, il existe x ∈ Rn tel que

f (x) ≤ f (y) ∀y ∈ Rn .

Preuve :
Soit α = inf x∈Rn f (x) < +∞. Soit (xk )k∈N une suite minimisante c’est-à-dire telle que :

lim f (xk ) = α < +∞. (6.1)


k→+∞

Montrons que la suite (xk )k∈N est bornée. Par l’absurde, on suppose qu’elle ne l’est pas c’est-
à-dire qu’il existe une sous suite notée (xφ(k) )k de (xk )k∈N telle que : limk→+∞ ∥xφ(k) ∥ = +∞. Par
coercivité de f , on a alors : limk→+∞ f (xφ(k) ) = +∞, ce qui contredit (6.1).
La suite (xk )k∈N est donc bornée : il existe alors une suite extraite notée (xψ(k) )k de (xk )k∈N
qui converge vers x ∈ Rn . En utilisant maintenant la continuité de f , on a alors :

f (x) = lim f (xψ(k) ) = α.


k→+∞

On en déduit alors deux choses : α > −∞ et x solution du problème (P). 

Théorème 6.1.2 (Condition suffisante d’existence de solution optimale) Considérons le


problème (P ). Si f est continue et s’il existe x̄ ∈ Rn tel que l’ensemble {x ∈ Rn : f (x) ≤ f (x̄)}
soit borné alors le problème (P ) admet au moins une solution optimale globale. Ce qui est le cas
si f est continue et coercive.

En ce qui concerne l’unicité de la solution optimale on a le théorème ci-dessous.

Théorème 6.1.3 (Condition suffisante d’unicité) Si f est strictement convexe, alors le problème
(P ) a au plus une solution optimale globale.

Ce théorème n’est pas une condition d’existence de minimum pour la fonction f . Par exemple
la fonction f (x) = ex est strictement convexe mais n’atteint pas son minimum sur R.

Théorème 6.1.4 (Condition d’existence et d’unicité) Si f est continue, coercive et stricte-


ment convexe, alors le problème (P ) admet une et une seule solution optimale globale.

Remarque 6.1.1 Il faut noter que l’hypothèse de continuité dans le théorème ci-dessus n’est pas
nécessaire, car toute fonction convexe sur Rn et à valeurs dans R est continue.

Définition 6.1.2 On appelle fonction elliptique une fonction f ∈ C 1 (Rn , R) fortement convexe.

Théorème 6.1.5 (Condition suffisante d’existence et d’unicité) Si f est une fonction el-
liptique alors le problème (P ) admet une et une seule solution optimale globale.

49
6.2 Conditions d’optimalité
6.2.1 Conditions d’optimalité du premier ordre
Les conditions que nous donnons ici concernent le cas où la fonction-objectif f est différentiable.
On définit :
Définition 6.2.1 Si f : Rn → R une fonction différentiable. On dit que x∗ est un point station-
naire ou critique de f si ∇f (x∗ ) = 0.
On a le théorème :

Théorème 6.2.1 (Condition nécessaire d’optimalité du premier ordre) On suppose que


f : Rn → R est une fonction différentiable. Si x∗ réalise un minimum local (global) de f sur Rn ,
alors on a ∇f (x∗ ) = 0.
Preuve : Soit x∗ réalisant un minimum local de f sur Rn . Le developpement de Taylor au voisinage
de x∗ donne :
f (x) = f (x∗ ) + ⟨∇f (x∗ ), x − x∗ ⟩ + ∥x − x∗ ∥ε(x)
avec limx→x∗ ε(x) = 0.
Si ∇f (x∗ ) ̸= 0, alors en choisissant x = x(λ) = x∗ − λ∇f (x∗ ), on aurait, pour λ > 0 suffi-
samment petit, f (x(λ)) < f (x∗ ). Ce qui contredirait le fait que x∗ réalise un minimum local de f .
Donc la condition est nécessaire. 

Remarque 6.2.1 1) Ce théorème n’a pas de sens si la fonction f n’est pas différentiable en x∗ .
2) Cette condition nécessaire du premier ordre permet de sélectionner un certain nombre de
candidats à être des minima locaux ou globaux. La réciproque est fausse. Un point critique n’est pas
nécessairement un minimum local (global). Ce peut être un minimum local ou global, un maximum
local ou global ou ni l’un ni l’autre. C’est dire que ce résultat n’est en général pas une condition
suffisante.
Dans le cas convexe, la condition nécessaire du premier ordre ci-dessus est suffisante.

Théorème 6.2.2 (Condition nécessaire et suffisante d’optimalité) Si f : Rn → R est une


fonction convexe et différentiable, alors un point x∗ réalise un minimum global de f sur Rn si et
seulement si
∇f (x∗ ) = 0.
Preuve : On sait que la condition est nécessaire. Montrons à présent qu’elle est suffisante.
Soit x∗ un point tel que ∇f (x∗ ) = 0. Comme f est convexe alos, on a :
f (x) ≥ f (x∗ ) + ⟨∇f (x∗ ), x − x∗ ⟩ ∀ x ∈ Rn .
Par hypothèse, on a ∇f (x∗ ) = 0 ; il vient alors que
f (x) ≥ f (x∗ ) ∀ x ∈ Rn .
Ce qui termine la démonstration. 

Corollaire 6.2.1 Si f est une fonction quadratique avec f (x) = 21 ⟨Ax, x⟩ − ⟨b, x⟩ où A est une
matrice carrée d’ordre n à coefficients réels, symmetrique et définie positive, alors il existe un
minimum unique x̄ ∈ Rn de f et qui est l’unique solution du système Ax = b.

50
6.2.2 Conditions d’optimalité du second ordre
Théorème 6.2.3 (Condition nécessaire d’optimalité du second ordre) Si f : Rn → R est
une fonction deux fois différentiable sur Rn , une condition nécessaire pour que x∗ soit un minimum
local (global) de f sur Rn est que : ∇f (x∗ ) = 0 et ∇2 f (x∗ ) est semi défini positif.

Preuve : Soit x∗ un minimum local de f sur Rn . On sait que la condition 1) est satisfaite. Il reste
à montrer la condition 2). Par définition du minimum local, il existe un voisinage V de x∗ dans
Rn tel que f (x) ≥ f (x∗ ) pour tout x ∈ V .
Soit h ∈ Rn . En utilisant le développement de Taylor au voisinage de x∗ , à l’ordre deux et la
condition 1), on a : pour t suffisamment petit,

t2 2
f (x∗ + th) = f (x∗ ) + ⟨∇ f (x∗ )h, h⟩ + t2 ∥h∥2 ε(th),
2
avec ε continue et limt→0 ε(th) = 0.
Pour t ̸= 0 suffisamment petit de sorte que x∗ + th ∈ V , on a :

f (x∗ + th) − f (x∗ ) 1


0≤ 2
= ⟨∇2 f (x∗ )h, h⟩ + ε(th).
t 2
En passant à la limite, t tendant 0, on obtient : ⟨∇2 f (x∗ )h, h⟩ ≥ 0. 
On a aussi une condition suffisante d’optimalité.

Théorème 6.2.4 (Condition suffisante d’optimalité du second ordre) On suppose que f :


Rn → R est une fonction deux fois différentiable sur Rn . Si x∗ est tel que ∇f (x∗ ) = 0 et ∇2 f (x∗ )
est défini positif, alors x∗ est un minimum local strict de f .

Preuve : La matrice étant définie positive, il existe λ > 0 tel que

∀ h ∈ Rn , ⟨∇2 f (x∗ )h, h⟩ ≥ λ∥h∥2 .

D’après la formule de Taylor on a :


1
f (x) − f (x∗ ) = ⟨∇f (x∗ ), x − x∗ ⟩ + ⟨∇2 f (x∗ )(x − x∗ ), x − x∗ ⟩ + ∥x − x∗ ∥2 ε(x − x∗ )
2
avec ε continue et limx→x∗ ε(x − x∗ ) = 0.
On a alors ( )
∗ ∗ 2 λ ∗
f (x) − f (x ) ≥ ∥x − x ∥ + ε(x − x )
2
Pour x suffisamment proche de x∗ , λ
2
+ ε(x − x∗ ) est du signe de λ c’est-à-dire strictement
positif. 
Point méthode
Pour trouver les extrema locaux de f une fonction réelle de n variables réelles de classe C 2 sur un o
Pour voir si la matrice hessienne ∇2 f (x) est définie positive ou définie négative on peut ap-
pliquer la définition ou bien calculer les valeurs propres de la matrice et examiner leur signe ou
encore utiliser le critère des déterminants des sous-matrices.
On rappelle qu’une matrice symétrique est définie positive (respectivement définie négative)
si, et seulement si, ses valeurs propres sont strictement positives (respectivement négatives)

51
Elle est semi-définie positive (respectivement semi-définie négative) si, et seulement si, ses
valeurs propres sont positives ou nulles (respectivement négatives ou nulles).
Donc si on trouve une valeur propre nulle on ne peut pas conclure quant à l’optimalité du
point étudié.
Dans le cas d’une fonction de deux variables, le signe des valeurs propres peut être déterminé
en calculant le déterminant et la trace de la matrice. Le déterminant étant égal au produit des
deux valeurs propres et la trace égale à la somme des deux valeurs propres, si le déterminant
est strictement positif les deux valeurs propres sont du même signe et dans ce cas, si la trace est
strictement positive, les deux valeurs propres sont strictement positives et si la trace est strictement
négative, les deux valeurs propres sont strictement négatives. Si le déterminant est nul alors l’une
des valeurs propres est nulle. Par contre si le déterminant est strictement négatif les deux valeurs
propres sont de signes contraires. Attention : ceci n’est valable que pour des matrices symétriques
d’ordre 2. Pour des fonctions de plus de deux variables il faut calculer les valeurs propres de
la matrices hessienne au point candidat pour trouver leur signe ou bien utiliser le critère des
déterminants des sous-matrices.

Corollaire 6.2.2 Si f ∈ C 2 (Rn , R) (c’est-à-dire que f : Rn → R admet des dérivées partielles


d’ordre 1 et 2 qui sont continues), si x est un point critique de f tel que la matrice hessienne de f
en x (qui est une matrice carrée d’ordre n symmetrique) a pour valeurs propres (qui sont réelles)
ordonnées λ1 ≤ λ2 ≤ · · · ≤ λn , alors :
• Si λi > 0 pour tout i ∈ {1, · · · , n}, f admet un minimum local en x.
• Si λi < 0 pour tout i ∈ {1, · · · , n}, f admet un maximum local en x.
• Si λ1 < 0 et λn > 0, f n’admet pas d’extremum en x.
• S’il existe un i ∈ {1, · · · , n} tel que λi = 0 et les autres valeurs propres sont de même signe,
on ne peut pas conclure.

Corollaire 6.2.3 (cas de dimension deux) Si x est un point critique de f ∈ C 2 (R2 , on définit
les coefficients r, s, t par :

∂ 2f ∂ 2f ∂ 2f ∂ 2f
r= (x), s= (x) = (x), t= (x).
∂x2 ∂x∂y ∂y∂x ∂y 2
Alors
• Si rt − s2 > 0 et r > 0, f admet un minimum local en x.
• Si rt − s2 > 0 et r < 0, f admet un maximum local en x.
• Si rt − s2 < 0, f n’admet pas d’extremum en x, c’est un point selle.
• Si rt − s2 = 0, on ne peut pas conclure.

6.2.3 Récapitulation des conditions


Soit f de classe C 2 sur un ouvert Ω de Rn , et a ∈ Ω :
• f quelconque
Condition nécessaire du premier ordre (CN1) et du second ordre (CN2) :
f admet un minimum local en a =⇒ ∇f (a) = 0 et ∇2 f (a) semi-définie positive
f admet un maximum local en a =⇒ ∇f (a) = 0 et ∇2 f (a) semi-définie négative
Condition suffisante du second ordre (CS2) :
∇f (a) = 0 et ∇2 f (a) définie positive =⇒ f admet un minimum local strict en a
∇f (a) = 0 et ∇2 f (a) définie négative =⇒ f admet un maximum local strict en a

52
On suppose de plus Ω convexe
• f convexe
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un minimum global en a
• f strcictement convexe
Condition nécessaire et suffisante ∇f (a) = 0 ⇐⇒ f admet un minimum global strict en
a
• f concave
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un maximum global en a
• f strcictement concave
Condition nécessaire et suffisante : ∇f (a) = 0 ⇐⇒ f admet un maximum global strict
en a
Point méthode
Soit f de classe C 2 sur un ouvert Ω de Rn . Pour étudier les extrema de f sur Ω, on procède de
la façon suivante :
On cherche les candidats en résolvant ∇f (x) = 0. Soit a ∈ Ω un candidat :
- On calcule ∇2 f (x).
Si ∇2 f (x) n’est pas de même nature sur Ω alors on étudie la nature de ∇2 f (a) :
- si ∇2 f (a) est définie positive, alors f admet un minimum local strict en a ;
- si ∇2 f (a) est définie négative, alors f admet un maximum local strict en a ;
- si ∇2 f (a) est semi-définie positive ou semi-définie négative, alors on ne peut pas conclure ;
- si ∇2 f (a) est indéfinie alors f n’admet pas d’extremum en a.
Si ∇2 f (x) est de même nature sur Ω et Ω convexe :
- si ∇2 f (x) est semi-définie positive ∀x ∈ Ω, alors f est convexe sur Ω d’où f admet un
minimum global en a ;
- si ∇2 f (x) est définie positive ∀x ∈ Ω, alors f est strictement convexe sur Ω d’où f admet un
minimum global strict en a ;
- si ∇2 f (x) est semi-définie négative ∀x ∈ Ω, alors f est concave sur Ω d’où f admet un
maximum global en a ;
- si ∇2 f (x) est définie négative ∀x ∈ Ω, alors f est strictement concave sur Ω d’où f admet
un maximum global strict en a.

53
Chapitre 7

Optimisation avec contraintes

Dans ce chapitre on s’intéresse au problème


α = inf f (x) (P )
x∈C

où C est une partie non ouverte de Rn et f : Rn → R.

7.1 Résultats d’existence et d’unicité


On considère tout d’abord la définition suivante :

Définition 7.1.1 On appelle suite minimisante de f sur C toute suite {xk } de C telle

lim f (xk ) = inf f (x).


k→+∞ x∈C

On montre le résultat d’existence suivant dans le cas où C est borné.

Théorème 7.1.1 (Théorème de Weierstrass) Si f est continue et C est compact non vide,
alors le problème (P ) admet au moins une solution optimale.

Pour le cas où C est non borné, on considère d’abord les définitions suivantes.

Théorème 7.1.2 Si f est continue, coercive, C est non vide, fermé alors le problème (P ) admet
au moins une solution optimale.

Preuve :
Soit {xk } une suite minimisante de f sur C.
La suite {xk } est bornée. En effet si ça n’était pas le cas, il existerait une sous suite {xkl } de
{xk } telle que ∥xkl ∥ −→ +∞. Comme f est coercive, cela impliquerait que α = liml f (xkl ) = +∞.
Ce qui est impossible car f est finie en au moins un point de C car non vide.
La suite {xk } étant bornée, il existe une sous suite {xkl } de {xk } qui converge vers un point x̄
de C car C est fermé.
Comme f est continue, alors on a
α = lim f (xkl ) = f (lim xkl ) = f (x̄).
l l

Donc α = f (x̄) ∈ R. 
On a le résultat sur l’unicité de la solution optimale.

54
Théorème 7.1.3 Si C est convexe et f strictement convexe sur C alors (P ) admet au plus une
solution optimale.
La démonstration est immédiate.

7.2 Conditions d’optimalité


7.2.1 Cas des contraintes d’égalité
On suppose ici que :
C = {x ∈ Rn : hj (x) = 0, j = 1, · · · , q}
où les fonctions hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans R.
On considère la définition suivante :

Définition 7.2.1 Soit x ∈ C. On suppose que les fonction hj (j = 1, · · · , q) sont différentiables


dans un voisinage de x. On dira que le point x est qualifié ou que les contraintes sont qualifiées
en x, si le système {∇hj (x), j = 1, · · · , q} est libre.
On a les conditions nécessaires d’optimalité.

Théorème 7.2.1 (Conditions Nécessaires d’optimalité du premier ordre) Soit x∗ ∈ C.


On suppose que f est différentiable en x∗ , que les fonctions hj , j = 1, · · · , q sont de classe C 1 dans
un voisinage de x∗ ∈ C et que x∗ est qualifié. Alors une condition nécessaire pour que x∗ soit une
solution optimale locale de (P ) est que :

q
∗ ∗
∃!µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0.
j=1

(le vecteur µ∗ est appelé vecteur multiplicateur de Lagrange)

On peut reformuler ces résultats en considérant la fonction de Lagrange.

Définition 7.2.2 On appelle lagrangien associé au problème (P ) avec containtes d’égalité, c’est-
à-dire
min [f (x) : hj (x) = 0, j = 1, · · · , q]
la fonction
L : Rn × Rq −→ R

(x, µ) 7−→ f (x) + qj=1 µj hj (x).
Les conditions nécessaires du premier ordre s’écrivent alors avec la fonction de Lagrange de la
façon suivante.

Proposition 7.2.1 On suppose qu f est différentiable en x∗ ∈ C, que les fonctions hj , j =


1, · · · , q sont de classe C 1 dans un voisinage de x∗ et que le point x∗ est qualifié. Alors une
condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :
{
∗ ∇x L(x∗ , µ∗ ) = 0
∃! µ ∈ R tel que
q
∇µ L(x∗ , µ∗ ) = 0

55
Y a-t-il des situations où la condition nécessaire du théorème (7.2.1) ci-dessus est suffisante
pour que x∗ minimise f sur C ? Oui.

Théorème 7.2.2 (CNS d’optimalité du premier ordre) Supposons f convexe sur un ouvert
contenant C et les hj affines (i.e. de la forme x 7−→ hj (x) = ⟨aj , x⟩−bj ) linéairement indépendantes.
Alors, un élément x∗ ∈ C pour lequel

q
∗ ∗
∃µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0
j=1

est un minimum global de f sur C.

7.2.2 Problème avec contraintes d’inégalité


On suppose ici que
C = {x ∈ Rn : gi (x) ≤ 0, i = 1, · · · , p}
où les fonctions gi , i = 1, · · · , m sont définies sur Rn et à valeurs dans R.

Définition 7.2.3 Soit x̄ ∈ C. On dit que la contrainte d’inégalité gi (x) ≤ 0 est active en x̄, si on
a gi (x̄) = 0.
Pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0} l’ensemble des indices des contraintes
actives en x.

Définition 7.2.4 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi sont affines et
C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i, c’est-à-dire
que C est d’intérieur non vide.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi sont
toutes différentiables dans un voisinage de x et le système formé des gradients des contraintes
actives en x est libre.
On a les conditions d’optimalité :

Théorème 7.2.3 (CN d’optimalité de Kuhn- Tucker)


Soit x∗ ∈ C. On suppose que pour tout i, les gi sont toutes différentiables dans un voisinage de
x∗ et que les contraintes sont qualifiées en x∗ . Alors une condition nécessaire pour x∗ soit une
solution optimale locale de (P ) est :


 ∃ λ ∈ R+ tel
p
que :
∑p
∇f (x ) + i=1 λi ∇gi (x∗ ) = 0


 λ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i

Dans le cas où le problème (P ) est convexe, la condition nécessaire d’optimalité de Kuhn-Tucker
est aussi suffisante.

56
7.2.3 Problème avec contraintes d’égalité et d’inégalité
On s’intéresse ici au
{ }
g (x) ≤ 0, i = 1, · · · , p,
C= x∈R : i
n
hj (x) = 0, j = 1, · · · , q
où les fonctions gi , i = 1, · · · , p et hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans R.
Comme dans le cas précédent, pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0}
l’ensemble des indices des contraintes actives en x.
On définit ici aussi les conditions de qualification.

Définition 7.2.5 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi et hj sont affines
et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, les fonctions hj sont affines linéairement indépendantes,
et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi et hj
sont toutes différentiables dans un voisinage de x et le système formé des gradients de toutes les
contraintes actives en x est libre c’est-àdire : {∇gi (x̄), i ∈ I(x̄), ∇hj (x̄) j = 1, · · · , q} est libre.

Théorème 7.2.4 Soit x∗ ∈ C. On suppose que les fonctions f , gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :


 ∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q








 tels que

 ∑p ∑q

 ∇f (x ∗
) + λ∗
∇g (x ∗
) + ∗ ∗
j=1 µj ∇hj (x ) = 0,

 i=1 i i




 ∗
λi gi (x∗ ) = 0, i = 1, · · · , p.
Dans le cas convexe la condition nécessaire devient aussi suffisante.

Théorème 7.2.5 (CNS d’optimalité de Kuhn-Tucker)


Soit x∗ ∈ C. On suppose que les fonctions f , gi sont convexes et continûment différentiables dans
un voisinage de x∗ , les hj sont affines et que les contraintes sont qualifiées en x∗ . Alors x∗ est une
solution optimale globale de (P ) si et seulement si :


 ∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q








 tels que

 ∑ ∑

 ∇f (x∗ ) + pi=1 λ∗i ∇gi (x∗ ) + qj=1 µ∗j ∇hj (x∗ ) = 0,






 ∗
λi gi (x∗ ) = 0, i = 1, · · · , p.

57
Comme dans les cas précédents, on définit la fonction de Lagrange.

Définition 7.2.6 On appelle lagrangien associé au problème (P ) avec containtes d’égalité et


d’inégalité, c’est-à-dire

min [f (x) : gi (x) ≤ 0, i = 1, · · · , p, hj (x) = 0, j = 1, · · · , q]

la fonction
L : Rn × Rp+ × Rq −→ R
∑ ∑
(x, λ, µ) 7−→ f (x) + pi=1 λi gi (x) + qj=1 µj hj (x).

On montre alors

Proposition 7.2.2 Soit x∗ ∈ C, on suppose que les fonctions f , les gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour qu’il soit une solution optimale locale de (P ) est :

 ∗ ∗
 ∃ λ ∈ R+ , µj ∈ R, j = 1, · · · , q tel que :
p

∇x L(x∗ , λ∗ , µ∗ ) = 0

 λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i

58
Chapitre 6

Optimisation avec contraintes

Dans ce chapitre on s’intéresse au problème

α = inf f (x) (P )
x∈C

où C est une partie de Rn et f : Rn → R.

6.1 Résultats d’existence et d’unicité


On considère tout d’abord la définition suivante :

Définition 6.1.1 On appelle suite minimisante de f sur C toute suite {xk } de C telle

lim f (xk ) = inf f (x).


k→+∞ x∈C

On montre le résultat d’existence suivant dans le cas où C est borné.

Théorème 6.1.1 (Théorème de Weierstrass) Si f est continue et C est compact non


vide, alors le problème (P ) admet au moins une solution optimale.

Pour le cas où C est non borné, on considère d’abord les définitions suivantes.

Définition 6.1.2 la fonction f est p-coercive sur C si


f (x)
lim ∥x∥ p = +∞

∥x∥ → +∞ .
x∈C

Si p = 0 on dit que la fonction f est coercive.

Théorème 6.1.2 Si f est continue, coercive, C est non vide, fermé alors le problème
(P ) admet au moins une solution optimale.

Preuve :
Soit {xk } une suite minimisante de f sur C.
La suite {xk } est bornée. En effet si ça n’était pas le cas, il existerait une sous suite
{x } de {xk } telle que ∥xkl ∥ −→ +∞. Comme f est coercive, cela impliquerait que
kl

47
48 CHAPITRE 6. OPTIMISATION AVEC CONTRAINTES

α = liml f (xkl ) = +∞. Ce qui est impossible car f est finie en au moins un point de C
car non vide.
La suite {xk } étant bornée, il existe une sous suite {xkl } de {xk } qui converge vers un
point x̄ de C car C est fermé.
Comme f est continue, alors on a

α = lim f (xkl ) = f (lim xkl ) = f (x̄).


l l

Donc α = f (x̄) ∈ R. 
Dans le cas où la fonction f est convexe, on a les propriétés suivantes.

Proposition 6.1.1 Soit


Sopt = {x ∈ C : f (x) = α}

l’ensemble des solutions optimales de (P ).


Si C est convexe non vide et f concave sur C alors
• ou bien Sopt ⊂ Fr(C)
• ou bien f est constante sur C.

Preuve : Supposons f non constante sur C et Sopt ̸= ∅.


Si Sopt ∩ int(C) ̸= ∅, alors soit x∗ ∈ int(C) ∩ Sopt . On a alors f (x∗ ) ≤ f (x) pour tout
x ∈ C.
Comme la fonction f est non constante sur C, il existe x̄ ∈ C tel que f (x̄) > f (x∗ ) = α.
On a x∗ ∈ int(C), alors il existe x̃ ∈ C, et t ∈]0, 1[ tels que x∗ = tx̄ + (1 − t)x̃.
La fonction f étant concave, on a α = f (x∗ ) ≥ tf (x̄) + (1 − t)f (x̃) > tα + (1 − t)α = α
Ce qui est contradictoire. Donc Sopt ∩ int(C) = ∅ par suite Sopt ⊂ Fr(C). 

Proposition 6.1.2 Si C est convexe compact non vide et f continue et concave sur C,
alors l’ensemble des solutions optimales de (P ) est non vide et contient des points extrêmes
de C.

Proposition 6.1.3 Si C est un polyèdre convexe non vide et f concave et continue sur
C et si α > −∞ alors l’ensemble des solutions optimales de (P ) est non vide et contient
au moins un sommet de C.

On a le résultat sur l’unicité de la solution optimale.

Théorème 6.1.3 Si C est convexe et f strictement convexe sur C alors (P ) admet au


plus une solution optimale.

La démonstration est immédiate.


6.2. CAS DES CONTRAINTES D’ÉGALITÉ 49

6.2 Cas des contraintes d’égalité


On suppose ici que :

C = {x ∈ Rn : hj (x) = 0, j = 1, · · · , q}

où les fonctions hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans R.


On considère la définition suivante :

Définition 6.2.1 Soit x ∈ C. On suppose que les fonction hj (j = 1, · · · , q) sont


différentiables dans un voisinage de x. On dira que point x est qualifié si le système
{∇hj (x∗ ), j = 1, · · · , q} est libre.

On a les conditions nécessaires d’optimalité.

Théorème 6.2.1 (Conditions Nécessaires d’optimalité du premier ordre) Soit x∗ ∈


C. On suppose que f est différentiable en x∗ , que les fonctions hj , j = 1, · · · , q sont de
classe C 1 dans un voisinage de x∗ ∈ C et que x∗ est qualifié. Alors une condition nécessaire
pour que x∗ soit une solution optimale locale de (P ) est que :


q
∗ ∗
∃!µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0.
j=1

(le vecteur µ∗ est appelé vecteur multiplicateur de Lagrange)

On peut reformuler ces résultats en considérant la fonction de Lagrange.

Définition 6.2.2 On appelle lagrangien associé au problème (P ) avec contraintes d’égalité,


c’est-à-dire
min [f (x) : hj (x) = 0, j = 1, · · · , q]
la fonction
L : Rn × Rq −→ R

(x, µ) 7−→ f (x) + qj=1 µj hj (x).

Les conditions nécessaires du premier ordre s’écrivent alors avec la fonction de La-
grange de la façon suivante.

Proposition 6.2.1 On suppose qu f est différentiable en x∗ ∈ C, que les fonctions hj ,


j = 1, · · · , q sont de classe C 1 dans un voisinage de x∗ et que le point x∗ est qualifié. Alors
une condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :
{
∇x L(x∗ , µ∗ ) = 0
∃! µ∗ ∈ Rq tel que
∇µ L(x∗ , µ∗ ) = 0

Y a-t-il des situations où la condition nécessaire du théorème (6.2.1) ci-dessus est
suffisante pour que x∗ minimise f sur C ? Oui.
50 CHAPITRE 6. OPTIMISATION AVEC CONTRAINTES

Théorème 6.2.2 (CNS d’optimalité du premier ordre) Supposons f convexe sur


un ouvert contenant C et les hj affines (i.e. de la forme x 7−→ hj (x) = ⟨aj , x⟩ − bj )
linéairement indépendantes. Alors, un élément x∗ ∈ C pour lequel

q
∗ ∗
∃µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0
j=1

est un minimum global de f sur C.

On a aussi des conditions d’optimalité du second ordre.

Théorème 6.2.3 (CN d’optimalité du second ordre) Soit x∗ ∈ C. On suppose que


f et les fonctions hj , j = 1, · · · , q sont de classe C 2 dans un voisinage de x∗ ∈ C et que
le système {∇hj (x∗ ), j = 1, · · · , q} est libre. Alors une condition nécessaire pour que x∗
soit une solution optimale locale de (P ) est que :


 ∇ L(x∗ , µ∗ ) = 0
 x
 ∇µ L(x∗ , µ∗ ) = 0
∃!µ∗ ∈ Rq tel que

 ⟨∇2xx L(x∗ , µ∗ )d, d⟩ ≥ 0


∀ d ∈ {d ∈ Rn : ⟨∇hj (x∗ ), d⟩ = 0 ∀ j = 1, · · · , q} .

Le théorème qui suit donne des conditions suffisantes d’optimalité du second ordre.

Théorème 6.2.4 (CS d’optimalité du second ordre) Soit x∗ ∈ C. On suppose que


f et les fonctions hj , j = 1, · · · , q sont de classe C 2 dans un voisinage de x∗ et que le
système {∇hj (x∗ ), j = 1, · · · , q} est libre. Si


 ∇x L(x∗ , µ∗ ) = 0

 ∇ L(x∗ , µ∗ ) = 0
∗ µ
∃ µ ∈ R tel que
q

 ⟨∇2xx L(x∗ , µ∗ )d, d⟩ > 0


∀ 0 ̸= d ∈ {d ∈ Rn : ⟨∇hj (x∗ ), d⟩ = 0 ∀ j = 1, · · · , q} ,

alors x∗ est une solution optimale locale stricte de (P )

6.3 Problème avec contraintes d’inégalité


On suppose ici que

C = {x ∈ Rn : gi (x) ≤ 0, i = 1, · · · , p}

où les fonctions gi , i = 1, · · · , m sont définies sur Rn et à valeurs dans R.

Définition 6.3.1 Soit x̄ ∈ C. On dit que la contrainte d’inégalité gi (x) ≤ 0 est active en
x̄, si on a gi (x̄) = 0.

Pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0} l’ensemble des indices des


contraintes actives en x.
6.3. PROBLÈME AVEC CONTRAINTES D’INÉGALITÉ 51

Définition 6.3.2 On dira que les contraintes sont qualifiées en un point x de C, si l’une
des conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi sont
affines et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont
convexes et différentiables sur un ouvert contenant C, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour
tout i, c’est-à-dire que C est d’intérieur non vide.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi
sont toutes différentiables dans un voisinage de x et le système formé des gradients des
contraintes actives en x est libre.
On a les conditions d’optimalité :

Théorème 6.3.1 (CN d’optimalité de Kuhn- Tucker)


Soit x∗ ∈ C. On suppose que pour tout i, les gi sont toutes différentiables dans un voisinage
de x∗ et que les contraintes sont qualifiées en x∗ . Alors une condition nécessaire pour x∗
soit une solution optimale locale de (P ) est :


 ∃ λ ∈ R+ tel
p
que :
∑p
∇f (x ) + i=1 λi ∇gi (x∗ ) = 0


 λ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i

Dans le cas où le problème (P ) est convexe, la condition nécessaire d’optimalité de


Kuhn-Tucker est aussi suffisante.
On obtient à l’aide du lagrangien les conditions du second ordre.

Théorème 6.3.2 (CN d’optimalité du second ordre)


Soit x∗ ∈ C ; on suppose que les fonctions f et les gi sont deux fois différentiables dans
un voisinage de x∗ et que le système {∇gi (x∗ ), i ∈ I(x∗ )} est libre. Alors une condition
nécessaire pour qu’il soit une solution optimale locale de (P ) est :


 ∃ λ∗ ∈ Rp+ tel que :


 ∗
 ∇x L(x , λ ) = 0

λ∗i gi (x∗ ) = 0, ∀ i ∈ {1, · · · , p},





 ⟨∇2xx L(x∗ , λ∗ )d, d⟩ ≥ 0,


∀ d ∈ {d : ⟨∇gi (x∗ ), d⟩ = 0, i ∈ I(x∗ )}

Théorème 6.3.3 (CS d’optimalité du second ordre)


Soit x∗ ∈ C. On suppose que f et les fonctions gi , i = 1, · · · , p sont de classe C 2 dans un
voisinage de x∗ ∈ C et que le système {∇gi (x∗ ), i ∈ I(x∗ )} est libre. Si


 ∇x L(x∗ , λ∗ ) = 0

 λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p},
∃ λ∗ ∈ Rp+ tel que : i i

 ⟨∇2xx L(x∗ , λ∗ )d, d⟩ > 0


∀ 0 ̸= d ∈ {d ∈ Rn : λ∗i ⟨∇gi (x∗ ), d⟩ = 0 ∀ i ∈ I(x∗ )} ,
alors x∗ est une solution optimale locale stricte de (P )
52 CHAPITRE 6. OPTIMISATION AVEC CONTRAINTES

6.4 Problème avec contraintes d’égalité et d’inégalité


On s’intéresse ici au
{ }
gi (x) ≤ 0, i = 1, · · · , p,
C= x∈R :
n
hj (x) = 0, j = 1, · · · , q

où les fonctions gi , i = 1, · · · , p et hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans


R.
Comme dans le cas précédent, pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0}
l’ensemble des indices des contraintes actives en x.
On définit ici aussi les conditions de qualification.

Définition 6.4.1 On dira que les contraintes sont qualifiées en un point x de C, si l’une
des conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi et hj
sont affines et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont
convexes et différentiables sur un ouvert contenant C, les fonctions hj sont affines linéairement
indépendantes, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi
et hj sont toutes différentiables dans un voisinage de x et le système formé des gradients
de toutes les contraintes actives en x est libre c’est-àdire : {∇gi (x̄), i ∈ I(x̄), ∇hj (x̄) j =
1, · · · , q} est libre.

Théorème 6.4.1 Soit x∗ ∈ C. On suppose que les fonctions f , gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors
une condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :


 ∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q

 tels que
∑ ∑

 ∇f (x∗ ) + pi=1 λ∗i ∇gi (x∗ ) + qj=1 µ∗j ∇hj (x∗ ) = 0,

 ∗
λi gi (x∗ ) = 0, i = 1, · · · , p.

Dans le cas convexe la condition nécessaire devient aussi suffisante.

Théorème 6.4.2 (CNS d’optimalité de Kuhn-Tucker)


Soit x∗ ∈ C. On suppose que les fonctions f , gi sont convexes et continûment différentiables
dans un voisinage de x∗ , les hj sont affines et que les contraintes sont qualifiées en x∗ .
Alors x∗ est une solution optimale globale de (P ) si et seulement si :


 ∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q

 tels que
∑ ∑

 ∇f (x∗ ) + pi=1 λ∗i ∇gi (x∗ ) + qj=1 µ∗j ∇hj (x∗ ) = 0,

 ∗
λi gi (x∗ ) = 0, i = 1, · · · , p.

Comme dans les cas précédents, on définit la fonction de Lagrange.


6.4. PROBLÈME AVEC CONTRAINTES D’ÉGALITÉ ET D’INÉGALITÉ 53

Définition 6.4.2 On appelle lagrangien associé au problème (P ) avec containtes d’égalité


et d’inégalité, c’est-à-dire
min [f (x) : gi (x) ≤ 0, i = 1, · · · , p, hj (x) = 0, j = 1, · · · , q]
la fonction
L : Rn × Rp+ × Rq −→ R
∑ ∑
(x, λ, µ) 7−→ f (x) + pi=1 λi gi (x) + qj=1 µj hj (x).
On montre alors
Proposition 6.4.1 Soit x∗ ∈ C, on suppose que les fonctions f , les gi et les hj sont
continûment différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées
en x∗ . Alors une condition nécessaire pour qu’il soit une solution optimale locale de (P )
est : 
 ∗ ∗
 ∃ λ ∈ R+ , µj ∈ R, j = 1, · · · , q tel que :
p

∇x L(x∗ , λ∗ , µ∗ ) = 0

 λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i

On obtient aussi à l’aide du lagrangien des conditions du second ordre.


Théorème 6.4.3 (CN d’optimalité du second ordre)
Soit x∗ ∈ C ; on suppose que les fonctions f , les gi et les hj sont deux fois continûment
différentiables dans un voisinage de x∗ et que le système {∇gi (x∗ ), i ∈ I(x∗ ), ∇hj (x∗ ), j =
1, · · · , q} est libre. Alors une condition nécessaire pour qu’il soit une solution optimale
locale de (P ) est :


 ∃ λ∗ ∈ Rp+ , µ∗ ∈ Rq tel que :



 ∇x L(x∗ , λ∗ , µ∗ ) = 0



 ∗ ∗
 λi gi (x ) = 0, ∀ i ∈ {1, · · · , p},
∗ ∗ ∗
⟨∇2xx L(x
 , λ , µ )d, d⟩ ≥ 0, 



 
 ⟨∇g (x∗
), d⟩ = 0 pour , i ∈ I(x ∗
) : λ ∗
> 0, 



i i

 ∀ d ∈ d : ⟨∇g ∗
≤ ∈ ∗ ∗

  i (x ), d⟩ 0 pour i I(x ) : λ i = 0,

  
⟨∇hj (x∗ ), d⟩ = 0 pour j = 1, · · · , q.
Théorème 6.4.4 (CS d’optimalité du second ordre)
Soit x∗ ∈ C ; on suppose que les fonctions f , les gi et les hj sont deux fois continûment
différentiables dans un voisinage de x∗ et que le système
{∇gi (x∗ ), i ∈ I(x∗ ), ∇hj (x∗ ), j = 1, · · · , q}
est libre. Si


 ∃ λ∗ ∈ Rp+ , µ∗ ∈ Rq tel que :



 ∇x L(x∗ , λ∗ , µ∗ ) = 0,



 ∗ ∗
 λi gi (x ) = 0, ∀ i ∈ {1, · · · , p},

⟨∇2xx L(x , λ∗ , µ∗ )d, d⟩ > 0, 



 
 ⟨∇gi (x∗ ), d⟩ = 0 pour , i ∈ I(x∗ ) : λ∗i > 0, 




 0 ̸= d ∈ d : ⟨∇gi (x∗ ), d⟩ ≤ 0 pour i ∈ I(x∗ ) : λ∗i = 0,

  
  
⟨∇hj (x∗ ), d⟩ = 0 pour j = 1, · · · , q.
Alors x∗ est une solution optimale locale stricte de (P ).
Chapitre 1

Calcul des variations

1.1 Introduction, Exemples


Le calcul des variations, le principe du minimum de Pontryaguine et la programmation dyna-
mique sont les trois grandes formulations de la théorie de la commande optimale laquelle est un
sous domaine de la théorie générale de l’optimisation.
L’optimisation est une branche importante des mathématiques appliquées. Il n’a pas un do-
maine de l’activité scientifique qui ne se réduit pas à un problème de maximisation ou de minimi-
sation.
Le calcul des variations traite les problèmes de planification des actions par des méthodes
d’analyse mathématique.
Nous donnons ici quelques exemples.
1) Une entreprise a reçu une commande de B unités d’un produit à livrer à un moment T .
Elle cherche un calendrier de production pour satisfaire à cette demande dans le délai spécifié
et à coût minimum sachant que :
a) Le coût de production unitaire varie proportionnellement à la vitesse de production.
b) Les frais de stockage d’une unité de produit par unité de temps sont constants.
Notons x(t) le stock cumulé à l’instant t. Alors : x(0) = 0 et x(T ) = B.
Comme x(t) est la production cumulée sur la période [0, t], donc la variation de stock ∆x(t)
est aussi la variation de production.
Si c1 est le coefficient de proportionnalité relatif au coût de production unitaire, on a :
∆k(t)
∆x(t)
∆x(t)
= c1
∆t

(∆k(t) étant le coût de production sur [t, t + ∆t]).


Ce qui est équivalent à :
∆x(t)
∆k(t) = c1 ∆x(t).
∆t
Les frais de stockage ∆S(t) sur [t, t + ∆t] sont tels que
∆S(t)
x(t) ∆S(t)
= = c2
∆t x(t)∆t

soit ∆S(t) = c2 x(t)∆t.

5
6 CHAPITRE 1. CALCUL DES VARIATIONS

On sait que :
∆x(t) = ẋ(t)∆(t) + o(∆t).
Ainsi, durant la période [t, t + ∆t], la dépense totale de l’entreprise est égale à :

∆x(t)
c1 ∆x(t) + c2 x(t)∆t = [c1 ẋ(t)2 + c2 x(t)]∆t + o(∆t).
∆t
Soit
F (t, x(t), ẋ(t)) = c1 ẋ(t)2 + c2 x(t).
L’objectif de l’entreprise est de déterminer la vitesse de production ẋ(t) (et donc le stock x(t))
pour 0 ≤ t ≤ T de façon à minimiser
Z T
J(x) = F (t, x(t), ẋ(t))dt
0

sachant que 
 x(0) = 0
x(T ) = B

ẋ(t) ≥ 0 ∀t ∈ [0, T ].

2) Soit déterminer la plus courte distance dans le plan entre deux points (t0 , x0 ) et (t1 , x1 ). On
sait que dans le triangle rectangle le carré de l’hypothénuse est égal à la somme des carrés des
autres côtés
Pour une petite distance dl on aura alors
p p
dl = (dt)2 + (dx)2 = 1 + ẋ(t)2 dt.

Donc le problème revient à résoudre le problème


Z t1  
p x(t0 ) = x0
min 2
1 + ẋ(t) dt .
t0 x(t1 ) = x1

Ces trois exemples mettent en évidence l’importance du calcul des variations c’est-à-dire de la
résolution des problèmes pouvant s’énoncer de la façon suivante :
Etant donnés t0 , t1 ∈ R avec t0 < t1 , et F : [t0 , t1 ] × Rn × Rn → R une fonction de classe C 1 ,
déterminer les applications
x : [t0 , t1 ] → Rn
1) minimisant (maximisant) la fonctionnelle
Z t1
f (x) = F (t, x(t), ẋ(t))dt
t0

2) vérifiant les contraintes


a) x ∈ C 1 ([t0 , t1 ], Rn )
b) x(t0 ) = x0
c) x(t1 ) − x1 ∈ C(I, J, K)
où x0 , x1 ∈ Rn sont donnés, I, J, K sont des sous-ensembles d’indices de {1, · · · , n} 2 à 2
disjoints et  
 ξi ≤ 0 i ∈ I 
C(I, J, K) = ξ ∈ Rn : ξ j ≥ 0 j ∈ J .
 k 
ξ =0 k∈K
1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 7

On le note symboliquement
 
Z t1 x ∈ C 1 ([t0 , t1 ], Rn ),
(P) 
α = inf f (x) = F (t, x(t), ẋ(t))dt : x(t0 ) = x0 , .
t0 x(t1 ) − x1 ∈ C(I, J, K)

Dans ce problème, x est appelée variable d’état, les conditions x(t0 ) = x0 et x(t1 ) − x1 ∈
C(I, J, K) sont dites conditions aux limites.
Si I = J = K = ∅, on dit que la valeur terminale de la variable d’état n’est pas astreinte.
On dira que le critère du problème (P) est à coût terminal si on a
Z t1
f (x) = F (t, x(t), ẋ(t))dt + G(x(t1 ))
t0

où G : Rn → R est une fonction de classe C 1 .

1.2 Problème élémentaire du calcul des variations clas-


sique
On considère le problème :
R t1
min
 f (x) = t0
F (t, x(t), ẋ(t)dt
 x(t 0 ) = x0
x(t1 ) = x1 où les points (t0 , x0 ), (t1 , x1 ) sont donnés .

x ∈ C 1 ([t0 , t1 ], R)
où F : [t0 , t1 ] × R × R → R est une fonction continue en (t, x, ẋ) et de classe C 1 par rapport à la
deuxième variable x et à la troisième variable ẋ.
Pour simplifier les notations les dérivées partielles par rapport à la deuxième variable x et à
la troisième variable ẋ seront notées par moment : Fx et Fẋ respectivement.

1.2.1 Conditions nécessaires d’optimalité du premier ordre


On rappelle les résultats suivants :
∂θ
Proposition 1.2.1 (Règle de Leibnitz) Soit θ(s, r) continue avec une dérivée partielle ∂r
conti-
nue dans un rectangle du plan (s, r) :
(
a≤s≤b
.
r ≤ r ≤ r̄
R B(r)
Soit A(r) et B(r) de classe C 1 . Si µ(r) = A(r)
θ(s, r)ds, alors µ est derivable et
Z B(r)
′ ′ ′ ∂θ
µ (r) = θ(B(r), r)B (r) − θ(A(r), r)A (r) + (s, r)ds.
A(r) ∂r

Cette règle permet de dériver une intégrale par rapport à un paramètre sous le signe intégral.

Exemple 1.2.1
8 CHAPITRE 1. CALCUL DES VARIATIONS

Si Z r
V (r) = e−rx P (x)dx
r2
alors Z r
dV (r) 2 3
= P (r)e−r − 2P (r 2)re−r − xe−rx P (x)dx.
dr r2
Rt
Proposition 1.2.2 Si g est une fonction donnée continue sur [t0 , t1 ] et vérifie t01 g(t)h′ (t)dt = 0
pour toute fonction h de classe C 1 sur [t0 , t1 ] avec h(t0 ) = h(t1 ) = 0, alors la fonction g est
constante sur [t0 , t1 ].

Preuve :
Soit c la valeur moyenne de g sur [t0 , t1 ] c’est-à-dire :
Z t1
1
c= g(t)dt.
t1 − t0 t0

Pour toute fonction h vérifiant les hypothèses, on a :


Z t1 Z t1

[g(t) − c]h (t)dt = g(t)h′ (t)dt − c[h(t1 ) − h(t0 )] = 0.
t0 t0

En particulier pour Z t
h(t) = [g(s) − c]ds,
t0

on a h′ (t) = g(t) − c alors


Z t1 Z t1

[g(t) − c]h (t)dt = [g(t) − c]2 dt = 0.
t0 t0

Donc g(t) = c ∀t ∈ [t0 , t1 ]. 

Proposition 1.2.3 Si g et ϕ sont continues sur [t0 , t1 ] et si


Z t1
[g(t)h(t) + ϕ(t)h′ (t)]dt = 0
t0

pour toute fonction h C 1 sur [t0 , t1 ] avec h(t1 ) = h(t0 ) = 0, alors la fonction ϕ est dérivable et
ϕ′ (t) = g(t) ∀t ∈ [t0 , t1 ].

Preuve :
Puisque h est dérivable, on peut intégrer par partie
Z t1 Z t1
g(t)h(t)dt = − G(t)h′ (t)dt
t0 t0

où Z t
G(t) = g(s)ds
t0

car h(t1 ) = h(t0 ) = 0.


1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 9

Il vient alors
Z t1 Z t1

0= [g(t)h(t) + ϕ(t)h (t)]dt = [ϕ(t) − G(t)]h′ (t)dt.
t0 t0

D’après la proposition (1.2.2) ci-dessus,

ϕ(t) − G(t) = cte ∀t ∈ [t0 , t1 ].

Ce qui implique que


ϕ(t) = G(t) + cte ∀t ∈ [t0 , t1 ]
c’est-à-dire Z t
ϕ(t) = g(s)ds + cste ∀t ∈ [t0 , t1 ].
t0

Donc ϕ est dérivable sur [t0 , t1 ] et ϕ′ (t) = g(t). 

Proposition 1.2.4 Soit g une fonction continue sur [t0 , t1 ]. Si


Z t1
g(t)h(t)dt = 0
t0

pour toute fonction h continue sur [t0 , t1 ] telle que h(t1 ) = h(t0 ) = 0 alors g(t) = 0 ∀t ∈ [t0 , t1 ].

Preuve :
Supposons qu’il existe t tel que g(t) > 0. Comme g est continue, on a g(t) > 0 sur un intervalle
[a, b] ⊂ [t0 , t1 ].
Soit 
(t − a)(b − t) si a ≤ t ≤ b
h̄(t) =
0 sinon
On a Z Z
t1 b
g(t)h̄(t)dt = g(t)(t − a)(b − t)dt > 0.
t0 a

car g(t)(t − a)(b − t) > 0 sur ]a, b[.


Or h̄ est continue sur [t0 , t1 ] et vérifie h̄(t0 ) = h̄(t1 ) = 0. Ce qui est contradictoire. 

Théorème 1.2.1 Soit F : [t0 , t1 ] × R × R → R une fonction continue en (t, x, ẋ) et de classe C 1
par rapport à la 2ème et 3ème variable.
Une condition nécessaire d’optimalité pour le problème
R t1
min
 f (x) = t0
F (t, x(t), ẋ(t))dt
 1
 x ∈ C ([t0 , t1 ], R) (P)
x(t0 ) = x0

 x(t ) = x
1 1

est :
d
Fẋ (t, x(t), ẋ(t)) = Fx (t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ] (Equation d’Euler)
dt
(les solutions de l’équation d’Euler sont dites extrémales du critère).
10 CHAPITRE 1. CALCUL DES VARIATIONS

Preuve :
Supposons que x∗ définie sur [t0 , t1 ] est une solution optimale du problème.
Soit x une solution réalisable. On définit la fonction h telle que h(t) est égale à la déviation
entre la courbe optimale et celle de x(t) à l’instant t : h(t) = x(t) − x∗ (t).
Puisque x∗ et x sont réalisables, on a :

h(t0 ) = x(t0 ) − x∗ (t0 ) = x0 − x0 = 0,
h(t1 ) = x(t1 ) − x∗ (t1 ) = x1 − x1 = 0

(on dira qu’une déviation d est réalisable si la fonction x∗ + d est réalisable.)


Pour toute constante réelle a, la fonction y telle que y(t) = x∗ (t) + ah(t) est réalisable.
Pour x∗ et h fixés on a
Z t1 Z t1

f (x + ah) = F (t, y(t), ẏ(t)dt = F (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t)dt.
t0 t0

qui est une fonction g(a) de a, c’est-à-dire

g(a) = f (x∗ + ah).

Puisque x∗ est une solution optimale alors g atteint son minimum en a = 0. Et comme g est
dérivable, alors on a g ′ (0) = 0.
On a : Rt
g ′ (a) = t01 dF (t, x∗ + ah(t), ẋ∗ (t) + ah′ (t))dt
R t1 da
= t0 [Fx (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))h(t)
+Fẋ (t, ẋ(t) + ah(t), ẋ∗ (t) + ah′ (t))h′ (t)]dt
Ce qui donne
Z t1

g (0) = [Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt.
t0

Donc Z t1

g (0) = 0 ⇔ [Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt = 0.
t0

Signalons que la condition g ′(0) = 0 est nécessaire puisque x∗ est optimale.


Comme la fonction h fixée est choisie de façon arbitraire mais devant vérifier seulement les
conditions d’être C 1 avec h(t1 ) = h(t0 ) = 0, on doit avoir :
Z t1
[Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt = 0
t0

pour toute fonction h vérifiant les conditions ci-dessus.


Comme Fx et Fẋ sont continues par hypothèses alors d’après la proposition (1.2.3) Fẋ est
dérivable et on a :
d
Fẋ (t, x∗ (t), ẋ(t)) = Fx (t, x∗ (t), ẋ∗ (t)) ∀t ∈ [t0 , t1 ].
dt
Ce qui termine la démonstration. 
1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 11

Remarque 1.2.1 1) Il est important de noter que l’équation d’Euler est vérifiée pour tout t ∈
[t0 , t1 ].
2) L’équation d’Euler est aussi une condition nécessaire d’optimalité pour un problème de
maximisation.
3) Il faut avoir à l’esprit que Fẋ est une fonction de trois variables (t, x, ẋ) et comme dF
dt

est
la dérivée totale par rapport à t. Dans le cas où F et x sont deux fois dérivables, on a :
d
Fẋ (t, x, ẋ) = Fẋt + Fẋx ẋ + Fẋẋ ẍ.
dt
Donc l’équation d’Euler s’écrit :

Fx = Fẋt + Fẋx ẋ + Fẋẋ ẍ (1.1)

C’est une équation différentielle du second ordre de x(t) à résoudre avec les conditions aux
limites.
En général les coefficients dans (1.1) (les dérivées partielles de F ) ne sont pas constants et
l’équation différentielle est assez difficile à résoudre.

Exemple 1.2.2

1) On considère le problème ci-dessous.


RT 2
min
 0
ẋ (t)dt
x(0) = 0
x(T ) = B

où T et B sont donnés.


On a F (t, x, ẋ) = ẋ2 , ce qui implique que

Fẋ = 2ẋ, Fẋẋ = 2

et les autres dérivées partielles secondes sont nulles.


Comme F est indépendante de x donc Fx = 0, alors l’équation d’Euler est :

2ẍ(t) = 0 ⇔ ẍ(t) = 0,

soit
ẋ(t) = c1 ⇒ x(t) = c1 t + c2 .
Comme x(0) = 0, alors c2 = 0.
Aussi on a x(T ) = B : alors c1 = B
T
.
B
Donc x(t) = T t pour tout t tel que 0 ≤ t ≤ T.
2) Soit le problème : R1
min
 0
[[ẋ(t)]2 + 10tx(t)]dt
x(0) = 1
x(1) = 2
Puisque F (t, x, ẋ) = ẋ2 + 10tx on a
dFẋ
Fx = 10t, Fẋ = 2ẋ et = 2ẍ.
dt
12 CHAPITRE 1. CALCUL DES VARIATIONS

Donc l’équation d’Euler est :


10t = 2ẍ ⇔ ẍ(t) = 5t.
5t2
Ce qui implique que ẋ(t) = + c1 avec c1 une constante.
2
Donc x(t) = 65 t3 + c1 t + c2 avec c2 une constante.
Comme x(0) = 1 on obtient c2 = 1. On a aussi la condition x(1) = 2 soit donc l’équation
2 = 56 + c1 + c2 . On trouve alors c1 = 61 .
En définitive on a :
5 1
x(t) = t3 + t + 1.
6 6
Une autre forme de l’Equation d’Euler est
Z t
∗ ∗
Fẋ (t, x (t), ẋ (t)) = Fx (s, x∗ (s), ẋ∗ (s))ds.
t0

car il suffit de dériver cette dernière pour avoir l’équation d’Euler.

Remarque 1.2.2 (cas spéciaux d’équations d’Euler) 1) Dans le cas où F ne depend que de
t et de ẋ, c’est-à-dire : F (t, x, ẋ) = F (t, ẋ), on a alors Fx = 0. L’équation d’Euler s’écrit alors :
d
Fẋ = 0 ⇒ Fẋ = cte.
dt
2) Si F (t, x, ẋ) = F (x, ẋ), alors
dF
= Fx ẋ + Fẋ ẍ.
dt
En tenant compte de l’équation d’Euler : dF
dt

= Fx , on obtient :
dF dFẋ d
= ẋ + Fẋ ẍ = (ẋFẋ )
dt dt dt
oit :
d
(F − ẋFẋ ) = 0.
dt
Ce qui implique que
F − ẋFẋ = cte.

Exemple 1.2.3
Soit le problème R t1
min
 t0
[3ẋ − tẋ2 ]dt
x(t0 ) = x0
x(t1 ) = x1
Ici F ne depend pas de x. L’équation d’Euler est donc :
Fẋ = 3 − 2tẋ = c0 (constante)
Ce qui est équivalent à :
3 − c0
tẋ =
= c1 .
2
On obtient donc ẋ = ct1 soit x(t) = c1 ln t + c2 .
Les constantes c1 et c2 sont obtenues en considérant les conditions aux limites, à savoir :
x0 = c1 ln t0 + c2 x1 = c1 ln t1 + c2 .
1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 13

Exemple 1.2.4

Soit à résoudre le problème qui consiste à déterminer parmi toutes les courbes joignant (t0 , x0 )
et (t1 , x1 ), celle qui génère une surface de révolution minimale autour de l’axe de t.
Cela revient à résoudre le problème :
R t1 1
min
 t0
2πx[1 + ẋ2 ] 2 dt
x(t0 ) = x0 ,
x(t1 ) = x1 .
Sans perdre de généralités on peut ignorer la constante 2π.
On a
xẋ
Fẋ = 1
(1 + ẋ2 ) 2
l’équation d’Euler est : F − ẋFẋ = cte. Soit :

1 xẋ2 1
x(1 + ẋ2 ) 2 − 1 = c ⇔ x = c(1 + ẋ2 ) 2 .
(1 + ẋ2 ) 2

D’où
x2 − c2
x2 = c2 + c2 ẋ2 ⇔ ẋ2 = .
c2
On a alors r
x2 − c2
ẋ = ± ,
c2
et donc
cdx 1
1 = dt ⇒ c ln(x + (x2 − c2 ) 2 ) = t + k.
(x2 − c2 ) 2

Remarque 1.2.3 Les équations d’Euler simplifiées ci-dessus ne sont pas les voies les plus simples
toujours comme on peut le constater dans l’exemple ci-dessous.

Exemple 1.2.5

Considérons le problème :
R t1
min
 t0
(2x2 + 3xẋ − 4ẋ2 )dt
x(t0 ) = x0 on a F = F (x, ẋ)
x(t1 ) = x1

Si on considère l’équation d’Euler simplifiée sous la forme

F − ẋFẋ = cte

on aura à résoudre l’équation 2x2 + 4ẋ2 = c qui est une équation différentielle non linéaire.
Mais par contre si on considère l’équation d’Euler directe

Fx = Fẋt + Fẋx ẋ + Fẋẋ ẋ

on obtient :
4x + 3ẋ = 3ẋ − 8ẍ
⇔ 4x = −8ẍ
⇔ 2ẍ + x = 0
14 CHAPITRE 1. CALCUL DES VARIATIONS

qui est une équation différentielle du second ordre à coefficients constants et qui est plus facile à
résoudre.
Dans le théorème (1.2.1) nous avons considéré des solutions de classe C 1 . Il existe des problèmes
de calcul des variations qui n’ont pas de solution de classe C 1 . C’est pour cela qu’on utilise souvent
le résultat du théorème ci-dessous.

Théorème 1.2.2 Soit F : [t0 , t1 ] × R × R → R une fonction continue en (t, x, ẋ) et de classe C 1
par rapport à la 2ème et 3ème variable.
Une condition nécessaire d’optimalité pour le problème
Rt
min f (x) = t01 F (t, x(t), ẋ(t))dt

 1
 x ∈ Cpm ([t0 , t1 ], R) (P)
x(t0 ) = x0

 x(t ) = x
1 1

est : Z t
∃ c ∈ R : ∀ t ∈ [t0 , t1 ], Fẋ (t, x(t), ẋ(t)) = Fx (s, x(s), ẋ(x))ds + c.
t0

Ce qui s’écrit :
(
d
F (t, x(t), ẋ(t)) = Fx (t, x(t), ẋ(t)) si x est dérivable en t ∈]t0 , t1 [
dt ẋ
lims→t− Fẋ (s, x(s), ẋ(s)) = lims→t+ Fẋ (s, x(s), ẋ(s)) si x n’est pas dérivable en t

1.2.2 Conditions nécessaires et suffisantes d’optimalité


Théorème 1.2.3 Supposons que F est continue en (t, x, ẋ), de classe C 1 par rapport à x et ẋ et
convexe par rapport à (x, ẋ).
Alors l’équation d’Euler est une condition nécessaire et suffisante d’optimalité pour le problème
R t1
min
 f (x) = t0 F (t, x(t), ẋ(t))dt

 x(t0 ) = x0 .
x(t1 ) = x1

 x ∈ C 1 ([t , t ], R)
0 1

Preuve : On sait que la condition est nécessaire.


Supposons à présent que x∗ vérifie l’équation d’Euler.
Soit x une solution réalisable. On a
Rt
f (x) − f (x∗ ) = t01 [F (t, x(t), ẋ) − F (t, x∗ (t), ẋ∗ (t))]dt
R t1
≥ t0
[(x(t) − x∗ (t))Fx (t, x∗ (t), ẋ∗ (t)) + (ẋ(t) − ẋ∗ (t))Fẋ (t, x∗ (t), ẋ∗ (t))]dt .
R t1 d
≥ t0
(x(t) − x∗ (t))[Fx (t, x∗ (t), ẋ∗ (t)) − F (t, x∗ (t), ẋ∗ (t))]dt
dt ẋ
=0

Donc x∗ est optimale. 


1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 15

1.2.3 Conditions d’optimalité du second ordre


En optimisant une fonction f de classe C 2 d’une variable réelle x sur un ouvert, on sait que si

x minimise f alors on a :  ′ ∗
f (x ) = 0
f ”(x∗ ) ≥ 0.
En outre si x∗ est tel que f ′ (x∗ ) = 0 et f ”(x∗ ) > 0, alors x∗ est un minimum local strict de f .
En d’autres termes, si la fonction f est stationnaire en x∗ et est localement convexe dans un
voisinage de x∗ alors x∗ est un minimum local.
Ici des conditions analogues peuvent être développées pour les problèmes élémentaires de calcul
des variations classiques.
Avant de donner ces conditions montrons le résultat suivant.

Lemme 1.2.1 Soit P et Q des fonctions continues sur un intervalle ouvert J contenant [t0 , t1 ].
Si on a Z t1
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≥ 0
t0

pour toute fonction h continue sur J et de classe C 1 sur [t0 , t1 ] avec h(t0 ) = h(t1 ) = 0 alors
P (t) ≥ 0 ∀t ∈ [t0 , t1 ].

Preuve :
Supposons qu’il existe un élément t̄ de [t0 , t1 ] tel que P (t̄) < 0. Puisque P est continue, il existe
un intervalle [s − c, s + c] inclus dans [t0 , t1 ] tel que

∀t ∈ [s − c, s + c] P (t) < b < 0.

Posons 
sin2 π( t−s ) pour s−c≤t≤s+c
h(t) = c
0 ailleurs
Alors ∀t ∈ [s − c, s + c]

2π π π(t − s)
h′ (t) = sin θ cos θ = sin 2θ où θ= .
c c c
Alors h est continue sur [t0 , t1 ] et de classe C 1 sur [t0 , t1 ] avec

h(t0 ) = h(t1 ) = 0.

Donc
R t1
t0
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≥ 0
R s+c R s+c 2
⇔ s−c
Q(t) sin4 dt + s−c
P (t) πc2 sin2 2θdt ≥ 0
or
Z s+c Z 2π
π2 bπ bπ 2 2π(t − s)
P (t) 2 sin2 2θdt ≤ sin2 xdx = (x = 2θ = ).
s−c c 2c −2π c c
Q étant continue sur [s − c, s + c], il existe un nombre réel M tel que

∀t ∈ [s − c, s + c] − M ≤ Q(t) ≤ M.
16 CHAPITRE 1. CALCUL DES VARIATIONS

Alors Z Z
s+c s+c
4
Q(t) sin dt ≤ (M)dt = 2cM.
s−c s−c

Donc Z t1
bπ 2
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≤ + 2cM.
t0 c
bπ 2 bπ 2
Par ailleurs c + 2cM < 0 ⇔ 2M < −c2 .
Donc en choisissant c suffisamment petit nous pouvons obtenir
Z t1
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt < 0
t0

ce qui contredit le fait que


Z t1
[P (t)(h′ (t))2 + Q(t)(h(t))2 ]dt ≥ 0
t0

pour toute fonction h de classe C 1 sur [t0 , t1 ] tel que h(t1 ) = h(t0 ) = 0. D’où le résultat. 
Montrons à présent la condition nécessaire d’optimalité du second ordre de Legendre.

Théorème 1.2.4 (Condition nécessaire d’optimalité du second ordre de Legendre)


On considère le problème
R t1
min
 f (x) = t0
F (t, x(t), ẋ(t))dt

 x(t0 ) = x0
x(t1 ) = x1

 x ∈ C 1 ([t , t ], R)
0 1

Supposons que F est continue et de classe C 2 par rapport à x et ẋ et Fxẋ est de classe C 1 par
rapport à t.
Une condition nécessaire d’optimalité pour le problème ci-dessus est

 dFẋ
 i)Fx (t, x(t), ẋ(t)) = dt (t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ],

 ii)F (t, x(t), ẋ(t)) ≥ 0 ∀t ∈ [t , t ].
ẋẋ 0 1

La condition i) est l’équation d’Euler et ii) est celle de Legendre.

Preuve : Supposons que x∗ est une solution optimale du problème et considérons un élément h
de classe C 1 sur [t0 , t1 ] tel que h(t1 ) = h(t0 ) = 0, et la fonction réelle en a
Z t1

g(a) = f (x (t) + ah(t)) = F (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))dt.
t0

Alors g est dérivable dans un voisinage de 0 et admet 0 comme un minimum local. On a


Z t1

g (a) = [Fx (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))h(t) + Fẋ (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))h′ (t)]dt.
t0
1.2. PROBLÈME ÉLÉMENTAIRE DU CALCUL DES VARIATIONS CLASSIQUE 17

La fonction g est aussi deux fois derivable dans un voisinage de 0 avec


Rt
g”(a) = t01 [Fxx (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))(h(t))2 +
2Fxẋ (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))h(t)h′ (t)
+Fẋ2 (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))(h′ (t))2 ]dt

On doit donc avoir g ′ (0) = 0 et g”(0) ≥ 0.


Soit Z t1

g (0) = [Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t)]dt = 0 (1.2)
t0

et R t1
g”(0) = [Fxx (t, x∗ (t), ẋ∗ (t))(h(t))2 + 2Fxẋ (t, x∗ (t), ẋ∗ (t))h(t)h′ (t)+
t0 (1.3)
Fẋ2 (t, x∗ (t), ẋ∗ (t))(h′ (t))2 ]dt ≥ 0.
Or Z Z
t1 t1
∗ ∗ ′ d
Fxẋ (t, x (t), ẋ (t))h(t)h (t)dt = − Fxẋ (t, x∗ (t), ẋ∗ (t))(h(t))2 dt.
t0 t0 dt
La condition (1.2) donne l’équation d’Euler.
La condition (1.3) s’écrit encore
Z t1
d 2
g”(0) = [(Fxx (t, x∗ (t), ẋ∗ (t)) − Fxẋ (t, x∗ (t), ẋ∗ (t)))h2 (t) + Fẋ2 h′ (t)]dt ≥ 0.
t0 dt

Posons
d
P (t) = Fẋ2 (t, x∗ (t), ẋ∗ (t)) et Q(t) = Fxx (t, x∗ (t), ẋ∗ (t)) − Fxẋ (t, x∗ (t), ẋ∗ (t)).
dt
Alors d’après le lemme (1.2.1) ci-dessus on doit avoir P (t) ≥ 0 ∀t ∈ [t0 , t1 ], c’est-à-dire :

Fẋ2 (t, x∗ (t), ẋ∗ (t)) ≥ 0 ∀t ∈ [t0 , t1 ].

Ce qui termine la démonstration. 

Remarque 1.2.4 1) Pour un problème de maximisation la condition de Legendre est

Fẋ2 (t, x∗ (t), ẋ∗ (t)) ≤ 0 ∀t ∈ [t0 , t1 ].

2) La condition Fẋ2 (t, x∗ (t), ẋ∗ (t)) > 0 ∀t ∈ [t0 , t1 ] n’est pas une condition suffisante d’opti-
malité comme on peut l’observer dans l’exemple ci-dessous.

Exemple 1.2.6

Considérons le problème :
R 2π 2 2
min
 f (x) = 0 (−x + ẋ )dt
x(0) = x(2π) = 0.

On a Fẋ2 (t, x∗ (t), ẋ∗ (t)) > 0.


On montre facilement que les extrémales sont de la forme x(t) = c sin t avec une valeur f (x) = 0.
t2
Par contre si on considère y(t) = t − 2π qui est une solution réalisable, on a f (y) < 0.
18 CHAPITRE 1. CALCUL DES VARIATIONS

1.3 Problèmes avec conditions particulières


On commence cette section par le problème avec ligne terminale verticale qui est un peu plus
simple à traiter.

1.3.1 Problème avec ligne terminale verticale


On s’intéresse ici au problème
R t1
min
 f (x) = t0
F (t, x(t), ẋ(t))dt

 x(t0 ) = x0
 .
avec t0 , t1 , x0 donnés

 la valeur x(t1 ) = x1 étant libre

x ∈ C 1 ([t0 , t1 ], R)
On se propose de déterminer les conditions nécessaires d’optimalité de ce problème.
Soit x une solution optimale. Considérons x(t) + ah(t) une famille de courbes admissibles où
x(t) et h(t) sont fixés. On a alors h(t0 ) = 0.
Soit Z t 1

g(a) = F (t, x(t) + ah(t), ẋ(t) + ah′ (t))dt.


t0

Comme x est optimale, on doit avoir g ′(0) = 0. On a :


Z t1

g (a) = [Fx (t, x(t) + ah(t), ẋ(t) + ah′ (t))h(t) + Fẋ (t, x(t) + ah(t), ẋ(t) + ah′ (t))h′ (t)]dt.
t0

Donc Z t1

g (0) = 0 ⇔ [Fx (t, x(t), ẋ(t))h(t) + Fẋ (t, x(t), ẋ(t))h′ (t)]dt = 0.
t0
Comme
R t1 Rt 
Fẋ (t, x(t), ẋ(t))h′ (t)dt = [Fẋ (t, x(t), ẋ(t))h(t)]tt10 − t01 dFẋ
(t, x(t), ẋ(t)) h(t)dt
t0 Rt dt
dFẋ

= Fẋ (t1 , x(t1 ), ẋ(t1 ))h(t1 ) − t01 dt
(t, x(t), ẋ(t)) h(t)dt

car h(t0 ) = 0, on obtient alors :


Z t1  
dFẋ
Fx (t, x(t), ẋ(t)) − (t, x(t), ẋ(t)) h(t)dt + Fẋ (t1 , x(t1 ), ẋ(t1 ))h(t1 ) = 0. (1.4)
t0 dt
La condition (1.4) doit être vérifiée pour toute fonction admissible donc aussi pour les fonctions
terminant au même point que la fonction optimale x. C’est-à-dire pour toutes les courbes vérifiant
aussi h(t1 ) = 0. Donc on a l’équation d’Euler
dFẋ
Fx (t, x(t), ẋ(t)) = (t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ].
dt
On déduit alors que
Fẋ (t1 , x(t1 ), ẋ(t1 ))h(t1 ) = 0
et cela pour toute fonction admissible h. On a par suite :
Fẋ (t, x(t1 ), ẋ(t1 )) = 0.
On peut alors résumer :
1.3. PROBLÈMES AVEC CONDITIONS PARTICULIÈRES 19

Proposition 1.3.1 Une condition nécessaire d’optimalité pour le problème


Rt
min f (x) = t01 F (t, x(t), ẋ(t))dt


 x(t0 ) = x0
x(t1 ) = x1 avec (x0 , t0 , t1 ) donnés et x1 libre

 x ∈ C 1 ([t , t ], R)
0 1

est (
Fx (t, x(t), ẋ(t)) = dF dt

(t, x(t), ẋ(t)) ∀t ∈ [t0 , t1 ]
Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0 (Condition de transversalité)

Exemple 1.3.1

Considérons le problème avec ligne terminale verticale suivant :


R t1 p
min
 t0
1 + ẋ(t)2 dt
x(t0 ) = x0 .
x(t1 ) = x1 avec t0 , x0 , t1 donnés.

On sait que l’équation d’Euler donne :

x(t) = c1 t + c2 .

La condition de transversalité donne Fẋ (t1 ) = √ ẋ(t1 ) = 0 c’est-à-dire ẋ(t1 ) = 0 soit alors
1+ẋ(t1 )2
c1 = 0.
Donc x(t) = c2 . Et comme x(t0 ) = x0 , on obtient x(t) = x0 pour tout t vérifiant t0 ≤ t ≤ t1 .

1.3.2 Problème avec horizon libre


Considérons le problème
 R t1
 min f (x) = t0 F (t, x(t), ẋ(t))dt
x ∈ C 1 ([t0 , t1 ], R)

x(t0 ) = x0

où (t0 , x0 ) est donné mais ni t1 ni x1 = x(t1 ) ne sont donnés.


On s’intéresse aux conditions nécessaires d’optimalité de ce problème.
Soit t1 et x∗ (t), t0 ≤ t ≤ t1 une solution optimale.
Considérons une fonction de comparaison x(t), t0 ≤ t ≤ t1 + δt1 (les domaines des deux
fonctions peuvent être légèrement différents) avec |δt1 | petit.
Les fonctions x∗ et x sont de classe C 1 et vérifient la condition initiale.
On va étendre les fonctions x∗ et x sur [t1 , t1 + δt1 ] de façon à avoir des fonctions ayant le
même domaine. Pour cela,
- si δt1 > 0 on étend x∗ de la façon suivante :

x∗ (t) = x∗ (t1 ) + ẋ∗ (t1 )(t − t1 ) pour t1 ≤ t ≤ t1 + δt1 ,

- si δt1 < 0 on étend x de la façon suivante :

x(t) = x(t1 + δt1 ) + ẋ(t1 + δt1 )(t − t1 − δt1 ) pour t1 + δt1 ≤ t ≤ t1 .


20 CHAPITRE 1. CALCUL DES VARIATIONS

On a fait dans ce cas que des extrapolations linéaires.


On définit la fonction h comme la différence des fonctions étendues sur leur domaine commun.
Donc x(t) = x∗ (t) + h(t) pour t vérifiant t0 ≤ t ≤ max{t1 , t1 + δt1 }.
On a
x∗ (t0 ) = x(t0 ) = x0 ⇒ h(t0 ) = 0.
On dira que les deux fonctions x∗ et x sont proches si kx − x∗ k est assez petit, où

kx − x∗ k = max |h(t)| + max |h′ (t)| + |δt1 | + |x(t1 + δt1 ) − x∗ (t1 )| : t ∈ [t0 , max{t1 , t1 + δt1 }].
t t

Les deux derniers termes représentent les différences des coordonnées des points terminaux des
courbes x∗ (t) et x(t) non étendues. Donc les deux courbes sont proches si en chaque point du
domaine étendu, leurs valeurs sont proches, leurs pentes sont égales et leurs points terminaux sont
proches.
On définit pour δt1 assez petit,
Z t1 +aδt1
g(a) = F (t, x∗ (t) + ah(t), ẋ∗ (t) + ah′ (t))dt.
t0

La courbe x∗ étant optimale, g atteint un minimum local en 0. On a donc g ′(0) = 0. C’est-à-


dire :
Z t1
∗ ∗
F (t1 , x (t1 ), ẋ (t1 ))δt1 + (Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t))dt = 0. (1.5)
t0

En intégrant par parties et tenant compte de h(t0 ) = 0, (1.5) s’écrit :

F (t1 , x∗ (t1 ), ẋ∗ (t1 ))δt1 + Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))h(t1 )
Rt  (1.6)
+ t01 Fx (t, x∗ (t), ẋ∗ (t)) − dF dt

(t, x∗ (t), ẋ∗ (t)) h(t)dt = 0.

Posons δx1 = x(t1 + δt1 ) − x∗ (t1 ). Comme x∗ et x = x∗ + h sont proches, on a

δx1 ≃ x(t1 ) + ẋ(t1 )δt1 − x∗ (t1 ) ≃ x(t1 ) + ẋ∗ (t1 )δt1 − x∗ (t1 )
= x(t1 ) − x∗ (t1 ) + ẋ∗ (t1 )δt1
= h(t1 ) + ẋ∗ (t1 )δt1 .

⇒ h(t1 ) ≃ δx1 − ẋ∗ (t1 )δt1

En remplaçant h(t1 ) par sa valeur dans (1.6) on obtient :


R t1
(Fx (t, x∗ (t), ẋ∗ (t)) − dF ẋ
(t, x∗ (t), ẋ∗ (t)))h(t)dt + Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))δx1
t0 dt (1.7)
+[F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.

Puisque la courbe de comparaison x peut se terminer au même point que x∗ avec δt1 = 0 et
δx1 = 0, il vient que
Z t1
dFẋ
(Fx (t, x∗ (t), ẋ∗ (t)) − (t, x∗ (t), ẋ∗ (t))h(t)dt = 0
t0 dt

et cela pour toute fonction réalisable vérifiant h(t0 ) = h(t1 ) = 0. On obtient alors : Fx (t, x∗ (t), ẋ∗ (t))−
dFẋ
dt
(t, x∗ (t), ẋ∗ (t)) = 0 : c’est l’équation d’Euler. Par suite (1.7) devient

Fẋ (t1 , x∗ (t1 ), ẋ(t1 ))δx1 + [F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0 (1.8)
1.3. PROBLÈMES AVEC CONDITIONS PARTICULIÈRES 21

cela pour tout δx1 et δt1 . On obtient alors



F (t1 , x∗ (t1 ), ẋ∗ (t1 )) = 0
Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 )) = 0
On peut énoncer alors :

Proposition 1.3.2 Une condition nécessaire d’optimalité pour le problème


R t1
( t0 F (t, x(t), ẋ(t))dt
min
x(t0 ) = x0 (t0 , x0 ) donné
x ∈ C 1 ([t0 , t1 ], R)

est


 i) Equation d’Euler Fx (t, x(t), ẋ(t)) − dF dt

(t, x(t), ẋ(t)) = 0, ∀t ∈ [t0 , t1 ]

 ii) Condition de transversalité
( ( .

 F (t 1 , x(t1 ), ẋ(t1 )) − ẋ(t1 )F (t
ẋ 1 , x(t1 ), ẋ(t 1 )) = 0, F (t1 , x(t1 ), ẋ(t1 )) = 0,

 ⇐⇒
Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0 Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0.

Remarque 1.3.1 A partir de l’équation (1.8), on trouve la condition de transversalité du problème


avec ligne terminale horizontale c’est-à-dire avec x1 fixé et t1 libre. Cette condition est :

F (t1 , x(t1 ), ẋ(t1 )) − ẋ(t1 )Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0.

1.3.3 Problème avec contrainte d’égalité au point terminal


On considère le problème  Rt

 min t01 F (t, x(t), ẋ(t)dt

x ∈ C 1 ([t0 , t1 ], R)

 x(t0 ) = x0

R(t1 ) = x1 .
où R est une fonction différentiable.
On reprend les calculs de la sous section précédente jusqu’à l’équation (1.7). C’est-à-dire :
R t1
(Fx (t, x∗ (t), ẋ∗ (t)) − dF ẋ
(t, x∗ (t), ẋ∗ (t)))h(t)dt + Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))δx1
t0 dt (1.9)
+[F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.
De même que dans la sous section précédente, puisque la courbe de comparaison x peut se
terminer au même point que x∗ avec donc δt1 = 0 et δx1 = 0 on obtient :
Z t1  
∗ ∗ dFẋ ∗ ∗
Fx (t, x (t), ẋ (t)) − (t, x (t), ẋ (t)) h(t)dt = 0 (1.10)
t0 dt
et cela pour toute fonction admissible h vérifiant h(t0 ) = h(t1 ) = 0. Il vient alors que
dFẋ
Fx (t, x∗ (t), ẋ∗ (t)) − (t, x∗ (t), ẋ∗ (t)) = 0 pour tout t ∈ [t0 , t1 ].
dt
C’est l’équation d’Euler. Il reste alors de l’équation (1.10),

Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))δx1 + [F (t1 , x∗ (t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.
22 CHAPITRE 1. CALCUL DES VARIATIONS

Or on a
δx1
R′ (t1 ) = ⇔ δx1 = R′ (t1 )δt1 .
δt1
l’équation ci-dessus s’écrit alors

[R′ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 )) + F (t1 , x(t1 ), ẋ∗ (t1 )) − ẋ∗ (t1 )Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0.

C’est-à-dire

[F (t1 , x∗ (t1 ), ẋ∗ (t1 )) + (R′ (t1 ) − ẋ∗ (t1 ))Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 ))]δt1 = 0 (1.11)

avec δt1 quelconque. On obtient alors

F (t1 , x∗ (t1 ), ẋ∗ (t1 )) + (R′ (t1 ) − ẋ∗ (t1 ))Fẋ (t1 , x∗ (t1 ), ẋ∗ (t1 )) = 0. (1.12)

C’est la condition de transversalité. On peut alors énoncer que

Proposition 1.3.3 Une condition nécessaire d’optimalité pour le problème


R t1 ∗
min
 t0 F (t, x(t), x (t))dt
 1
 x ∈ C ([t0 , t1 ], R)
x(t0 ) = x0

 R(t ) = x avec R différentielle
1 1

est 

 i) Equation d’Euler

 F (t, x(t), ẋ(t)) − dFẋ (t, x(t), ẋ(t)) = 0 pour tout t ∈ [t , t ]
x dt 0 1

 ii) Condition de transversalité


F (t1 , x(t1 ), ẋ(t1 )) + (R′ (t1 ) − ẋ(t1 ))Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0.

Remarque 1.3.2 Si la courbe terminale est sous la forme implicite Q(t1 , x1 ) = 0 où Q est une
fonction en (t, x) différentiable, alors on a :
Qt
Qt δt1 + Qx δx1 = 0 ⇔ δx1 = − δt1
Qx
et la condition de transversalité (1.12) devient
 
Qt (t1 , x(t1 ))
F (t1 , x(t1 ), ẋ(t1 )) − ẋ(t1 ) + Fẋ (t1 , x(t1 ), ẋ(t1 )) = 0. (1.13)
Qx (t1 , x(t1 ))

1.3.4 Problème avec point terminal contrainte en inégalité


Considérons les R t1problèmes
min R t1
 f (x)1= t0 F (t, x(t), ẋ(t))dt min f (x) = F (t, x(t), ẋ(t))dt
 x ∈ C ([t0 , t1 ], R)  t0

  x(t ) = x

 x(t0 ) = x0 

0 0
x(t1 ) = x1
x(t1 ) = x1

 
 t1 ≤ T

 x1 ≥ a 
 t0 , x0 , x1 , T donnés
t0 , t1 , x0 , a donnés
On s’intéresse dans cette section à leurs conditions d’optimalité.
1.3. PROBLÈMES AVEC CONDITIONS PARTICULIÈRES 23

Soit x∗ (t), t0 ≤ t ≤ t1 une fonction optimale.


On note F ∗ (t) = F (t, x∗ (t), ẋ∗ (t)) et f ∗ la valeur optimale du problème. Soit x(t), t0 ≤ t ≤
t1 + δt1 une fonction de comparaison suffisamment proche de x∗ .
En étendant x ou x∗ , on peut supposer qu’elles ont les mêmes [Link] f = f (x). On a
alors
R t +δt Rt
f − f ∗ = t01 1 F (t, x(t), ẋ(t))dt − t01 F (t, x∗ (t), ẋ∗ (t))dt
R t +δt Rt (1.14)
= t11 1 F (t, x(t), ẋ(t))dt + t01 [F (t, x(t), ẋ(t)) − F (t, x∗ (t), ẋ∗ (t))]dt

Comme f ∗ est la valeur optimale , on doit avoirf − f ∗ ≥ 0.


Si δt1 est suffisamment petit et x proche de x∗ , on a
Z t1 +δt1 Z t1 +δt1
F (t, x(t), ẋ(t))dt ≃ F (t1 , x∗ (t1 ), ẋ∗ (t1 ))dt ≃ F ∗ (t1 )δt1 .
t1 t1

En plus
R t1
f − f ∗ = F ∗ (t1 )δt1 + [(x(t) − x∗ (t))Fx∗ (t) + (ẋ(t) − ẋ∗ (t))Fẋ∗ (t)]dt
t0 (1.15)
+ termes de degrés supérieurs

avec Fx∗ (t) = Fx (t, x∗ (t), ẋ(t)), Fẋ∗ (t) = Fẋ (t, x∗ (t), ẋ∗ (t)).
Posons h(t) = x(t) − x∗ (t) on a alors
Z t1
∗ ∗
f − f = F (t1 )δt1 + (Fx∗ (t)h(t) + Fẋ∗ (t)h′ (t))dt + . . . (1.16)
t0

Posons Z t1

δJ = F (t1 )δt1 + (Fx∗ (t)h(t) + Fẋ∗ (t)h′ (t))dt (1.17)
t0

On a Z t1
∗ dFẋ∗
δJ = F (t1 )δt1 + Fẋ∗ (t1 )h(t1 ) + (Fẋ∗ (t) − (t))h(t)dt
t0 dt
car h(t0 ) = 0.
Comme h(t1 ) = δx1 − ẋ∗ (t1 )δt1 , alors
Z t1
∗ ∗ dFẋ∗(t)
δJ = (F (t1 ) − ẋ (t1 )Fẋ∗ (t1 ))δt1 + Fẋ∗ (t1 )δx1 + (Fx∗ (t) − )h(t)dt (1.18)
t0 dt
Comme f − f ∗ ≥ 0, on a nécessairement δJ ≥ 0.
En choisissant les courbes de comparaison tel que δt1 = δx1 = 0, on obtient :
Z t1
dF ∗ (t)
(Fx∗ (t) − ẋ )h(t)dt ≥ 0
t0 dt

pour tout h telle que h(t0 ) = h(t1 ) = 0.


Ce qui implique que Z t1
dFẋ∗(t)
(Fx∗ (t) − )h(t)dt = 0
t0 dt
pour tout h telle que h(t0 ) = h(t1 ) = 0. On obtient alors la condition

dFẋ∗(t)
Fx∗ (t) = , ∀t ∈ [t0 , t1 ].
dt
24 CHAPITRE 1. CALCUL DES VARIATIONS

C’est l’équation d’Euler.


On s’intéresse à présent à la contrainte t1 ≤ T .
On peut alors prendre δx1 = 0. Il vient alors
δJ = (F ∗ (t1 ) − ẋ∗ (t1 )Fẋ∗ (t1 ))δt1 ≥ 0. (1.19)
i) Si on a t1 < T : La courbe de comparaison peut se terminer soit avant t1 soit après t1 donc
δt1 est quelconque.
F ∗ (t1 ) − ẋ∗ (t1 )Fẋ∗ (t1 ) = 0. (1.20)
ii) Si t1 = T alors la courbe de comparaison doit terminer avant t1 et donc δt1 ≤ 0. Ce qui
implique que
F ∗ (t1 ) − ẋ∗ (t1 )Fẋ∗ (t1 ) ≤ 0. (1.21)
On peut combiner (1.20) et (1.21) ce qui donne
F ∗ (t1 ) − ẋ∗ (t1 )Fẋ∗ (t1 ) ≤ 0, (T − t1 )[F (t1 ) − ẋ∗ (t1 )Fẋ∗ (t1 )] = 0. (1.22)
De façon analogue si on s’intéresse à la contrainte x1 ≥ a, on aboutit aux résultats :
Fẋ∗ (t1 ) ≥ 0, (x1 − a)Fẋ∗ (t1 ) = 0. (1.23)
On a alors les propositions suivantes.

Proposition 1.3.4 Une condition nécessaire d’optimalité du problème


Rt
min f (x) = t01 F (t, x(t), ẋ(t))dt


 x ∈ C 1 ([t0 , t1 ], R)



 x(t0 ) = x0
x(t1 ) = x1



 t1 ≤ T


t0 , x0 , x1 , T donnés
est 

 i) Equation d’Euler

 F (t) − dFẋ (t) = 0, ∀t ∈ [t , t ].
x dt 0 1

 ii) Condition de transversalité


F (t1 ) − ẋ(t1 )Fẋ (t1 ) ≤ 0, (T − t1 )[F (t1 ) − ẋ(t1 )Fẋ (t1 )] = 0.
Proposition 1.3.5 Une condition nécessaire d’optimalité du problème
Rt
min f (x) = t01 F (t, x(t), ẋ(t))dt


 x ∈ C 1 ([t0 , t1 ], R)



 x(t0 ) = x0
x(t1 ) = x1



 x1 ≥ a


t0 , t1 , x0 , a donnés
est 

 i) Equation d’Euler

 F (t) − dFẋ (t) = 0, ∀t ∈ [t , t ].
x dt 0 1

 ii) Condition de transversalité


Fẋ (t1 ) ≥ 0, (x1 − a)Fẋ (t1 ) = 0.
1.4. PROBLÈME AVEC CRITÈRE CONTENANT UN COÛT TERMINAL 25

1.4 Problème avec critère contenant un coût terminal


On considère le problème avec critère contenant un coût terminal et à horizon libre.
 Rt

 min t01 F (t, x(t), ẋ(t))dt + G(t1 , x1 )

x ∈ C 1 ([t0 , t1 ], R)

 x(t0 ) = x0 (t0 , x0 ) donné ,

x(t1 ) = x1 .
On s’intéresse aux conditions nécessaire d’optimalité de ce problème. dans lequel on n’a pas
de condition sur t1 ni sur x(t1 ) = x1 .
Soit x∗ (t), t0 ≤ t ≤ t1 une solution optimale et x(t), t0 ≤ t ≤ t1 + δt1 une solution réalisable
de comparaison. On peut étendre soit x∗ soit x de sorte qu’elles aient les mêmes domaines. On
considère
h(t) = x(t) − x∗ (t), t0 ≤ t ≤ max{t, t1 + δt1 }.
En évaluant f (x∗ + ah) sur l’intervalle [t0 , t1 + aδt1 ] on a
Z t1 +aδt1

g(a) = f (x + ah) = F (t, x∗ (t) + ah(t), x∗ + ah′ (t))dt + G(t1 + aδt1 , x1 + aδx1 ).
t0

Comme x∗ est optimale on a nécessairement g ′ (0) = 0 soit :


R t1
t0
(Fx (t, x∗ (t), ẋ∗ (t))h(t) + Fẋ (t, x∗ (t), ẋ∗ (t))h′ (t))dt + Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 ))h(t1 )
+F (t1 , x∗ (t1 ), x˙∗ (t1 ))δt1 + Gt (t1 , x1 )δt1 + Gx (t1 , x1 )δx1 = 0
(1.24)
En intégrant par parties et tenant compte de h(t0 ) = 0 on obtient
R t1
(Fx (t, x∗ (t), ẋ∗ (t)) − dF ẋ
(t, x∗ (t), ẋ∗ (t)))h(t)dt + Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 ))h(t1 )
t0 dt (1.25)
+F (t1 , x∗ (t1 ), x˙∗ (t1 ))δt1 + Gt (t1 , x1 )δt1 + Gx (t1 , x1 )δx1 = 0.

Cette équation reste valable pour les courbes de comparaison terminant en (t1 , x1 ) et donc
δt1 = δx1 = h(t1 ) = 0. Ce qui implique que
dFẋ
Fx (t, x∗ (t), ẋ∗ (t)) − (t, x∗ (t), x˙∗ (t)) = 0 tout le long de x∗ (t), t0 ≤ t ≤ t1 .
dt
On a approximativement
h(t1 ) ≃ δx1 − x∗ (t1 )δt1
En tenant compte de ces équations dans (1.25) on tire

(F (t1 , x∗ (t1 ), x˙∗ (t1 )) − x˙∗ Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gt (t1 , x1 ))δt1
(1.26)
+(Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gx (t1 , x1 ))δx1 = 0.
C’est le résultat fondamental pour déterminer les conditions de transversalité par le problème
considéré ici. On peut à présent tirer les résultats suivants :
i) si t1 est libre dans ce cas δt1 peut avoir n’importe quel signe dans (1.26) donc son coefficient
doit être nul. C’est-à-dire :

F (t1 , x∗ (t1 ), x˙∗ (t1 )) − x˙∗ (t1 )Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gt (t1 , x1 ) = 0 (1.27)

ii) si x1 est libre alors dans ce cas on a δx1 quelconque. Par suite on a :

Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 )) + Gx (t1 , x1 ) = 0 (1.28)


26 CHAPITRE 1. CALCUL DES VARIATIONS

iii) si on a la relation R(t1 ) = x1 alors

δx1
R′ (t1 ) = ⇔ δx1 = R′ (t1 )δt1
δt1
et en remplaçant δx1 par sa valeur dans (1.26) on obtient

F (t1 , x∗ (t1 ), x˙∗ (t1 )) + (R′ (t1 ) − x˙∗ (t1 ))Fẋ (t1 , x∗ (t1 ), x˙∗ (t1 ))
(1.29)
+R′ (t1 )Gx (t1 , x1 ) + Gt (t1 , x1 ) = 0.

On peut dire que

Proposition 1.4.1 Une condition nécessaire d’optimalité pour le problème


 Rt

 min t01 F (t, x(t), ẋ(t))dt + G(t1 , x1 )

 x ∈ C 1 ([t , t ], R)
0 1

 x(t0 ) = x0 (t0 , x0 ) donné ,


x(t1 ) = x1 .

est 
:

 1) Equation d’Euler
Fx (t, x(t), ẋ(t)) − dF
dt

(t, x(t), ẋ(t)) = 0 ∀t ∈ [t0 , t1 ]

 2) Condition de transversalité
La condition de transversalité étant :
- si t1 est libre,

F (t1 , x(t1 ), ẋ(t1 )) − ẋ(t1 )Fẋ (t1 , x(t1 ), ẋ(t1 )) + Gt (t1 , x1 ) = 0

- si x1 est libre,
Fẋ (t1 , x(t1 ), ẋ(t1 )) + Gx (t1 , x1 ) = 0
- si on a la relation R(t1 ) = x1 ,

F (t1 , x(t1 ), ẋ(t1 )) + (R′ (t1 ) − ẋ(t1 ))Fẋ (t1 , x(t1 ), ẋ(t1 ))
+R′ (t1 )Gx (t1 , x1 ) + Gt (t1 , x1 ) = 0.

Vous aimerez peut-être aussi