Document Mathematique
Document Mathematique
1
Chapitre 1
Fonctions réelles de plusieurs
variables réelles
n n n
¯ ¯ s s
¯X ¯
|〈 x, y〉| = ¯ x i yi ¯ ≤ x2i yi2
¯ ¯ X X
¯ i=1 ¯ i =1 i =1
k.k : Rn → R
x 7→ k xk
∀ x ∈ Rn , k xk = 0 =⇒ x1 , x2 , . . . , xn = (0, 0, . . . , 0) ( N2 )
¡ ¢
∀ x ∈ Rn , ∀λ ∈ R, kλ xk = λk xk
2
I. NORMES ET DISTANCES SUR R N
k. k1 : R n → R
•
x 7→ k xk1 = | x1 | + | x2 | + · · · + | xn |
k. k2 : R n → R
• q p
x 7→ k xk2 = x12 + x22 + · · · + x2n = 〈 x, x〉
(appelée norme euclidienne car définie à partir du produit scalaire)
k. k3 : R n → R
•
x 7→ k xk3 = max{| x1 | , | x2 | , . . . , | xn |}
Définition I.3. Une distance (ou métrique) sur Rn est une application d : Rn × Rn → R+ telle
que :
i) ∀ x, y ∈ Rn , d ( x, y) = 0 ⇔ x = y
ii) ∀ x, y ∈ Rn , d ( x, y) = d ( y, x)
d : Rn × Rn → R+
( x, y) 7→ k x − yk
est une distance. C’est la distance associée à la norme k.k. Dans le cas de la nome euclidienne,
on parle de distance euclidienne.
B0 ( x, r ) = { y ∈ Rn : k y − xk < r }
On appelle boule fermée de centre de x et de rayon r par rapport à la norme k.k, l’ensemble
B f ( x, r ) = { y ∈ Rn : k y − xk ≤ r }
S( x, r ) = { y ∈ Rn : k y − xk = r
Définition I.5. On considère Rn muni de la norme k.k. On appelle voisinage d’un point a ∈ Rn ,
toute partie de X contenant une boule ouverte ou une boule fermée de centre a et de rayon r > 0.
On désigne par V (a) l’ensemble des voisinages de a.
Proposition I.2. Toute partie qui contient un voisinage de a est encore un voisinage de a. Toute
intersection d’un nombre fini de voisinages de a est un voisinage de a.
Définition I.7. On considère Rn muni de la norme k.k, une partie A de Rn est appelée un ouvert
si et seulement si pour tout a dans A il existe une boule ouverte centrée en a et un rayon ρ
contenue dans A c’est-à-dire
˙A
∀a ∈ A, ∃ρ > 0 : B0 (a, ρ ) ⊂
Remarque I.1. Dans la définition ci-dessus, on peut remplacer la " boule ouverte " par " boule
fermée ".
Proposition I.4. Pour qu’une partie X soit ouverte, il faut et il suffit qu’elle soit réunion de
boules ouvertes.
Exemple I.2. Dans R2 , les ensembles R2 , R∗+ ×R∗+ , ]a, b[ × ] c, d [ avec a, b, c, d ∈ R sont des ouverts.
Définition I.8. Dans Rn muni de la norme k.k, une partie A de Bn est dite fermée si son com-
plémentaire est un ouvert, c’est-à-dire l’ensemble { x ∈ Rn : x 6∈ A } est ouvert.
Exemple I.3. Dans R2 , les ensembles R2 , R∗+ × R∗+ , [a, b] × [ c, d ] avec a, b, c, d ∈ R sont fermés.
Définition II.1. On appelle de définition de f , l’ensemble des couples ( x, y) ∈ R2 qui ont une
image par f . O le note D f . D f est une partie de R2 .
Exemple II.1. .
y
f ( x, y) = 4 − x2 − y2
p
1) ( x, y) ∈ D f ⇔ 4 − x2 − y2 ≥ 0
x
2) Déterminons des frontières M 1(0, 0) M 2(3, 0)
4 − x2 − y2 = 0 ⇔ x2 + y2 = 22
3) Le cercle divise le plan en deux régions. Prenons deux points quelconques de ces deux
régions.
M1 = (0, 0) et M1 = (3, 0)
Pour M1 , on a 4 − 02 − 02 ≥ 0 et pour M2 on a 4 − 32 − 02 < 0
Donc D f est les cercle et son intérieur qui est le disque fermé .
Pour calculer lim f ( x, y), la première étape consiste à remplacer x par 0 et y par 0, si
(x,y)→(0,0)
on trouve un nombre ∞ c’est bon. Si on trouve une forme indéterminée alors il faut faire le
changement de variable en coordonnées polaires suivant :
x = r cos(θ )
½
(1.1)
y = r sin(θ )
o Si elle dépend de θ (ou t) ou bien n’est pas finie, on dit qu’elle n’existe pas.
Exemple II.3. .
x2 + 2 y + 2 2
1) lim =
(x,y)→(0,0) x + y + 3 3
x3 + 2 x2 y
2) lim (FI)
x2 + y2 = 00
(x,y)→(0,0)
Par le changement en coordonnes polaire, on trouve
x2 + 2 x2 y 0
3) lim = (FI)
(x,y)→(0,0) x2 + y2 0
Par le changement de variable e coordonnées polaires, on trouve
x( tx) tx2 p t
lim p = lim p p = lim x2 × p =0
x →0 x2 + ( tx)2 x→0 2
x 1+ t 2 x→0 1 + t2
0 xy
5) lim (FI) =
(x,y)→(0,0) x2 + y2
0
Par changement de variable y = tx, on a :
x( tx) tx2 t
lim = lim =
x→0) x2 + ( tx)2 x→0 x2 (1 + t2 ) 1 + t2
Cette limite dépend de t, donc elle n’existe pas.
b) Limite en ( x0 , y0 )
On pose : X = x − x0 et Y = y − y0
lim f ( x, y) = lim f ( X + x0 , Y + y0 )
(x,y)→(x0 ,y0 ) (X ,Y )→(0,0)
Exemple II.4. .
x+ y−3 ( X + 1) + (Y + 2) − 3 X +Y
L = lim = lim = lim
(x,y)→(1,2) x2 + y − 3 (X ,Y )→(0,0) ( X + 1)2 + (Y + 2) − 3 (X ,Y )→(0,0) X 2 + 2 X + Y
X + tX 1+ t 1+ t
L = lim = lim =
X →0 X 2 + 2 X + tX X →0 X + 2 + t 2+ t
c) Limite en ( x0 , ∞)
1
On pose X = x − x0 , Y = y
1
lim f ( x, y) = lim f ( X + x0 , )
(x,y)→(x0 ,∞) (X ,Y )→(0,0) y
Exemple II.5.
1 ln( X + 1 + Y
L= lim y ln( x + ) = lim
(x,y)→(1,+∞) y (X ,Y )→(0,0) Y
En posant Y = tX , on obtient :
ln( X + 1 + tX ) ln (1 + (1 + t) X ) 1 + t
L = lim = lim =
X →0 tX X →0 tX t
d) Limite en (∞, ∞)
On pose : X = 1x et Y = 1
y
1 1
lim f ( x, y) = lim f( , )
(x,y)→(∞,∞) (X ,Y )→(0,0) X Y
Exemple II.6. .
1 1 sin( X + Y )
µ¶
L= lim x sin + = lim
(x,y)→(+∞,+∞) x y (X ,Y )→(0,0) X
En posant Y = tX , on obtient :
lim f ( x, y) = f ( x0 , y0 )
(x,y)→(x0 ,y0 )
x2 y
si ( x, y) 6∈ (0, 0)
f ( x, y) = 2 2 (1.2)
x +y
0 si ( x, y) = (0, 0)
x2 y x2 ( tx) tx
lim 2 2
= lim 2 2
= lim = 0 = f (0, 0)
(x,y)→(0,0) x + y x→0 x + ( tx) x→0 1 + t2
Définition III.1. .
o On appelle fonction numérique de n( n ∈ N∗ ) variables réelles, toute fonction de Rn dans R.
On a :
f : Rn → R
( x, y) 7→ f ( x1 , x2 , . . . , xn )
x1
x2
o On appelle ensemble de définition de f et on note D f , l’ensemble des points x = .. ∈ Rn
.
xn
tels que f ( x) = f ( x1 , x2 , . . . , xn ) existe dans R. On a :
x1
x2
n
D f = x = . ∈ R / f ( x1 , x2 , . . . , xn ) ∈ R
..
xn
x1
x2
o On appelle graphe de f l’ensemble G des couples ( x, y) de Rn × R tels que x = .. ∈ D f et
.
xn
f ( x1 , x2 , . . . , xn ) ∈ R.
y = f ( x ) =
x
1
x2
n
On a G = ( x, y) ∈ R × R/ x = .. ∈ D f et y = f ( x) ∈ R
.
xn
Exemple III.1. .
Soit
f : R2 → R
( x, y) 7→ f ( x, y)
b) Fonctions vectorielle
Définition III.2. .
f : Rn → Rp
x1
x2
x = .. 7→ f f 1 ( x), f 2 ( x), . . . , f p ( x)
¡ ¢
.
xn
où pour i = 1, 2, . . . , p, f i : Rn → R
x1
x2
.. 7→ f i ( x1 , x2 , . . . , xn )
.
xn
x1
x2
o On appelle ensemble de définition de f et on note D f l’ensemble des points x = .. de Rn
.
xn
tels que f ( x) = f ( x1 , x2 , . . . , xn ) existe dans R p .
x1
x2 p
\
n p
On a : D f = x = .. ∈ R / f ( x1 , x2 , . . . , xn ) ∈ R = D fi
.
i =1
xn
a) Dérivée partielle
Définition III.3. .
Pour tout i = 1, 2, . . . , n, on appelle dérivée partielle de f par rapport à x i en a, la limite suivante
lorsqu’elle existe :
f (a 1 , a 2 , . . . , a i−1 , x i , a i+1 , . . . , a n ) − f (a 1 , a 2 , . . . , a i−1 , a i , a i+1 , . . . , a n )
lim
x i →a i xi − a i
∂f
Cette limite est alors notée f x0 i (a) ou (a).
∂xi
Définition III.4. (Gradient) Soit f dérivable en a = (a 1 , a 2 , . . . , a n ) ∈ Rn . Le gradient de f en a
est : ¶|
∂f ∂f ∂f
µ
∇ f ( a) = (a), (a), . . . , ( a) ∈ R n
∂ x1 ∂ x2 ∂ xn
b) Différentielle
Définition III.5. .
a1
a2
On dit que la fonction f est différentiable en a = .. ∈ Rn lorsqu’il existe des nombres réels
.
an
h1
h2
β1 , β2 , . . . , βn et une fonction ² tels que pour tout h = . avec a + h dans le voisinage de a :
..
hn
f (a + h) = f (a) + β1 h 1 + β2 h 2 + · · · + βn h n + k hk²( h) avec lim ²( h) = 0.
h→0
Définition III.6. .
La différentielle de f en a est l’application linéaire d f (a) = f 0 (a) de Rn dans R telle que :
d f ( a) = f 0 ( a) : R n → R
h 7→ d f (a) h = f 0 (a) h
n ∂f
(a) h i = ∇| f (a) h = 〈∇ f (a), h〉
X
=
i =1 ∂ x i
n ∂f
L’application d f (a) : Rn → R telle que dh(a) = (a) dx i vérifiant :
X
i =1 ∂ x i
h1
h2 n ∂f
∀ h = . ∈ Rn , dh(a) h = (a) dx i ( h) où dx i ( h) = h i
X
.. ∂xi i =1
hn
est aussi appelée la dérivée totale de f en a.
Exemple III.2. .
Soit f ( x, y) = 5 x2 − 3 x y + y2 et h = ( h 1 , h 2 ) ∈ R2 .
Définition III.7. .
La dérivée partielle seconde de f par rapport à x1 , x2 en a = (a 1 , a 2 ), lorsqu’elle existe est la
∂f
dérivée partielle de ∂ x1
par rapport à x2 en a.
2
∂ f
On la note ∂ x2 x1
( a) ou f x002 x1 (a).
∂2 f
On définit de même les dérivées partielles secondes de f par rapport à x1 , x1 que l’on note ∂ x12
( a)
ou f x001 x1 (a) ainsi que celles par rapport à x2 , x1 et à x2 , x2 en a.
Définition III.8. .
La matrice hessienne de f en a = (a 1 , a 2 ) est la matrice carrée d’ordre 2 suivante :
∂2 f ∂2 f
∂ x2
( a) ∂ x1 ∂ x2
( a)
∇2 f (a) = H ess ( f (a)) = ∂2 1f ∂2 f
∂ x2 ∂ x1
( a) ∂ x22
( a)
∂2 f ∂2 f
( a) = ( a)
∂ x1 ∂ x2 ∂ x2 ∂ x1
∂2 f ∂2 f
Donc si les dérivés partielles secondes ∂ x1 ∂ x2
et ∂ x2 ∂ x1
sont continues en a, la matrice hessienne
en a est symétrique.
Définition III.9. .
O dit que f est de classe C 2 en a lorsque les dérivées partielles secondes de f existent au voisi-
nage et sont continues en a.
Donc, lorsque f est de classe C 2 en a, la matrice hessienne de f en a est symétrique.
Exemple III.3. .
Soit f ( x, y) = 5 x2 − 3 x y + y2 et h = ( h 1 , h 2 ) ∈ R2 .
Calculer les dérivées partielles secondes de f et en déduire la matrice hessienne de f .
b) Généralisation à Rn
Définition III.10. .
a1
a2
La dérivée partielle seconde de f par rapport à x i , x j en a = .. , lorsqu’elle existe est la dérivée
.
an
∂f ∂2 f
partielle de ∂xi
par rapport à x j en a. On la note ∂x j ∂xi
( a) ou f x00i x j (a)
Définition III.11. .
a1
a2
La matrice hessienne de f en a = .. est la matrice carré d’ordre n suivante :
.
an
∂2 f ∂2 f ∂2 f
( a) ( a) ... ( a)
∂ x12 ∂ x1 ∂ x2 ∂ x1 ∂ xn
∂2 f ∂2 f ∂2 f
( a) ( a) ... ( a )
∇2 f (a) = H ess( f , a) = ∂ x2 ∂ x1 ∂ x22 ∂ x2 ∂ xn
... ... ... ...
∂2 f ∂2 f ∂2 f
∂ xn ∂ x1
( a) ∂ xn ∂ x1
( a) ... ∂ x2n
( a)
h1
h2 n ∂2 f X ∂2 f
∀ h = . ∈ Rn , d 2 f (a)( h, h) = h 2
2 ( a) h i h j
X
+
.. ∂ x2 i
i =1 ∂xi ∂x j i< j
hn
Exemple III.4. .
Soit f ( x, y) = 5 x2 − 3 x y + y2 et h = ( h 1 , h 2 ) ∈ R2
Calculons d 2 f ( x, y)( h, h) .
Définition IV.1. .
Soit x, un nombre, et x∗ une approximation de ce nombre.
| x− x∗ | |δ x | ∆x |δ x |
o L’erreur relative est définie par : e r ( x∗ ) = | x| = | x| ≈ | x∗ | = | x∗ | (1.3) De plus, en
multipliant par 100, on obtient l’erreur relative à un pourcentage.
Remarque IV.1. En pratique, il est difficile d’évaluer les erreurs absolues et relatives, car on
ne connait généralement pas la valeur exacte de x et l’on a pas x∗ . C’est pour quoi on utilise
∆x
l’approximation | x∗ |
pour l’erreur relative.
Dans le cas de quantités mesurées expérimentalement dont on ne connait que la valeur approxi-
mative x∗ , on dispose souvent d’une borne supérieure pour l’erreur absolue qui dépend de la
précision des instruments de mesure utilisés.
Cette borne ² est quand même appelée erreur absolue alors qu’en fait on a | x − x∗ | ≤ ² ce qui peut
également s’écrire : x∗ − ² ≤ x ≤ x∗ + ².
Définition IV.2. .
Soit f : R → R une fonction de classe C 1 .
Soit f ( x + δ x ) = f ( x) + δ x f ( x)0 + o(δ x ).
Alors
f (x+δ x )− f (x)
o f 0 ( x) ≈ δx
l’approximation numérique de f 0 ( x).
Définition IV.3. .
Soit f : R → R une fonction de classe C 1 .
Soit x une approximation du nombre x + δ x où δ x l’erreur de l’approximation et f ( x) une ap-
proximation de f ( x + δ x ) .
∆f |δ f | | f 0 ( x )|
er( f ) = = =≈ ∆ x = ∆ x |(ln| f ( x)|)0 |
| f ( x + δ x )| | f ( x + δ x )| | f ( x )|
∂ ln( f ) ∂ ln( f )
= ∆x | | + ∆ y| |
∂x ∂y
De plus, en multipliant par 100, on obtient l’erreur relative en pourcentage.
Exercice 1
p
Sans calculatrice, donner une valeur approchée de 9, 004 ; ln(1, 001) ; 1, 011,01 .
Exercice 2
Exercice 3
On considère le cercle de rayon R . On note S l’aire du disque ainsi délimité. On a
R = 10, 0 ± 0, 1 m.
Calculer l’ordre de grandeur de l’erreur absolue et de l’erreur relative commise sur S .
Exercice 4
Donner une approximation de f ( x, y) = ln( x − 3 y) en ( x, y) = (6, 9; 2, 06).
Correction de l’exercice 1
p
o 9, 004
p 1
f ( x) = x, f 0 ( x) = 2p x
1 4 × 10−3 2 × 10−3
f (9 + 0, 004) ≈ f (9) + f 0 (9) × 0, 004 = 3 + × 0, 004 ≈ 3 + ≈ 3+
2×3 2×3 3
≈ 3 + 0, 666 · · · × 10−3 ≈ 3 + 0, 000666 ≈ 3, 000666
o ln(1, 001)
f ( x) = ln( x); f 0 ( x) = 1x
f (1 + 0, 001) ≈ f 0 (1) × 0, 001 ≈ 0 + 13 × 0, 001 ≈ 0, 001
o 1, 011,01
f ( x) = x x = e x ln(x) , f 0 ( x) = ln( x) + x × 1x e x ln(x) = (ln( x) + 1) e x ln(x)
¡ ¢
Correction de l’exercice 2
1
2. Ici ∆ x = 10−50 et f 0 ( x) = 2p x
−50
1
Donc ∆ f = p .10−50 = 102
2 1
Remarque IV.3. .
p p
Une erreur constante consiste à dire ∆ f = | 1 + 10−50 − 1| et d’effectuer le calcul à la
calculatrice . Dans ce cas la calculatrice rendra la valeur 0 . . .
Correction de l’exercice 3
S (R ) = πR 2 , S 0 (R )2πR
∆S = 2π × 10 × 0, 1 = 2π
∆S 2π 2
| S | = π×102 = 100 = 2% Correction de l’exercice 4
f ( x, y) = ln( x − 3 y), ( x, y) = (6, 9; 2, 06)
Pour calculer une approximation nous allons avoir besoin de connaître les dérivées partielles
de f .
∂f ∂f
∂x
( x, y) = x−13y ; ∂ y ( x, y) = x−
−3
3y
A présent calculons l’approximation demandée :
Définition IV.5. .
Soit f : Rn → R une fonction de classe C 1 et un point (a, b) ∈ D f .
∂ f (a,b) ∂ f (a,b)
g( x, y) = f (a, b) + ( x − a) ∂x
+ ( y − b) ∂y
est l’approximation affine de f en (a, b).
3
Alors le graphe de g : C g = {( x, y, z) ∈ R /( x, y) ∈ D f et z = g( x, y) ∈ R} est le plan tangent au
point (a, b) de (C f ) du graphe de f :
∂ f (a, b) ∂ f (a, b)
T( a, b) : z = f (a, b) + ( x − a) + ( y − b)
∂x ∂y
Remarque IV.4. .
Soit f : R3 → R une fonction de classe C 1 et un point (a, b, c) ∈ D f .
L’hyperplan tangent au point a, b, c) de (C f ), le graphe de f : R3 → R est :
Exercice
Déterminer l’équation cartésienne du plan (P T ) tangent à la surface du graphe de la fonction
x0
f définie au point P = y0 où z0 = f ( x0 , y0 ).
z0
1) f ( x, y) = x2 + 2 x y + 2 y2 et P = (1, 1, 5) ∈ R3
2) f ( x, y) = x2 + Y 2 et P = (1, 2, 5) ∈ R3
3) f ( x, y) = ( y − x2 )( y − 2 x2 ) et P = (1, 3, 2) ∈ R3
4) f ( x, y) = 10 − x4 − 2 y2 et P = (1, 2, 1) ∈ R3
Ensembles convexes
5.1 Définitions
Définition 5.1.1 On appelle combinaison linéaire convexe de deux points x et y de Rn , tout point
z = (1 − λ)x + λy avec λ ∈ [0, 1].
De façon générale :
Définition 5.1.4 On appelle segment ”ouvert” d’extrémités x et y, et on le note ]x, y[, l’ensemble
On définit aussi ]x, y] et [x, y[ qui sont appelés segment semi ouvert en x respectivement en y.
Définition 5.1.5 Soit C une partie de Rn . C est convexe si seulement si pour tout x, y ∈ C,
(1 − λ) x + λy ∈ C pour tout λ ∈ [0, 1]. Autrement dit, C est convexe si seulement si C contient
tout segment fermé d’extrémités deux quelconques de ses points.
54
Exemple 5.1.1 - Dans Rn , les ensembles suivants sont convexes. Rn , l’ensemble vide, les single-
tons, les boules, les segments, les hyperplans, les demi-espaces, les sous-espaces affines.
- Dans R, une partie est convexe si et seulement si c’est un intervalle.
On a la proposition :
Proposition 5.1.1 Une partie C de Rn est convexe si seulement si elle contient toute combinaison
linéaire convexe de toute famille finie d’éléments qui lui appartiennent.
Preuve : Si C contient toute combinaison linéaire convexe de familles finies d’éléments qui lui
appartiennent, en particulier, prenant une famille de deux éléments x et y de C, on a [x, y] ⊂ C
et donc C est convexe.
Réciproquement, soit C un ensemble convexe de Rn . Alors C contient toute combinaison linéaire
convexe de deux quelconques de ses éléments. Donc la propriété est vraie pour une famille com-
portant deux éléments. Supposons qu’elle est vraie pour une famille de k − 1 éléments.
Soit { }
F = x1 , x 2 , · · · , x k
une famille de k élément de C.
Soit
k
∑ k
∑
i
x= λi x avec λi ≥ 0, λi = 1.
i=1 i=1
On a
k
∑ k−1
∑
i
x= λi x = λi xi + λk xk .
i=1 i=1
Soit
k−1
∑
λ= λi .
i=1
On a λ ∈ [0, 1].
Si λ = 0 alors λi = 0 pour tout i = 1, · · · , k − 1 et donc λk = 1. Il vient alors que x = λk xk =
k
x ∈ C.
Si λ ̸= 0, on peut écrire
∑k−1 ( )
λi
x=λ xi + λ k xk .
i=1
λ
L’élément
k−1 (
∑ )
λi
y= xi ,
i=1
λ
est une combinaison linéaire convexe de k − 1 éléments de C. C’est donc un élément de C, par
hypothèse de recurrence. Donc x = λy+λk xk . Or λk = 1−λ avec λ ∈ [0, 1]. Donc x est combinaison
linéaire convexe de deux éléments de C. Comme par hypothèse, C est convexe, on a alors x ∈ C.
55
5.2 Propriétés algébriques
On rappelle les notions suivantes.
Définition 5.2.1 Une application f de Rn dans Rm est dite affine si l’une des conditions suivantes
est vérifiée.
i) Pour tout x, y dans Rn et λ ∈ R, on a
∀ x ∈ Rn , f (x) = L(x) + a.
On a la proposition suivante
αC + βC = (α + β)C.
Preuve : Comme les scalaires α et β sont positifs ou nuls, le cas où α + β = 0 est trivial
Considérons α et β tels que α + β > 0.
L’inclusion ci-dessous est immédiate :
(α + β)C ⊂ αC + βC.
56
Chapitre 6
Fonctions convexes
Définition 6.1.4 Soit C un convexe non vide de Rn . Une fonction f : C → R est concave
(respectivement strictement concave, fortement concave de module r > 0 sur C si :
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y),
respectivement
∀ x, y ∈ C, x ̸= y, ∀ λ ∈]0, 1[,
f ((1 − λ)x + λy) > (1 − λ)f (x) + λf (y),
∀ x, y ∈ C, ∀ λ ∈ [0, 1],
f ((1 − λ)x + λy) ≥ (1 − λ)f (x) + λf (y) + 21 rλ(1 − λ)∥y − x∥2 .
57
Pour la suite nous allons considèrer sans perdre de généralités que C = Rn . On définit d’abord
les notions suivantes.
Sλ (f ) = {x ∈ Rn : f (x) ≤ λ} .
58
Soient x, y ∈ Rn et λ ∈ [0, 1]. On a
d’où la convexité de f .
Pour la stricte convexité, on procède de la même façon.
t1 t1 t1 t1
f (a + t1 d) = f ((1 − )a + (a + t2 d)) ≤ (1 − )f (a) + f (a + t2 d).
t2 t2 t2 t2
Il s’ensuit alors que
f (a + t1 d) − f (a) f (a + t2 d) − f (a)
≤ .
t1 t2
Ce qui prouve la proposition.
On a aussi la proposition suivante.
59
Théorème 6.2.1 Soit f : Rn → R differentiable.
On a les équivalences suivantes :
1) f est convexe sur Rn ;
2) f (y) ≥ f (x) + ⟨∇f (x), y − x⟩, ∀ x, y ∈ Rn ;
3) ⟨∇f (y) − ∇f (x), y − x⟩ ≥ 0, ∀ x, y ∈ Rn .
Preuve : 1)⇒ 2) Soient x, y dans Rn et λ ∈]0, 1[. Comme f est convexe, alors on a
Ce qui donne
f (x + λ(y − x)) − f (x)
≤ f (y) − f (x).
λ
En passant à la limite, on obtient :
Soient x, et y dans Rn et λ ∈ [0, 1]. En considérant respectivement les couples (x + λ(y − x), x) et
(x + λ(y − x), y), on a :
et
f (y) ≥ f (x + λ(y − x) + (1 − λ)⟨∇f (x + λ(y − x), y − x⟩ (6.2)
On multiplie (6.1) par (1 − λ) et (6.2) par λ et on fait la somme des deux résultats. On obtient
alors
(1 − λ)f (x) + λf (y) ≥ f (x + λ(y − x).
Ce qui prouve que f est convexe.
2)⇒ 3) Soient x et y dans Rn . On a
et
f (x) ≥ f (y) + ⟨∇f (y), x − y⟩ (6.4)
En considérant la somme de (6.3) et de (6.4), on obtient
60
Comme z ∈]x, y[, il existe λ ∈]0, 1[ tel que z = x + λ(y − x).
D’après la proposition 3), on a :
Soit
⟨∇f (z) − ∇f (x), y − x⟩ ≥ 0
car λ ∈]0, 1[. C’est-à-dire
⟨∇f (z), y − x⟩ ≥ ⟨∇f (x), y − x⟩.
En utilisant (6.5), on obtient
Dans le cas où la fonction est deux fois differentiable, on a aussi les caractérisations suivantes.
t2 2
f (x + th) = f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t).
2
Par hypothèse, la fonction f est convexe, donc on a pour tout h ∈ Rn et t ∈ R,
Donc
t2 2
f (x) + t⟨∇f (x), h⟩ + ⟨∇ f (x)h, h⟩ + t2 ∥h∥2 ε(t) ≥ f (x) + t⟨∇f (x), h⟩.
2
Ce qui donne
⟨∇2 f (x)h, h⟩ ≥ 0.
61
On conclut que la matrice hessienne ∇2 f (x) est semi définie positive.
Réciproquement supposons que pour tout x ∈ Rn , ∇2 f (x) est semi définie positive.
Soit x ∈ Rn . On sait que pour tout y ∈ Rn , on a
1
f (y) = f (x) + ⟨∇f (x), y − x⟩ + ⟨∇2 f (z)(y − x), y − x⟩,
2
avec z ∈]x, y[. Comme par hypothèse la matrice ∇2 f (z) est semi définie positive, alors on a
Remarque 6.2.1 Il faut signaler que la réciproque de ce résultat n’est pas vraie. On peut considérer
la fonction φ définie sur R suivante : φ(t) = t4 . Cette fonction est strictement convexe mais sa
dérivée seconde en 0 est nulle.
62
Chapitre 8
α = min f (x)
x∈Ω
où f est une fonction définie sur Ω un sous-ensemble ouvert non vide de Rn et à valeurs dans R.
Ce problème d’optimisation étant donné, deux questions se posent : existe-t-il des solutions ?
Et comment détecter les solutions éventuelles ? La théorie de l’optimisation affronte donc deux
problèmes classiques en mathématiques : celui de l’existence et celui des méthodes de recherche.
Nous allons considérer et cela sans perdre de généralités que Ω = Rn . Il revient alors à s’inter-
esser au problème :
α = minn f (x) (P )
x∈R
Définition 8.1.1 La fonction f est dite coercive (on dit aussi que f est infinie à l’infini) si on
a : f (x) −→ +∞ quand ∥x∥ −→ +∞.
Exemple 8.1.1
72
Preuve : Immédiate
f (x) ≤ f (y) ∀y ∈ Rn .
Preuve :
Soit α = inf x∈Rn f (x) < +∞. Soit (xk )k∈N une suite minimisante c’est-à-dire telle que :
Montrons que la suite (xk )k∈N est bornée. Par l’absurde, on suppose qu’elle ne l’est pas c’est-
à-dire qu’il existe une sous suite notée (xφ(k) )k de (xk )k∈N telle que : limk→+∞ ∥xφ(k) ∥ = +∞. Par
coercivité de f , on a alors : limk→+∞ f (xφ(k) ) = +∞, ce qui contredit (8.1).
La suite (xk )k∈N est donc bornée : il existe alors une suite extraite notée (xψ(k) )k de (xk )k∈N
qui converge vers x ∈ Rn . En utilisant maintenant la continuité de f , on a alors :
Théorème 8.1.3 (Condition suffisante d’unicité) Si f est strictement convexe, alors le problème
(P ) a au plus une solution optimale globale.
Ce théorème n’est pas une condition d’existence de minimum pour la fonction f . Par exemple
la fonction f (x) = ex est strictement convexe mais n’atteint pas son minimum sur R.
Remarque 8.1.1 Il faut noter que l’hypothèse de continuité dans le théorème ci-dessus n’est pas
nécessaire, car toute fonction convexe sur Rn et à valeurs dans R est continue.
Définition 8.1.2 On appelle fonction elliptique une fonction f ∈ C 1 (Rn , R) fortement convexe.
Théorème 8.1.5 (Condition suffisante d’existence et d’unicité) Si f est une fonction el-
liptique alors le problème (P ) admet une et une seule solution optimale globale.
73
8.2 Conditions d’optimalité
8.2.1 Conditions d’optimalité du premier ordre
Les conditions que nous donnons ici concernent le cas où la fonction-objectif f est différentiable.
On définit :
Définition 8.2.1 Si f : Rn → R une fonction différentiable. On dit que x∗ est un point station-
naire ou critique de f si ∇f (x∗ ) = 0.
On a le théorème :
Remarque 8.2.1 1) Ce théorème n’a pas de sens si la fonction f n’est pas différentiable en x∗ .
2) Cette condition nécessaire du premier ordre permet de sélectionner un certain nombre de
candidats à être des minima locaux ou globaux. La réciproque est fausse. Un point critique n’est pas
nécessairement un minimum local (global). Ce peut être un minimum local ou global, un maximum
local ou global ou ni l’un ni l’autre. C’est dire que ce résultat n’est en général pas une condition
suffisante.
Dans le cas convexe, la condition nécessaire du premier ordre ci-dessus est suffisante.
Corollaire 8.2.1 Si f est une fonction quadratique avec f (x) = 21 ⟨Ax, x⟩ − ⟨b, x⟩ où A est une
matrice carrée d’ordre n à coefficients réels, symmetrique et définie positive, alors il existe un
minimum unique x̄ ∈ Rn de f et qui est l’unique solution du système Ax = b.
74
8.2.2 Conditions d’optimalité du second ordre
Théorème 8.2.3 (Condition nécessaire d’optimalité du second ordre) Si f : Rn → R est
une fonction deux fois différentiable sur Rn , une condition nécessaire pour que x∗ soit un minimum
local (global) de f sur Rn est que : ∇f (x∗ ) = 0 et ∇2 f (x∗ ) est semi défini positif.
Preuve : Soit x∗ un minimum local de f sur Rn . On sait que la condition 1) est satisfaite. Il reste
à montrer la condition 2). Par définition du minimum local, il existe un voisinage V de x∗ dans
Rn tel que f (x) ≥ f (x∗ ) pour tout x ∈ V .
Soit h ∈ Rn . En utilisant le développement de Taylor au voisinage de x∗ , à l’ordre deux et la
condition 1), on a : pour t suffisamment petit,
t2 2
f (x∗ + th) = f (x∗ ) + ⟨∇ f (x∗ )h, h⟩ + t2 ∥h∥2 ε(th),
2
avec ε continue et limt→0 ε(th) = 0.
Pour t ̸= 0 suffisamment petit de sorte que x∗ + th ∈ V , on a :
75
Elle est semi-définie positive (respectivement semi-définie négative) si, et seulement si, ses
valeurs propres sont positives ou nulles (respectivement négatives ou nulles).
Donc si on trouve une valeur propre nulle on ne peut pas conclure quant à l’optimalité du
point étudié.
Dans le cas d’une fonction de deux variables, le signe des valeurs propres peut être déterminé
en calculant le déterminant et la trace de la matrice. Le déterminant étant égal au produit des
deux valeurs propres et la trace égale à la somme des deux valeurs propres, si le déterminant
est strictement positif les deux valeurs propres sont du même signe et dans ce cas, si la trace est
strictement positive, les deux valeurs propres sont strictement positives et si la trace est strictement
négative, les deux valeurs propres sont strictement négatives. Si le déterminant est nul alors l’une
des valeurs propres est nulle. Par contre si le déterminant est strictement négatif les deux valeurs
propres sont de signes contraires. Attention : ceci n’est valable que pour des matrices symétriques
d’ordre 2. Pour des fonctions de plus de deux variables il faut calculer les valeurs propres de
la matrices hessienne au point candidat pour trouver leur signe ou bien utiliser le critère des
déterminants des sous-matrices.
Corollaire 8.2.3 (cas de dimension deux) Si x est un point critique de f ∈ C 2 (R2 , on définit
les coefficients r, s, t par :
∂ 2f ∂ 2f ∂ 2f ∂ 2f
r= (x), s= (x) = (x), t= (x).
∂x2 ∂x∂y ∂y∂x ∂y 2
Alors
• Si rt − s2 > 0 et r > 0, f admet un minimum local en x.
• Si rt − s2 > 0 et r < 0, f admet un maximum local en x.
• Si rt − s2 < 0, f n’admet pas d’extremum en x, c’est un point selle.
• Si rt − s2 = 0, on ne peut pas conclure.
76
Chapitre 9
Définition 9.1.1 On appelle suite minimisante de f sur C toute suite {xk } de C telle
Théorème 9.1.1 (Théorème de Weierstrass) Si f est continue et C est compact non vide,
alors le problème (P ) admet au moins une solution optimale.
Pour le cas où C est non borné, on considère d’abord les définitions suivantes.
Théorème 9.1.2 Si f est continue, coercive, C est non vide, fermé alors le problème (P ) admet
au moins une solution optimale.
Preuve :
Soit {xk } une suite minimisante de f sur C.
La suite {xk } est bornée. En effet si ça n’était pas le cas, il existerait une sous suite {xkl } de
{xk } telle que ∥xkl ∥ −→ +∞. Comme f est coercive, cela impliquerait que α = liml f (xkl ) = +∞.
Ce qui est impossible car f est finie en au moins un point de C car non vide.
La suite {xk } étant bornée, il existe une sous suite {xkl } de {xk } qui converge vers un point x̄
de C car C est fermé.
Comme f est continue, alors on a
α = lim f (xkl ) = f (lim xkl ) = f (x̄).
l l
Donc α = f (x̄) ∈ R.
On a le résultat sur l’unicité de la solution optimale.
87
Théorème 9.1.3 Si C est convexe et f strictement convexe sur C alors (P ) admet au plus une
solution optimale.
La démonstration est immédiate.
Définition 9.2.2 On appelle lagrangien associé au problème (P ) avec containtes d’égalité, c’est-
à-dire
min [f (x) : hj (x) = 0, j = 1, · · · , q]
la fonction
L : Rn × Rq −→ R
∑
(x, µ) 7−→ f (x) + qj=1 µj hj (x).
Les conditions nécessaires du premier ordre s’écrivent alors avec la fonction de Lagrange de la
façon suivante.
88
Y a-t-il des situations où la condition nécessaire du théorème (9.2.1) ci-dessus est suffisante
pour que x∗ minimise f sur C ? Oui.
Théorème 9.2.2 (CNS d’optimalité du premier ordre) Supposons f convexe sur un ouvert
contenant C et les hj affines (i.e. de la forme x 7−→ hj (x) = ⟨aj , x⟩−bj ) linéairement indépendantes.
Alors, un élément x∗ ∈ C pour lequel
q
∑
∗ ∗
∃µ ∈ R q
tel que ∇f (x ) + µ∗j ∇hj (x∗ ) = 0
j=1
Définition 9.2.3 Soit x̄ ∈ C. On dit que la contrainte d’inégalité gi (x) ≤ 0 est active en x̄, si on
a gi (x̄) = 0.
Pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0} l’ensemble des indices des contraintes
actives en x.
Définition 9.2.4 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi sont affines et
C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i, c’est-à-dire
que C est d’intérieur non vide.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi sont
toutes différentiables dans un voisinage de x et le système formé des gradients des contraintes
actives en x est libre.
On a les conditions d’optimalité :
Dans le cas où le problème (P ) est convexe, la condition nécessaire d’optimalité de Kuhn-Tucker
est aussi suffisante.
89
9.2.3 Problème avec contraintes d’égalité et d’inégalité
On s’intéresse ici au
{ }
g (x) ≤ 0, i = 1, · · · , p,
C= x∈R : i
n
hj (x) = 0, j = 1, · · · , q
où les fonctions gi , i = 1, · · · , p et hj , j = 1, · · · , q sont définies sur Rn et à valeurs dans R.
Comme dans le cas précédent, pour x ∈ C on note I(x) = {i ∈ {1, · · · , p} : gi (x) = 0}
l’ensemble des indices des contraintes actives en x.
On définit ici aussi les conditions de qualification.
Définition 9.2.5 On dira que les contraintes sont qualifiées en un point x de C, si l’une des
conditions suivantes est vérifiée :
- Condition de qualification globale de Karlin : toutes les fonctions gi et hj sont affines
et C non vide.
- Condition de qualification globale de Slater : toutes les fonctions gi sont convexes et
différentiables sur un ouvert contenant C, les fonctions hj sont affines linéairement indépendantes,
et ∃ x̃ ∈ C tel que : gi (x̃) < 0 pour tout i.
- Condition de qualification locale d’indépendance linéaire : les fonctions gi et hj
sont toutes différentiables dans un voisinage de x et le système formé des gradients de toutes les
contraintes actives en x est libre c’est-àdire : {∇gi (x̄), i ∈ I(x̄), ∇hj (x̄) j = 1, · · · , q} est libre.
Théorème 9.2.4 Soit x∗ ∈ C. On suppose que les fonctions f , gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour que x∗ soit une solution optimale locale de (P ) est que :
∃ λ∗i ≥ 0, i = 1, · · · , p, µ∗j ∈ R, j = 1, · · · , q
tels que
∑p ∑q
∇f (x ∗
) + λ∗
∇g i (x ∗
) + ∗ ∗
j=1 µj ∇hj (x ) = 0,
i=1 i
∗
λi gi (x∗ ) = 0, i = 1, · · · , p.
Dans le cas convexe la condition nécessaire devient aussi suffisante.
90
Comme dans les cas précédents, on définit la fonction de Lagrange.
la fonction
L : Rn × Rp+ × Rq −→ R
∑ ∑
(x, λ, µ) 7−→ f (x) + pi=1 λi gi (x) + qj=1 µj hj (x).
On montre alors
Proposition 9.2.2 Soit x∗ ∈ C, on suppose que les fonctions f , les gi et les hj sont continûment
différentiables dans un voisinage de x∗ et que les contraintes sont qualifiées en x∗ . Alors une
condition nécessaire pour qu’il soit une solution optimale locale de (P ) est :
∗ p ∗
∃ λ ∈ R+ , µj ∈ R, j = 1, · · · , q tel que :
∇x L(x∗ , λ∗ , µ∗ ) = 0
λ∗ g (x∗ ) = 0, ∀ i ∈ {1, · · · , p}.
i i
91