Optimisation
On se donne une fonction f définie sur une partie U ⊂ Rp (ou tout espace euclidien) et à valeurs dans
R. On cherche l’existence et la valeur d’un maximum ou d’un minimum de f sur U .
Définition : soient f ∈ F(U, R) et x0 ∈ U ; on dit que f présente un maximum (resp. minimum) local
en x0 ∈ A si f (x) − f (x0 ) est localement négative (resp. positive) au voisinage de x0 . On dit alors que
f (x0 ) est un maximum (resp. un minimum) local de f sur A.
Définition : soient f ∈ F(A, R) et x0 ∈ A ; on dit que f présente un maximum (resp. minimum)
global sur A en x0 ∈ A si f (x) − f (x0 ) est négative (resp. positive) sur A. On dit alors que f (x0 ) est
un maximum (resp. un minimum) global de f sur A.
Attention : on essaiera de ne pas confondre l’extremum (local ou global) et le point où il est atteint.
Ce sujet a été abordé en première année dans le cas des fonctions d’une variable réelle. On peut mon-
trer que si f : I ⊂ R → R supposée dérivable est extremale en un point intérieur à I alors, la fonction
est à dérivée nulle en ce point.
La réciproque est totalement fausse : on peut avoir nullité de la dérivée en un point intérieur sans que
la fonction présente un extremum en ce point.
Par ailleurs, on ne peut rien dire en un point qui n’est pas intérieur.
Nous avons aussi abordé ce problème dans le cas d’une fonction continue définie sur un compact. On
sait alors qu’il existe un maximum et un minimum mais on n’a pas de renseignement sur les points
où les extrema sont atteints.
1 Etude des extrema locaux sur un ouvert
1.1 Etude à l’ordre 1 : les points critiques
Définition : soit U un ouvert de Rp et f ∈ C 1 (U, R). On dit que a est un point critique de f lorsque
∇f (a) = 0.
Théorème : soit f une fonction de classe C 1 sur l’ouvert U et à valeur réelles. Si f présente un
extremum local en a sur U alors a est un point critique de f .
Si ϕ présente un extremum local en a ∈ U alors pour tout vecteur e non nul, t 7→ f (a + te) admet un
extremum en 0 et 0 est intérieur au domaine de cette fonction dérivable. La dérivée de cette fonction
est donc nulle en 0 et ainsi
∀e 6= 0, df (a)(e) = 0
Comme df (a) est linéaire, elle est aussi nulle en 0 et ainsi df (a) = 0 et donc ∇f (a) = 0.
Attention : il n’y a pas de réciproque. Ainsi (x, y) 7→ xy admet (0, 0) pour point critique mais ne
présente pas d’extremum local en ce point.
Ce théorème permet de localiser les points de l’OUVERT où f PEUT admettre un extremum local.
Il reste à savoir faire l’étude locale au voisinage de l’un de ces points.
- Si on pense qu’en un point critique a il n’y a pas d’extremum local, on peut trouver deux
chemins au voisinage de a donnant des signes opposés.
- Si on pense qu’en un point critique a il y a minimum (resp maximum) local, on peut minorer
(resp majorer) f (a + h) − f (a).
1
Exemple : on veut déterminer les extrema locaux et globaux de
f : (x, y) 7→ x2 − xy + y 2 + x3
f est de classe C 1 sur R2 ; (x, y) est point critique si 2x − y + 3x2 = 0 et −x + 2y = 0. Les points
critiques sont donc (0, 0) et (−1/2, −1/4). R2 étant un ouvert, ce sont les seuls points en lesquels f
peut présenter un extremum local.
- f (x, 0) = x2 + x3 n’est ni majorée ni minorée et f ne présente aucun extremum global.
2 2
- Comme |xy| ≤ x2 + y2 , on a
x2 y2
f (x, y) − f (0, 0) ≥ + x3 +
2 2
qui est localement positif au voisinage de (0, 0). f présente donc en (0, 0) un minimum local.
- On a aussi
x2
h(x, y) = f (x − 1/2, y − 1/4) − f (−1/2, −1/4) = − − xy + y 2 + x3
2
et h(x, 0) est localement négatif au voisinage de 0 alors que h(0, y) reste positif. En (−1/2, −1/4),
f ne présente par d’extremum local.
1.2 Etude à l’ordre 2
La recherche des points critiques nous indique où la fonction peut être localement extremale. En un
point critique, l’application linéaire tangente est nulle et le DL à l’ordre 1 ne suffit pas pour conclure.
Soit U un ouvert de Rn , f : U → R une fonction de classe C 2 et a ∈ U fixé. Pour x ∈ U , on note Hf (x)
la matrice hessienne de f au point x, c’est-à-dire la matrice [∂i ∂j f (x)]16i,j6n . D’après le théorème de
Schwarz, c’est une matrice symétrique.
Théorème : on a le développement limité à l’ordre 2 suivant
1
f (a + h) = f (a) + (h|∇f (a)) + (h|Hf (a)h) + o khk2
2
1
= f (a) + hT ∇f (a) + hT Hf (a)h + o(khk2 )
2
Exemple : si f (x, y) = x cos(y) + ex+y alors
cos(y) + ex+y ex+y − sin(y) + ex+y
∇f (x, y) = et H f (x, y) =
−x sin(y) + ex+y − sin(y) + ex+y −x cos(y) + ex+y
et ainsi
x2 y2
f (x, y) = 1 + 2x + y + + xy + + o(k(x, y)k2 )
2 2
ce que l’on peut retrouver avec les DL usuels des fonctions d’une variable (mais la gestion du “petit
o” est embêtante car on va mélanger des petits o de x et des petits o de y et on n’aura pas des petits
o de k(x, y)k2 ).
2
Soit h ∈ Rn . ϕ : t 7→ f (a + th) est de classe C 2 sur [0, 1]. Par formule de Taylor, on a donc
Z 1
0
ϕ(1) = ϕ(0) + ϕ (0) + (1 − t)ϕ00 (u) du
0
On remarque alors que
n
X
ϕ0 (t) = ∂i f (a + th)hi = (h|∇f (a + th))
i=1
n X
X n
ϕ00 (t) = ∂j (∂i f (a + th))hj hi = (h|Hf (a)h)
i=1 j=1
et on en déduit que
Z 1
f (a + h) = f (a) + (h|∇f (a)) + (1 − t)hT Hf (a + th)h dt
0
En notant que Z 1
1 T
h Hf (a)h = (1 − t)hT Hf (a)h dt
2 0
on a
Z 1
1
f (a + h) − f (a) − (h|∇f (a)) − hT Hf (a)h = (1 − t)hT (Hf (a + th) − Hf (a))h dt
2 0
Soit ε > 0. Par continuité de Hf en a, il existe r > 0 tel que si kuk ≤ r, |||Hf (a + u) − Hf (a)||| ≤ ε.
Ainsi Z 1 Z 1
T 2
∀khk ≤ r, (1 − t)h (Hf (a + th) − Hf (a))h dt ≤ εkhk (1 − t) dt
0 0
ce qui montre la négligeabilité dans la formule.
Comme dans le cas d’une variable réelle, on peut espérer que le DL à l’ordre 2 donne un renseigne-
ment local pourvu que la partie quadratique soit de signe constant. C’est ce que dit le théorème suivant.
Théorème : soit f est une fonctions de classe C 2 sur un ouvert U .
- Si présente un minimum local en a (ce qui entraı̂ne ∇(f )(a) = 0) alors Hf (a) ∈ Sn+ (R).
- Si ∇(f )(a) = 0 (point critique) et si Hf (a) ∈ Sn++ (R) alors f présente un minimum local strict
en a.
Remarques
- En changeant f en −f , on obtient des résultat pour les maxima locaux.
- Le théorème fournit d’une part une condition nécessaire de minimalité en un point critique (il
faut que la hessienne soit positive) et d’autre part une condition suffisante de minimalité en
un point. Hélas, nous n’aurons aucune CNS. En un point critique, si la hessienne possède une
valeur propre nullé, on ne pourra par exemple rien conclure.
- Important : pour une matrice symétrique de taille 2, trace et déterminant donnent les signes
des valeurs propres et donc la “nature” de la hessienne.
3
Soit a ∈ U . La matrice Hf (a) est symétrique réelle et possède donc une bon de diagonalisation
(ε1 , . . . , εn ). Quitte à renuméroter, on peut supposer les valeurs propres associées ordonnée et on les
note λ1 ≤ · · · ≤ λn .
- Si f présente un minimum local en a, alors ∇f (a) = 0. On a donc
λ1 t2
f (a + tε1 ) = f (a) + + o(t2 )
2
ce qui montre (par exemple par l’absurde) que λ1 ≥ 0. Les valeurs propres de Hf (a) sont donc
toutes positives.
- Si a est critique pour f et λ1 > 0, on décompose h = ni=1 hi εi et on a
P
n
1X λ1
f (a + h) − f (a) = λi h2i + o(khk2 ) ≥ khk2 + o(khk2 )
2 2
i=1
qui est localement > 0 : on a un minimum strict en a.
Exemple : on reprend la fonction
f : (x, y) 7→ x2 − xy + y 2 + x3
dont les points critiques sont (0, 0) et (−1/2, −1/4). On a
2 + 6a −1
Hf (a, b) =
−1 2
Ainsi Hf (0, 0) ∈ S2++ (R) (valeurspropres 1et 3) et f présente un minimum local en en (0, 0).
−1 −1
Par ailleurs Hf (−1/2, −1/4) = possède deux valeurs propres λ1 , λ2 telles que λ1 λ2 =
−1 2
det(Hf (−1/2, −1/4)) = −1 < 0. La matrice n’est ni positive ni négative et f ne présente pas d’extre-
mum en (−1/2, −1/4).
Remarques
- Si on pense qu’en un point critique a il y a minimum local, on peut soit minorer f (a + h) − f (a)
soit étudier la hessienne (en espérant qu’elle est définie positive). Il faut voir selon les cas ce qui
semble le plus simple (et attention, on ne peut conclure si la hessienne est seulement positive).
- Si on pense qu’en un point critique a il n’y a pas d’extremum local, on peut trouver deux
chemins au voisinage de a donnant des signes opposés ou étudier la hessienne (et montrer
qu’elle n’est ni positive ni négative).
1.3 Un argument de compacité
Après la recherche des points critiques, il n’est pas toujours conseillé, de faire une étude au voisinage
de ceux-ci comme ci-dessus dans le cas où on pense qu’il correspond à un extremum. Il est en effet
possible de se ramener à un compact et d’utiliser le fait qu’une fonction continue sur un compact
admet un maximum et un minimum.
Exemple : soient a, b > 0. On veut étudier les extrema de f : (x, y) 7→ xa + xy + yb sur (R+∗ )2 .
(R+∗ )2 est un ouvert sur lequel f est de classe C 1 . Un point où f présente un extremum est donc
critique. Si (x, y) est critique alors y = a/x2 et x = b/y 2 ce qui entraı̂ne x = (ab)a1/3 et y = (ab)b1/3 .
Réciproquement, ce point estbien critique pour f .
Notons m = f (ab)a1/3 , (ab)b1/3 . Comme f (x, y) ≥ a/x, f (x, y) est plus grand que m + 1 pour x assez
petit x ≤ x0 . De même, f (x, y) ≥ m + 1 pour y ≤ y0 .
4
Pour x ≥ x0 , on a f (x, y) ≥ x0 y qui est plus grand que m + 1 pour y ≥ y1 . De même pour y ≥ y0 ,
f (x, y) ≥ xy0 est plus grand que m + 1 pour x ≥ x1 (assez grand).
Sur le compact [x0 , x1 ] × [y0 , y1 ], la fonction f est minorée. Hors du compact et sur le bord de celui-ci,
elle est plus grande que m + 1. Notre point critique est ainsi intérieur au compact et le minimum de
f sur le compact est ≤ m. Finalement, f atteint son minimum sur le compact en un point intérieur à
ce compact et ce point est donc critique pour f .
Ceci prouve qu’en l’unique point critique, f présente un minimum local et même que ce minimum est
en fait global.
Remarque : si on vous demande de trouver les extrema de f sur une partie qui n’est pas ouverte, il
faut chercher les extrema intérieurs, puis ceux sur le bord et faire le bilan. Nous revenons sur l’étude
au bord dans la section suivante.
Exercices 1,2,3,4,5,6,7
2 Optimisation sous contrainte
2.1 Exposé du problème
L’objectif de cette partie est de faire des recherches d’extrema sur une partie non ouverte. Par
exemple, on peut chercher les extrema de f : (x, y) 7→ xy sur le cercle unité, c’est à dire l’ensemble
S = {(x, y), x2 + y 2 = 1}.
Dans cet exemple, on peut facilement se ramener à l’étude d’une fonction d’une variable car morale-
ment S est un objet “de dimension 1”. On écrit ainsi que S = {(cos(t), sin(t)), t ∈ R} et on cherche
alors les extrema sur R de t 7→ cos(t) sin(t) = 21 sin(2t), qui valent 1/2 et −1/2 et sont atteints pour
t = π/4[π] et t = −π/4[π].
Pn
Un second exemple est le suivant : on note K = {(x1 , . . . , xp ) ∈ Rn , ∀i : xi ≥ 0 et i=1 xi = 1} et
f : (x1 , . . . , xn ) 7→ x1 . . . xn . K est compact (fermé et borné en dimension finie) et f est continue sur
K. f est donc bornée sur K et atteint ses bornes.
0 est clairement un minorant de f (K) et il est atteint en (1, 0, . . . , 0) : c’est le minimum de f .
La recherche du maximum est un peu plus embêtante sans outils spécifiques. Une idée exploitable est
de voir K comme un objet de “dimension” n − 1. On veut ainsi étudier le maximum de
g : (x1 , . . . , xn−1 ) 7→ f (x1 , . . . , xn−1 , 1 − x1 − · · · − xn−1 )
sur le domaine K 0 = {(x1 , . . . , xn−1 ) ∈ (R+ )n , x1 + · · · + xn−1 ≤ 1}. On a ainsi transféré la
contrainte sur l’ensemble de définition. Hélas celui-ci n’est pas ouvert. Cependant, si on note Ω =
{(x1 , . . . , xn−1 ) ∈ (R+∗ )n , x1 + · · · + xn−1 < 1} (qui est l’intérieur de K 0 ), il est clair que le maximum
de g sur Ω et sur K 0 sont les même (g est positive et nulle sur K 0 \ Ω). On est ainsi ramenés à un
problème d’optimisation simple sur un ouvert (recherche de points critiques etc.).
Une autre approche est possible. Notons (x1 , . . . , xn ) un point de K où f atteint son maximum. Les xi
sont tous non nuls (le maximum est > 0 et f (x) = 0 quand l’un des xi est nul). Pour t suffisamment pe-
tit, disons |t| < r, γ(t) = (x1 + t, x2 − t, x3 , . . . , xn ) ∈ K et on pose h : t ∈] − r, r[7→ f (γ(t)). Sur ] − r, r[,
h est maximale en 0 et comme ] − r, r[ est un ouvert, h0 (0) = 0 c’est à dire ∂1 f (γ(0)) − ∂2 f (γ(0)) = 0
et donc x3 . . . xn (x2 − x1 ) = 0. On a donc x1 = x2 et de même xi = xj quand i 6= j. Le seul point où
f peut atteindre son maximum est ainsi (1/n, . . . , 1/n).
On souhaite résoudre de façon générale le problème suivant : étant données f, g ∈ C 1 (Ω, R) avec Ω
ouvert de E (espace de dimension finie en général espace euclidien), localiser les points de U = {x ∈
Ω, g(x) = 0} en lesquels f |U peut admettre un extremum local.
Dans le cadre du premier exemple ci-dessus, Ω = R2 , f : (x, y) 7→ xy, g : (x, y) 7→ x2 + y 2 − 1 et
5
U = S(0, 1).
Dans le cadre du recherche de maximum dans le second exemple, Ω = (R+∗ )n , f : (x1 , . . . , xn ) 7→
x1 . . . xn , g : (x1 , . . . , xn ) 7→ x1 + · · · + xn − 1}.
L’idée que nous exploiterons est la seconde développée dans le deuxième exemple et nous ramenant à
une fonction d’une variable. On considère U comme une “hypersurface” (objet de “dimension” n − 1
dans un espace de dimension n) et on trace un courbe sur cette surface (paramétrée par t 7→ γ(t))
passant par un point (γ(0)) où f est extremale. On obtient alors une fonction d’une variable réelle
(t 7→ f (γ(t))) atteignant un extremum local au point intérieur 0 ce qui donne des renseignements sur
le point γ(0).
2.2 Vecteurs tangents à une partie en un point
Soit (E, k.k) un evn. Une courbe (ou arc) paramétrée de E est une application γ : I → E où I est
un intervalle de R. L’ensemble {γ(t), t ∈ I} est alors une partie de E correspondant au trajet d’un
mobile se déplaçant dans E.
Quand γ est de classe C 1 , γ 0 (t) correspond à la vitesse du mobile au temps t et, quand ce vecteur est
non nul (on parle d’un point non stationnaire ou régulier), il dirige la tangente à la courbe au point
de paramètre t.
Soit X une partie d’un R-espace vectoriel E. On dira qu’un vecteur v est tangent à X en a s’il existe
un courbe tracée sur X passant par a avec un vecteur vitesse égal à v. Formellement, cela donne la
définition suivante.
Définition : v est tangent à X en un point a s’il existe ε > 0 et γ : ] − ε, ε[→ X dérivable en 0 telle
que γ(0) = a et γ 0 (0) = v.
Exemple : dans l’espace euclidien R3 , on note X = {(x, y, z), x2 +y 2 = 1} qui correspond géométriquement
à un cylindre. a = (1, 0, 0) est un elément de X. L’arc paramétré par γ1 : t 7→ (cos(t), sin(t), 0) est de
classe C 1 sur R, a son image dans X et vérifie γ1 (0) = a. Ainsi γ10 (0) = (0, 1, 0) est tangent à X en a.
De même γ2 : t 7→ (cos(t), sin(t), t) est de classe C 1 sur R, a son image dans X et vérifie γ2 (0) = a.
Ainsi γ20 (0) = (0, 1, 1) est tangent à X en a.
Notation : Ta X désignera l’ensemble des vecteurs tangents à X en a.
Exemple : soit X un sous-espace affine de E de direction F (F est donc un sous-espace vectoriel
de E). Pour tout a ∈ X, on a donc X = a + F . Si v ∈ Ta X et en notant γ un arc associé, on a
∀t, γ(t) − a ∈ F et donc γ 0 (0) = limt→0 γ(t)−a
t ∈ F car F est fermé. Ainsi Ta X ⊂ F . Réciproquement,
si v ∈ F alors γ :: t 7→ a + tv paramètre un arc de classe C 1 tracé sur F et tel que γ(0) = a et γ 0 (0) = v
et donc v ∈ Ta X. On a montré que Ta X = F .
Nous nous attardons tout d’abord sur un cas particulier de surface de R3 .
Graphe d’une fonction numérique définie sur un ouvert de R2 : soit f : U ⊂ R2 → R
différentiable. Le graphe X de f est la partie de R3 définie par
X = {(x, y, f (x, y))/ (x, y) ∈ U }
et correspond géométriquement à la surface d’équation z = f (x, y). Soit a0 = (x0 , y0 , z0 ) = (x0 , y0 , f (x0 , y0 )) ∈
X.
6
- Soit v ∈ Ta0 X et γ : t 7→ (x(t), y(t), z(t)) un arc associé. Pour tout t, on a z(t) = f (x(t), y(t))
et donc (x, y, z sont dérivables en 0)
z 0 (0) = x0 (0)∂1 f (x0 , y0 ) + y 0 (0)∂2 f (x0 , y0 )
Ainsi, v = γ 0 (0) ∈ Vect (∂1 (x0 , y0 ), ∂2 f (x0 , y0 ), −1)⊥ .
- Réciproquement, soit v = (v1 , v2 , v3 ) orthogonal à (∂1 (x0 , y0 ), ∂2 f (x0 , y0 ), −1). On a ainsi
v1 ∂1 (x0 , y0 ) + v2 ∂2 (x0 , y0 ) = v3
Notons (sur un voisinage de 0)
γ : t 7→ (x0 + tv1 , y0 + tv2 , f (x0 + tv1 , y0 + tv2 ))
γ a son image dans X, vérifie γ(0) = a0 , est dérivable en 0 avec
γ 0 (0) = (v1 , v2 , v1 ∂1 f (x0 , y0 ) + v2 ∂2 f (x0 , y0 )) = (v1 , v2 , v3 )
Dans ce cas,
Ta0 X = Vect (∂1 (x0 , y0 ), ∂2 f (x0 , y0 ), −1)⊥
On appelle ainsi “plan affine tangent au graphe de f en (x0 , y0 , z0 )” le plan affine d’équation
⊥
∂f ∂f
(x0 , y0 , f (x0 , y0 )) + Vect (x0 , y0 ), (x0 , y0 ), −1
∂x ∂y
dont une équation cartésienne est
∂f ∂f
z − z0 = (x0 , y0 )(x − x0 ) + (x0 , y0 )(y − y0 )
∂x ∂y
L’exemple précédent est un cas particulier de “surface de R3 ” définiei par une équation du type
F (x, y, z) = 0 (ici, F (x, y, z) = f (x, y) − z). Une telle surface s’interprète géométriquement comme
ligne de niveau pour f . Voici un exemple simple de telle surface dans un espace euclidien.
Ensemble des vecteurs tangents à la sphère unité dans un euclidien : on considère une
espace euclidien E que l’on munit d’une base orthonormée. Tout se passe ainsi comme dans Rn muni
de la base canonique. La sphère unité est l’ensemble
n
X
S = {(x1 , . . . , xn ), x2i = 1}
i=1
et c’est une ligne de niveau de F : (x1 , . . . , xn ) 7→ x21 + · · · + x2n . On se donne a = (a1 , . . . , an ) ∈ S.
- Soit v ∈ Ta S et γ : t →
7 (x1 (t), . . . , xn (t)) un arc associé. Pour tout t, on a (γ(t)|γ(t)) = 1 et
donc
2(v|a) = 2(γ 0 (0)|γ(0)) = 0
v
- Réciproquement, supposons (v|a) = 0 avec v 6= 0. t 7→ cos(kvkt)a + sin(kvkt) kvk a son image
0
dans S et vérifie γ(0) = a et γ (0) = v. Ainsi, v ∈ Ta S et ceci reste vrai si v = 0 (prendre
l’application constante égale à a).
On a ainsi Ta S = Vect(a)⊥ et on dispose encore d’un hyperplan affine tangent à S en a dont une
équation cartésienne est
n
X
ai (xi − ai ) = 0
i=1
7
On peut faire le lien entre les deux exemples précédents en constatant que dans les deux cas, on dispose
d’un ensemble X = {x ∈ E, F (x) = 0} (que l’on interprète comme une hypersurface) et que pour
a ∈ X,
Ta X = ker(dF (a)) = Vect(∇F (a))⊥
On a un théorème qui généralise ce résultat.
Théorème (hyperplan tangent en un point régulier) : soient Ω un ouvert de E et g de classe
C 1 sur Ω à valeurs réelles. On note X = {a ∈ Ω, g(a) = 0} = g −1 ({0}). Si a ∈ S vérifie dg(a) 6= 0 (on
parle d’un point régulier) alors
Ta X = ker(dg(a))
Dans le cas où E est euclidien, ceci se traduit aussi par
Ta X = Vect(∇g(a))⊥
Soit v ∈ Ta X et γ un arc associé. On a g(γ(t)) nul pour tout t et donc dg(γ(0)).γ 0 (0) = 0 et ainsi
v ∈ ker dg(a).
La réciproque est passablement plus délicate et fait appel au théorème des fonctions implicites. L’hy-
pothèse dg(a) 6= 0 indique qu’il existe k tel que ∂k g(a) 6= 0. Si, par exemple, ∂n g(a) 6= 0, le théorème
des fonctions implicites indique qu’il existe un voisinage V de a et une fonction F de classe C 1 telles
que
∀x ∈ V, g(x) = 0 ⇐⇒ xn = F (x1 , . . . , xn−1 )
On a alors g(x1 , . . . , xn−1 , F (x1 , . . . , xn−1 )) = 0 au voisinage de (a1 , . . . , an−1 ) et ainsi
∀i ∈ [[1, n − 1]], ∂i g(a) + ∂i F (a1 , . . . , an−1 )∂n g(a) = 0
Supposons que v = (v1 , . . . , vn ) ∈ ker(dg(a)). Ceci se traduit par
n
X
∂i g(a)vi = 0
i=1
L’application γ : t 7→ (a1 +tv1 , . . . , an−1 +tvn−1 , F (a1 +tv1 , . . . , an−1 +tvn−1 )) (pour t dans un voisnage
de 0) a son image dans X et vérifie γ(0) = a et
n−1
X
γ 0 (0) = (v1 , . . . , vn−1 , vi ∂i F (a1 , . . . , an−1 ))
i=1
Avec les relations qui précèdent, on obtient γ 0 (0) = v et on conclut.
Exercices 8,9,10,11,12,13
2.3 Optimisation sous contrainte : le théorème
Comme dans le cas de la recherche d’un extremum simple (sans contrainte), on ne va donner que des
conditions nécessaires (dans le problème exposé en fin de section 3.4) pour que la fonction f admette
un extremum sur la partie U = {x, g(x) = 0} (ce qui constitue la contrainte). On va donner une
condition en termes de vecteurs tangents pour conclure par le théorème effectif.
Proposition : soit f : Ω → R et S ⊂ Ω. Si f |S présente un extremum local en a et si f est
différentiable en a, alors tout vecteur tangent à S en a est annulé par df (a) : Ta S ⊂ ker(df (a)).
8
Dans le cas euclidien, cette conclusion s’écrit Ta S ⊂ Vect(∇f (a))⊥ .
On se place dans le cadre du théorème et on se donne x ∈ Ta S. Il lui est associé une application γ et
on a t 7→ f (γ(t)) qui admet un extremum en 0. Cette fonction étant dérivable au point intérieur 0, sa
dérivée y est nulle et donc df (γ(0)).γ 0 (0) = 0 i.e. df (a).x = 0.
Théorème d’optimisation sous contrainte : soient f, g ∈ C 1 (Ω, R) où Ω est un ouvert de E.
On note S = g −1 ({0}) et on considère a ∈ S tel que dg(a) 6= 0 (point régulier). Si f |S présente un
extremum local en a alors
∃λ ∈ R, df (a) = λdg(a)
Dans le cas euclidien, ceci s’écrit ∇f (a) = λ∇g(a).
On est dans le cas précédent et comme dg(a) 6= 0, Ta S = ker(dg(a)). On a donc ker(dg(a)) ⊂ ker(df (a)).
dg(a) étant une forme linéaire non nulle, ceci entraı̂ne df (a) ∈ Vect(df (a)).
Définition : le scalaire λ ci-dessus est appelé un multiplicateur de Lagrange.
Exemples : on reprend ici les deux exemples de la section 2.1
- On veut minimiser f : (x, y) 7→ xy sur S = {(x, y), x2 + y 2 = 1}. f étant continue sur S qui
est compact, elle admet un maximum et un minimum. g : (x, y) 7→ x2 + y 2 − 1 et f sont de
classe C 1 sur l’ouvert R2 et ∇g(x, y) = (2x, 2y) est non nul sur S. Si f |S admet un extremum
en (x, y) ∈ S alors il existe λ tel que ∇f (x, y) = (y, x) = λ(x, y). En un tel point, y = λx,
x = λy et x2 + y 2 = 1. On a alors (1 − λ2 )x = 0 et comme x 6= 0 (sinon y = 0 et (x, y) ∈ / S),
λ2 = 1. On a donc
n √ √ √ √ √ √ √ √ o
(x, y) ∈ (1/ 2, 1/ 2), (−1/ 2, −1/ 2), (1/ 2, −1/ 2), (−1/ 2, 1/ 2)
Il reste à tester ces quatre points pour voir que le minimum vaut −1/2 et le maximum 1/2.
n
- On veut Pnmaximiser f : (x1 , . . . , xn ) 7→ x1 . . . xn sur K = {(x1 , . . . , xn ) ∈ R , ∀i, xi ≥
0 et i=1 xi = 1}. On montre aisément (voir section 3.4) que cela revient à maximiser
sur S = {x ∈ (R+∗ )n , x1 + · · · + xn = 1}. On est dans le cadre du théorème avec Ω = (R+∗ )n
et g(x1 , . . . , xn ) = x1 + · · · + xn − 1. On remarque que ∇g(x1 , . . . , xn ) = (1, . . . , 1) n’est
jamais nul. Si f |S est maximale en x = (x1 , . . . , xn ) ∈ S alors, il existe λ ∈ R tel que
∇f (x1 , . . . , xn ) = λ(1, . . . , 1). On en déduit que tous les xi sont égaux et comme leur somme
vaut 1, x = (1/n, . . . , 1/n). Le maximum est donc n1n .
Remarque : le programme traite uniquement le cas d’optimsation avec une seule contrainte sur la
variable (on impose g(x) = 0). On pourrait imaginer une situation plus complexe. Dans le cas de deux
contraintes, on se donne ϕ, ψ : Ω → R de classe C 1 et on note S = {x ∈ Rn , ϕ(x) = ψ(x) = 0}.
On peut alors montrer que si f |S atteint en a un extremum et que (∇ϕ(a), ∇ψ(a)) est libre alors
∇f (a) ∈ Vect(∇ϕ(a), ∇ψ(a)). On a cette fois deux multiplicateurs de Lagrange.
(
x2 + y 2 + z 2 − 1 = 0
Exemple : on veut déterminer le maximum du produit xyz sous la contrainte .
x+y+z−1=0
On a ici ϕ(x, y, z) = x2 + y 2 + z 2 − 1 et ψ(x, y, z) = x + y + z − 1 (S est donc l’intersection
d’une sphère et d’un plan) et f (x, y, z) = xyz. Comme S est un compact (fermé et borné) et
comme f est continue, f atteint son maximum en un point (x, y, z) ∈ S. Avec la remarque, on a
∇f (x, y, z) ∈ Vect(∇ϕ(x, y, z), ∇ψ(x, y, z)) liée et il existe des scalaires λ1 , λ2 (les multiplicateurs de
Lagrange) tels que
yz = 2λ1 x + λ2
xz = 2λ1 y + λ2
xy = 2λ1 z + λ2
9
En injectant ces relations dans ϕ(x, y, z) = ψ(x, y, z) = 0, on obtient un système qui donne six possi-
bilités pour le triplet (x, y, z). Il reste à trouver le maximum des six images par f de ces triplets.
Exercices 14,15,16,17,18,19,20
10