0% ont trouvé ce document utile (0 vote)
42 vues48 pages

Cal Cul Diff 1213

Le document présente un cours de calcul différentiel, abordant des concepts fondamentaux tels que les espaces vectoriels, les fonctions à plusieurs variables, et les propriétés des dérivées. Il couvre également des théorèmes importants comme le théorème de Bolzano-Weierstrass et les notions de convergence et de compacité. La structure du document est organisée en plusieurs sections, chacune traitant des aspects spécifiques du calcul différentiel.

Transféré par

nehemiemuzeke09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
42 vues48 pages

Cal Cul Diff 1213

Le document présente un cours de calcul différentiel, abordant des concepts fondamentaux tels que les espaces vectoriels, les fonctions à plusieurs variables, et les propriétés des dérivées. Il couvre également des théorèmes importants comme le théorème de Bolzano-Weierstrass et les notions de convergence et de compacité. La structure du document est organisée en plusieurs sections, chacune traitant des aspects spécifiques du calcul différentiel.

Transféré par

nehemiemuzeke09
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Calcul Différentiel

Julia Matos

Université d’Evry Val-d’Essonne


2012/2013

Table des matières


1 L’espace Rn - Rappels 2
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Fonctions à plusieurs variables . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Limite et continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Théorèmes sur les fonctions continues . . . . . . . . . . . . . . . . . . 5

2 Applications différentielles 6
2.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Vitesse et dérivée directionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Théorèmes de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.1 Approximation linéaire et quadratique . . . . . . . . . . . . . . . . . . 17
2.5.2 Différentiabilité et dérivées partielles . . . . . . . . . . . . . . . . . . . 18

3 Différentielles d’ordre supérieur 19


3.1 Théorème de Schwarz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Formule de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Extrema simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Les théorèmes d’inversion locale et des fonctions implicites 28


4.1 Difféomorphismes et isomorphismes . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2 Le Théorème d’inversion locale . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Le Théorème des fonctions implicites . . . . . . . . . . . . . . . . . . . . . . . 32

5 Sous-variétés dans Rn 37
5.1 Sous-variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Espace tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3 Surfaces de R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 Courbes de R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.5 Extrema liés – Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . 41

1
1 L’espace Rn - Rappels
1.1 Généralités
Nous énonçons ce qu’il faut savoir sur les espaces de dimension finie.
Soit E un espace vectoriel réel ou complexe (sur le corps K où K = R ou K = C).

Définition 1.1 Une norme sur l’espace vectoriel E est une application N : E → R+ vérifi-
ant :
1. N (x) ≥ 0, ∀x ∈ E et N (x) = 0 ⇐⇒ x = 0 (positivité stricte).
2. N (λx) = |λ|N (x), ∀x ∈ E et ∀λ ∈ K (homogénéité).
3. N (x + y) ≤ N (x) + N (y), ∀x, y ∈ E (inégalité triangulaire).
Un espace vectoriel E doté d’une norme est dit un espace vectoriel normé (e.v.n. en
abrégé).
Si x ∈ E, le nombre N (x) s’appelle la norme de x et se note usuellement par N (x) = kxk.

On a les propriétées suivantes :


1. Pour tout x ∈ E, k − xk = kxk.
2. Pour tous x, y ∈ E, |kxk − kyk| ≤ kxk − kyk.

Exemples :
1. Soit E = Rn , n ≥ 1 et K = R. Alors
q
kxk2 = x21 + . . . + x2n , x = (x1 , . . . , xn ) ∈ Rn ,

est n
Pn la norme associé au produit scalaire canonique de R qui est définit par (x|y) =
i=1 xi yi . Cette norme k · k2 s’appelle la norme euclidienne. Dans le cas n = 2, c’est la
norme correspondant au théorème de Pythagore.
2. Il y a d’autres normes sur Rn , dites normes usuelles. Pour tout x = (x1 , . . . , xn ) ∈ Rn ,
on pose
Xn
kxk1 = |xi |, kxk∞ = max |xi |.
1≤i≤n
i=1

Les applications k · k1 et k · k∞ ainsi définies sont aussi des normes sur Rn et s’appellent
respectivement la norme `1 et la norme du max ou norme infinie.

Définition 1.2 Soient N1 et N2 deux normes sur E. On dit que N1 et N2 sont normes
équivalentes s’il existe α, β > 0 telles que

αN2 (x) ≤ N1 (x) ≤ βN2 (x), ∀x ∈ E.

Exemple : Les normes sur Rn définies dans les exemples précédents sont toutes équivalen-
tes. En effet,
kxk∞ ≤ kxk2 ≤ kxk1 ≤ nkxk∞ , ∀x ∈ Rn .

Théorème 1.1 Toutes les normes d’un espace vectoriel de dimension finie sont équivalentes.

2
La notion de norme permet de définir la distance entre deux points d’un e.v.n. E.

Définition 1.3 Soit (E, k · k) un e.v.n.. On définit l’application d : E × E → R+ par

d(x, y) = kx − yk.

Cette application s’appelle distance sur E associée à la norme k · k. Elle vérifie les propriétés
suivantes :
1. d(x, y) ≥ 0, ∀x, y ∈ E et d(x, y) = 0 ⇐⇒ x = y.
2. d(x, y) = d(y, x), ∀x, y ∈ E (symétrie).
3. d(x, y) ≤ d(x, z) + d(z, y), ∀x, y, z ∈ E (inégalité triangulaire).

Étant donné x ∈ E et r > 0, la boule ouverte de centre x et rayon r est définie par :

B(x, r) = {y ∈ E : kx − yk < r}.

La boule fermée de centre x et rayon r ≥ 0 est définie par :

B̄(x, r) = {y ∈ E : kx − yk ≤ r}.

On appelle boule unité de E la boule de centre 0 et rayon 1 : B(0, 1) et sphère unité à


l’ensemble S = {x ∈ E : kxk = 1}.

Quelques notions de topologie :


1. Une partie A ⊂ E est dite bornée s’il existe une boule qui la contient (c’est-à-dire, il
existe x ∈ E et r > 0 tels que A ⊂ B(x, r)).
2. Une application f : X → E dans un e.v.n. est dite bornée si son image f (X) est une
partie bornée de E.
3. Une partie A est un voisinage d’un point a ∈ E s’il existe une boule ouverte centrée en
a contenue dans A.
Toute intersection finie de voisinages de a est un voisinage de a. Tout ensemble qui
contient un voisinage de a est encore voisinage de a.
4. Une partie O ⊂ E est dite ouverte si, pour tout x ∈ O, O est voisinage de x.
L’ensemble vide et E sont ouverts. Toute boule ouverte est un ouvert.
5. Toute partie ouverte au sens d’une norme l’est au sens de toute autre norme équivalente.
6. On dira qu’une partie est fermée si son complémentaire est ouvert.
7. L’adhérence d’une partie A de E, notée Ā, est l’intersection de tous les fermés contenant
A. Il s’agit du plus petit fermé (au sens de l’inclusion) contenant A.
8. L’intérieur d’une partie A de E, notée intA, est la réunion de tous les ouverts contenus
dans A. C’est le plus grand ouvert contenu dans A.
9. Étant donnée deux points a, b ∈ E, on définit le segment reliant a à b comme l’ensemble

[a, b] = {(1 − t)a + tb : t ∈ [0, 1]}.

Dans un espace de dimension finie, on n’a donc pas besoin de préciser avec quelle norme
on travaille. Souvent, on choisira la norme adaptée au problème posé. Tout espace vectoriel
de dimension est isomorphe à Rn , et il suffit donc de savoir ce qui se passe dans Rn .

3
Définition 1.4 Soit (xk )k∈N est une suite d’éléments de (E, k·k). On dit que (xk )k∈N converge
vers x ∈ E si
lim kxk − xk = 0,
k→+∞
et on note limk→+∞ xk = x.
Remarques.
1. On peut montrer que cette notion de limite ne dépend pas de la norme choisie (parmi
des normes équivalentes).
2. Si E = Rn et x = (x1 , · · · , xn ), xk = (xk,1 , · · · , xk,n ), alors
xk −→x ⇐⇒ ∀1 ≤ i ≤ n, xk,i −→ xi .

Définition 1.5 Une suite (xk )k∈N de E est dite de Cauchy si kxk+m − xk k → 0 lorsque
k, m → +∞.
Définition 1.6 Soit E un espace vectoriel normé. On dit que E est un espace complet si
toute suite de Cauchy dans E y est convergente.
Théorème 1.2 (Théorème de Bolzano-Weierstrass) Dans un espace vectoriel normé de
dimension finie, toute suite bornée contient une sous-suite convergente.
On peut aussi dire que toute suite bornée admet au moins une valeur d’adhérence. Autre
formulation du Théorème de Bolzano-Weierstrass :
Dans un espace vectoriel normé de dimension finie, une partie est compacte si et seulement
si elle est fermée et bornée.

Propriétés :
1. La boule unité d’un espace vectoriel normé est compacte si et seulement si cet espace
est de dimension finie.
2. Tout espace vectoriel de dimension finie est complet.

1.2 Fonctions à plusieurs variables


On regarde les fonctions de Rn dans R ou dans Rp .

1.2.1 Limite et continuité


Définition 1.7 Soit A une partie de Rn et f : A → Rp . On dit que f tend vers l quand x
tend vers a lorsque :
∀ε > 0, ∃δ > 0 tel que kx − akRn < δ =⇒ kf (x) − lkRp < ε.
On note lim f (x) = l.
x→a

x2 y + y 2 sin x
Exemple 1. La fonction f (x, y) = tend vers 0 quand (x, y) tend vers (0, 0)
x2 + y 2
dans R2 .
xy
Exemple 2. La fonction f (x, y) = n’a pas de limite quand (x, y) tend vers (0, 0)
x2 + y 2
dans R2 .

4
Définition 1.8 Soit A une partie de Rn et f : A → Rp . On dit que f est continue en a ∈ A
si lim f (x) = f (a).
x→a
Si f est continue en tout point a ∈ A, on dit que f est continue sur A.

La fonction f est continue en a si et seulement si pour toute suite (xk ) convergeant vers
a, la suite image f (xk ) converge vers f (a).

1.2.2 Théorèmes sur les fonctions continues


Théorème 1.3 L’image d’un compact par une application continue est encore un compact.

Théorème 1.4 Toute fonction continue sur un compact K de Rn à valeurs réelles atteint
son minimum absolu et son maximum absolu sur K.

Le théorème suivant donne une caractérisation des fonctions continues. Il sert surtout à
montrer qu’une partie de Rn est ouverte ou fermé.

Théorème 1.5 1. Une fonction est continue si et seulement si l’image réciproque de tout
ouvert est un ouvert.
2. Une fonction est continue si et seulement si l’image réciproque de tout fermé est un
fermé.

5
2 Applications différentielles
Ce chapitre est consacré à la définition de la différentielle et à ses propriétés élémentaires.

2.1 Notations et définitions


Définition 2.1 Soient x ∈ Rn et f : Rn → Rp . On dira qu’une fonction f (x) est un o(x)
(“petit o de x”) si
f (x)
f (0) = 0 et lim = 0Rp ,
x→0Rn kxkRn

c’est-à-dire, pour tout ε > 0 il existe r > 0 tel que

kxkRn ≤ r =⇒ kf (x)kRp ≤ εkxkRn ,

ou encore que f (x) est de la forme :

f (x) = kxkRn ε(x) avec lim ε(x) = 0Rp .


x→0Rn

Exemple : Les fonctions f (x) = kxk2Rn et g(x) = kxk1+α


Rn avec α > 0 sont des o(x) (à
valeurs réelles).

Rappel : Une fonction f : R → R est différentiable en a ∈ R s’il existe f 0 (a) ∈ R tel que

f (a + h) − f (a) f (a + h) − f (a) − f 0 (a)h


lim = f 0 (a) ⇐⇒ lim = 0.
h→0 h h→0 h
Cette définition n’a pas de sens pour une application f : Rn → Rm , avec n > 1 (on ne sait
pas diviser par un vecteur h ∈ Rn ).
Le calcul différentiel est un outil d’analyse qui permet d’approcher certaines fonctions par
des fonctions plus simples, par exemple des fonctions affines.
Si f est dérivable en a ∈ R,

f (x) = f (a) + f 0 (a)(x − a) + o(x − a) = polynôme du premier degré + o(x − a).

Si f est suffisamment dérivable, on peut encore mieux l’approcher par un polynôme de degré
supérieur : celui de son développement limité.
La généralisation à Rn se fait en définissant la différentiabilité de f en un point a, comme
la possibilité d’approcher f (x) au voisinage de a par une expression affine :

f (a + h) = f (a) + L(h) + o(h).

On désignera L(Rn , Rp ) l’espace des applications linéaires de (Rn , k · kRn ) vers (Rp , k · kRp ).
Cet espace L(Rn , Rp ) est lui-même un espace normé pour la norme définie par

kL(x)kRp
kLk = sup kL(x)kRp = sup kL(x)kRp = sup .
kxkRn ≤1 kxkRn =1 kxkRn 6=0 kxkRn

Notons que
∀x ∈ Rn , kL(x)kRp ≤ kLkkxkRn .

6
On vérifie que la norme de L est égale à la borne inférieure des réels C ≥ 0 tels que

∀x ∈ Rn , kL(x)kRp ≤ CkxkRn .

De plus, si pour un tel C il existe x0 6= 0 tel que kL(x0 )kRp = Ckx0 kRn , alors kLk = C.
On remarque que toute application linéaire de Rn dans Rp est une application continue.
Le résultat suivant est plus général.

Proposition 2.1 Soient E et F des espaces vectoriels normés et L : E → F une application


linéaire. Si E est de dimension finie, alors L est une application continue.

Preuve. Soit (e1 , . . . , en ) une base de E. Pour tout x ∈ E, on a


n
X n
X
kL(x)kF = k xi L(ei )kF ≤ |xi |kL(ei )kF ≤ CN (x),
i=1 i=1

où C = max{kL(ei )kF : 1 ≤ i ≤ n} et N (x) = ni=1 |xi |. N définit une norme sur E et
P
d’autre part, puisque E est de dimension finie, toutes les normes sur E sont équivalentes.
Alors, il existe β > 0 tel que N (x) ≤ αkxkE , pour tout x ∈ E. Donc, kL(x)kF ≤ αCkxkE ,
pour tout x ∈ E et par conséquent, pour tous x, y ∈ E,

kL(x) − L(y)kF = kL(x − y)kF ≤ αCkx − ykE .

On conclut que L est lipschitzienne sur E et donc elle est continue sur E.

Soit Ω un ouvert de Rn et f : Ω → Rp .

Définition 2.2 On dit que f est différentiable au point a ∈ Ω, s’il existe une application
lnéaire L : Rn → Rp telle que

kf (a + h) − f (a) − L(h)kRp
lim = 0.
h→0 khkRn

Plus précisément :

∀ε > 0, ∃r > 0 : khkRn ≤ r =⇒ kf (a + h) − f (a) − L(h)kRp ≤ εkhkRn ,

ou encore de manière équivalente :

f (a + h) = f (a) + L(h) + o(h), pour tout h suffisamment petit.

Proposition 2.2 1. Si L existe, elle est unique. On l’appelle la différentielle de f en a et


on note
Df (a) ou df (a) ou même parfois f 0 (a).
2. Si f est différentiable en a, alors f est continue en a.
3. Localité : f est différentiable en a si et seulement si la restriction de f à tout ouvert U
de Ω tel que a ∈ U est différentiable en a.
4. On ne change pas la différentiabilité et la différentielle en remplaçant la norme par des
normes équivalentes.

7
Preuve :
1. Si L1 et L2 vérifient la définition, alors pour ε > 0 fixé, il existe r > 0 tel que, si
khkRn ≤ r,
kf (a + h) − f (a) − L1 (h)kRp ≤ εkhkRn et kf (a + h) − f (a) − L2 (h)kRp ≤ εkhkRn .
Alors,
kL1 (h) − L2 (h)kRp ≤ 2εkhkRn ,
pour tout h suffisamment petit. Donc, kL1 − L2 k ≤ 2ε. Puisque ε > 0 est arbitraire, on
conclut que L1 = L2 .
2. Si f est différentiable en a, alors
kf (a + h) − f (a)kRp ≤ kLkkhkRn + o(h),
et donc lim f (a + h) = f (a).
h→0
3. Évident par la définition.
4. L’égalité f (a + h) − f (a) − L(h) = o(h) ne dépend pas de la norme (équivalente) choisie.
Remarques :
1. Si elle existe, Df (a) est une application linéaire de Rn dans Rp . La différentielle Df (a)
est répresentée par une matrice à p lignes et n colonnes appellée la matrice jacobienne
de f en a.
2. Si n = p = 1, les matrices n’ayant pas de parenthèses, l’application linéaire Df (a)
s’identifie au nombre dérivée
f (a + h) − f (a)
Df (a)(1) = lim = f 0 (a).
h→0 h
3. Au voisinage de a, l’application f se comporte a peu près comme l’application x 7→
f (a)+Df (a)(x−a) (somme d’une constante et d’une application linéaire), pour laquelle
on peut utiliser les outils d’algèbre linéaire : calcul matriciel, rang, . . .
Pour montrer qu’une fonction est différentiable en un point, on utilise la plupart du temps
la condition suffisante du paragraphe suivant, avec les dérivées partielles. Quand la fonction
est compliquée (souvent à l’origine), il faut revenir à la définition.

Exemple : Soit n = p = 2. On considère sur R2 la norme `1 :


k(x, y)k = |x| + |y|, (x, y) ∈ R2 .
Soit f définie sur R2 par : f (x, y) = (x + y, xy). Si a = (a1 , a2 ) ∈ R2 et h = (h1 , h2 ) ∈ R2 , on
a
f (a + h) − f (a) = (h1 + h2 , a2 h1 + a1 h2 ) + (0, h1 h2 ).
Puisque k(0, h1 h2 )k = |h1 h2 | ≤ (|h1 | + |h2 |)2 = khk2 , alors (0, h1 h2 ) = o(h). Donc, f est
différentiable en a et
  
1 1 h1
Df (a)(h) = (h1 + h2 , a2 h1 + a1 h2 ) = .
a2 a1 h2
 
1 1
La matrice jacobienne de f en a est .
a2 a1

8
Définition 2.3 On dit que f est différentiable sur Ω si, pour tout x ∈ Ω, f est différentiable
en x. Alors, Df : Ω → L(Rn , Rp ) s’appelle la différentielle de f .

Définition 2.4 On dit que f est C 0 (ou de classe C 0 ) si elle est continue dans Ω (et on pose
D0 f = f ).
On dit que f est continûment différentiable sur Ω, ou C 1 , si Df est continue dans Ω.

Remarquer que si f est différentiable sur Ω, pour tout x ∈ Ω, Df (x) est continue, alors
que Df peut l’être ou pas.

Définition 2.5 Si Df est elle même différentiable sur Ω, on dit que f est deux fois diffé-
rentiable et, l’on note D(Df ) = D2 f . C’est un élément de L(Rn , L(Rn , Rp )) qu’on appelle la
différentielle seconde de f . En définissant par récurrence la notation

Dk f = D(Dk−1 f ),

on dit que f est n fois différentiable (n ≥ 1) si Dn−1 f est différentiable. On appelle différen-
tielle d’ordre n de f à Dn f .

Définition 2.6 On dit que f est C n (ou de classe C n ) si Dn f est continue. Elle est dite C ∞
(ou de classe C ∞ ) si Dn f existe pour tout entier n ≥ 0.

2.2 Propriétés
Linéairité de la différentielle
Soit Ω un ouvert de Rn , f : Ω → Rp et g = Ω → Rp différentiables en a ∈ Ω (resp. C k sur
Ω) alors, pour tous λ, µ ∈ R, λf + µg est différentiable en a (resp. C k sur Ω) et

D(λf + µg)(a) = λDf (a) + µDg(a).

Différentielle d’une constante


Soit f : Ω → Rp une fonction constante, c’est-à-dire

∀x ∈ Ω, f (x) = y0 ∈ Rp .

Alors f est C ∞ et Df (x) = 0 (application identiquement nulle), pour tout x ∈ Ω.


En effet, f (x + h) − f (x) = 0 = o(h).

Différentielle d’une application linéaire


Soit ϕ ∈ L(Rn , Rp ). Alors ϕ est différentiable dans Rn (et même de classe C ∞ ) et Dϕ(x) =
ϕ, pour tout x ∈ Rn .
En effet, ϕ(x+h)−ϕ(x)−ϕ(h) = 0 = o(h). Ainsi, Dϕ : E → L(Rn , Rp ) est une application
constante, donc elle est différentiable et sa différentielle est l’application identiquement nulle.

9
Différentielle d’une application bilinéaire
Soit b : Rn × Rm → Rp une application bilinéaire, c’est-à-dire b est linéaire dans les
variables x et y. Alors, b est C ∞ et

Db(a)(h) = b(h1 , a2 ) + b(a1 , h2 ), a = (a1 , a2 ), h = (h1 , h2 ).

Preuve : Soit a = (a1 , a2 ) ∈ Rn ×Rm fixé. On a b(a+h)−b(a) = b(h1 , a2 )+b(a1 , h2 )+b(h1 , h2 ).


L’application (h1 , h2 ) ∈ Rn × Rm 7→ b(h1 , a2 ) + b(a1 , h2 ) est linéaire. Alors, pour conclure que
Df (a)(h) = b(h1 , a2 ) + b(a1 , h2 ), il suffit de montrer que b(h1 , h2 ) = o(h) où h = (h1 , h2 ). En
effet, puisque b est bilinéaire de Rn × Rm dans Rp , il existe C > 0 telle que

kb(h1 , h2 )kRp ≤ Ckh1 kRn kh2 kRm , ∀h = (h1 , h2 ) ∈ Rn × Rm .

Alors,
kb(h1 , h2 )kRp ≤ Ckhk2 , avec khk = max(kh1 kRn , kh2 kRm ).
On remarque facilement que l’application a 7→ Db(a) est linéaire. D’autre part,

kDb(a)(h1 , h2 )kRp = kb(h1 , a2 ) + b(a1 , h2 )kRp


≤ C(kh1 kRn , ka2 kRm , +ka1 kRn , kh2 kRm , )
≤ C(ka1 kRn , +ka2 kRm , ) max(kh1 kRn , , kh2 kRm , ).

Alors kDb(a)k ≤ 2Ckak où C = kbk. D’où, Db comme application linéaire en a ∈ E1 × E2 est
continue et kDbk ≤ 2C = 2kbk. Donc, D2 (b) = D(Db) est constante et D3 (b) = 0.

Différentielle d’une application composée

Théorème 2.1 Soient Ω ouvert de Rn et U ouvert de Rm , f : Ω → U et g : U → Rp . On


suppose f différentiable en a ∈ Ω et g différentiable en f (a), alors g◦f est différentiable en a
et
D(g◦f )(a) = Dg(f (a))◦Df (a).
Si de plus, f et g sont C 1 , respectivement sur Ω et U, alors g◦f est C 1 sur Ω.

Preuve : L’application Dg(f (a))◦Df (a) est linéaire. On veut montrer que

g(f (a + h)) − g(f (a)) − Dg(f (a))[Df (a)(h)] = o(h).

Par hypothèse,

g(f (a + h)) − g(f (a)) = Dg(f (a))[f (a + h) − f (a)] + o1 (f (a + h) − f (a)),


o1 (h)
avec limh→0 khk = 0. De plus,

o2 (h)
f (a + h) − f (a) = Df (a)(h) + o2 (h), avec lim = 0.
h→0 khk

Donc,

g(f (a + h)) − g(f (a)) = Dg(f (a))[Df (a)(h) + o2 (h)] + o1 (f (a + h) − f (a)).

10
Alors, par la linéairité de Dg(f (a)), on obtient

g(f (a + h)) − g(f (a)) − Dg(f (a))[Df (a)(h)] = Dg(f (a))[o2 (h)] + o1 (f (a + h) − f (a)).

On a, par la continuité de Dg(f (a)),

kDg(f (a))[o2 (h)]k ≤ kDg(f (a))kko2 (h)k,

alors Dg(f (a))[o2 (h)] = o(h).


Étant donné ε > 0, il existe r > 0 tel que

khk ≤ r =⇒ kf (a + h) − f (a)k = kDf (a)(h) + o2 (h)k ≤ (kDf (a)k + ε)khk.

Alors, pour khk ≤ r,


kf (a + h) − f (a)k
≤ kDf (a)k + ε.
khk
Par la continuité de f en a, f (a + h) − f (a) → 0 si h → 0. Donc o1 (f (a + h) − f (a)) = o(h).
D’où le résultat.
Supposons f , g de classe C 1 , alors x 7→ (Dg(f (x)), Df (x)) est continue. L’opérateur de
composition B = L(Rm , Rp ) × L(Rn , Rm ) → L(Rn , Rp ) défini par B(u, v) = u ◦ v est bilinéaire
continu. On peut écrire
D(g◦f ) = B ◦((Dg)◦f, Df ),
qui est donc continue par composition.

Proposition 2.3 Si f , g sont k fois différentiables (resp. C k ) alors g ◦f est k fois différen-
tiable (resp. C k ).

Preuve : Par récurrence sur k, en utilisant la règle de la différentielle des fonctions composées.

2.3 Vitesse et dérivée directionnelle


Soit I un intervalle de R et une courbe dans Rp , c’est-à-dire une application continue
c : I → Rp .
Si c est différentiable en t0 ∈ I, il existe L : R → Rp linéaire telle que

c(t0 + t) − c(t0 ) = L(t) + o(t) = tL(1) + o(t),

d’où
c(t0 + t) − c(t0 )
lim = L(1) ∈ Rp .
t→0 t
On notera c0 (t0 ) cette limite et on l’appelera dérivée ou vitesse de c en t0 . Si p = 1, on retrouve
le nombre dérivée usuel.
Réciproquement si
c(t0 + t) − c(t0 )
c0 (t0 ) = lim
t→0 t
existe alors c est différentiable en t0 et l’on a Dc(t0 )(h) = hc0 (t0 ).
Pour les courbes on ne distingue pas c0 (t0 ) et Dc(t0 ) identifiée à sa valeur en 1.

11
Exemple : Soient u, x0 ∈ Rn fixés et c(t) = x0 + tu. La vitesse de la courbe c est c0 (t) = u.
Si c est différentiable à valeurs dans l’ouvert Ω ⊂ Rn et f : Ω → Rp est différentiable sur Ω,
alors f ◦ c est différentiable et (f ◦ c)0 (t) = Df (c(t))(c0 (t)).
On dit que la courbe est transportée par une fonction et que la vitesse est transportée par
sa différentielle.

Définition 2.7 On dit que f admet une dérivée en a dans la direction h, si la courbe t 7→
f (a + th) est dérivable en t = 0. La vitesse en 0 est appelée dérivée directionnelle en a dans
la direction h et notée f 0 (a; h) ou ∂f
∂h (a). On a donc

f (a + th) − f (a)
f 0 (a; h) = lim .
t→0 t
Théorème 2.2 Si f est différentiable en a ∈ Ω alors, pour tout h ∈ Rn , f 0 (a; h) existe et

f 0 (a; h) = Df (a)(h).

Preuve : La courbe t 7→ c(t) = a + th est dérivable avec c0 (t) = h et c(0) = a. Par composition,
t 7→ f (a + th) est dérivale en 0 et

f 0 (a; h) = (f ◦ c)0 (0) = Df (c(0))(c0 (0)) = Df (a)(h).

La réciproque de ce théorème est fausse.


Exemple : Soit A = {(x, y) ∈ R2 : x > 0 et 0 < y < x2 } (ouvert de R2 ) et χA la fonction
caractéristique de A. La dérivée directionnelle en (0, 0) est nulle dans toutes les directions,
mais χA nest pas différentiable en (0, 0) car elle est discontinue en (0, 0).

2.4 Dérivées partielles


On note πi la projection de Rn sur sa i-ième composante R,

πi (x1 , . . . , xn ) = xi , 1 ≤ i ≤ n.

L’application πi est linéaire continue donc, pour tout x ∈ Rn , Dπi (x) = πi . On note ci :
R → Rn l’injection définie par ci (x) = (0, . . . , 0, x, 0, . . . , 0) (où x est dans le i-ième rang).
L’application ci est linéaire et Dci (x) = ci , pour tout x ∈ R. On a
n
X
∀1 ≤ i ≤ n, πi ◦ci = idR , ci ◦πi = idRn .
i=1

Soit f : Ω ⊂ Rn → Rp Pour x ∈ Ω, on note f (x) = (f1 (x), . . . , fp (x)) où fi = πi ◦ f ,


1 ≤ i ≤ p.

Théorème 2.3 L’application f est différentiable en a ∈ Ω si et seulement si, pour tout


1 ≤ i ≤ p, fi est différentiable en a. Alors

Df (a)(h) = (Df1 (a)(h), . . . , Dfn (a)(h)), h ∈ Rn .

De plus, f est C 1 sur Ω si et seulement si, pour tout 1 ≤ i ≤ p, fi est C 1 sur Ω.

12
Preuve : Par la composition, si f est différentiable en a ∈ Ω, pour tout 1 ≤ i ≤ p, fi l’est
aussi (resp. C 1 si f l’est) et

Dfi (x) = πi ◦Df (x), ∀x ∈ Ω,

c’est-à-dire, pour tout h ∈ E, Dfi (x)(h) est la i-ième composante de Df (x)(h).


Réciproquement si, pour tout 1 ≤ i ≤ p, fi est différentiable, comme
p
X p
X
f= ci ◦πi ◦f = ci ◦fi ,
i=1 i=1

alors f est différentiable (car somme de fonctions différentiables).


Soit Ω un ouvert de Rn et f : Ω → R. On fixe a = (a1 , . . . , an ) ∈ Ω.

Définition 2.8 On dit que f admet la i-ième dérivée partielle en a si f admet la dérivée en
a dans la direction ei , où e1 , . . . , en désignent les éléments de la base canonique de Rn . On
∂f
note (a) = f 0 (a; ei ).
∂xi
Remarque : On a
∂f f (a + hei ) − f (a)
(a) = lim .
∂xi h→0 h
∂f
Théorème 2.4 Si f est différentiable en a ∈ Ω alors, pour tout 1 ≤ i ≤ n, ∂xi (a) existe et
l’on a
n
X ∂f
Df (a)(h) = (a)hi , ∀h = (h1 , . . . , hn ) ∈ Rn .
∂xi
i=1
Alors,
Df (a)(h) =< ∇f (a), h >
∂f ∂f
où ∇f (a) = ( ∂x1
(a), . . . , ∂xn
(a)) est le gradient de f au point a et < ·, · > désigne le produit
∂f
scalaire de R . De plus, si f est C 1 , alors les applications x 7→ ∂x
n
i
(x) sont continues sur Ω.

Preuve : Par le théorème 2.2, les dérivées partielles premières de f existent. D’autre part, par
la linéarité de Df (a),
n n n
X X X ∂f
Df (a)(h) = Df (a)(0, . . . , hi , . . . , 0) = hi Df (a)(ei ) = (a)hi .
∂xi
i=1 i=1 i=1

Si f est C 1 , alors l’application Ω → L(Rn , R) définie par x 7→ Df (x) est continue. Alors,
en composant avec l’opérateur de composition des opérateurs linéaires, on trouve que x 7→
∂f
∂xi (x) = Df (x)(ei ) est continue sur Ω.
Remarque : Dans la section suivante, on montre que
∂f
f est C 1 ⇐⇒ existent et son continues , ∀1 ≤ i ≤ n.
∂xi
Exemple : La fonction f (x, y) = x2xy +y 2
si (x, y) 6= 0 et f (0, 0) = 0 admet des dérivées
2
partielles sur R mais n’est pas différentiable (ni même continue) en (0, 0) et, donc elle n’est
pas de classe C 1 dans R2 .

13
Soient Ω ouvert de Rn et f : Ω → Rp (n, p ≥ 1). On écrit x = (x1 , . . . , xn ) et f (x) =
(f1 (x), . . . , fp (x)). On sait que f est différentiable sur Ω si et seulement si fi est différentiable
∂fi
sur Ω, pour tout 1 ≤ i ≤ p et, dans ce cas, les ∂x j
existent, pour tout 1 ≤ j ≤ n.
Dans les bases canoniques de Rn et Rp , Df (a) est répresenté par la matrice dans Mp×n (R)
(matrice à p lignes et n colonnes) dont les coordonnées de la j-ième colonne sont les coor-
données du vecteur
Df (a)(ej ) = (Df1 (a)(ej ), . . . , Dfp (ej )),
pour 1 ≤ j ≤ n, où (e1 , . . . , en ) est la base canonique de Rn . La i-ième coordonnée de ce
vecteur est Dfi (a)(ej ). Mais,
∂fi
Dfi (a)(ej ) = (a).
∂xj
D’où la définition suivante :

Définition 2.9 La matrice de Df (a), appelée matrice jacobienne de f en a, s’écrit


 ∂f1 ∂f1 
∂x1 (a) ... ∂xn (a)
.. ..
J(f )(a) =  .
 
. .
∂fp ∂fp
∂x1 (a) . . . ∂xn (a)

De plus, pour tout h ∈ Rn ,

Df (a)(h) = J(f )(a)h, où h s’identifie avec son vecteur colonne.

La règle de la différentielle d’une application composée s’écrit par rapport aux matrices
jacobiennes de la forme suivante.

Proposition 2.4 Soient Ω ouvert de Rn et U ouvert de Rm , f : Ω → U et g : U → Rp . On


suppose f différentiable en a ∈ Ω et g différentiable en f (a), alors g◦f est différentiable en a
et
J(g◦f )(a) = J(g)(f (a))J(f )(a).

2.5 Théorèmes de la moyenne


Cette section est consacré à la généralisation du théorème classique des accroissements
finis.
Rappel : Soit f une fonction à valeurs réelles définie et continue sur un segment [a, b] et
dérivable dans ]a, b[. Le théorème classique des accroissements finis dit qu’il existe c ∈]a, b[
tel que
f (b) − f (a) = f 0 (c)(b − a).
Ce résultat ne peut pas être généralisé avec cet énoncé. Par exemple, si f : R → C est définie
par f (t) = eit , on a f (2π) − f (0) = 0 et, pour tout c ∈ R, f 0 (c) = ieit 6= 0.
Par contre, la conséquence du théorème des accroissements finis :

|f (b) − f (a)| ≤ (b − a) sup |f 0 (x)|,


x∈]a,b[

sera généralisée.

14
Théorème 2.5 (Théorème de la moyenne) Soit f : [a, b] → Rp et g : [a, b] → R. On
suppose f et g continues sur [a, b] et dérivables sur ]a, b[ et telles que
∀x ∈ [a, b], kf 0 (x)kRp ≤ g 0 (x).
Alors,
∀x ∈ [a, b], kf (x) − f (a)kRp ≤ g(x) − g(a).
Preuve : On va montrer que pour tout ε > 0,
kf (x) − f (a)k ≤ g(x) − g(a) + ε(x − a) + ε. (1)
Notons A = {y ∈ [a, b] : ∀x ∈ [a, y], x vérifie (1)}. Puisque a ∈ A, A 6= ∅. D’autre part, si
y ∈ A, par la définition [a, y] ∈ A.
Notons c = sup(A). On a c ≤ b. Par la continuité de f et g, il existe δ > 0 tel que
ε ε
a ≤ x ≤ a + δ =⇒ kf (x) − f (a)k < et |g(x) − g(a)| < ,
2 2
alors :
ε
kf (x) − f (a)k < ≤ g(x) − g(a) + ε,
2
et donc, x vérifie (1). D’où [a, a + δ] ⊂ A et alors c > a. En faisant x tendre vers c par des
valeurs inférieures, on obtient (par la continuité de f et g),
kf (c) − f (a)k ≤ g(c) − g(a) + ε(c − a) + ε.
Donc A = [a, c].
Supposons par contradiction que c < b. Alors, f et g sont dérivables en c et il existe γ > 0
tel que c + γ < b. Au voisinage de c, on a
f (x) − f (c) = f 0 (c)(x − c) + ε1 (x)(x − c) et g(x) − g(c) = g 0 (c)(x − c) + ε2 (x)(x − c),
avec
lim ε1 (x) = 0Rp et lim ε2 (x) = 0.
x→c x→c
Donc, on peut choisir γ suffisamment petit tel que
ε ε
kε1 (x)k < et |ε2 (x)| < .
2 2
Alors, pour tout x ∈ [c, c + γ], on a
ε ε
kf (x) − f (c)k ≤ kf 0 (c)k(x − c) + (x − c) et g 0 (c)(x − c) ≤ g(x) − g(c) + (x − c).
2 2
En utilisant l’hypothèse, on obtient
ε
kf (x) − f (c)k ≤ kf 0 (c)k(x − c) + (x − c)
2
0 ε
≤ g (c)(x − c) + (x − c)
2
≤ g(x) − g(c) + ε(x − c).
Finalement, pour tout x ∈ [c, c + γ], on a
kf (x) − f (a)k ≤ kf (x) − f (c)k + kf (c) − f (a)k ≤ g(x) − g(a) + ε(x − a) + ε.
Donc, [c, c + γ] ⊂ A, ce qui contradit la définition de c. D’où c = b.

15
Corollaire 2.1 Soit f : [a, b] → Rp continue sur [a, b] et dérivable sur ]a, b[. Supposons qu’il
existe M > 0 tel que
∀x ∈ [a, b], kf 0 (x)k ≤ M.
Alors,
kf (b) − f (a)k ≤ M (b − a).

Preuve : Il suffit de prendre g(x) = M x et d’appliquer le théorème de la moyenne.


Ensuite, on suppose que f est définie sur un ouvert Ω d’un espace vectoriel normé qui
n’est plus necéssairement R.
Si a, b ∈ Rn , on définit le segment reliant a à b comme l’ensemble

[a, b] = {(1 − t)a + tb : t ∈ [0, 1]}.

Corollaire 2.2 Soit Ω ouvert de Rn et f : Ω → Rp . On suppose a, b ∈ Ω tels que [a, b] ⊂ Ω.


Alors,
kf (b) − f (a)kRp ≤ kb − akRn sup kDf (x)k.
x∈[a,b]

On l’appelle l’inégalité de la moyenne.

Preuve : On peut supposer que M = supx∈[a,b] kDf (x)k < +∞ (cas contraire le membre de
droite de l’inégalité vaut +∞ et l’inégalité est évidente). On définit c : [0, 1] → [a, b] ⊂ Ω par

c(t) = (1 − t)a + tb.

Alors, l’application f ◦c : [0, 1] → Rp est différentiable sur [0, 1] et

(f ◦c)0 (t) = Df (c(t))(c0 (t)) = Df (c(t))(b − a).

De plus,

k(f ◦c)0 (t)kRp ≤ sup kDf (x)(b − a)kRp ≤ kb − akRn sup kDf (x)k = M kb − akRn .
x∈[a,b] x∈[a,b]

D’où, par le corollaire 2.1,

kf (b) − f (a)kRp = k(f ◦c)(1) − (f ◦c)(0)kRp ≤ M kb − akRn .

Définition 2.10 On dit qu’un sous-ensemble Ω d’un espace vectoriel normé E est convexe
si, pour tous a, b ∈ Ω, le segment [a, b] est dans Ω.

Corollaire 2.3 (Inégalité des accroissements finis pour les convexes) Soit Ω ouvert
convexe de Rn et f : Ω → Rp différentiable. Si kDf (x)k ≤ M , pour tout x ∈ Ω, alors

∀x, y ∈ Ω, kf (x) − f (y)k ≤ M kx − yk.

Pour les applications différentiables, être lipschitzienne est équivalent à avoir sa différen-
tielle bornée.

Proposition 2.5 Soit f une application différentiable sur Ω ouvert convexe. Alors,

f est lipschitzienne ⇐⇒ Df est borné sur Ω.

16
Preuve : La condition suffisante est immédiate d’après le corollaire 2.3.
Condition nécessaire : supposons

kf (x) − f (y)k ≤ M kx − yk, ∀x, y ∈ Ω.

Pour y = x + th, avec t > 0 et h ∈ Rn , on a

kf (x + th) − f (x)k tkhk


≤M = M khk.
t t
Donc,
kf (x + th) − f (x)k
kDf (x)(h)k = lim ≤ M khk.
t→0+ t
D’où, sup kDf (x)k ≤ M .
x∈Ω

Conséquence : Si Df s’annule sur un ouvert convexe U on a kf (x) − f (y)k = 0, pour tous


x, y ∈ U, donc f est constante sur U. Les boules ouvertes sont convexes donc, si Df = 0
sur un ouvert Ω, alors f est constante sur une boule au voisinage de tout point de Ω. Plus
précisemment, f est constante sur les composantes connexes de Ω.

Théorème 2.6 Soient Ω ouvert connexe de Rn et f : Ω → Rp différentiable. Si Df (x) = 0


pour tout x ∈ Ω, alors f est constante sur Ω.

Preuve : On fixe a ∈ Ω. Soit A = {x ∈ Ω : f (x) = f (a)}. Par la continuité de f , A est un


fermé de Ω. Pour x ∈ A, x ∈ Ω alors il existe r > 0 tel que B = B(x, r) ⊂ Ω. L’ensemble B
est convexe, alors par le corollaire 2.3, f est constante sur B, c’est-à-dire

f (y) = f (x) = f (a), ∀y ∈ B.

Donc, B ⊂ A. On conclut que A est une ensemble ouvert de Ω. Comme A 6= ∅ et Ω est


connexe, A = Ω.

2.5.1 Approximation linéaire et quadratique


Théorème 2.7 Soient Ω ouvert de Rn , f : Ω → Rp différentiable et a, b ∈ Ω tels que [a, b] ∈
Ω. Alors,
kf (b) − f (a) − Df (a)(b − a)k ≤ kb − ak sup kDf (x) − Df (a)k.
x∈[a,b]

En particulier, pour tout h tel que [a, a + h] ∈ Ω,

kf (a + h) − f (a) − Df (a)(h)k ≤ khk sup kDf (x) − Df (a)k.


x∈[a,a+h]

Preuve : On applique le corollaire 2.2 à ϕ(x) = f (x) − Df (a)(x).

Corollaire 2.4 Si f est deux fois différentiable, alors

kf (b) − f (a) − Df (a)(b − a)k ≤ kb − ak2 sup kD2 f (x)k.


x∈[a,b]

17
Preuve : On peut appliquer l’inégalité de la moyenne à Df sur le segment [a, x],
kDf (x) − Df (a)k ≤ kx − ak sup kD2 f (y)k,
y∈[a,x]

d’où
sup kDf (x) − Df (a)k ≤ kb − ak sup kD2 f (y)k.
x∈[a,b] y∈[a,b]
Par le théorème 2.7, on obtient le résultat.

2.5.2 Différentiabilité et dérivées partielles


Théorème 2.8 Soit Ω ouvert de Rn . Alors f : Ω → Rp est de classe C 1 si et seulement si,
∂f
pour tout 1 ≤ i ≤ n, les dérivées partielles ∂xi
existent et sont continues.
Preuve : La condition nécessaire a été montré dans le théorème 2.4.
Condition suffisante : Soit a ∈ Ω. Si f est différentiable en a, on sait que
n
X ∂f
Df (a)(h) = (a)hi , h = (h1 , . . . , hn ) ∈ Rn .
∂xi
i=1

Donc, f est de classe C 1 en a, si on montre que Df (a) existe. On définit g : Ω → Rp par


n
X ∂f
g(x) = f (x) − f (a) − (a)(xi − ai ).
∂xi
i=1
∂g ∂f ∂f
Alors, ∂xj (x)
= −
∂xj (x) ∂xj (a).
Soit ε > 0 fixé. Puisque les dérivées partielles de f sont
continues en a, il existe r > 0 tel que, pour tout 1 ≤ j ≤ n,
∂g ∂f ∂f
(x) = (x) − (a) < ε, ∀x ∈ B(a, r).
∂xj ∂xj ∂xj
D’autre part,
n
X
g(x) = g(x) − g(a) = (g(x1 , . . . , xk , ak+1 , . . . , an ) − g(x1 , . . . , xk−1 , ak , . . . , an )) .
k=1

Alors, par le théorème des accroissements finis pour les convexes, pour tout x ∈ B(a, r),
n
X
kg(x)k ≤ kg(x1 , . . . , xk−1 , xk , ak+1 , . . . , an ) − g(x1 , . . . , xk−1 , ak , ak+1 , . . . , an )k
k=1
n
X
≤ ε|xk − ak | ≤ nεkx − ak, où kx − ak = max |xk − ak |.
1≤k≤n
k=1

Comme ε est arbitraire, on conclut que g(x) = o(x − a). Donc,


n
X ∂f
f (x) = f (a) + (a)(xi − ai ) + o(x − a).
∂xi
i=1

Finalement, Df (a) existe et, pour tout h ∈ Rn ,


n
X ∂f
Df (a)(h) = (a)hi .
∂xi
i=1

18
3 Différentielles d’ordre supérieur
Ce chapitre est consacré aux différentielles d’ordre supérieur d’une application différen-
tiable et aux régles de calcul les concernant. Les résultats principaux sont : le théorème
de Schwarz sur la symétrie des différentielles d’ordre supérieur, la formule de Taylor et les
applications à l’étude des points critiques pour les fonctions à valeurs réelles.

3.1 Théorème de Schwarz


On commence par un résultat préliminaire algébrique :

Proposition 3.1 Soient E, F , G trois e.v.n.. On note L(E, F ; G) l’espace des applications
bilinéaires continues de E × F dans G. Alors, L(E, L(F, G)) est canoniquement isométrique
à L(E, F ; G).

Preuve : Pour L ∈ L(E, L(F, G)), on définit Φ(L) ∈ L(E, F ; G) par Φ(L)(x, y) = L(x)(y) et,
pour B ∈ L(E, F ; G) on définit Ψ(B) ∈ L(E, L(F, G)) par Ψ(B)(x)(y) = B(x, y). On montre
facilement que Φ et Ψ sont deux isomorphismes (applications linéaires bijectives) réciproques
l’une de l’autre.
Par la continuité de L ∈ L(E, L(F, G)), on a

kΦ(L)(x, y)k = kL(x)(y)k ≤ kL(x)kkyk ≤ kLkkxkkyk, ∀(x, y) ∈ E × F.

Alors, kΦ(L)k ≤ kLk. Donc, Φ est continue et kΦk ≤ 1. D’autre part, par la continuité de
B ∈ L(E, F ; G), on a, pour tout x ∈ E,

kΨ(B)(x)(y)k = kB(x, y)k ≤ kBkkxkkyk, ∀y ∈ F ⇐⇒ kΨ(B)(x)k ≤ kBkkxk.

Alors, kΨ(B)k ≤ kBk. Donc, Ψ est continue et kΨk ≤ 1. Finalement, on obtient

kLk = kΨ ◦ Φ(L)k ≤ kΦ(L)k ≤ kLk.

D’où, kΦ(L)k = kLk, c’est-à-dire Φ est une isométrie.


Ce résultat est facilement généralisable. Un application linéaire continue :

L ∈ L(E1 , L(E2 , . . . , L(En , F )) . . .)

s’identifie à une application n-linéaire continue de E1 × . . . × En dans F , en écrivant :

L(h1 , . . . , hn ) = [L(h1 )(h2 ) . . .](hn ).

Soit Ω ouvert de Rn et f : Ω → Rp une application m0 fois différentiable sur Ω (m0 ≥ 2).


En utilisant l’identification faite dans la proposition 3.1, la différentielle seconde de f en a est
alors une application bilinéaire continue de Rn × Rn dans Rp , définie par :

D2 f (a)(h, k) = D2 f (a)(h)(k), h, k ∈ Rn .

De plus, la différentielle seconde de f est une application :

D2 f : Ω → L(Rn , Rn ; Rp ).

19
Plus généralement, les différentielles d’ordre m ≤ m0 de f au point a sont des applications
m-linéaires continues :
Dm f (a) : Rn × . . . Rn → Rp .
Le théorème suivant montre que les dérivées secondes sont des applications bilinéaires
symétriques.

Théorème 3.1 (Théorème de Schwarz) Soit Ω ouvert de Rn et f : Ω → Rp deux fois


différentiable. Pour tout a ∈ Ω, l’application bilinéaire D2 f (a) est symétrique :

D2 f (a)(h, k) = D2 f (a)(k, h), ∀h, k ∈ Rn .

Preuve : On va approcher D2 f (a)(h, k) par une expression symétrique en (h, k).


Soient h, k ∈ Rn de norme suffisamment petite tels que, pour tout t ∈ [0, 1], a+th+k ∈ Ω.
On pose
g(t) = f (a + th + k) − f (a + th), t ∈ [0, 1].
Alors,
g(1) − g(0) = f (a + h + k) − f (a + h) − f (a + k) + f (a)
est une espression symétrique en (h, k) et

g 0 (t) = [Df (a + th + k) − Df (a + th)](h).

Par le théorème de la moyenne, on a

kg(1) − g(0) − D2 f (a)(k)(h)k ≤ kg(1) − g(0) − g 0 (0)k + kg 0 (0) − D2 f (a)(k)(h)k


≤ sup kg 0 (t) − g 0 (0)k + kg 0 (0) − D2 f (a)(k)(h)k (2)
t∈[0,1]

Soit ε > 0 fixé. Par la définition de la différentielle, il existe r > 0 tel que pour k(h, k)k < r
on a

k[Df (a + th + k) − Df (a) − D2 f (a)(th + k)](h)k ≤ εkth + kkkhk ≤ εkhk(khk + kkk)

et
k[Df (a + th) − Df (a) − D2 f (a)(th)](h)k ≤ εkthkkhk ≤ εkhk2 .
Alors, en ajoutant ces inégalités et en utilisant la linéarité de D2 f (a), on obtient

k[Df (a + th + k) − Df (a + th) − D2 f (a)(k)](h)k ≤ 2εkhk(khk + kkk),

c’est-à-dire
kg 0 (t) − D2 f (a)(k, h)k ≤ 2εkhk(khk + kkk).
En particulier, pour t = 0, on a

kg 0 (0) − D2 f (a)(k, h)k ≤ 2εkhk(khk + kkk).

D’où,

kg 0 (t) − g 0 (0)k ≤ 4εkhk(khk + kkk), ∀t ∈ [0, 1] =⇒ sup kg 0 (t) − g 0 (0)k ≤ 4εkhk(khk + kkk).
t∈[0,1]

20
D’après (2), on a

kg(1) − g(0) − D2 f (a)(k, h)k ≤ 6εkhk(khk + kkk).

En permutant h et k et en utilisant la symétrie de g(1) − g(0) par rapport (h, k), on a aussi

kg(1) − g(0) − D2 f (a)(h, k)k ≤ 6εkkk(khk + kkk).

D’où :
kD2 f (a)(k, h) − D2 f (a)(h, k)k ≤ 6ε(khk + kkk)2 . (3)
Cette inégalité étant valable pour k(h, k)k < r. Soit (h, k) ∈ Rn × Rn quelconque. On prend
λ > 0 tel que k(λh, λk)k < r. Alors,

kD2 f (a)(λk, λh) − D2 f (a)(λh, λk)k ≤ 6ε(kλhk + kλkk)2

⇐⇒ λ2 kD2 f (a)(k, h) − D2 f (a)(h, k)k ≤ λ2 6ε(khk + kkk)2 .


Donc, l’inégalité (3) reste valable pour tout (h, k) et, en particulier, pour khk ≤ 1 et kkk ≤ 1,
on a
kD2 f (a)(k, h) − D2 f (a)(h, k)k ≤ 24ε.
Ainsi l’application bilinéaire (h, k) 7→ D2 f (a)(k, h) − D2 f (a)(h, k) est de norme inférieure à
24ε, pour tout ε > 0, donc nulle.

Si f est une fonction définie sur un ouvert Ω de Rn et m fois différentiable, m ≥ 2, alors


∂f ∂2f
les ∂x admettent des différentielles partielles que l’on note et ainsi de suite.
i dxj dxi
L’expression de la différentielle comme la somme des dérivées partielles se généralise au
second ordre de la façon suivante.

Proposition 3.2 Soit Ω un ouvert de Rn et f : Ω → R deux fois différentiable. Pour tout


a ∈ Ω et tous (h1 , . . . , hn ), (k1 , . . . , kn ) ∈ Rn , on a
n
2
X ∂2f
D f (a)[(h1 , . . . , hn ), (k1 , . . . , kn )] = (a)hi kj .
dxi dxj
i,j=1

Preuve : On a :

D2 f (a)[(h1 , . . . , hn ), (k1 , . . . , kn )] = D (x 7→ Df (x)(k1 , . . . , kn )) (a)(h1 , . . . , hn )


n
X ∂ (x 7→ Df (x)(k1 , . . . , kn ))
= (a)hi
∂xi
i=1
 Pn ∂f 
n ∂ x 7→ (x)k j
X j=1 ∂xj
= (a)hi
∂xi
i=1
 
∂f
X n ∂ x →
7 ∂xj (x)
= (a)kj hi
∂xi
i,j=1
n
X ∂2f
= (a)hi kj .
dxi dxj
i,j=1

21
Le corollaire suivant est conséquence du théorème de Schwarz et de la proposition précé-
dente.

Corollaire 3.1 Si f est deux fois différentiable, on peut permuter l’ordre des dérivées par-
tielles : pour tout x ∈ Ω, pour tous 1 ≤ i, j ≤ n,

∂2f ∂2f
(x) = (x).
∂xi ∂xj ∂xj ∂xi
2
Alors, si les ∂x∂i ∂x
f
j
existent et sont continues, on peut permuter l’ordre des dérivations.
En effet, la continuité des dérivées partielles secondes entraı̂ne le caractère C 2 de f et
2f
donc la symétrie. Alors que la simple existence des ∂x∂i ∂x j
ne permet pas de conclure que f
est deux fois différentiable.
Si f : Ω → R est deux fois différentiable sur Ω ouvert de Rn et a ∈ Ω, D2 f (a) est une
forme bilinéaire symétrique qui est matriciellement représentée par les valeurs prises sur les
couples de vecteurs (ei , ej ) de la base canonique.

Définition 3.1 La matrice symétrique de D2 f (a), appelée hessienne de f au point a, s’écrit :


 ∂2f ∂2f

∂x1 ∂x1 (a) ... ∂x1 ∂xn (a)
 .. ∂2f .. 
H(f )(a) =  . .
 ∂xi ∂xj (a) . 
∂2f ∂2f
∂xn ∂x1 (a) ... ∂xn ∂xn (a)

Pour tous h, k ∈ Rn , on a
D2 f (a)(h, k) =thH(f )(a)k,
où h et k sont identifiés avec ces vecteurs colonnes.

3.2 Formule de Taylor


Dans cette formule interviennent les termes successifs

Df (a)(h), D2 f (a)(h, h), D3 f (a)(h, h, h), . . .

On introduit alors la notation abrégée : pour h ∈ Rn , on note

(h)m = (h, h, . . . , h) ∈ (Rn )m , m ≥ 1.

Lemme 3.1 Soit ϕ : (Rn )m → Rp un application m-linéaire continue symétrique et Φ : Rn →


Rp définie par Φ(h) = ϕ(h, h, . . . , h) = ϕ((h)m ). On a

DΦ(h)(k) = mϕ((h)m−1 , k).

Preuve : Par la différentielle de la composée de ϕ et de l’application linéaire h ∈ Rn 7→ (h)m ∈


(Rn )m et, en utilisant la symétrie de ϕ, on obtient

DΦ(h)(k) = ϕ(k, h, . . . , h) + ϕ(h, k, h, . . . , h) + . . . + ϕ(h, . . . , h, k) = mϕ((h)m−1 , k).

22
Théorème 3.2 (Formule de Taylor-Young) Soit f : Ω → R une fonction m fois différentiable
au voisinage de a ∈ Ω. Alors, pour h suffisamment petit, on a :
1 m
f (a + h) = f (a) + Df (a)(h) + . . . + D f (a)((h)m ) + o(khkm ).
m!
Preuve : Pour m = 1, la formule se réduit à la définition de la différentielle. On raisonne
alors par récurrence sur m ≥ 1. On suppose la relaction vraie jusqu’à m − 1. On pose, pour
h suffisamment petit,
1 1 m
ϕ(h) = f (a + h) − f (a) − Df (a)(h) − D2 f (a)(h, h) − . . . − D f (a)((h)m ).
2 m!
On calcule la différentielle de ϕ en utilisant le lemme précédent : pour h suffisamment petit
et k ∈ Rn ,
1
Dϕ(h)(k) = Df (a + h)(k) − Df (a)(k) − D2 f (a)(h, k) − . . . − Dm f (a)((h)(m−1) , k).
(m − 1)!

Par l’hypothèse de récurrence appliquée à Df , on a Dϕ(h) = o(khkm−1 ). Alors, pour ε > 0


fixé, il existe δ > 0 tel que

khk < δ =⇒ kDϕ(h)k ≤ εkhkm−1 .

Par le théorème de la moyenne, on a

kϕ(h)k = kϕ(h) − ϕ(0)k ≤ εkhkm−1 khk = εkhkm , ∀h ∈ Rn , khk < δ.

Donc, ϕ(h) = o(khkm ). D’où, la formule de Taylor-Young d’ordre m.

La formule de Taylor-Young précise seulement le comportement d’une expression lorsque


h tend vers 0, elle est donc purement locale au voisinage de 0.

Exemple : On considère f : R2 → R définie par f (x, y) = x sin(y) et (a, b) ∈ R2 . On a :

∂f ∂f
Df (a, b)(h, k) = (a, b)h + (a, b)k = sin(b)h + a cos(b)k,
∂x ∂y

∂2f ∂2f ∂2f ∂2f


D2 f (a, b)[(h, k), (h, k)] = (a, b)h2
+ (a, b)hk + (a, b)kh + (a, b)k 2
∂x2 ∂x∂y ∂y∂x ∂y 2
∂2f 2 ∂2f ∂2f
= (a, b)h + 2 (a, b)hk + (a, b)k 2
∂x2 ∂x∂y ∂y 2
= 2 cos(b)hk − a sin(b)k 2 .

Alors, la formule de Taylor à l’ordre 2 de f en (a, b) s’écrit :


1
(a + h) sin(b + k) − a sin(b) = sin(b)h + a cos(b)k + (2 cos(b)hk − a sin(b)k 2 ) + o(k(h, k)k2 ).
2

23
Théorème 3.3 (Formule de Taylor avec reste intégral) Soit Ω un ouvert de Rn et f :
Ω → R une fonction de classe C m+1 . Si a ∈ Ω et h ∈ Rn tels que le segment [a, a + h] ⊂ Ω
alors,
Z 1
1 m m (1 − t)m m+1
f (a+h)−f (a) = Df (a)(h)+. . .+ D f (a)((h) )+ D f (a+th)((h)m+1 ) dt.
m! 0 m!
En particulier, pour tout compact convexe K contenu dans Ω, il existe C > 0 tel que, pour
a ∈ K, a + h ∈ K, on a la Formule de Taylor-Lagrange d’ordre m :
1 m
kf (a + h) − f (a) − Df (a)(h) − . . . D f (a)((h)m )k ≤ Ckhkm+1 .
m!
La formule de Taylor avec reste intégrale est la plus longue à écrire mais aussi la plus
précise.

3.3 Extrema simples


On rappelle quelques définitions.

Définition 3.2 Soient X une partie d’un espace normé E, a ∈ X et f : X → R. On dit


que a est un maximum relatif ou local (respectivement, minimum relatif ) de f , s’il existe un
voisinage U de a tel que
∀x ∈ U ∩ X, f (x) ≤ f (a) (respectivement f (a) ≤ f (x)).
Si U ∩ X = X, le point est alors dit maximum ou minimum absolu ou global.
On dit que a est un maximum ou minimum strict si les inégalités précédentes sont strictes
pour x 6= a. Un point qui est maximum ou minimum est un extremum.

Soit f : Ω → Rp une fonction différentiable sur Ω ouvert de Rn .

Définition 3.3 On dit que a ∈ Ω est un point critique de f si le rang de Df (a) est inférieur
à p. Dans ce cas, on dit que f (a) est une valeur critique de f .

Remarquer que
rangDf (a) = dimDf (a)(E).
Alors, le rang de Df (a) n’est pas maximum si et seulement si Df (a) n’est pas surjective.
Si p = 1, le rang de Df (a) est au plus un. Dans ce cas, a est critique si et seulement si
Df (a) = 0.

Proposition 3.3 Soit f : Ω → R différentiable. Si a ∈ Ω est un extremum de f , alors a est


un point critique de f .

Preuve : Supposons que a ∈ Ω est un extremum de f . Soit h ∈ Rn fixé. On considère


ϕ : R → Rn définie par ϕ(t) = a + th. On a ϕ(0) = a et ϕ0 (t) = h. La fonction g = f ◦ ϕ à
valeurs réelles est définie et différentiable sur l’ouvert de R : U = {t ∈ R : ϕ(t) ∈ Ω}. Alors,
le point t = 0 est un extremum de g et donc g 0 (0) = Df (a)(h) = 0. Comme h est arbitraire
dans Rn , on a Df (a) = 0.
La récriproque de cette proposition est évidement fausse. Un point peut être critique sans
être un extremum. Exemple : si f : R → R est définie par f (t) = t3 , alors Df (0) = 0 mais 0
n’est pas un extremum relatif.

24
Proposition 3.4 Soit f : Ω → R deux fois différentiable en a ∈ Ω.
1. Si a est un minimum relatif de f , alors Df (a) = 0 et D2 f (a) est une forme quadratique
positive, c’est-à-dire
∀h ∈ Rn , D2 f (a)(h, h) ≥ 0.

2. Si a est un maximum relatif de f , alors Df (a) = 0 et D2 f (a) est une forme quadratique
positive, c’est-à-dire
∀h ∈ Rn , D2 f (a)(h, h) ≤ 0.

Preuve : Comme dans la proposition précédente, on raisonne sur la fonction g(t) = f (a + th).

Dans ce qui suit, on supppose f : Ω → R au moins de classe C 2 . Soit a ∈ Ω un point


critique de f . Au voisinage de a, la formule de Taylor-Young s’écrit :
1
f (x) − f (a) = Df (a)(x − a) + D2 f (a)(x − a, x − a) + kx − ak2 ε(x − a)
2
1 2
= D f (a)(x − a, x − a) + kx − ak2 ε(x − a).
2
On donne des conditions suffisantes pour que a soit un extremum de f . On note par Q la
forme quadratique définie par la forme bilinéaire symétrique D2 f (a). Alors, pour h ∈ Rn ,

Q(h) = D2 f (a)(h, h).

Proposition 3.5 Soit Ω un ouvert de Rn , f : Ω → R de classe C 2 et a ∈ Ω un point critique


de f .
1. S’il existe α > 0 tel que
∀h ∈ Rn , Q(h) ≥ αkhk2 , (4)
alors a est un minimum relatif strict de f .
2. S’il existe β > 0 tel que
∀h ∈ Rn , Q(h) ≤ −βkhk2 , (5)
alors a est un maximum relatif strict de f .

Preuve :
1. Par la formule de Taylor-Young, pour h = x − a, on a
1 α
f (x) − f (a) = Q(x − a) + kx − ak2 ε(x − a) ≥ ( + ε(x − a))kx − ak2 .
2 2
Ainsi, pour x suffisamment proche de a et x 6= a, le signe de α prédomine et l’on a
f (x) > f (a).
2. On raisonne de façon analogue. Alors, pour tout x suffisamment proche de a et x 6= a,
on a f (x) < f (a).

25
La forme quadratique Q associée à D2 f (a) est alors caractérisée par la matrice hessienne
de f en a :  
∂2f ∂2f
2 (a) ... ∂x (a)
∂x 1 1 ∂xn
.. .
 
2
H(f )(a) = 

. ∂ f .. .

 ∂xi ∂xj (a) 
∂2f ∂2f
∂xn ∂x1 (a) ... ∂x2
(a)
n
avec
n
t
X ∂2f
Q(h) = hH(f )(a)h = (a)hi hj , où h = (h1 , . . . , hn ) ∈ Rn .
∂xi ∂xj
i,j=1

La matrice H(f )(a) est symétrique et donc orthogonalement diagonalisable. Deux cas se
présentent :
1. Il n’y a pas de valeur propre nulle : Q est régulière et le point critique a est dit non-
dégénéré ou régulier.
2. Il y a au moins une valeur propre nulle : Q est non-régulière et le point critique est
dit dégénéré ou singulier. Il faut alors examiner les différentielles d’ordre supérieur pour
décider de la nature de a.

Proposition 3.6 Soit Ω ouvert de Rn , f : Ω → R de classe C 2 et a ∈ Ω un point critique


régulier. Soient λ1 , . . . , λn les valeurs propres de H(f )(a).
1. Si, pour tout 1 ≤ i ≤ n, λi > 0, alors a est un minimum relatif strict de f .
2. Si, pour tout 1 ≤ i ≤ n, λi < 0, alors a est un maximum relatif strict de f .
3. S’il existe i, j ∈ {1, . . . , n} tels que λi λj < 0, alors a n’est pas un extremum. On dit que
a est un point selle ou col.

Preuve :
1. Q est une forme définie positive, c’est-à-dire
∀h ∈ Rn , h 6= 0, Q(h) > 0.
En particulier, Q est strictement positive sur la sphère unité qui est compacte dans Rn .
Alors, la forme quadratique Q (qui est continue sur Rn ) y atteint le minimum par une
valeur α > 0. Donc, on a (4) et on conclut par la proposition 3.5.
2. Q est une forme définie négative, c’est-à-dire
∀h ∈ Rn , h 6= 0, Q(h) < 0.
Ensuite, on raisonne de façon analogue pour montrer qu’il existe β > 0 tel que (5) est
vérifiée et on applique la proposition 3.5 pour conclure.
3. Il existe des directions h telles que Q(h) soit positif, et d’autres pour lequel il est négatif.
Donc, a n’est pas un extremum.

Puisque le signe de la forme quadratique Q(h) = D2 f (x)(h, h) dépend du signe des mineurs
principaux de la matrice hessienne H(f )(x), la proposition précédente peut-être énoncée d’une
façon équivalente comme suit. On rappelle d’abord que, pour une matrice A carrée d’ordre n,
la sous-matrice principale d’ordre k de A est la matrice extraite de A en éliminant les n − k
dernières lignes et les n − k dernières colonnes. On appelle alors mineur principal d’ordre k
de A le déterminant de la sous-matrice principale d’ordre k de A.

26
Proposition 3.7 Soit Ω un ouvert de Rn , f : Ω → R de classe C 2 et a ∈ Ω un point critique
de f .
1. Si les n mineurs principaux de H(f )(a) sont tous positifs, c’est-à-dire
∂2f ∂2f ∂2f
∂2f ∂2f ∂x21
(a) ∂x1 ∂x2 (a) ∂x1 ∂x3 (a)
∂2f ∂x21
(a) ∂x1 ∂x2 (a) ∂2f ∂2f ∂2f
(a) > 0, 2 ∂2f > 0, ∂x2 ∂x1 (a) ∂x22
(a) ∂x2 ∂x3 (a) > 0, · · ·
∂x21 ∂ f
∂x2 ∂x1 (a) (a)
∂x22 ∂2f 2
∂ f ∂2f
∂x3 ∂x1 (a) ∂x3 ∂x2 (a) ∂x23
(a)

alors a est un minimum relatif strict de f .


2. Si les n mineurs principaux de H(f )(a) alternent de signe, le premier étant négatif,
c’est-à-dire
∂2f ∂2f ∂2f
∂2f ∂2f ∂x21
(a) ∂x1 ∂x2 (a) ∂x1 ∂x3 (a)
∂2f ∂x21
(a) ∂x1 ∂x2 (a) 2
∂ f ∂2f ∂2f
(a) < 0, ∂2f ∂2f > 0, ∂x2 ∂x1 (a) ∂x22
(a) ∂x2 ∂x3 (a) < 0, · · ·
∂x21 ∂x2 ∂x1 (a) (a)
∂x22 ∂2f ∂2f ∂2f
∂x3 ∂x1 (a) ∂x3 ∂x2 (a) ∂x23
(a)

alors a est un maximum relatif strict de f .

Soit f : Ω → R une fonction C 2 sur un ouvert Ω de R2 . Étant donné un point a ∈ Ω, on


note
∂2f ∂2f ∂2f
r= (a), s = (a), t = (a)
∂x2 ∂x∂y ∂y 2
(ce qu’on appelle les notations de Monge). Si a est un point critique de f , alors Df (a) = 0.
Les propositions précendentes, nous permettent alors de considérer les cas suivants :
1. Si rt − s2 > 0 et r > 0, alors D2 f (a) est définie positive. La fonction f admet en a un
minimum relatif strict.
2. Si rt − s2 > 0 et r < 0, alors D2 f (a) est définie négative. La fonction f admet en a un
maximum relatif strict.
3. Si rt − s2 < 0, D2 f (a) a une valeur propre positive et une autre négative. Alors, a n’est
pas extremum de f .
4. Si rt − s2 = 0, D2 f (a) est dégénérée. Le comportement de f au voisinage de a dépend
des termes suivants de son développement de Taylor.

27
4 Les théorèmes d’inversion locale et des fonctions implicites
Dans ce chapitre, on aborde les premiers théorèmes d’existence. Le résultat central est le
théorème d’inversion locale et le théorème des fonctions implicites en est une des conséquences
importantes.
Dans ce qui suit, les espaces normés sont complets (donc, espaces de Banach).

4.1 Difféomorphismes et isomorphismes


Soient E et F e.v.n.. Si u est un isomorphisme continu de E vers F (c’est-à-dire, une
application linéaire bijective et continue), a priori rien ne dit que l’isomorphisme réciproque
soit continu. Pourtant, si les espaces vectoriels normés E et F sont complets, c’est bien le cas.
On admet les énoncés suivants.

Théorème 4.1 (Théorème de Banach) Soient E, F espaces de Banach. Si u : E → F


est un isomorphisme continu alors l’isomorphisme réciproque u−1 est aussi continu.

On désigne Isom(E, F ) l’ensemble des isomorphismes bicontinus de E vers F . Cette no-


tation et le théorème précédent font que si u ∈ Isom(E, F ) alors u−1 ∈ Isom(F, E).
Notons J l’application de Isom(E, F ) dans Isom(F, E) définie par J(u) = u−1 .

Théorème 4.2 Soient E, F espaces de Banach. L’application J : Isom(E, F ) → Isom(F, E)


est C ∞ . De plus, pour tous u ∈ Isom(E, F ) et h ∈ L(E, F ), on a

DJ(u).h = −u−1 ◦ h ◦ u−1 .

Définition 4.1 Soient U ⊂ E et V ⊂ F ouverts dans des espaces de Banach E et F . On dit


que f : U → V est un difféomorphisme si f est une bijection différentiable telle que f −1 soit
également différentiable.

Proposition 4.1 Si f : U → V est un difféomorphisme alors, en tout point x ∈ U , sa


différentielle est un isomorphisme vérifiant :

D(f −1 )(f (x)) = (Df (x))−1 .

Si, de plus, f est C k alors f −1 l’est aussi.

Preuve : Si f : U → V est un difféomorphisme alors

f ◦f −1 = 1V et f −1 ◦f = 1U .

En dérivant en tous points x ∈ U et y = f (x) ∈ V , on obtient :

Df (x) ◦ D(f −1 )(y) = 1F et D(f −1 )(y) ◦ Df (x) = 1E .

Donc, Df (x) et D(f −1 )(y) sont deux isomorphismes réciproques l’un de l’autre. On a

D(f −1 )(f (x)) = (Df (x))−1 , D(f −1 )(y) = [Df (f −1 (y))]−1 .

On peut écrire également : D(f −1 ) = J ◦Df ◦f −1 . Alors, si f est C 1 , D(f −1 ) sera continu.
Par récurrence, f −1 sera C k si f l’est.

28
L’existence d’un difféomorphisme entre U et V fait que les espaces E et F sont iso-
morphes. Donc, il ne peut pas exister de difféomorphisme d’un ouvert de Rn vers un ouvert
de Rm lorsque n 6= m. Dans le cas E = F = Rn , U et V ouverts de Rn et f : U → V un
difféomorphisme, alors pour tout x ∈ U ,

D(f −1 )(f (x)) = [D(f )(x)]−1 .

Ce qu’on appelle habituellement un changement de variables est en fait un difféomorphis-


me. En dimension deux, le changement de variables le plus courant est celui des coordonnées
polaires :
(r, θ) 7→ (r cos θ, r sin θ),
qui réalise un difféomorphisme de ]0, +∞[×]0, 2π[ sur R2 \ {(x, 0) : x > 0}.

4.2 Le Théorème d’inversion locale


Préliminaires : Soit f : R → R une application C 1 telle que f 0 (a) 6= 0. Il existe donc un
intervalle ouvert I, contenant a, où f 0 garde un signe constant (par exemple, positif). Ainsi,
f est croissante sur I et est bijective de I sur l’intervalle ouvert J = f (I). Si y est “assez
proche” de f (a), c’est-à-dire y ∈ J, l’équation f (x) = y a donc une solution x = f −1 (y).
D’autre part, on sait que f −1 : J → I est aussi C 1 et que (f −1 )0 (y) = f 01(x) . La solution
x = f −1 (y) est donc une fonction C 1 de y. On va généraliser ce résultat.

Définition 4.2 Soit E espace de Banach et A ⊂ E. On dit que f : A → A est une contraction
de A si f est k-lipschitzienne avec k ∈ [0, 1[, c’est-à-dire

∀x, y ∈ A, kf (x) − f (y)k ≤ kkx − yk.

Théorème 4.3 (Théorème du point fixe) Soit E un espace de Banach et A une partie
fermée non vide de A. Alors toute contraction f de A possède un unique point fixe.

Preuve : Soit f : A → A une contraction de A.


Unicité du point fixe : Si x et y sont deux points fixes de f , alors

kx − yk = kf (x) − f (y)k ≤ kkx − yk.

Comme 0 ≤ k < 1, on a kx − yk = 0 ⇐⇒ x = y.
Existence du point fixe : On fixe x0 ∈ A et on définit la suite récurrente xn+1 = f (xn ).
On a donc
kxn+1 − xn k ≤ kkxn − xn−1 k.
Alors, par récurrence sur n ≥ 1, on obtient

kxn+1 − xn k ≤ k n kx1 − x0 k.

De l’inégalité triangulaire on déduit, pour tout n > m ≥ 1,


n−1
X n−1
X n−1
X
kxn − xm k = k (xi+1 − xi )k ≤ kxi+1 − xi k ≤ k i kx1 − x0 k ≤ k m kx1 − x0 k.
i=m i=m i=m

29
L’hypothèse 0 ≤ k < 1 entraı̂ne que (xn )n≥0 est une suite de Cauchy dans A. Alors (xn )
converge vers une limite notée x dans Ā = A. Par la continuité de f , on a :

f ( lim xn ) = lim f (xn ) = lim xn+1 =⇒ f (x) = x.


n→+∞ n→+∞ n→+∞

On a vu dans la proposition 4.1 que la différentielle d’un difféomorphisme est un isomor-


phisme. La réciproque va être localement vraie.

Théorème 4.4 (Inversion locale) Soit Ω un ouvert de Rn et f : Ω → Rn au moins C 1 .


Supposons a ∈ Ω tel que
Df (a) ∈ Isom(Rn , Rn ).
Alors, f est un difféomorphisme local en a, c’est-à-dire : il existe un voisinage ouvert U de
a, U ⊂ Rn et un voisinage V de f (a), tels que f : U → V soit un difféomorphisme. De plus,
(f|U )−1 a la même classe de différentiabilité que f .

Remarque : Ce théorème affirme que l’équation f (x) = y admet une solution x unique,
pourvu que y soit choisi “assez proche” de b = f (a) et que x soit cherché “assez proche” de
a.

La démonstration du théorème d’inversion locale va être fait en plusieurs étapes.

Lemme 4.1 Soit f : U → V un homéomorphisme différentiable tel que, en a ∈ U , Df (a) ∈


Isom(Rn , Rn ). Alors f −1 est différentiable en b = f (a).

Preuve : On note g = f −1 , b = f (a) et L = Df (a). Puisque U est un ouvert de Rn et par la


continuité de f , pour h proche de l’origine, a + h ∈ U et k = f (a + h) − f (a) est proche de
l’origine. Remarquons que

k = f (a + h) − f (a) ⇐⇒ h = g(b + k) − g(b).

Par la continuité de f et g,

k tend vers zéro ⇐⇒ h tend vers zéro.

On a
k = f (a + h) − f (a) = L(h) + khkε(h).
Alors,
L−1 (k) = h + khkL−1 (ε(h)).
Pour conclure, il suffit de montrer que khkL−1 (ε(h)) est un o(k). On a :

L−1 (k) = h + khkL−1 (ε(h)) =⇒ khk ≤ khkkL−1 (ε(h))k + kL−1 kkkk


kL−1 k
=⇒ khk ≤ kkk.
1 − kL−1 (ε(h))k
kL−1 k
Quad h et k tendent vers zéro, 1−kL−1 (ε(h))k
≤ M (pour une constante M > 0). Alors,

khkkL−1 (ε(h))k ≤ M kkkkL−1 (ε(h))k.

Comme kL−1 (ε(h))k tend vers zéro avec k, on a donc khkL−1 (ε(h)) = o(k).

30
Corollaire 4.1 On suppose les conditions du lemme précédent avec, de plus, f de classe C 1 .
Alors f est un difféomorphisme local en a.

Preuve : L’ensemble Isom(Rn , Rn ) est ouvert dans L(Rn , Rn ) (on admet ce résultat). Par la
continuité de Df , il existe un voisinage ouvert W ⊂ U de a tel que Df (W ) ⊂ Isom(Rn , Rn ).
Donc, en tout point x ∈ W , f vérifie les conditions du lemme précédent, alors f|W est un
difféomorphisme sur f (W ).

Pour démonstrer le théorème d’inversion, il suffit donc de montrer que ses hypothèeses
entraı̂nent que f est un homéomorphisme local en a. Notons que la proposition 4.1 assure que
f et f −1 sont de la même classe de différentiabilité.

Preuve du théorème 4.4 : On peut supposer que f (a) = a = 0 et Df (a) = IdRn . En effet,
il suffit de remplacer f (x) par h(x) = [Df (a)]−1 [f (a + x) − f (a)] et de remarquer que f est
difféomorphisme local en a si et seulement si h est difféomorphisme local en 0.
Par la continuité de Df , il existe r > 0 tel que
1
kxk ≤ r =⇒ kDf (x) − IdRn k < .
2
En appliquant l’inégalité de la moyenne, on a

kxk
∀x ∈ B(0Rn , r), kx − f (x)k ≤ .
2
Pour tout y ∈ B(0Rn , r/2), et pour kxk ≤ r, on a

kxk
ky + x − f (x)k ≤ kyk + kx − f (x)k ≤ kyk + < r.
2
Alors, y + x − f (x) ∈ B(0Rn , r). On peut donc définir :

ϕ : B̄(0Rn , r) −→ B(0Rn , r) ⊂ B̄(0Rn , r) par ϕ(x) = y + x − f (x).

On a kDϕ(x)k = kIdRn − Df (x)k < 21 , pour tout x ∈ B̄(0Rn , r), donc ϕ est une contraction
de la boule fermée B̄(0Rn , r). Comme Rn est un espace de Banach, par le théorème du point
fixe, il existe un unique point x ∈ B̄(0Rn , r) tel que :

x = ϕ(x) = y + x − f (x) ⇐⇒ f (x) = y.

Mais ϕ prend ses valeurs dans la boule ouverte. Alors, pour tout y ∈ B(0Rn , r/2) il existe un
unique x ∈ B(0Rn , r) tel que y = f (x). Donc, f réalise une bijection, notée g, de

U = f −1 (B(0Rn , r)) ∩ B(0Rn , r) sur V = B(0Rn , r/2).

Il est clair que g = f|U est continue. De plus, pour tous x, x0 ∈ B(0Rn , r), on a

1
kf (x) − f (x0 ) − (x − x0 )k = kϕ(x) − ϕ(x0 )k ≤ kx − x0 k,
2
ce qui implique que
kx − x0 k ≤ 2kf (x) − f (x0 )k.

31
Alors, g −1 : V → U est 2-lipschitzienne et donc continue.

Remarque : En dimension finie, il suffit que le déterminant de la matrice jacobienne, appelé


jacobien, de f en a soit différent de zéro pour conclure que f est un difféomorphisme local.
Comme exemples de difféomorphismes locaux, on trouve les changements de variables.
Les coordonnées polaires ou sphèriques :

(r, θ) ∈ R∗ × R 7→ (r cos θ, r sin θ) ∈ R2

(r, θ, ϕ) ∈ R∗ × R × R 7→ (r cos θ sin ϕ, r sin θ sin ϕ, r cos ϕ) ∈ R3


sont des applications qui sont partout localement des difféomorphismes, mais ce ne sont pas
des difféomorphismes globaux (elles ne sont pas injectives).
Exemple : Soit f : R2 → R2 définie par :

f (x, y) = (y sin(x), yx2 ).

La fonction f est C ∞ et on a
 
y cos(x) sin(x)
J(f )(x, y) = .
2xy x2

Donc det J(f )(x, y) = yx(x cos(x) − 2 sin(x)). Si y 6= 0, x 6= 0 et x cos(x) 6= 2 sin(x), Df (x, y)
est inversible et f détermine un difféomorphisme C ∞ d’un voisinage de (x, y).

Corollaire 4.2 Soit Ω un ouvert de Rn . Si f : Ω → f (Ω) est de classe C 1 , injective et, pour
tout x ∈ Ω, Df (x) ∈ Isom(Rn , Rn ), alors f est un difféomorphisme de Ω sur f (Ω).

4.3 Le Théorème des fonctions implicites


On considère l’équation classique f (x, y) = x2 + y 2 − 1 = 0 qui √ définit le cercle unité sur
2
le plan R . On sait expliciter la variable y en fonction de x, y = 1 − x2 , mais cette écriture
n’est pas équivalente à l’équation du départ. Mais si on se restreint à des ouverts, les deux
équations sont équivalentes.
Comme son nom l’indique, le théorème des fonctions implicites donne des conditions
suffisantes pour que, dans un équation du type f (x, y) = 0, on puisse expliciter une variable
en fonction de l’autre.
On considère un système d’équations


 f1 (x1 , . . . , xn , y1 , . . . , yp ) = 0
 f2 (x1 , . . . , xn , y1 , . . . , yp ) = 0

..


 .
fp (x1 , . . . , xn , y1 , . . . , yp ) = 0

où les fi sont des fonctions réelles de variables réelles. En notant x = (x1 , . . . , xn ), y =
(y1 , . . . , yp ) et f = (f1 , . . . , fp ), le système s’écrit :

f (x, y) = 0 ∈ Rp .

32
On suppose Ω ouvert de Rn × Rp et f : Ω → Rp une fonction C 1 . Soient (a, b) ∈ Ω et
Dx f (a, b) ∈ L(Rn , Rp ), Dy f (a, b) ∈ L(Rp , Rp ) les différentielles partielles de f en (a, b) par
rapport à x et y, respectivement, définies par

Dx f (a, b)(h) = Jx f (a, b)h, h ∈ Rn et Dy f (a, b)(k) = Jy f (a, b)k, k ∈ Rp ,

où
∂f1 ∂f1
 
∂f1 ∂f1
∂y1 (a, b) ... ∂yp (a, b)
 
∂x1 (a, b) ... ∂xn (a, b)
.. ..  .. .. 
Jx f (a, b) =   et Jy f (a, b) =  .
 
. .  . . 
∂fp ∂fp ∂fp ∂fp
∂x1 (a, b) . . . ∂xn (a, b) ∂y1 (a, b) . . . ∂yp (a, b)

sont les matrices des dérivées partielles de f par rapport aux xi (1 ≤ i ≤ n) et aux yj
(1 ≤ j ≤ p), respectivement, en (a, b).

Théorème 4.5 (Fonctions implicites) Soit Ω ouvert de Rn × Rp et f : Ω → Rp une


fonction C 1 . On suppose que, pour (a, b) ∈ Ω, f (a, b) = 0 et Dy f (a, b) ∈ Isom(Rp , Rp ). Alors,
il existe :
– un voisinage ouvert U de (a, b) dans Ω,
– un voisinage ouvert V de a en Rn ,
– une application ϕ : V → Rp , de même classe de différentiabilité que f ,
tels que
(x, y) ∈ U et f (x, y) = 0 ⇐⇒ x ∈ V et y = ϕ(x).
De plus,
Dϕ(a) = −[Dy f (a, b)]−1 ◦ Dx f (a, b).
La fonction ϕ est dite fonction explicitante.

On suppose que les fi sont de classe C k (k ≥ 1) et que det(Jy f (a, b)) 6= 0. Alors, par le
théorème des fonctions implicites, il existe un fonction explicitante ϕ de classe C k à valeurs
dans Rp telle que y = ϕ(x). En posant ϕ = (ϕ1 , . . . , ϕp ), x = (x1 , . . . , xn ) et y = (y1 , . . . , yp )
on peut écrire : 

 y1 = ϕ1 (x1 , . . . , xn )
 y2 = ϕ2 (x1 , . . . , xn )

..


 .
yp = ϕp (x1 , . . . , xn )

Cet énoncé admet une variante dans laquelle la condition initiale f (a, b) = 0 est remplacée
par f (a, b) = c. Dans ce cas, la fonction explicitante dépend différentiablement de c.

Théorème 4.6 (Fonctions implicites avec paramètre) Soit Ω ouvert de Rn × Rp et f :


Ω → Rp une fonction C 1 . On suppose que, pour (a, b) ∈ Ω, f (a, b) = c et Dy f (a, b) ∈
Isom(Rp , Rp ). Alors, il existe :
– un voisinage ouvert U de (a, b) dans Ω,
– un voisinage ouvert W de (a, c) en Rn × Rp ,
– une application ϕ : W → Rp , de même classe de différentiabilité que f ,
tels que
(x, y) ∈ U et f (x, y) = z ⇐⇒ (x, z) ∈ W et y = ϕ(x, z).

33
Le premier théorème est en certain sens un cas particulier du second.

Preuve Théorème 4.6 : On va se ramener au théorème d’inversion locale. On définit g(x, y) =


(x, f (x, y)) ∈ Rn × Rp . On a

Dg(a, b)(h, k) = (h, Df (a, b)(h, k)) = (h, Dx f (a, b)(h) + Dy f (a, b)(k)).

Pour tous (h0 , k 0 ) ∈ Rn × Rp , l’hypothèse Dy f (a, b) ∈ Isom(Rp , Rp ) permet de résoudre


l’équation (h0 , k 0 ) = Dg(a, b)(h, k). Alors, Dg(a, b) est un isomorphisme dont l’inverse s’écrit :

[Dg(a, b)]−1 (h0 , k 0 ) = (h0 , [Dy f (a, b)]−1 (k 0 − Dx f (a, b)(h0 ))).

Par le théorème d’inversion locale, il existe un voisinage U de (a, b) et un voisinage W de


(a, f (a, b)) = (a, c) sur lesquels g est un difféomorphisme, l’application réciproque de g prenant
sur W la forme (x, z) 7→ (x, ϕ1 (x, z)). Comme ϕ1 = π2 ◦ g −1 , sa classe de différentiabilité est
celle de g (et de f ). Par la bijectivité de g, on a

(x, y) ∈ U, f (x, y) = z ⇐⇒ (x, z) ∈ W, y = ϕ1 (x, z).

Preuve du Théorème 4.5 : On raisonne comme pour le Théorème 4.6. En particulier, pour
z = 0, on a
(x, y) ∈ U, f (x, y) = 0 ⇐⇒ (x, z) ∈ W, y = ϕ1 (x, 0).
En notant j : Rn → Rn × Rp l’injection j(x) = (x, 0), ϕ = ϕ1 ◦ j et V = j −1 (W ) (qui est un
ouvert de Rn contenant a), on obtient

(x, y) ∈ U, f (x, y) = 0 ⇐⇒ x ∈ V, y = ϕ(x).

La classe de différentiabilité de ϕ est celle de f . De plus, on a

∀x ∈ V, f (x, ϕ(x)) = 0.

Alors, en différentiant en x, pour tout h ∈ Rn ,

Df (x, ϕ(x))(h, Dϕ(x)(h)) = Dx f (x, ϕ(x))(h) + Dy f (x, ϕ(x))(Dϕ(x)(h)) = 0.

En particulier, en (x, ϕ(x)) = (a, b), on obtient pour tout h ∈ Rn ,

Dϕ(a)(h) = −[Dy f (a, b)]−1 (Dx f (a, b)(h)).

D’où, Dϕ(a) = −[Dy f (a, b)]−1 ◦ Dx f (a, b).

Remarque. L’existence de Dϕ(x) sur V est donnée par le théorème 4.5. Il est inutile d’ap-
prendre une formule, mais bien plus profitable de retenir une formule : différencier les relations
qui vérifient les fonctions implicites.
On sait que, pour tout x = (x1 , . . . , xn ) ∈ V et tout 1 ≤ j ≤ p,

fj (x1 , . . . , xn , y1 , . . . , yp ) = 0,

c’est-à-dire
fj (x1 , . . . , xn , ϕ1 (x1 , . . . , xn ), . . . , ϕp (x1 , . . . , xn )) = 0,

34
Alors, pour tout 1 ≤ i ≤ n, on a
p
∂fj X ∂fj ∂ϕk
(x, ϕ(x)) + (x, ϕ(x)) (x) = 0.
∂xi ∂xk ∂xi
k=1

Ce résultat peut s’écrire


Dϕ(x) = −[Dy f (x, ϕ(x))]−1 ◦ Dx f (x, ϕ(x)).

Exemple 1. Soit dans R2 le cercle unité :


S 1 = {(x, y) ∈ R2 : f (x, y) = 0},
avec f (x, y) = x2 + y 2 − 1. La fonction f : R2 → R étant de classe C ∞ , elle admet ses deux
dérivées partielles
∂f ∂f
(x, y) = 2x, (x, y) = 2y.
∂x ∂y
Alors, Dy f (a, b)(k) = 2bk et Dy f (a, b) est un isomorphisme si et seulement si b 6= 0. Donc,
en un point (a, b) ∈ S 1 , Dy f (a, b) est un isomorphisme si et seulement si (a, b) 6= (1, 0) et
(a, b) 6= (−1, 0). Soit donc (a, b) ∈ S 1 qui n’est pas sur l’axe des x. On a :
– f est C ∞ sur R2 ,
– f (a, b) = 0,
– Dy f (a, b) ∈ Isom(R, R),
– f est C ∞ alors (x, y) 7→ Dy f (x, y) est continue.
Le théorème des fonctions implicites assure alors qu’au voisinage de a, S 1 est le graphe d’une
application C ∞ , x 7→ y = ϕ(x). On sait de plus que
Dϕ(x) = −[Dy f (x, ϕ(x))]−1 ◦ Dx f (x, ϕ(x)).

Par exemple, en (a, b) ∈ S 1 et b > 0 (alors b = 1 − a2 ),
∂f
(a, b) 2a a
ϕ0 (a) = − ∂f
∂x
=− = −√ .
2b 1 − a2
∂y (a, b)

Exemple 2. Soit f : R3 → R2 définie par f (t, x, y) = (t + tx − y − x3 , x + ty − y 3 ). La


fonction f est de classe C 1 sur R3 et f (0, 0, 0) = (0, 0). Pour tout (t, x, y) ∈ R3 ,
∂f ∂f ∂f
(t, x, y) = (t − 3x2 , 1), (t, x, y) = (−1, t), (t, x, y) = (1 + x, y).
∂x ∂y ∂t
Alors, l’application Dx,y f (0, 0, 0) : R2 → R2 définie par
   a   0 −1   a 
∂f ∂f
Dx,y f (0, 0, 0)((a, b)) = ∂x (0, 0, 0) ∂y (0, 0, 0) = = (−b, a),
b 1 0 b
est un isomorphisme. Par le théorème des fonctions implicites, il existe un voisinage ouvert I
de 0 dans R, un voisinage ouvert U de (0, 0, 0) dans R3 , deux fonctions de classe C 1 : x : I → R
et y : I → R telles que x(0) = 0, y(0) = 0 et
(t, x, y) ∈ U et f (t, x, y) = (0, 0) ⇐⇒ t ∈ I et (x, y) = (x(t), y(t)).

35
Donc, pour tout t ∈ I,

t + tx(t) − y(t) − x3 (t) = 0



f (t, x(t), y(t)) = (0, 0) ⇐⇒ .
x(t) + ty(t) − y 3 (t) = 0

Alors, en dérivant en t, on obtient pour tout t ∈ I,

1 + x(t) + tx0 (t) − y 0 (t) − 3x0 (t)x2 (t) = 0



.
x0 (t) + y(t) + ty 0 (t) − 3y 0 (t)y 2 (t) = 0

Pour t = 0, on a
1 − y 0 (0) = 0 x0 (0) = 0
 
⇐⇒ .
x0 (0) = 0 y 0 (0) = 1

36
5 Sous-variétés dans Rn
5.1 Sous-variétés
Quoi de commun à la parabole d’équation
y = x2 ,
à l’ovale de Cassini
(x2 + y 2 )2 = x2 − y 2 + 1,
à l’ellipse
x = a cos t, y = b sin t,
les trois appelés courbes de R2 ? Quoi de commun au paraboloı̈de hyperbolique
z = xy,
au cylindre
x2 + y 2 − x = 0,
au tore
x = (2 + cos ϕ) cos θ, y = (2 + cos ϕ) sin θ, z = sin ϕ,
appelés surfaces de R3 ?
La réponse est dans l’aspect local de ces sous-ensembles de R2 (res-
pectivement R3 ) qui est celui d’une droite (respectivement un plan) que l’on aurait déformé.
L’application
F : (x, y) 7−→ (u, v) = (x, y − x2 ),
d’inverse
F −1 : (u, v) 7−→ (x, y) = (u, v + u2 ),
est un difféomorphisme de classe C ∞ de R2 sur lui-même, qui transforme la parabole y = x2
en la droite v = 0.
Il peut sembler facile d’aplatir une parabole... Pourtant, ce serait impossible pour les
ensembles définis par y = |x| ou par x3 − y 3 = 0. La première courbe est lisse à l’origine, les
autres pas, au sens de la définition suivante.
Définition 5.1 Soient M un sous-ensemble de Rn , a ∈ M . On dit que M est lisse en a de
dimension p ≤ n, s’il existe un voisinage ouvert U de Rn et un difféomorphisme ϕ : U −→
V ⊂ Rn tels que
ϕ(U ∩ M ) = V ∩ (Rp × {0Rn−p }).
On dit que M est une sous-variété de dimension p ≤ n de Rn si M est lisse (de dimension
p) en chacun de ses points.
Si le difféomorphisme est de classe C k , M est dite C k -sous-variété.
Une sous-variété se ramène (localement) à une droite, ou un plan, etc., par simple chan-
gement de coordonnées. Par définition, les notions de “lisse en un point”, “sous-variété”, sont
invariantes par difféomorphisme : si ϕ est un difféomorphisme de Rn , M est lisse en a (de
dimension p) si et seulement si ϕ(M ) est lisse en ϕ(a) (de dimension p).
On appelle courbe lisse, surface lisse, hypersurface lisse, une sous-variété de dimension 1,
resp. 2, resp. n − 1, de Rn .
Pour vérifier que certains sous-ensembles de Rn sont des sous-variétés, nous utilisons
essentiellement l’équation d’une sous-variété, notion précisée dans l’énoncé suivant.

37
Théorème 5.1 Soit Ω un ouvert de Rn et g : Ω → Rk une application C 1 avec k < n. On
suppose que, pour tout x ∈ Ω, Dg(x) est surjective (on dit que g est une submersion C 1 sur
Ω). Alors, le sous-ensemble M = g −1 ({0Rk }) est une sous-variété de dimension n − k de Rn .
On dit que g(x) = 0 est l’équation de la sous-variété M .

Nous admettons qu’une sous-variété peut toujours être globalement définie par une équation.

Remarque : Pour montrer que M = g −1 ({0Rk }) est une sous-variété de dimension n − k de


Rn , où Ω un ouvert de Rn et g : Ω → Rk une application C 1 avec k < n, il suffit de montrer
que, pour tout x ∈ M , Dg(x) ∈ L(Rn , Rk ) est surjective.

Exemples :
1. La sphère unité de Rn+1 , notée S n , est une sous-variété de dimension n définie par
l’équation :
g(x1 , . . . , xn+1 ) = x21 + . . . + x2n+1 − 1 = 0.
La différentielle de g a pour jacobienne :

Jg (x) = ( 2x1 2x2 . . . 2xn+1 ), x = (x1 , . . . , xn+1 ),

qui s’annule seulement à l’origine, point n’appartenant pas à S n = g −1 (0). Toutes les
autres sphères de Rn+1 (de rayon > 0) se déduisent par un difféomorphisme global et
sont donc également des sous-variétés de dimension n.
2. Les cylindres dans R3 dont le modèle a pour équation x2 + y 2 − 1 = 0, sont des sous-
variétes de dimension 2.

Les sous-variétés peuvent aussi être caractérisées comme les images d’applications parti-
culières : les imersions f : O → Rn (c’est-à-dire f : O → Rn différentiable, avec O ouvert de Rp
et p < n, et telle que, pour tout x ∈ Ω, Df (x) est injective), qui réalisent un homéomorphisme
de Ω sur leur image f (Ω) munie de la topologie induite.

Théorème 5.2 Une partie M de Rn est une sous-variété de dimension p si et seulement si,
en tout point x ∈ M , il existe une immersion h : O → U d’un ouvert de Rp dans un voisinage
ouvert U de x telle que h réalise un homéomorphisme de O sur h(O) = U ∩ M . Une telle
immersion est un système de coordonnées locales ou encore une paramétrisation locale de M .

Remarque. L’hypothèse que h réalise un homéomorphisme sur son image, empêche une
situation de point double de se produire.
Il faut généralement plusieurs systèmes de coordonnées locales pour recouvrir une sous-
variété.
Par exemple, les coordonnées sphériques :
π π
(θ, φ) ∈]0, 2π[×] − , [7→ (R cos(θ) cos(φ), R sin(θ) cos(φ), R sin(φ)),
2 2
définissent une paramétrisation pour la sphère de rayon R. Il fautp quatre ouverts de définition
différentes pour récouvrir la sphère. Également, (x, y) 7→ (x, y, 1 − x2 − y 2 ) est un système
de coordonnées locales pour la sphère unité.

38
5.2 Espace tangent
Intuitivement, l’espace tangent à une sous-variété est formé des vitesses de courbes tracés
sur la sous-variété.

Théorème 5.3 Soit M = g −1 ({0Rk }) une sous-variété de dimension n − k, où g : Ω → Rk


est une submersion C 1 sur un ouvert Ω de Rn . Alors :
1. M est partout localement un graphe.
2. Pour tout x ∈ M , le noyau ker Dg(x) est formé des vitesses de courbes tracées sur M
et passant par x.

On remarque d’une part que kerDg(x) est de dimension n − k, celle de M , et d’autre


part qu’il ne dépend pas du choix de g, puique formé des vitesses des courbes sur M . Ce qui
justifie la définition suivante.

Définition 5.2 Étant donné une sous-variété M définie par une équation g(x) = 0 (où
g satisfait les hypothèses du théorème précédent), on appelle espace tangent à M au point
x ∈ M , le sous-espace vectoriel ker Dg(x). On le note Tx (M ). Le sous-espace affine tangent
en x est défini par x + ker Dg(x).

Remarquer que M est définie par

0 = g(x) = Dg(a)(x − a) + . . . ,

(puisque g(a) = 0), et M est donc voisine du sous-espace d’équation

Dg(a)(x − a) = 0,

qui n’est autre que son espace affine tangent en a.

5.3 Surfaces de R3
Soit f : R3 → R une fonction de classe C 1 telle que, pour tout (a, b, c) de l’ensemble S
d’équation f (x, y, z) = 0,
∂f
(a, b, c) 6= 0.
∂z
Alors S est une sous-variété de dimension 2 de R3 que l’on appelle surface de R3 .
L’application F définie sur R3 par

F (x, y, z) = (x, y, f (x, y, z)) = (u, v, w),

est un difféomorphisme local qui transforme S en un plan w = 0.


En effet, l’application F est de classe C 1 sur R3 et
 
1 0 0
DF =  0 1 0 .
∂f ∂f ∂f
∂x ∂y ∂z

39
Donc DF (a, b, c) est inversible, et le théorème d’inversion locale montre que F est un difféomorphisme
d’un voisinage V de (a, b, c) sur un voisinage W de F (a, b, c) = (a, b, 0). Alors, en notant
(u, v, w) = F (x, y, z),
(x, y, z) ∈ S ∩ V ⇐⇒ (u, v, w) ∈ W et w = 0.
Le changement de variables F transforme S (au voisinage du point considéré) en le plan
w = 0, donc S est lisse de dimension 2 en tout point de S ∩ V .
Soit (a, b, c) ∈ S. Alors (X, Y, Z) ∈ R3 est tangent en (a, b, c) à S si et seulement si
∂f ∂f ∂f
(a, b, c)X + (a, b, c)Y + (a, b, c)Z = 0.
∂x ∂y ∂z
C’est l’équation du plan vectoriel tangent à S en (a, b, c) (noyau de l’application linéaire
Df (a, b, c)). L’hypothèse ∂f
∂z (a, b, c) 6= 0 signifie que ce plan n’est pas vertical.

5.4 Courbes de R3
Soient f, g : R3 −→ R deux fonctions de classe C 1 . Soit C l’ensemble défini par
f (x, y, z) = 0, g(x, y, z) = 0.
On suppose que, pour tout (a, b, c) ∈ C,
∂f ∂g ∂f ∂g
(a, b, c) (a, b, c) − (a, b, c) (a, b, c) 6= 0. (6)
∂y ∂z ∂z ∂y
Alors, C est une sous-variété de dimension 1 de R3 que l’on appelle courbe de R3 .
L’application F définie sur R3 par
F (x, y, z) = (x, f (x, y, z), g(x, y, z)) = (u, v, w),
est un difféomorphisme local qui transforme C en la droite v = w = 0
En effet, F est de classe C 1 sur R3 et
 
1 0 0
 ∂f ∂f ∂f 
DF =  ∂x ∂y ∂z  .
∂g ∂g ∂g
∂x ∂y ∂z

Pour tout (x, y, z) ∈ R3 ,


∂f ∂g ∂f ∂g
det DF (x, y, z) = (x, y, z) (x, y, z) − (x, y, z) (x, y, z).
∂y ∂z ∂z ∂y
D’après l’hypothèse (6), DF (a, b, c) est inversible d’où, par inversion locale, F est un difféomorphisme
entre un voisinage V de (a, b, c) et un voisinage W de F (a, b, c) = (a, 0, 0). En notant
(u, v, w) = F (x, y, z), on a
(x, y, z) ∈ C ∩ V ⇐⇒ (u, v, w) ∈ W et v = w = 0.
Soit (a, b, c) ∈ C. Alors (X, Y, Z) ∈ R3 est tangent en (a, b, c) à C si et seulement si
(
∂f ∂f ∂f
∂x (a, b, c)X + ∂y (a, b, c)Y + ∂z (a, b, c)Z = 0
∂g ∂g ∂g
∂x (a, b, c)X + ∂y (a, b, c)Y + ∂z (a, b, c)Z = 0

C’est l’équation de la droite vectorielle tangente en (a, b, c) à C, intersection des plans vecto-
riels tangents aux deux surfaces f = 0, g = 0. L’hypothèse (6) signifie que ces deux plans se
coupent selon une droite non parallèle au plan Y OZ (c’est-à-dire X 6= 0).

40
5.5 Extrema liés – Multiplicateurs de Lagrange
Des nombreuses questions peuvent nous conduire à rechercher les extremums d’une fonc-
tion de plusieurs variables, sachant que ces variables sont “liées” par certaines relations ou
sous contraintes. Nous allons nous intéresser aux extrema de la restriction à une sous-variété
d’une fonction différentiable.

Définition 5.3 Soient Ω un ouvert de Rn , f : Ω → R et A une partie de Ω. On dit que


a est un maximum lié (respectivement, minimum lié) de f sur A, si a est un maximum
(respectivement, minimum) relatif de f|A .
Un point qui est un maximum ou un minimum lié est un extremum lié de f sur A.

Dans la suite de ce paragraphe, on établit une condition nécessaire pour qu’en un point a
de A la fontion f|A admette un minimum relatif ou un maximum relatif.
Rappel d’algèbre linéaire. Soient E, F et G espaces vectoriels et deux applications
u ∈ L(E, F ), v ∈ L(E, G), on a l’équivalence :

ker v ⊂ ker u ⇐⇒ ∃ w ∈ L(G, F ) telle que u = w ◦ v.

Il suffit de considérer un sous-espace vectoriel supplémentaire H de v(E) et de définier w par


H = ker w et, pour tout x ∈ E, w(v(x)) = u(x). L’hypothèse ker v ⊂ ker u rend la valeur de
w indépendante du choix de x. Comme cas particulier, on considère F = R, G = Rk avec
k ≥ 1. Alors, v = (v1 , . . . , vk ) et l’équivalence devient :

ker v ⊂ ker u ⇐⇒ ∃ (λ1 , . . . , λk ) ∈ Rk tel que u(x) = λ1 v1 (x) + . . . + λk vk (x).

Les coefficients λ1 , . . . , λk sont appelés multiplicateurs de Lagrange.

Contraintes d’égalité.
Soit Ω ouvert de Rn , f : Ω → R de classe C 1 et g : Ω → Rk différentiable, avec k ≤ n. On
note g = (g1 , . . . , gk ). On suppose que, pour tout x ∈ M = g −1 ({0}), Dg(x) est surjective.
Alors, M est sous-variété de dimension n − k de Rn .
Notons que x ∈ M = g −1 ({0}) si les k contraintes d’égalité sont vérifiées :

g1 (x) = 0, . . . , gk (x) = 0.

Théorème 5.4 Soit la sous-variété définie par M = g −1 ({0}). Si a ∈ M est un point d’ex-
tremum de f|M , il existe alors k multiplicateurs de Lagrange tels que :

Df (a) = λ1 Dg1 (a) + . . . + λk Dgk (a).

Preuve : Si a est un extremum de f|M , pour tout courbe c tracée sur M et passant par
c(0) = a, f ◦ c admet 0 comme extremum. Donc, c0 (0) ∈ ker Df (a). Mais le théorème 5.3
affirme que tout vecteur de ker Dg(a) est de la forme c0 (0), alors

ker Dg(a) ⊂ ker Df (a).

Il suffit d’appliquer le rappel d’algèbre linéaire pour conclure.

Il est utile d’introduire la fonction de Lagrange ou Lagrangien.

41
Définition 5.4 On appelle fonction de Lagrange ou Lagrangien associée à la fonction f et à
la sous-variété M = g −1 ({0}), la fonction définie par :

L(x, λ) = f (x) − (λ1 g1 (x) + . . . + λk gk (x)),

x = (x1 , . . . , xk ) ∈ Rk , λ = (λ1 , . . . , λk ).

Remarques :
1. Nous pouvons dire que la recherche des minima ou maxima liés de f , pour la liaison
g(x) = 0 (contrainte d’égalité), se ramène à la recherche des minima ou maxima relatifs
(au sens usuel) de la fonction de Lagrange L = f − (λ1 g1 + . . . + λk gk ). Il faut remarquer
que les multiplicateurs de Lagrange λ1 , . . . , λk ne sont pas connus d’avance. Ils seront
déterminés au même temps que le point a, grâce à la résolution des équations :

Df (a) − (λ1 Dg1 (a) + . . . + λk Dgk (a)) = 0
g(a) = 0

2. Supposons qu’en un point a = (a1 , . . . , an ) ∈ Ω, la restriction de f à la sous-variété


M = g −1 ({0Rk }) admette un maximum ou un minimum relatif. On suppose aussi  que 
∂g
la différentielle de g en a est surjective, c’est-à-dire que la matrice Jg (a) = ∂xji
(1 ≤ i ≤ n, 1 ≤ j ≤ k) est de rang k au point a.
Alors, il existe λ = (λ1 , . . . , λk ) ∈ Rk tel que, pour chaque 1 ≤ i ≤ n,
 
k
∂  X
f− λj gj  (a) = 0.
∂xi
j=1

3. Le théorème précédent nous donne uniquement l’ensemble des points candidats à point
d’extremum de f sur M (c’est-à-dire, sous la contrainte d’égalité g(x) = 0). Comme
dans le cas d’un problème d’extremums sans contrainte, pour déterminer la solution
il faut établir des conditions suffisantes (du second ordre) permettant d’identifier les
maxima et minima de f sur M parmi l’ensemble des points satisfaisant la condition
nécessaire (du premier ordre - théorème 5.4).
2 −y 2
Exemple : On considère la fonction f définie sur R2 par f (x, y) = (x2 + y 2 )ex . On
calcule les extrema de f sur le cercle C = {(x, y) ∈ R2 : x2 + y 2 = 2}.
On pose g(x, y) = x2 + y 2 − 2. On a

∇g(x, y) = (2x, 2y) = (0, 0) ⇐⇒ (x, y) = (0, 0) 6∈ C.

Alors, Dg(x, y) : R2 → R est surjective pour tout (x, y) ∈ R2 \ {0R2 }. On conclut que
C = g −1 ({0R2 } est une sous-variété de dimension 1 de R2 . D’autre part, C est un fermé borné
de R2 et donc C est un compact de R2 . Alors, f (étant une fonction continue sur R2 ) admet
un maximum et un minimum global sur C.
Soit L la fonction de Lagrange définie par :
2 −y 2
L(x, y, λ) = f (x, y) − λg(x, y) = (x2 + y 2 )ex − λ(x2 + y 2 − 2).

42
On a : 2 2 2 2
 2x(1 + x2 + y 2 )ex −y − λ2x = 0  x = 0 ou λ = 3ex −y
 
2 2 2 2
2y(1 − x2 − y 2 )ex −y − λ2y = 0 ⇐⇒ y = 0 ou λ = −ex −y
 2
x + y2 = 2
 2
x + y2 = 2
√ √ √ √
−2 ), (0, − 2, −e−2 ), ( 2, 0, 3e2 ) et (− 2, 0, 3e2 ).
Les points critiques
√ de L sont
√ : (0, 2, −e √ √ √
De plus,√f (0, 2) = f (0, − 2) = 2e−2 et f ( 2, 0) = f (− √ 2, 0) = 2e2 >√2e−2 . Donc, (0, 2)
et (0, − 2) sont points de minimum absolu de f sur C, ( 2, 0) et (− 2, 0) sont points de
maximum absolu de f sur C.
Le théorème suivant donne des conditions suffisantes pour qu’un point a ∈ M soit un
point d’extremum local de f sur la sous-variété M .

Théorème 5.5 Soit Ω ouvert de Rn , f : Ω → R de classe C 2 et g : Ω → Rk , 1 ≤ k < n, de


classe C 2 telle que M = g −1 ({0Rk }) est une sous-variété de dimension n − k de Rn .
– Un point a ∈ M est un point de maximum relatif de f|M s’il existe λ̄ ∈ Rk tel que (a, λ̄)
est un point critique de la fonction de Lagrange L(x, λ) et

v t Dx2 L(a, λ̄)v < 0, (7)

pour tout v ∈ Rn non nul tel que Dg(a)(v) = 0.


– Un point a ∈ M est un point de minimum relatif de f|M s’il existe λ̄ ∈ Rk tel que (a, λ̄)
est un point critique de la fonction de Lagrange L(x, λ) et

v t Dx2 L(a, λ̄)v > 0, (8)

pour tout v ∈ Rn non nul tel que Dg(a)(v) = 0.

Les conditions (7) et (8) stipulent que la forme quadratique associée à la matrice hessienne
par rapport aux variables (x1 , . . . , xn ) du Lagrangien en (a, λ̄) est respectivement définie
négative et positive sur l’hyperplan tangent à M au point a. Le théorème suivant, donne deux
conditions suffisantes du secon ordre plus faciles à vérifier que (7) et (8) et qui impliquent
celles-ci.

Théorème 5.6 (Conditions suffisantes) Soit Ω ouvert de Rn , f : Ω → R de classe C 2


et g : Ω → Rk , 1 ≤ k < n, de classe C 2 telle que M = g −1 ({0Rk }) est une sous-variété de
dimension n − k de Rn .
– Un point a ∈ M est un point de maximum relatif de f sur M s’il existe λ̄ ∈ Rk tel que
(a, λ̄) ∈ Rn × Rk est un point critique de la fonction de Lagrange L(x, λ) et si la matrice
hessienne bordée  
0 J(g)(a)
B=
J(g)(a) Hx (L)(a, λ̄)
est telle que les n − k derniers mineurs principaux alternent de signe, le déterminant
de B étant du même signe que (−1)n .
– Un point a ∈ M est un point de minimum relatif de f sur M s’il existe λ̄ ∈ Rk tel que
(a, λ̄) est un point critique de la fonction de Lagrange L(x, λ) et si la matrice hessienne
bordée  
0 J(g)(a)
B=
J(g)(a) Hx (L)(a, λ̄)
est telle que les n − k derniers mineurs principaux sont tous du signe de (−1)k .

43
Remarque. La matrice bordée B au point (a, λ̄) est une matrice carrée d’ordre (k+n)×(k+n)
et elle est donnée par :
 ∂g1 ∂g1

0 ··· 0 ∂x1 (a) · · · ∂xn (a)
 .. .. .. .. .. .. 

 . . . . . . 

∂gk ∂gk
0 ··· 0 (a) · · · (a)
 
 ∂x1 ∂xn 
B =  ∂g1
 ∂gk 2
∂ L 2
∂ L
.
 ∂x1 (a) · · · ∂x1 (a) ∂x21
(a, λ̄) · · · ∂xn ∂x1 (a, λ̄) 


 .
.. . .. .
.. .
.. . .. .
..


 
∂g1 ∂gk ∂2L ∂2L
∂xn (a) · · · ∂xn (a) ∂x1 ∂xn (a, λ̄) · · · ∂x2
(a, λ̄)
n

Exemple. Soit f (x, y) = xy et D = {(x, y) ∈ R2 : x + 4y = 16} = g −1 ({0}) où g(x, y) =


x + 4y − 16. Puisque ∇g(x, y) = (1, 4) 6= (0, 0) pour tout (x, y) ∈ R2 , D est une courbe de R2 .
On définit la fonction de Lagrange

L(x, y, µ) = f (x, y) − µ(h(x, y) − 16) = xy − µ(x + 4y − 16).

On vérifie facilement que ∇L(x, y, µ) = (0, 0, 0) si et seulement si (x, y, µ) = (8, 2, 2). Finale-
ment,
∂h ∂h
0 ∂x ∂y 0 1 4
2
∂ L ∂2L
B(8, 2, 2) = ∂h
∂x ∂x2 ∂x∂y (8, 2, 2) = 1 0 1 = 8 > 0.
∂h ∂2L ∂2L 4 1 0
∂y ∂y∂x2 ∂y

Donc, (8, 2) est un point de maximum relatif de f sur D.

Contraintes d’inégalité.
Soient Ω ouvert de Rn , f : Ω → R et gi : Rn → R avec i = 1, . . . , k, des fonctions d’au
moins classe C 1 sur Rn . Soit b = (b1 , . . . , bk ) ∈ Rk et D l’ensemble de points respectant les k
contraintes d’inégalité :

D = {x ∈ Rn : g1 (x) ≤ b1 , . . . , gk (x) ≤ bk }.

L’ensemble D est un fermé de Rn .


On définit la fonction de Lagrange ou Lagrangien par

L(x1 , . . . , xn , λ1 , λk ) = f (x) − [λ1 (g1 (x) − b1 ) + . . . + λk (gk (x) − bk )], (9)

x = (x1 , . . . , xn ) et où λ1 , . . . , λk sont k nouvelles variables appelées multiplicateurs de La-


grange. On remarque que le Lagrangien (9) ne coincide plus avec la fonction f sur l’ensemble
D comme dans le cas des contraintes d’égalité mais il nous permet toujours de transformer le
problème sous contraintes à n variables en un problème sans contraintes à n + k variables.

Cas de la dimension 2 : Soit f : R2 → R et D = {(x, y) ∈ R2 : g(x, y) ≤ b} (une unique


contrainte d’inégalité). La fonction de Lagrange associée est :

L(x, y, λ) = f (x, y) − µ(g(x, y) − b). (10)

Soit (x̄, ȳ) un maximum ou minimum local de f sur l’ensemble D. Deux cas sont possibles :
g(x̄, ȳ) = b ou g(x̄, ȳ) < b.

44
Dans le premier cas, g(x̄, ȳ) = b, on dit que la contrainte est saturée en (x̄, ȳ). Comme dans
le cas d’une contrainte d’égalité, la courbe de niveau f (x, y) = f (x̄, ȳ) est tangente en (x̄, ȳ)
à la courbe répresentant l’ensemble {(x, y) ∈ R2 : g(x, y) = b}. Donc, les vecteurs gradients
∇f (x̄, ȳ) et ∇g(x̄, ȳ) ont la même direction en (x̄, ȳ), c’est-à-dire qu’il existe λ̄ ∈ R tel que
∇f (x̄, ȳ) = λ̄∇g(x̄, ȳ). (11)
De plus, puisque le vecteur gradient d’une fonction admet comme direction celle pour laquelle
la fonction s’accroı̂t le plus rapidement, les vecteurs gradients ∇f (x̄, ȳ) et ∇g(x̄, ȳ) doivent
s’orienter dans le même sens si (x̄, ȳ) est un point de maximum et dans le sens opposé si (x̄, ȳ)
est un point de minimum. Donc, le multiplicateur de Lagrange dans (11) doit vérifier λ̄ ≥ 0
si (x̄, ȳ) est un point de maximum et λ̄ ≤ 0 si (x̄, ȳ) est un point de minimum.
Dans le cas g(x̄, ȳ) < b, on dit que la contrainte n’est pas saturée en (x̄, ȳ) et le point (x̄, ȳ)
est un point de maximum ou minimum local sans contraintes car il appartient à l’ensemble
ouvert {(x, y) ∈ R2 : g(x, y) < b}. Il doit donc vérifier
∇f (x̄, ȳ) = (0, 0),
et les dérivées de g n’interviennent pas dans la caractérisation de (x̄, ȳ).
On obtient le théorème suivant.

Théorème 5.7 (Condition nécessaire en dimension 2 et une contrainte) Soient f et


g deux fonctions de classe C 1 dans R2 et soit (x̄, ȳ) un point de maximum ou minimum local
de f sur l’ensemble D = {(x, y) ∈ R2 : g(x, y) ≤ b} tel que ∇g(x̄, ȳ) 6= (0, 0) si g(x̄, ȳ) = b.
Alors, il existe un unique λ̄ ∈ R tel que
∂L ∂L
(x̄, ȳ, λ̄) = 0, (x̄, ȳ, λ̄) = 0,
∂x ∂y
et
λ̄(g(x̄, ȳ) − b) = 0,
avec λ̄ ≥ 0 si (x̄, ȳ) est un point de maximum et λ̄ ≤ 0 si (x̄, ȳ) est un point de minimum.

La généralisation naturelle du théorème précédent au cas des fonctions de n variables sous


k contraintes d’inégalité est la suivante.

Théorème 5.8 (Condition nécessaire en dimension n et k contraintes) Soient f et


g1 , . . . , gk , k +1 fonctions de classe C 1 dans Rn et soit x̄ = (x̄1 , . . . , x̄n ) un point de maximum
ou minimum local de f sur l’ensemble
D = {x ∈ Rn : g1 (x) ≤ b1 , . . . , gk (x) ≤ bk }.
Sans perte de généralité, on suppose qu’il existe k0 ≤ k tel que
g1 (x̄) − b1 = . . . = gk0 (x̄) − bk0 = 0 et gk0 +1 (x̄) < bk0 +1 , . . . , gk (x̄) < bk ,
c’est-à-dire les k0 premières contraintes sont saturées en x̄ et les dernières k − k0 ne le sont
pas. Supposons enfin que le rang de la matrice jacobienne des k0 contraintes saturées calculée
en x̄  
∂g1 ∂g1
∂x1 (x̄) . . . ∂x n
(x̄)
 . . . .. 
 .. . . 
 
∂gk0 ∂gk0
∂x1 (x̄) . . . ∂xn (x̄)

45
est maximal et donc égal à k0 . Alors, il existe un unique λ̄ = (λ̄1 , . . . , λ̄k ) ∈ Rk tel que

∂L
(x̄, λ̄) = 0, i = 1, . . . , n,
∂xi
et
λ̄j (gj (x̄) − bj ) = 0, j = 1, . . . , k,
avec λ̄j ≥ 0 pour tout j = 1, . . . , k, si x̄ est un point de maximum et λ̄j ≤ 0 pour tout
j = 1, . . . , k, si x̄ est un point de minimum.

Remarque. Dans les théorèmes précédents, le signe des multiplicateurs de Lagrange est lié
aux inégalités définies pas les k contraintes

gi (x) ≤ bi i = 1, . . . , k.

Si l’on change les inégalités en

gi (x) ≥ bi i = 1, . . . , k,

il faut changer aussi le signe des multiplicateurs de Lagrange.

Exemple. Soit f (x, y) = xy et D = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. On calcule les éventuels


maxima et minima de f sur D. La fonction contrainte est g(x, y) = x2 + y 2 et ∇g(x, y) =
(2x, 2y) 6= (0, 0) pour tout (x, y) 6= (0, 0). Donc, M = g −1 ({0}) est une sous-variété de R2 de
dimension 1. On définit la fonction de Lagrange

L(x, y, λ) = f (x, y) − λ(g(x, y) − 1) = xy − (x2 + y 2 − 1).

Les conditions nécessaires impliquent :


∂L ∂L
(x, y, λ) = y − 2λx = 0, (x, y, λ) = x − 2λy = 0, λ(x2 + y 2 − 1) = 0.
∂x ∂y

Si λ = 0, alors (x, y) = (0, 0). Mais la fonction f atteint des valeurs positives et négatives en
toute boule centrée en (0, 0). Donc, (0, 0) est un point selle.
Si λ 6= 0, alors la contrainte est saturée, c’est-à-dire x2 + y 2 = 1, et
y x
λ= = .
2x 2y
Alors, les points critiques de L sont :
√ √ √ √ √ √ √ √
2 2 1 2 2 1 2 2 1 2 2 1
( , , ), (− ,− , ), ( ,− , − ), (− , , − ).
2 2 2 2 2 2 2 2 2 2 2 2
Comme la contrainte est saturée en ces points, les conditions
√ √ suffisantes
√ du
√ second ordre pour
des contraintes d’égalité impliquent que les points ( 22 , 22 ) et (− 22 , − 22 ) sont deux points
√ √ √ √
2 2 2 2
de maximum de f sur D et que ( 2 ,− 2 ) et (− 2 , 2 ) sont deux points de minimum de f
sur D.

46
Références
[1] R. Abraham, J. Marsden, Fondations of mechanics, 2nd edition, Benjamin, New York,
1978.
[2] G. Auliac, J. Y. Caby, Mathématiques, topologie et analyse, Editions EdiScience, 2007.
[3] A. Avez, Calcul différentiel, Masson, 1983.
[4] M. Berger, B. Gostiaux, Géométie différentielle, Armand Colin, Paris, 1971.
[5] H. Cartan, Cours de calcul différentiel, Hermann, Éditeurs des Sciences et des Arts, 1967.
[6] F. Cottet-Emard, Calcul différentiel et intégral, De Boeck, 2007.
[7] J. Dieudonné, Éléments d’analyse, Tome 1, Gauthiers-Villars, Paris, 1968.
[8] P. Donato, Calcul différentiel pour la licence, Dunod, Paris, 2000.
[9] J. M. Souriau, Calcul linéaire, Tomes I et II, Jacques Gabay Éditeur, Paris, 1998.
[10] J. Stewart, Analyse : concepts et contextes, Volume 2 : Fonctions de plusieurs variables,
De Boeck University, 2001.

47
Fonctions convexes et fonctions concaves‘

On dit qu’un ensemble A de Rn est convexe si et seulement si pour tout λ ∈ [0, 1] et tout
point x, y ∈ A on a λx + (1 − λ)y ∈ A. Cela signifie que le segment d’extrémités x et y est
entièrement contenu dans A.
Une fonction définie sur un sous-ensemble convexe A de Rn est convexe si, pour tout
λ ∈ [0, 1] et tout point x, y ∈ A on a

f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y).

De même, une fonction définie sur un sous-ensemble convexe A de Rn est concave si, pour
tout λ ∈ [0, 1] et tout point x, y ∈ A on a

f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y).

Théorème 5.9 (Caractérisation des fonctions convexes) Soit U un ouvert convexe de


Rn et f : U → R une fonction de classe C 1 . Alors f est convexe si et seulement si, pour tout
x, y ∈ U , on a
f (y) − f (x) ≥ Df (x)(y − x). (12)
De plus, si f est de classe C 2 dans U , alors f est convexe si et seulement si, pour tout x ∈ U ,
tout h ∈ Rn , on a
D2 f (x)(h, h) ≥ 0,
c’est-à-dire, la matrice hessienne H(f )(x) est définie positive.

Théorème 5.10 (Caractérisation des fonctions convexes) Soit U un ouvert convexe


de Rn et f : U → R une fonction de classe C 1 . Alors f est concave si et seulement si,
pour tout x, y ∈ U , on a
f (y) − f (x) ≤ Df (x)(y − x). (13)
De plus, si f est de classe C 2 dans U , alors f est concave si et seulement si, pour tout x ∈ U ,
tout h ∈ Rn , on a
D2 f (x)(h, h) ≤ 0,
c’est-à-dire, la matrice hessienne H(f )(x) est définie négative.

La condition (12) (respectivement, (13) dit qu’une fonction de classe C 1 est convexe
(respectivement, concave) si et seulement si le plan tangent au graphe de la fonction est
toujours au dessous (respectivement, au-dessus) du graphe.
On peut démontrer facilement l’existence d’un minimum absolu pour une fonction convexe
et l’existence d’un maximum absolu pour une fonction concave.

Théorème 5.11 Soit U un ouvert convexe de Rn et f : U → R une fonction de classe C 1 et


a ∈ U un point critique de f . Alors, si f est convexe, a est un point de minimum absolu de
f sur U . Et, si f est concave, a est un point de maximum absolu de f sur U .

48

Vous aimerez peut-être aussi