0% ont trouvé ce document utile (0 vote)

25 vues63 pages

CalculDiff FredericLeRoux

Ce mémo de calcul différentiel présente les concepts fondamentaux de la différentielle, y compris la théorie des dérivées partielles et les règles de calcul. Il aborde également les extrema, les applications de classe C1, l'inversion locale, et les surfaces et sous-variétés. Chaque section comprend des commentaires et des exercices pour renforcer la compréhension des notions abordées.

Transféré par

lectorjonathan2003

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

25 vues63 pages

CalculDiff FredericLeRoux

Transféré par

lectorjonathan2003

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mémo de calcul différentiel

Frédéric Le Roux — Jussieu, LM360

2014

Table des matières

I La différentielle 3
I.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
(a) Différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
(b) Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
(c) Règles de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
(a) La différentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
(b) Vecteur vitesse d’une courbe . . . . . . . . . . . . . . . . . . . . . . . . 13
(c) Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
(d) La fonctionnelle de longueur . . . . . . . . . . . . . . . . . . . . . . . . 14
I.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

II Extrema : conditions d’ordre 1 16

II.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
(a) Extrema libres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
(b) Vecteur gradient dans Rm . . . . . . . . . . . . . . . . . . . . . . . . . 17
(c) Optimisation sous contrainte : extrema liés dans Rm . . . . . . . . . . 18
II.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
(a) Gradient et optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . 22
(b) Extrema liés et billards . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
II.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

III Applications de classe C 1 25

III.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
(a) L’inégalité des accroissements finis . . . . . . . . . . . . . . . . . . . . 25
(b) Applications de classe C 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 27
III.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
(a) Interprétation physique de l’inégalité des accroissements finis . . . . . . 29
(b) Continuité de Df . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
III.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

IV Inversion locale, fonctions implicites 30

IV.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
(a) Difféomorphismes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
(b) Théorème d’inversion locale . . . . . . . . . . . . . . . . . . . . . . . . 31
(c) Exemples d’application du théorème d’inversion locale . . . . . . . . . 34
(d) Le Théorème des Fonctions Implicites dans R2 . . . . . . . . . . . . . . 34
(e) Le théorème des fonctions implites, version générale . . . . . . . . . . . 36
(f) Exemples d’utilisation du théorème des fonctions implites . . . . . . . 38
IV.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
(a) Dessins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1
V Surfaces, sous-variétés 41
V.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
(a) Sous-variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
(b) Sous-espace tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
(c) Sous-variété donnée par une équation ou un système d’équations . . . . 44
(d) Extrema liés : la preuve ! . . . . . . . . . . . . . . . . . . . . . . . . . . 48
(e) Sous-variété donnée par un paramétrage . . . . . . . . . . . . . . . . . 49
V.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
(a) Équations différentielles sur les sous-variétés . . . . . . . . . . . . . . . 49
(b) Noeuds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
V.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

VI Différentielles d’ordre supérieur 52

VI.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
(a) Dérivées partielles d’ordre 2, différentielle seconde . . . . . . . . . . . . 52
(b) Lemme de Schwarz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
(c) Formule de Taylor à l’ordre 2 . . . . . . . . . . . . . . . . . . . . . . . 56
(d) Extrema locaux : conditions d’ordre deux . . . . . . . . . . . . . . . . . 57
(e) Dérivées d’ordres supérieurs . . . . . . . . . . . . . . . . . . . . . . . . 62
VI.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
(a) Interprétation de la différentielle seconde . . . . . . . . . . . . . . . . . 63

2
I La différentielle
Dans ce chapitre, on étudie la situation suivante : on a une application f définie
sur un ouvert Ω d’un espace vectoriel normé E, à valeurs dans un autre espace
vectoriel normé F , et un point a de Ω. On veut étudier le comportement de f au Noter que comme Ω est
voisinage de a. Le principe du calcul différentiel est d’approcher f (a + h), pour ouvert, f (a + h) est bien
des petites valeurs de h, à l’aide d’une application linéaire appelée différentielle défini pour tout h assez
petit. Dans toute la suite,
de f au point a. lorsqu’on écrit f (a + h),
on suppose implicitement
que a + h appartient à Ω.
I.1 Théorie
On rappelle que L(E, F ) désigne l’ensemble des applications linéaires continues
de E dans F . On utilisera les deux définitions suivantes.
• Une application affine est une application du type x 7→ b + L.x où L ∈ L(E, F ) et
b est un élément de F , autrement dit la somme d’une application linéaire et d’une
constante.
• Soit o : O → F une application définie sur un ouvert O de E contenant 0. On On vérifie facilement que
cette notion ne change
dira que o(~h) est négligeable devant ~h si
pas lorsqu’on change la
norme de E en une norme
o(~h) équivalente, ni quand on
lim = 0, change la norme de F en
~h→0 ~h une norme équivalente.
Une conséquence
autrement dit importante est qu’en
dimension finie, la notion
de différentiabilité ne va
∀ε > 0 ∃δ > 0 ∀~h ∈ O ( ~h < δ ⇒ o(~h) < ε ~h ). pas dépendre du choix
E F
des normes.

Exercice 1.— Vérifier que lorsque o(~h) est négligeable devant ~h, on a lim~h→0 o(~h) = 0.
2
Montrer que la réciproque est [Link]́rifier que ~h est négligeable devant ~h.

(a) Différentielle
On dit que f est différentiable au point a s’il existe une application linéaire
continue L ∈ L(E, F ) telle qu’on ait

f (a + ~h) = f (a) + L.~h + o(~h)

où o(h) est négligeable devant h. L’application L est alors appelée différentielle de f
au point a et notée Df (a) (parfois Da f ou même f 0 (a)). On dit aussi que f admet
un développement limité à l’ordre 1 au point a. L’application affine h 7→ f (a) + Df (a).h
s’appelle partie principale du développement limité, la quantité o(h) est son reste.

Proposition. L’application L est unique.

Recette de preuve.— Soient L1 , L2 deux applications linéaires continues vérifiant toutes les
deux la définition de la différentielle, il s’agit de montrer que L1 = L2 . Montrer d’abord que
L.h := L1 .h − L2 .h est négligeable devant h. Il s’agit maintenant de voir qu’une application

3
linéaire L telle que L.~h est négligeable devant ~h est l’application nulle. Nous allons utiliser
l’homogénéité de la norme. Fixons un vecteur ~v 6= 0, et posons h(t) = t~v . Lorsque t tend vers 0,
h(t) tend vers 0, et donc
kL.(h(t))k
lim = 0.
t→0 kh(t)k
Montrer que cette quantité ne dépend en fait pas de t, en déduire qu’elle est nulle. Conclure.

Proposition. Si f est différentiable au point a elle y est continue.

Recette de preuve.— Écrire le DL à l’ordre 1. Conclure en utilisant le fait que Df (a) est,
par définition, une application continue, et que o(~h) tend vers 0 lorsque ~h tend vers 0.

On dit que f est différentiable sur Ω si elle l’est en tout point de Ω. Attention, on a alors
autant d’applications
linéaires Df (a) que de
points a dans Ω !
Exemple I : applications affines Toute application affine f : x 7→ b + L.x est
différentiable sur E, et pour tout a et tout h, Df (a).h = L.h. Dans ce cas très spécial,
Df (a) = L, et la
Exercice 2.—Vérifier l’affirmation précédente. Que vaut la différentielle de la translation x 7→ différentielle Df (a) ne
dépend pas de a.
x + b en un point a ?

Exemple II : fonctions de R dans R Soit f : R → R une fonction dérivable

en un point a. On a par définition f

f (a + h) − f (a)
f 0 (a) = lim .
h→0 h o(h)
On peut écrire Df (a).h
f (a + h) = f (a) + f 0 (a).h + o(h)
•
h
en posant o(h) = f (a + h) − (f (a) + f 0 (a).h) ; vérifier que o(h) est négligeable
devant h. Ainsi, on voit que f est différentiable en a, et sa différentielle est l’ap-
plication Df (a) : h 7→ f 0 (a).h, qui est linéaire de R dans R. Réciproquement,
on peut montrer que si f est différentiable au point a alors elle est dérivable au
point a, et sa dérivée est f 0 (a) = Df (a).1. Ainsi, pour les fonctions de R dans
R, les notions de dérivabilité et différentiabilité coincident. Tout ceci se généralise
immédiatement lorsque l’espace d’arrivée est un espace vectoriel normé quelconque
F.

Exemple III : fonction de deux variables La formule f (x, y) = xe3y définit

une fonction de R2 dans R. Montrons qu’elle est différentiable au point (2, 1). On
développe f (2+h1 , 1+h2 ) et on essaie de faire apparaı̂tre un développement limité
à l’ordre 1, c’est-à-dire
– le terme constant f (2, 1),
– un terme linéaire qui correspondra à la différentielle au point (2, 1),
– un reste qui doit être négligeable devant k(h1 , h2 )k.

4
Effectuer le calcul, en remplaçant le terme “e3h2 ” par son développement limité
en 0, e3h2 = 1 + 3h2 + o(h2 ), et identifier le terme constant, le terme linéaire et
le reste. On obtient Cet exemple est là pour
illustrer la définition de la
f (2 + h1 , 1 + h2 ) = f (2, 1) + e3 (h1 + 3h2 ) + o(h1 , h2 ). différentielle, mais
rassurez-vous, on aura
bientôt des outils qui
avec un reste o(h1 , h2 ) formé de plusieurs termes. Vérifier que ce reste est
nous permettront de
négligeable devant k(h1 , h2 )k en relisant la définition de négligeable et en utilisant retrouver facilement la
différentielle de n’importe
o(h2 ) quelle fonction donnée
lim =0 et |hi | ≤ k(h1 , h2 )k , i = 1, 2.
h2 →0 h2 par une formule de ce
type.
(On a le droit d’utiliser la norme qui nous convient, on prend par exemple la norme
k.k∞ pour avoir la dernière majoration.) Puisque l’application L : (h1 , h2 ) 7→
e3 (h1 + 3h2 ) est linéaire, on a bien obtenu un développement limité à l’ordre 1,
ce qui prouve que f est différentiable au point (2, 1), et que sa différentielle en ce
point est l’application L.

Exemple IV : inversion de matrice Pour toute matrice H de norme matri-

cielle kHk < 1, la matrice Id + H est inversible et on a
+∞
X
−1
(Id + H) = (−H)k = Id − H + o(H) (?)
k=0

en posant
+∞
X
o(H) = (−H)k .
k=2

Exercice 3.— Majorer la norme de o(H), par exemple pour tout kHk < 21 , pour montrer que
o(H) est négligeable devant H. On commencera par mettre H 2 en facteur.

On en déduit que l’application consistant à inverser une matrice est

différentiable au point Id, et que sa différentielle est H 7→ −H. L’approximation
affine donnée par l’égalité (?) est très facile à calculer, comme par exemple
 −1  
1.09 0.07 0.05 1 − 0.09 −0.07 −0.05
 0.1 0.95 −0.02 '  −0.1 1 + 0.05 0.02 
−0.08 0.01 0.92 0.08 −0.01 1 − 0.08

Dans cet exemple les coefficients de H sont de l’ordre de 10−1 . Un calcul plus
précis donne le résultat
 
0.919823 −0.0672348 −0.051452
−0.0951178 1.05934 0.0281987  .
0.0810185 −0.0173611 1.08218

et on voit que l’écart avec les coefficients de notre approximation affine est de
l’ordre de 10−2 , qui est “beaucoup plus petit” que kHk.

5
Exemple V : espaces de fonctions
On se place dans l’espace vectoriel normé E = C([0, 1], R), muni de la norme
k.k∞ . Pour tout élément f de E, l’application f 2 : x 7→ f (x)2 est encore un
élément de E. Pour f, ~h dans E on a

(f + ~h)2 = f 2 + 2f ~h + ~h2
2
et ~h2 = ~h est négligeable devant h, donc l’application
∞ ∞

E → E
f 7→ f 2

est différentiable en tout point f , et sa différentielle est l’application linéaire ~h 7→

2f ~h, qui est bien continue car 2f ~h ≤ 2 kf k∞ ~h .
∞ ∞

Exercice 4.— Vérifier cette dernière inégalité, qui dit simplement que le “sup” du produit de
deux fonctions positives est plus petit que le produit des “sup”.

Voici un deuxième exemple en dimension infinie. On se place dans le sous-

espace vectoriel E1 de E formé des fonctions de classe C 1 . On munit E1 de la
1
norme kf k := kf k∞ + kf 0 k∞ . Soit f ∈ E1 ; la longueur du graphe de f est donnée Le terme 1 + f 0 (t)2 2
par la formule Z 1
est la norme du vecteur
1 vitesse de la courbe
Long(f ) = 1 + f 0 (t)2 2 dt. t 7→ (t, f (t)), qui décrit le
0 graphe de f ; cette
En calculant la longueur du graphe de f + h, on montre que la “fonctionnelle” formule est un cas
Long : E1 → R+ est différentiable en tout point f , et sa différentielle est l’appli- particulier de la longueur
d’une courbe γ, qui est
cation linéaire continue égale à kγ 0 (t)k dt.
R
Z 1
− 1
DLong(f ).h = 1 + f 0 (t)2 2 f 0 (t)h0 (t)dt.
0

Exercice 5.— Montrer que la fonctionnelle Long n’est pas continue en 0 lorsque E1 est muni
de la norme k.k∞ . Aide : trouver une fonction h uniformément proche de la fonction nulle, mais
qui oscille beaucoup, de façon à ce que son graphe ait une longueur très supérieure à celle du
graphe de la fonction nulle (h est uniformément petite mais sa dérivée ne l’est pas). Mieux :
montrer que cette application est discontinue en tout élément de E1 . A fortiori, cette application
n’est pas différentiable.

(b) Dérivées partielles

On se place ici dans le cas où E = Rm et F = Rn ; on notera (e1 , . . . , em ) la
base canonique de E. On considère une application

Ω −→ Rn
f:
x 7−→ (f1 (x), . . . fn (x)).

6
Soit a = (x1 , . . . , xm ) un point de Ω. On dira que la fonction f admet, au point
a, une dérivée partielle par rapport à la i-ème variable si la fonction

t 7→ f (x1 , . . . , xi−1 , xi + t, xi+1 , . . . , xm ) Noter que cette fonction

de t est définie sur un
est dérivable en t = 0. La dérivée est alors notée voisinage de 0.

∂f f (a + tei ) − f (a)
(a) := lim .
∂xi t→0 t
On voit facilement que f admet une dérivée partielle par rapport à la i-ème
variable si et seulement si chacune des fonctions fi admet une dérivée partielle
par rapport à la i-ème variable, et dans ce cas on a

∂f ∂f1 ∂fn
(a) = (a), . . . , (a)
∂xi ∂xi ∂xi
Proposition. Si f est différentiable au point a, elle admet en ce point des dérivées
partielles par rapport à toutes les variables, et les dérivées partielles sont données
par
∂f
(a) = Df (a).ei .
∂xi
La matrice de Df (a) dans les bases canoniques est alors la matrices des dérivées
partielles, Si f va de Rm dans Rn ,
alors Df (a) aussi, ce qui
 ∂f1 ∂f1

∂x1
(a) · · · ∂x (a)
m permet de se souvenir que
Jf (a) =  ... .. ..  .

. .  les colonnes
∂fn ∂fn correspondent aux
∂x1
(a) ··· ∂xm
(a)
coordonnées x1 , . . . , xm
La matrice Jf (a) est appelée matrice jacobienne de f au point a. (cette matrice doit
pouvoir être multipliée
par un vecteur h de Rm ).
Recette de preuve.— Pour la première partie, écrire le développement limité de f donné
par la différentielle, appliquer-le au vecteur tei , en déduire la limite voulue. Pour la seconde,
P
décomposer un vecteur h quelconque dans la base canonique en écrivant h = hi ei .

La définition de dérivée partielle se généralise au cadre où E est un espace

vectoriel normé quelconque, de la façon suivante. Soit a un point de Ω et ~h un
vecteur non nul de E. On considère l’application t 7→ a + t~h est le
paramétrage de la droite
ϕ : t 7→ f (a + t~h) de E passant par le point
a au temps t = 0, et
parcourue à vitesse
On dit que f admet, au point a, une dérivée selon le vecteur ~h si ϕ est dérivable en 0, constante ~h.
autrement dit si la limite
∂f f (a + t~h) − f (a)
(a) := lim
∂~h t→0 t
existe. On montre comme avant que si f est différentiable en a alors elle y admet
une dérivée selon tout vecteur non nul ~h de E, qui est donnée par la relation
∂f
(a) = Df (a).~h.
∂~h

7
Exercice 6.— Calculer les dérivées partielles et la matrice jacobienne de la fonction f (x, y) =
xe3y , introduite dans l’exemple III ci-dessus, au point a = (2, 1). Vérifier qu’on retrouve la
différentielle de f en ce point.

Exercice 7.— Avec les notations du paragraphe précédent, vérifier que la dérivée selon le
ième vecteur de la base canonique est égal à la ième dérivée partielle :
∂f ∂f
(a) = (a).
∂ei ∂xi

(c) Règles de calcul

Dans cette section, E, F, G désignent des espaces vectoriels normés.

Différentielle à valeurs dans un espace produit Soit Ω un ouvert de E. Une

application f = (f1 , . . . , fn ) : Ω → Rn est différentiable au point a si et seulement
si chaque fonction fj est différentiable au point a, et dans ce cas on a simplement
Df (a).~h = (Df1 (a).~h, . . . , Dfn (a).~h). Ceci suit rapidement de la définition.
Plus généralement, soient F1 , F2 deux espace vectoriels normés, on peut
considérer l’espace vectoriel produit F = F1 × F2 et le munir par exemple de
la norme k(v1 , v2 )k∞ := Max(kv1 k , kv2 k). Alors une application f = (f1 , f2 ) :
Ω → F1 × F2 est différentiable au point a si et seulement si f1 et f2 sont chacune
différentiables en a, et dans ce cas on a Df (a).~h = (Df1 (a).~h, Df2 (a).~h).

Différentielle d’une somme, d’un produit, de l’inverse On considère deux

applications f1 , f2 : Ω → F définies sur un ouvert Ω de E, et un point a de Ω.
Proposition. On suppose que f1 et f2 sont toutes les deux sont différentiables
au point a. Alors :
– L’application f1 + f2 est différentiable au point a, et on a D(f1 + f2 )(a) =
Df1 (a) + Df2 (a).
– On suppose que F = R. Alors l’application f1 f2 est différentiable au point
a, et on a D(f1 f2 )(a) = f1 (a)Df2 (a) + f2 (a)Df1 (a).

Recette de preuve.— À partir de développements limités à l’ordre 1 de f1 et f2 , on essaie

d’en obtenir un pour f1 + f2 . Faire la somme des deux développements limités donne une
écriture pour (f1 + f2 )(a + ~h), et il s’agit simplement de vérifier que la somme des deux restes
o1 (~h) + o2 (~h) est encore négligeable devant h, ce qui est immédiat.
La démarche est analogue pour le produit : faire le produit des deux développements limités
pour obtenir une écriture de f1 (a + ~h)f2 (a + ~h). Cette fois-ci le reste o(h) est plus compliqué,
montrer néanmoins à nouveau, en majorant o(~h) , qu’il est négligeable devant ~h. On utilisera
la continuité des différentielles Df1 (a) et Df2 (a).

On déduit de ces deux règles que toute fonction polynomiale P : Rm → R est

différentiable : en effet une telle fonction est obtenue en effectuant des produits
et des sommes à partir des fonctions coordonnées pi : (x1 , . . . , xm ) 7→ xi , qui sont
linéaires et donc différentiables en tout point.

8
Différentielle d’une composée On considère deux applications f : Ω → F ,
g : Ω0 → G, où Ω est un ouvert de E et Ω0 un ouvert de F .

Proposition. Soit a un point de Ω tel que le point b = f (a) est dans Ω0 . Si f est
différentiable en a et g différentiable en b alors g ◦ f est différentiable en a et la
différentielle de g ◦ f au point a est la composée de la différentielle de f au point
a et de la différentielle de g au point f (a) :

D(g ◦ f )(a) = Dg(b) ◦ Df (a).

Recette de preuve.— Remarquons d’abord que la fonction g◦f est définie sur Ω∩f −1 (Ω0 ) ; par Pour qu’on puisse évaluer
continuité de f au point a, cet ensemble contient une boule ouverte centrée en a. En particulier g(f (x)), il faut
g ◦ f est définie sur un ouvert de E contenant a, comme demandé dans la définition de la notamment que f (x)
différentiabilité au point a. appartienne à l’ensemble
Écrire d’abord une “preuve approchée” en “faisant comme si”, dans les développements de définition de g.
limités de f et g, les restes étaient nuls : ceci permet en particulier de retrouver rapidement la
formule. Pour un argument précis, on écrit les développements limités à l’ordre 1 de f en a et
de g en b = f (a),
f (a + ~h) = f (a) + Df (a).~h + o1 (~h)
g(b + ~k) = g(b) + Dg(b).~k + o2 (~k).
On pose K(~h) = Df (a).~h + o1 (~h), on remarque que K(~h) tend vers 0 lorsque ~h tend vers 0
(c’est exactement la continuité de f en a). Reporter alors le premier développement limité
dans le second, plus précisément appliquer la deuxième égalité avec ~k = K(~h). Ceci donne un
développement limité de g ◦ f en a, à condition de savoir montrer que le reste

o3 (~h) = Dg(b).o1 (~h) + o2 (K(~h))

est négligeable devant ~h ; ceci va suivre du fait que les restes o1 (~h), o2 (~k) sont négligeables
respectivement devant ~h et ~k, et que le quotient K(~h) / ~h est borné. Au passage, on utilise
la majoration caractéristique des applications linéaires continues,

kL.~v k ≤ kLk k~v k

où kLk désigne la norme dans l’espace vectoriel L(E, F ) ou L(F, G).

Exercice 8.— Généraliser en écrivant la formule donnant la différentielle en un point a de la

composée des 3 applications f3 ◦ f2 ◦ f1 . Aide : on appliquera deux fois de suite la formule de
composition en écrivant par exemple f3 ◦ f2 ◦ f1 = (f3 ◦ f2 ) ◦ f1 . Généraliser à la composée de
n applications.

Ce type de différentielles
Exercice 9.— Que vaut la différentielle de Tb ◦f lorsque Tb est la translation de F de vecteur b ? composées intervient dans
de f ◦ Ta lorsque Ta est la translation de E de vecteur a ? de L ◦ f , lorsque L est une application les démonstrations,
linéaire ? De f ◦ L ? lorsqu’on veut se ramener
au cas où a = 0 et
Df (a) = Id, par exemple
dans l’énoncé sur la
différentiabilité de f −1 .

9
Différentielle de la réciproque

Proposition. Soit f : ΩE → ΩF un homéomorphisme entre un ouvert ΩE de E

et un ouvert ΩF de F , et a un point de ΩE . Si f est différentiable en a et si Df (a)
est inversible dans L(E, F ), alors l’application réciproque f −1 est différentiable en
b := f (a) et la différentielle au point f (a) de l’application f −1 est la réciproque
de la différentielle de f au point a : Cet énoncé nous servira
au chapitre IV dans la
D(f −1 )(b) = (Df (a))−1 . preuve du théorème
d’inversion locale.

Recette de preuve.— On traite d’abord le cas où E = F , a = f (a) = 0 et Df (a) = Id.

Dans ce cas, il s’agit de montrer que f −1 est différentiable en 0 et que sa différentielle en 0 est
l’identité. Pour ceci, on écrit, pour tout ~h assez petit,

f (~h) = ~h + o1 (~h).

Soit ~k assez petit. En appliquant cette égalité à ~h = f −1 (~k), on obtient

f −1 (~k) = ~k − o1 (f −1 (~k))

et il s’agit de montrer que le reste o2 (~k) := −o1 (f −1 (~k)) est négligeable devant ~k, sachant que
le reste o1 (~h) est négligeable devant ~h. En utilisant l’hypothèse Df (a) = Id, montrer que, au
voisinage de 0, la norme de f (~h) est comparable à celle de ~h : Pour tout ~h assez petit,

1 ~ 3 ~
h < f (~h) < h .
2 2

En remplaçant ~h par f −1 (~k), en déduire un encadrement similaire pour f −1 (~k) et ~k : la norme de

f −1 (~k) est comparable à celle de ~k. Lorsque ~h tend vers 0, o1 (~h)/~h tend vers zéro, en déduire
que o2 (~k)/~k tend aussi vers zéro, ce qu’on voulait.
Où a-t-on utilisé que f est un homéomorphisme ?
On déduit le cas général de ce cas particulier : on translate à la source et au but pour se
ramener à a = f (a) = 0, puis on compose par Df (a)−1 pour se ramener à une différentielle
égale à l’identité. Ceci revient à considérer

g = Df (a)−1 ◦ T−f (a) ◦ f ◦ Ta

qui est un homéomorphisme comme composé d’homéomorphismes. En déduire f −1 en fonction

de g −1 , puis le fait que f soit différentiable en a par composition (on pourra utiliser les exercices 8
et 9).

I.2 Commentaires
(a) La différentielle
On présente généralement la dérivée d’une fonction f en un point a comme un
nombre qui mesure le taux de variation de f (x) lorsque x passe au point a. Le but
de cette section 1 est de mettre en avant une présentation un peu différente, plus
générale. C’est l’idée de la différentiation vue comme une approximation linéaire 2 ,
idée qui est au centre d’une grande partie des mathématiques actuelles.
1. Ce qui suit est adapté du merveilleux livre The Princeton Companion to Mathematics.
2. En toute rigueur il faudrait plutôt écrire ici approximation affine.

10
Intuitivement, dire que f 0 (a) = m revient à dire que si on regarde à travers
un puissant microscope le graphe de f dans une petite région autour du point
(a, f (a)), ce que l’on voit est presque exactement une ligne droite de pente m. En
d’autres termes, au voisinage de a, la fonction f est approximativement linéaire.
On peut même écrire une formule pour la fonction linéaire g qui approxime f :

g(x) = f (a) + m(x − a).

Son graphe est la droite de pente m passant par le point (a, f (a)). Une façon, un
peu plus claire, consiste à écrire

g(a + h) = f (a) + mh.

Dire que g approxime f au voisinage de a revient à dire que f (a + h) est approxi-

mativement égal à f (a) + mh lorsque h est petit.

×2 ×4 ×8

Figure 1 – Zooms successifs sur la fonction x 7→ x2

Ici, il faut faire un peu attention : après tout, si f est continue au point a alors
quand h est petit, f (a + h) sera proche de f (a) et mh sera très petit, de sorte
que f (a + h) sera proche de f (a) + mh. Cette façon de voir semble marcher pour
n’importe quelle valeur de m, et pourtant ce que nous nous voulons dire est très
spécifique à la valeur m = f 0 (a). Ce qui n’arrive qu’avec cette valeur de m, c’est
que f (a + h) est non seulement proche de f (a) + mh, mais tellement proche que
la différence o(h) = f (a + h) − f (a) − mh est petite comparée à h. Autrement dit,

o(h)
tend vers 0 lorsque h tend vers 0.
h
Cette façon de voir peut se généraliser. Les fonctions qui apparaissent en
mathématiques, et aussi dans les autres sciences, en ingénierie, en économie, etc.,
sont souvent des fonctions de plusieurs variables, et peuvent donc être vues comme
des fonctions définies sur un espace vectoriel de dimension strictement plus grande
que 1. On peut alors se demander si, dans un petit voisinage d’un point, on peut
les approcher par des applications linéaires. Lorsque c’est possible, cette approxi-
mation est extrêmement utile : une fonction générale peut a priori avoir un com-
portement très compliqué, mais si on peut l’approcher par une fonction linéaire,
alors son comportement sera beaucoup plus facile à comprendre, au moins dans
de petites régions de l’espace de dimension n. Dans ce cas on peut utiliser toute

11
la machinerie de l’algèbre linéaire et des matrices, qui permet de faire des calculs,
surtout si on dispose de l’aide d’un ordinateur.
Imaginez, par exemple, un météorologue s’intéressant à la façon dont la vitesse
et la direction du vent varient d’un endroit à l’autre dans une certaine région de
l’espace au-dessus de la surface de la Terre. À chaque point (x, y, z) de cette région
(x et y représentent par exemple la latitude et la longitude et z l’altitude) on peut
associer un vecteur (u, v, w) représentant la vitesse du vent en ce point : u, v, w
sont les composantes du vecteur vitesse dans les directions x, y, z.
Déplaçons maintenant très légèrement le point (x, y, z) en choisissant trois
petits nombres h, k, l et en considérant le point (x + h, y + k, z + l). En ce
nouveau point, nous nous attendons à ce que la vitesse du vent soit différente
mais assez proche de celle au point (x, y, z) ; nous l’écrivons donc (u + p, v + q, w +
r). Comment la petite variation (p, q, r) du vecteur-vent dépend-elle de la petite
variation (h, k, l) de la position du point ? En supposant que le vent n’est pas trop
turbulent et que h,k, l sont suffisamment petits, nous nous attendons à ce que cette
dépendance soit approximativement linéaire : c’est la façon dont la nature semble
fonctionner. Autrement dit, nous nous attendons à ce qu’il existe une application
linéaire T telle que (p, q, r) vale approximativement T (h, k, l) lorsque h, k, l sont
assez petits. Chacun des nombres p, q, r dépend de chacun des nombres h, k, l, et
il nous faut donc 9 nombres pour exprimer cette dépendance linéaire. Sous forme
matricielle, elle s’écrit
     
p a11 a12 a13 h
q  = a21 a22 a23  . k  .
r a31 a32 a33 l

Chaque entrée aij de la matrice exprime comment l’un des trois nombres p, q,
r dépend de l’un des trois nombres h, k, l. Par exemple, si l’on fixe x et z, ce
qui revient à poser h = l = 0, on obtient p = a12 k : le coefficient a12 représente
donc le taux de variation de u lorsque y change. Techniquement, a12 est la dérivée
partielle ∂u/∂y au point (x, y, z).
Ceci nous dit comment calculer la matrice de T (appelée matrice jacobienne),
mais d’un point de vue conceptuel il vaut mieux éviter les coordonnées et raisonner
de façon purement vectorielle. En notant x pour (x, y, z), u(x) pour (u, v, w) et
h pour (h, k, l), tout ceci peut se résumer en écrivant la relation

u(x + h) = u(x) + T (h) + o(h),

où o(h) est petit comparé à h. Ceci nous dit que si nous ajoutons un petit vecteur
h à x, la variation de u(x) sera approximativement T (h). Cette formule est bien
sûr très similaire à la formule du début, f (a + h) = f (a) + mh + o(h).
Plus généralement, soit u une application de Rn dans Rm . On dit que cette
application est différentiable s’il existe une application linéaire T : Rn → Rm telle
que, à nouveau, la formule u(x + h) = u(x) + T (h) + o(h) soit vérifiée avec o(h)
petit devant h. L’application linéaire T est appelée différentielle de u au point x.
Le cas m = 1 est un cas particulier important. Si f : Rn → R est différentiable
au point x, alors la différentielle de f est une application linéaire T de Rn dans
R. La matrice de T est un vecteur ligne de taille n, qui est souvent noté ∇f (x) et
appelé gradient de f au point x. Ce vecteur pointe dans la direction dans laquelle

12
f augmente le plus vite, et sa longueur est égale au taux de variation dans cette
direction.

(b) Vecteur vitesse d’une courbe

Une courbe dans un espace vectoriel normé E est une application γ : I → E,
définie sur un intervalle I de R ; il est utile de se représenter mentalement cette
courbe comme le parcours d’un mobile dans E pendant l’intervalle de temps I, le
point γ(t) représentant la position du mobile au temps t ; on suppose généralement
que γ est continue. On dit que γ est dérivable en un temps t0 si la limite
γ(t0 + h) − γ(t0 )
γ 0 (t0 ) := lim
h→0 h
existe. La dérivée γ 0 (t0 ) est alors un vecteur de E qu’on appelle aussi vecteur vitesse
de la courbe γ au temps t0 . Cette définition généralise le cas où E = R. On montre
(comme dans le cas où E = R) que lorsque γ est dérivable au temps t0 , elle y est
aussi différentiable, et sa différentielle est l’application h 7→ γ 0 (t0 ).h, qui est bien
linéaire de R dans E.
Considérons maintenant une application f : Ω → F , où Ω est un ouvert de E
contenant l’image γ(I) de notre courbe. Supposons que la courbe γ est dérivable
au temps t0 , et que f est différentiable au point a := γ(t0 ). Une application directe
du théorème de composition nous dit que l’application f ◦ γ, qui est une courbe
dans F , est aussi dérivable au temps t0 . De plus, son vecteur vitesse est l’image,
par la différentielle au point a, du vecteur vitesse de la courbe γ :
(f ◦ γ)0 (t0 ) = Df (γ(t0 )).γ 0 (t0 ).

Df (a).~v
f

•f (a)
• ~v = γ 0 (t0 )
a = γ(t0 )

f (γ)
γ
courbe dans E courbe image dans F

Ceci nous donne une interprétation géométrique : la différentielle au point a

indique la façon dont l’application f transforme les vecteurs vitesse des courbes
passant par le point a.
Exercice 10.— 1. Vérifier qu’une courbe γ : I → E qui est dérivable en t0 est aussi
différentiable en t0 , et que sa différentielle est bien Dγ(t0 ) : h 7→ γ 0 (t0 ).h. 2. En déduire, à
l’aide du théorème de composition, la formule (f ◦ γ)0 (t0 ) = Df (γ(t0 )).γ 0 (t0 ). 3. Que donne la
formule dans le cas particulier où γ est le paramétrage d’une droite, γ(t) = a + t~h ? Nous avons
déjà rencontré cette formule dans le cours, pouvez-vous dire où ? Nous l’utiliserons très souvent,
retenez-là !

13
(c) Dérivées partielles
Pour une fonction f de R dans R, le nombre dérivée f 0 (x) s’interprète de la
façon suivante : pour un petit accroissement h de la variable x, l’accroissement
f (x + h) − f (x) de la fonction est à peu près f 0 (x).h, autrement dit il est propor-
tionnel à h (en première approximation) et f 0 (x) est le facteur de proportionnalité.
Pour une fonction f de Rm dans R, les dérivées partielles peuvent s’interpréter
de façon analogue : lorsqu’on fait subir à l’une des variables xi un petit accrois-
sement hi , les autres variables restant inchangées, la fonction f subit un petit
accroissement

f (x1 , ..., xi−1 , xi + hi , xi+1 , ..., xm ) − f (x1 , ..., xi−1 , xi , xi+1 , ..., xm )

qui est à peu près égal à

∂f
(x).
hi
∂xi
La formule donnant la différentielle en coordonnées,
m
X ∂f
f (x + h) − f (x) ' Df (x).h = hi (x)
i=1
∂xi

s’interprète alors en disant que lorsqu’on modifie toutes les variables à la fois, cha-
cune d’une petite quantité, l’accroissement de f est la somme des accroissements
dûs à chacune des variables prise individuellement.

(d) La fonctionnelle de longueur

La fonctionnelle de longueur, donnée en exemple plus haut, est très uti-
lisée, dans différents contextes. Sur une surface lisse, ses points critiques sont
les “géodésiques”, c’est-à-dire les plus
R courts chemins. En optique, le temps de
0
parcourt d’un rayon lumineux est n(γ(t)) kγ (t)k dt, où n(P ) est l’indice de
réfraction au point P ; c’est une variante de la fonctionnelle de longueur, et le
principe de Fermat dit que le chemin suivi par la lumière est un point critique de
la fonctionnelle “temps de parcours”.

I.3 Exercices

Exercice 11.—
1. Montrer que l’application “produit” (x, y) 7→ xy, définie de R2 dans R, est différentiable sur
R2 , et donner sa différentielle en un point (x, y).
2. Plus généralement, montrer que l’application “produit scalaire” (x, y) 7→ hx, yi, définie de
RN × RN dans R, est différentiable sur RN × RN et donner sa différentielle.
3. Encore plus généralement, on considère trois espaces vectoriels normés de dimensions finies
E1 , E2 , F , et une application bilinéaire B : E1 × E2 → F . On rappelle que, grâce l’hypothèse
de dimension finie, B est automatiquement continue : il existe une constante C telle que, pour
tout x ∈ E1 et y ∈ E2 , B(x, y) ≤ C kxk kyk. Montrer que B est différentiable sur E = E1 × E2 ,
et que sa différentielle au point a = (a1 , a2 ) est l’application linéaire

(h1 , h2 ) 7→ B(h1 , a2 ) + B(a1 , h2 ).

14
On pourra utiliser sur E la norme k(h, k)k = max{khk , kkk}.

Exercice 12.—
1. Soient f1 , f2 : E → R différentiables au point a. a. Exprimer l’application produit x 7→
f1 (x)f2 (x) comme une composée de deux applications différentiables. b. Retrouver ainsi la
formule de la différentielle d’un produit. (On pourra utiliser l’exercice 11).
2. Plus généralement, soient f1 : E → F1 et f2 : E → F2 différentiables au point a, et B :
F1 × F2 → F une application bilinéaire. On considère l’application f : x 7→ B(f1 (x), f2 (x)),
dont on veut montrer qu’elle est différentiable en a et calculer sa différentielle. a. Expliquer
pourquoi la question précédente était un cas particulier cette question. b. Résoudre cette
deuxième question en s’inspirant de la première.
3. Application : donner la différentielle au point a de f : x 7→ hf1 (x), f2 (x)i lorsque f1 , f2 sont
deux applications de E dans Rn différentiable en a.

R1
Exercice 13.— Calculer la différentielle de l’application f 7→ 0
(f (t))2 dt, définie de C([0, 1], R)
dans R, en un point α quelconque.

15
II Extrema : conditions d’ordre 1
Dans cette partie, on considère une fonction f : Ω → R, où Ω est un ouvert d’un
espace vectoriel normé E. Le calcul différentiel fournit des outils pour déterminer
les extrema (maxima ou minima) de la fonction f sur Ω, ou, lorsque E = Rm , sur
une partie S de Ω donnée par un système d’équations.

II.1 Théorie
(a) Extrema libres
Soit X un espace métrique, f : X → R une fonction, et x0 un élément de X.
On dit que
– f admet un maximum en x0 si pour tout x de X, f (x) ≤ f (x0 ),
– f admet un minimum en x0 si pour tout x de X, f (x) ≥ f (x0 ),
– f admet un maximum local en x0 s’il existe ε > 0 tel que pour tout élément x de
la boule B(x0 , ε), f (x) ≤ f (x0 ),
– f admet un minimum local en x0 s’il existe ε > 0 tel que pour tout élément x de
la boule B(x0 , ε), f (x) ≥ f (x0 ).

Exercice 14.— Dessiner l’allure du graphe d’une fonction de R dans R qui admet exacte-
ment deux minimum locaux dont l’un est un minimum, et un maximum local qui n’est pas un
maximum.

Principe de Fermat en dimension 1 Soit f une fonction dérivable de R dans

R. Supposons que f admette un maximum ou un minimum local en un point a.
Le principe de Fermat dit que dans sous cette hypothèse, f 0 (a) = 0.
Démontrons ceci en détail. On a le développement limité Ce raisonnement, bien
que n’impliquant qu’une
f (a + t) = f (a) + tf 0 (a) + o(t) fonction de R dans R,
sera le point clé dans les
avec o(t) négligeable devant t. Mettons-le sous la forme (pour tout t 6= 0 et assez preuves des théorèmes
d’extrema en dimension
petit) supérieure.
0 o(t)
f (a + t) = f (a) + t f (a) + .
t
Puisque o(t) est négligeable devant t, lorsque t tend vers 0, le terme entre pa-
renthèses tend vers f 0 (a). Supposons que f 0 (a) > 0. Alors pour tout t 6= 0 assez
petit le terme entre parenthèses est strictement positif, et par conséquent on a

f (a + t) > f (a) pour tout t > 0 assez petit,

f (a + t) < f (a) pour tout t < 0 assez petit.

Ceci montre que, si f 0 (a) > 0, f n’admet ni minimum local ni maximum local
au point a. Un raisonnement symétrique conduit à la même conclusion lorsque
f 0 (a) < 0. Par contraposée, on a la propriété voulue.

Le théorème suivant généralise le principe de Fermat en dimension supérieure.

16
Théorème. (condition d’ordre 1 sur les extrema) Soit f : Ω → R une fonction
définie sur un ouvert d’un espace vectoriel normé E, et a un point de Ω en lequel
f est différentiable. Si f admet un maximum local ou un minimum local en a,
alors la différentielle en ce point est nulle :
Df (a) = 0L(E,R) .
Un point en lequel la différentielle est l’application nulle, comme dans la conclu-
sion du théorème, est appelé point critique.

Recette de preuve.— On considère f comme dans l’énoncé, présentant un maximum ou un La conclusion du

minimum local en un point a, on veut montrer que Df (a) = 0. Fixons un vecteur non nul ~h, il théorème équivaut à :
s’agit de montrer que Df (a).~h = 0.
∀~h, Df (a).~h = 0.
Donnons deux preuves. La première consiste à se ramener au cas de la dimension 1 traité
avant l’énoncé, en regardant la restriction de f aux droites passant par a. On considère l’applica- Lorsque f est à valeurs
tion t 7→ f (a + t~h). Expliquer précisément pourquoi cette application est définie sur un ouvert réelles, remarquons que
de R contenant 0, et admet un maximum ou minimum local en 0. En déduire que Df (a).~h = 0 Df (a).~h est un nombre
(au besoin, relire la section sur les dérivées partielles). (le supposer strictement
La deuxième preuve consiste à généraliser la preuve de dimension 1. Supposons, par exemple positif, comme on le fait
que Df (a).~h > 0. Ecrire le développement limité à l’ordre 1 donné par la différentielle en a, plus bas, a donc bien un
l’appliquer au vecteur ~k = t~h et faire tendre t vers 0 (~h étant fixé). En utilisant la définition de sens !).
“négligeable devant ~k” (et notamment la définition de la limite), montrer que f (a + t~h) > f (a)
pour tout réel t > 0 assez petit, et que f (a + t~h) < f (a) pour tout réel t < 0 assez petit.
Conclure.

(b) Vecteur gradient dans Rm

Soit f : Ω → R une fonction définie et différentiable sur un ouvert Ω de
E = Rm , et a un point de Ω. La différentielle Df (a) est alors une application
linéaire de Rm dans R,
∂f ∂f
Df (a) : (h1 , . . . hm ) 7−→ h1 (a) + · · · + hm (a),
∂x1 ∂xm
et la matrice jacobienne est la matrice ligne

∂f ∂f
Jf (a) = ∂x 1
(a), . . . , ∂xm
(a) .

La transposée de cette matrice est appelé vecteur gradient de f au point a, vecteur

que l’on note  ∂f 
∂x1
(a)
∇a f =  ...  .
 
∂f
∂xm
(a)
Pour tout vecteur ~h, on a alors
m
X ∂f
Df (a).~h = hi (a) = h∇a f, ~hi On dit que le vecteur
i=1
∂xi ∇a f est dual de la forme
linéaire Df (a)
où h~v , wi ~ dans Rm .
~ désigne le produit scalaire canonique des deux vecteurs ~v , w relativement au produit
On voit notamment que Df (a).~h est nul si et seulement si ~h est orthogonal au scalaire.
vecteur ∇a f .

17
Interprétation géométrique du gradient Parmi les vecteurs ~h de norme
ε > 0 fixé, le vecteur qui réalise le maximum de Df (a).~h est celui qui est colinéaire
au vecteur gradient et de même sens : de façon condensée,

sup Df (a).~h = Df (a).~h0 où ~h0 = ε ∇a f

k~hk=ε k∇a f k

(voir l’exercice qui suit). Souvenons-nous que Df (a).~h représente l’accroissement

à l’ordre 1 de la fonction f lorqu’on se déplace du point a au point a + ~h :

f (a + ~h) − f (a) = Df (a).~h + o(~h).

Autrement dit, le vecteur ∇a f indique la direction dans laquelle la fonction f croı̂t

le plus vite, lorsqu’on se déplace un tout petit peu en partant du point a.

Exercice 15.— Soit ∇ un vecteur non nul de RN , ε > 0 fixé, et ~h un vecteur de norme ε. 1.
Rappeler la majoration de h∇, ~hi donnée par l’inégalité de Cauchy-Schwarz. 2. En utilisant
le cas d’égalité, trouver le vecteur ~h qui maximise h∇, ~hi parmi tous les vecteurs de norme ε.
Trouver de même celui qui minimise cette quantité. 3. Faire un dessin représentant les deux
vecteurs (maximisant et minimisant), les vecteurs ~h tels que h∇, ~hi = 0 , et indiquer les vecteurs
~h pour lesquels cette quantité est strictement positive.

(c) Optimisation sous contrainte : extrema liés dans Rm

On se donne un ouvert Ω de E = Rm . On considère p fonctions ϕ1 , ..., ϕp de
Ω dans R. Soit
S = {x ∈ Ω | ϕ1 (x) = · · · = ϕp (x) = 0}.
On considère une fonction f : Ω → R, et on s’intéresse aux extrema de la restric-
tion f|S , autrement dit on cherche à maximiser ou à minimiser la quantité f (x),
en respectant la contrainte imposée par les équations définissant S. Le théorème Cette situation est très
des extrema liés donne une condition nécessaire vérifiée par tout maximum local courante dans les
applications : voir les
ou minimum local de f sur S. Ce théorème est une motivation importante pour
exemples plus bas.
la suite du cours : sa démonstration nécessite le théorème des fonctions impli-
cites du chapitre IV, et l’énoncé lui-même deviendra beaucoup plus clair avec les
notions de sous-variété et de sous-espace vectoriel tangent qui seront définies au
chapitre V.

On dit qu’un point a de S est régulier si les gradients ∇a ϕ1 , . . . , ∇a ϕp des

fonctions en ce point sont des vecteurs linéairement indépendants de Rm .

Théorème. Soit f : Ω → R une fonction définie sur un ouvert de Rm , et a un

point de Ω ∩ S en lequel f est différentiable. Si a est un point régulier de S et
si f|S admet un maximum ou un minimum local en a, alors il existe des nombres
λ1 , . . . , λp tels que

∇a f = λ1 ∇a ϕ1 + · · · + λp ∇a ϕp (?).

18
La conclusion du théorème peut encore s’exprimer en disant que le vecteur
gradient de f au point a appartient au sous-espace vectoriel engendré par les
vecteurs gradients des fonctions ϕi au point a. Les nombres λ1 , . . . , λp sont ap-
pelés multiplicateurs de Lagrange. Remarquons que l’égalité (?) apparaissant dans le
théorème est équivalente à l’égalité analogue entre les différentielles,

Df (a) = λ1 Dϕ1 (a) + · · · + λp Dϕp (a) (??).

Ceci suit immédiatement du fait que la matrice de la différentielle Dg(a) d’une

fonction g est la transposée de la matrice de ∇a g . Lorsque E est un espace
vectoriel normé quelconque (éventuellement de dimension infini), on ne peut pas
définir un vecteur gradient, mais le théorème se généralise en remplaçant l’égalité
(?) par cette relation (??).

Cas linéaire
Recette de preuve.— Démontrons le théorème sans le cas particulier où toutes les applications
ϕi sont linéaires. Dans ce cas, S est un sous-espace vectoriel de Rm . Notons E0 l’ensemble de
toutes les combinaisons linéaires des vecteurs ∇ϕ1 , . . . , ∇ϕp , qu’on appelle espace vectoriel engendré
par ces vecteurs et qu’on note Vect(∇ϕ1 , . . . , ∇ϕp ). Soit a un point de S. On suppose que f|S
admet un extremum au point a. Notre but est de montrer que ∇a f appartient à E0 .
Soit ~h un vecteur de S. Montrer que ∇a f est orthogonal à ~h. On pourra raisonner comme C’est ici qu’on utilise la
dans la preuve du théorème sur les extrema libres, en remarquant que a + t~h est inclus dans S linéarité des applications
pour tout t. ϕi .
On appelle orthogonal du sous-espace vectoriel S, et on note S ⊥ , l’ensemble des vecteurs qui
sont orthogonaux à tout vecteur de S. On vient donc de montrer que ∇a f appartient à S ⊥ .
La fin de la preuve, qui n’est plus du calcul différentiel mais uniquement de l’algèbre linéaire,
consiste à montrer que S ⊥ = E0 .
Interpréter les équations définissant S en termes d’orthogonalité. En déduire que que
S = E0⊥ . On a donc S ⊥ = (E0⊥ )⊥ ( !) Il reste à utiliser la proposition générale suivante :

Proposition. Tout sous-espace vectoriel V de Rm est égal à l’orthogonal de son orthogonal :

V = (V ⊥ )⊥ .

Pour montrer cette proposition, on utilise une base orthonormée (e1 , ..., eq ) de V , que l’on
complète en une base orthonormée (e1 , ..., em ) de Rm . Décrire alors V ⊥ à l’aide de cette base.
Décrire enfin (V ⊥ )⊥ . Conclure en résumant toute la preuve.

Retenons en particulier l’interprétation géométrique : lorsque S est un sous-

espace vectoriel, si le point a est un extremum local de la fonction f|S , le vecteur
∇a f est orthogonal à S. Plus loin, nous interpréterons l’égalité du théorème des
extrema liés en disant que le vecteur ∇a f est orthogonal au sous-espace vectoriel
tangent à S au point a.

Exemple 1 : boite de surface minimale La volume d’une boite rectangulaire

de côtés x, y, z est f (x, y, z) = xyz, la surface extérieure est g(x, y, z) = 2yz+2xz+
2xy. On veut fabriquer une boite de volume 1 avec le moins de matériau possible,
autrement dit on cherche à minimiser g(x, y, z) avec la contrainte f (x, y, z) = 1.

19
Exercice 16.—
1. Utiliser l’équation f (x, y, z) = 1 pour exprimer z en fonction de x et y. En déduire une
fonction ϕ des deux variables x et y dont on cherche le minimum. Trouver les points critiques
de ϕ. Conclure à l’aide de la condition d’ordre 1 sur les extrema libres.
2. On peut aussi utiliser le théorème des extrema liés. Exprimer les gradients de f et de g,
écrire la condition donnée par le théorème. Résoudre le problème en faisant les différences des
équations deux à deux.
3. Variante mercantile : quelle dimension faut-il donner à une boite pour qu’elle ait un volume
de 96cm3 , tout en minimisant le coût de fabrication, sachant que la matériau constituant le
dessous coûte 1 euro le cm2 , 5 euros pour le dessus, et 2 euros pour les côtés ?

Exemple 2 : distance à une courbe Soit f : R2 → R une fonction

différentiable, on considère l’ensemble

C = {(x, y) ∈ R2 | f (x, y) = 0}.

Etant donné un point P = (a, b) du plan, on cherche les points Q de C les plus
proches de P . Autrement dit, on cherche le minimum de la fonction

g(x, y) := d((a, b), (x, y))2 = (x − a)2 + (y − b)2

parmi les Q = (x, y) satisfaisant la contrainte f (x, y) = 0. Si le minimum est

atteint en un point Q régulier de C, alors le vecteur ∇Q f est proportionnel au
vecteur
x−a
∇Q g = 2 .
y−b
Ce deuxième vecteur dirige la droite (P Q). On verra au chapitre V, section (c)
que le vecteur ∇Q f est orthogonal à la tangente à la courbe C au point Q ; par
conséquent cette relation exprime l’orthogonalité entre la courbe et la droite (P Q). Faire un dessin.

Exercice 17.— On choisit ici f (x, y) = x3 + y 3 − 3xy. Comme avant, on note C l’ensemble des
points satisfaisant l’équation f (x, y) = 0. On pose P = (1, 1).
1. Montrer que l’ensemble C est un fermé du plan. En déduire qu’il existe un point Q0 de C
réalisant la distance de C à P , c’est-à-dire tel que :

d(P, Q0 ) = inf{d(P, Q) | Q ∈ C}.

2. Vérifier que le gradient de f ne s’annule qu’aux point (0, 0) et (1, 1).

3. En utilisant la discussion qui précède, déterminer le point Q0 . Aide : traduire la proportionna-
lité des deux vecteurs à l’aide du déterminant, puis factoriser (x − y) dans cette équation. En se
souvenant que le point Q appartient à C, vérifier que le système de deux équations a trois points
solutions. Conclure en déterminant lesquels des points réalisent effectivement le minimum ; on
vérifiera que le minimum n’est pas atteint en un point non régulier de C.

20
Exemple 3 : distance entre deux courbes Considérons maintenant un en-
semble C défini par l’équation f (x, y) = 0 et un ensemble D défini par l’équation
g(x, y) = 0, où f et g sont différentiables. On cherche les points P = (xP , yP ) et
Q = (xQ , yQ ), respectivement sur C et D, réalisant le minimum de la distance
entre un point de C et un point de D. Il s’agit donc de minimiser la fonction

h(xP , yP , xQ , yQ ) = (xP − yP )2 + (xQ − yQ )2

soumise aux contraintes f (xP , yP ) = 0 et g(xQ , yQ ) = 0. nous sommes donc dans

R4 avec deux équations de contraintes. Le théorème des extrema liés nous dit que Noter que nous sommes
si un couple P, Q réalise ce minimum, alors les vecteurs partis d’un problème qui
concernait la dimension
   ∂f  
0
 deux, mais sa résolution
xP − xQ ∂x
(P )
 ∂f nous oblige à un détour
 , ∇(P,Q) f =  ∂y (P ) et ∇(P,Q) g = 2  ∂g 0 
 yP − yQ    
∇(P,Q) h = 2  par la dimension quatre...
 xQ − xP   0   ∂x (Q)
∂g
yQ − yP 0 ∂y
(Q)

sont liés (à condition que le point (P, Q) soit régulier vis à vis des équations de
contrainte, ce qui signifie simplement que les vecteurs gradients ∇(P,Q) f et ∇(P,Q) g
ne sont pas nuls). En analysant la matrice 4 × 3 de ces trois vecteurs, on trouve
les conditions
xP − xQ ∂f ∂g

∂x
(P ) xQ − xP ∂x (Q)
det = 0, det = 0,
yP − yQ ∂f ∂y
(P ) yQ − yP ∂y ∂g
(Q)

ce qui signifie que la droite (P Q) est orthogonale à la courbe C au point P et à Faire un dessin !
la courbe D au point Q.

Exercice 18.— A l’aide de ce qui précède, calculer la distance entre la parabole d’équation
y = x2 et la droite d’équation y − x + 1 = 0.

Exemple 4 : inégalité arithmético-géométrique On se place dans E = Rm ,

et on considère la fonction

g(x1 , . . . xm ) = Πm
i=1 xi

qui associe à tout point le produit de ses coordonnées. On cherche le maximum

de cette fonction sur l’ensemble
m
X
K = {(x1 , . . . , xm ) | xi = c, x1 ≥ 0, . . . , xm ≥ 0}
i=1

où c est une constante donnée. L’ensemble K est compact (vérifier), la fonction
g est continue, ce qui assure qu’il existe un point Q de K en lequel le maximum
est atteint. Puisque la fonction g s’annule lorsque l’une des coordonnées est nulle
et est positive sur K, le maximum est en fait atteint en un point de
m
X
O = {(x1 , . . . , xm ) | xi = c, x1 > 0, . . . , xm > 0};
i=1

21
P
le point Q est alors un maximum local de g sur l’hyperplan d’équation xi = c,
par conséquent le théorème des extrema liés s’applique (vérifier que tous les
points de cet hyperplan
P sont réguliers). En appelant f la fonction définie par
f (x1 , . . . , xm ) = xi , Il existe donc λ tel que

∇Q g = λ∇Q f.

Cette égalité entraı̂ne que toutes les coordonnées de Q sont égales (vérifier),
et comme Q appartient à S on en déduit que Q est le point ( nc , . . . , nc ), et que
g(Q) = ( nc )n . Puisque Q réalise le maximum de la fonction g sur K, on a démontré
que pour tout point (x1 , . . . , xm ) de K,
c n
x1 · · · xm ≤
n
ce qui s’écrit encore
x1 + · · · + xm
1
(x1 · · · xm ) n ≤ .
n
Puisque la constante c était quelconque, cette inégalité est en fait valable pour
tout m-uplet de nombres positifs ; on l’appelle inégalité arithmético-géométrique.

Espaces de fonctions R On se place dans E = C([0, 1], R), et on cherche les

fonctions α maximisant α2 parmi les fonctions d’intégrale 1. On pose
Z 1 Z 1
2
F (α) = (α(t)) dt, Φ(α) = α(t)dt − 1.
0 0

Calculer la différentielle de F en un point α (comme d’habitude, on pourra

exprimer F (α+h)). Remarquer que Φ est affine, en déduire DΦ(α) que l’on notera
L (cette application linéaire ne dépend pas de α). Soit α une solution éventuelle
au problème. On utilise la condition (??) donnée par la version du théorème des
extrema liés en dimension infinie : il existe λ tel que DF (α) = λL, autrement dit
pour tout h, DF (α).h = λL(h), ce qui s’écrit encore
Z 1
(2α(t) − λ)h(t)dt = 0.
0

Cette égalité
R 1 est valable pour tout h, choisir un h pour lequel l’égalité devient
du type 0 (. . . )2 dt = 0. En déduire que α doit être une fonction constante, puis
que c’est la fonction t 7→ 1.
Ce raisonnement montre que si α est un maximum de F (α) sous la contrainte
Φ(α) = 0, alors α est la fonction constante égale à 1. Montrer enfin que la
fonction 1 est bien un maximum, en utilisant l’inégalité de Cauchy-Schwarz pour
les fonctions.

II.2 Commentaires
(a) Gradient et optimisation
Comment programmer un ordinateur pour rechercher les extrema d’une fonc-
tion ? La notion de vecteur gradient est à la base d’algorithmes de recherche du

22
maximum d’une fonction, comme l’algorithme du gradient, cf Wikipedia. Le prin-
cipe est simple : il consiste à partir d’un point au hasard, et à se déplacer d’une
certaine longueur (appelée pas) dans la direction indiquée par le vecteur gradient
en ce point. Si le pas n’est pas trop grand, on se retrouve en un point où la valeur
de la fonction est supérieure (conformément à l’interprétation géométrique du gra-
dient). On se dirige à nouveau dans la direction indiquée par le vecteur gradient
au nouveau point. On recommence le procédé tant que la norme du vecteur gra-
dient est supérieure à un certain seuil. En pratique, la méthode fournit une bonne
approximation d’un maximum local. Pour espérer trouver un maximum absolu,
il faut la relancer un grand nombre de fois en partant à chaque fois d’un point
Source Wikipedia
différent choisi aléatoirement.

(b) Extrema liés et billards

Beaucoup de mathématiciens aiment jouer au billard, mais ils ont des règles un
peu spéciales : leur préoccupation principale consiste à déterminer les trajectoires
qui se répètent périodiquement après un certain nombre de rebonds, et ils passent
leur temps à essayer toutes sorte de tables de jeu avec des formes variées.
Considérons par exemple une table de billard de forme elliptique. Alors il existe
une façon de lancer une boule de billard telle qu’après trois rebonds, la boule
repasse par sa position initiale avec une vitesse identique à sa vitesse initiale ;
ainsi, s’il n’y a pas de frottement, la boule va parcourir inlassablement la même
trajectoire à trois rebonds. La lois des rebonds sur les bords de la table est la
même que la loi de réflection des rayons lumineux : la trajectoire de la balle après
le rebond est symétrique de la trajectoire d’arrivée par rapport à la normale au
bord. Ainsi, le problème revient à trouver un triangle ABC, inscrit dans l’ellipse, source Wikipedia
et qui satisfasse cette propriété de réflection en chacun de ses trois sommets.
Comment montrer l’existence d’un tel triangle ? Considérons trois points
A, B, C sur l’ellipse qui borde le billard, choisis de façon à maximiser la longueur

d(A, B) + d(B, C) + d(C, A). Pouvez-vous expliquer

pourquoi il existe trois
Le théorème des extrema liés s’applique. A partir de la relation qu’il fournit, points qui maximisent
on peut démontrer que le triangle ABC respectent les lois de la réflection. Ceci cette quantité ?
prouve l’existence d’au moins une trajectoire périodique dans le billard elliptique.
Le même argument marche pour un nombre quelconque de rebonds, et pour L’argument complet se
n’importe quelle table convexe dont le bord est une courbe de classe C 1 . On trouve dans le livre Petit
peut aussi démontrer l’existence d’orbite périodique dans un billard en forme de guide de calcul différentiel
de François Rouvière.
triangle, du moins si tous les angles du triangle sont des angles aigus (inférieurs à
90˚). Le cas des triangles obtus est beaucoup plus difficile, et personne ne sait si
toutes les tables de billards en forme de triangle obtu admettent des trajectoires
périodiques...

II.3 Exercices

Exercice 19.— Trouver le maximum et le minimum de f (x, y, z) = xyz soumise aux contraintes
x2 + y 2 + z 2 = 1 et x + y + z = 1. Aide : la méthode des multiplicateurs de Lagrange donne cinq
solutions potentielles.

23
Dans les livres d’économie, le critère des extrema liés est souvent présenté de la
façon suivante, qui a l’avantage d’être facile à mémoriser. Le problème consiste à
maximiser une fonction f : Rm → R sous les contraintes φ1 (x) = 0, . . . φp (x) = 0.
Introduisons la fonction L : Rm × Rp → R définie par
p
X
L(x, λ) = f (x) + λi φi (x).
i=1

On résoud le problème en cherchant un point critique de L. Plus précisément, si

x0 est une solution au problème, il existe λ0 tel que (x0 , λ0 ) est un point critique
de L.
Exercice 20.— Vérifier que ce critère pratique est équivalent au critère donné dans le théorème
des extrema liés.

Exercice 21.—(extrait d’un poly d’économie) Assume there are three commodities with
amounts x1 , x2 , and x3 , and prices p1 , p2 , and p3 . Assume the total value is fixed, p1 x1 +
p2 x2 + p3 x3 = w0 , where w0 > 0 is a fixed positive constant. Assume the utility is given by
U = x1 x2 x3 . Find the maximum of the utility U with constrained total value. Same question if
the utility is given by U = xa1 1 xa2 1 xa3 1 .

24
III Applications de classe C 1
Dans ce qui suit, comme avant, E et F sont des espaces vectoriels normés.

III.1 Théorie
(a) L’inégalité des accroissements finis
Théorème (Inégalité des accroissements finis). Soit γ : [a, b] → F une application
continue sur [a, b] et dérivable sur ]a, b[. On suppose qu’il existe M tel que

∀t ∈]a, b[, kγ 0 (t)k ≤ M.

Alors
kγ(b) − γ(a)k ≤ M (b − a).

Recette de preuve.— Soit ε > 0. On considère l’ensemble I des nombres t ∈ [a, b] vérifiant

∀s ∈ [a, t], kγ(s) − γ(a)k ≤ (M + ε)(s − a) + ε (?).

On veut montrer que b appartient à I. Vérifier que si t ∈ I, alors [a, t] ⊂ I. Vérifier que Si vous vous demandez
a ∈ I, et qu’il existe δ > 0 tel que I contient l’intervalle [a, δ]. Vérifier que I est fermé (on pourquoi on considère cet
écrira I comme l’image réciproque du fermé ] − ∞, 0] par une application continue). ensemble I, lisez la
L’ensemble I est donc un intervalle fermé contenant a et non réduit à a : il existe t0 ∈]a, b] preuve jusqu’au bout et
tel que I = [a, t0 ]. On veut montrer que t0 = b, on suppose par l’absurde que t0 < b. Puisque reposez-vous ensuite la
t0 ∈]a, b[, l’hypothèse du théorème nous dit que γ est dérivable en t0 . Ecrivons le développement question. En particulier,
limité que nous donne cette propriété : on a, pour tout h 6= 0 assez petit, à quoi sert ε ?

o(h)
γ(t0 + h) = γ(t0 ) + hγ 0 (t0 ) + o(h) = γ(t0 ) + h γ 0 (t0 ) +
h

avec o(h) négligeable devant h. En utilisant la définition de “négligeable devant h” avec notre
ε, en déduire qu’il existe δ > 0 tel que [t0 , t0 + δ] ⊂ [a, b] et pour tout h ∈ [0, δ],

kγ(t0 + h) − γ(t0 )k ≤ (M + ε).h.

Puisque t0 appartient à I, il vérifie l’inégalité (?). En déduire que, pour tout h ∈ [0, δ], le
nombre t0 + h vérifie aussi cette inégalité. On conclut que t0 + δ appartient aussi à I. Ceci
contredit l’hypothèse que I = [a, t0 ].
On a donc t0 = b, et en particulier

kγ(b) − γ(a)k ≤ (M + ε)(b − a) + ε.

Puisque cette inégalité est vraie pour tout ε > 0, un passage à la limite donne l’inégalité
kγ(b) − γ(a)k ≤ M (b − a) recherchée.

Soit maintenant f : Ω → F différentiable sur un ouvert Ω de E. On considère

Ω
deux points a, b de Ω, et on suppose que le segment [a, b] est inclus dans Ω. •
a
•
b
Corollaire 1.

25
1. S’il existe une constante M telle que, en tout point x de [a, b], on a
kDf (x)k ≤ M , alors Préciser, pour chacune
des trois normes
kf (b) − f (a)k ≤ M kb − ak . apparaissant dans
l’énoncé, l’espace sur
En particulier, si x 7→ kDf (x)k est majoré par M sur Ω et si Ω est convexe, lequel elle est définie.
alors f est M -lipschitzienne sur Ω.
2. S’il existe une constante M telle que, en tout point x de [a, b], on a
kDf (x) − Df (a)k ≤ M , alors
kf (b) − f (a) − Df (a).(b − a)k ≤ M kb − ak .

Recette de preuve.— On rappelle que l’application t 7→ (1 − t)a + tb donne un paramétrage

du segment [a, b], parcouru à la vitesse constante (b − a) entre le temps t = 0 et le temps t = 1.
Pour démontrer le premier point, composons ce paramétrage avec l’application f , autrement dit
considérons l’application
[0, 1] −→ F
γ:
t 7−→ f ((1 − t)a + tb).
Calculer la dérivée γ 0 (t) (on pourra consulter la section sur la vitesse d’une courbe dans le
chapitre I). On rappelle que par définition de la norme d’une application linéaire, pour tout
point x sur le segment [a, b] et pour tout vecteur ~v , on a

kDf (x).~v k ≤ kDf (x)k k~v k ≤ M k~v k .

En déduire une majoration du vecteur vitesse de γ. Conclure à l’aide du théorème précédent.

Vérifier la seconde phrase du premier point (critère de lipschitziennité).
Pour le second point, appliquer le premier point à la fonction g définie par g(x) = f (x) −
Df (a)(x − a).

Corollaire 2. Soit f : Ω → F une application différentiable sur un ouvert connexe

Ω. Supposons que Df (x) = 0 pour tout x ∈ Ω. Alors f est constante sur Ω.

Recette de preuve.— On se place sous les hypothèses de l’énoncé. En appliquant les résultats
précédents, montrer que l’application f est constante sur toute boule B(x, ε) incluse dans Ω.
On dit que f est localement constante. La fin de la preuve consiste à montrer que sur ouvert connexe,
toute application localement constante est constante.
Soit maintenant c un nombre, et Ωc = {x ∈ Ω | f (x) = c} (cet ensemble est appelé ligne de
niveau c de la fonction f ). En écrivant cet ensemble comme image réciproque d’un fermé par une
application continue, expliquer pourquoi Ωc est fermé dans Ω. En utilisant que f est localement
constante, montrer que cet ensemble est aussi ouvert. Conclure.

Exercice 22.— Dans cet exercice, on montre que si la vitesse le long d’une courbe reste proche Cet exercice est utilisé
d’un vecteur ~v , alors la courbe reste proche de la droite parcourue à vitesse ~v . Plus précisément, dans la preuve du
soit t un réel positif, et γ : [0, t] → F une application continue, on suppose que γ est dérivable théorème de
sur ]0, t[. Soit ~v un vecteur de F , et M un réel tel que caractérisation des
applications de classe C 1 .
∀s ∈ [0, t], kγ 0 (s) − ~v k ≤ M.

Montrer l’inégalité
kγ(t) − (γ(0) + t.~v )k ≤ M |t| (?).
Indication : appliquer le théorème à la fonction f (s) = γ(s) − s~v .

26
(b) Applications de classe C 1
Lorsque f : Ω → F est différentiable en tout point de Ω, on peut considérer
l’application
x 7→ Df (x)
qui va de Ω dans l’espace vectoriel normé L(E, F ). Si elle est continue, on dira que
f est de classe C 1 sur Ω. On montre immédiatement qu’une somme, composition,
produit, inverse d’applications de classe C 1 est de classe C 1 .
Les énoncés qui suivent fournissent un critère pratique, en particulier lorsque
f est donnée par une formule : pour montrer qu’elle est de classe C 1 , il suffit de
calculer ses dérivées partielles et de vérifier qu’elles sont continues.

Théorème. On suppose ici que E = Rm . Soit f : Ω → F définie sur un ouvert

Ω de E. Supposons
– que f admet des dérivées partielles en tout point de Ω,
– que ces dérivées partielles sont des fonctions continues sur Ω.
Alors f est différentiable sur Ω.

Recette de preuve.— Pour simplifier on se place dans E = R2 , on note (x1 , x2 ) les coordonnées
des points de R2 . On utilise la norme k.k∞ sur E. On se place sous les hypothèses du théorème.
Soit a = (a1 , a2 ) un point de Ω, et considérons l’application linéaire L définie par Liste des objets introduits dans
la preuve : le point a,
∂f ∂f l’application L...
L(h1 , h2 ) = h1 (a) + h2 (a).
∂x1 ∂x2
On cherche à montrer que f est différentiable au point a, et que Df (a) = L. Pour ceci, pour
tout vecteur ~h = (h1 , h2 ) assez petit, on pose o(~h) = f (a + ~h) − f (a) − L.~h, on veut voir que ... un “petit” vecteur ~h,
cette quantité est négligeable devant ~h ; rappelons que ceci signifie que o(~h)/ ~h tend vers 0 les applications o, o1 , o2 ...

lorsque ~h tend vers 0. Vérifier que o(~h) est la somme des deux quantités

∂f
o1 (h1 , h2 ) = f (a1 + h1 , a2 ) − f (a1 , a2 ) − h1 (a1 , a2 )
∂x1
et
∂f
o2 (h1 , h2 ) = f (a1 + h1 , a2 + h2 ) − f (a1 + h1 , a2 ) − h2 (a1 , a2 ) .
∂x2
On va montrer que chacune d’elle est négligeable devant ~h. Pour estimer o1 (~h), on introduit la
courbe γ1 : s 7→ f ((a1 + s, a2 )). Calculer, pour tout s, le vecteur vitesse γ10 (s). Fixons un ε > 0. ... la courbe γ1 , un
On utilise maintenant l’hypothèse de continuité des dérivées partielles : il existe δ > 0 tel que nombre ε > 0, un nombre
pour tout x dans la boule B(a, δ), δ > 0. Et c’est tout !

∂f ∂f
(x) − (a) < ε.
∂x1 ∂x1

On suppose désormais que ~h < δ. Le segment entre les points a et a + (h1 , 0) est alors contenu
dans la boule B(a, δ), en déduire que les vecteurs vitesse de la courbe γ1 vérifient, pour tout
s ∈ [0, h1 ],
kγ10 (s) − γ10 (0)k < ε.
Les vecteurs vitesse de γ1 étant “proches” du vecteur γ10 (0), on en déduit que γ1 “n’est pas trop
loin” de la droite s 7→ γ(0) + sγ 0 (0) : plus précisément, on applique le résultat de l’exercice 22
ci-dessus, avec v = γ10 (0) ; l’inégalité (?) donne alors

kγ1 (h1 ) − γ1 (0) − γ10 (0)k ≤ ε |h1 | .

27
Remplacer γ1 par sa définition pour obtenir la majoration

o1 (~h) ≤ ε |h1 | ≤ ε ~h .

En relisant ce qui précède, vérifier qu’on a montré ceci :

∀ε > 0 ∃δ > 0 ∀~h ∈ B(0, δ), o1 (~h) ≤ ε ~h .

Vérifier que ceci correspond à la définition de “o1 (~h) est négligeable devant ~h”.

On estime o2 (~h) de façon tout à fait analogue, en utilisant la courbe

γ2 : s 7→ f ((a1 + h1 , a2 + s).

Écrire les détails de cette estimation, en vous inspirant de ce qui précède. Ceci termine la preuve
en dimension 2. La preuve du cas général est très similaire, on écrit o(~h) comme la somme de
m fonctions o1 (~h), . . . , om (~h).

Corollaire. Lorsque E = Rm , f est de classe C 1 sur Ω si et seulement si les

dérivées partielles de f existent et sont continues sur Ω.

En particulier, lorsque F = Rn , Df (x) dépend continûment de x si et seule-

ment si les coefficients de la matrice jacobienne de f dépendent continûment de
x.
Recette de preuve.— Lorsque les dérivées partielles de f existent et sont continues sur Ω,
on a déjà vu que f est différentiable sur Ω, il reste à voir que Df (x) dépend continûment de x.
Pour cela, montrer l’inégalité

∂f ∂f
kDf (x) − Df (y)k ≤ max (x) − (y)
i=1,...,N ∂xi ∂xi

(on a muni E de la norme khk1 = |h1 | + · · · + |h1 |). Si F est de dimension finie, on peut utiliser
l’argument alternatif suivant. Par hypothèses, les coefficients de la matrice jacobienne Jf (x)
dépendent continûment de x. Ceci montre que l’application x 7→ Jf (x) est continue. D’autre
part l’application qui associe à une application linéaire sa matrice est un isomorphisme d’es-
paces vectoriels, c’est donc un homéomorphisme puisqu’en dimension finie toutes les applications
linéaires sont continues. Par composition, x 7→ Df (x) est continue.

Exemple Reprenons la fonction f (x, y) = xe3y dont on avait montré au premier

chapitre la différentiabilité par une méthode directe. D’après les théorèmes de
calcul différentielle en une variable, cette fonction admet des dérivée partielles, et
on a
∂f ∂f
(x, y) = e3y et (x, y) = 3xe3y
∂x ∂x
qui sont des fonctions continues de (x, y). On en déduit que f est différentiable
en tout point de R2 , et sa différentielle est donnée par

Df (x, y)(~h) = e3y h1 + 3xe3y h2 .

28
III.2 Commentaires
(a) Interprétation physique de l’inégalité des accroissements finis
Si γ(t) est la position au temps t d’une voiture, kγ 0 (t)k est la vitesse indiquée
au compteur au temps t ; kγ(b) − γ(a)k est la distance (à vol d’oiseau) entre le
point de départ et le point d’arrivée ; b − a est le temps de parcours, et l’inégalité
du théorème des accroissements finis ne dit rien d’autre que ceci : en roulant
pendant un temps T avec une vitesse au compteur qui ne dépasse jamais la valeur
V , on ne peut pas se retrouver à une distance supérieure à V T du point de départ.

(b) Continuité de Df
Le “raisonnement” suivant est faux :
En dimension finie, toutes les applications linéaires sont continues, donc la

différentielle d’une application différentiable f : Rm → Rn est continue, et f est

automatiquement de classe C 1 .
Où est l’erreur ?...
La différentielle Df est une application qui prend en entrée une première
variable a, puis une seconde variable h. Ces deux variables jouent des rôles très
différents. La première variable, a, représente le point en lequel on calcule la
différentielle. La différentielle Df (a) est alors une application linéaire, elle associe
au vecteur h, qui représente une petite variation du point a, le vecteur Df (a).h.
Pour un point a fixé, l’application Df (a) : h 7→ Df (a).h est linéaire et toujours
continue (même en dimension infinie, parce que ça fait partie de la définition de
différentiabilité). L’application a 7→ Df (a), elle, n’est pas linéaire, et n’est en
général pas continue, même en dimension finie.

III.3 Exercices

Exercice 23.—
1. L’inégalité des accroissements finis n’a d’intérêt que si la différentielle est bornée sur le
segment [a, b]. Expliquer pourquoi c’est le cas lorsque γ est de classe C 1 .
2. En supposant Ω convexe et kDf (x)k ≤ M pour tout x de Ω, rappeler pourquoi f est M -
lipschitzienne sur Ω.
3. Soit f : Ω → F de classe C 1 , et K un compact convexe de Ω (par exemple une boule fermée).
Montrer que f est lipschitzienne sur K. Plus difficile : montrer que c’est encore vrai lorsque K
est un compact connexe.

29
IV Inversion locale, fonctions implicites
Le théorème d’inversion locale et le théorème des fonctions implicites per-
mettent tous les deux, à partir d’informations sur la différentielle d’une applica-
tion en un certain point, d’obtenir des renseignements sur le comportement de
l’application au voisinage de ce point.
Soit f : E → F une application, et b = f (a) un point de F dans l’image
de f . Est-ce que les points de F proches de b ont aussi un antécédent par f ?
Le théorème d’inversion locale répond par l’affirmative, dès que la différentielle
Df (a) est bijective. De plus, dans ce cas, tout point assez proche de b a un unique
antécédent proche de a.
Le théorème des fonctions implicites concerne une équation du type
f (x1 , . . . , xm ) = 0, où f est une fonction de Rm dans R. Soit P un point de
Rm qui est une solution de cette équation. Y a-t-il d’autres solutions proches de
P ? Le théorème donne une réponse très précise, du moment que la dérivée par-
tielle de f par rapport à la dernière variable ne soit pas nulle au point P . Dans
ce cas, si l’on modifie suffisamment peu les m − 1 premières coordonnées du point
P , il existe une unique façon de modifier un petit peu la dernière coordonnée de
façon à trouver une nouvelle solution de l’équation. Autrement dit, au voisinage
du point P , l’équation détermine la dernière coordonnée comme une fonction des
m − 1 autres. Au chapitre V nous interpréterons cette propriété en disant que
l’ensemble des solutions de l’équation proches du point P est une “hypersurface”,
qui ressemble à un hyperplan de Rm . De plus, le théorème s’étend aux systèmes
d’un nombre quelconque d’équations.

IV.1 Théorie
Dans cette section, les espaces vectoriels normés E, F sont supposés être des
espaces de Banach. La complétude nous permettra de faire appel au théorème du
point fixe de Banach-Picard.

(a) Difféomorphismes
Une application Φ : U → V entre un ouvert U de E et un ouvert V de F
est un C 1 -difféomorphisme si elle est de classe C 1 , elle est bijective, et sa bijec-
tion réciproque est aussi de classe C 1 . La composée de deux C 1 -difféomorphismes
est un C 1 -difféomorphisme, la réciproque d’un C 1 -difféomorphisme est un C 1 -
difféomorphisme (c’est immédiat). En particulier, l’ensemble Diff 1 (Rn ) des C 1 -
difféomorphismes de Rn dans Rn est un groupe pour la loi de composition.

Exemple 1 Toute application linéaire inversible de Rn dans Rn est un

difféomorphisme. Plus généralement, une application linéaire continue de E dans
F est un difféomorphisme si et seulement si elle est inversible parmi les applica-
tions linéaires continues. Dans ce cas, on voit que E et F doivent avoir la même
dimension (éventuellement infinie).

Exemple 2 Soit f : R2 → R2 l’application définie par f (x, y) = (y, x2 ). Elle

n’est pas injective puisque par exemple f (−1, 0) = f (1, 0) ; elle n’est pas non

30
plus surjective puisque les points (a, b) avec b < 0 n’ont pas d’antécédant. Notons
U − = {(x, y) ∈ R2 | x < 0}, U + = {(x, y) ∈ R2 | x > 0}, et V = {(a, b) ∈ R2 | b >
0}. On a, pour tout (x, y) dans U − et tout (a, b) dans V ,

f (x, y) = (a, b) ⇔ (x, y) = g(a, b)

√
en posant g(a, b) = (− b, a). Ceci montre que la restriction fU − : U − → V est
bijective, et que son application réciproque est g. Puisque f et g sont de classe
C 1 , fU − est un C 1 -difféomorphisme entre U − et V . De même, fU + : U + → V est
un C 1 -difféomorphisme.

Exemple 3 L’exponentielle complexe, z 7→ ez , est une application de C dans C.

En coordonnées, elle s’écrit

exp(x, y) = (ex cos(y), ex sin(y)).

Ce n’est pas un difféomorphisme de R2 dans R2 car elle n’est pas injective : pour
tout (x, y), on a
exp(x, y + 2π) = exp(x, y),
et plus généralement, deux points ont la même image si et seulement si ils diffèrent
d’une translation verticale de longueur multiple de 2π. On voit donc que la restric-
tion de l’exponentielle à la bande U = R×]0, 2π[ est injective. Cette restriction Voir cette note d’un
f = exp|U est en fait un difféomorphisme entre la bande U et l’ouvert V du plan article de Michèle Audin
complémentaire du demi-axe des x positifs. Pourquoi la bijection réciproque f −1 pour une représentation
graphique de z 7→ ez .
est-elle de classe C 1 ? On peut donner des formules pour f −1 et vérifier sur les
formules. Une autre option consiste à calculer d’abord la différentielle de f . En
identifiant R2 et C, on trouve que

x cos(y) − sin(y)
Jf (z) = e
sin(y) cos(y)

qui est une matrice inversible (son déterminant vaut e2x ). Le fait que f soit un
difféomorphisme découle alors du théorème d’inversion local ci-dessous, et de son
corollaire 2.

(b) Théorème d’inversion locale

Soit maintenant f un C 1 -difféomorphisme quelconque. En différenciant
l’égalité f −1 ◦ f = Id en un point a dont l’image est notée b, on obtient

D(f −1 )(b) ◦ Df (a) = Id

et on voit que la différentielle de f au point a est inversible. L’un des objets

de cette section est de comprendre dans quelle mesure la réciproque est vraie.
Le théorème d’inversion locale dit qu’elle est vraie “localement” : si Df (a) est
inversible, alors f est un difféomorphisme au voisinage de a.
Théorème. Supposons que f : Ω → F est de classe C 1 sur l’ouvert Ω, et que Le point le plus frappant
a est un point de Ω en lequel la différentielle Df (a) est inversible dans L(E, F ). du théorème dit que si
Df (a) est injective, alors
Alors il existe un ouvert U de E contenant a, et un ouvert V de F contenant
f est également injective
f (a), tels que la restriction de f à U soit un C 1 -difféomorphisme entre U et V . sur un petit voisinage U
du point a.
31
Corollaire 1. (de l’application ouverte) Soit f : Ω → F une application de classe
C 1 . Supposons que pour tout point a de Ω, la différentielle Df (a) est inversible
dans L(E, F ). Alors f est ouverte : l’image par f de tout ouvert O ⊂ Ω est un
ouvert de F .

Corollaire 2. (d’inversion globale) Sous les hypothèses du corollaire précédent,

si de plus f est injective, alors c’est un C 1 -difféomorphisme sur son image.

On commence par déduire du théorème les deux corollaires.

Recette de preuve.— Sous les hypothèses du premier corollaire, montrons d’abord que f (Ω)
est un ouvert de F . Prendre un point y de f (Ω), que cherche-t-on ? Appliquer la définition
de l’image d’un ensemble pour trouver un point x dans Ω. On peut maintenant appliquer le
théorème d’inversion locale, écrire les objets qu’il nous fournit. On a ainsi trouvé un ouvert V
de F , vérifier que y ∈ V ⊂ f (Ω). Trouver enfin le ε recherché.
Soit maintenant O un ouvert inclus dans Ω. La restriction f|O vérifie les hypothèses du
corollaire. On lui applique ce qu’on vient de montrer, et on en déduit que son image f (O) est
un ouvert.

Recette de preuve.— Sous les hypothèses du second corollaire, f est une bijection de Ω vers
f (Ω). Il reste à voir que sa réciproque f −1 est de classe C 1 . Le théorème d’inversion locale
s’applique : f est localement un C 1 -difféomorphisme au voisinage de n’importe quel point a de
Ω. En particulier f −1 est aussi un C 1 -difféomorphisme au voisinage de n’importe quel point b
de f (Ω), donc sa différentielle en b existe et dépend continûment de b.

La preuve du théorème d’inversion locale est difficile, mais toutes les idées
sont déjà présentes dans l’exercice suivant, qui est plutôt facile. On va utiliser des
ingrédients très variés du cours de topologie et de calcul différentiel :
1. l’inégalité des accroissements finis,
2. toute application linéaire continue Id + M avec kM k < 1 est inversible,
3. le théorème du point fixe de Banach-Picard,
4. la différentiabilité de l’application réciproque d’un homéomorphisme de
classe C 1 dont la différentielle est inversible (cf chapitre I, dernière pro-
position de la section 1.(c)).

Exercice 24.— Soit E un espace de Banach. On considère une application g : E → E de la

forme g = Id + φ, avec φ de classe C 1 vérifiant
1
kDφ(a)k <
2
pour tout point a de E. On va montrer que g est alors un C 1 -difféomorphisme. Chacune des
quatre questions ci-dessous utilise l’un des quatre points rappelés ci-dessus.
1. Montrer que φ est 21 -lipschitzienne.
2. Dans cette question, on veut montrer que g est une bijection, autrement dit que pour tout y
de E il existe un unique x de E tel que g(x) = y. Fixons un point y de E. a. En utilisant que
g = Id + φ, traduire l’équation g(x) = y, d’inconnue x, en une recherche de point fixe pour une
certaine application T : E → E. b. Montrer que T est contractante. c. Conclure.

32
3. Puisque g est une bijection, elle admet une bijection réciproque g −1 . Montrer que g −1 est
2-lipschitzienne. L’application g est donc un homéomorphisme.
4. Montrer que, pour tout point a de E, la différentielle Dg(a) est inversible.
5. Montrer que g −1 est différentiable en tout point b de E.

Recette de preuve.— Démontrons le théorème d’inversion locale. Soit T : x 7→ x + a la

translation de E qui envoie 0 sur a, T 0 la translation de F qui envoie f (a) sur 0, on considère
l’application
g = (Df (a))−1 ◦ T 0 ◦ f ◦ T.
Vérifier que g est définie d’un ouvert de E contenant 0 dans un autre ouvert de E, et qu’on
a g(0) = 0 et Dg(0) = Id. Exprimer aussi f en fonction de g. L’application g est évidemment
de classe C 1 . Nous allons montrer que g est un difféomorphisme au voisinage de 0 ; il en
découlera immédiatement que f sera un difféomorphisme au voisinage de a (comme composée
de difféomorphismes).
Le développement limité à l’ordre 1 de g en 0 s’écrit alors

g(x) = x + o(x)

avec o(x) négligeable devant x. On se donne un y dans E, et on définit T (x) = y − o(x). Comme
dans l’exercice, un point fixe de T est un antécédant de y par g. On cherche donc à montrer que,
si y est assez proche de 0, l’application T a un unique point fixe proche de 0. Dans l’exercice on
appliquait le théorème du point fixe à une application de E dans E. Ici T n’est pas définie de
E dans E, et il va d’abord falloir trouver une partie fermée de E qui est stable par T .
Comme f est de classe C 1 , l’application o l’est aussi, que vaut Do(0) ? En déduire l’exis-
tence d’un δ > 0 tel que
1
kDo(x)k ≤
2
pour tout x ∈ B(0, δ). D’après l’inégalité des accroissements finis, l’application o est 1/2- Terence Tao, médaillé
lipschitzienne sur cette boule ; vérifier que T l’est aussi. On suppose désormais que Fields 2006, est un
mathématicien aux
δ
y ∈ V := B 0, . capacités de travail
2 étonnantes. Le 9
Notons septembre 2011, il poste
B = {x | kxk ≤ δ} un message sur le forum
Mathoverflow demandant
la boule fermée de rayon δ centrée en 0. Montrer que T (B) ⊂ B(0, δ). En particulier, T (B) ⊂ B. s’il existe une version de
Expliquer pourquoi B est complet. On peut maintenant appliquer le théorème du point fixe ce théorème pour les
contractant à l’application T|B : B → B. La conclusion de tout ceci est : Pour tout y ∈ V = applications qui sont
B(0, 2δ ) il existe un unique x ∈ B(0, δ) tel que g(x) = y. seulement différentiables
Notons h(y) ce point x. On a ainsi défini une fonction h : V → B(0, δ), et on a g(h(y)) = y sur Ω (et pas de classe
pour tout y de V . On a également h(g(x0 )) = x0 pour tout x0 de l’ouvert C 1 ). Le 12 septembre, à
19h21, il reçoit une
U := B(0, δ) ∩ g −1 (V ). réponse lui indiquant un
En effet, un tel x0 a son image y 0 = g(x0 ) dans V , et h(y 0 ) est alors (par définition) l’unique article de Jean
point x de B(0, δ) tel que g(x) = y 0 : comme x0 satisfait cette égalité, par unicité on a x0 = Saint-Raymond de 18
h(y 0 ) = h(g(x0 )). pages. Le soir même, à
Les ensembles U et V sont ouverts. On a h(V ) = U , g(U ) = V , et donc g|U : U → V et 00h10, il indique qu’il a
h : V → U sont des bijections réciproques. La première est clairement continue, la seconde l’est posté un billet sur son
aussi : montrer en effet que h est 2-lipschitzienne, en utilisant que o est 21 -lipschitzienne et que blog expliquant la
h est la réciproque de x 7→ x + o(x). On a montré que g est un homéomorphisme local. démonstration.
Montrons enfin que, quitte à restreindre U , et V , g|U est un C 1 -difféomorphisme. Soit

U 0 = {x ∈ U | Dg(x) inversible}.

L’ensemble des éléments inversibles de L(E, E) étant un ouvert, U 0 est ouvert ; il contient 0. On
pose aussi V 0 = g(U 0 ) ; puisque g|U : U → V est un homéomorphisme, V 0 est aussi un ouvert.

33
D’après la différentiabilité de l’application réciproque d’un homéomorphisme de classe C 1 , h
est différentiable en tout point y de V 0 , et Dh(y) = (Dg(x))−1 pour tout y = g(x) dans V 0 .
Comme l’inversion est continue dans GL(E) et que Dg : U 0 → GL(E) est continue, Dh est une
application continue sur V 0 . L’application g : U 0 → V 0 est donc un C 1 -difféomorphisme.

(c) Exemples d’application du théorème d’inversion locale

Le théorème d’inversion locale permet de montrer l’existence et l’unicité d’une
solution d’un système d’équations, même lorsqu’on ne sait pas trouver une formule
pour cette solution. Voyons successivement un exemple dans R2 , un exemple dans
l’espace des matrices, et un exemple en dimension infinie.

Exercice 25.—(adapté de l’examen deuxième session 2013) Montrer que pour tout a assez
proche de 0 et tout b assez proche de 1, le système d’équations

xey + 2y = a

1 + sin(3x + 4y) = b
a une unique solution (x, y) proche de (0, 0). On pourra introduire la fonction f : R2 → R2
définie par f (x, y) = (xey + 2y, 1 + sin(3x + 4y)) et remarquer que f (0, 0) = (0, 1).

Exercice 26.— On définit l’exponentielle d’une matrice M par la série absolument convergente
1 2 1
exp(M ) = Id + M + M + M3 + · · · .
2! 3!
1. Montrer que toute matrice M assez proche de la matrice identité peut s’écrire comme
l’exponentielle d’une matrice N proche de la matrice nulle. On montrera que exp : Mn (R) →
Mn (R) est différentiable en 0 et que sa différentielle est inversible. 2. En posant N = log(M ),
donner un développement limité de log à l’ordre 1 au point Id.

Exercice 27.— On se place dans l’espace vectoriel normé E = C([0, 1], R), muni de la norme
k.k∞ . 1. Montrer que l’application f 7→ f 2 n’est pas un C 1 -difféomorphisme sur son image.
2. Montrer qu’elle n’est pas un C 1 -difféomorphisme sur aucun voisinage de la fonction nulle.
3. Montrer que, par contre, sa restriction à l’ouvert des fonctions strictement positives est un
difféomorphisme (on pourra relire le paragraphe sur la différentielle de cette application).

(d) Le Théorème des Fonctions Implicites dans R2

Soit c une constante. On dit qu’une équation du type

f (x, y) = c

détermine y en fonction de x sur un domaine Ω = Ω1 × Ω2 si, pour tout x ∈ Ω1 donné,

il existe un unique y ∈ Ω2 tel que f (x, y) = c. Dans ce cas, en notant φ la fonction
de Ω1 dans Ω2 qui associe à x cet unique y, on a

∀(x, y) ∈ Ω1 × Ω2 , f (x, y) = c ⇔ y = φ(x).

34
Exercice 28.— Pour chacune de ces fonctions f , l’équation f (x, y) = 0 détermine-t-elle
y en fonction de x sur le domaine de définition de f ? Sinon, trouver un domaine plus petit
où c’est le cas. 1. f (x, y) = y − x2 . 2. f (x, y) = y 2 − x. 3. f (x, y) = x2 + y 2 − 1 4.

f (x, y) = x3 + y 3 − 3xy (pour cette dernière équation, on s’aidera de l’ensemble des solutions
dessiné ci-contre). 5. f (x, y) = y 3 − x.
A quelle condition sur a, b, c l’équation ax + by + c = 0 détermine-t-elle y en fonction de x ?

Le théorème des fonctions implicites permet de montrer qu’une équation

détermine, au moins localement, y en fonction de x.

Théorème (Théorème des fonctions implicites dans R2 : une équation, deux

inconnues). Soit f : R2 → R de classe C 1 , c un nombre, et (a, b) un point tel que
f (a, b) = c. Supposons que
∂f
(a, b) 6= 0.
∂y
alors il existe α, β > 0 tels que l’équation f (x, y) = c détermine y en fonction de On dit que l’équation
x sur ]a − α, a + α[×]b − β, b + β[ : f (x, y) = c détermine
localement y en fonction de x
∀x ∈]a − α, a + α[ ∃!y ∈]b − β, b + β[ f (x, y) = c. au voisinage du point (a, b).

De plus, la fonction φ : ]a − α, a + α[→]b − β, b + β[ définie par

f (x, y) = c ⇔ y = φ(x)

est de classe C 1 .

Exercice 29.— Soit f définie par f (x, y) = x2 + y 2 − 1. Déterminer les points (x0 , y0 ) du cercle
d’équation f (x, y) = 0 en lesquels l’hypothèse du théorème est vérifié. Donner des valeurs de α
et β qui conviennent. Soit (x0 , y0 ) = (1, 0) ; l’équation détermine-t-elle localement y en fonction
de x au voisinage de ce point ? Montrer que l’équation détermine localement x en fonction de y
au voisinage de ce point.

Exercice 30.— Soit f définie par f (x, y) = x3 + y 3 − 3xy. Montrer que l’ensemble C des
solutions de l’équation f (x, y) = 0 est localement le graphe d’une fonction (y fonction de x ou
x fonction de y) au voisinage de tout point autre que (0, 0).

Exercice 31.— Sous les hypothèses générales du théorème, calculer φ0 (x0 ). Aide : dériver la
relation f (x, φ(x)) = 0.

Recette de preuve.— Le théorème précédent est la version dans R2 du théorème des fonctions
implicites énoncé et démontré plus bas, qui découle lui-même du théorème d’inversion locale.
Cependant, en dimension deux, on peut en donner une preuve élémentaire, qui repose sur le
calcul différentiel en une variable. Nous allons démontrer que l’équation détermine localement
y en fonciton de x, mais pas que la fonction implicite φ est de classe C 1 : pour cette propriété,
se reporter à la preuve du théorème général.

35
On se place sous les hypothèses de l’énoncé. La seconde dérivée partielle de f en (x0 , y0 )
n’est pas nulle ; pour fixer les idées, supposons qu’elle est strictement positive (le cas négatif se
traite de façon symétrique). Montrer d’abord qu’on peut trouver deux nombres strictement
positifs, α, β tels que
∂f
(x, y) > 0
∂y
pour tout (x, y) ∈]x0 − α, x0 + α[×[y0 − β, y0 + β]. Fixons provisoirement x ∈]x0 − α, x0 + α[.
Que vaut la dérivée de l’application ϕx : t 7→ f (x, y0 + t) ? Cette dérivée est donc strictement
positive sur [y0 −β, y0 +β]. En particulier, on a ϕx0 (y0 −β) < ϕx0 (y0 ) < ϕx0 (y0 +β), c’est-à-dire

f (x0 , y0 − β) < c < f (x0 , y0 + β).

Considérons l’ensemble I des nombres x ∈]x0 − α, x0 + α[ tels que

f (x, y0 − β) < c < f (x, y0 + β).

Montrer que c’est un ouvert contenant x0 . Quitte à diminuer α, on peut donc supposer que ces
deux inégalités ont lieu pour tout x ∈]x0 − α, x0 + α[. Fixons un tel x. En considérant à nouveau
l’application ϕx , déduire de ces deux inégalités qu’il existe un unique y dans ]y0 − β, y0 + β[
tel que f (x, y) = c. Ceci termine la preuve.

Exercice 32.— On peut généraliser l’argument précédent. Considérons f : Rm → R de classe

C 1 , c un nombre, a = (a1 , ..., am ) un point tel que f (a) = c. Supposons que

∂f
(a) 6= 0.
∂xm
Montrer que l’équation f (x) = c détermine localement xn comme fonction des autres coor-
données (x1 , . . . , xm−1 ). On suivra le plus fidèlement possible l’argument donné dans la preuve
précédente.

(e) Le théorème des fonctions implites, version générale

Plus généralement, on considère f : Ω → F , où Ω est un ouvert de E. On se
donne deux espaces vectoriels supplémentaires E = X ⊕ Y : tout point ω de E
s’écrit de façon unique ω = x + y avec x ∈ X et y ∈ Y . L’espace E s’identifie alors
au produit X × Y , ce qui permet de voir le graphe de n’importe quelle fonction
φ : X → Y comme le sous-ensemble de E des couples de coordonnées (x, φ(x)).

Théorème (Théorème des fonctions implicites). Soit f : Ω → F de classe C 1 , c

un élément de F , et (a, b) un point de X × Y = E tel que f (a, b) = c. Supposons
que l’application linéaire continue

Df (a, b)|Y : Y → F

est inversible. Alors l’équation f (x, y) = c détermine localement y en fonction de Ici x et y ne sont pas des
x au voisinage du point (a, b) : autrement dit, il existe un ouvert U de X contenant nombres mais des
vecteurs.
a, un ouvert V de Y contenant b tels que U × V ⊂ Ω, et une fonction φ : U → V
de classe C 1 telle que, pour tout (x, y) ∈ U × V ,

f (x, y) = c ⇔ y = φ(x). Cette équivalence revient

à dire que, pour chaque x
fixé dans U , l’équation
f (x, y) = c, d’inconnue x,
36 a pour unique solution
φ(x).
• Il faut noter qu’on a φ(a) = b puisque f (a, b) = c. La conclusion dit qu’au
voisinage du point a, l’ensemble Lc des solutions de l’équation f (ω) = c} est le
graphe d’une application de X dans Y de classe C 1 ; plus précisément,

Lc ∩ (U × V ) = {(x, φ(x)) | x ∈ U }.

• Dans la situation la plus simple qui correspond à l’énoncé précédent, E = R2 =

R × R, X est l’axe des abscisses et Y l’axe des ordonnées, et F = R. L’application
Df (a) s’écrit en coordonnées
∂f ∂f
(h, k) 7→ (a)h + (a)k
∂x ∂y

sa restriction à Y est simplement k 7→ ∂f ∂y

(a)k et la condition d’inversibilité
équivaut à
∂f
(a) 6= 0.
∂y
On retrouve ainsi l’énoncé dans R2 vue à la section précédente.
• Comment se traduit, en pratique, l’hypothèse “Df (a, b)|Y inversible” ? Suppo-
sons que X soit de dimension m et Y de dimension n, choisissons des coordonnées
(x1 , . . . , xm ) sur X et (y1 , . . . , yn ) sur Y . Puisqu’il existe une application linéaire
inversible de Y vers F , ces deux espaces vectoriels ont la même dimension ; choi-
sissons des coordonnées sur F et écrivons (f1 , . . . , fn ) les coordonnées de f . Avec
ces notations, la matrice de la différentielle Df (a, b) s’écrit
 ∂f1 ∂f1 ∂f1 ∂f1 
∂x1
(a, b) · · · ∂xm
(a, b) ∂y1
(a, b) · · · ∂yn
(a, b)
.. .. .. .. .. ..
.
 
 . . . . . . La matrice a l’air plus
∂fn ∂fn ∂fn ∂fn impressionnante que
∂x1
(a, b) ··· ∂xm
(a, b) ∂y1
(a, b) ··· ∂yn
(a, b)
d’habitude, mais c’est
juste parce que la
Puisque Y correspond aux vecteurs dont les coordonnées xi sont toutes nulles, la fonction f a deux sortes
matrice de la restriction Df (a, b)|Y correspond au bloc des coordonnées yj (situé de variables, les xi et les
à droite du trait de séparation, en bleu dans la version électronique). L’hypothèse yj . Le trait vertical sert
équivaut donc au fait que la matrice carrée formée par la partie droite de la matrice juste à séparer la matrice
en deux blocs, l’un
précédente,  ∂f1 correspondant aux
∂f1 
∂y1
(a) · · · ∂y n
(a) variables xi et l’autre aux
 .. .. ..  yj .
 . . . 
∂fn ∂fn
∂y1
(a) ··· ∂yn
(a)
est inversible.
Recette de preuve.— On déduit le théorème des fonctions implicites du théorème d’inversion
locale, de la façon suivante. Sous les hypothèses de l’énoncé, on définit f : Ω → X × F en posant
f (x, y) = (x, f (x, y)). Vérifier que la différentielle de f au point a est

Df (a, b)(h, k) = (h, Df (a, b).h + Df (a, b).k) = (h, Df (a, b)|X .h + Df (a, b)|Y .k).

Soient (x, z) ∈ X × F , montrer que le système Df (a)(h, k) = (x, z), d’inconnues (h, k), a
une unique solution. Ceci montre que Df (a) est bijective, c’est donc une application linéaire
inversible.
On peut donc appliquer le théorème d’inversion locale à l’application f et au point (a, b) :
f se restreint en un C 1 -difféomorphisme entre un ouvert O contenant (a, b) et un ouvert O0

37
contenant f (a). Quitte à diminuer O, on peut supposer qu’il est de la forme U0 × V , avec U0
un ouvert contenant a et V un ouvert contenant b. Notons g : O0 → U × V la réciproque de ce
difféomorphisme. On définit
U = {x ∈ U0 , (x, c) ∈ O0 }.
On a, pour tout (x, y) ∈ U0 × V ,

f (x, y) = c ⇔ f (x, y) = (x, c) ⇔ (x, y) = g(x, c) ⇔ x = g 2 (x, c).

en posant g 2 = π2 ◦ g avec π2 (x, y) = y. La fonction φ = g 2 convient.

(f ) Exemples d’utilisation du théorème des fonctions implites

Soit f : Rn → R une fonction de classe C 1 . On s’intéresse à l’équation
f (x1 , . . . , xn ) = 0. Soit P un point de Rn qui est solution de l’équation ; le théorème
donne une condition pour que l’équation détermine localement xn en fonction de
x1 , . . . , xn−1 au voisinage de P ; comment s’écrit-elle en coordonnées ? Pour sim-
plifier supposons que n = 3. Soit X le plan (“horizontal”) contenant tous les
vecteurs du type x = (x1 , x2 , 0), et Y l’axe (“vertical”) contenant les vecteurs du
type (0, 0, x3 ). La matrice de la différentielle de f au point P est

∂f ∂f ∂f
∂x1
(P ) ∂x2 (P ) ∂x3 (P ) .

∂f
Sa restriction à la droite Y est simplement k 7→ ∂x 3
(P )k, et l’hypothèse du
théorème est simplement
∂f
(P ) 6= 0.
∂x3
Plus généralement, dans Rn , la condition du théorème dit que la dérivée partielle
par rapport à xn est non nulle.

Exercice 33.— On considère la sphère unité de R3 , notée S2 , d’équation x2 + y 2 + z 2 = 1.

1. En quels points de la sphère l’équation détermine-t-elle localement z fonction de x, y ? On
pourra répondre d’abord par un calcul direct, puis comparer avec l’hypothèse du théorème des
fonctions implicites. 2. Montrer qu’en tout point de la sphère, l’équation détermine z fonction
de (x, y), ou y fonction de (x, z), ou z fonction de (x, y).

Exercice 34.— On considère l’équation

z 2 ezx + 2zy 2 − 1 = 0.

1. Trouver toutes les solutions du type (0, 0, z).

2. Montrer que pour toutes valeurs assez petites de x et de y, il existe une unique solution
(x, y, z) avec z proche de 1. Autrement dit, l’équation définit localement z comme une fonction
z = φ(x, y) au voisinage de la soluion (0, 0, 1).
3. En dérivant la relation f (x, y, ϕ(x, y)) = 0, calculer la différentielle (c’est-à-dire les dérivées
partielles) de ϕ au point (0, 0).
4. En déduire une valeur approchée d’une solution avec x = 0, 03 et y = −0, 04 (si elle existe...).

38
On considère maintenant une partie C de R3 donnée par un système de deux
équations, disons f1 (x, y, z) = 0 et f2 (x, y, z) = 0. Ce système détermine-t-il Dans les cas simples,
localement y et z comme fonction de x ? Le système des deux équations peut quand on parvient à
s’écrire de façon condensée “résoudre” le système, on
utilise la première
équation pour exprimer z
f1 (x, y, z) 0 en fonction de x et de y,
=
f2 (x, y, z) 0 puis, avec cette
expression, on utilise la
ou encore f (x, y, z) = c en posant f = (f1 , f2 ) et c = (0, 0). Cette fois-ci, on deuxième équation pour
cherche à appliquer le théorème avec pour X l’axe des abscisses et pour Y le plan exprimer y en fonction de
vertical contenant les vecteurs du type (0, y, z). En un point P de C, la matrice x ; on en déduit enfin
l’expression de z en
de Df|Y (a, b) est ! fonction de x. Ceci
∂f1 ∂f1
∂y
(P ) ∂z
(P ) explique pourquoi on
∂f2 ∂f2 . s’attend à ce qu’un
∂y
(P ) ∂z
(P )
système de deux
Le théorème nous dit que si cette matrice est inversible, alors le système détermine équations à trois
inconnues permettent
localement y et z comme des fonctions de x.
d’exprimer deux d’entre
elles comme fonction de
Exercice 35.— (Deux équations) On considère l’intersection de la sphère S2 avec le cylindre la troisième.
d’axe vertical passant par le point (1, 0, 0) et de rayon 1, qui a pour d’équation

(x − 1)2 + y 2 = 1.

Montrer que le système de deux équations détermine localement y et z en fonction de x, sauf en

quatre points à déterminer. Esquisser le dessin de cette intersection et interpréter graphiquement
le résultat du calcul.

Exercice 36.— 1. Montrer que l’équation matricielle M 3 +N 3 −3M N = Id définit localement

N en fonction de M au voisinage du couple solution (Id, 0). Autrement dit, pour toute matrice M
dont les coefficients assez proches de ceux de l’identité, il existe une unique matrice N = Φ(M )
dont les coefficients sont proches de 0, telle que M 3 + N 3 − 3M N = Id. 2. Calculer la
différentielle de Φ au point Id, et écrire le développement limité à l’ordre 1 en ce point.

IV.2 Commentaires
(a) Dessins

Exercice 37.—(Illustration du théorème d’inversion locale)

1. On considère l’application F1 : R2 → R2 définie par F1 (x, y) = (2x + y, x2 − y 2 ). Le dessin
suivant représente une grille et son image par l’application F . La droite en bleu, à gauche,
est envoyé sur la parabole en bleu, à droite. a. Déterminer les “bons” points a, ceux en
lesquels l’hypothèse du théorème d’inverison locale est vérifiée. b. Soit a un “mauvais” point.
L’application F1 est-elle localement injective en a ? Localement surjective en F1 (a) ? On pourra
s’aider du dessin.

39
2. Mêmes question pour l’application F2 : R2 → R2 définie par F2 (x, y) = (x2 − y 2 , 2xy),
représentée ci-dessous.
3. Mêmes questions pour l’application x 7→ x3 , de R dans R.

Pour en savoir plus, on peut lire le joli article Le pli et la fronce sur le site Images des
mathématiques.

Exercice 38.— 1. On considère l’application M 7→ exp(M ) de MN (R) dans GLN (R).

Montrer qu’elle est différentiable en l’identité, et calculer sa différentielle. On admet que cette
application est de classe C ∞ ; en déduire que toute matrice N assez proche de l’identité est
l’exponentielle d’une matrice M , et que M est unique si on la suppose assez proche de l’identité.
2. Montrer de même que toute matrice N assez proche de l’identité est le carré d’une unique
matrice M (N ) proche de l’identité. Donner un développement limité à l’ordre 1 de M (Id + H)
lorsque H tend vers 0.

40
V Surfaces, sous-variétés
Comment définir mathématiquement une surface ? On peut donner différentes
réponses à cette question. On peut par exemple définir une surface topologique
comme un espace topologique dans lequel tout point a un voisinage homéomorphe
au plan R2 . Dans ce chapitre, nous allons donner une réponse à cette question
avec le point de vue du calcul différentiel, en définissant une surface comme une
partie de Rm qui est “localement difféomorphe à un plan”. Plus généralement,
une sous-variété de Rm est un sous-ensemble qui est localement difféomorphe à
un sous-espace vectoriel.

V.1 Théorie
(a) Sous-variétés
Soit S une partie de Rn , a un point de S, et d un entier positif. On dit que S
est lisse, de dimension d, au point a s’il existe un ouvert U de Rn contenant a, et un
C 1 -difféomorphisme Φ : U → V := Φ(U ) tels que
Φ(S ∩ U ) = E ∩ V
où E est un sous-espace vectoriel de Rn de dimension d. On dit que S est une On dira aussi que le
sous-variété (de classe C 1 ) et de dimension d si elle est lisse de dimension d en difféomorphisme Φ redresse
S au voisinage du point a.
chacun de ses points. Les sous-variétés de dimension 2 sont appelées surfaces, celles
de dimension d = n − 1 sont appelées hypersurfaces.

Si Ψ est un C 1 -difféomorphisme de Rn , et si S est lisse au point a, alors Ψ(S)

est lisse au point Ψ(a). La preuve est immédiate (le vérifier). En particulier,
l’image d’une sous-variété par un C 1 -difféomorphisme est une sous-variété.

Premiers exemples
• Tout sous-espace vectoriel E de Rn est évidemment une sous-variété : en
effet, dans la définition d’un point lisse, il suffit de prendre Φ = Id et U = V = Rn !
Plus généralement le sous-espace affine
a + E := {a + ~v | ~v ∈ E}
est une sous-variété : cette fois-ci, on prend pour difféomorphisme Ψ la translation
x 7→ x − a qui ramène a + E sur E.

• Les sous-variétés de Rn de dimension n sont les parties ouvertes de Rn

(vérifier).

• Les graphes sont des sous-variétés. Soit f : Ω → Rn une application de

classe C 1 sur l’ouvert Ω de Rm . Alors le graphe de f ,
Γf := {(x, f (x)) | x ∈ Ω}
est une sous-variété de Rm × Rn = Rm+n , de dimension m. En effet, Γf est inclus
dans l’ouvert U = Ω × Rn , et l’application
Φ : (x, y) 7→ (x, y − f (x))

41
est un C 1 -difféomorphisme de U dans U qui envoie Γf sur E ∩ U , où E est le
sous-espace vectoriel Rm × {0}, qui est de dimension m. Pour démontrer la phrase
précédente, trouver le difféomorphisme réciproque Φ−1 .

• Le cercle unité de R2 ,

S1 = {(x, y) | x2 + y 2 = 1}

est une sous-variété de R2 de dimension 1. Montrons en effet que le cercle est

lisse en chacun de ses points. La partie du cercle dans le demi-plan supérieur
P+ = {(x, y) | y > 0} est le graphe de la fonction

] − 1, 1[ → R
√
x 7→ 1 − x2

qui est de classe C 1 sur cet ouvert. D’après le point précédent, S1 est lisse en chacun
des points du demi-plan supérieur. Un argument analogue donne la “lissité” en
chacun des points du demi-plan inférieur. Il reste les deux points (−1, 0) et (1, 0).
On peut les traiter de façon analogue en inversant les rôles des deux coordonnées,
c’est-à-dire p
en décrivant le cercle au voisinage de (−1, 0), par exemple, comme le
graphe {(− 1 − y 2 , y) | y ∈] − 1, 1[}. Une autre solution consiste à utiliser la
rotation d’un quart-de-tour, R : (x, y) 7→ (y, −x). C’est un difféomorphisme qui
envoie le point (0, 1) sur le point (1, 0), et qui laisse le cercle S1 invariant ; puisque
S1 est lisse au point (1, 0), R(S1 ) = S1 est lisse au point R(1, 0) = (0, 1).

• Premier contre-exemple. Le graphe de la fonction x 7→ |x| n’est pas une sous-

variété du plan. En effet, il n’est pas lisse au point (0, 0). Ceci n’est pas tout à
fait évident ; la notion de sous-espace tangent, que nous introduisons maintenant,
va nous permettre de montrer qu’il n’existe aucun difféomorphisme qui redresse
ce graphe au voisinage du point (0, 0).

(b) Sous-espace tangent

Pour une partie quelconque. Soit S une partie de Rn , et a ∈ S. Un vecteur
~v ∈ Rn est tangent à S au point a s’il existe ε > 0 et une application γ : ]−ε, ε[→ Rn , Les vecteurs tangents à S
de classe C 1 , telle que l’image de γ est inclue dans S, γ(0) = a et γ 0 (0) = ~v . On sont donc les vecteurs
vitesses des courbes
note Ta S l’ensemble des vecteurs tangents à S au point a.
tracées sur S. Faire un
dessin !
Proposition. Soit Ψ un difféomorphisme de Rn , ou plus généralement un
difféomorphisme entre un ouvert O de Rn contenant S, et son image Ψ(O). Alors
on a
TΨ(a) Ψ(S) = DΨ(a)(Ta S).

Pour comprendre la proposition, prenons d’abord un vecteur ~v tangent à S

au point a, et une courbe γ tracée sur S comme dans la définition des vecteurs
tangents, telle que γ 0 (0) = ~v . La courbe Ψ ◦ γ est tracée sur Ψ(S), elle passe par
le point Ψ(a) au temps t = 0, et par composition on a

(Ψ ◦ γ)0 (0) = DΨ(γ(0)).γ 0 (0) = Dψ(a).~v ,

42
ce qui montre que l’image du vecteur ~v par la différentielle est tangent à Ψ(S)
au point Ψ(a). Ceci montre que DΨ(a)(Ta S) ⊂ TΨ(a) Ψ(S), qui est l’une des
deux inclusions énoncées dans la proposition. On obtient l’inclusion réciproque
de façon tout à fait analogue, ou même en appliquant cette première inclusion au
difféomorphisme Ψ0 = Ψ−1 , à la partie S 0 = Ψ(S) et au point a0 = Ψ(a).

Pour un sous-espace vectoriel Soit E un sous-espace vectoriel de Rn , et a

un point quelconque de E. Si γ : ] − ε, ε[→ E est une courbe tracée sur E qui
est dérivable en t = 0, le vecteur vitesse γ 0 (0) appartient évidemment à E (pour
démontrer cette “évidence”, revenez à la définition du vecteur dérivé (section (b)
des commentaires du chapitre I), et utilisez qu’en dimension finie tout sous-
espace vectoriel est fermé). Autrement dit tout vecteur tangent à E est inclus
dans E. D’autre part tout vecteur ~v de E est le vecteur vitesse de la courbe
γ~v : t 7→ a + t~v qui est tracée sur E, ce qui montre l’inclusion réciproque :
finalement, on a Ta E = E.
Profitons-en pour faire la remarque suivante. Soit U un ouvert contenant a.
Pour ε > 0 assez petit on a γ~v (] − ε, ε[) ⊂ E ∩ U , et le vecteur ~v est donc aussi
tangent à E ∩ U . On en déduit que Ta (E ∩ U ) = Ta E = E.

Pour une sous-variété Supposons maintenant que S est une sous-variété de

dimension d, soit a un point de S. Soit Φ un difféomorphisme redressant S au
voisinage du point a, donné par la définition d’une sous-variété. On a Φ(S ∩ U ) =
E ∩ V . Nous avons vu au paragraphe précédent que E et E ∩ V ont le même
espace tangent au point Φ(a) ; le même raisonnement montre que S et S ∩ U ont
le même espace tangent au point a (vérifier !). La proposition précédente nous
dit alors que Ta S est l’image de Ta E par l’inverse de la différentielle DΦ(a). Or
Ta E est un sous-espace vectoriel et la différentielle est linéaire. Nous obtenons
ainsi le résultat fondamental suivant.

Théorème. Si S une sous-variété de Rn de dimension d, alors en tout point a

de S l’espace tangent Ta S est un sous-espace vectoriel de Rn de dimension d.

L’ensemble des vecteurs tangents à la sous-variété S au point a est appelé

espace vectoriel tangent à S au point a. L’espace affine a + Ta S, qui lui est parallèle et
passe par le point a, est appelé espace affine tangent. Une animation montrant
les plans affines tangents
Nous avons maintenant les outils pour montrer que le graphe de la valeur à un ballon de rugby.
absolue n’est pas une sous-variété.

Exercice 39.—
1. Soit γ : ] − ε, ε[→ R2 une courbe dérivable telle que γ(0) = 0. Supposons que l’image de γ
soit incluse dans le graphe Γ de la fonction valeur absolue. Que pensez-vous du vecteur γ 0 (0) ?
Pouvez-vous faire une conjecture ?
2. Nous voulons déterminer l’espace tangent à Γ au point (0, 0). Notons (v1 , v2 ) = γ 0 (0). On a
donc, pour tout t ∈] − ε, ε[,
tv1 + o1 (t)
γ(t) =
tv2 + o2 (t)

43
et |tv1 + o1 (t)| = tv2 + o2 (t). A l’aide du signe, montrer d’abord que v2 = 0. On en déduit que
|tv1 + o1 (t)| est négligeable devant t ; en calculant la limite
|tv1 + o1 (t)|
lim ,
t→0 |t|
en déduire que v1 = 0. Conclure.
3. En déduire que Γ n’est pas lisse au point (0, 0).
4. Par contre, montrer qu’il existe un homéomorphisme du plan qui redresse Γ au voisinage de
(0, 0). Trouver même un homéomorphisme du plan qui envoie Γ sur l’axe des abscisses. (On dit
que Γ est une sous-variété topologique).

Sous-espace tangent à un graphe Soit f : Ω → Rn une application de classe

C 1 sur l’ouvert Ω de Rm . Nous avons vu que le graphe Γf est une sous-variété de
dimension m de l’espace vectoriel Rm+n . Déterminons le sous-espace tangent à Γf
en un point (a, f (a)). Pour tout vecteur ~h de Rm , la courbe

γ : t 7→ (a + t~h, f (a + t~h))
est incluse dans Γf et passe par le point (a, f (a)) au temps t = 0 ; on a γ 0 (0) =
(~h, Df (a).~h). Soit
P = {(~h, Df (a).~h) | ~h ∈ Rm }.
Ce qui précède montre que tout vecteur de P est tangent à Γf au point (a, f (a)).
Montrons la réciproque. L’ensemble P est l’image de l’application linéaire ~h 7→
(~h, Df (a).~h). Vérifier que cette application est injective. Son image est donc un
sous-espace vectoriel de de dimension m. Puisque P et T(a,f (a)) Γf sont deux sous-
espaces vectoriels de même dimension et que le premier est inclus dans le second,
il sont égaux.
Remarquons que P n’est rien d’autre que le graphe de l’application linéaire
Df (a). On a donc montré :
Proposition. Le graphe d’une application f : Ω → Rn de classe C 1 est une sous-
variété de dimension m, dont le sous-espace vectoriel tangent en un point (a, f (a))
est le graphe de Df (a). Le sous-espace affine tangent en ce point est le graphe de
l’application affine x 7→ f (a) + Df (a).(x − a) qui constitue la partie principale du
développement limité de f au point a à l’ordre 1.

(c) Sous-variété donnée par une équation ou un système d’équations

Soit f : Ω ⊂ Rn → R une application de classe C 1 définie sur un ouvert Ω, c
une constante. Soit S = {a ∈ Ω | f (a) = c} l’ensemble des solutions de l’équation
f (a) = c.
Théorème. Soit a un point de S en lequel la différentielle Df (a) n’est pas l’ap-
plication nulle. Alors l’ensemble S est lisse au point a, de dimension n − 1. En
particulier, si Df (a) 6= 0 pour tout point a de S, alors S est une hypersurface. De
plus, l’espace vectoriel tangent est

∂f ∂f
Ta S = Ker(Df (a)) = (h1 , . . . , hn ) | (a)h1 + · · · + (a)hn = 0 .
x1 xn

44
L’espace vectoriel tangent est donc l’ensemble des vecteurs ~h qui sont ortho-
gonaux au gradient de f au point a.

Recette de preuve.— En coordonnées, la différentielle s’écrit

∂f ∂f
Df (a) : (h1 , . . . , hn ) 7→ (a)h1 + · · · + (a)hn .
x1 xn
Si elle n’est pas nulle, c’est que l’une au moins des n dérivées partielles n’est pas nulle. Pour
fixer les idées, supposons que
∂f
(a) 6= 0.
xn
On est alors dans les conditions d’application du théorème des fonctions implicites (voir la
section (f) du chapitre). Le théorème nous dit que la dernière coordonnée, xn , est localement
déterminée par les autres. Autrement dit, S est localement le graphe d’une fonction φ : U → V
de classe C 1 , où U est un ouvert de Rn−1 et V un ouvert de R. D’autre part, nous savons que
le graphe d’une telle application est une sous-variété de dimension n − 1 (c’était le deuxième
exemple du chapitre). Ceci montre que S est lisse au point a.
Déterminons Ta S. Nous savons déjà que c’est un hyperplan vectoriel (pourquoi ?). Soit
γ : ] − ε, ε[→ S une courbe tracée sur S et telle que γ(0) = a. Que vaut f (γ(t)) ? En dérivant
l’égalité obtenue, en déduire que l’espace tangent est inclus dans le noyau de Df (a). Puisque
Df (a) n’est pas nul, son noyau est un hyperplan. Conclure en utilisant que deux hyperplans Si vos souvenirs d’algèbre
emboı̂tés sont en fait égaux. linéaire sont trop flous,
voir l’exercice ci-dessous.

Exercice 40.—(rappels d’algèbre linéaire)

1. Soit L : Rn → R une application linéaire non nulle. Que vaut l’image de L ? En déduire que
le noyau de L est de dimension n − 1. Alternativement, montrer ce dernier résultat directement,
en écrivant L en coordonnées,

L(h1 , . . . , hn ) = a1 h1 + · · · + an hn ,

et en utilisant que l’un des ai n’est pas nul pour décrire une base de l’espace des solutions de
l’équation L.h = 0.
2. Montrer que si un sous-espace vectoriel E de dimension d est strictement inclus dans un
autre sous-espace vectoriel F , alors la dimension de F est > d. On rappelle que dans un espace
vectoriel la dimension est le nombre d’éléments de n’importe quelle base de l’espace, et que toute
famille libre peut être complétée en une base.

Exemples
• La sphère Sn−1 est l’ensemble des points de Rn à distance 1 de l’origine, elle est
donc définit par l’équation f (x1 , . . . , xn ) = 1 avec f (x1 , . . . , xn ) = x21 + · · · + x2n .
La différentielle de la fonction f au point a = (a1 , . . . an ) a pour matrice

(2a1 , . . . , 2an ),

qui n’est nulle qu’au point 0. Puisque 0 n’appartient pas à Sn−1 , le théorème nous
dit que la sphère est une hypersurface de Rn . L’espace vectoriel tangent au point
a a pour équation X
ai hi = 0,
autrement dit il s’agit de l’hyperplan orthogonal au vecteur a.

45
• Soit T la partie de R3 d’équation f (x, y, z) = 0 avec

f (x, y, z) = 4z 2 + x2 + y 2 − 4 x2 + y 2 − 1

Calculer les dérivées partielles de f et montrer que Df ne s’annule qu’à l’origine

et sur deux cercle du plan z = 0 qui ne rencontrent pas T . Le théorème s’applique :
T est une hypersurface. On peut montrer qu’elle n’est pas homéomorphe à la
sphère S2 . On dit que T est un tore, ou une surface de genre 1.

Exercice 41.— Montrer que Sn−1 et T sont compacts. Un tore

• Soit C le cône d’équation x2 + y 2 = z 2 . Calculer la différentielle de f (x, y, z) =

x2 + y 2 − z 2 . Elle s’annule au point 0, on ne peut donc pas appliquer le théorème.
Cependant, on ne peut pas en conclure que C n’est pas une hypersurface, puisque
le théorème ne donne pas une condition nécessaire et suffisante. Examinons l’es-
pace tangent au point 0. Soit ~v = (2, 2, 4). Le point (2, 2, 4) est inclus dans C, et le
cône a la propriété d’être homogène : pour tout λ, λ(2, 2, 4) appartient encore au
cône (vérifier). La droite t 7→ t~v est donc tracée sur C, comme ~v est son vecteur
vitesse au point 0, ce vecteur est donc tangent à C au point 0.
Soit R la rotation d’axe (Oz) et d’un tiers de tour. On a R(C) = C et R(0) = 0 ;
d’après la proposition sur les espaces tangents, on en déduit que R(~v ) est aussi
tangent au cône (vérifier). Le même raisonnement s’applique au vecteur R2 (~v ).
Le cône n’est pas lisse en (0, 0)
On a ainsi obtenu trois vecteurs ~v , R(~v ), R2 (~v ) dans T0 C, vérifier qu’ils forment
une famille libre. On en déduit que C n’est pas lisse au point 0, en raisonnant par
l’absurde : si c’était le cas, son espace tangent en 0 serait un sous-espace vectoriel
de R3 contenant trois vecteurs libres. Il serait donc de dimension trois, et donc
égal à R3 . En revenant à la défintion de sous-variété, on s’aperçoit qu’une sous-
variété de R3 de dimension 3 est un ouvert de R3 . On conclut en vérifiant que C
ne contient pas de boule centrée en 0.
Par contre, le théorème s’applique à C \ {0}, qui est donc une hypersurface.

• Le groupe SL(n, R) des matrices de déterminant 1 est une hypersurface de

l’espace vectoriel Mn (R). En effet, il s’agit des solutions de l’équation det(A) = 1.
L’application det : Mn R) → R est de classe C 1 (elle s’exprime en fonction des
coordonnées comme un polynôme, homogène de degré n). On pourrait calculer sa
différentielle, mais ce n’est pas nécessaire, on veut juste voir que cette différentielle
n’est pas nulle en un point A de SL(n, R). Pour ceci, calculons

det(A + tA) = det((1 + t)A) = (1 + t)n det(A) = det(A) + ntdet(A) + o(t)

et par conséquent l’application γ : t 7→ det(A + tA) est dérivable en 0, de dérivée

γ 0 (0) = ndet(A) = n si det(A) = 1. D’autre part, par composition on a γ 0 (0) =
D(det)(A).A. Ce calcul montre donc que la différentielle du déterminant n’est pas
nulle en un point A de SL(n, R). Le théorème s’applique, et nous dit que SL(n, R)
est une hypersurface de Mn (R).

46
Cas général d’un système de p équations On va généraliser le théorème
précédent à un systèmes d’équations. Soit f1 , . . . , fp : Ω ⊂ Rn → R des ap-
plications de classe C 1 définies sur un ouvert Ω. Soit S = {a ∈ Ω | f1 (a) =
0, . . . fp (a) = 0} l’ensemble des solutions du système d’équations correspondant.
Rappelons une définition du chapitre II : le point a est dit régulier pour S si les gra-
dients ∇a f1 , . . . , ∇a fp sont linéairement indépendants. Remarquons que lorsqu’on
a une seule équation, la condition se réduit à “∇a f est linéairement indépendant”,
ce qui signifie juste que ∇a f 6= 0 : on retrouve ainsi l’hypothèse Df (a) 6= 0 de
l’énoncé précédent.

Théorème. Soit a un point régulier de S. Alors l’ensemble S est lisse au point

a, de dimension n − p. En particulier, si tout point de S est régulier, alors S est
une sous-variété de dimension n − p. De plus, l’espace vectoriel tangent est

Ta S = Ker(Df1 (a)) ∩ · · · ∩ Ker(Dfp (a)).

D’après l’exercice suivant, le sous-espace vectoriel Ta S s’interprète comme l’en-

semble des vecteurs orthogonaux à chacun des vecteurs gradients ∇a fi (ou, de
façon équivalente, à toutes leurs combinaisons linéaires).

Exercice 42.— (indispensable) Montrer que les conditions suivantes sont équivalentes :
1. h ∈ Ker(Df1 (a)) ∩ · · · ∩ Ker(Dfp (a)),
2. ∀i = 1, . . . , p, h∇a fi , hi = 0,
3. h ⊥ Vect(∇a f1 , . . . , ∇a fp ).

Recette de preuve.— Pour simplifier, faisons la preuve dans le cas de deux équations (p =
2). Par hypothèse, les deux vecteurs gradient ∇a f1 et ∇a f2 sont linéairement indépendants.
Autrement dit, l’espace engendré par les lignes de la matrice suivante (qui n’est autre que la
matrice de Df (a)), !
∂f1 ∂f1
∂x1 (a) · · · ∂xm (a)
∂f2 ∂f2
∂x1 (a) · · · ∂xm (a)

est de dimension 2. On utilise maintenant une propriété fondamentale d’algèbre linéaire : pour
toute matrice, la dimension de l’espace vectoriel engendré par les lignes est égal à la dimension
de l’espace vectoriel engendré par les colonnes (et appelée rang de la matrice). Il existe donc
deux colonnes de cette matrice qui sont linéairement indépendante. Pour simplifier, supposons
que ce sont les deux dernières, celles correspondant aux variables xm−1 et xm . on est alors dans
la situation du théorème des fonctions implicites, avec la sous-matrice 2 × 2 à droite qui est
inversible : !
∂f1 ∂f1 ∂f1 ∂f1
∂x1 (a) · · · ∂xm−2 (a) ∂xm−1 (a, b) ∂xm (a)
∂f2 ∂f2 ∂f2 ∂f2 .
∂x1 (a) · · · ∂xm−2 (a) ∂xm−1 (a) ∂xm (a)

La fin de la preuve est la même que dans le cas d’une équation : d’après le théorème des fonctions
implicites, S est localement le graphe d’une application de Rm−2 dans R2 de classe C 1 , et on
a vu qu’un tel graphe est une sous-variété de dimension m − 2. La détermination de l’espace
tangent découle aussi des mêmes arguments que dans le cas p = 1.
Dans cette preuve, nous avons fait deux hypothèses simplificatrices. Nous nous sommes
d’abord restreints au cas d’un système de 2 équations. Le cas général utilise les mêmes arguments,
seules les notations sont un peu plus compliquées (plus de pointillés dans la matrice de Df (a)...).
Ensuite, nous avons supposé que c’était les deux dernières colonnes de la matrice jacobienne de
f qui étaient libres. Dans le cas général, notons i et j les numéros de deux colonnes linéairement

47
indépendantes dans la matrice de Df (a). Le théorème des fonctions implicites s’applique à
nouveau, quite à permuter les variables, et nous dit que notre système d’équations détermine
localement xi et xj comme des fonctions de classe C 1 des autres variables. (De façon un peu
plus précise, on applique le théorème à la décomposition en somme directe Rm = X ⊕ Y où X
est l’espace vectoriel engendré par les vecteurs ei et ej de la base canonique, qui correspond aux
variables xi , xj , et Y est le sous-espace vectoriel engendré par tous les autres vecteurs de la base
canonique). On conclut comme avant.

2 2
1
Exercice 43.— Montrer que l’équation x2 + y 2 − x2 + y 2 + z2 = 100 définie une surface
3
de R . On peut montrer qu’elle n’est difféomorphe ni à la sphère ni au tore ; il s’agit d’une
surface de genre 2.

Exercice 44.— Montrer que l’ensemble

O(n) = {M ∈ Mn (R) | M t M = Id}
Une surface de genre 2
n2
des matrice dites orthogonales est une sous-variété de l’espace vectoriel Mn (R) ' R , de
dimension n(n − 1)/2.

(d) Extrema liés : la preuve !

Nous venons de voir qu’en un point régulier, un ensemble défini par p équations
dans Rn est une sous-variété de dimension n−p. En particulier, son espace tangent
est un sous-espace vectoriel de dimension n − p. Ce résultat est le point clé de la
preuve du théorème des extrema liés, que nous abordons maintenant.
Rappelons la situation. On a une partie S de Rm définie par les équations
S = {x ∈ Ω | ϕ1 (x) = · · · = ϕp (x) = 0}.
Soit a un point de S. On suppose que a est un point régulier de S : d’après le
théorème précédent, ceci entraine que S est lisse au point a, de dimension n − p.
On considère alors une fonction f : Ω → R, et on suppose que le point a est un
maximum local ou un minimum local de la restriction de f à S.
Le principe de la preuve est toujours le même : pour toute courbe γ : ] −
ε, ε[→ S telle que γ(0) = a, 0 est un extremum local de la fonction composée
f ◦ γ : ] − ε, ε[→ R, et par conséquent sa dérivée s’annule, ce qui se traduit par
Df (a).γ 0 (0) = 0 = h∇a f, γ 0 (0)i. Ceci montre que le gradient de f est orthogonal
à tout vecteur de Ta S :
∇a f ∈ (Ta S)⊥ .
D’autre part on a vu que
• Ta S = (Vect(∇a ϕ1 , . . . , ∇a ϕp ))⊥ (voir l’exercice 42),
• tout sous-espace vectoriel de Rn est égal à l’orthogonal de son orthogonal (voir
la proposition dans la preuve du cas linéaire, page 19).
On en déduit
⊥
(Ta S)⊥ = (Vect(∇a ϕ1 , . . . , ∇a ϕp ))⊥ = Vect(∇a ϕ1 , . . . , ∇a ϕp ),
ce qui montre que le gradient de f au point a s’écrit comme une combinaison
linéaire des gradients des fonctions ϕi , ce que l’on voulait montrer.

48
(e) Sous-variété donnée par un paramétrage
Soit Γ : Ω ⊂ Rd → Rn une application de classe C 1 .
Théorème. Soit a un point de Ω en lequel la différentielle de Γ est injective.
Alors il existe un ouvert U contenant a tel que SU = Γ(U ) est une sous-variété
de dimension d, et en posant p = Γ(a),

Tp SU = Im(DΓ(a)).

Recette de preuve.— On écrit Γ = (γ1 , . . . , γn ). Si DΓ(a) est injective, sa matrice contient une
sous-matrice carrée de taille d × d qui est inversible. Pour simplifier, supposons que cette sous-
matrice est la sous-matrice-carrée formée des d premières lignes de la matrice de DΓ(a), c’est-
à-dire la matrice de DΓ̂(a), où Γ̂ = (γ1 , . . . , γd ) (les autre cas compliquent juste les notations) ;
remarquons qu’on a Γ = (Γ̂, γd+1 , . . . , γn ). On peut alors appliquer le théorème d’inversion locale
à l’application Γ̂ : Ω → Rd au point a : il nous fournit un ouvert U de Rd tel que V := Γ̂(U )
est un ouvert de Rd , et tel que Γ̂|U : U → V est un C 1 -difféomorphisme, dont on note Γ̂−1 la
réciproque. Pour tout y ∈ V on a

ΓΓ̂−1 (y) = (Γ̂Γ̂−1 (y), γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y)) = (y, γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y))

et donc
{ΓΓ̂−1 (y) | y ∈ V } = {(y, γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y)) | y ∈ V }
est le graphe de la restriction à V de l’application Φ : y 7→ γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y), mais
d’autre part uisque Γ̂ est une bijection entre U et V , cet ensemble s’écrit aussi

{Γ(x) | x ∈ U } = Γ(U ).

Conclusion : Γ(U ) est le graphe d’une application de classe C 1 . Nous avons vu que ceci est une
sous-variété de classe C 1 de dimension d.
Déterminons Tp SU . En considérant les courbes t 7→ Γ(t~h) pour un vecteur ~h de Rd donné,
on voit que Tp SU contient l’image de DΓ(a) ; puisque DΓ(a) est injective, son image est de
dimension d, ce qui conclut.

V.2 Commentaires
(a) Équations différentielles sur les sous-variétés
Sur une sous-variété, on peut généraliser les notions de calcul différentiel que
nous avons définies dans le cadre des espaces vectoriels normés. Par exemple,
on peut définir la notion d’application différentiable d’une sous-variété dans
une autre, ou ce qu’est une équation différentielle sur une sous-variété. Ces
généralisations sont très utiles. Donnons un exemple. Considérons un astéroı̈de
dans l’espace, en mouvement autour de son centre de gravité. Choisissons une
position de référence pour ce corps solide, et plaçons l’origine de R3 à son centre
de gravité. Pour chaque position possible du solide, il existe alors une unique ro-
tation vectorielle qui envoie la position de référence sur cette nouvelle position.
L’ensemble des rotations vectorielles de R3 est généralement appelé SO(3),et on
voit ainsi que l’espace de configuration est naturellement SO(3), qui est une sous-
variété de l’espace vectoriel M3 (R). Le mouvement de ce solide est alors décrit
par des équations différentielles (étudiées par Euler et Poinsot notamment), sur
SO(3).

49
(b) Noeuds
Un noeud est une sous-variété de dimension 1 de R3 qui est compacte
et connexe. On considère que deux noeuds sont équivalents s’il existe un
difféomorphisme de R3 qui envoie le premier sur le second. 3 Un cercle de R3 est
l’exemple le plus simple de noeuds. Le noeud de trèfle est un exemple de noeud qui
n’est pas équivalent au cercle (mais démontrer qu’il n’y a aucun difféomorphisme
qui envoie le noeud de trèfle sur le cercle n’est pas si simple ! On peut trouver
un argument ici.) La question fondamentale de la théorie des noeuds est de
décrire toutes les classes d’équivalence des noeuds. Il n’est pas difficile de faire une
liste des dessins de tous les noeuds possibles, mais on ne sait pas encore comment
décider avec certitude si deux dessins de la liste sont équivalents ou non !

V.3 Exercices
source : Wikipedia
Exercice 45.— (algèbre linéaire) En utilisant le théorème de la base incomplète, montrer
que pour tout sous-espaces vectoriels E, F de Rn ayant la même dimension d, il existe un
isomorphisme Φ de Rn tel que Φ(E) = F .

2
Exercice 46.— La Lemniscate, d’équation x2 + y 2 = x2 − y 2 , est-elle une sous-variété du
plan ? On pourra s’aider du dessin ci-dessous.

Exercice 47.—(Distorsion d’un noeud)

Soit γ : R → R3 une application `-périodique, de classe C 1 . On dit que l’image de γ est
une courbe fermée. On suppose que kγ 0 (t)k = 1 pour tout réel t, autrement dit la courbe est
parcourue à vitesse constante égale à 1. On définit alors la distorsion de γ comme le nombre

|s − t| `
δ(γ) = sup | s, t ∈ R tels que |s − t| ≤ .
kγ(s) − γ(t)k 2
Autrement dit, la distorsion est le plus grand rapport entre la distance entre deux points de la
courbe, le long de la courbe, et la distance entre ces même points dans R3 (“à vol d’oiseau”).
Le but de l’exercice est de montrer que la distorsion d’une courbe est toujours au moins
égale à π2 .
1. Montrer que la distorsion d’un cercle vaut bien π2 .

On introduit la fonction r(s) := γ(s + 2` ) − γ(s) , et le vecteur unitaire indiquant la direc-

tion entre les points γ(s) et γ(s + 2` ),

1 `
u(s) = γ(s + ) − γ(s) .
r(s) 2

3. Plus précisément, on demande un difféomorphisme f qui “préserve l’orientation”, c’est-à-

dire que la matrice jacobienne Jf (x) a un déterminant positif (pour tout x). On peut montrer
que ceci revient à dire qu’on peut passer continument du premier noeud au second, ce qui
correspond à l’idée intuitive de déformation d’un élastique noué.

50
Cette formule définit une application `-périodique de R dans la sphère unité de R3 , autrement
dit une courbe fermée sur la sphère.
2. Donner une minoration de r(s) à l’aide de δ(γ). On numérote (1) cette inégalité.
3. Comparer u( 2` ) et u(0). En déduire que la longueur de la courbe u,
Z `
L(u) := ku0 (t)k dt
0

est supérieure ou égale à 2π. On numérote (2) cette inégalité. (On pourra admettre qu’une
courbe joignant deux points antipodaux sur la sphère unité à une longueur au moins égale à π).
4. Dériver la relation ku(s)k = 1 pour montrer que les vecteur u(s) et u0 (s) sont orthogonaux.
5. Calculer u0 (s). En utilisant le théorème de Pythagore (et la question précédente), en déduire
que
2
ku0 (s)k ≤ (3).
r(s)
6. Conclure, à l’aide de (1), (2) et (3).

Cet exercice accompagne un article à paraı̂tre à Images des mathématiques, intitulé “des
noeuds très distordus”.

51
VI Différentielles d’ordre supérieur
VI.1 Théorie
Dans ce chapitre, on considère deux espaces vectoriels normés E, F de dimen-
sions finies, et une application f : Ω → F définie sur un ouvert de E. On suppose
que f est différentiable sur Ω. La différentielle Df est alors une application de Ω
vers l’espace vectoriel normé L(E, F ).

(a) Dérivées partielles d’ordre 2, différentielle seconde

On dira que f est de classe C 2 sur Ω si l’application Df est de classe C 1 sur
Ω. Lorsque E = Rm , on dit que f admet des dérivées partielles d’ordre 2 si les dérivées
partielles
∂f
, i = 1...m
∂xi
admettent elles mêmes des dérivées partielles selon toutes les variables,
∂ 2f

∂ ∂f
:= , i = 1 . . . m, j = 1 . . . m.
∂xj ∂xi ∂xj ∂xi

Théorème. L’application f est de classe C 2 sur Ω si et seulement si elle vérifie

les deux conditions suivantes :
– elle admet des dérivées partielles d’ordre 2,
– toutes ses dérivées partielles (il y en a m2 ) sont des applications continues
sur Ω.
Dans ce cas, pour tous vecteurs ~h = (h1 , . . . , hm ), ~k = (k1 , . . . , km ) de E, l’appli-
cation ∂f
∂~h
admet une dérivée selon le vecteur ~h, et on a

∂ ∂f X ∂ ∂f
= hi kj .
∂~k ∂~h 1≤i,j≤m
∂xj ∂xi

La preuve de la première partie du lemme consiste essentiellement à appliquer

le critère sur les applications de classe C 1 à l’application Df . Rappelons que Df Voir Chapitre III,
est une application de Ω dans l’espace vectoriel normé L(E, F ) ; par conséquent section (b).
sa différentielle, D(Df ), va de Ω dans L(E, L(E, F )). La définition des dérivées
selon un vecteur entraı̂ne l’égalité
∂ ∂f
(a) = D(Df )(a)(~h)(~k).
~ ~
∂k ∂h
Par définition, le membre de droite est linéaire en ~h et en ~k ; la formule du théorème
est une conséquence de cette linéarité. Les détails sont laissés au lecteur.

Lorsque f est de classe C 2 , pour tout point a l’application

2 ~ ~ ∂ ∂f X ∂ 2f
D f (a) : (h, k) 7−→ (a) = hi kj (a)
∂~k ∂~h 1≤i,j≤m
∂xj ∂xi

est bilinéaire. On l’appelle différentielle seconde de f au point a.

52
Lorsque f est à valeurs dans R, sa différentielle seconde au point a est une
application bilinéaire de Rm dans R, une forme bilinéaire. La matrice de cette forme
bilinéaire dans la base canonique est la matrice carrée contenant les dérivées par-
tielles d’ordre 2 ; elle est appelée hessienne de f au point a :
 ∂2f ∂f

∂x ∂x
(a) · · · ∂xm ∂x1
(a)
 1 .. 1 .. ..
Hf (a) =  .

. . .
∂f ∂f
∂x1 ∂xm
(a) ··· ∂xm ∂xm
(a)

Exemples
• Un calcul explicite Soit f la fonction de R2 dans R donnée par f (x, y) =
x4 + y 4 − 4xy. Les dérivées partielles d’ordre 1 sont
∂f ∂f
(x, y) = 4x3 , −4y (x, y) = 4y 3 − 4x.
∂x ∂y
Les dérivées partielles secondes sont

∂ 2f ∂ 2f ∂ 2f ∂ 2f
(x, y) = 12x2 , (x, y) = −4 (x, y) = −4, (x, y) = 12y 2 .
∂x∂x ∂y∂x ∂x∂y ∂y∂y
Exprimons la différentielle seconde au point (1, 1). On a

∂ 2f ∂ 2f ∂ 2f ∂ 2f
(1, 1) = 12, (1, 1) = −4 (1, 1) = −4, (1, 1) = 12.
∂x∂x ∂y∂x ∂x∂y ∂y∂y

Et donc, pour un vecteur ~h = (h1 , h2 ), La différentielle seconde

au point (1, 1) est une
D2 f (a)(1, 1)(~h, ~h) = 12h21 + 12h22 − 2 × 4h1 h2 . fonction de deux vecteurs
~h et ~k, mais dans la suite
elle n’interviendra que
• Applications linéaires et bilinéaires Si L : E → F est linéaire, alors sa sous la forme de
différentielle DL : E → L(E, F ) est constante, DL(a) = L pour tout a ∈ E. Par D2 f (a)(~h, ~h), avec deux
conséquent sa différentielle seconde est nulle. fois le même vecteur.
Si B : E × E → F est bilinéaire, sa différentielle DB est l’application

E × E −→ L(E × E, F )
(x, y) 7−→ B(x, .) + B(., y)

où B(x, .) + B(., y) désigne l’application (~h, ~k) 7→ B(x, ~k) + B(~h, y). Pour (x, y)
donné, l’application DB(x, y) = B(x, .) + B(., y) est bien sûr linéaire (comme
la différentielle en un point donné de n’importe quelle application). Ce qui est
spécifique des applications bilinéaires, c’est que l’application DB : (x, y) 7→
DB(x, y) est elle-même linéaire . Comme la différentielle d’une application linéaire DB est un élément de
est constante, égale en tout point à elle-même, on en déduit que pour tout (x, y), L(E × E, L(E × E, F )) !
D2 B(x, y) = B, c’est-à-dire que pour tout ~h, ~k,

D2 B(x, y)(~h, ~k) = B(~h, ~k).

• Dérivée seconde le long d’une droite Soit f de classe C 2 au voisinage du

point a, ~h un vecteur fixé, posons γ(t) = f (a + t~h), et cherchons à calculer γ 00 (0).

53
On a déjà vu la formule de dérivation pour une composition γ = f ◦ α où α est
définie sur un intervalle de R, Ce passage est difficile,
pour le comprendre il
(?) (f ◦ α)0 (t) = Df (α(t)).α0 (t). faut avoir parfaitement
saisi la différence entre
(chapitre I, commentaires, section (b)). On a en particulier γ 0 (t) = Df (a + t~h).~h. l’application Df (a), qui
est linéaire de E dans F ,
Il faut maintenant dériver l’application γ 0 . L’application Γ : t 7→ Df (a + t~h) et l’application Df , qui
est du même type que γ, on peut lui appliquer la formule (?), ce qui donne n’est en général pas
Γ0 (0) = D(Df )(0).~h. Revenons à γ 0 (t) = Γ(t).~h. L’application Γ est à valeurs linéaire, et va de Ω dans
L(E, F ).
dans l’espace L(E, F ) des applications linéaires, et on l’évalue en un vecteur ~h
qui est fixe (il ne dépend pas de t). Pour ~h fixé, l’application L~h : A 7→ A.h,
qui va de L(E, F ) dans F , est linéaire. On peut écrire γ(t) = L~h .Γ(t). Pour On se souvient que
dériver cette application, on peut donc appliquer à nouveau la formule (?), en se D(Df )(a) est un élément
souvenant que la différentielle d’une application linéaire est elle-même : on a donc de L(E, L(E, F )) :
autrement dit, on doit
γ 00 (0) = L~h .Γ0 (0) = Γ0 (0).~h = (D(Df )(0).~h).~h = D2 f (0)(~h, ~h). l’évaluer en un vecteur de
Le calcul peut aussi se faire en coordonnées. Partons de E, et on obtient un
élément de L(E, F ). Par
m
X ∂f conséquent D(Df )(0).~h a
γ (t) = Df (a + t~h).~h =
0
(a + t~h)hi . bien un sens, c’est un
i=1
∂x i
élément de L(E, F ), on
va pouvoir à nouveau
Appliquer la même formule pour obtenir la dérivée de chaque fonction t 7→ l’évaluer en ~h pour
∂f
∂xi
(a + t~h). Réinjecter dans la somme ci-dessus, puis évaluer en t = 0. Vérifier obtenir un élément de F .
enfin qu’on retrouve bien la formule donnant D2 f (a)(~h, ~h) en coordonnées. Rete-
nons le résultat de ce calcul sous la forme d’un lemme qui nous servira plus bas
dans la preuve de la formule de Taylor.
Lemme. Soit f de classe C 2 , a ∈ Ω et ~h ∈ E. Posons γ(t) = f (a + t~h). Alors

γ 00 (0) = D2 f (~h, ~h).

Opérations On démontre, comme pour les applications de classe C 1 , que la

somme, le produit, la composée, l’inverse d’une application de classe C 2 sont des
applications de classe C 2 .

(b) Lemme de Schwarz

Sur le premier exemple calculé plus haut, nous avons trouvé que les dérivées
∂2f ∂2f
partielles ∂y∂x (x, y) et ∂x∂y (x, y) étaient égales. Ceci est un cas particulier du
lemme de Schwarz, qui dit que la différentielle seconde est une forme bilinéaire
symétrique.
Théorème. Soit f une application de classe C 2 sur un ouvert contenant a. Alors

D2 (f )(a)(~h, ~k) = D2 (f )(a)(~k, ~h)

pour tous vecteurs ~h, ~k. En coordonnées, ceci signifie que pour tous i, j ∈
{1, . . . , m},
∂ 2f ∂ 2f
(a) = (a).
∂xj ∂xi ∂xi ∂xj

54
Recette de preuve.— Commençons par considérer le cas où E = R2 , F = R, a = (0, 0) : f
est une application de classe C 2 sur un ouvert de R2 contenant (0, 0) et à valeurs dans R, et
montrons l’égalité des deux dérivées partielles secondes
∂2f ∂2f
= .
∂y∂x ∂x∂y
Pour ça, posons pour tout t assez petit
∆(t) = f (t, t) − f (t, 0) − f (0, t) + f (0, 0).
Lemme. On a
∆(t) ∂2f
2
lim= (0, 0).
t→0 t ∂x∂y
Montrons le lemme. Pour un t fixé, on a d’abord
Z 1
∂f
(1) f (t, t) − f (t, 0) = t (t, st)ds.
0 ∂y
R1
En effet, t ∂f
∂y (t, st) est la dérivée de l’application γ : s 7→ f (t, st), et l’égalité suit de 0
γ 0 (s)ds =
γ(1) − γ(0). Un argument analogue donne
Z 1
∂f
(2) f (0, t) − f (0, 0) = t (0, ts)ds.
0 ∂y
On déduit de (1) et (2) l’égalité
Z 1
∂f ∂f
(3) ∆(t) = t (t, st) − (0, st) ds.
0 ∂y ∂y
Pour les mêmes raisons qu’avant, le terme à l’intérieur de l’intégrale s’écrit à son tour, pour t
fixé, Z 1
∂f ∂f ∂ ∂f
(t, st) − (0, st) = t (rt, st)dr
∂y ∂y 0 ∂x ∂y
et en injectant cette égalité dans (3) on obtient
Z 1 Z 1 2
2 ∂ f
(4) ∆(t) = t (rt, st)dr ds.
0 0 ∂x∂y
La fin de la preuve du lemme consiste à utiliser la continuité de la dérivée partielle seconde
au point (0, 0). Pour ε > 0, il existe δ > 0 tel que pour tout x, y ∈] − δ, δ[,
∂2f ∂2f ∂2f
(0, 0) − ε < (x, y) < (0, 0) + ε.
∂x∂y ∂x∂y ∂x∂y
Fixons un réel t ∈]−δ, δ[. Pour tout r, s ∈ [0, 1] on a encore rt, st ∈]−δ, δ[, et donc l’encadrement
précédent est vérifié pour x = rt et y = st. En intégrant cet encadrement et en utilisant
l’égalité (4), on obtient
∂2f ∆(t) ∂2f
(0, 0) − ε < 2 < (0, 0) + ε.
∂x∂y t ∂x∂y
Ceci termine la preuve du lemme. Souligner les parties du
texte correspondant à la
En inversant les rôles des variables x et y, on montre de même que définition de la limite
∆(t) ∂2f réclamée par le lemme.
lim 2
= (0, 0).
t→0 t ∂y∂x
On en déduit bien sûr l’égalité des deux dérivées partielles secondes.

Dans le cadre général de l’énoncé du lemme de Schwarz, on se ramène au cas particulier que
nous venons de traiter en posant F (x, y) = f (a + x~h + y~k). En effet, on a alors
∂2F ∂2f ∂2F ∂2f
(0, 0) = (a) et (0, 0) = (a).
∂x∂y ∂v∂w ∂y∂x ∂w∂v

55
(c) Formule de Taylor à l’ordre 2
La différentielle seconde permet d’affiner le développement limité qui est
donné, par définition, par la différentielle. La formule de Taylor à l’ordre 2 est
surtout intéressante en un point a où la différentielle s’annule, en particulier pour
étudier l’allure locale de la fonction au voisinage de a, et trouver des conditions
pour que le point a soit un maximum ou un miminum local, ce que nous ferons
dans la section suivante.

Théorème. Soit f une application de classe C 2 sur un ouvert contenant a. Alors

1
f (a + ~h) = f (a) + Df (a).~h + D2 (f )(a)(~h, ~h) + o2 (~h)
2
2
avec o2 (~h) négligeable devant ~h , c’est-à-dire

o2 (~h)
lim 2 = 0.
~h→0 ~h

Recette de preuve.— Dans cette preuve nous allons utiliser explicitement la continuité de
D2 f . Rappelons que D2 f est une application de Ω à valeurs dans l’espace vectoriel B(E, F ) des
applications bilinéaires de E dans F . Puisque E et F sont de dimensions finies, c’est aussi le
cas de B(E, F ), et nous pouvons choisir n’importe quelle norme sur cet espace, puisqu’elles sont
toutes équivalentes. La norme qui nous intéresse est définie de façon analogue à la norme sur
L(E, F ) par
kB(v, w)k
kBk = sup .
v6=0,w6=0 kvk kwk

Une conséquence immédiate de cette définition est l’inégalité

kB(v, w)k ≤ kBk kvk kwk

qui est valable pour tous vecteurs v, w de E.

Passons à la démonstration de la formule. En choisissant une base de F , on est ramenée à
vérifier la formule pour chacune des composantes fi de f , qui sont à valeurs dans R. On peut
donc supposer dans toute la preuve que F = R. Soit ~h un vecteur assez petit pour que tout le
segment [a, a+~h] soit inclus dans l’ouvert Ω sur lequel f est de classe C 2 . Posons γ(t) = f (a+t~h).
On a γ 0 (0) = Df (a).~h et γ 00 (0) = D2 f (a)(~h, ~h) (voir le lemme page 54). On utilise maintenant Cette formule se déduit
la formule de Taylor avec reste intégrale pour les fonctions d’une variable : pour notre fonction rapidement
R1 0 de l’égalité
γ : I → R de classe C 2 sur définie sur un ouvert de R contenant 0, on a 0
γ (t)dt = γ(1) − γ(0)
Z 1 en transformant
γ(1) = γ(0) + γ 0 (0) + (1 − t)γ 00 (t)dt. l’intégrale avec une
0 intégration par partie
(poser u(t) = γ 0 (t) et
Ici on obtient donc
v(t) = (t − 1)).
Z 1
f (a + ~h) = f (a) + Df (a).~h + (1 − t)D2 f (a + th)(~h, ~h)dt.
0

(Cette dernère formule est une généralisation en dimension supérieure de la formule de Taylor
avec reste intégrale.)
Soit maintenant ε > 0. Puisque f est de classe C 2 , sa différentielle seconde est continue : il
existe δ > 0 tel que pour tout vecteur ~v de norme inférieure à δ,

D2 f (a + ~v ) − D2 f (a) < ε.

56
Soit ~h dans la boule B(0, δ). Pour tout t dans [0, 1] le vecteur ~v = t~h appartient aussi à cette
boule, et on a
2 2
−ε ~h < D2 f (a + t~h)(~h, ~h) − D2 f (a)(~h, ~h) < ε ~h .

On multiplie cet encadrement par (1 − t) et on intègre, on obtient

2
Z 1 2
1 1 1
− ε ~h < (1 − t)D2 f (a + t~h)(~h, ~h)dt − D2 f (a)(~h, ~h) < ε ~h . Noter que le nombre
2 0 2 2
C = D2 f (a)(~h, ~h) ne
Notons o2 (~h) le nombre central de cet encadrement : on a dépend pas de t : le terme
1
Z 1 2 vient de l’intégration de
1 C(1 − t).
(1 − t)D2 f (a + t~h)(~h, ~h)dt = D2 f (a)(~h, ~h) + o2 (~h).
0 2

D’autre part nous avons montré que pour tout ε > 0 il existe δ > 0 tel que pour tout ~h < δ
on a
o2 (~h)
2 < ε.
~h

2
Autrement dit, o2 (~h) est négligeable devant ~h . Ceci termine la preuve.

Trouver l’endroit de la preuve où on a utilisé l’inégalité donnée par la définition, rappelée
au début de la preuve, de la norme d’une application bilinéaire !

Exemple Reprenons la fonction f (x, y) = x4 + y 4 − 4xy dont on a calculé plus

haut les dérivées partielles d’ordre 1 et 2. Soit a = (1, 1). Les dérivées partielles
d’ordre 1 s’annule en a, on a donc

f (1 + h1 , 1 + h2 ) = f (1, 1) + 21 D2 f (a)(~h, ~h) + o2 (h)

= −2 + 12 (12h21 + 12h22 − 2 × 4h1 h2 ) + o2 (~h).

Exercice 48.— Vérifier qu’en dimension 1, la formule du théorème redonne bien la formule de
Taylor usuelle. On pourra se reporter à la définition de la différentielle, exemple II, pour le lien
entre différentielle et dérivée, et utiliser la dérivée seconde le long d’une droite calculée dans les
exemples de la section (a).
Malheureusement, il
n’existe aucun énoncé
donnant une condition
(d) Extrema locaux : conditions d’ordre deux à la fois nécessaire et
suffisante pour qu’une
Au chapitre II, nous avons décrit une relation entre la différentielle et les fonction ait un maximum
extrema. La différentielle seconde permet d’énoncer des critères plus précis. Com- local en un point :
mençons par nous rappeler ce qui se passe en une variable. certains énoncés donnent
une condition nécessaire,
Exercice 49.— (cas où E = R) Soit Ω un ouvert de R, f : Ω → R et a un point de Ω. Avant et d’autres une condition
de regarder la suite du cours, discuter des liens logiques entre les propriétés suivantes : suffisante. Cette difficulté
existe déjà en une
1. f a un minimum local au point a,
variable, et il vaut mieux
2. f a un minimum local strict au point a, avoir les idées claires
3. f 0 (a) = 0, pour les fonctions de R
4. f 00 (a) ≥ 0, dans R avant d’aller voir
ce qui se passe en
dimension supérieure.
57
5. f 00 (a) > 0.
On pourra s’aider des exemples x 7→ x2 , x 7→ x3 , x 7→ x4 .

On considère une fonction f : Ω → R, où Ω est un ouvert d’un espace vectoriel

normé E. On suppose que f est de classe C 2 . Soit a un point de Ω. Voici nos deux
critères d’ordre 2.
Théorème. Supposons que

Df (a) = 0 et ∀~h ∈ E non nul, D2 f (a)(~h, ~h) > 0.

Alors la fonction f admet un minimum local strict au point a : il existe ε > 0 tel que
pour tout x différent de a et dans la boule B(a, ε), f (x) > f (a).
Théorème. Si la fonction f admet un minimum local au point a, alors

Df (a) = 0 et ∀~h ∈ E, D2 f (a)(~h, ~h) ≥ 0.

On a bien sûr deux énoncés analogues pour les maximum locaux, en inversant
le sens des inégalités sur la différentielle seconde.

Recette de preuve.— Démontrons d’abord le deuxième théorème. On a une fonction f de

classe C 2 au voisinage d’un point a, en lequel f admet un minimum local. Soit ~h un vecteur fixé.
On a déjà démontré, au chapitre II, la condition d’ordre 1 : Df (a).~h = 0. On veut maintenant
montrer que D2 f (a)(~h, ~h) ≥ 0. Utilisons la même approche que dans la preuve de la condition
d’ordre 1. La fonction d’une variable ϕ : t 7→ f (a + t~h) admet un minimum local en 0. Or cette
fonction est de classe C 2 , elle admet un développement limité à l’ordre 2 : pour tout t 6= 0 assez
petit,
ϕ(t) = ϕ(0) + tϕ0 (0) + 21 t2 ϕ00 (0) + o2 (t)

= f (a) + tDf (a).~h + 12 t2 D2 f (a)(~h, ~h) + o2 (t)

o2 (t)
= f (a) + 0 + 12 t2 D2 f (a)(~h, ~h) + t2

avec o2 (t) négligeable devant t2 . Lorsque t tend vers 0, le terme entre parenthèse tend donc vers
D2 f (a)(~h, ~h). Si on avait D2 f (a)(~h, ~h) < 0, alors ce terme entre parenthèses serait strictement
négatif pour tout t assez petit, on aurait ϕ(a + t) < ϕ(a) pour tout t 6= 0 assez petit, ce
qui contredirait le fait que la fonction ϕ admet un minimum local au point 0. On a donc
D2 f (a)(~h, ~h) ≥ 0, comme voulu.

Passons à la preuve du premier théorème. On a une fonction f de classe C 2 au voisinage

d’un point a, cette fois-ci nous supposons que Df (a) = 0 et que D2 f (a)(~h, ~h) > 0 pour tout
vecteur ~h 6= 0 ; il s’agit de montrer que f admet un minimum local au point a. Commençons
par expliquer un argument incorrect. On reprend la méthode de la preuve précédente : pour
un vecteur ~h fixé, on considère ϕ : t 7→ f (a + t~h). Écrivons le développement limité à l’ordre 2
en 0 de cette fonction : on a
1
f (a + t~h) = f (a) + t2 D2 f (a)(~h, ~h) + o2 (t).
2

Comme D2 f (a)(~h, ~h) > 0, on en déduit que la fonction ϕ admet un minimum local au point 0.
Autrement dit, f admet un minimum local strict au point a dans la direction ~h. Comme c’est
vrai pour tout vecteur ~h 6= 0, f a bien un minimum local strict au point a.
Où est l’erreur ? Elle est dans la dernière phrase : contrairement à ce qu’elle affirme, il existe
des fonctions f : R2 → R pour lesquelles f a un minimum local strict au point 0 en restriction
à toutes les droites passant le point 0, sans que f ait un minimum local en 0.

58
Voici maintenant un argument correct. L’application ~h 7→ D2 f (a)(~h, ~h) est continue et Voici à quoi pourrait
strictement positive pour tout ~h 6= 0. Par compacité de la sphère unité de E qui est de dimension ressembler une fonction f
finie, il existe ε > 0 tel que pour tout k~v k = 1, D2 f (a)(~v , ~v ) > ε. (Cet argument vous rappelle contredisant l’argument
peut-être la preuve de l’équivalence de normes en dimension finie.) Soit maintenant un vecteur incorrect. Il existe dans le
~h 6= 0 de norme quelconque ; en utilisant la bilinéarité de D2 f (a), on obtient plan une courbe qui
  arrive au point 0 en
2 ~h ~h 2 spiralant, et le long de
D2 f (a)(~h, ~h) = ~h D2 f (a)  ,  ≥ ~h ε. laquellef prend des
~h ~h valeurs < 0, sauf au point
0 où f s’annule.
L’argument final utilise la formule de Taylor à l’ordre 2, et ressemble à celui utilisé dans la Considérons une droite
preuve de la condition d’ordre 1 : pour tout ~h 6= 0 assez petit, passant par le point 0.
Elle recoupe la spirale en
f (a + ~h) = f (a) + Df (a).~h + 12 D2 (f )(a)(~h, ~h) + o2 (~h) un autre point, et en ce
2 2 ~

≥ f (a) + 0 + ~h ε + o (h)2 .
khk
point f est < 0, mais
entre 0 et cet autre point
2 il y a assez de place pour
Puisque o2 (~h) est négligeable devant khk , lorsque ~h tend vers 0, le terme entre parenthèses tend
que f prennent des
vers ε. Il existe donc δ > 0 tel que pour tout vecteur ~h non nul dans la boule B(0, δ), ce terme
valeurs > 0, au voisinage
entre parenthèses est > 2ε , et
de 0, le long de cette
2 droite. Malheureusement
f (a + ~h) ≥ f (a) + ~h ε
2 > f (a). je n’ai pas assez de place
dans cette marge pour
Autrement dit, f admet un minimum local strict au point a. construire complètement
ce contre-exemple...

Signe de la différentielle seconde Pour appliquer les théorèmes en pratique,

on a besoin de savoir déterminer le signe de D2 f (a)(h, h) pour un a fixé et pour
tout h.
L’application h 7→ D2 f (a)(h, h) est une forme quadratique : autrement dit, en
coordonnées, il s’agit d’un polynôme homogène de degré deux (une combinaison
linéaire de fonctions du type h 7→ hi hj , produit de deux des coordonnées du point
h). Pour simplifier, considérons seulement le cas de deux variables. Concernant le
signe, il y a quatre exemples essentiels :
1. la forme quadratique Q+ : (h1 , h2 ) 7→ h21 + h22 . On a Q1 (h) > 0 pour tout
h 6= 0. On dit que Q1 est strictement positive, ou définie positive.
2. la forme quadratique Q− : (h1 , h2 ) 7→ −h21 − h22 . On a Q1 (h) < 0 pour tout
h 6= 0. On dit que Q1 est strictement négative, ou définie négative.
3. la forme quadratique Q+− : (h1 , h2 ) 7→ h21 − h22 . Ici il existe des h tels que
Q+− (h) > 0 et d’autres pour lesquels Q+− (h) < 0. On dit que Q+− est
indéfinie ou de type selle.
4. la forme quadratique Q0 : (h1 , h2 ) 7→ h21 . Elle ne prend pas de valeurs
négatives, mais il existe des h 6= 0 tels que Q0 (h) = 0. On dit qu’elle est
positive et dégénérée (parce qu’elle ne dépend que d’une variable). Il y a bien
sûr aussi le cas négatif dégénérée.
En deux variables, une forme quadratique quelconque s’écrit

Q(h1 , h2 ) = rh21 + sh22 + 2th1 h2 .

Un théorème d’algèbre linéaire nous dit que toute forme quadratique est diago-
nalisable dans une base orthonormée. En notant h01 , h02 les coordonnées dans la

59
nouvelle base, ceci signifie que Q(h1 , h2 ) = λh01 2 + µh02 2 , où λ et µ sont les valeurs
propres. En ce qui concerne le signe de Q, on est ainsi ramené à l’un des quatre
exemples essentiels. On voit en particulier que le signe de Q est déterminé par le
signe de ses valeurs propres.

Soit maintenant a un point critique de f , c’est-à-dire tel que Df (a) = 0. Soit

Q(h) = D2 f (a)(h, h).
1. Si Q est définie positive, alors f a un minimum local strict au point a (d’après Noter la différence entre
les deux derniers cas : si
le première théorème). D2 f (a) est de type selle,
2. Si elle est définie négative, f a un maximum local strict. on sait que a n’est pas
un extremum local ;
3. Si elle est de type selle, alors le point a n’est ni un minimum local, ni un par contre dans le cas
maximum local (d’après la contraposée du second théorème). dégénéré on n’a pas assez
d’information pour
4. Si elle est dégénérée, alors on ne peut pas conclure.
conclure.

Exemples
• Soit f la fonction définie sur R2 par f (x, y) = x2 + y 2 − xy − 2x − y. Cherchons
les extrema éventuels de f .
Le calcul différentiel nous permet de trouver les extrema locaux. Pour ceci,
on cherche d’abord les points critiques, c’est-à-dire les points (x, y) en lesquels la
différentielle est nulle, ce qui revient à dire que les deux dérivées partielles sont
nulles. Ici, les points critiques sont les solutions du système d’équations

2x − y − 2 = 0
2y − x + 1 = 0

qui a pour solution le point (1, 0). Pour tenter de connaitre la nature de ce point
critique, calculons les dérivées secondes en ce point : on trouve la différentielle
seconde Ne pas oublier de compter
∂2f
D2 f (1, 0)(~h, ~h) = 2h21 + 2h22 − 2h1 h2 . deux fois la dérivée ∂x∂y !

Pour pouvoir appliquer les théorèmes, il nous faut le signe de cette expression. Une
première possibilité consiste à trouver le signe des valeurs propres de la matrice
des dérivées partielles d’ordre 2, ici

2 −1
−1 2

La somme des valeurs propres vaut la trace (4), leur produit vaut le déterminant Une autre possibilité pour
(3). Somme et produit étant strictement positifs, les deux valeurs propres sont déterminer le signe
consiste à utiliser la
strictement positives, par conséquent la forme quadratique D2 f (1, 0) est définie
forme canonique :
positive. Le premier théorème ci-dessus s’applique : f admet au point (1, 0) un 2h21 + 2h22 − 2h1 h2 =
minimum local strict. Puisque f n’a pas d’autre point critique, elle n’a pas d’autre 2(h21 + h22 − h1 h2 ) =
extremum local, en particulier pas de maximum local (tout extremum local est 2((h1 − 21 h2 )2 + 43 h22 ) et
un point critique : c’était le premier théorème du chapitre II). on voit, sous cette forme,
que l’expression est
Elle n’a donc pas de maximum, puisque tout maximum est a fortiori un maxi-
strictement positive pour
mum local. A-t-elle un minimum ? Le calcul différentiel n’est pas suffisant pour tout ~h 6= 0.
conclure, il faut recourir à d’autres outils, comme ceux fournis par la topologie.
Ici, on peut montrer (1) que f (x, y) tend vers +∞ lorsque la norme de (x, y) tend

60
vers +∞. Un argument de compacité permet d’en déduire (2) l’existence d’un
minimum global. Ce minimum global est en particulier un minimum local, il ne
peut donc s’agir que du point (1, 0). Remarquer qu’ici,
Pour montrer (1), on peut par exemple mettre d’abord la partie quadratique l’argument topologique
sous la forme canonique, en écrivant permet de
“court-circuiter” le calcul
1 3 de la différentielle
f (x, y) = (x − y)2 + y 2 − 2x + y. seconde...
2 4
On peut écrire
21 √
1 3 1 3
N (x, y) = (x − y)2 + y 2 = (x − y, y) = kA(x, y)k
2 4 2 2

où A est une application linéaire inversible ; N est donc une norme sur R2 , et par
équivalence des normes, il existe une constante K > 0 telle que, pour tout x, y,
N (x, y) ≥ K k(x, y)k. On peut maintenant minorer f (x, y) par une expression
dans laquelle on factorise la norme :
−2x + y
f (x, y) ≥ k(x, y)k2 (K 2 + ).
k(x, y)k2
x y
Lorsque la norme k(x, y)k tend vers +∞, les quantités k(x,y)k 2 et
k(x,y)k2
tendent
vers 0 (par exemple à cause de la majoration |x| ≤ k(x, y)k). On en déduit que le
terme minorant f (x, y) tend vers +∞, et par comparaison il en est de même pour
f (x, y).

• Considérons à nouveau la fonction f (x, y) = x4 + y 4 − 4xy, dont on a calculé

précédemment les dérivées partielles, et cherchons les extrema éventuels de f . Ici
la recherche de points critiques conduit au système d’équations
3
4x − 4y = 0
4y 3 − 4x = 0

qui a pour solution les points (−1, −1), (1, 1) et (0, 0). Aux deux premiers points,
la matrice de la différentielle seconde est

3 −1
−1 3

et D2 f (a) y est définie positive : ces deux points sont donc des minima locaux.
Au point (0, 0), on a D2 f (0, 0)(h1 , h2 ) = −4h1 h2 . On peut clairement trouver des
valeurs du couple (h1 , h2 ) pour lesquelles D2 f (0, 0)(h1 , h2 ) > 0, et d’autres pour
lesquelles D2 f (0, 0)(h1 , h2 ) < 0. Le point est de type selle, le second théorème
(ou plutôt sa contraposée) nous dit que a n’est pas un minimum local de f ; le
théorème analogue pour les maxima nous dit que a n’est pas non plus un maximum
local.
La fonction a deux minima locaux et un point selle, pas de maximum local.
Elle n’a donc pas de maximum. Un argument analogue à celui développé dans
l’exemple précédent permet de montrer que les minima locaux sont des minima.

61
(e) Dérivées d’ordres supérieurs
Tous les résultats se généralisent aux différentielles d’ordres supérieures ; don-
nons un aperçu de la théorie. Dans ce qui suit, Ω est un ouvert de E = Rm .
• Soit f : Ω → F . On définit de façon récursive les applications de classe C k : si
f est différentiable sur Ω et si Df est de classe C 2 , alors f est dite de classe C 3 ;
si Df est de classe C 3 , f est dite de classe C 4 , etc.. Si elle est de classe C k pour
tout k, on dit qu’elle est de classe C ∞ .
• La différentielle d’ordre k en un point a s’identifie à une application multilinéaire
de E k dans F . On généralise sans difficulté la notion de dérivée partielle pour
définir les dérivées partielles d’ordre k.
• Le critère pour les applications de classe C 1 et C 2 se généralise : une application
f est de classe C k si et seulement si elle admet en tout point a des dérivées
partielles d’ordre k

∂kf

∂ ∂ ∂
(a) := ··· f (a)
∂xik · · · ∂xi1 ∂xik ∂xik−1 ∂xi1

qui dépendent continûment de a.

• Le lemme de Schwarz se généralise également : si f est de classe C k , la
différentielle Dk f (a) est une application multilinéaire symétrique ; ce qui revient
à dire que les dérivées partielles d’ordre k,
∂ ∂ ∂ ∂
··· f (a) et ··· f (a)
∂xi1 ∂xik ∂xiσ(1) ∂xiσ(k)

sont égales pour toute permutation σ de l’ensemble {1, . . . , k} : en pratique, le

résultat de la dérivation partielle successive ne dépend que des variables par rap-
port auxquelles on dérive, et pas de l’ordre dans lequel ces variables apparaissent.
• En coordonnées, la différentielle d’ordre k est donnée par
X ∂kf
Dk f (a)(h, . . . , h) = (a)hi1 · · · hik .
i1 ,...,ik
∂xik · · · ∂xi1

• La somme, le produit, la composée de deux applications de classe C k est de

classe C k . Toute application polynômiale est de classe C ∞ .
• Soit k un entier plus grand que 1. Soit f : U → V un C 1 -difféomorphisme entre
deux ouverts U, V de deux espaces vectoriels normés E, F . Supposons que f est
de classe C k . On montre alors que f −1 est aussi de classe C k . Dans ce cas, on dit
que f est un C k -difféomorphisme.
• Les théorèmes d’inversion locale, des fonctions implicites, des sous-variétés
données par des équations, restent valables en remplaçant partout “C 1 ” par “C k ”.
On obtient ainsi des énoncés avec une hypothèse plus forte : on suppose qu’une
application est de classe C k , là où on la supposait seulement de classe C 1 , et avec
une conclusion plus forte : on obtient l’existence d’une application de classe C k
(l’inverse de f dans le théorème d’inversion locale, la fonction ϕ dans le théorème
des fonctions implicites, le difféomorphisme qui redresse les sous-variétés).

62
VI.2 Commentaires
(a) Interprétation de la différentielle seconde
On peut interpréter la différentielle seconde grâce au lemme de la preuve du
lemme de Schwarz. Soit f une fonction définie au voisinage d’un point a, et ~h un
vecteur. La dérivée de f selon le vecteur ~h donne la valeur de la différence des
valeurs de f en a + t~h et en a, lorsque t tend vers 0, au premier ordre :
∂f
δ(a, t~h) = f (a + t~h) − f (a) = t (a) + o(t).
∂~h

Etant donné un deuxième vecteur ~k, on peut se demander comment se comporte

la différence entre δ(a + t~k, t~h) et δ(a, t~h),

~ ~ ~ ~ ~ ~ ~
∆(t) = δ(a+tk, th)−δ(a, th) = f (a + th + tk) − f (a + tk) − f (a + th) − f (a) .

Le lemme dit que lorsque t tend vers 0, cette quantité est d’ordre 2 en t, et le
coefficient est donné par la différentielle seconde :

∆(t) = t2 D2 f (a)(~h, ~k) + o2 (t).

Vous aimerez peut-être aussi

Calcul Différentiel et Applications
100% (1)
Calcul Différentiel et Applications
64 pages
3M260 memoCD 2021
Pas encore d'évaluation
3M260 memoCD 2021
34 pages
Cours Calcul Diff 2020
Pas encore d'évaluation
Cours Calcul Diff 2020
113 pages
Fdiff
Pas encore d'évaluation
Fdiff
25 pages
Cours de Calcul Différentiel L3
Pas encore d'évaluation
Cours de Calcul Différentiel L3
35 pages
Calcul différentiel : concepts clés et exercices
Pas encore d'évaluation
Calcul différentiel : concepts clés et exercices
37 pages
Cours 2 Calcul Différentiel
Pas encore d'évaluation
Cours 2 Calcul Différentiel
69 pages
1 Cours Complet Calcul Différentiel
Pas encore d'évaluation
1 Cours Complet Calcul Différentiel
69 pages
Cours Calcul Différentiel
Pas encore d'évaluation
Cours Calcul Différentiel
65 pages
Calculdiff10 Cours PDF
Pas encore d'évaluation
Calculdiff10 Cours PDF
67 pages
M310: Calcul Différentiel Avancé
Pas encore d'évaluation
M310: Calcul Différentiel Avancé
59 pages
2 - (Re) Calcul Differentiel (Partie 1)
Pas encore d'évaluation
2 - (Re) Calcul Differentiel (Partie 1)
15 pages
Cdiff
Pas encore d'évaluation
Cdiff
63 pages
7analyse 3 Cours 02
Pas encore d'évaluation
7analyse 3 Cours 02
89 pages
Cours Fonction À Plusieurs Variables
Pas encore d'évaluation
Cours Fonction À Plusieurs Variables
121 pages
Introduction au calcul différentiel
Pas encore d'évaluation
Introduction au calcul différentiel
30 pages
Cour 1 Géométrie Différentiel
Pas encore d'évaluation
Cour 1 Géométrie Différentiel
136 pages
Cours d'Analyse 3 : Fonctions Multivariables
Pas encore d'évaluation
Cours d'Analyse 3 : Fonctions Multivariables
89 pages
Analyse 3
Pas encore d'évaluation
Analyse 3
89 pages
Cours de Calcul Différentiel 2010/2011
Pas encore d'évaluation
Cours de Calcul Différentiel 2010/2011
55 pages
Poly Cdac 2018 Commented
Pas encore d'évaluation
Poly Cdac 2018 Commented
29 pages
Cal Cul Diff
Pas encore d'évaluation
Cal Cul Diff
81 pages
Chapitre 20 Calcul Différentiel: Lycée Chrestien de Troyes MP2122
Pas encore d'évaluation
Chapitre 20 Calcul Différentiel: Lycée Chrestien de Troyes MP2122
117 pages
Introduction à la géométrie différentielle
Pas encore d'évaluation
Introduction à la géométrie différentielle
185 pages
Cours de Calcul Différentiel
Pas encore d'évaluation
Cours de Calcul Différentiel
33 pages
Calcul Différentiel
100% (1)
Calcul Différentiel
46 pages
coursCDpujo 2010
Pas encore d'évaluation
coursCDpujo 2010
45 pages
Chapitre 2 (Calcul Diff)
Pas encore d'évaluation
Chapitre 2 (Calcul Diff)
44 pages
Cours de Géométrie Différentielle
Pas encore d'évaluation
Cours de Géométrie Différentielle
48 pages
Calcul Diff
Pas encore d'évaluation
Calcul Diff
26 pages
Fiche Analyse II Kervyn
Pas encore d'évaluation
Fiche Analyse II Kervyn
14 pages
Agreg25 CoursCD
Pas encore d'évaluation
Agreg25 CoursCD
15 pages
M207: Compléments en Calcul Différentiel
Pas encore d'évaluation
M207: Compléments en Calcul Différentiel
63 pages
Calcul Différentiel Et Séries de Fourier: Patrick Fischer
Pas encore d'évaluation
Calcul Différentiel Et Séries de Fourier: Patrick Fischer
82 pages
2M256 Polycopie Cours
Pas encore d'évaluation
2M256 Polycopie Cours
80 pages
Poly Cdcs 2024
Pas encore d'évaluation
Poly Cdcs 2024
21 pages
Concepts de Dérivées et Théorèmes
Pas encore d'évaluation
Concepts de Dérivées et Théorèmes
18 pages
PolyCours M135 (MIP)
100% (1)
PolyCours M135 (MIP)
93 pages
Cal Cul Diff Geom Diff
Pas encore d'évaluation
Cal Cul Diff Geom Diff
157 pages
Fonction Numerique
Pas encore d'évaluation
Fonction Numerique
19 pages
Calcul différentiel en MTH 151
Pas encore d'évaluation
Calcul différentiel en MTH 151
93 pages
Topologie L3
Pas encore d'évaluation
Topologie L3
111 pages
L3 Poly Calcul Diff 2022
Pas encore d'évaluation
L3 Poly Calcul Diff 2022
45 pages
Analyse Vectorielle pour Physiciens
Pas encore d'évaluation
Analyse Vectorielle pour Physiciens
83 pages
Cours Prof
Pas encore d'évaluation
Cours Prof
129 pages
Analyse
100% (1)
Analyse
82 pages
Caculdiff1 PDF
Pas encore d'évaluation
Caculdiff1 PDF
13 pages
Acfrogagqy Ojpbe5duwxg Ohgin Xptpk6bb 3vl4ekj7hy W Ar15pguv6qx9ih Eywtzldbhgtowf9fxomuxejuivfcezt0rrdj CBXN A1ubxgxab8ud Jvqdaqwqdkmkjxu3i5um7nyoqw
Pas encore d'évaluation
Acfrogagqy Ojpbe5duwxg Ohgin Xptpk6bb 3vl4ekj7hy W Ar15pguv6qx9ih Eywtzldbhgtowf9fxomuxejuivfcezt0rrdj CBXN A1ubxgxab8ud Jvqdaqwqdkmkjxu3i5um7nyoqw
54 pages
Equations Différentielles - Alain Prouté
Pas encore d'évaluation
Equations Différentielles - Alain Prouté
27 pages
Calc Diff
Pas encore d'évaluation
Calc Diff
69 pages
Espaces vectoriels normés et dérivabilité
Pas encore d'évaluation
Espaces vectoriels normés et dérivabilité
128 pages
Polycop Analyse
Pas encore d'évaluation
Polycop Analyse
96 pages
218 Cours Calcul Diff
Pas encore d'évaluation
218 Cours Calcul Diff
45 pages
Fonctions de Plusieurs VariablesChap1,2,3
Pas encore d'évaluation
Fonctions de Plusieurs VariablesChap1,2,3
51 pages
Cours Analyse
Pas encore d'évaluation
Cours Analyse
45 pages
Chap 16
Pas encore d'évaluation
Chap 16
41 pages
chapitre 4
Pas encore d'évaluation
chapitre 4
27 pages
DS03
Pas encore d'évaluation
DS03
4 pages
Bac D - 2014
Pas encore d'évaluation
Bac D - 2014
7 pages
GeomAna Espacetle
Pas encore d'évaluation
GeomAna Espacetle
15 pages
DS02 Corrige
Pas encore d'évaluation
DS02 Corrige
9 pages
DS01
Pas encore d'évaluation
DS01
3 pages
Chapitre 5 Système D'équation Linéaire
Pas encore d'évaluation
Chapitre 5 Système D'équation Linéaire
24 pages
Chapitre 1 Rappels Mathematiques
Pas encore d'évaluation
Chapitre 1 Rappels Mathematiques
16 pages
DS02
Pas encore d'évaluation
DS02
4 pages
CamScanner 18-06-2024 13.03
Pas encore d'évaluation
CamScanner 18-06-2024 13.03
26 pages
Corrigés-TD-Suites de Fonctions
Pas encore d'évaluation
Corrigés-TD-Suites de Fonctions
11 pages
CamScanner 01-26-2023 09.56
Pas encore d'évaluation
CamScanner 01-26-2023 09.56
29 pages
CamScanner 05-29-2024 14.40
Pas encore d'évaluation
CamScanner 05-29-2024 14.40
4 pages
Feuille D'exercices N 1 - Espaces Métriques: N R R R R
Pas encore d'évaluation
Feuille D'exercices N 1 - Espaces Métriques: N R R R R
16 pages
Epreuve MATHEMATIQUES 1ere D 2024 12 29 20 29 1829
Pas encore d'évaluation
Epreuve MATHEMATIQUES 1ere D 2024 12 29 20 29 1829
4 pages
Calcul des contraintes dans le sol
100% (2)
Calcul des contraintes dans le sol
20 pages
Règlement Concernant Les Prestations Et Honoraires Des Ingénieurs Civils
Pas encore d'évaluation
Règlement Concernant Les Prestations Et Honoraires Des Ingénieurs Civils
72 pages
Axlou Toth Pour L'innovation: Cours de Renforcement Ou À Domicile Maths-PC-SVT: 78.192.84.64-78.151.34.44
Pas encore d'évaluation
Axlou Toth Pour L'innovation: Cours de Renforcement Ou À Domicile Maths-PC-SVT: 78.192.84.64-78.151.34.44
7 pages
Exercice Pression Hydrostatique (4656)
0% (1)
Exercice Pression Hydrostatique (4656)
4 pages
Tse Planification 2025 2026 1
Pas encore d'évaluation
Tse Planification 2025 2026 1
6 pages
Mathematiquesepreuve Examen Admission s22022
Pas encore d'évaluation
Mathematiquesepreuve Examen Admission s22022
11 pages
Comprendre les condensateurs en électronique
Pas encore d'évaluation
Comprendre les condensateurs en électronique
18 pages
Spongiaires Afbs
Pas encore d'évaluation
Spongiaires Afbs
8 pages
Partie 2 (Du Chap1)
Pas encore d'évaluation
Partie 2 (Du Chap1)
9 pages
Types de relations d'objet en psychologie
Pas encore d'évaluation
Types de relations d'objet en psychologie
3 pages
Développement économique et social expliqué
Pas encore d'évaluation
Développement économique et social expliqué
16 pages
PHI-M211-liaison-pivot-tondeuse 2016
Pas encore d'évaluation
PHI-M211-liaison-pivot-tondeuse 2016
5 pages
Iso 21748 2004
Pas encore d'évaluation
Iso 21748 2004
38 pages
Cours de Béton1
Pas encore d'évaluation
Cours de Béton1
40 pages
Exigences ISO 14001-2015-TEG - Copie
Pas encore d'évaluation
Exigences ISO 14001-2015-TEG - Copie
73 pages
Développement Professionnelle (Billon)
Pas encore d'évaluation
Développement Professionnelle (Billon)
20 pages
TP2 Mesure D'une Resistance Par Voltmetre
Pas encore d'évaluation
TP2 Mesure D'une Resistance Par Voltmetre
3 pages
Didactique de Gestion : Cours BAC 3 SCA
Pas encore d'évaluation
Didactique de Gestion : Cours BAC 3 SCA
52 pages
Modélisation - Var
Pas encore d'évaluation
Modélisation - Var
40 pages
Monographie de la région Atsinanana
Pas encore d'évaluation
Monographie de la région Atsinanana
204 pages
RAPPORT E-G - Batiment Communautaire ANP
Pas encore d'évaluation
RAPPORT E-G - Batiment Communautaire ANP
17 pages
Décret Eie VF
Pas encore d'évaluation
Décret Eie VF
8 pages
Série Mindf - CK PDF
Pas encore d'évaluation
Série Mindf - CK PDF
30 pages
ProfSpé MoROUX
Pas encore d'évaluation
ProfSpé MoROUX
4 pages
Puissance Corrige
Pas encore d'évaluation
Puissance Corrige
2 pages
Ma Tey Rew
Pas encore d'évaluation
Ma Tey Rew
4 pages
Les Mots Cles Des Curricula - Lebeaume - Raulin
Pas encore d'évaluation
Les Mots Cles Des Curricula - Lebeaume - Raulin
352 pages
Activite 2 Trajectoires Dans L Avie de Tous Les Jours
Pas encore d'évaluation
Activite 2 Trajectoires Dans L Avie de Tous Les Jours
2 pages