CalculDiff FredericLeRoux
CalculDiff FredericLeRoux
1
V Surfaces, sous-variétés 41
V.1 Théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
(a) Sous-variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
(b) Sous-espace tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
(c) Sous-variété donnée par une équation ou un système d’équations . . . . 44
(d) Extrema liés : la preuve ! . . . . . . . . . . . . . . . . . . . . . . . . . . 48
(e) Sous-variété donnée par un paramétrage . . . . . . . . . . . . . . . . . 49
V.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
(a) Équations différentielles sur les sous-variétés . . . . . . . . . . . . . . . 49
(b) Noeuds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
V.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2
I La différentielle
Dans ce chapitre, on étudie la situation suivante : on a une application f définie
sur un ouvert Ω d’un espace vectoriel normé E, à valeurs dans un autre espace
vectoriel normé F , et un point a de Ω. On veut étudier le comportement de f au Noter que comme Ω est
voisinage de a. Le principe du calcul différentiel est d’approcher f (a + h), pour ouvert, f (a + h) est bien
des petites valeurs de h, à l’aide d’une application linéaire appelée différentielle défini pour tout h assez
petit. Dans toute la suite,
de f au point a. lorsqu’on écrit f (a + h),
on suppose implicitement
que a + h appartient à Ω.
I.1 Théorie
On rappelle que L(E, F ) désigne l’ensemble des applications linéaires continues
de E dans F . On utilisera les deux définitions suivantes.
• Une application affine est une application du type x 7→ b + L.x où L ∈ L(E, F ) et
b est un élément de F , autrement dit la somme d’une application linéaire et d’une
constante.
• Soit o : O → F une application définie sur un ouvert O de E contenant 0. On On vérifie facilement que
cette notion ne change
dira que o(~h) est négligeable devant ~h si
pas lorsqu’on change la
norme de E en une norme
o(~h) équivalente, ni quand on
lim = 0, change la norme de F en
~h→0 ~h une norme équivalente.
Une conséquence
autrement dit importante est qu’en
dimension finie, la notion
de différentiabilité ne va
∀ε > 0 ∃δ > 0 ∀~h ∈ O ( ~h < δ ⇒ o(~h) < ε ~h ). pas dépendre du choix
E F
des normes.
Exercice 1.— Vérifier que lorsque o(~h) est négligeable devant ~h, on a lim~h→0 o(~h) = 0.
2
Montrer que la réciproque est [Link]́rifier que ~h est négligeable devant ~h.
(a) Différentielle
On dit que f est différentiable au point a s’il existe une application linéaire
continue L ∈ L(E, F ) telle qu’on ait
où o(h) est négligeable devant h. L’application L est alors appelée différentielle de f
au point a et notée Df (a) (parfois Da f ou même f 0 (a)). On dit aussi que f admet
un développement limité à l’ordre 1 au point a. L’application affine h 7→ f (a) + Df (a).h
s’appelle partie principale du développement limité, la quantité o(h) est son reste.
Recette de preuve.— Soient L1 , L2 deux applications linéaires continues vérifiant toutes les
deux la définition de la différentielle, il s’agit de montrer que L1 = L2 . Montrer d’abord que
L.h := L1 .h − L2 .h est négligeable devant h. Il s’agit maintenant de voir qu’une application
3
linéaire L telle que L.~h est négligeable devant ~h est l’application nulle. Nous allons utiliser
l’homogénéité de la norme. Fixons un vecteur ~v 6= 0, et posons h(t) = t~v . Lorsque t tend vers 0,
h(t) tend vers 0, et donc
kL.(h(t))k
lim = 0.
t→0 kh(t)k
Montrer que cette quantité ne dépend en fait pas de t, en déduire qu’elle est nulle. Conclure.
Recette de preuve.— Écrire le DL à l’ordre 1. Conclure en utilisant le fait que Df (a) est,
par définition, une application continue, et que o(~h) tend vers 0 lorsque ~h tend vers 0.
On dit que f est différentiable sur Ω si elle l’est en tout point de Ω. Attention, on a alors
autant d’applications
linéaires Df (a) que de
points a dans Ω !
Exemple I : applications affines Toute application affine f : x 7→ b + L.x est
différentiable sur E, et pour tout a et tout h, Df (a).h = L.h. Dans ce cas très spécial,
Df (a) = L, et la
Exercice 2.—Vérifier l’affirmation précédente. Que vaut la différentielle de la translation x 7→ différentielle Df (a) ne
dépend pas de a.
x + b en un point a ?
f (a + h) − f (a)
f 0 (a) = lim .
h→0 h o(h)
On peut écrire Df (a).h
f (a + h) = f (a) + f 0 (a).h + o(h)
•
h
en posant o(h) = f (a + h) − (f (a) + f 0 (a).h) ; vérifier que o(h) est négligeable
devant h. Ainsi, on voit que f est différentiable en a, et sa différentielle est l’ap-
plication Df (a) : h 7→ f 0 (a).h, qui est linéaire de R dans R. Réciproquement,
on peut montrer que si f est différentiable au point a alors elle est dérivable au
point a, et sa dérivée est f 0 (a) = Df (a).1. Ainsi, pour les fonctions de R dans
R, les notions de dérivabilité et différentiabilité coincident. Tout ceci se généralise
immédiatement lorsque l’espace d’arrivée est un espace vectoriel normé quelconque
F.
4
Effectuer le calcul, en remplaçant le terme “e3h2 ” par son développement limité
en 0, e3h2 = 1 + 3h2 + o(h2 ), et identifier le terme constant, le terme linéaire et
le reste. On obtient Cet exemple est là pour
illustrer la définition de la
f (2 + h1 , 1 + h2 ) = f (2, 1) + e3 (h1 + 3h2 ) + o(h1 , h2 ). différentielle, mais
rassurez-vous, on aura
bientôt des outils qui
avec un reste o(h1 , h2 ) formé de plusieurs termes. Vérifier que ce reste est
nous permettront de
négligeable devant k(h1 , h2 )k en relisant la définition de négligeable et en utilisant retrouver facilement la
différentielle de n’importe
o(h2 ) quelle fonction donnée
lim =0 et |hi | ≤ k(h1 , h2 )k , i = 1, 2.
h2 →0 h2 par une formule de ce
type.
(On a le droit d’utiliser la norme qui nous convient, on prend par exemple la norme
k.k∞ pour avoir la dernière majoration.) Puisque l’application L : (h1 , h2 ) 7→
e3 (h1 + 3h2 ) est linéaire, on a bien obtenu un développement limité à l’ordre 1,
ce qui prouve que f est différentiable au point (2, 1), et que sa différentielle en ce
point est l’application L.
en posant
+∞
X
o(H) = (−H)k .
k=2
Exercice 3.— Majorer la norme de o(H), par exemple pour tout kHk < 21 , pour montrer que
o(H) est négligeable devant H. On commencera par mettre H 2 en facteur.
Dans cet exemple les coefficients de H sont de l’ordre de 10−1 . Un calcul plus
précis donne le résultat
0.919823 −0.0672348 −0.051452
−0.0951178 1.05934 0.0281987 .
0.0810185 −0.0173611 1.08218
et on voit que l’écart avec les coefficients de notre approximation affine est de
l’ordre de 10−2 , qui est “beaucoup plus petit” que kHk.
5
Exemple V : espaces de fonctions
On se place dans l’espace vectoriel normé E = C([0, 1], R), muni de la norme
k.k∞ . Pour tout élément f de E, l’application f 2 : x 7→ f (x)2 est encore un
élément de E. Pour f, ~h dans E on a
(f + ~h)2 = f 2 + 2f ~h + ~h2
2
et ~h2 = ~h est négligeable devant h, donc l’application
∞ ∞
E → E
f 7→ f 2
Exercice 4.— Vérifier cette dernière inégalité, qui dit simplement que le “sup” du produit de
deux fonctions positives est plus petit que le produit des “sup”.
Exercice 5.— Montrer que la fonctionnelle Long n’est pas continue en 0 lorsque E1 est muni
de la norme k.k∞ . Aide : trouver une fonction h uniformément proche de la fonction nulle, mais
qui oscille beaucoup, de façon à ce que son graphe ait une longueur très supérieure à celle du
graphe de la fonction nulle (h est uniformément petite mais sa dérivée ne l’est pas). Mieux :
montrer que cette application est discontinue en tout élément de E1 . A fortiori, cette application
n’est pas différentiable.
6
Soit a = (x1 , . . . , xm ) un point de Ω. On dira que la fonction f admet, au point
a, une dérivée partielle par rapport à la i-ème variable si la fonction
∂f f (a + tei ) − f (a)
(a) := lim .
∂xi t→0 t
On voit facilement que f admet une dérivée partielle par rapport à la i-ème
variable si et seulement si chacune des fonctions fi admet une dérivée partielle
par rapport à la i-ème variable, et dans ce cas on a
∂f ∂f1 ∂fn
(a) = (a), . . . , (a)
∂xi ∂xi ∂xi
Proposition. Si f est différentiable au point a, elle admet en ce point des dérivées
partielles par rapport à toutes les variables, et les dérivées partielles sont données
par
∂f
(a) = Df (a).ei .
∂xi
La matrice de Df (a) dans les bases canoniques est alors la matrices des dérivées
partielles, Si f va de Rm dans Rn ,
alors Df (a) aussi, ce qui
∂f1 ∂f1
∂x1
(a) · · · ∂x (a)
m permet de se souvenir que
Jf (a) = ... .. .. .
. . les colonnes
∂fn ∂fn correspondent aux
∂x1
(a) ··· ∂xm
(a)
coordonnées x1 , . . . , xm
La matrice Jf (a) est appelée matrice jacobienne de f au point a. (cette matrice doit
pouvoir être multipliée
par un vecteur h de Rm ).
Recette de preuve.— Pour la première partie, écrire le développement limité de f donné
par la différentielle, appliquer-le au vecteur tei , en déduire la limite voulue. Pour la seconde,
P
décomposer un vecteur h quelconque dans la base canonique en écrivant h = hi ei .
7
Exercice 6.— Calculer les dérivées partielles et la matrice jacobienne de la fonction f (x, y) =
xe3y , introduite dans l’exemple III ci-dessus, au point a = (2, 1). Vérifier qu’on retrouve la
différentielle de f en ce point.
Exercice 7.— Avec les notations du paragraphe précédent, vérifier que la dérivée selon le
ième vecteur de la base canonique est égal à la ième dérivée partielle :
∂f ∂f
(a) = (a).
∂ei ∂xi
8
Différentielle d’une composée On considère deux applications f : Ω → F ,
g : Ω0 → G, où Ω est un ouvert de E et Ω0 un ouvert de F .
Proposition. Soit a un point de Ω tel que le point b = f (a) est dans Ω0 . Si f est
différentiable en a et g différentiable en b alors g ◦ f est différentiable en a et la
différentielle de g ◦ f au point a est la composée de la différentielle de f au point
a et de la différentielle de g au point f (a) :
Recette de preuve.— Remarquons d’abord que la fonction g◦f est définie sur Ω∩f −1 (Ω0 ) ; par Pour qu’on puisse évaluer
continuité de f au point a, cet ensemble contient une boule ouverte centrée en a. En particulier g(f (x)), il faut
g ◦ f est définie sur un ouvert de E contenant a, comme demandé dans la définition de la notamment que f (x)
différentiabilité au point a. appartienne à l’ensemble
Écrire d’abord une “preuve approchée” en “faisant comme si”, dans les développements de définition de g.
limités de f et g, les restes étaient nuls : ceci permet en particulier de retrouver rapidement la
formule. Pour un argument précis, on écrit les développements limités à l’ordre 1 de f en a et
de g en b = f (a),
f (a + ~h) = f (a) + Df (a).~h + o1 (~h)
g(b + ~k) = g(b) + Dg(b).~k + o2 (~k).
On pose K(~h) = Df (a).~h + o1 (~h), on remarque que K(~h) tend vers 0 lorsque ~h tend vers 0
(c’est exactement la continuité de f en a). Reporter alors le premier développement limité
dans le second, plus précisément appliquer la deuxième égalité avec ~k = K(~h). Ceci donne un
développement limité de g ◦ f en a, à condition de savoir montrer que le reste
est négligeable devant ~h ; ceci va suivre du fait que les restes o1 (~h), o2 (~k) sont négligeables
respectivement devant ~h et ~k, et que le quotient K(~h) / ~h est borné. Au passage, on utilise
la majoration caractéristique des applications linéaires continues,
où kLk désigne la norme dans l’espace vectoriel L(E, F ) ou L(F, G).
Ce type de différentielles
Exercice 9.— Que vaut la différentielle de Tb ◦f lorsque Tb est la translation de F de vecteur b ? composées intervient dans
de f ◦ Ta lorsque Ta est la translation de E de vecteur a ? de L ◦ f , lorsque L est une application les démonstrations,
linéaire ? De f ◦ L ? lorsqu’on veut se ramener
au cas où a = 0 et
Df (a) = Id, par exemple
dans l’énoncé sur la
différentiabilité de f −1 .
9
Différentielle de la réciproque
f (~h) = ~h + o1 (~h).
f −1 (~k) = ~k − o1 (f −1 (~k))
et il s’agit de montrer que le reste o2 (~k) := −o1 (f −1 (~k)) est négligeable devant ~k, sachant que
le reste o1 (~h) est négligeable devant ~h. En utilisant l’hypothèse Df (a) = Id, montrer que, au
voisinage de 0, la norme de f (~h) est comparable à celle de ~h : Pour tout ~h assez petit,
1 ~ 3 ~
h < f (~h) < h .
2 2
I.2 Commentaires
(a) La différentielle
On présente généralement la dérivée d’une fonction f en un point a comme un
nombre qui mesure le taux de variation de f (x) lorsque x passe au point a. Le but
de cette section 1 est de mettre en avant une présentation un peu différente, plus
générale. C’est l’idée de la différentiation vue comme une approximation linéaire 2 ,
idée qui est au centre d’une grande partie des mathématiques actuelles.
1. Ce qui suit est adapté du merveilleux livre The Princeton Companion to Mathematics.
2. En toute rigueur il faudrait plutôt écrire ici approximation affine.
10
Intuitivement, dire que f 0 (a) = m revient à dire que si on regarde à travers
un puissant microscope le graphe de f dans une petite région autour du point
(a, f (a)), ce que l’on voit est presque exactement une ligne droite de pente m. En
d’autres termes, au voisinage de a, la fonction f est approximativement linéaire.
On peut même écrire une formule pour la fonction linéaire g qui approxime f :
Son graphe est la droite de pente m passant par le point (a, f (a)). Une façon, un
peu plus claire, consiste à écrire
×2 ×4 ×8
Ici, il faut faire un peu attention : après tout, si f est continue au point a alors
quand h est petit, f (a + h) sera proche de f (a) et mh sera très petit, de sorte
que f (a + h) sera proche de f (a) + mh. Cette façon de voir semble marcher pour
n’importe quelle valeur de m, et pourtant ce que nous nous voulons dire est très
spécifique à la valeur m = f 0 (a). Ce qui n’arrive qu’avec cette valeur de m, c’est
que f (a + h) est non seulement proche de f (a) + mh, mais tellement proche que
la différence o(h) = f (a + h) − f (a) − mh est petite comparée à h. Autrement dit,
o(h)
tend vers 0 lorsque h tend vers 0.
h
Cette façon de voir peut se généraliser. Les fonctions qui apparaissent en
mathématiques, et aussi dans les autres sciences, en ingénierie, en économie, etc.,
sont souvent des fonctions de plusieurs variables, et peuvent donc être vues comme
des fonctions définies sur un espace vectoriel de dimension strictement plus grande
que 1. On peut alors se demander si, dans un petit voisinage d’un point, on peut
les approcher par des applications linéaires. Lorsque c’est possible, cette approxi-
mation est extrêmement utile : une fonction générale peut a priori avoir un com-
portement très compliqué, mais si on peut l’approcher par une fonction linéaire,
alors son comportement sera beaucoup plus facile à comprendre, au moins dans
de petites régions de l’espace de dimension n. Dans ce cas on peut utiliser toute
11
la machinerie de l’algèbre linéaire et des matrices, qui permet de faire des calculs,
surtout si on dispose de l’aide d’un ordinateur.
Imaginez, par exemple, un météorologue s’intéressant à la façon dont la vitesse
et la direction du vent varient d’un endroit à l’autre dans une certaine région de
l’espace au-dessus de la surface de la Terre. À chaque point (x, y, z) de cette région
(x et y représentent par exemple la latitude et la longitude et z l’altitude) on peut
associer un vecteur (u, v, w) représentant la vitesse du vent en ce point : u, v, w
sont les composantes du vecteur vitesse dans les directions x, y, z.
Déplaçons maintenant très légèrement le point (x, y, z) en choisissant trois
petits nombres h, k, l et en considérant le point (x + h, y + k, z + l). En ce
nouveau point, nous nous attendons à ce que la vitesse du vent soit différente
mais assez proche de celle au point (x, y, z) ; nous l’écrivons donc (u + p, v + q, w +
r). Comment la petite variation (p, q, r) du vecteur-vent dépend-elle de la petite
variation (h, k, l) de la position du point ? En supposant que le vent n’est pas trop
turbulent et que h,k, l sont suffisamment petits, nous nous attendons à ce que cette
dépendance soit approximativement linéaire : c’est la façon dont la nature semble
fonctionner. Autrement dit, nous nous attendons à ce qu’il existe une application
linéaire T telle que (p, q, r) vale approximativement T (h, k, l) lorsque h, k, l sont
assez petits. Chacun des nombres p, q, r dépend de chacun des nombres h, k, l, et
il nous faut donc 9 nombres pour exprimer cette dépendance linéaire. Sous forme
matricielle, elle s’écrit
p a11 a12 a13 h
q = a21 a22 a23 . k .
r a31 a32 a33 l
Chaque entrée aij de la matrice exprime comment l’un des trois nombres p, q,
r dépend de l’un des trois nombres h, k, l. Par exemple, si l’on fixe x et z, ce
qui revient à poser h = l = 0, on obtient p = a12 k : le coefficient a12 représente
donc le taux de variation de u lorsque y change. Techniquement, a12 est la dérivée
partielle ∂u/∂y au point (x, y, z).
Ceci nous dit comment calculer la matrice de T (appelée matrice jacobienne),
mais d’un point de vue conceptuel il vaut mieux éviter les coordonnées et raisonner
de façon purement vectorielle. En notant x pour (x, y, z), u(x) pour (u, v, w) et
h pour (h, k, l), tout ceci peut se résumer en écrivant la relation
où o(h) est petit comparé à h. Ceci nous dit que si nous ajoutons un petit vecteur
h à x, la variation de u(x) sera approximativement T (h). Cette formule est bien
sûr très similaire à la formule du début, f (a + h) = f (a) + mh + o(h).
Plus généralement, soit u une application de Rn dans Rm . On dit que cette
application est différentiable s’il existe une application linéaire T : Rn → Rm telle
que, à nouveau, la formule u(x + h) = u(x) + T (h) + o(h) soit vérifiée avec o(h)
petit devant h. L’application linéaire T est appelée différentielle de u au point x.
Le cas m = 1 est un cas particulier important. Si f : Rn → R est différentiable
au point x, alors la différentielle de f est une application linéaire T de Rn dans
R. La matrice de T est un vecteur ligne de taille n, qui est souvent noté ∇f (x) et
appelé gradient de f au point x. Ce vecteur pointe dans la direction dans laquelle
12
f augmente le plus vite, et sa longueur est égale au taux de variation dans cette
direction.
Df (a).~v
f
•f (a)
• ~v = γ 0 (t0 )
a = γ(t0 )
f (γ)
γ
courbe dans E courbe image dans F
13
(c) Dérivées partielles
Pour une fonction f de R dans R, le nombre dérivée f 0 (x) s’interprète de la
façon suivante : pour un petit accroissement h de la variable x, l’accroissement
f (x + h) − f (x) de la fonction est à peu près f 0 (x).h, autrement dit il est propor-
tionnel à h (en première approximation) et f 0 (x) est le facteur de proportionnalité.
Pour une fonction f de Rm dans R, les dérivées partielles peuvent s’interpréter
de façon analogue : lorsqu’on fait subir à l’une des variables xi un petit accrois-
sement hi , les autres variables restant inchangées, la fonction f subit un petit
accroissement
f (x1 , ..., xi−1 , xi + hi , xi+1 , ..., xm ) − f (x1 , ..., xi−1 , xi , xi+1 , ..., xm )
s’interprète alors en disant que lorsqu’on modifie toutes les variables à la fois, cha-
cune d’une petite quantité, l’accroissement de f est la somme des accroissements
dûs à chacune des variables prise individuellement.
I.3 Exercices
Exercice 11.—
1. Montrer que l’application “produit” (x, y) 7→ xy, définie de R2 dans R, est différentiable sur
R2 , et donner sa différentielle en un point (x, y).
2. Plus généralement, montrer que l’application “produit scalaire” (x, y) 7→ hx, yi, définie de
RN × RN dans R, est différentiable sur RN × RN et donner sa différentielle.
3. Encore plus généralement, on considère trois espaces vectoriels normés de dimensions finies
E1 , E2 , F , et une application bilinéaire B : E1 × E2 → F . On rappelle que, grâce l’hypothèse
de dimension finie, B est automatiquement continue : il existe une constante C telle que, pour
tout x ∈ E1 et y ∈ E2 , B(x, y) ≤ C kxk kyk. Montrer que B est différentiable sur E = E1 × E2 ,
et que sa différentielle au point a = (a1 , a2 ) est l’application linéaire
14
On pourra utiliser sur E la norme k(h, k)k = max{khk , kkk}.
Exercice 12.—
1. Soient f1 , f2 : E → R différentiables au point a. a. Exprimer l’application produit x 7→
f1 (x)f2 (x) comme une composée de deux applications différentiables. b. Retrouver ainsi la
formule de la différentielle d’un produit. (On pourra utiliser l’exercice 11).
2. Plus généralement, soient f1 : E → F1 et f2 : E → F2 différentiables au point a, et B :
F1 × F2 → F une application bilinéaire. On considère l’application f : x 7→ B(f1 (x), f2 (x)),
dont on veut montrer qu’elle est différentiable en a et calculer sa différentielle. a. Expliquer
pourquoi la question précédente était un cas particulier cette question. b. Résoudre cette
deuxième question en s’inspirant de la première.
3. Application : donner la différentielle au point a de f : x 7→ hf1 (x), f2 (x)i lorsque f1 , f2 sont
deux applications de E dans Rn différentiable en a.
R1
Exercice 13.— Calculer la différentielle de l’application f 7→ 0
(f (t))2 dt, définie de C([0, 1], R)
dans R, en un point α quelconque.
15
II Extrema : conditions d’ordre 1
Dans cette partie, on considère une fonction f : Ω → R, où Ω est un ouvert d’un
espace vectoriel normé E. Le calcul différentiel fournit des outils pour déterminer
les extrema (maxima ou minima) de la fonction f sur Ω, ou, lorsque E = Rm , sur
une partie S de Ω donnée par un système d’équations.
II.1 Théorie
(a) Extrema libres
Soit X un espace métrique, f : X → R une fonction, et x0 un élément de X.
On dit que
– f admet un maximum en x0 si pour tout x de X, f (x) ≤ f (x0 ),
– f admet un minimum en x0 si pour tout x de X, f (x) ≥ f (x0 ),
– f admet un maximum local en x0 s’il existe ε > 0 tel que pour tout élément x de
la boule B(x0 , ε), f (x) ≤ f (x0 ),
– f admet un minimum local en x0 s’il existe ε > 0 tel que pour tout élément x de
la boule B(x0 , ε), f (x) ≥ f (x0 ).
Exercice 14.— Dessiner l’allure du graphe d’une fonction de R dans R qui admet exacte-
ment deux minimum locaux dont l’un est un minimum, et un maximum local qui n’est pas un
maximum.
Ceci montre que, si f 0 (a) > 0, f n’admet ni minimum local ni maximum local
au point a. Un raisonnement symétrique conduit à la même conclusion lorsque
f 0 (a) < 0. Par contraposée, on a la propriété voulue.
16
Théorème. (condition d’ordre 1 sur les extrema) Soit f : Ω → R une fonction
définie sur un ouvert d’un espace vectoriel normé E, et a un point de Ω en lequel
f est différentiable. Si f admet un maximum local ou un minimum local en a,
alors la différentielle en ce point est nulle :
Df (a) = 0L(E,R) .
Un point en lequel la différentielle est l’application nulle, comme dans la conclu-
sion du théorème, est appelé point critique.
17
Interprétation géométrique du gradient Parmi les vecteurs ~h de norme
ε > 0 fixé, le vecteur qui réalise le maximum de Df (a).~h est celui qui est colinéaire
au vecteur gradient et de même sens : de façon condensée,
Exercice 15.— Soit ∇ un vecteur non nul de RN , ε > 0 fixé, et ~h un vecteur de norme ε. 1.
Rappeler la majoration de h∇, ~hi donnée par l’inégalité de Cauchy-Schwarz. 2. En utilisant
le cas d’égalité, trouver le vecteur ~h qui maximise h∇, ~hi parmi tous les vecteurs de norme ε.
Trouver de même celui qui minimise cette quantité. 3. Faire un dessin représentant les deux
vecteurs (maximisant et minimisant), les vecteurs ~h tels que h∇, ~hi = 0 , et indiquer les vecteurs
~h pour lesquels cette quantité est strictement positive.
∇a f = λ1 ∇a ϕ1 + · · · + λp ∇a ϕp (?).
18
La conclusion du théorème peut encore s’exprimer en disant que le vecteur
gradient de f au point a appartient au sous-espace vectoriel engendré par les
vecteurs gradients des fonctions ϕi au point a. Les nombres λ1 , . . . , λp sont ap-
pelés multiplicateurs de Lagrange. Remarquons que l’égalité (?) apparaissant dans le
théorème est équivalente à l’égalité analogue entre les différentielles,
Cas linéaire
Recette de preuve.— Démontrons le théorème sans le cas particulier où toutes les applications
ϕi sont linéaires. Dans ce cas, S est un sous-espace vectoriel de Rm . Notons E0 l’ensemble de
toutes les combinaisons linéaires des vecteurs ∇ϕ1 , . . . , ∇ϕp , qu’on appelle espace vectoriel engendré
par ces vecteurs et qu’on note Vect(∇ϕ1 , . . . , ∇ϕp ). Soit a un point de S. On suppose que f|S
admet un extremum au point a. Notre but est de montrer que ∇a f appartient à E0 .
Soit ~h un vecteur de S. Montrer que ∇a f est orthogonal à ~h. On pourra raisonner comme C’est ici qu’on utilise la
dans la preuve du théorème sur les extrema libres, en remarquant que a + t~h est inclus dans S linéarité des applications
pour tout t. ϕi .
On appelle orthogonal du sous-espace vectoriel S, et on note S ⊥ , l’ensemble des vecteurs qui
sont orthogonaux à tout vecteur de S. On vient donc de montrer que ∇a f appartient à S ⊥ .
La fin de la preuve, qui n’est plus du calcul différentiel mais uniquement de l’algèbre linéaire,
consiste à montrer que S ⊥ = E0 .
Interpréter les équations définissant S en termes d’orthogonalité. En déduire que que
S = E0⊥ . On a donc S ⊥ = (E0⊥ )⊥ ( !) Il reste à utiliser la proposition générale suivante :
V = (V ⊥ )⊥ .
Pour montrer cette proposition, on utilise une base orthonormée (e1 , ..., eq ) de V , que l’on
complète en une base orthonormée (e1 , ..., em ) de Rm . Décrire alors V ⊥ à l’aide de cette base.
Décrire enfin (V ⊥ )⊥ . Conclure en résumant toute la preuve.
19
Exercice 16.—
1. Utiliser l’équation f (x, y, z) = 1 pour exprimer z en fonction de x et y. En déduire une
fonction ϕ des deux variables x et y dont on cherche le minimum. Trouver les points critiques
de ϕ. Conclure à l’aide de la condition d’ordre 1 sur les extrema libres.
2. On peut aussi utiliser le théorème des extrema liés. Exprimer les gradients de f et de g,
écrire la condition donnée par le théorème. Résoudre le problème en faisant les différences des
équations deux à deux.
3. Variante mercantile : quelle dimension faut-il donner à une boite pour qu’elle ait un volume
de 96cm3 , tout en minimisant le coût de fabrication, sachant que la matériau constituant le
dessous coûte 1 euro le cm2 , 5 euros pour le dessus, et 2 euros pour les côtés ?
Etant donné un point P = (a, b) du plan, on cherche les points Q de C les plus
proches de P . Autrement dit, on cherche le minimum de la fonction
Exercice 17.— On choisit ici f (x, y) = x3 + y 3 − 3xy. Comme avant, on note C l’ensemble des
points satisfaisant l’équation f (x, y) = 0. On pose P = (1, 1).
1. Montrer que l’ensemble C est un fermé du plan. En déduire qu’il existe un point Q0 de C
réalisant la distance de C à P , c’est-à-dire tel que :
20
Exemple 3 : distance entre deux courbes Considérons maintenant un en-
semble C défini par l’équation f (x, y) = 0 et un ensemble D défini par l’équation
g(x, y) = 0, où f et g sont différentiables. On cherche les points P = (xP , yP ) et
Q = (xQ , yQ ), respectivement sur C et D, réalisant le minimum de la distance
entre un point de C et un point de D. Il s’agit donc de minimiser la fonction
sont liés (à condition que le point (P, Q) soit régulier vis à vis des équations de
contrainte, ce qui signifie simplement que les vecteurs gradients ∇(P,Q) f et ∇(P,Q) g
ne sont pas nuls). En analysant la matrice 4 × 3 de ces trois vecteurs, on trouve
les conditions
xP − xQ ∂f ∂g
∂x
(P ) xQ − xP ∂x (Q)
det = 0, det = 0,
yP − yQ ∂f ∂y
(P ) yQ − yP ∂y ∂g
(Q)
ce qui signifie que la droite (P Q) est orthogonale à la courbe C au point P et à Faire un dessin !
la courbe D au point Q.
Exercice 18.— A l’aide de ce qui précède, calculer la distance entre la parabole d’équation
y = x2 et la droite d’équation y − x + 1 = 0.
g(x1 , . . . xm ) = Πm
i=1 xi
où c est une constante donnée. L’ensemble K est compact (vérifier), la fonction
g est continue, ce qui assure qu’il existe un point Q de K en lequel le maximum
est atteint. Puisque la fonction g s’annule lorsque l’une des coordonnées est nulle
et est positive sur K, le maximum est en fait atteint en un point de
m
X
O = {(x1 , . . . , xm ) | xi = c, x1 > 0, . . . , xm > 0};
i=1
21
P
le point Q est alors un maximum local de g sur l’hyperplan d’équation xi = c,
par conséquent le théorème des extrema liés s’applique (vérifier que tous les
points de cet hyperplan
P sont réguliers). En appelant f la fonction définie par
f (x1 , . . . , xm ) = xi , Il existe donc λ tel que
∇Q g = λ∇Q f.
Cette égalité entraı̂ne que toutes les coordonnées de Q sont égales (vérifier),
et comme Q appartient à S on en déduit que Q est le point ( nc , . . . , nc ), et que
g(Q) = ( nc )n . Puisque Q réalise le maximum de la fonction g sur K, on a démontré
que pour tout point (x1 , . . . , xm ) de K,
c n
x1 · · · xm ≤
n
ce qui s’écrit encore
x1 + · · · + xm
1
(x1 · · · xm ) n ≤ .
n
Puisque la constante c était quelconque, cette inégalité est en fait valable pour
tout m-uplet de nombres positifs ; on l’appelle inégalité arithmético-géométrique.
Cette égalité
R 1 est valable pour tout h, choisir un h pour lequel l’égalité devient
du type 0 (. . . )2 dt = 0. En déduire que α doit être une fonction constante, puis
que c’est la fonction t 7→ 1.
Ce raisonnement montre que si α est un maximum de F (α) sous la contrainte
Φ(α) = 0, alors α est la fonction constante égale à 1. Montrer enfin que la
fonction 1 est bien un maximum, en utilisant l’inégalité de Cauchy-Schwarz pour
les fonctions.
II.2 Commentaires
(a) Gradient et optimisation
Comment programmer un ordinateur pour rechercher les extrema d’une fonc-
tion ? La notion de vecteur gradient est à la base d’algorithmes de recherche du
22
maximum d’une fonction, comme l’algorithme du gradient, cf Wikipedia. Le prin-
cipe est simple : il consiste à partir d’un point au hasard, et à se déplacer d’une
certaine longueur (appelée pas) dans la direction indiquée par le vecteur gradient
en ce point. Si le pas n’est pas trop grand, on se retrouve en un point où la valeur
de la fonction est supérieure (conformément à l’interprétation géométrique du gra-
dient). On se dirige à nouveau dans la direction indiquée par le vecteur gradient
au nouveau point. On recommence le procédé tant que la norme du vecteur gra-
dient est supérieure à un certain seuil. En pratique, la méthode fournit une bonne
approximation d’un maximum local. Pour espérer trouver un maximum absolu,
il faut la relancer un grand nombre de fois en partant à chaque fois d’un point
Source Wikipedia
différent choisi aléatoirement.
II.3 Exercices
Exercice 19.— Trouver le maximum et le minimum de f (x, y, z) = xyz soumise aux contraintes
x2 + y 2 + z 2 = 1 et x + y + z = 1. Aide : la méthode des multiplicateurs de Lagrange donne cinq
solutions potentielles.
23
Dans les livres d’économie, le critère des extrema liés est souvent présenté de la
façon suivante, qui a l’avantage d’être facile à mémoriser. Le problème consiste à
maximiser une fonction f : Rm → R sous les contraintes φ1 (x) = 0, . . . φp (x) = 0.
Introduisons la fonction L : Rm × Rp → R définie par
p
X
L(x, λ) = f (x) + λi φi (x).
i=1
Exercice 21.—(extrait d’un poly d’économie) Assume there are three commodities with
amounts x1 , x2 , and x3 , and prices p1 , p2 , and p3 . Assume the total value is fixed, p1 x1 +
p2 x2 + p3 x3 = w0 , where w0 > 0 is a fixed positive constant. Assume the utility is given by
U = x1 x2 x3 . Find the maximum of the utility U with constrained total value. Same question if
the utility is given by U = xa1 1 xa2 1 xa3 1 .
24
III Applications de classe C 1
Dans ce qui suit, comme avant, E et F sont des espaces vectoriels normés.
III.1 Théorie
(a) L’inégalité des accroissements finis
Théorème (Inégalité des accroissements finis). Soit γ : [a, b] → F une application
continue sur [a, b] et dérivable sur ]a, b[. On suppose qu’il existe M tel que
Alors
kγ(b) − γ(a)k ≤ M (b − a).
Recette de preuve.— Soit ε > 0. On considère l’ensemble I des nombres t ∈ [a, b] vérifiant
On veut montrer que b appartient à I. Vérifier que si t ∈ I, alors [a, t] ⊂ I. Vérifier que Si vous vous demandez
a ∈ I, et qu’il existe δ > 0 tel que I contient l’intervalle [a, δ]. Vérifier que I est fermé (on pourquoi on considère cet
écrira I comme l’image réciproque du fermé ] − ∞, 0] par une application continue). ensemble I, lisez la
L’ensemble I est donc un intervalle fermé contenant a et non réduit à a : il existe t0 ∈]a, b] preuve jusqu’au bout et
tel que I = [a, t0 ]. On veut montrer que t0 = b, on suppose par l’absurde que t0 < b. Puisque reposez-vous ensuite la
t0 ∈]a, b[, l’hypothèse du théorème nous dit que γ est dérivable en t0 . Ecrivons le développement question. En particulier,
limité que nous donne cette propriété : on a, pour tout h 6= 0 assez petit, à quoi sert ε ?
o(h)
γ(t0 + h) = γ(t0 ) + hγ 0 (t0 ) + o(h) = γ(t0 ) + h γ 0 (t0 ) +
h
avec o(h) négligeable devant h. En utilisant la définition de “négligeable devant h” avec notre
ε, en déduire qu’il existe δ > 0 tel que [t0 , t0 + δ] ⊂ [a, b] et pour tout h ∈ [0, δ],
Puisque t0 appartient à I, il vérifie l’inégalité (?). En déduire que, pour tout h ∈ [0, δ], le
nombre t0 + h vérifie aussi cette inégalité. On conclut que t0 + δ appartient aussi à I. Ceci
contredit l’hypothèse que I = [a, t0 ].
On a donc t0 = b, et en particulier
Puisque cette inégalité est vraie pour tout ε > 0, un passage à la limite donne l’inégalité
kγ(b) − γ(a)k ≤ M (b − a) recherchée.
25
1. S’il existe une constante M telle que, en tout point x de [a, b], on a
kDf (x)k ≤ M , alors Préciser, pour chacune
des trois normes
kf (b) − f (a)k ≤ M kb − ak . apparaissant dans
l’énoncé, l’espace sur
En particulier, si x 7→ kDf (x)k est majoré par M sur Ω et si Ω est convexe, lequel elle est définie.
alors f est M -lipschitzienne sur Ω.
2. S’il existe une constante M telle que, en tout point x de [a, b], on a
kDf (x) − Df (a)k ≤ M , alors
kf (b) − f (a) − Df (a).(b − a)k ≤ M kb − ak .
Recette de preuve.— On se place sous les hypothèses de l’énoncé. En appliquant les résultats
précédents, montrer que l’application f est constante sur toute boule B(x, ε) incluse dans Ω.
On dit que f est localement constante. La fin de la preuve consiste à montrer que sur ouvert connexe,
toute application localement constante est constante.
Soit maintenant c un nombre, et Ωc = {x ∈ Ω | f (x) = c} (cet ensemble est appelé ligne de
niveau c de la fonction f ). En écrivant cet ensemble comme image réciproque d’un fermé par une
application continue, expliquer pourquoi Ωc est fermé dans Ω. En utilisant que f est localement
constante, montrer que cet ensemble est aussi ouvert. Conclure.
Exercice 22.— Dans cet exercice, on montre que si la vitesse le long d’une courbe reste proche Cet exercice est utilisé
d’un vecteur ~v , alors la courbe reste proche de la droite parcourue à vitesse ~v . Plus précisément, dans la preuve du
soit t un réel positif, et γ : [0, t] → F une application continue, on suppose que γ est dérivable théorème de
sur ]0, t[. Soit ~v un vecteur de F , et M un réel tel que caractérisation des
applications de classe C 1 .
∀s ∈ [0, t], kγ 0 (s) − ~v k ≤ M.
Montrer l’inégalité
kγ(t) − (γ(0) + t.~v )k ≤ M |t| (?).
Indication : appliquer le théorème à la fonction f (s) = γ(s) − s~v .
26
(b) Applications de classe C 1
Lorsque f : Ω → F est différentiable en tout point de Ω, on peut considérer
l’application
x 7→ Df (x)
qui va de Ω dans l’espace vectoriel normé L(E, F ). Si elle est continue, on dira que
f est de classe C 1 sur Ω. On montre immédiatement qu’une somme, composition,
produit, inverse d’applications de classe C 1 est de classe C 1 .
Les énoncés qui suivent fournissent un critère pratique, en particulier lorsque
f est donnée par une formule : pour montrer qu’elle est de classe C 1 , il suffit de
calculer ses dérivées partielles et de vérifier qu’elles sont continues.
Recette de preuve.— Pour simplifier on se place dans E = R2 , on note (x1 , x2 ) les coordonnées
des points de R2 . On utilise la norme k.k∞ sur E. On se place sous les hypothèses du théorème.
Soit a = (a1 , a2 ) un point de Ω, et considérons l’application linéaire L définie par Liste des objets introduits dans
la preuve : le point a,
∂f ∂f l’application L...
L(h1 , h2 ) = h1 (a) + h2 (a).
∂x1 ∂x2
On cherche à montrer que f est différentiable au point a, et que Df (a) = L. Pour ceci, pour
tout vecteur ~h = (h1 , h2 ) assez petit, on pose o(~h) = f (a + ~h) − f (a) − L.~h, on veut voir que ... un “petit” vecteur ~h,
cette quantité est négligeable devant ~h ; rappelons que ceci signifie que o(~h)/ ~h tend vers 0 les applications o, o1 , o2 ...
lorsque ~h tend vers 0. Vérifier que o(~h) est la somme des deux quantités
∂f
o1 (h1 , h2 ) = f (a1 + h1 , a2 ) − f (a1 , a2 ) − h1 (a1 , a2 )
∂x1
et
∂f
o2 (h1 , h2 ) = f (a1 + h1 , a2 + h2 ) − f (a1 + h1 , a2 ) − h2 (a1 , a2 ) .
∂x2
On va montrer que chacune d’elle est négligeable devant ~h. Pour estimer o1 (~h), on introduit la
courbe γ1 : s 7→ f ((a1 + s, a2 )). Calculer, pour tout s, le vecteur vitesse γ10 (s). Fixons un ε > 0. ... la courbe γ1 , un
On utilise maintenant l’hypothèse de continuité des dérivées partielles : il existe δ > 0 tel que nombre ε > 0, un nombre
pour tout x dans la boule B(a, δ), δ > 0. Et c’est tout !
∂f ∂f
(x) − (a) < ε.
∂x1 ∂x1
On suppose désormais que ~h < δ. Le segment entre les points a et a + (h1 , 0) est alors contenu
dans la boule B(a, δ), en déduire que les vecteurs vitesse de la courbe γ1 vérifient, pour tout
s ∈ [0, h1 ],
kγ10 (s) − γ10 (0)k < ε.
Les vecteurs vitesse de γ1 étant “proches” du vecteur γ10 (0), on en déduit que γ1 “n’est pas trop
loin” de la droite s 7→ γ(0) + sγ 0 (0) : plus précisément, on applique le résultat de l’exercice 22
ci-dessus, avec v = γ10 (0) ; l’inégalité (?) donne alors
27
Remplacer γ1 par sa définition pour obtenir la majoration
o1 (~h) ≤ ε |h1 | ≤ ε ~h .
Vérifier que ceci correspond à la définition de “o1 (~h) est négligeable devant ~h”.
γ2 : s 7→ f ((a1 + h1 , a2 + s).
Écrire les détails de cette estimation, en vous inspirant de ce qui précède. Ceci termine la preuve
en dimension 2. La preuve du cas général est très similaire, on écrit o(~h) comme la somme de
m fonctions o1 (~h), . . . , om (~h).
∂f ∂f
kDf (x) − Df (y)k ≤ max (x) − (y)
i=1,...,N ∂xi ∂xi
(on a muni E de la norme khk1 = |h1 | + · · · + |h1 |). Si F est de dimension finie, on peut utiliser
l’argument alternatif suivant. Par hypothèses, les coefficients de la matrice jacobienne Jf (x)
dépendent continûment de x. Ceci montre que l’application x 7→ Jf (x) est continue. D’autre
part l’application qui associe à une application linéaire sa matrice est un isomorphisme d’es-
paces vectoriels, c’est donc un homéomorphisme puisqu’en dimension finie toutes les applications
linéaires sont continues. Par composition, x 7→ Df (x) est continue.
28
III.2 Commentaires
(a) Interprétation physique de l’inégalité des accroissements finis
Si γ(t) est la position au temps t d’une voiture, kγ 0 (t)k est la vitesse indiquée
au compteur au temps t ; kγ(b) − γ(a)k est la distance (à vol d’oiseau) entre le
point de départ et le point d’arrivée ; b − a est le temps de parcours, et l’inégalité
du théorème des accroissements finis ne dit rien d’autre que ceci : en roulant
pendant un temps T avec une vitesse au compteur qui ne dépasse jamais la valeur
V , on ne peut pas se retrouver à une distance supérieure à V T du point de départ.
(b) Continuité de Df
Le “raisonnement” suivant est faux :
En dimension finie, toutes les applications linéaires sont continues, donc la
III.3 Exercices
Exercice 23.—
1. L’inégalité des accroissements finis n’a d’intérêt que si la différentielle est bornée sur le
segment [a, b]. Expliquer pourquoi c’est le cas lorsque γ est de classe C 1 .
2. En supposant Ω convexe et kDf (x)k ≤ M pour tout x de Ω, rappeler pourquoi f est M -
lipschitzienne sur Ω.
3. Soit f : Ω → F de classe C 1 , et K un compact convexe de Ω (par exemple une boule fermée).
Montrer que f est lipschitzienne sur K. Plus difficile : montrer que c’est encore vrai lorsque K
est un compact connexe.
29
IV Inversion locale, fonctions implicites
Le théorème d’inversion locale et le théorème des fonctions implicites per-
mettent tous les deux, à partir d’informations sur la différentielle d’une applica-
tion en un certain point, d’obtenir des renseignements sur le comportement de
l’application au voisinage de ce point.
Soit f : E → F une application, et b = f (a) un point de F dans l’image
de f . Est-ce que les points de F proches de b ont aussi un antécédent par f ?
Le théorème d’inversion locale répond par l’affirmative, dès que la différentielle
Df (a) est bijective. De plus, dans ce cas, tout point assez proche de b a un unique
antécédent proche de a.
Le théorème des fonctions implicites concerne une équation du type
f (x1 , . . . , xm ) = 0, où f est une fonction de Rm dans R. Soit P un point de
Rm qui est une solution de cette équation. Y a-t-il d’autres solutions proches de
P ? Le théorème donne une réponse très précise, du moment que la dérivée par-
tielle de f par rapport à la dernière variable ne soit pas nulle au point P . Dans
ce cas, si l’on modifie suffisamment peu les m − 1 premières coordonnées du point
P , il existe une unique façon de modifier un petit peu la dernière coordonnée de
façon à trouver une nouvelle solution de l’équation. Autrement dit, au voisinage
du point P , l’équation détermine la dernière coordonnée comme une fonction des
m − 1 autres. Au chapitre V nous interpréterons cette propriété en disant que
l’ensemble des solutions de l’équation proches du point P est une “hypersurface”,
qui ressemble à un hyperplan de Rm . De plus, le théorème s’étend aux systèmes
d’un nombre quelconque d’équations.
IV.1 Théorie
Dans cette section, les espaces vectoriels normés E, F sont supposés être des
espaces de Banach. La complétude nous permettra de faire appel au théorème du
point fixe de Banach-Picard.
(a) Difféomorphismes
Une application Φ : U → V entre un ouvert U de E et un ouvert V de F
est un C 1 -difféomorphisme si elle est de classe C 1 , elle est bijective, et sa bijec-
tion réciproque est aussi de classe C 1 . La composée de deux C 1 -difféomorphismes
est un C 1 -difféomorphisme, la réciproque d’un C 1 -difféomorphisme est un C 1 -
difféomorphisme (c’est immédiat). En particulier, l’ensemble Diff 1 (Rn ) des C 1 -
difféomorphismes de Rn dans Rn est un groupe pour la loi de composition.
30
plus surjective puisque les points (a, b) avec b < 0 n’ont pas d’antécédant. Notons
U − = {(x, y) ∈ R2 | x < 0}, U + = {(x, y) ∈ R2 | x > 0}, et V = {(a, b) ∈ R2 | b >
0}. On a, pour tout (x, y) dans U − et tout (a, b) dans V ,
Ce n’est pas un difféomorphisme de R2 dans R2 car elle n’est pas injective : pour
tout (x, y), on a
exp(x, y + 2π) = exp(x, y),
et plus généralement, deux points ont la même image si et seulement si ils diffèrent
d’une translation verticale de longueur multiple de 2π. On voit donc que la restric-
tion de l’exponentielle à la bande U = R×]0, 2π[ est injective. Cette restriction Voir cette note d’un
f = exp|U est en fait un difféomorphisme entre la bande U et l’ouvert V du plan article de Michèle Audin
complémentaire du demi-axe des x positifs. Pourquoi la bijection réciproque f −1 pour une représentation
graphique de z 7→ ez .
est-elle de classe C 1 ? On peut donner des formules pour f −1 et vérifier sur les
formules. Une autre option consiste à calculer d’abord la différentielle de f . En
identifiant R2 et C, on trouve que
x cos(y) − sin(y)
Jf (z) = e
sin(y) cos(y)
qui est une matrice inversible (son déterminant vaut e2x ). Le fait que f soit un
difféomorphisme découle alors du théorème d’inversion local ci-dessous, et de son
corollaire 2.
Recette de preuve.— Sous les hypothèses du premier corollaire, montrons d’abord que f (Ω)
est un ouvert de F . Prendre un point y de f (Ω), que cherche-t-on ? Appliquer la définition
de l’image d’un ensemble pour trouver un point x dans Ω. On peut maintenant appliquer le
théorème d’inversion locale, écrire les objets qu’il nous fournit. On a ainsi trouvé un ouvert V
de F , vérifier que y ∈ V ⊂ f (Ω). Trouver enfin le ε recherché.
Soit maintenant O un ouvert inclus dans Ω. La restriction f|O vérifie les hypothèses du
corollaire. On lui applique ce qu’on vient de montrer, et on en déduit que son image f (O) est
un ouvert.
Recette de preuve.— Sous les hypothèses du second corollaire, f est une bijection de Ω vers
f (Ω). Il reste à voir que sa réciproque f −1 est de classe C 1 . Le théorème d’inversion locale
s’applique : f est localement un C 1 -difféomorphisme au voisinage de n’importe quel point a de
Ω. En particulier f −1 est aussi un C 1 -difféomorphisme au voisinage de n’importe quel point b
de f (Ω), donc sa différentielle en b existe et dépend continûment de b.
La preuve du théorème d’inversion locale est difficile, mais toutes les idées
sont déjà présentes dans l’exercice suivant, qui est plutôt facile. On va utiliser des
ingrédients très variés du cours de topologie et de calcul différentiel :
1. l’inégalité des accroissements finis,
2. toute application linéaire continue Id + M avec kM k < 1 est inversible,
3. le théorème du point fixe de Banach-Picard,
4. la différentiabilité de l’application réciproque d’un homéomorphisme de
classe C 1 dont la différentielle est inversible (cf chapitre I, dernière pro-
position de la section 1.(c)).
32
3. Puisque g est une bijection, elle admet une bijection réciproque g −1 . Montrer que g −1 est
2-lipschitzienne. L’application g est donc un homéomorphisme.
4. Montrer que, pour tout point a de E, la différentielle Dg(a) est inversible.
5. Montrer que g −1 est différentiable en tout point b de E.
g(x) = x + o(x)
avec o(x) négligeable devant x. On se donne un y dans E, et on définit T (x) = y − o(x). Comme
dans l’exercice, un point fixe de T est un antécédant de y par g. On cherche donc à montrer que,
si y est assez proche de 0, l’application T a un unique point fixe proche de 0. Dans l’exercice on
appliquait le théorème du point fixe à une application de E dans E. Ici T n’est pas définie de
E dans E, et il va d’abord falloir trouver une partie fermée de E qui est stable par T .
Comme f est de classe C 1 , l’application o l’est aussi, que vaut Do(0) ? En déduire l’exis-
tence d’un δ > 0 tel que
1
kDo(x)k ≤
2
pour tout x ∈ B(0, δ). D’après l’inégalité des accroissements finis, l’application o est 1/2- Terence Tao, médaillé
lipschitzienne sur cette boule ; vérifier que T l’est aussi. On suppose désormais que Fields 2006, est un
mathématicien aux
δ
y ∈ V := B 0, . capacités de travail
2 étonnantes. Le 9
Notons septembre 2011, il poste
B = {x | kxk ≤ δ} un message sur le forum
Mathoverflow demandant
la boule fermée de rayon δ centrée en 0. Montrer que T (B) ⊂ B(0, δ). En particulier, T (B) ⊂ B. s’il existe une version de
Expliquer pourquoi B est complet. On peut maintenant appliquer le théorème du point fixe ce théorème pour les
contractant à l’application T|B : B → B. La conclusion de tout ceci est : Pour tout y ∈ V = applications qui sont
B(0, 2δ ) il existe un unique x ∈ B(0, δ) tel que g(x) = y. seulement différentiables
Notons h(y) ce point x. On a ainsi défini une fonction h : V → B(0, δ), et on a g(h(y)) = y sur Ω (et pas de classe
pour tout y de V . On a également h(g(x0 )) = x0 pour tout x0 de l’ouvert C 1 ). Le 12 septembre, à
19h21, il reçoit une
U := B(0, δ) ∩ g −1 (V ). réponse lui indiquant un
En effet, un tel x0 a son image y 0 = g(x0 ) dans V , et h(y 0 ) est alors (par définition) l’unique article de Jean
point x de B(0, δ) tel que g(x) = y 0 : comme x0 satisfait cette égalité, par unicité on a x0 = Saint-Raymond de 18
h(y 0 ) = h(g(x0 )). pages. Le soir même, à
Les ensembles U et V sont ouverts. On a h(V ) = U , g(U ) = V , et donc g|U : U → V et 00h10, il indique qu’il a
h : V → U sont des bijections réciproques. La première est clairement continue, la seconde l’est posté un billet sur son
aussi : montrer en effet que h est 2-lipschitzienne, en utilisant que o est 21 -lipschitzienne et que blog expliquant la
h est la réciproque de x 7→ x + o(x). On a montré que g est un homéomorphisme local. démonstration.
Montrons enfin que, quitte à restreindre U , et V , g|U est un C 1 -difféomorphisme. Soit
U 0 = {x ∈ U | Dg(x) inversible}.
L’ensemble des éléments inversibles de L(E, E) étant un ouvert, U 0 est ouvert ; il contient 0. On
pose aussi V 0 = g(U 0 ) ; puisque g|U : U → V est un homéomorphisme, V 0 est aussi un ouvert.
33
D’après la différentiabilité de l’application réciproque d’un homéomorphisme de classe C 1 , h
est différentiable en tout point y de V 0 , et Dh(y) = (Dg(x))−1 pour tout y = g(x) dans V 0 .
Comme l’inversion est continue dans GL(E) et que Dg : U 0 → GL(E) est continue, Dh est une
application continue sur V 0 . L’application g : U 0 → V 0 est donc un C 1 -difféomorphisme.
Exercice 25.—(adapté de l’examen deuxième session 2013) Montrer que pour tout a assez
proche de 0 et tout b assez proche de 1, le système d’équations
xey + 2y = a
1 + sin(3x + 4y) = b
a une unique solution (x, y) proche de (0, 0). On pourra introduire la fonction f : R2 → R2
définie par f (x, y) = (xey + 2y, 1 + sin(3x + 4y)) et remarquer que f (0, 0) = (0, 1).
Exercice 26.— On définit l’exponentielle d’une matrice M par la série absolument convergente
1 2 1
exp(M ) = Id + M + M + M3 + · · · .
2! 3!
1. Montrer que toute matrice M assez proche de la matrice identité peut s’écrire comme
l’exponentielle d’une matrice N proche de la matrice nulle. On montrera que exp : Mn (R) →
Mn (R) est différentiable en 0 et que sa différentielle est inversible. 2. En posant N = log(M ),
donner un développement limité de log à l’ordre 1 au point Id.
Exercice 27.— On se place dans l’espace vectoriel normé E = C([0, 1], R), muni de la norme
k.k∞ . 1. Montrer que l’application f 7→ f 2 n’est pas un C 1 -difféomorphisme sur son image.
2. Montrer qu’elle n’est pas un C 1 -difféomorphisme sur aucun voisinage de la fonction nulle.
3. Montrer que, par contre, sa restriction à l’ouvert des fonctions strictement positives est un
difféomorphisme (on pourra relire le paragraphe sur la différentielle de cette application).
f (x, y) = c
34
Exercice 28.— Pour chacune de ces fonctions f , l’équation f (x, y) = 0 détermine-t-elle
y en fonction de x sur le domaine de définition de f ? Sinon, trouver un domaine plus petit
où c’est le cas. 1. f (x, y) = y − x2 . 2. f (x, y) = y 2 − x. 3. f (x, y) = x2 + y 2 − 1 4.
f (x, y) = x3 + y 3 − 3xy (pour cette dernière équation, on s’aidera de l’ensemble des solutions
dessiné ci-contre). 5. f (x, y) = y 3 − x.
A quelle condition sur a, b, c l’équation ax + by + c = 0 détermine-t-elle y en fonction de x ?
f (x, y) = c ⇔ y = φ(x)
est de classe C 1 .
Exercice 29.— Soit f définie par f (x, y) = x2 + y 2 − 1. Déterminer les points (x0 , y0 ) du cercle
d’équation f (x, y) = 0 en lesquels l’hypothèse du théorème est vérifié. Donner des valeurs de α
et β qui conviennent. Soit (x0 , y0 ) = (1, 0) ; l’équation détermine-t-elle localement y en fonction
de x au voisinage de ce point ? Montrer que l’équation détermine localement x en fonction de y
au voisinage de ce point.
Exercice 30.— Soit f définie par f (x, y) = x3 + y 3 − 3xy. Montrer que l’ensemble C des
solutions de l’équation f (x, y) = 0 est localement le graphe d’une fonction (y fonction de x ou
x fonction de y) au voisinage de tout point autre que (0, 0).
Exercice 31.— Sous les hypothèses générales du théorème, calculer φ0 (x0 ). Aide : dériver la
relation f (x, φ(x)) = 0.
Recette de preuve.— Le théorème précédent est la version dans R2 du théorème des fonctions
implicites énoncé et démontré plus bas, qui découle lui-même du théorème d’inversion locale.
Cependant, en dimension deux, on peut en donner une preuve élémentaire, qui repose sur le
calcul différentiel en une variable. Nous allons démontrer que l’équation détermine localement
y en fonciton de x, mais pas que la fonction implicite φ est de classe C 1 : pour cette propriété,
se reporter à la preuve du théorème général.
35
On se place sous les hypothèses de l’énoncé. La seconde dérivée partielle de f en (x0 , y0 )
n’est pas nulle ; pour fixer les idées, supposons qu’elle est strictement positive (le cas négatif se
traite de façon symétrique). Montrer d’abord qu’on peut trouver deux nombres strictement
positifs, α, β tels que
∂f
(x, y) > 0
∂y
pour tout (x, y) ∈]x0 − α, x0 + α[×[y0 − β, y0 + β]. Fixons provisoirement x ∈]x0 − α, x0 + α[.
Que vaut la dérivée de l’application ϕx : t 7→ f (x, y0 + t) ? Cette dérivée est donc strictement
positive sur [y0 −β, y0 +β]. En particulier, on a ϕx0 (y0 −β) < ϕx0 (y0 ) < ϕx0 (y0 +β), c’est-à-dire
Montrer que c’est un ouvert contenant x0 . Quitte à diminuer α, on peut donc supposer que ces
deux inégalités ont lieu pour tout x ∈]x0 − α, x0 + α[. Fixons un tel x. En considérant à nouveau
l’application ϕx , déduire de ces deux inégalités qu’il existe un unique y dans ]y0 − β, y0 + β[
tel que f (x, y) = c. Ceci termine la preuve.
∂f
(a) 6= 0.
∂xm
Montrer que l’équation f (x) = c détermine localement xn comme fonction des autres coor-
données (x1 , . . . , xm−1 ). On suivra le plus fidèlement possible l’argument donné dans la preuve
précédente.
Df (a, b)|Y : Y → F
est inversible. Alors l’équation f (x, y) = c détermine localement y en fonction de Ici x et y ne sont pas des
x au voisinage du point (a, b) : autrement dit, il existe un ouvert U de X contenant nombres mais des
vecteurs.
a, un ouvert V de Y contenant b tels que U × V ⊂ Ω, et une fonction φ : U → V
de classe C 1 telle que, pour tout (x, y) ∈ U × V ,
Lc ∩ (U × V ) = {(x, φ(x)) | x ∈ U }.
Df (a, b)(h, k) = (h, Df (a, b).h + Df (a, b).k) = (h, Df (a, b)|X .h + Df (a, b)|Y .k).
Soient (x, z) ∈ X × F , montrer que le système Df (a)(h, k) = (x, z), d’inconnues (h, k), a
une unique solution. Ceci montre que Df (a) est bijective, c’est donc une application linéaire
inversible.
On peut donc appliquer le théorème d’inversion locale à l’application f et au point (a, b) :
f se restreint en un C 1 -difféomorphisme entre un ouvert O contenant (a, b) et un ouvert O0
37
contenant f (a). Quitte à diminuer O, on peut supposer qu’il est de la forme U0 × V , avec U0
un ouvert contenant a et V un ouvert contenant b. Notons g : O0 → U × V la réciproque de ce
difféomorphisme. On définit
U = {x ∈ U0 , (x, c) ∈ O0 }.
On a, pour tout (x, y) ∈ U0 × V ,
∂f
Sa restriction à la droite Y est simplement k 7→ ∂x 3
(P )k, et l’hypothèse du
théorème est simplement
∂f
(P ) 6= 0.
∂x3
Plus généralement, dans Rn , la condition du théorème dit que la dérivée partielle
par rapport à xn est non nulle.
z 2 ezx + 2zy 2 − 1 = 0.
38
On considère maintenant une partie C de R3 donnée par un système de deux
équations, disons f1 (x, y, z) = 0 et f2 (x, y, z) = 0. Ce système détermine-t-il Dans les cas simples,
localement y et z comme fonction de x ? Le système des deux équations peut quand on parvient à
s’écrire de façon condensée “résoudre” le système, on
utilise la première
équation pour exprimer z
f1 (x, y, z) 0 en fonction de x et de y,
=
f2 (x, y, z) 0 puis, avec cette
expression, on utilise la
ou encore f (x, y, z) = c en posant f = (f1 , f2 ) et c = (0, 0). Cette fois-ci, on deuxième équation pour
cherche à appliquer le théorème avec pour X l’axe des abscisses et pour Y le plan exprimer y en fonction de
vertical contenant les vecteurs du type (0, y, z). En un point P de C, la matrice x ; on en déduit enfin
l’expression de z en
de Df|Y (a, b) est ! fonction de x. Ceci
∂f1 ∂f1
∂y
(P ) ∂z
(P ) explique pourquoi on
∂f2 ∂f2 . s’attend à ce qu’un
∂y
(P ) ∂z
(P )
système de deux
Le théorème nous dit que si cette matrice est inversible, alors le système détermine équations à trois
inconnues permettent
localement y et z comme des fonctions de x.
d’exprimer deux d’entre
elles comme fonction de
Exercice 35.— (Deux équations) On considère l’intersection de la sphère S2 avec le cylindre la troisième.
d’axe vertical passant par le point (1, 0, 0) et de rayon 1, qui a pour d’équation
(x − 1)2 + y 2 = 1.
IV.2 Commentaires
(a) Dessins
39
2. Mêmes question pour l’application F2 : R2 → R2 définie par F2 (x, y) = (x2 − y 2 , 2xy),
représentée ci-dessous.
3. Mêmes questions pour l’application x 7→ x3 , de R dans R.
Pour en savoir plus, on peut lire le joli article Le pli et la fronce sur le site Images des
mathématiques.
40
V Surfaces, sous-variétés
Comment définir mathématiquement une surface ? On peut donner différentes
réponses à cette question. On peut par exemple définir une surface topologique
comme un espace topologique dans lequel tout point a un voisinage homéomorphe
au plan R2 . Dans ce chapitre, nous allons donner une réponse à cette question
avec le point de vue du calcul différentiel, en définissant une surface comme une
partie de Rm qui est “localement difféomorphe à un plan”. Plus généralement,
une sous-variété de Rm est un sous-ensemble qui est localement difféomorphe à
un sous-espace vectoriel.
V.1 Théorie
(a) Sous-variétés
Soit S une partie de Rn , a un point de S, et d un entier positif. On dit que S
est lisse, de dimension d, au point a s’il existe un ouvert U de Rn contenant a, et un
C 1 -difféomorphisme Φ : U → V := Φ(U ) tels que
Φ(S ∩ U ) = E ∩ V
où E est un sous-espace vectoriel de Rn de dimension d. On dit que S est une On dira aussi que le
sous-variété (de classe C 1 ) et de dimension d si elle est lisse de dimension d en difféomorphisme Φ redresse
S au voisinage du point a.
chacun de ses points. Les sous-variétés de dimension 2 sont appelées surfaces, celles
de dimension d = n − 1 sont appelées hypersurfaces.
Premiers exemples
• Tout sous-espace vectoriel E de Rn est évidemment une sous-variété : en
effet, dans la définition d’un point lisse, il suffit de prendre Φ = Id et U = V = Rn !
Plus généralement le sous-espace affine
a + E := {a + ~v | ~v ∈ E}
est une sous-variété : cette fois-ci, on prend pour difféomorphisme Ψ la translation
x 7→ x − a qui ramène a + E sur E.
41
est un C 1 -difféomorphisme de U dans U qui envoie Γf sur E ∩ U , où E est le
sous-espace vectoriel Rm × {0}, qui est de dimension m. Pour démontrer la phrase
précédente, trouver le difféomorphisme réciproque Φ−1 .
• Le cercle unité de R2 ,
S1 = {(x, y) | x2 + y 2 = 1}
] − 1, 1[ → R
√
x 7→ 1 − x2
qui est de classe C 1 sur cet ouvert. D’après le point précédent, S1 est lisse en chacun
des points du demi-plan supérieur. Un argument analogue donne la “lissité” en
chacun des points du demi-plan inférieur. Il reste les deux points (−1, 0) et (1, 0).
On peut les traiter de façon analogue en inversant les rôles des deux coordonnées,
c’est-à-dire p
en décrivant le cercle au voisinage de (−1, 0), par exemple, comme le
graphe {(− 1 − y 2 , y) | y ∈] − 1, 1[}. Une autre solution consiste à utiliser la
rotation d’un quart-de-tour, R : (x, y) 7→ (y, −x). C’est un difféomorphisme qui
envoie le point (0, 1) sur le point (1, 0), et qui laisse le cercle S1 invariant ; puisque
S1 est lisse au point (1, 0), R(S1 ) = S1 est lisse au point R(1, 0) = (0, 1).
42
ce qui montre que l’image du vecteur ~v par la différentielle est tangent à Ψ(S)
au point Ψ(a). Ceci montre que DΨ(a)(Ta S) ⊂ TΨ(a) Ψ(S), qui est l’une des
deux inclusions énoncées dans la proposition. On obtient l’inclusion réciproque
de façon tout à fait analogue, ou même en appliquant cette première inclusion au
difféomorphisme Ψ0 = Ψ−1 , à la partie S 0 = Ψ(S) et au point a0 = Ψ(a).
Exercice 39.—
1. Soit γ : ] − ε, ε[→ R2 une courbe dérivable telle que γ(0) = 0. Supposons que l’image de γ
soit incluse dans le graphe Γ de la fonction valeur absolue. Que pensez-vous du vecteur γ 0 (0) ?
Pouvez-vous faire une conjecture ?
2. Nous voulons déterminer l’espace tangent à Γ au point (0, 0). Notons (v1 , v2 ) = γ 0 (0). On a
donc, pour tout t ∈] − ε, ε[,
tv1 + o1 (t)
γ(t) =
tv2 + o2 (t)
43
et |tv1 + o1 (t)| = tv2 + o2 (t). A l’aide du signe, montrer d’abord que v2 = 0. On en déduit que
|tv1 + o1 (t)| est négligeable devant t ; en calculant la limite
|tv1 + o1 (t)|
lim ,
t→0 |t|
en déduire que v1 = 0. Conclure.
3. En déduire que Γ n’est pas lisse au point (0, 0).
4. Par contre, montrer qu’il existe un homéomorphisme du plan qui redresse Γ au voisinage de
(0, 0). Trouver même un homéomorphisme du plan qui envoie Γ sur l’axe des abscisses. (On dit
que Γ est une sous-variété topologique).
γ : t 7→ (a + t~h, f (a + t~h))
est incluse dans Γf et passe par le point (a, f (a)) au temps t = 0 ; on a γ 0 (0) =
(~h, Df (a).~h). Soit
P = {(~h, Df (a).~h) | ~h ∈ Rm }.
Ce qui précède montre que tout vecteur de P est tangent à Γf au point (a, f (a)).
Montrons la réciproque. L’ensemble P est l’image de l’application linéaire ~h 7→
(~h, Df (a).~h). Vérifier que cette application est injective. Son image est donc un
sous-espace vectoriel de de dimension m. Puisque P et T(a,f (a)) Γf sont deux sous-
espaces vectoriels de même dimension et que le premier est inclus dans le second,
il sont égaux.
Remarquons que P n’est rien d’autre que le graphe de l’application linéaire
Df (a). On a donc montré :
Proposition. Le graphe d’une application f : Ω → Rn de classe C 1 est une sous-
variété de dimension m, dont le sous-espace vectoriel tangent en un point (a, f (a))
est le graphe de Df (a). Le sous-espace affine tangent en ce point est le graphe de
l’application affine x 7→ f (a) + Df (a).(x − a) qui constitue la partie principale du
développement limité de f au point a à l’ordre 1.
44
L’espace vectoriel tangent est donc l’ensemble des vecteurs ~h qui sont ortho-
gonaux au gradient de f au point a.
L(h1 , . . . , hn ) = a1 h1 + · · · + an hn ,
et en utilisant que l’un des ai n’est pas nul pour décrire une base de l’espace des solutions de
l’équation L.h = 0.
2. Montrer que si un sous-espace vectoriel E de dimension d est strictement inclus dans un
autre sous-espace vectoriel F , alors la dimension de F est > d. On rappelle que dans un espace
vectoriel la dimension est le nombre d’éléments de n’importe quelle base de l’espace, et que toute
famille libre peut être complétée en une base.
Exemples
• La sphère Sn−1 est l’ensemble des points de Rn à distance 1 de l’origine, elle est
donc définit par l’équation f (x1 , . . . , xn ) = 1 avec f (x1 , . . . , xn ) = x21 + · · · + x2n .
La différentielle de la fonction f au point a = (a1 , . . . an ) a pour matrice
(2a1 , . . . , 2an ),
qui n’est nulle qu’au point 0. Puisque 0 n’appartient pas à Sn−1 , le théorème nous
dit que la sphère est une hypersurface de Rn . L’espace vectoriel tangent au point
a a pour équation X
ai hi = 0,
autrement dit il s’agit de l’hyperplan orthogonal au vecteur a.
45
• Soit T la partie de R3 d’équation f (x, y, z) = 0 avec
f (x, y, z) = 4z 2 + x2 + y 2 − 4 x2 + y 2 − 1
46
Cas général d’un système de p équations On va généraliser le théorème
précédent à un systèmes d’équations. Soit f1 , . . . , fp : Ω ⊂ Rn → R des ap-
plications de classe C 1 définies sur un ouvert Ω. Soit S = {a ∈ Ω | f1 (a) =
0, . . . fp (a) = 0} l’ensemble des solutions du système d’équations correspondant.
Rappelons une définition du chapitre II : le point a est dit régulier pour S si les gra-
dients ∇a f1 , . . . , ∇a fp sont linéairement indépendants. Remarquons que lorsqu’on
a une seule équation, la condition se réduit à “∇a f est linéairement indépendant”,
ce qui signifie juste que ∇a f 6= 0 : on retrouve ainsi l’hypothèse Df (a) 6= 0 de
l’énoncé précédent.
Exercice 42.— (indispensable) Montrer que les conditions suivantes sont équivalentes :
1. h ∈ Ker(Df1 (a)) ∩ · · · ∩ Ker(Dfp (a)),
2. ∀i = 1, . . . , p, h∇a fi , hi = 0,
3. h ⊥ Vect(∇a f1 , . . . , ∇a fp ).
Recette de preuve.— Pour simplifier, faisons la preuve dans le cas de deux équations (p =
2). Par hypothèse, les deux vecteurs gradient ∇a f1 et ∇a f2 sont linéairement indépendants.
Autrement dit, l’espace engendré par les lignes de la matrice suivante (qui n’est autre que la
matrice de Df (a)), !
∂f1 ∂f1
∂x1 (a) · · · ∂xm (a)
∂f2 ∂f2
∂x1 (a) · · · ∂xm (a)
est de dimension 2. On utilise maintenant une propriété fondamentale d’algèbre linéaire : pour
toute matrice, la dimension de l’espace vectoriel engendré par les lignes est égal à la dimension
de l’espace vectoriel engendré par les colonnes (et appelée rang de la matrice). Il existe donc
deux colonnes de cette matrice qui sont linéairement indépendante. Pour simplifier, supposons
que ce sont les deux dernières, celles correspondant aux variables xm−1 et xm . on est alors dans
la situation du théorème des fonctions implicites, avec la sous-matrice 2 × 2 à droite qui est
inversible : !
∂f1 ∂f1 ∂f1 ∂f1
∂x1 (a) · · · ∂xm−2 (a) ∂xm−1 (a, b) ∂xm (a)
∂f2 ∂f2 ∂f2 ∂f2 .
∂x1 (a) · · · ∂xm−2 (a) ∂xm−1 (a) ∂xm (a)
La fin de la preuve est la même que dans le cas d’une équation : d’après le théorème des fonctions
implicites, S est localement le graphe d’une application de Rm−2 dans R2 de classe C 1 , et on
a vu qu’un tel graphe est une sous-variété de dimension m − 2. La détermination de l’espace
tangent découle aussi des mêmes arguments que dans le cas p = 1.
Dans cette preuve, nous avons fait deux hypothèses simplificatrices. Nous nous sommes
d’abord restreints au cas d’un système de 2 équations. Le cas général utilise les mêmes arguments,
seules les notations sont un peu plus compliquées (plus de pointillés dans la matrice de Df (a)...).
Ensuite, nous avons supposé que c’était les deux dernières colonnes de la matrice jacobienne de
f qui étaient libres. Dans le cas général, notons i et j les numéros de deux colonnes linéairement
47
indépendantes dans la matrice de Df (a). Le théorème des fonctions implicites s’applique à
nouveau, quite à permuter les variables, et nous dit que notre système d’équations détermine
localement xi et xj comme des fonctions de classe C 1 des autres variables. (De façon un peu
plus précise, on applique le théorème à la décomposition en somme directe Rm = X ⊕ Y où X
est l’espace vectoriel engendré par les vecteurs ei et ej de la base canonique, qui correspond aux
variables xi , xj , et Y est le sous-espace vectoriel engendré par tous les autres vecteurs de la base
canonique). On conclut comme avant.
2 2
1
Exercice 43.— Montrer que l’équation x2 + y 2 − x2 + y 2 + z2 = 100 définie une surface
3
de R . On peut montrer qu’elle n’est difféomorphe ni à la sphère ni au tore ; il s’agit d’une
surface de genre 2.
48
(e) Sous-variété donnée par un paramétrage
Soit Γ : Ω ⊂ Rd → Rn une application de classe C 1 .
Théorème. Soit a un point de Ω en lequel la différentielle de Γ est injective.
Alors il existe un ouvert U contenant a tel que SU = Γ(U ) est une sous-variété
de dimension d, et en posant p = Γ(a),
Tp SU = Im(DΓ(a)).
Recette de preuve.— On écrit Γ = (γ1 , . . . , γn ). Si DΓ(a) est injective, sa matrice contient une
sous-matrice carrée de taille d × d qui est inversible. Pour simplifier, supposons que cette sous-
matrice est la sous-matrice-carrée formée des d premières lignes de la matrice de DΓ(a), c’est-
à-dire la matrice de DΓ̂(a), où Γ̂ = (γ1 , . . . , γd ) (les autre cas compliquent juste les notations) ;
remarquons qu’on a Γ = (Γ̂, γd+1 , . . . , γn ). On peut alors appliquer le théorème d’inversion locale
à l’application Γ̂ : Ω → Rd au point a : il nous fournit un ouvert U de Rd tel que V := Γ̂(U )
est un ouvert de Rd , et tel que Γ̂|U : U → V est un C 1 -difféomorphisme, dont on note Γ̂−1 la
réciproque. Pour tout y ∈ V on a
ΓΓ̂−1 (y) = (Γ̂Γ̂−1 (y), γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y)) = (y, γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y))
et donc
{ΓΓ̂−1 (y) | y ∈ V } = {(y, γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y)) | y ∈ V }
est le graphe de la restriction à V de l’application Φ : y 7→ γd+1 Γ̂−1 (y), . . . , γn Γ̂−1 (y), mais
d’autre part uisque Γ̂ est une bijection entre U et V , cet ensemble s’écrit aussi
{Γ(x) | x ∈ U } = Γ(U ).
Conclusion : Γ(U ) est le graphe d’une application de classe C 1 . Nous avons vu que ceci est une
sous-variété de classe C 1 de dimension d.
Déterminons Tp SU . En considérant les courbes t 7→ Γ(t~h) pour un vecteur ~h de Rd donné,
on voit que Tp SU contient l’image de DΓ(a) ; puisque DΓ(a) est injective, son image est de
dimension d, ce qui conclut.
V.2 Commentaires
(a) Équations différentielles sur les sous-variétés
Sur une sous-variété, on peut généraliser les notions de calcul différentiel que
nous avons définies dans le cadre des espaces vectoriels normés. Par exemple,
on peut définir la notion d’application différentiable d’une sous-variété dans
une autre, ou ce qu’est une équation différentielle sur une sous-variété. Ces
généralisations sont très utiles. Donnons un exemple. Considérons un astéroı̈de
dans l’espace, en mouvement autour de son centre de gravité. Choisissons une
position de référence pour ce corps solide, et plaçons l’origine de R3 à son centre
de gravité. Pour chaque position possible du solide, il existe alors une unique ro-
tation vectorielle qui envoie la position de référence sur cette nouvelle position.
L’ensemble des rotations vectorielles de R3 est généralement appelé SO(3),et on
voit ainsi que l’espace de configuration est naturellement SO(3), qui est une sous-
variété de l’espace vectoriel M3 (R). Le mouvement de ce solide est alors décrit
par des équations différentielles (étudiées par Euler et Poinsot notamment), sur
SO(3).
49
(b) Noeuds
Un noeud est une sous-variété de dimension 1 de R3 qui est compacte
et connexe. On considère que deux noeuds sont équivalents s’il existe un
difféomorphisme de R3 qui envoie le premier sur le second. 3 Un cercle de R3 est
l’exemple le plus simple de noeuds. Le noeud de trèfle est un exemple de noeud qui
n’est pas équivalent au cercle (mais démontrer qu’il n’y a aucun difféomorphisme
qui envoie le noeud de trèfle sur le cercle n’est pas si simple ! On peut trouver
un argument ici.) La question fondamentale de la théorie des noeuds est de
décrire toutes les classes d’équivalence des noeuds. Il n’est pas difficile de faire une
liste des dessins de tous les noeuds possibles, mais on ne sait pas encore comment
décider avec certitude si deux dessins de la liste sont équivalents ou non !
V.3 Exercices
source : Wikipedia
Exercice 45.— (algèbre linéaire) En utilisant le théorème de la base incomplète, montrer
que pour tout sous-espaces vectoriels E, F de Rn ayant la même dimension d, il existe un
isomorphisme Φ de Rn tel que Φ(E) = F .
2
Exercice 46.— La Lemniscate, d’équation x2 + y 2 = x2 − y 2 , est-elle une sous-variété du
plan ? On pourra s’aider du dessin ci-dessous.
50
Cette formule définit une application `-périodique de R dans la sphère unité de R3 , autrement
dit une courbe fermée sur la sphère.
2. Donner une minoration de r(s) à l’aide de δ(γ). On numérote (1) cette inégalité.
3. Comparer u( 2` ) et u(0). En déduire que la longueur de la courbe u,
Z `
L(u) := ku0 (t)k dt
0
est supérieure ou égale à 2π. On numérote (2) cette inégalité. (On pourra admettre qu’une
courbe joignant deux points antipodaux sur la sphère unité à une longueur au moins égale à π).
4. Dériver la relation ku(s)k = 1 pour montrer que les vecteur u(s) et u0 (s) sont orthogonaux.
5. Calculer u0 (s). En utilisant le théorème de Pythagore (et la question précédente), en déduire
que
2
ku0 (s)k ≤ (3).
r(s)
6. Conclure, à l’aide de (1), (2) et (3).
Cet exercice accompagne un article à paraı̂tre à Images des mathématiques, intitulé “des
noeuds très distordus”.
51
VI Différentielles d’ordre supérieur
VI.1 Théorie
Dans ce chapitre, on considère deux espaces vectoriels normés E, F de dimen-
sions finies, et une application f : Ω → F définie sur un ouvert de E. On suppose
que f est différentiable sur Ω. La différentielle Df est alors une application de Ω
vers l’espace vectoriel normé L(E, F ).
2 ~ ~ ∂ ∂f X ∂ 2f
D f (a) : (h, k) 7−→ (a) = hi kj (a)
∂~k ∂~h 1≤i,j≤m
∂xj ∂xi
52
Lorsque f est à valeurs dans R, sa différentielle seconde au point a est une
application bilinéaire de Rm dans R, une forme bilinéaire. La matrice de cette forme
bilinéaire dans la base canonique est la matrice carrée contenant les dérivées par-
tielles d’ordre 2 ; elle est appelée hessienne de f au point a :
∂2f ∂f
∂x ∂x
(a) · · · ∂xm ∂x1
(a)
1 .. 1 .. ..
Hf (a) = .
. . .
∂f ∂f
∂x1 ∂xm
(a) ··· ∂xm ∂xm
(a)
Exemples
• Un calcul explicite Soit f la fonction de R2 dans R donnée par f (x, y) =
x4 + y 4 − 4xy. Les dérivées partielles d’ordre 1 sont
∂f ∂f
(x, y) = 4x3 , −4y (x, y) = 4y 3 − 4x.
∂x ∂y
Les dérivées partielles secondes sont
∂ 2f ∂ 2f ∂ 2f ∂ 2f
(x, y) = 12x2 , (x, y) = −4 (x, y) = −4, (x, y) = 12y 2 .
∂x∂x ∂y∂x ∂x∂y ∂y∂y
Exprimons la différentielle seconde au point (1, 1). On a
∂ 2f ∂ 2f ∂ 2f ∂ 2f
(1, 1) = 12, (1, 1) = −4 (1, 1) = −4, (1, 1) = 12.
∂x∂x ∂y∂x ∂x∂y ∂y∂y
E × E −→ L(E × E, F )
(x, y) 7−→ B(x, .) + B(., y)
où B(x, .) + B(., y) désigne l’application (~h, ~k) 7→ B(x, ~k) + B(~h, y). Pour (x, y)
donné, l’application DB(x, y) = B(x, .) + B(., y) est bien sûr linéaire (comme
la différentielle en un point donné de n’importe quelle application). Ce qui est
spécifique des applications bilinéaires, c’est que l’application DB : (x, y) 7→
DB(x, y) est elle-même linéaire . Comme la différentielle d’une application linéaire DB est un élément de
est constante, égale en tout point à elle-même, on en déduit que pour tout (x, y), L(E × E, L(E × E, F )) !
D2 B(x, y) = B, c’est-à-dire que pour tout ~h, ~k,
53
On a déjà vu la formule de dérivation pour une composition γ = f ◦ α où α est
définie sur un intervalle de R, Ce passage est difficile,
pour le comprendre il
(?) (f ◦ α)0 (t) = Df (α(t)).α0 (t). faut avoir parfaitement
saisi la différence entre
(chapitre I, commentaires, section (b)). On a en particulier γ 0 (t) = Df (a + t~h).~h. l’application Df (a), qui
est linéaire de E dans F ,
Il faut maintenant dériver l’application γ 0 . L’application Γ : t 7→ Df (a + t~h) et l’application Df , qui
est du même type que γ, on peut lui appliquer la formule (?), ce qui donne n’est en général pas
Γ0 (0) = D(Df )(0).~h. Revenons à γ 0 (t) = Γ(t).~h. L’application Γ est à valeurs linéaire, et va de Ω dans
L(E, F ).
dans l’espace L(E, F ) des applications linéaires, et on l’évalue en un vecteur ~h
qui est fixe (il ne dépend pas de t). Pour ~h fixé, l’application L~h : A 7→ A.h,
qui va de L(E, F ) dans F , est linéaire. On peut écrire γ(t) = L~h .Γ(t). Pour On se souvient que
dériver cette application, on peut donc appliquer à nouveau la formule (?), en se D(Df )(a) est un élément
souvenant que la différentielle d’une application linéaire est elle-même : on a donc de L(E, L(E, F )) :
autrement dit, on doit
γ 00 (0) = L~h .Γ0 (0) = Γ0 (0).~h = (D(Df )(0).~h).~h = D2 f (0)(~h, ~h). l’évaluer en un vecteur de
Le calcul peut aussi se faire en coordonnées. Partons de E, et on obtient un
élément de L(E, F ). Par
m
X ∂f conséquent D(Df )(0).~h a
γ (t) = Df (a + t~h).~h =
0
(a + t~h)hi . bien un sens, c’est un
i=1
∂x i
élément de L(E, F ), on
va pouvoir à nouveau
Appliquer la même formule pour obtenir la dérivée de chaque fonction t 7→ l’évaluer en ~h pour
∂f
∂xi
(a + t~h). Réinjecter dans la somme ci-dessus, puis évaluer en t = 0. Vérifier obtenir un élément de F .
enfin qu’on retrouve bien la formule donnant D2 f (a)(~h, ~h) en coordonnées. Rete-
nons le résultat de ce calcul sous la forme d’un lemme qui nous servira plus bas
dans la preuve de la formule de Taylor.
Lemme. Soit f de classe C 2 , a ∈ Ω et ~h ∈ E. Posons γ(t) = f (a + t~h). Alors
pour tous vecteurs ~h, ~k. En coordonnées, ceci signifie que pour tous i, j ∈
{1, . . . , m},
∂ 2f ∂ 2f
(a) = (a).
∂xj ∂xi ∂xi ∂xj
54
Recette de preuve.— Commençons par considérer le cas où E = R2 , F = R, a = (0, 0) : f
est une application de classe C 2 sur un ouvert de R2 contenant (0, 0) et à valeurs dans R, et
montrons l’égalité des deux dérivées partielles secondes
∂2f ∂2f
= .
∂y∂x ∂x∂y
Pour ça, posons pour tout t assez petit
∆(t) = f (t, t) − f (t, 0) − f (0, t) + f (0, 0).
Lemme. On a
∆(t) ∂2f
2
lim= (0, 0).
t→0 t ∂x∂y
Montrons le lemme. Pour un t fixé, on a d’abord
Z 1
∂f
(1) f (t, t) − f (t, 0) = t (t, st)ds.
0 ∂y
R1
En effet, t ∂f
∂y (t, st) est la dérivée de l’application γ : s 7→ f (t, st), et l’égalité suit de 0
γ 0 (s)ds =
γ(1) − γ(0). Un argument analogue donne
Z 1
∂f
(2) f (0, t) − f (0, 0) = t (0, ts)ds.
0 ∂y
On déduit de (1) et (2) l’égalité
Z 1
∂f ∂f
(3) ∆(t) = t (t, st) − (0, st) ds.
0 ∂y ∂y
Pour les mêmes raisons qu’avant, le terme à l’intérieur de l’intégrale s’écrit à son tour, pour t
fixé, Z 1
∂f ∂f ∂ ∂f
(t, st) − (0, st) = t (rt, st)dr
∂y ∂y 0 ∂x ∂y
et en injectant cette égalité dans (3) on obtient
Z 1 Z 1 2
2 ∂ f
(4) ∆(t) = t (rt, st)dr ds.
0 0 ∂x∂y
La fin de la preuve du lemme consiste à utiliser la continuité de la dérivée partielle seconde
au point (0, 0). Pour ε > 0, il existe δ > 0 tel que pour tout x, y ∈] − δ, δ[,
∂2f ∂2f ∂2f
(0, 0) − ε < (x, y) < (0, 0) + ε.
∂x∂y ∂x∂y ∂x∂y
Fixons un réel t ∈]−δ, δ[. Pour tout r, s ∈ [0, 1] on a encore rt, st ∈]−δ, δ[, et donc l’encadrement
précédent est vérifié pour x = rt et y = st. En intégrant cet encadrement et en utilisant
l’égalité (4), on obtient
∂2f ∆(t) ∂2f
(0, 0) − ε < 2 < (0, 0) + ε.
∂x∂y t ∂x∂y
Ceci termine la preuve du lemme. Souligner les parties du
texte correspondant à la
En inversant les rôles des variables x et y, on montre de même que définition de la limite
∆(t) ∂2f réclamée par le lemme.
lim 2
= (0, 0).
t→0 t ∂y∂x
On en déduit bien sûr l’égalité des deux dérivées partielles secondes.
Dans le cadre général de l’énoncé du lemme de Schwarz, on se ramène au cas particulier que
nous venons de traiter en posant F (x, y) = f (a + x~h + y~k). En effet, on a alors
∂2F ∂2f ∂2F ∂2f
(0, 0) = (a) et (0, 0) = (a).
∂x∂y ∂v∂w ∂y∂x ∂w∂v
55
(c) Formule de Taylor à l’ordre 2
La différentielle seconde permet d’affiner le développement limité qui est
donné, par définition, par la différentielle. La formule de Taylor à l’ordre 2 est
surtout intéressante en un point a où la différentielle s’annule, en particulier pour
étudier l’allure locale de la fonction au voisinage de a, et trouver des conditions
pour que le point a soit un maximum ou un miminum local, ce que nous ferons
dans la section suivante.
o2 (~h)
lim 2 = 0.
~h→0 ~h
Recette de preuve.— Dans cette preuve nous allons utiliser explicitement la continuité de
D2 f . Rappelons que D2 f est une application de Ω à valeurs dans l’espace vectoriel B(E, F ) des
applications bilinéaires de E dans F . Puisque E et F sont de dimensions finies, c’est aussi le
cas de B(E, F ), et nous pouvons choisir n’importe quelle norme sur cet espace, puisqu’elles sont
toutes équivalentes. La norme qui nous intéresse est définie de façon analogue à la norme sur
L(E, F ) par
kB(v, w)k
kBk = sup .
v6=0,w6=0 kvk kwk
(Cette dernère formule est une généralisation en dimension supérieure de la formule de Taylor
avec reste intégrale.)
Soit maintenant ε > 0. Puisque f est de classe C 2 , sa différentielle seconde est continue : il
existe δ > 0 tel que pour tout vecteur ~v de norme inférieure à δ,
D2 f (a + ~v ) − D2 f (a) < ε.
56
Soit ~h dans la boule B(0, δ). Pour tout t dans [0, 1] le vecteur ~v = t~h appartient aussi à cette
boule, et on a
2 2
−ε ~h < D2 f (a + t~h)(~h, ~h) − D2 f (a)(~h, ~h) < ε ~h .
D’autre part nous avons montré que pour tout ε > 0 il existe δ > 0 tel que pour tout ~h < δ
on a
o2 (~h)
2 < ε.
~h
2
Autrement dit, o2 (~h) est négligeable devant ~h . Ceci termine la preuve.
Trouver l’endroit de la preuve où on a utilisé l’inégalité donnée par la définition, rappelée
au début de la preuve, de la norme d’une application bilinéaire !
Exercice 48.— Vérifier qu’en dimension 1, la formule du théorème redonne bien la formule de
Taylor usuelle. On pourra se reporter à la définition de la différentielle, exemple II, pour le lien
entre différentielle et dérivée, et utiliser la dérivée seconde le long d’une droite calculée dans les
exemples de la section (a).
Malheureusement, il
n’existe aucun énoncé
donnant une condition
(d) Extrema locaux : conditions d’ordre deux à la fois nécessaire et
suffisante pour qu’une
Au chapitre II, nous avons décrit une relation entre la différentielle et les fonction ait un maximum
extrema. La différentielle seconde permet d’énoncer des critères plus précis. Com- local en un point :
mençons par nous rappeler ce qui se passe en une variable. certains énoncés donnent
une condition nécessaire,
Exercice 49.— (cas où E = R) Soit Ω un ouvert de R, f : Ω → R et a un point de Ω. Avant et d’autres une condition
de regarder la suite du cours, discuter des liens logiques entre les propriétés suivantes : suffisante. Cette difficulté
existe déjà en une
1. f a un minimum local au point a,
variable, et il vaut mieux
2. f a un minimum local strict au point a, avoir les idées claires
3. f 0 (a) = 0, pour les fonctions de R
4. f 00 (a) ≥ 0, dans R avant d’aller voir
ce qui se passe en
dimension supérieure.
57
5. f 00 (a) > 0.
On pourra s’aider des exemples x 7→ x2 , x 7→ x3 , x 7→ x4 .
Alors la fonction f admet un minimum local strict au point a : il existe ε > 0 tel que
pour tout x différent de a et dans la boule B(a, ε), f (x) > f (a).
Théorème. Si la fonction f admet un minimum local au point a, alors
On a bien sûr deux énoncés analogues pour les maximum locaux, en inversant
le sens des inégalités sur la différentielle seconde.
avec o2 (t) négligeable devant t2 . Lorsque t tend vers 0, le terme entre parenthèse tend donc vers
D2 f (a)(~h, ~h). Si on avait D2 f (a)(~h, ~h) < 0, alors ce terme entre parenthèses serait strictement
négatif pour tout t assez petit, on aurait ϕ(a + t) < ϕ(a) pour tout t 6= 0 assez petit, ce
qui contredirait le fait que la fonction ϕ admet un minimum local au point 0. On a donc
D2 f (a)(~h, ~h) ≥ 0, comme voulu.
Comme D2 f (a)(~h, ~h) > 0, on en déduit que la fonction ϕ admet un minimum local au point 0.
Autrement dit, f admet un minimum local strict au point a dans la direction ~h. Comme c’est
vrai pour tout vecteur ~h 6= 0, f a bien un minimum local strict au point a.
Où est l’erreur ? Elle est dans la dernière phrase : contrairement à ce qu’elle affirme, il existe
des fonctions f : R2 → R pour lesquelles f a un minimum local strict au point 0 en restriction
à toutes les droites passant le point 0, sans que f ait un minimum local en 0.
58
Voici maintenant un argument correct. L’application ~h 7→ D2 f (a)(~h, ~h) est continue et Voici à quoi pourrait
strictement positive pour tout ~h 6= 0. Par compacité de la sphère unité de E qui est de dimension ressembler une fonction f
finie, il existe ε > 0 tel que pour tout k~v k = 1, D2 f (a)(~v , ~v ) > ε. (Cet argument vous rappelle contredisant l’argument
peut-être la preuve de l’équivalence de normes en dimension finie.) Soit maintenant un vecteur incorrect. Il existe dans le
~h 6= 0 de norme quelconque ; en utilisant la bilinéarité de D2 f (a), on obtient plan une courbe qui
arrive au point 0 en
2 ~h ~h 2 spiralant, et le long de
D2 f (a)(~h, ~h) = ~h D2 f (a) , ≥ ~h ε. laquellef prend des
~h ~h valeurs < 0, sauf au point
0 où f s’annule.
L’argument final utilise la formule de Taylor à l’ordre 2, et ressemble à celui utilisé dans la Considérons une droite
preuve de la condition d’ordre 1 : pour tout ~h 6= 0 assez petit, passant par le point 0.
Elle recoupe la spirale en
f (a + ~h) = f (a) + Df (a).~h + 12 D2 (f )(a)(~h, ~h) + o2 (~h) un autre point, et en ce
2 2 ~
≥ f (a) + 0 + ~h ε + o (h)2 .
khk
point f est < 0, mais
entre 0 et cet autre point
2 il y a assez de place pour
Puisque o2 (~h) est négligeable devant khk , lorsque ~h tend vers 0, le terme entre parenthèses tend
que f prennent des
vers ε. Il existe donc δ > 0 tel que pour tout vecteur ~h non nul dans la boule B(0, δ), ce terme
valeurs > 0, au voisinage
entre parenthèses est > 2ε , et
de 0, le long de cette
2 droite. Malheureusement
f (a + ~h) ≥ f (a) + ~h ε
2 > f (a). je n’ai pas assez de place
dans cette marge pour
Autrement dit, f admet un minimum local strict au point a. construire complètement
ce contre-exemple...
Un théorème d’algèbre linéaire nous dit que toute forme quadratique est diago-
nalisable dans une base orthonormée. En notant h01 , h02 les coordonnées dans la
59
nouvelle base, ceci signifie que Q(h1 , h2 ) = λh01 2 + µh02 2 , où λ et µ sont les valeurs
propres. En ce qui concerne le signe de Q, on est ainsi ramené à l’un des quatre
exemples essentiels. On voit en particulier que le signe de Q est déterminé par le
signe de ses valeurs propres.
Exemples
• Soit f la fonction définie sur R2 par f (x, y) = x2 + y 2 − xy − 2x − y. Cherchons
les extrema éventuels de f .
Le calcul différentiel nous permet de trouver les extrema locaux. Pour ceci,
on cherche d’abord les points critiques, c’est-à-dire les points (x, y) en lesquels la
différentielle est nulle, ce qui revient à dire que les deux dérivées partielles sont
nulles. Ici, les points critiques sont les solutions du système d’équations
2x − y − 2 = 0
2y − x + 1 = 0
qui a pour solution le point (1, 0). Pour tenter de connaitre la nature de ce point
critique, calculons les dérivées secondes en ce point : on trouve la différentielle
seconde Ne pas oublier de compter
∂2f
D2 f (1, 0)(~h, ~h) = 2h21 + 2h22 − 2h1 h2 . deux fois la dérivée ∂x∂y !
Pour pouvoir appliquer les théorèmes, il nous faut le signe de cette expression. Une
première possibilité consiste à trouver le signe des valeurs propres de la matrice
des dérivées partielles d’ordre 2, ici
2 −1
−1 2
La somme des valeurs propres vaut la trace (4), leur produit vaut le déterminant Une autre possibilité pour
(3). Somme et produit étant strictement positifs, les deux valeurs propres sont déterminer le signe
consiste à utiliser la
strictement positives, par conséquent la forme quadratique D2 f (1, 0) est définie
forme canonique :
positive. Le premier théorème ci-dessus s’applique : f admet au point (1, 0) un 2h21 + 2h22 − 2h1 h2 =
minimum local strict. Puisque f n’a pas d’autre point critique, elle n’a pas d’autre 2(h21 + h22 − h1 h2 ) =
extremum local, en particulier pas de maximum local (tout extremum local est 2((h1 − 21 h2 )2 + 43 h22 ) et
un point critique : c’était le premier théorème du chapitre II). on voit, sous cette forme,
que l’expression est
Elle n’a donc pas de maximum, puisque tout maximum est a fortiori un maxi-
strictement positive pour
mum local. A-t-elle un minimum ? Le calcul différentiel n’est pas suffisant pour tout ~h 6= 0.
conclure, il faut recourir à d’autres outils, comme ceux fournis par la topologie.
Ici, on peut montrer (1) que f (x, y) tend vers +∞ lorsque la norme de (x, y) tend
60
vers +∞. Un argument de compacité permet d’en déduire (2) l’existence d’un
minimum global. Ce minimum global est en particulier un minimum local, il ne
peut donc s’agir que du point (1, 0). Remarquer qu’ici,
Pour montrer (1), on peut par exemple mettre d’abord la partie quadratique l’argument topologique
sous la forme canonique, en écrivant permet de
“court-circuiter” le calcul
1 3 de la différentielle
f (x, y) = (x − y)2 + y 2 − 2x + y. seconde...
2 4
On peut écrire
21 √
1 3 1 3
N (x, y) = (x − y)2 + y 2 = (x − y, y) = kA(x, y)k
2 4 2 2
où A est une application linéaire inversible ; N est donc une norme sur R2 , et par
équivalence des normes, il existe une constante K > 0 telle que, pour tout x, y,
N (x, y) ≥ K k(x, y)k. On peut maintenant minorer f (x, y) par une expression
dans laquelle on factorise la norme :
−2x + y
f (x, y) ≥ k(x, y)k2 (K 2 + ).
k(x, y)k2
x y
Lorsque la norme k(x, y)k tend vers +∞, les quantités k(x,y)k 2 et
k(x,y)k2
tendent
vers 0 (par exemple à cause de la majoration |x| ≤ k(x, y)k). On en déduit que le
terme minorant f (x, y) tend vers +∞, et par comparaison il en est de même pour
f (x, y).
qui a pour solution les points (−1, −1), (1, 1) et (0, 0). Aux deux premiers points,
la matrice de la différentielle seconde est
3 −1
−1 3
et D2 f (a) y est définie positive : ces deux points sont donc des minima locaux.
Au point (0, 0), on a D2 f (0, 0)(h1 , h2 ) = −4h1 h2 . On peut clairement trouver des
valeurs du couple (h1 , h2 ) pour lesquelles D2 f (0, 0)(h1 , h2 ) > 0, et d’autres pour
lesquelles D2 f (0, 0)(h1 , h2 ) < 0. Le point est de type selle, le second théorème
(ou plutôt sa contraposée) nous dit que a n’est pas un minimum local de f ; le
théorème analogue pour les maxima nous dit que a n’est pas non plus un maximum
local.
La fonction a deux minima locaux et un point selle, pas de maximum local.
Elle n’a donc pas de maximum. Un argument analogue à celui développé dans
l’exemple précédent permet de montrer que les minima locaux sont des minima.
61
(e) Dérivées d’ordres supérieurs
Tous les résultats se généralisent aux différentielles d’ordres supérieures ; don-
nons un aperçu de la théorie. Dans ce qui suit, Ω est un ouvert de E = Rm .
• Soit f : Ω → F . On définit de façon récursive les applications de classe C k : si
f est différentiable sur Ω et si Df est de classe C 2 , alors f est dite de classe C 3 ;
si Df est de classe C 3 , f est dite de classe C 4 , etc.. Si elle est de classe C k pour
tout k, on dit qu’elle est de classe C ∞ .
• La différentielle d’ordre k en un point a s’identifie à une application multilinéaire
de E k dans F . On généralise sans difficulté la notion de dérivée partielle pour
définir les dérivées partielles d’ordre k.
• Le critère pour les applications de classe C 1 et C 2 se généralise : une application
f est de classe C k si et seulement si elle admet en tout point a des dérivées
partielles d’ordre k
∂kf
∂ ∂ ∂
(a) := ··· f (a)
∂xik · · · ∂xi1 ∂xik ∂xik−1 ∂xi1
62
VI.2 Commentaires
(a) Interprétation de la différentielle seconde
On peut interpréter la différentielle seconde grâce au lemme de la preuve du
lemme de Schwarz. Soit f une fonction définie au voisinage d’un point a, et ~h un
vecteur. La dérivée de f selon le vecteur ~h donne la valeur de la différence des
valeurs de f en a + t~h et en a, lorsque t tend vers 0, au premier ordre :
∂f
δ(a, t~h) = f (a + t~h) − f (a) = t (a) + o(t).
∂~h
Le lemme dit que lorsque t tend vers 0, cette quantité est d’ordre 2 en t, et le
coefficient est donné par la différentielle seconde :
63