Cours de Calcul Diff New Version
Cours de Calcul Diff New Version
Brahim ABBACI
5 décembre 2022
1 Introduction.
Le but de ce cours est de donner une notion pertinente de “dérivée” en a ∈ U , pour les
applications à variables dans l’espace vectoriel Rn de dimension > 1 définies dans un ouvert
U à valeurs dans l’espace vectoriel Rp . Nous commençons d’abord par des rappels sur la
notion de dérivée des fonctions à variables et valeurs réelles.
Cette définition signifie aussi que la fonction définie dans un voisinage de 0 dans R à valeurs
dans R par
f (a+h)−f (a) − f 0 (a) si h 6= 0
h
(h) =
0 si h = 0
est continue en 0. On peut ré-exprimer cette définition comme ceci : f est dérivable en a
s’il existe un nombre f 0 (a) et une fonction définie dans un voisinage de 0, continue en 0 et
satisfaisant (0) = 0, tels que
pour tout h dans un voisinage de 0. En effet, d’une part, si f est dérivable en a, on peut
écrire pour tout h 6= 0 dans un voisinage de l’origine
f (a + h) − f (a)
= f 0 (a) + η(h)
h
où η(h) → 0 lorsque h → 0. Dès lors, la fonction définie dans un voisinage de l’origine par
h η(h) si h 6= 0
(h) = |h|
0 si h = 0
1
est bien continue en 0, satisfait (0) = 0, et on a bien f (a + h) = f (a) + f 0 (a)h + |h|(h).
Réciproquement, (h) → 0 lorsque h → 0 implique (|h|/h)(h) → 0 lorsque h → 0.
Remarque. Si f est dérivable en a et si on note h = x − a, on obtient au voisinage de a :
f (x) − f (a) − f 0 (a)(x − a) = (x − a)(x). (∗)
Concentrons-nous sur l’aspect géométrique de la définition de la dérivabilité : le graphe de
l’application I 3 x 7→ f (a) + f 0 (a)(x − a) est la partie de la droite ∆ de R2 (au-dessus
des abscisses x ∈ I) de pente f 0 (a) et passant par (a, f (a)). Ce que nous apprend l’égalité
(*) sur la géométrie du graphe Γ de f au voisinage de (a, f (a)) est que la distance δx =
|f (x) − f (a) − f 0 (a)(x − a)| entre Γ et ∆ est de l’ordre de |(x − a)(x)|, et donc tend vers
0 plus vite que |x − a|, ce que l’on note δx = o(|x − a|) 1 . Autrement dit le graphe Γ vient
“s’écraser” sur la droite ∆ au point (a, f (a)).
2
Définition 2.2 — Chemins différentiables. Un chemin γ : J → Rp est dit différentiable
(ou dérivable) quand il l’est en tout t ∈ J. Si J est de la forme [a, +∞[, ] − ∞, b] ou [a, b], la
dérivée en a est une dérivée à droite et la dérivée en b est une dérivée à gauche. Si de plus sa
dérivée (ou vitesse) γ 0 : t 7→ γ 0 (t) est continue, alors γ est un chemin (de classe) C 1 .
— Chemins C 1 par morceaux. On dit qu’une application γ : [a, b] → Rp est C 1 par
morceaux lorsqu’il existe une subdivision t0 = a < t1 < · · · < tn+1 = b telle que γ soit C 1
sur chacun des intervalles [tj , tj+1 ]. L’application γ est donc continue, c’est-à-dire que γ est
un arc. La dérivée γ 0 est alors bien définie et continue, sauf éventuellement aux points tj . On
notera γ 0 toute application de [a, b] dans Rp qui est la dérivée de γ sur chacun des ]tj , tj+1 [
(et prenant des valeurs arbitraires aux points où γ n’est pas dérivable). Plus généralement,
on dit qu’un chemin γ : J → Rp est C 1 par morceaux lorsque c’est le cas de sa restriction à
tout [a, b] ⊂ J.
Proposition 2.1 Soient γ : J → Rp un chemin différentiable et f : J → R une fonction
différentiable vérifiant kγ 0 (t)k ≤ f 0 (t) pour tout t ∈ J. On a alors kγ(b) − γ(a)k ≤ f (b) − f (a)
pour tous a < b ∈ J. En particulier, γ est constant si et seulement si γ 0 : J → Rp est
identiquement nulle.
Preuve. f étant croissante. Si γ(b) = γ(a), il n’y a rien à prouver ; sinon, le théorème de
Hahn-Banach affirme l’existence de u ∈ L(Rp , R), de norme 1, telle que kγ(b) − γ(a)k =
u(γ(b) − γ(a)) ; comme u est de norme 1, on a (u ◦ γ)0 (t) = uγ 0 (t) ≤ |uγ 0 (t)| ≤ kγ 0 (t)k ≤ f 0 (t)
pour tout t ; la fonction différentiable réelle f − u ◦ γ étant donc croissante, on a bien
définit un chemin de classe C 1 et C 0 (t) = c(t), i.e. C est une solution de l’équation différentielle
C 0 = c de donnée c.
2. Si γ : I → Rp est un chemin C 1 par morceaux ; quels que soient a < b ∈ I,
Z b
γ(b) − γ(a) = γ 0 (t)dt (formule de la moyenne).
a
3
Preuve du théorème. 1. Pour tout t ∈]a, b[, il existe η > 0 tel que Iη := [a, b] ∩ [t − η, t + η]
soit un intervalle compact. Comme c est continue au point t, alors, pour t+h ∈ Iη , l’intervalle
I|h| := [a, b] ∩ [t − |h|, t + |h|] est compact et on a
qui tend vers 0 quand h tend vers 0 parce Rque c est continue au point t.
2. D’après 1, le chemin γ1 : t 7→ γ(a) + at γ 0 (s)ds est continu, de classe C 1 en dehors de
l’ensemble Σ des discontinuités de γ 0 , et sa restriction à I\Σ a pour dérivée γ 0 |I\Σ . En d’autres
termes, γ − γ1 est continue, de classe C 1 en dehors de Σ, et sa restriction à I\Σ a une dérivée
nulle. En appliquant la proposition 1.1 à chacun des intervalles ouverts J joignant deux points
successifs de Σ, on en déduit que γ − γ1 est constante ; comme elle est nulle au point a, on a
donc bien γ = γ1 .
Proposition 2.2 (Changement de variable dans les intégrales) Soient I et J deux in-
tervalles. Pour toute application continue f : J → Rp et toute fonction g : I → J de classe
C 1 par morceaux, on a
Z g(b) Z b
f (t)dt = g 0 (u)f (g(u))du (∗)
g(a) a
4
Théorème 2.2 (Formule de Taylor avec reste intégral) Soit γ : J → Rp un chemin
C k+1 , k ∈ N. Pour x et x + h ∈ J
k
hj (j) Z 1
(1 − t)k (k+1)
γ (x) + hk+1
X
γ(x + h) = γ (x + th)dt.
j=0 j! 0 k!
on en déduit le cas général en remarquant que, d’après la formule d’intégration par parties,
pour 0 < j ≤ k, on a
Z 1
(1 − t)j−1 (j) 1 Z 1
(1 − t)j (j+1)
γ (x + th)dt = γ (j) (x) + h γ (x + th)dt.
0 (j − 1)! j! 0 j!
où le vecteur c0 (t) =
..
. peut aussi être vu comme une matrice-colonne, c’est-à-dire une
c0p (t)
application linéaire (élément de L(R, Rp )), et le scalaire τ comme une vecteur 1-dimensionnel,
de sorte que c0 (t)τ s’interprète comme un produit matrice-vecteur, à valeurs dans Rp . Cette
formulation se généralise directement au cas où l’espace de départ est multi-dimensionnel.
Soit donc f : (Rn , x) → Rp une application.
Définition 3.1 On dit que f est dérivable en x si il existe une application f 0 (x) ∈ L(Rn , Rp )
(linéaire) telle que
f (x + ξ) = f (x) + f 0 (x) · ξ + o(ξ)
quand ξ tend vers 0. L’application f 0 (x) ∈ L(Rn , Rp ) s’appelle la dérivée de f en x, 2 et pour
tout ξ ∈ Rn , le vecteur
1
f 0 (x) · ξ = lim (f (x + tξ) − f (x))
t→0 t
5
L’expression de la dérivée directionnelle montre que la dérivée, si elle existe, est unique. Mais
attention, il ne suffit pas que la dérivée directionnelle de f existe dans toute direction pour
que f soit dérivable.
La notation f 0 (x) · ξ fait ressortir le fait que f 0 (x) est une matrice, élément de Mp,n (R), que
l’on multiplie matriciellement par ξ ∈ Rn , pour obtenir un vecteur de Rp . La i-ième ligne de
f 0 (x) est la dérivée de fi , la i-ième composante de f .
Exemple. Si f est une application linéaire,
1
f 0 (x) · ξ = lim (f (x + tξ) − f (x)) = f (ξ).
t→0 t
La dérivée en un point x d’une fonction d’une variable f: (R, x) → Rp (chemin) était
0
f1 (x)
0
.
p .
. et non comme une application
auparavant définie comme un vecteur de R , f (x) =
fp0 (x)
p
linéaire de R dans R . Mais ce vecteur peut aussi bien être vu comme une matrice colonne de
f10 (x)τ
.
Mn,1 (R), c’est-à-dire justement comme l’application linéaire de R dans Rp , τ 7→
. ,
.
fp0 (x)τ
conformément à la définition 1.4 si-dessus.
f 0 (x) · ξ =
X
∂fi (x)ξi
i
sans passer par la matrice. Cette formule est intuitive : la variation infinitésimale de f (“infi-
nitésimal” signifie : la variation f (x + ξ) − f (x), au premier ordre en ξ quand ξ tend vers 0)
6
est la somme des ξi pondérés par les dérivées partielles de f .
Preuve du lemme. On a
f 0 (x) · ξ = f 0 (x) · i ξei
P
ξi f 0 (x) · ei
P
= (linéarité)
Pi ∂f
= i ξi ∂xi (x) (notation)
ξ
1
= ∂x1 (x), . . . , ∂xn (x) ...
∂f ∂f
(produit matrice-vecteur).
ξn
Le lemme précédent se généralise : par exemple, si f : (Rn × Rm , (x, y)) → Rp est dérivable,
la dérivée de f se décompose naturellement en deux blocs horizontaux :
où par exemple le premier bloc ∂x f (x, y) ∈ L(Rn , Rp ) désigne la dérivée de f par rapport à
la variable x, obtenue en figeant y.
Notations et langage «de physiciens». Si f est une application linéaire de Rn dans
Rp , on a vu qu’elle est égale à sa propre différentielle en tout point. Comme l’application
linéaire f 0 (x) ne dépend pas dans se cas du point x où on la calcule, il est d’usage de la noter
alors df au lieu de f 0 (x) ou de df (x). En particulier avec les omniprésentes “applications
coordonnées” xi : Rn → R; u 7→ xi (u) = ui , la dérivée dxi : Rn → R; v 7→ vi est la i-ième
projection canonique de Rn sur R et pour toute application f : (Rn , x) → R on a
Cette écriture est intuitive : la variation de f est la somme des contributions de dérivées
partielles par rapport à chacune des variables. En outre comme Rn est euclidien, on dispose de
l’isométrie canonique [ : x 7→ x[ de Rn sur son dual Rn∗ , définie par x[ (v) := x, v [comme
∧
c’est une isométrie linéaire, elle est injective et donc surjective]. L’isomorphisme réciproque ∨
] := [−1 de Rn∗ sur Rn permet de transformer chaque «covecteur» (forme linéaire) p ∈ Rn∗ en
un vecteur p] ∈ Rn , objet jugé plus concret puisqu’on peut le dessiner ; c’est l’unique v ∈ Rn
tel que v, w = p(w) pour tout w ∈ Rn . Si (u1 , . . . , un ) est une base orthonormée de
∧
n 1 n∗
tout j. Si f : U (ouvert) ⊂ R → R est C , sa différentielle Df : U → R est un «champ de
covecteurs», on lui associe le champ de vecteurs, appelé gradient de f , noté ∇f , et est défini
par ∇f (x) := Df (x)] . On a alors ∇f = (∂1 f, . . . , ∂n f ).
Théorème 3.1 («chain rule») Si f : (Rn , x) → (Rp , y) et g : ((Rp , y) → Rq sont deux
applications dérivables respectivement en x et en y, alors g ◦ f est dérivable en x et sa dérivée
est le produit matriciel des dérivées de f et de g :
7
Corollaire 3.1 Si c : (R, t) → (Rn , x) est dérivable au temps t et f : (Rn , x) → (Rp , y) est
différentiable en x, alors f ◦ c est dérivable au temps t et (f ◦ c)0 (t) = f 0 (x) · c0 (t). Cette
formule peut être utilisée pour définir de façon cinématique la dérivée de f dans la direction
de c0 (t) : f 0 (x) · c0 (t) n’est autre que la vitesse du chemin f ◦ c ; il est ici important que cette
quantité ne dépend de c qu’à travers c0 (t).
Proposition 3.1 1. La dérivation est linéaire : si f , g : (Rn , x) → Rp sont dérivables en x
et si α, β ∈ R,
(αf + βg)0 (x) = αf 0 (x) + βg 0 (x).
2. Si f : (Rn , x) → (Rn , y) est localement inversible et si f et f −1 sont dérivables (respecti-
vement en x et en y), alors f 0 (x) est un automorphisme de Rn et
(f −1 )0 (y) = f 0 (x)−1 .
Preuve. 1. Trivial en utilisant l’unicité de la dérivée.
2. « chain rule » appliquée à f ◦ f −1 = Id et à f −1 ◦ f = Id donne respectivement
f 0 (x) · (f −1 )0 (y) = Id et (f −1 )0 (y) · f 0 (x) = Id,
donc l’opérateur (f −1 )0 (y) est inversible d’inverse f 0 (x).
8
Preuve. D’après la proposition précédente, le chemin f ◦ γ est C 1 sur chaque intervalle I où
γ l’est, donc C 1 par morceaux ; il suffit de lui appliquer la formule de la moyenne, puisque
(f ◦ γ)0 (t) = f 0 (γ(t)) · γ 0 (t). Pour [a, b] ⊂ U , on prend γ(t) = a + t(b − a).
Quand U est connexe, deux de ses points a et b peuvent toujours être joints par un arc lisse
γ dans U ; si f 0 est partout nulle, la première inégalité entraîne donc que f est constante.
Théorème 4.3 (Critères pour que f soit C 1 ) Soit f : U (ouvert) ⊂ Rn → Rp . Les points
suivants sont équivalents :
(i) f est C 1 ;
(ii) il existe α : U → L(Rn , Rp ) continue telle que, pour tout chemin γ de classe C 1 dans U ,
le chemin f ◦ γ soit dérivable et ait pour dérivée (f ◦ γ)0 (t) = α(γ(t)) · γ 0 (t) ;
(iii) f est C 1 au sens de Gâteaux : il existe α : U → L(Rn , Rp ) continue telle que, pour tout
x ∈ U et tout ξ ∈ Rn , la dérivée directionnelle ∂ξ f (x) existe et soit égale à α(x) · ξ ;
(iv) Les dérivées partielles ∂ei f : U → Rp ; x 7→ ∂ei f (x) = 1t (f (x + tei ) − f (x)), 1 ≤ j ≤ n
existent et sont continues.
Dans (ii) et (iii), α est la dérivée de f ; dans (iv), celle-ci est donnée par
n n
f 0 (x)(
X X
ξj ej ) = ξj ∂ej f (x) pour tous ξ1 , . . . , ξn ∈ R
i=1 i=1
.
Preuve. (i) entraîne (ii), qui implique (iii) (en prenant γ(t) = x + tξ), lequel entraîne (iv)
parce que, pour tout i = 1 à n, on a ∂ei f (x) = f 0 (x) · ei . Il ne reste donc qu’à montrer que
(iv) entraîne (i). Si (iv) est satisfaite, soit x ∈ U . Notons α(x) ∈ L(Rn , Rp ) l’application
linéaire donnée par α(x) · ξ = ∂e1 f (x)ξ1 + · · · + ∂en f (x)ξn ; il n y a qu’à montrer que l’on a le
développement de Taylor à l’ordre un f (x + ξ) − f (x) − α(x) · ξ = o(ξ), puisque α(x) dépend
continûment de x par hypothèse. Pour un vecteur ξ donné assez petit, considérons la courbe
c : [0, 1] → U ; t 7→ c(t) = f (x + tξ). Elle a pour dérivée c0 (t) = α(x + tξ) · ξ. En effet,
1
(f (x + (t + τ )ξ) − f (x + tξ))
τ
9
peut se décomposer comme
n
X 1
(f (x + tξ + τ (ξ1 , . . . , ξi , 0, . . . , 0)) − f (x + tξ + τ (ξ1 , . . . , ξi−1 , 0, . . . , 0))
i=1 τ
(de façon à ne faire apparaître que des variations parallèles aux axes de coordonnées), qui,
par hypothèse quand τ tend vers 0, tend vers
n
∂f
c0 (t) =
X
(x + tξ)ξi = α(x + tξ) · ξ.
i=1 ∂xi
Or, cette dernière intégrale tend vers 0 avec t, puisque t 7→ α(x + tξ) est continue sur
l’intervalle compact [0, 1], donc uniformément continue. Donc, comme voulu
kf (x + ξ) − f (x) − α(x) · ξk = o(ξ).
10
5 Dérivées d’ordre supérieur.
5.1 Application k-fois différentiable, classe C k .
Nous avons vu qu’à toute fonction f : U (ouvert) ⊂ Rn → Rp différentiable sur U on pou-
vait associer sa différentielle f 0 qui est une fonction f 0 : U → L(Rn , Rp ). Comme L(Rn , Rp )
est lui-même un espace vectoriel normé de dimension finie, on peut s’interroger sur la conti-
nuité ou la différentiabilité de f 0 en tant que fonction de U vers L(Rn , Rp ), ce qui conduit
naturellement à la définition suivante :
Définition 5.1 On dit que f : U (ouvert) ⊂ Rn → Rp est deux fois différentiable au point
x ∈ U lorsqu’elle est différentiable dans un ouvert x ∈ V ⊂ U et que f 0 : V → L(Rn , Rp ) est
elle-même différentiable au point x. On dit que f est deux fois différentiable sur U si f est
deux fois différentiable en tout point de U .
Remarque. La différentielle seconde [(f 0 )0 ](x) est donc une application linéaire de Rn dans
L(Rn , Rp ). Par conséquent, pour tout ξ ∈ Rn , [(f 0 )0 ](x) · ξ est une application linéaire de Rn
dans Rp . Notons L2 (Rn , Rp ) := L(Rn , Rn ; Rp ) l’espace des applications bilinéaires de Rn × Rn
dans Rp ; grâce à l’isométrie canonique de L(Rn , L(Rn , Rp )) sur L2 (Rn , Rp ), il est d’usage de
confondre [(f 0 )0 ](x) avec l’application bilinéaire de Rn × Rn dans Rp notée f 00 (x) et définie
par la formule : f 00 (x)(ξ, η) := [[(f 0 )0 ](x) · ξ] · η, pour tout (ξ, η) ∈ Rn × Rn .
Définition 5.2 Si x 7→ f 00 (x) est une fonction continue de U vers L2 (Rn , Rp ), on dit que f
est C 2 . Si la différentielle seconde d’une fonction f est elle-même différentiable, on dit que
f est trois fois différentiable. Il est d’usage d’identifier la différentielle troisième avec une
application trilinéaire de Rn × Rn × Rn dans Rp notée f 000 (x) ou d3 f (x). En suivant le même
procédé, on peut définir la différentielle d’ordre k, dk f (x) qui est assimilée à une application
de Lk (Rn , Rp ). Si de plus x 7→ dk f (x) est continue, on dit que f est de classe C k . Si f est de
classe C k pour tout k, on dit que f est C ∞ .
exemples. 1. Pour une fonction f : (R, x) → Rp l’existence de la différentielle seconde
au point x est équivalente à l’existence de la dérivée seconde f 00 (x) ∈ Rp . On a de plus la
formule :
d2 f (x)(ξ, η) = ξηf 00 (x) pour tout (ξ, η) ∈ R2 .
2. Soit B une application bilinéaire de Rn × Rn dans Rp . Il est facile de voir que
B 0 (x, y)(ξ, η) = B(x, η) + B(ξ, y) pour tous (x, y), (ξ, η) ∈ Rn × Rn .
Pour (ξ, η) ∈ Rn × Rn fixé, la différentielle de l’application φ : (x, y) 7→ B(x, η) + B(ξ, y) est
φ0 (x, y)(δx, δy) = B(δx, η) + B(ξ, δy).
On conclut que pour tout (x, y) ∈ Rn × Rn ,
d2 B(x, y)((ξ1 , η1 ), (ξ2 , η2 )) = B(ξ2 , η1 ) + B(ξ1 , η2 ).
On retiendra que la différentielle seconde d’une application bilinéaire est constante (ne dépend
pas du point (x, y)), et donc ses différentielles d’ordre supérieur ou égal à 3 sont nulles.
3. Toute u ∈ L(Rn , Rp ) est C 1 , et u0 (x) ≡ u. Donc, u0 est de classe C 1 et (u0 )0 ≡ 0. Une
application linéaire (ou plus généralement affine) continue est donc lisse, c’est-à-dire de classe
C ∞.
11
Théorème 5.1 (de Schwarz) Si f est deux fois différentiable au point a, sa dérivée seconde
f 00 (a) appartient à l’espace L2s (Rn , Rp ) des applications bilinéaires (continues) et symétriques
de Rn × Rn dans Rp .
Preuve. Il s’agit de montrer que d2 f (a)(h, k) = d2 f (a)(k, h) pour tout (h, k) ∈ Rn × Rn .
Pour cela, on définit la quantité ∆(h, k) = f (a + h + k) − f (a + h) − f (a + k) + f (a) qui peut
être interprétée comme une différence finie d’ordre deux autour de a et l’on cherche à établir
que ∆(h, k) ∼ d2 f (a)(h, k) pour (h, k) → (0, 0). En utilisant le fait que ∆(h, k) = ∆(k, h),
nous obtiendrons alors d2 f (a)(h, k) = d2 f (a)(k, h).
Fixons un > 0. Par définition de la différentiabilité de df en a, il existe η > 0 tel que
kdf (a + h) − df (a) − [d(df )](a)(h)k 6 |h| pour tout h ∈ B(0, 2η).
On a donc par définition de la norme d’une application linéaire,
|df (a + h)(k) − df (a)(k) − d2 f (a)(h, k)| 6 |h||k| pour tout h ∈ B(0, η) et k ∈ Rn .
Fixons (h, k) ∈ B(0, η) × B(0, η). Pour t ∈ [0, 1], posons
ψ(t) = f (a + h + tk) − f (a + tk) − td2 f (a)(h, k).
La fonction ψ est dérivable sur [0, 1] et un calcul facile montre que
ψ 0 (t) = [(df (a + h + tk) − df (a))(k) − d2 f (a)(h + tk, k)]
− [(df (a + tk) − df (a))(k) − d2 f (a)(tk, k)] .
En conséquence, on a
|ψ 0 (t)| 6 (|h| + 2|k|)|k| pour tout t ∈ [0, 1].
En appliquant le théorème des accroissements finis à ψ entre 0 et 1 et en remarquant que
ψ(1) − ψ(0) = ∆(h, k) − d2 f (a)(h, k), on conclut donc que
|∆(h, k) − d2 f (a)(h, k)| 6 2(|h| + |k|)2 .
En échangeant les rôles de h et k et en utilisant la symétrie de ∆, on obtient également
|∆(h, k) − d2 f (a)(k, h)| 6 2(|h| + |k|)2 .
Donc, en vertu de la deuxième inégalité triangulaire,
|d2 f (a)(h, k) − d2 f (a)(k, h)| 6 4(|h| + |k|)2 pour tout (h, k) ∈ B(0, η) × B(0, η).
Comme d2 f (a) est bilinéaire, l’inégalité ci-dessus est en fait valable pour tout (h, k) ∈ Rn ×Rn .
Il ne reste plus qu’à faire tendre vers 0 pour conclure à l’égalité de d2 f (a)(h, k) et de
d2 f (a)(k, h).
Théorème 5.2 (Symétrie des dérivées successives) Si f est k + 1 fois différentiable au
point x ∈ U , k ∈ N, alors dk+1 (x) appartient à l’espace Lk+1
s (Rn , Rp ) des applications (k + 1)-
linéaires symétriques de Rn × · · · × Rn (k + 1 facteurs) dans Rp .
Preuve. Si k = 0, il n’y a rien à prouver ; sinon, on peut (donc) faire l’hypothèse de récurrence
que dk f à valeurs dans Lks (Rn , Rp ), et il suffit de remarquer que dk+1 f (x) est à la fois égal à
d(dk f )(x) (d’où la symétrie par rapport aux k dernières variables) et à d2 (dk−1 f )(x) (d’où,
d’après le lemme de Schwarz, la symétrie par rapport aux deux premières variables et donc
par rapport à l’ensemble des k + 1 variables).
En termes de dérivées directionnelles, on a dk f (x)(X1 , . . . , Xk ) = ∂X1 · · · ∂Xk f (x).
12
6 Formule de Taylor.
La formule de Taylor généralise le théorème fondamental du calcul infinitésimal Commen-
çons par un lemme dont la démonstration est évidente.
Lemme 6.1 Soit f une fonction d’un intervalle ouvert I contenant 0 et 1, à valeurs dans Rp
et de classe C k+1 . On a alors
f 00 (0) f (k) (0) Z 1 (1 − t)k (k+1)
f (1) − f (0) − f 0 (0) − − ··· − = f (t)dt.
2! k! 0 k!
Preuve. Il suffit d’appliquer le théorème fondamental du calcul infinitésimal à la fonction
j k
g(t) = kj=0 (1−t) f (j) (t) qui est de classe C 1 , en remarquant que g 0 (t) = (1−t) f (k+1) (t).
P
j! k!
On peut affaiblir les hypothèses de ce lemme et obtenir
Lemme 6.2 Soit f une fonction d’un intervalle ouvert I contenant 0 et 1, à valeurs dans Rp
et (k+1)-fois différentiable. Supposons de plus que pour tout t ∈ [0, 1], on ait kf (k+1) (t)k ≤ M
pour une certaine constante M > 0. On a alors
Théorème 6.1 (Taylor avec reste intégral) Soit f : U (ouvert) ⊂ Rn → Rp une applica-
tion de classe C k+1 . Soient a ∈ U et h ∈ Rn tels que le segment [a, h] soit inclus dans U . On
a alors
1 2 1 k k
Z 1
(1 − t)k k+1
2
f (a+h) = f (a)+Df (a)h+ D f (a)h +· · ·+ D f (a)h + D f (a+th)hk+1 dt;
2! k! 0 k!
où Dj f (a)hj est égale à l’évaluation de l’application j-linéaire Dj f (a) ∈ Ljs (Rn , Rp ) sur le
vecteur (h, . . . , h) ∈ Rn × · · · × Rn (j-facteurs).
Voyons une dernière version de la formule de Taylor, valable sous des hypothèses encore moins
fortes, et qui pour cette raison donne un résultat local seulement.
13
Théorème 6.3 (Taylor-Young) Soit f : U (ouvert) ⊂ Rn → Rp une application k fois
différentiable en un point a ∈ U . On a alors pour khk suffisamment petit,
1 2 1
f (a + h) − f (a) − Df (a)h − D f (a)h2 − · · · − Dk f (a)hk = o(khkk ).
2! k!
Preuve. On procède par récurrence, pour k = 1, c’est la définition de la différentiabilité
en a. On suppose le théorème démontré pour les applications k − 1 fois différentiables en a
(k ≥ 2). Si f est k fois différentiable en a, considérons l’application
k
1 j
D f (a)hj .
X
g : h 7→ g(h) = f (a + h) − f (a) −
j=1 j!
d’où
k−1
1 j
D (Df )(a)(hj )(ξ)
X
Dg(h)ξ = Df (a + h)ξ − Df (a)ξ −
j=1 j!
quel que soit ξ ∈ Rn . L’hypothèse de récurrence appliquée à la différentielle de f montre que
kDg(h)k = o(khkk−1 )
Ceci signifie que que pour tout > 0, il existe η > 0 tel que khk ≤ η implique
kDg(h)k ≤ khkk−1 .
Ainsi kDg(x)k ≤ khkk−1 pour tout x appartenant au segment [0, h]. Grâce au théorème des
accroissements finis on en déduit :
14
Notons g l’application réciproque. Le théorème des fonctions composées appliqué à f ◦ g et
g ◦ f nous dit que si a ∈ U , les applications linéaires f 0 (a) et g 0 (f (a)) sont inverses l’une de
l’autre. En particulier, nécessairement n = p.
Lemme 7.1 Si A est une application linéaire bijective entre espaces vectoriels normés de
dimension finie, il existe des constantes strictement positives m et M telles que
∧
Preuve de la proposition. Posons g = f −1 . Soit x ∈ U et y = f (x). Montrons d’abord que
g est différentiable en y. Comme g est continue,
puis
∆(h) = (f 0 (x))−1 · h + (f 0 (x))−1 · o(∆(h)).
Mais d’après le lemme, ∆(h) = O(h) donc la relation ci-dessus donne
Donc g est différentiable en y, et g 0 (y) = (f 0 (x))−1 . Le fait que g est C k si f l’est vient alors
du théorème des fonctions composées. En effet Si de plus f est de classe C k , on a encore
(f −1 )0 (y) = (f 0 (f −1 (y)))−1 pour tout y ∈ V . Par ailleurs, pour m ∈ N, cette même formule
montre que si f −1 et f 0 sont de classe C m , (f −1 )0 l’est aussi, comme composée de f −1 , de f 0
et de l’application analytique Gln (R) → Gln (R), A 7→ A−1 ; il en résulte que f −1 est de classe
C m+1 . Ceci montre par récurrence que f −1 est de classe C k .
Théorème 7.1 (dit d’inversion locale) Soit f une application C k (k ≥ 1) d’un ouvert U
de Rn dans Rn , et a un point de U où la différentielle f 0 (a) est inversible. Alors il existe un
ouvert a ∈ V ⊂ U tel que f : V → W = f (V ) soit un difféomorphisme de classe C k .
et y ∈ Y . Alors l’ équation F (x, y) = x admet une unique solution ϕ(y) pour tout y ∈ Y et
l’application y 7→ ϕ(y) est continue.
15
Preuve du théorème 7.1. En composant avec des translations à la source et au but et
éventuellement avec f 0 (a)−1 , on se ramène au cas où a = f (a) = 0 et f 0 (a) = Id. Par
continuité de la différentielle x 7→ f 0 (x), il existe une boule fermée B̄(0, r) ⊂ U dans laquelle
on a kId − f 0 (x)k ≤ 12 . Du théorème de la moyenne, on déduit que
– la restriction de f à B̄(0, r) est lipschitzienne de rapport ≤ 23 ;
– l’application continue F (x, y) = x − f (x) + y envoie B̄(0, r) × B̄(0, r/2) sur B̄(0, r) ;
– pour tous x1 , x2 ∈ B̄(0, r), on a kF (x1 , y) − F (x2 , y)k ≤ 12 kx1 − x2 k.
Ainsi, par le théorème du point fixe, pour tout y ∈ B̄(0, r/2), il existe un unique x ∈ B̄(0, r)
tel que F (x, y) = x, c’est-à-dire f (x) = y et l’application g ainsi définie est continue. Il existe
donc deux ouverts U 0 et V 0 contenant 0 tels que g ◦ f|U 0 = Id|U 0 et f ◦ g|V 0 = Id|V 0 . Il en résulte
que f est un homéomorphisme de U 0 ∩ g −1 (V 0 ) sur V 0 ∩ f −1 (U 0 ). En appliquant la proposition
7.1, on voit que f est un difféomorphisme C k .
Par le théorème d’inversion local, un difféomorphisme local est une application de classe C k
(k ≥ 1) d’un ouvert U ⊂ Rn dans Rn ayant une différentielle inversible en tout point de U .
Quitte à réduire les voisinages V et W , on peut supposer que Dy f (x, y) est inversible pour
tout (x, y) ∈ V × W . Ceci permet de calculer la différentielle de φ. En effet, pour tout x ∈ V ,
on a f (x, φ(x)) = 0. En prenant la différentielle de cette identité, on obtient
16
à p inconnues, les xi étant considérés comme des paramètres. Pour résoudre ce système sous
la forme
y = φ1 (x1 , . . . , xn )
1
..
.
y = φp (x1 , . . . , xn )
p
2. D’un point de vue géométrique, le théorème des fonctions implicites donne un critère pour
que l’ensemble défini par l’équation f (x, y) = 0 puisse, localement, être vu comme le graphe
d’une fonction φ.
Preuve du théorème. On applique le théorème d’inversion locale à l’application Φ de classe
C k définie dans un voisinage de (a, b) ∈ Rn × Rp par Φ(x, y) = (x, f (x, y)), qui prend ses
valeurs dans un voisinage de (a, 0) ∈ Rn ×Rp . Calculons sa différentielle DΦ(a, b) ∈ L(Rn ×Rp )
en (a, b). Pour tout (δx, δy) ∈ Rn × Rp , en utilisant une notation matricielle, on a
! !
IdRn 0 δx
DΦ(a, b) · (δx, δy) = ,
Dx f (a, b) Dy f (a, b) δy
qui a une forme triangulaire et qui est inversible puisque par hypothèse Dy f (a, b) ∈ L(Rp )
l’est. On peut donc appliquer le théorème d’inversion locale : Φ réalise un difféomorphisme
de classe C k d’un voisinage de (a, b) dans un voisinage de (a, 0) et, vue la forme de Φ, le
difféomorphisme inverse Φ−1 est de la forme
8 Variantes géométriques.
Nous allons donner des “variantes géométriques” des théorèmes d’inversion locale, des
fonctions implicites, des submersions et immersions. Pour cela nous rappelons d’abord la
notion de forme normale d’une application linéaire.
17
Définition 8.1 Une application linéaire φ̃ : Ẽ → F̃ est équivalente à φ s’il existe des isomor-
phismes P : E → Ẽ et Q : F → F̃ tels que φ̃ = Q ◦ φ ◦ P −1 . C’est-à-dire que le diagramme
suivant commute :
φ
E /F .
P Q
φ̃
Ẽ / F̃
Une forme normale de φ est une application linéaire Jr : Rn → Rp équivalente à φ et de la
forme ! ! !
IdRr 0 x x
Jr = : 7→
0 0 y 0
pour un certain entier r ≤ min(n, p).
Proposition 8.1 (Théorème du rang) La forme normale de φ est Jr , où r = dim Im φ
(rang de φ). En particulier, dim ker φ + rang φ = n.
Preuve. Soit (es+1 , . . . , en ) une base de ker φ (où l’on a noté s la codimension de ker φ),
que l’on complète en une base (e1 , . . . , en ) de E. La restriction de φ Vect(e1 , . . . , es ) est
injective, et réalise donc un isomorphisme sur l’image de φ. Donc r = s (c’est-à-dire que dim
ker φ + rang φ = n). Soit maintenant (f1 , . . . , fq ) la base de Im φ définie par fi = φ(ei ) pour
i = 1, . . . , r ; on la complète en une base (f1 , . . . , fp ) de F . Alors Jr est la matrice de φ dans
les bases (e1 , . . . , en ) et (f1 , . . . , fp ).
Autrement dit, toutes les matrices de rang r ont pour matrice Jr dans des bases bien choisies.
Cas particuliers. Si φ est surjective, r = p ≤ n et la forme normale de φ est la surjection
Jp = (IdRp | 0) .
Si φ est injective, r = n ≤ p et la forme normale de φ est l’injection
!
IdRn
Jn = .
0
18
Définition 8.2 Une application f˜ : (Rn , ã) → (Rp , b̃) de classe C k (k ≥ 1) est équivalente
à une application f : (Rn , a) → (Rp , b) de classe C k (k ≥ 1) s’il existe des difféomorphismes
α : (Rn , a) → (Rn , ã) et β : (Rp , b) → (Rp , b̃) de classe C k (k ≥ 1) tels que f˜ = β ◦ f ◦ α−1 .
Une forme normale de f est une application linéaire Jr : (Rn , 0) → (Rp , 0) équivalente à f . 3
Autrement dit le diagramme d’applications suivant commute :
f
(Rn , a) / (Rp , b) .
α β
f˜
(Rn , ã) / (Rp , b̃)
Les difféomorphismes “verticaux” sont vus comme des changements de variables, tandis que
l’application qui nous intéresse est horizontale : c’est f dans les coordonnées initiales, et sa
réincarnation f˜ dans les nouvelles coordonnées.
Par exemple, f est toujours équivalente à une application f˜ : (Rn , 0) → (Rp , 0), à laquelle on
se ramène par de simples translations :
f
(Rn , a) / (Rp , b)
·−a ·−b
f˜
(Rn , 0) / (Rp , 0)
19
8.4 Immersion, submersion.
Théorème 8.2 (Forme normale des immersions) Soit f : (Rn , a) → (Rp , b) une appli-
cation C k , (k ≥ 1). Si la différentielle f 0 (a) est injective (donc n ≤ p), alors une forme
normale de f est l’injection canonique
!
I
Jn = n : Rn → Rp = Rn × Rp−n , x 7→ (x, 0Rp−n );
0
on dit alors que f est une immersion en a.
Preuve. On se ramène au cas f : (Rn , 0) → (Rp , 0) comme expliqué plus haut. Soient
f1 , . . . , fp les composantes de f . L’hypothèse signifie que la matrice jacobienne de f est de
rang n. Après permutation des coordonnées dans l’espace d’arrivée si nécessaire, on peut
donc supposer que la matrice
A = (∂j fi (0))1≤i,j≤n
est inversible. On définit alors une application g : (Rn × Rp−n , (0, 0)) → (Rn × Rp−n , (0, 0))
en posant
g(x, y) = (f1 (x), . . . , fn (x), y1 + fn+1 (x), . . . , yp−n + fp (x)).
La matrice jacobienne Jg(0) de g en 0 est de la forme
!
A 0
,
∗ I
elle est inversible, donc il existe un ouvert W 3 (0, 0) de Rn × Rp−n tel que g|W soit un
difféomorphisme sur son image. Le difféomorphisme φ = (g|W )−1 vérifie φ ◦ f = Jn .
Théorème 8.3 (Forme normale des submersions) Soit f : (Rn , a) → (Rp , b) une ap-
plication C k , (k ≥ 1). Si la différentielle f 0 (a) est surjective (donc n ≥ p), alors une forme
normale de f est la surjection canonique
B = (∂j fi (0))1≤i,j≤p
est inversible. On définit alors une application h : (Rp × Rn−p , (0, 0)) → (Rp × Rn−p , (0, 0))
en posant
h(x, y) = (f1 (x, y), . . . , fp (x, y), y1 , . . . , yn−p ).
La matrice jacobienne Jh(0) de h en zéro est de la forme
!
B ∗
,
0 I
20
elle est donc inversible. II existe donc un ouvert V 3 (0, 0) de Rp × Rn−p tel que h|V soit un
difféomorphisme sur son image. Le difféomorphisme ψ = (h|V )−1 vérifie f ◦ ψ = Jp . En effet,
si (x, y) = h(u, v) = (f (u, v), v), on a ψ(x, y) = (u, v), donc f (ψ(x, y)) = f (u, v) = x.
Le fait que f 0 (a) soit surjective dit que, dans la matrice
∂1 f1 (a) . . . ∂n f1 (a)
.. .. ..
. . .
∂1 fp (a) . . . ∂n fp (a)
on peut trouver une sous-matrice carrée inversible d’ordre p. Le théorème des fonctions im-
plicites est donc un cas particulier du théorème de submersion, où la sous-matrice carrée
inversible est simplement constituée des p dernières colonnes.
Les applications des théorèmes des submersions et immersions viendront dans le chapitre
suivant, portant sur les sous-variétés.
8.5 Subimmersion.
Le théorème du rang constant ci-dessous englobe les théorèmes de submersion et d’im-
mersion. La complication est que, si le rang n’est pas maximal en un point, il peut ne pas
être constant.
Théorème 8.4 (du rang constant) Soit f : (Rn , a) → Rp une application de classe C k ,
(k ≥ 1). Si le rang de f 0 (x) ∈ L(Rn , Rp ) est localement constant égale à r au voisinage de a,
une forme normale de f est
!
I 0
Jr = r : Rn = Rr × Rn−r → Rp = Rr × Rp−r , (x, y) 7→ (x, 0Rp−r ).
0 0
9 Sous-variétés.
Intuitivement, une sous-variété de dimension p de Rn est une réunion de petits morceaux
qui peuvent chacun être “redressé” de façon à former des ouverts de Rp .
21
Exemples. 1. Considérons la parabole P := {(x, x2 ); x ∈ R} et l’application ϕ : R2 → R2
donnée par ϕ(x, y) = (x, y − x2 ). Il est clair que ϕ est un C ∞ -difféomorphisme de R2 et
satisfait ϕ(P) = R × {0}. Le redressement ici est globale.
2. Considérons la sphère sphère S 2 := {(x, y, z) ∈ R3 ; x2 + y 2 + z 2 = 1}. pour z 6= 0,
l’application ϕ(x, y, z) = (x, y, x2 + y 2 + z 2 − 1) est, par le théorème d’inversion local, un
C ∞ -difféomorphisme local de R3 qui redresse la sphère aux voisinage des points ayant la
coordonnée z non nulle sur R2 × {0}. Pour y 6= 0, on prend ϕ(x, y, z) = (x, x2 + y 2 + z 2 − 1, z).
Pour x 6= 0, on prend ϕ(x, y, z) = (x2 + y 2 + z 2 − 1, y, z). Contrairement à la parabole, les
“cartes” sont ici locales : la première carte ne permet pas de conclure sur l’équateur {z = 0}.
22
implique (ii) est élémentaire : si M est localement le graphe d’une application G : V → Rn−p
comme dans l’énoncé, de composantes G1 , . . . , Gn−p , l’application
est une submersion qui convient, quitte a restreindre son ouvert de définition. Inversement,
une telle submersion étant donnée, on peut supposer comme dans la preuve du théorème de
la forme normale des submersions, quitte à permuter les coordonnées, que la matrice
(∂i+p gj (a))1≤i,j≤n−p
D’après le théorème précédent, toute sous-variété peut être recouverte par des ouverts qui
sont les images de paramétrisations.
Proposition 9.1 Les vecteurs tangents à une sous variété M de classe C k et de dimension
p de Rn en un point a ∈ M , forment un espace vectoriel de dimension p qu’on note Ta M .
23
Preuve. Soient a ∈ M et f : U → Rn un C k -difféomorphisme d’un ouvert U 3 a de Rn sur
son image tel que f (U ∩ M ) = f (U ) ∩ (Rp × {0}). On peut supposer que f (a) = 0. Si v est
un vecteur tangent à M en a, on a Df (a) · v ∈ Rp × {0}. Réciproquement si w ∈ Rp × {0},
en choisissant assez petit pour que tw ∈ f (U ) pour tout |t| , on voit que la courbe
∧
t 7→ f −1 (tw) définit un vecteur tangent à M en a : il s’agit de Df (0)−1 · w. Dis autrement,
l’ensemble des vecteurs tangents à M en a s’identifie à l’image du sous-espace Rp × {0} de
Rn par l’application linéaire Df (0)−1 .
D’un point de vue pratique,
(1) si M est définie localement comme l’image par un plongement h d’un ouvert Ω de Rp ,
avec h(0) = a, on a Ta M = Im(Dh(0)).
(2) si M est définie localement comme le lieu des zéros d’une submersion g : U → Rn−p , alors
Ta M = KerDg(a).
(3) si M est définie localement comme le graphe d’une application G : V → Rn−p , alors
Ta M = {(v, DG(a1 , . . . , ap ) · v); v ∈ Rp }, où a = (a1 , . . . , ap , G(a1 , . . . , ap )).
Si m = n, les points réguliers sont ceux où la différentielle de f est inversible, i.e., ceux où
le théorème d’inversion locale s’applique. Si n = 1, un point a est critique si et seulement si
Df (a) = 0. Voici un important exemple :
Preuve. Par l’absurde, soit v ∈ Rm tel que Df (a) · v 6= 0. Si t ∈ R est suffisamment petit,
f (a + tv) − f (a) = Df (a) · v + o(tv) est non nul et de même signe que Df (a) · v. Avec le choix
d’un tel t et de −t, on obtient une contradiction.
24
(1) Si M est donnée localement comme image d’une paramétrisation φ : Ω ⊂ Rp → Rm ,
puisque Ta M = ImDφ(0), on doit vérifier que Df (a) ◦ Dφ(0) = 0.
(2) Si M est donnée localement comme le graphe d’une application G : Ω ⊂ Rp → Rm−p ,
puisque Ta M = {(v, DG(x) · v); v ∈ Rp }, où a = (x, G(x)), il faut vérifier que l’on a l’égalité
∂1 f (x, G(x)) + ∂2 f (x, G(x))DG(x) = 0.
(3) si M est donnée comme le lieu des zéros d’une submersion locale ψ : (Rm , a) → Rm−p ,
puisque Ta M = KerDψ(a), on obtient le théorème des extréma liés. La condition KerDψ(a) ⊂
KerDf (a) signifie que la forme linéaire Df (a) doit s’annuler sur le noyaux de Dψ(a) ce qui
oblige Df (a) à s’écrire comme combinaison linéaire Df (a) = m−p
P
j=0 λj Dψj (a). Les λj sont les
multiplicateurs de Lagrange.
donc φ−1 ◦ φ̃ qui est la première composante de (ψ ◦ ψ̃ −1 )|Rp ×{0} , est un difféomorphisme local.
Définition 9.5 (1) Une application f : (M, x0 ) → Rd est dite différentiable (resp. C r ,
1 ≤ r ≤ k) si chacune de ses coordonnées l’est.
(2) Si N ⊂ Rm est une sous-variété de classe C k et de dimension q, une application f :
(M, x0 ) → N est dite différentiable (resp. C r , 1 ≤ r ≤ k) si elle l’est en tant qu’application
à valeurs dans Rm .
25
Proposition 9.5 Une application f : (M, x0 ) → (N, y0 ) est différentiable en x0 (resp C r ,
1 ≤ r ≤ k) si et seulement si φ−1 ◦ f l’est pour toute paramétrisation locale φ de N en y0 .
Si φ : (Rp , 0) → (M, x0 ) est une paramétrisation locale de M , alors son inverse locale φ−1 :
(M, x0 ) → (Rp , 0) est C k (puisque φ−1 ◦ φ = Id est C k ). La paramétrisation φ peut donc être
vue comme un C k -difféomorphisme local de (Rp , 0) dans (M, x0 ), c’est-à-dire une application
C k admettant une inverse C k . On appellera carte de M en x0 l’inverse d’une paramétrisation,
c’est-à-dire un C k -difféomorphisme local de (M, x0 ) dans (Rp , 0).
Théorème 9.2 (Inversion locale entre sous variétés) f : (M, x0 ) → (N, y0 ) est un C k -
difféomorphisme local si et seulement si l’une des deux propriétés équivalentes suivantes est
satisfaite :
(1) La différentielle Df (x0 ) est un isomorphisme de Tx0 M sur Ty0 N .
(2) Pour toutes paramétrisations locales φM : (Rp , 0) → (M, x0 ) et φN : (Rq , 0) → (N, y0 ),
la composée φ−1 p q k
N ◦ f ◦ φM : (R , 0) → (R , 0) est un C -difféomorphisme local.
26
Définition 9.6 (Immersion) On dit qu’une application f : (M, x0 ) → (N, y0 ) est une
immersion si l’une des trois propriétés équivalentes suivantes est satisfaite :
(1) La différentielle Df (x0 ) est injective de Tx0 M dans Ty0 N .
(2) Pour toutes paramétrisations locales φM : (Rp , 0) → (M, x0 ) et φN : (Rq , 0) → (N, y0 ),
la composée φ−1 p q
N ◦ f ◦ φM : (R , 0) → (R , 0) est une immersion.
(3) Il existe des paramétrisations locales φM : (Rp , 0) → (M, x0 ) et φN : (Rq , 0) → (N, y0 )
telles que la composée φ−1 p q
N ◦ f ◦ φM : (R , 0) → (R , 0) est localement une injection
linéaire (que l’on peut mettre sous la forme x 7→ (x, 0)).
Définition 9.7 (Submersion) On dit qu’une application f : (M, x0 ) → (N, y0 ) est une
submersion si l’une des trois propriétés équivalentes suivantes est satisfaite :
(1) La différentielle Df (x0 ) est surjective de Tx0 M sur Ty0 N .
(2) Pour toutes paramétrisations locales φM : (Rp , 0) → (M, x0 ) et φN : (Rq , 0) → (N, y0 ),
la composée φ−1 p q
N ◦ f ◦ φM : (R , 0) → (R , 0) est une submersion.
(3) Il existe des paramétrisations locales φM : (Rp , 0) → (M, x0 ) et φN : (Rq , 0) → (N, y0 )
telles que la composée φ−1 p q
N ◦ f ◦ φM : (R , 0) → (R , 0) est localement une surjection
linéaire (que l’on peut mettre sous la forme (x, y) 7→ x).
27