Chap 0 - Rappels de calcul différentiel
Où l’on rappelle que les applications linéaires, c’est mieux
1 De la dérivée à la différentielle
Dérivée classique: les fonctions réelles
Définition 1
Soit f : I ⊂ R → R une fonction définie sur un intervalle, et soit a ∈ I.
f (a + h) − f (a)
On dit que f est dérivable en a si le taux d’accroissement de f en a, a une limite
h
quand h → 0.
On note cette limite f 0 (a); on a donc
f (a + h) − f (a)
− f 0 (a) −−−→ 0
h h→0
et si f est dérivable en tout point a ∈ I, ceci définit une fonction f 0 : a ∈ I 7→ f 0 (a) ∈ R, qu’on
appelle la dérivée de f .
Comment peut-on généraliser à des fonctions définies sur des e.v.n. ?
Un cas “facile”: fonctions vectorielles à une variable
Soit (F, [Link] ) un e.v.n., f : I ⊂ R → F une fonction à valeurs dans F , et t0 ∈ I.
Comme on sait calculer des limites dans un espace vectoriel normé, commme F , on peut généraliser
directement la définition précédente:
Définition 2
On dit que f est dérivable en t0 s’il existe un vecteur f 0 (t0 ) ∈ F tel que
f (t0 + h) − f (t0 )
− f 0 (t0 ) −−−→ 0
h F h→0
On dit alors que f 0 (t0 ) est la dérivée de f en t0 .
Que faire si f : U ⊂ E → F est définie sur un e.v.n. (E, [Link] ) ?
1
Dérivée directionnelle
Soit donc f : U ⊂ E → F une fonction définie entre deux e.v.n. Cette fois, la définition précédente ne peut
pas être généralisée: si a ∈ U ⊂ E et si h ∈ E est tel que a + h ∈ U , on ne peut pas définir
f (a + h)−f
(a)
h
car on ne peut pas diviser par un vecteur comme h. C’est un problème.
Solution 1: On se ramène de force à une seule dimension en étudiant les variations de f dans une seule
direction donnée par un vecteur v ∈ E: autrement dit, au lieu d’étudier f sur U , on regarde la fonction
fv : t ∈ Ia 7→ f (a + tv)
où Ia est un intervalle tel que pour tout t ∈ Ia , a + tv ∈ U .
Question bonus : Pourquoi est-ce que Ia est un intervalle ouvert qui contient 0 ?
Figure 1: Source: [Link]
x2
Ici, on voit en orange le graphe de la fonction f : (x, y) ∈ R2 7→ 1 + 3
, et en bleu la courbe
4 + sin 2y
qui représente la fonction fv avec v = (2, −3) et a = (1, −1).
Définition 3
Pour a ∈ U et v ∈ E, on dit que f est dérivable en a dans la direction de v si fv est dérivable en 0,
autrement dit, s’il existe un vecteur u ∈ F tel que
f (a + tv) − f (a)
−u −−→ 0.
t F t→0
∂f
On note alors u = ∂v (a) ∈ F et on l’appelle la dérivée directionnelle de f en a dans la direction de
v.
Une illustration: [Link]
2
Exemple
Considérons a = (1, 2), v = (1, 1) et : (x, y) ∈ R2 7→ x2 − y 3 ∈ R: on a alors
f (a + tv) − f (a) 1
= ((1 + t)2 − (2 + t)3 − (−7))
t t
1
= (−10t − 5t2 − t3 )
t
= −10 − 5t − t2
∂f
−−→ −10 = (a)
t→0 ∂v
Dans le cas particulier ou E = Rn : Dérivées partielles
Si E = Rn , il y a des directions particulièrement intéressantes: celles des vecteurs de la base canonique
(e1 , . . . , en ).
Définition 4
Si f admet une dérivée en a dans la direction de ei , on l’appelle la i-ième dérivée partielle de f , et on
∂f
la note (a). On a donc
∂xi
f (a + tei ) − f (a) ∂f f (a1 . . . , ai + t, . . . , an ) − f (a) ∂f
− (a) −−→ 0 i.e. − (a) −−→ 0.
t ∂xi F t→0 t ∂xi F t→0
Figure 2: Source: [Link]
2
Ici, on voit à nouveau en orange le graphe de la fonction f : (x, y) ∈ R2 7→ 1 + x4 + sin 3
, et en bleu
2y
les graphes des fonctions partielles en a = (1, −1).
3
Remarque 5
Calculer la i-ème dérivée partielle revient à considérer la fonction
ϕi : t ∈ I 7→ f (a1 , . . . , ai−1 , t, ai+1 , . . . an ) ∈ F
obtenue en fixant toutes les variables à xj = aj sauf la i-ème à la valeur qui nous intéresse : si elle
existe, la i-ème dérivée dérivée partielle de f en a est la dérivée de ϕi en ai .
Exemple: Toujours avec f (x, y) = x2 − y 3 , on a
1
(f ((x, y) + te1 ) − f (x, y))
t
1
= ((x + t)2 − y 3 − (x2 − y 3 ))
t
∂f
= 2x + t −−→ 2x = (x, y)
t→0 ∂x
1
(f ((x, y) + te2 ) − f (x, y))
t
1
= (x2 − (y + t)3 − (x2 − y 3 ))
t
∂f
= −3y 2 − 3yt − t2 −−→ −3y 2 = (x, y)
t→0 ∂y
Très bien, mais y a t-il moyen de "dériver" en tenant compte de toutes les directions en même
temps ?
DL à l’ordre 1 et approximation par une fonction affine
Revenons à la dérivée classique pour les fonctions R → R. Géométriquement, la dérivée en a détermine la
tangente au graphe de f en a: c’est la droite qui “approche” le mieux f au voisinage de a. Plus formellement,
si on note
R(h) = f (a + h) − (f (a) + hf 0 (a)) (1)
| {z } | {z }
f au voisinage de a affine
alors f est dérivable en a si R(h) tend vers 0 “assez vite” quand h → 0, autrement dit, si
1
R(h) −−−→ 0, i.e. R(h) = o(|h|).
h h→0
C’est cette idée qu’on va généraliser:
Définition 6
Soit f : U ⊂ E → F une application entre deux e.v.n. On dit que f est différentiable en a ∈ U s’il
existe L ∈ L(E, F ) telle que, pour tout h ∈ E assez petit,
1
f (a + h) = f (a) + L(h) + R(h) avec kR(h)kF −−−→ 0
khkE h→0
On appelle L la différentielle de f en a, et on la note Df (a).
4
• Pour chaque a ∈ U où f est différentiable, Df (a) est une application linéaire continue sur E :
Df (a) ∈ L(E, F )
• Pour h ∈ E, on note Df (a)(h) son image par cette application: donc
Df (a)(h) ∈ F
est un vecteur de F .
Attention à ne pas les confondre !
Différentielles et dérivées directionnelles
Si f est différentiable en a ∈ U , elle admet des dérivées directionnelles en a dans toutes les directions: c’est
en ce sens que la différentielle permet de dériver “dans toutes les directions en même temps”.
Proposition 1
Si f est différentiable en a, alors pour tout v ∈ E, f admet une dérivée directionnelle dans la direction
de v et
∂f
(a) = Df (a)(v)
∂v
Preuve: Puisque f est différentiable en a, on a, pour tout h ∈ E,
1
f (a + h) = f (a) + Df (a)(h) + R(h) avec kR(h)kF −−−→ 0
khkE h→0
Soit v ∈ E, on calcule
1 1 1
(f (a + tv) − f (a)) = (Df (a)(tv) + R(tv)) = Df (a)(v) + R(tv)
t t |t {z }
−t→0
−→0
Remarque 7
En particulier, si E = Rn et si f est différentiable en a, alors f admet une dérivée directionnelle dans
la direction de ei pour i = 1, . . . , n. Autrement dit, si f est différentiable en a ∈ Rn , alors f admet des
dérivées partielles en a.
De plus, par linéarité, pour tout v = (v1 . . . , vn ) ∈ Rn , on a
n
X ∂f
Df (a)(v) = vi (a). (2)
∂xi
i=1
5
Quelques cas particuliers
• Lien dérivée-différentielle pour les fonctions d’une seule variable: Si E = R, et si f est différentiable en
a, alors, par linéarité de Df (a), on a, pour tout h ∈ R, Df (a)(h) = hDf (a)(1) ∈ F , donc
1 f (a + h) − f (a)
kf (a + h) − f (a) − Df (a)(h)kF = − Df (a)(1)
|h| h F
On obtient donc que Df (a)(1) = f 0 (a).
Réciproquement, si f est dérivable en a, alors pour tout h ∈ R tel que a + h ∈ U , on a, par la formule
de Taylor à l’ordre 1,
f (a + h) = f (a) + hf 0 (a) + o(h) = f (a) + L(h) + R(h)
avec L(h) = f 0 (a)h et R(h) = o(h) donc 1
|h| R(h) → 0.
Donc si f est dérivable en a, f est différentiable, et Df (a) : h ∈ R 7→ f 0 (a)h ∈ F .
• Gradient des fonctions à valeurs dans R: Si F = R et E = Rn , alors Df (a) : Rn → R est une forme
linéaire. Mais alors, par le théorème de représentation de Riesz, il existe un unique vecteur v ∈ Rn tel
que
∀ h ∈ Rn , Df (a)(h) = hv, hi
où h., .i est le produit scalaire habituel sur Rn .
On appelle ce vecteur gradient de f en a, et on le note ∇f (a). On a donc
∂f
∂x1 (a)
∇f (a) = ... ∈ Rn
∂f
∂xn (a)
Remarque: On peut en fait faire ça dès que E est un espace de Hilbert (mais pas si E est n’importe
quel préhilbertien: il faut qu’il soit complet. On en reparlera.)
• Jacobienne des fonctions Rn → Rp Si E = Rn , F = Rp , notons
f : x = (x1 , . . . , xn ) ∈ U ⊂ Rn 7→ (f1 (x), . . . , fp (x)) ∈ Rp
Alors; si f est différentiable en a, Df (a) ∈ L(Rn , Rp ) admet une représentation matricielle (dans les
bases canoniques de Rn et Rp ): on appelle cette matrice la matrice jacobienne, notée Jac f (a).
Donc, la j-ième colonne de Jac f (a) est donnée par les coordonnées du Df (a)(ej ) dans la base canonique
de Rp .
Or, Df (a)(ej ) est la dérivée directionnelle dans la direction de ej , autrement dit c’est la j-ième dérivée
partielle de f en a:
∂f ∂f1 ∂fp
Df (a)(ej ) = (a) = (a), . . . , (a)
∂xj ∂xj ∂xj
La matrice jacobienne est donc donnée par
∂f1 ∂f1
∂x1 (a)
... ∂xn (a)
.. .. ..
Jac f (a) = . . .
∂fp ∂fp
∂x1 (a) . . . ∂xn (a)
6
– La i-ième ligne de Jac f (a) est la matrice de Dfi (a) ∈ L(Rn , R).
∂f
– La j-ième colonne de Jac f (a) est la j-ième dérivée partielle ∂xj (a) ∈ Rp .
Lien entre toutes les façons de dériver
Figure 3: Les contre-exemples 1,2,3,4 sont sur la feuille de TD0
2 Applications de classe C 1
Si f est différentiable en a pour tout a ∈ U , on peut donc définir une application
Df : a ∈ U 7→ Df (a) ∈ L(E, F )
où l’e.v. L(E, F ) est muni de la norme des applications linéaires kLkL(E,F ) = supkxkE =1 kL(x)kF .
o Attention, DF n’est pas la différentielle de f : c’est une fonction définie sur l’ouvert U , à valeurs dans
l’e.v.n des applications linéaires continues E → F . Donc, pour tout a ∈ U , Df (a) est linéaire, mais Df ,
par contre, n’est pas (nécessairement) linéaire.
Définition 8
On dit que f est continûment différentiable (C 1 ) sur U si f est différentiable en tout a ∈ U et si
l’application
a ∈ U ⊂ E 7→ Df (a) ∈ L(E, F )
est continue. On note C 1 (U ) l’ensemble des applications continûment différentiables sur U .
7
Cas particulier: Dans le cas où E = Rn , F = Rp , f ∈ C 1 (U ) ssi l’application a ∈ U 7→ Jac f (a) ∈
Mp,n (R) est continue. C’est le cas si, et seulement si, les coefficients de la matrice Jac f (a) dépendent
continûment de a sur U . Ce qui nous amène à:
Théorème 9
Soit f : U ⊂ Rn → Rp . Alors
∂f
f ∈ C (U ) ⇐⇒ ∀ i ∈ J1, nK, x ∈ U →
1
7 (x) ∈ R ∈ C 0 (U, Rp )
p
∂xi
∂fj
⇐⇒ ∀ i ∈ J1, nK, ∀ j ∈ J1, pK, ∈ C 0 (U, R).
∂xi
Opérations sur les différentielles
Linéarité Soient f, g : U ⊂ E → F , λ, µ ∈ R. Si f et g sont diff. en a ∈ U alors λf + µg aussi et
D(λf + µg)(a) = λDf (a) + µDg(a)
Composition 1 Soient f : U ⊂ E → F diff. en a et g : V ⊂ F → G t.q. f (U ) ⊂ V et g diff. en f (a).
Alors g ◦ f : U → G est diff. en a et
D(g ◦ f )(a) = Dg(f (a)) ◦ Df (a)
Composition 2 Si E = Rn ,F = Rp , G = Rq , alors cela donne:
Jac g ◦ f (a) = Jac g(f (a)) · Jac f (a)
Composition 3 Si E = Rn ,F = Rp , G = R, alors g ◦ f : Rn → R a des dérivées partielles en a données
par:
p
∂(g ◦ f ) X ∂g ∂fj
(a) = (f (a)) (a)
∂xi ∂yj ∂xi
j=1
Exemple: Considérons f : x ∈ Rn \ {0} 7→ kxk2 ∈ R.
On peut écrire f = g ◦ q avec
q : x ∈ Rn \ {0} 7→ hx, xi ∈ R∗+
√
g : u ∈ R∗+ 7→ u ∈ R
Alors, pour x ∈ Rn \ {0}
• q est quadratique, donc diff. en x ∈ Rn \ {0} et Dq(x)(h) = 2hx, hi;
• g est dérivable, donc différentiable en u = q(x) = hx, xi et Dg(u)(t) = g 0 (u)(t) = t
√
2 u
;
donc f est différentiable en x et on a
hx, hi
Df (x)(h) = Dg(q(x))(Dq(x)(h)) = Dg(q(x))(2hx, hi) = p et
hx, xi
∂f ∂q 1 xi
(x) = g 0 (f (x)) (x) = p 2hx, ei i =
∂xi ∂xi 2 hx, xi kxk2
8
Dérivées partielles d’une application composée
Proposition 2
f :U ⊂ Rn → Rp différentiable en a ∈ U
g :V ∈ Rp → R différentiable en f (a) ∈ V
Alors g ◦ f : Rn → R a des dérivées partielles en a données par:
p
∂(g ◦ f ) X ∂g ∂fj
Pour 1 ≤ i ≤ n, (a) = (f (a)) (a)
∂xi ∂yj ∂xi
j=1
Exemple: Coordonnées polaires
Considérons f : (r, θ) ∈ U = R∗+ ×]0, 2π[ 7→ (r cos θ, r sin θ) ∈ R2
g : f (U ) → R différentiable, et h = g ◦ f : (r, θ) 7→ g(r cos θ, r sin θ)
Alors pour a = (r cos θ, r sin θ),
∂h ∂g ∂g ∂h ∂g ∂g
(a) = cos θ (a) + sin θ (a) (a) = −r sin θ (a) + r cos θ (a)
∂r ∂x ∂y ∂θ ∂x ∂y
Preuve: On a
∂g ∂g
Jac g(f (a)) = (f (a)) . . . , (f (a)) ,
∂y1 ∂yp
∂f1 ∂f1
∂x1 (a) . . . ∂xn (a)
. .. ..
Jac f (a) = .. . .
∂fp ∂fp
∂x1 (a) ... ∂xn (a)
En appliquant la formule pour le produit matriciel, on obtient
p
∂(g ◦ f ) X
(a) = (Jac g ◦ f (a))1,i = (Jac g(f (a))1k Jac f (a)ki )
∂xi
k=1
p
X ∂g ∂fk
= (f (a)) · (a).
∂yk ∂xi
k=1
3 Accroissements finis
Pour les fonctions réelles, le TAF permet de passer de l’information locale donnée par la dérivée à une
information globale:
Théorème 10 (Théorème des accroissements finis)
Soit f : [a, b] → R dérivable sur ]a, b[ et continue sur [a, b]. Alors
∃ c ∈]a, b[ t.q. f (b) − f (a) = f 0 (c)(b − a).
9
Peut-on généraliser ce théorème ? En appliquant le TAF à la fonction
g : t ∈ [0, 1] 7→ f (a + t(b − a))
on démontre la généralisation suivante pour les fonctions définies sur E à valeurs réelles:
Proposition 3
Soit f : U ⊂ Rn → R une fonction différentiable sur un ouvert convexe U . Alors pour tous a, b ∈ U , il
existe c ∈ [a, b] = {x ∈ U, ∃t ∈ [0, 1], x = a + t(b − a)} tel que
f (b) − f (a) = df (c)(b − a)
Toutefois, on ne pourra pas obtenir d’égalité pour les fonctions à valeurs vectorielles.
Contre-exemple: Considérons φ : t ∈ [0, 2π] 7→ (cos(t), sin(t)) ∈ R2 : φ est continue sur [0, 2π] et dérivable
sur ]0, 2π[, mais
φ(2π) − φ(0) = (0, 0) 6= 2πφ0 (c)
quel que soit c ∈]0, 2π[, puisque kφ0 (c)k = k(− sin(c), cos(c))k = 1, donc φ0 (c) 6= (0, 0).
Inégalité des accroissements finis
On obtient en revanche l’inégalité suivante
Théorème 11
Soit f : U ⊂ Rn → Rp une application C 1 sur un ouvert convexe U ⊂ Rn . Soient a, b ∈ U .
On suppose que supc∈[a,b] kDf (c)kL(Rn ,Rp ) < ∞. Alors
kf (b) − f (a)k ≤ max kDf (a + t(b − a))k · kb − ak.
0≤t≤1
On l’utilise généralement sous la forme
Corollaire 1
Soit f : U ⊂ Rn → Rp ∈ C 1 (U ). On suppose qu’il existe C > 0 tel que pour tout x ∈ U , kDf (x)k ≤ C.
Alors pour tous a, b ∈ U ,
kf (b) − f (a)k ≤ Ckb − ak.
En particulier, si Df (x) = 0 pour tout x ∈ U , alors f est constante.
Preuve du théorème: Notons M = max0≤t≤1 kDf (a + t(b − a))k. Il s’agit donc de montrer
kf (b) − f (a)k ≤ M kb − ak.
Soit ε > 0, on va montrer que
kf (b) − f (a)k ≤ (M + ε)kb − ak.
autrement dit que, pour t = 1,
kf (a + t(b − a)) − f (a)k ≤ t(M + ε)kb − ak
10
autrement autrement dit, en posant
Aε = {t ∈ [0, 1], kf (a + t(b − a)) − f (a)k ≤ t(M + ε)kb − ak},
on veut montrer que 1 ∈ Aε .
Remarquons que Aε = gε−1 ([0, +∞[), avec
gε (t) = t(M + ε)kb − ak − kf (a + t(b − a)) − f (a)k ∈ C 0 ([0, 1], R).
Donc Aε est un fermé de [0, 1] compact, donc c’est aussi un compact: Aε admet donc un maximum t0 .
On va montrer que t0 = 1. Supposons, par l’absurde, que t0 < 1. Alors on a
pour tout t ∈ ]t0 , 1],kf (a + t(b − a)) − f (a)k > t(M + ε)kb − ak
tandis que kf (a + t0 (b − a)) − f (a)k ≤ t0 (M + ε)kb − ak
donc, en soustrayant ces inégalités, par inégalité triangulaire inversée, on a:
kf (a + t(b − a)) − f (a) − (f (a + t0 (b − a)) − f (a))k ≥ (t − t0 )(M + ε)kb − ak
ceci donne, en divisant par t − t0 ,
kDf (a + t0 (b − a))(b − a)k ≥ (M + ε)kb − ak ⇒ kDf (a + t0 (b − a))k ≥ M + ε
ce qui est absurde. Donc t0 = 1 et 1 ∈ Aε , ce qui donne
kf (a + (b − a)) − f (a)k = kf (b) − f (a)k ≤ (M + ε)kb − ak
Ceci étant vrai pour tout ε, on obtient l’inégalité requise en faisant ε → 0.
4 C 1 -difféomorphismes
Définition 12
Soient U, V ouverts dans Rn . Une application f : U → V est un C 1 -difféomorphisme si
• f est C 1 sur U
• f est bijective et l’application réciproque f −1 est de classe C 1 sur V .
o Il ne suffit pas que f soit C 1 et bijective. Par exemple, f : x ∈ R 7→ x3 ∈ R est C 1 sur R, bijective,
1
mais la réciproque f −1 : x ∈ R 7→ x 3 ∈ R n’est pas différentiable en 0.
Soit f : U → V un C 1 -difféomorphisme, alors f −1 ◦ f = IdU . Donc, pour tout x ∈ U ,
D(f −1 )(f (x)) ◦ Df (x) = D(f −1 ◦ f )(x) = D IdU (x) = IdU
Autrement dit, D(f −1 )(f (x)) est l’application linéaire inverse de Df (x):
D(f −1 )(y) = Df (x)−1 pour y = f (x) ∈ V.
En particulier, Jac f (x) est une matrice inversible: on ne peut donc pas avoir de difféomorphisme entre
des ouverts de Rn et Rp pour n 6= p.
11