Cal Cul Diff 1213
Cal Cul Diff 1213
Julia Matos
2 Applications différentielles 6
2.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Vitesse et dérivée directionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Théorèmes de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5.1 Approximation linéaire et quadratique . . . . . . . . . . . . . . . . . . 17
2.5.2 Différentiabilité et dérivées partielles . . . . . . . . . . . . . . . . . . . 18
5 Sous-variétés dans Rn 37
5.1 Sous-variétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2 Espace tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3 Surfaces de R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4 Courbes de R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.5 Extrema liés – Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . 41
1
1 L’espace Rn - Rappels
1.1 Généralités
Nous énonçons ce qu’il faut savoir sur les espaces de dimension finie.
Soit E un espace vectoriel réel ou complexe (sur le corps K où K = R ou K = C).
Définition 1.1 Une norme sur l’espace vectoriel E est une application N : E → R+ vérifi-
ant :
1. N (x) ≥ 0, ∀x ∈ E et N (x) = 0 ⇐⇒ x = 0 (positivité stricte).
2. N (λx) = |λ|N (x), ∀x ∈ E et ∀λ ∈ K (homogénéité).
3. N (x + y) ≤ N (x) + N (y), ∀x, y ∈ E (inégalité triangulaire).
Un espace vectoriel E doté d’une norme est dit un espace vectoriel normé (e.v.n. en
abrégé).
Si x ∈ E, le nombre N (x) s’appelle la norme de x et se note usuellement par N (x) = kxk.
Exemples :
1. Soit E = Rn , n ≥ 1 et K = R. Alors
q
kxk2 = x21 + . . . + x2n , x = (x1 , . . . , xn ) ∈ Rn ,
est n
Pn la norme associé au produit scalaire canonique de R qui est définit par (x|y) =
i=1 xi yi . Cette norme k · k2 s’appelle la norme euclidienne. Dans le cas n = 2, c’est la
norme correspondant au théorème de Pythagore.
2. Il y a d’autres normes sur Rn , dites normes usuelles. Pour tout x = (x1 , . . . , xn ) ∈ Rn ,
on pose
Xn
kxk1 = |xi |, kxk∞ = max |xi |.
1≤i≤n
i=1
Les applications k · k1 et k · k∞ ainsi définies sont aussi des normes sur Rn et s’appellent
respectivement la norme `1 et la norme du max ou norme infinie.
Définition 1.2 Soient N1 et N2 deux normes sur E. On dit que N1 et N2 sont normes
équivalentes s’il existe α, β > 0 telles que
Exemple : Les normes sur Rn définies dans les exemples précédents sont toutes équivalen-
tes. En effet,
kxk∞ ≤ kxk2 ≤ kxk1 ≤ nkxk∞ , ∀x ∈ Rn .
Théorème 1.1 Toutes les normes d’un espace vectoriel de dimension finie sont équivalentes.
2
La notion de norme permet de définir la distance entre deux points d’un e.v.n. E.
d(x, y) = kx − yk.
Cette application s’appelle distance sur E associée à la norme k · k. Elle vérifie les propriétés
suivantes :
1. d(x, y) ≥ 0, ∀x, y ∈ E et d(x, y) = 0 ⇐⇒ x = y.
2. d(x, y) = d(y, x), ∀x, y ∈ E (symétrie).
3. d(x, y) ≤ d(x, z) + d(z, y), ∀x, y, z ∈ E (inégalité triangulaire).
Étant donné x ∈ E et r > 0, la boule ouverte de centre x et rayon r est définie par :
B̄(x, r) = {y ∈ E : kx − yk ≤ r}.
Dans un espace de dimension finie, on n’a donc pas besoin de préciser avec quelle norme
on travaille. Souvent, on choisira la norme adaptée au problème posé. Tout espace vectoriel
de dimension est isomorphe à Rn , et il suffit donc de savoir ce qui se passe dans Rn .
3
Définition 1.4 Soit (xk )k∈N est une suite d’éléments de (E, k·k). On dit que (xk )k∈N converge
vers x ∈ E si
lim kxk − xk = 0,
k→+∞
et on note limk→+∞ xk = x.
Remarques.
1. On peut montrer que cette notion de limite ne dépend pas de la norme choisie (parmi
des normes équivalentes).
2. Si E = Rn et x = (x1 , · · · , xn ), xk = (xk,1 , · · · , xk,n ), alors
xk −→x ⇐⇒ ∀1 ≤ i ≤ n, xk,i −→ xi .
Définition 1.5 Une suite (xk )k∈N de E est dite de Cauchy si kxk+m − xk k → 0 lorsque
k, m → +∞.
Définition 1.6 Soit E un espace vectoriel normé. On dit que E est un espace complet si
toute suite de Cauchy dans E y est convergente.
Théorème 1.2 (Théorème de Bolzano-Weierstrass) Dans un espace vectoriel normé de
dimension finie, toute suite bornée contient une sous-suite convergente.
On peut aussi dire que toute suite bornée admet au moins une valeur d’adhérence. Autre
formulation du Théorème de Bolzano-Weierstrass :
Dans un espace vectoriel normé de dimension finie, une partie est compacte si et seulement
si elle est fermée et bornée.
Propriétés :
1. La boule unité d’un espace vectoriel normé est compacte si et seulement si cet espace
est de dimension finie.
2. Tout espace vectoriel de dimension finie est complet.
x2 y + y 2 sin x
Exemple 1. La fonction f (x, y) = tend vers 0 quand (x, y) tend vers (0, 0)
x2 + y 2
dans R2 .
xy
Exemple 2. La fonction f (x, y) = n’a pas de limite quand (x, y) tend vers (0, 0)
x2 + y 2
dans R2 .
4
Définition 1.8 Soit A une partie de Rn et f : A → Rp . On dit que f est continue en a ∈ A
si lim f (x) = f (a).
x→a
Si f est continue en tout point a ∈ A, on dit que f est continue sur A.
La fonction f est continue en a si et seulement si pour toute suite (xk ) convergeant vers
a, la suite image f (xk ) converge vers f (a).
Théorème 1.4 Toute fonction continue sur un compact K de Rn à valeurs réelles atteint
son minimum absolu et son maximum absolu sur K.
Le théorème suivant donne une caractérisation des fonctions continues. Il sert surtout à
montrer qu’une partie de Rn est ouverte ou fermé.
Théorème 1.5 1. Une fonction est continue si et seulement si l’image réciproque de tout
ouvert est un ouvert.
2. Une fonction est continue si et seulement si l’image réciproque de tout fermé est un
fermé.
5
2 Applications différentielles
Ce chapitre est consacré à la définition de la différentielle et à ses propriétés élémentaires.
Rappel : Une fonction f : R → R est différentiable en a ∈ R s’il existe f 0 (a) ∈ R tel que
Si f est suffisamment dérivable, on peut encore mieux l’approcher par un polynôme de degré
supérieur : celui de son développement limité.
La généralisation à Rn se fait en définissant la différentiabilité de f en un point a, comme
la possibilité d’approcher f (x) au voisinage de a par une expression affine :
On désignera L(Rn , Rp ) l’espace des applications linéaires de (Rn , k · kRn ) vers (Rp , k · kRp ).
Cet espace L(Rn , Rp ) est lui-même un espace normé pour la norme définie par
kL(x)kRp
kLk = sup kL(x)kRp = sup kL(x)kRp = sup .
kxkRn ≤1 kxkRn =1 kxkRn 6=0 kxkRn
Notons que
∀x ∈ Rn , kL(x)kRp ≤ kLkkxkRn .
6
On vérifie que la norme de L est égale à la borne inférieure des réels C ≥ 0 tels que
∀x ∈ Rn , kL(x)kRp ≤ CkxkRn .
De plus, si pour un tel C il existe x0 6= 0 tel que kL(x0 )kRp = Ckx0 kRn , alors kLk = C.
On remarque que toute application linéaire de Rn dans Rp est une application continue.
Le résultat suivant est plus général.
où C = max{kL(ei )kF : 1 ≤ i ≤ n} et N (x) = ni=1 |xi |. N définit une norme sur E et
P
d’autre part, puisque E est de dimension finie, toutes les normes sur E sont équivalentes.
Alors, il existe β > 0 tel que N (x) ≤ αkxkE , pour tout x ∈ E. Donc, kL(x)kF ≤ αCkxkE ,
pour tout x ∈ E et par conséquent, pour tous x, y ∈ E,
On conclut que L est lipschitzienne sur E et donc elle est continue sur E.
Soit Ω un ouvert de Rn et f : Ω → Rp .
Définition 2.2 On dit que f est différentiable au point a ∈ Ω, s’il existe une application
lnéaire L : Rn → Rp telle que
kf (a + h) − f (a) − L(h)kRp
lim = 0.
h→0 khkRn
Plus précisément :
7
Preuve :
1. Si L1 et L2 vérifient la définition, alors pour ε > 0 fixé, il existe r > 0 tel que, si
khkRn ≤ r,
kf (a + h) − f (a) − L1 (h)kRp ≤ εkhkRn et kf (a + h) − f (a) − L2 (h)kRp ≤ εkhkRn .
Alors,
kL1 (h) − L2 (h)kRp ≤ 2εkhkRn ,
pour tout h suffisamment petit. Donc, kL1 − L2 k ≤ 2ε. Puisque ε > 0 est arbitraire, on
conclut que L1 = L2 .
2. Si f est différentiable en a, alors
kf (a + h) − f (a)kRp ≤ kLkkhkRn + o(h),
et donc lim f (a + h) = f (a).
h→0
3. Évident par la définition.
4. L’égalité f (a + h) − f (a) − L(h) = o(h) ne dépend pas de la norme (équivalente) choisie.
Remarques :
1. Si elle existe, Df (a) est une application linéaire de Rn dans Rp . La différentielle Df (a)
est répresentée par une matrice à p lignes et n colonnes appellée la matrice jacobienne
de f en a.
2. Si n = p = 1, les matrices n’ayant pas de parenthèses, l’application linéaire Df (a)
s’identifie au nombre dérivée
f (a + h) − f (a)
Df (a)(1) = lim = f 0 (a).
h→0 h
3. Au voisinage de a, l’application f se comporte a peu près comme l’application x 7→
f (a)+Df (a)(x−a) (somme d’une constante et d’une application linéaire), pour laquelle
on peut utiliser les outils d’algèbre linéaire : calcul matriciel, rang, . . .
Pour montrer qu’une fonction est différentiable en un point, on utilise la plupart du temps
la condition suffisante du paragraphe suivant, avec les dérivées partielles. Quand la fonction
est compliquée (souvent à l’origine), il faut revenir à la définition.
8
Définition 2.3 On dit que f est différentiable sur Ω si, pour tout x ∈ Ω, f est différentiable
en x. Alors, Df : Ω → L(Rn , Rp ) s’appelle la différentielle de f .
Définition 2.4 On dit que f est C 0 (ou de classe C 0 ) si elle est continue dans Ω (et on pose
D0 f = f ).
On dit que f est continûment différentiable sur Ω, ou C 1 , si Df est continue dans Ω.
Remarquer que si f est différentiable sur Ω, pour tout x ∈ Ω, Df (x) est continue, alors
que Df peut l’être ou pas.
Définition 2.5 Si Df est elle même différentiable sur Ω, on dit que f est deux fois diffé-
rentiable et, l’on note D(Df ) = D2 f . C’est un élément de L(Rn , L(Rn , Rp )) qu’on appelle la
différentielle seconde de f . En définissant par récurrence la notation
Dk f = D(Dk−1 f ),
on dit que f est n fois différentiable (n ≥ 1) si Dn−1 f est différentiable. On appelle différen-
tielle d’ordre n de f à Dn f .
Définition 2.6 On dit que f est C n (ou de classe C n ) si Dn f est continue. Elle est dite C ∞
(ou de classe C ∞ ) si Dn f existe pour tout entier n ≥ 0.
2.2 Propriétés
Linéairité de la différentielle
Soit Ω un ouvert de Rn , f : Ω → Rp et g = Ω → Rp différentiables en a ∈ Ω (resp. C k sur
Ω) alors, pour tous λ, µ ∈ R, λf + µg est différentiable en a (resp. C k sur Ω) et
∀x ∈ Ω, f (x) = y0 ∈ Rp .
9
Différentielle d’une application bilinéaire
Soit b : Rn × Rm → Rp une application bilinéaire, c’est-à-dire b est linéaire dans les
variables x et y. Alors, b est C ∞ et
Alors,
kb(h1 , h2 )kRp ≤ Ckhk2 , avec khk = max(kh1 kRn , kh2 kRm ).
On remarque facilement que l’application a 7→ Db(a) est linéaire. D’autre part,
Alors kDb(a)k ≤ 2Ckak où C = kbk. D’où, Db comme application linéaire en a ∈ E1 × E2 est
continue et kDbk ≤ 2C = 2kbk. Donc, D2 (b) = D(Db) est constante et D3 (b) = 0.
Preuve : L’application Dg(f (a))◦Df (a) est linéaire. On veut montrer que
Par hypothèse,
o2 (h)
f (a + h) − f (a) = Df (a)(h) + o2 (h), avec lim = 0.
h→0 khk
Donc,
10
Alors, par la linéairité de Dg(f (a)), on obtient
g(f (a + h)) − g(f (a)) − Dg(f (a))[Df (a)(h)] = Dg(f (a))[o2 (h)] + o1 (f (a + h) − f (a)).
Proposition 2.3 Si f , g sont k fois différentiables (resp. C k ) alors g ◦f est k fois différen-
tiable (resp. C k ).
Preuve : Par récurrence sur k, en utilisant la règle de la différentielle des fonctions composées.
d’où
c(t0 + t) − c(t0 )
lim = L(1) ∈ Rp .
t→0 t
On notera c0 (t0 ) cette limite et on l’appelera dérivée ou vitesse de c en t0 . Si p = 1, on retrouve
le nombre dérivée usuel.
Réciproquement si
c(t0 + t) − c(t0 )
c0 (t0 ) = lim
t→0 t
existe alors c est différentiable en t0 et l’on a Dc(t0 )(h) = hc0 (t0 ).
Pour les courbes on ne distingue pas c0 (t0 ) et Dc(t0 ) identifiée à sa valeur en 1.
11
Exemple : Soient u, x0 ∈ Rn fixés et c(t) = x0 + tu. La vitesse de la courbe c est c0 (t) = u.
Si c est différentiable à valeurs dans l’ouvert Ω ⊂ Rn et f : Ω → Rp est différentiable sur Ω,
alors f ◦ c est différentiable et (f ◦ c)0 (t) = Df (c(t))(c0 (t)).
On dit que la courbe est transportée par une fonction et que la vitesse est transportée par
sa différentielle.
Définition 2.7 On dit que f admet une dérivée en a dans la direction h, si la courbe t 7→
f (a + th) est dérivable en t = 0. La vitesse en 0 est appelée dérivée directionnelle en a dans
la direction h et notée f 0 (a; h) ou ∂f
∂h (a). On a donc
f (a + th) − f (a)
f 0 (a; h) = lim .
t→0 t
Théorème 2.2 Si f est différentiable en a ∈ Ω alors, pour tout h ∈ Rn , f 0 (a; h) existe et
f 0 (a; h) = Df (a)(h).
Preuve : La courbe t 7→ c(t) = a + th est dérivable avec c0 (t) = h et c(0) = a. Par composition,
t 7→ f (a + th) est dérivale en 0 et
πi (x1 , . . . , xn ) = xi , 1 ≤ i ≤ n.
L’application πi est linéaire continue donc, pour tout x ∈ Rn , Dπi (x) = πi . On note ci :
R → Rn l’injection définie par ci (x) = (0, . . . , 0, x, 0, . . . , 0) (où x est dans le i-ième rang).
L’application ci est linéaire et Dci (x) = ci , pour tout x ∈ R. On a
n
X
∀1 ≤ i ≤ n, πi ◦ci = idR , ci ◦πi = idRn .
i=1
12
Preuve : Par la composition, si f est différentiable en a ∈ Ω, pour tout 1 ≤ i ≤ p, fi l’est
aussi (resp. C 1 si f l’est) et
Définition 2.8 On dit que f admet la i-ième dérivée partielle en a si f admet la dérivée en
a dans la direction ei , où e1 , . . . , en désignent les éléments de la base canonique de Rn . On
∂f
note (a) = f 0 (a; ei ).
∂xi
Remarque : On a
∂f f (a + hei ) − f (a)
(a) = lim .
∂xi h→0 h
∂f
Théorème 2.4 Si f est différentiable en a ∈ Ω alors, pour tout 1 ≤ i ≤ n, ∂xi (a) existe et
l’on a
n
X ∂f
Df (a)(h) = (a)hi , ∀h = (h1 , . . . , hn ) ∈ Rn .
∂xi
i=1
Alors,
Df (a)(h) =< ∇f (a), h >
∂f ∂f
où ∇f (a) = ( ∂x1
(a), . . . , ∂xn
(a)) est le gradient de f au point a et < ·, · > désigne le produit
∂f
scalaire de R . De plus, si f est C 1 , alors les applications x 7→ ∂x
n
i
(x) sont continues sur Ω.
Preuve : Par le théorème 2.2, les dérivées partielles premières de f existent. D’autre part, par
la linéarité de Df (a),
n n n
X X X ∂f
Df (a)(h) = Df (a)(0, . . . , hi , . . . , 0) = hi Df (a)(ei ) = (a)hi .
∂xi
i=1 i=1 i=1
Si f est C 1 , alors l’application Ω → L(Rn , R) définie par x 7→ Df (x) est continue. Alors,
en composant avec l’opérateur de composition des opérateurs linéaires, on trouve que x 7→
∂f
∂xi (x) = Df (x)(ei ) est continue sur Ω.
Remarque : Dans la section suivante, on montre que
∂f
f est C 1 ⇐⇒ existent et son continues , ∀1 ≤ i ≤ n.
∂xi
Exemple : La fonction f (x, y) = x2xy +y 2
si (x, y) 6= 0 et f (0, 0) = 0 admet des dérivées
2
partielles sur R mais n’est pas différentiable (ni même continue) en (0, 0) et, donc elle n’est
pas de classe C 1 dans R2 .
13
Soient Ω ouvert de Rn et f : Ω → Rp (n, p ≥ 1). On écrit x = (x1 , . . . , xn ) et f (x) =
(f1 (x), . . . , fp (x)). On sait que f est différentiable sur Ω si et seulement si fi est différentiable
∂fi
sur Ω, pour tout 1 ≤ i ≤ p et, dans ce cas, les ∂x j
existent, pour tout 1 ≤ j ≤ n.
Dans les bases canoniques de Rn et Rp , Df (a) est répresenté par la matrice dans Mp×n (R)
(matrice à p lignes et n colonnes) dont les coordonnées de la j-ième colonne sont les coor-
données du vecteur
Df (a)(ej ) = (Df1 (a)(ej ), . . . , Dfp (ej )),
pour 1 ≤ j ≤ n, où (e1 , . . . , en ) est la base canonique de Rn . La i-ième coordonnée de ce
vecteur est Dfi (a)(ej ). Mais,
∂fi
Dfi (a)(ej ) = (a).
∂xj
D’où la définition suivante :
La règle de la différentielle d’une application composée s’écrit par rapport aux matrices
jacobiennes de la forme suivante.
sera généralisée.
14
Théorème 2.5 (Théorème de la moyenne) Soit f : [a, b] → Rp et g : [a, b] → R. On
suppose f et g continues sur [a, b] et dérivables sur ]a, b[ et telles que
∀x ∈ [a, b], kf 0 (x)kRp ≤ g 0 (x).
Alors,
∀x ∈ [a, b], kf (x) − f (a)kRp ≤ g(x) − g(a).
Preuve : On va montrer que pour tout ε > 0,
kf (x) − f (a)k ≤ g(x) − g(a) + ε(x − a) + ε. (1)
Notons A = {y ∈ [a, b] : ∀x ∈ [a, y], x vérifie (1)}. Puisque a ∈ A, A 6= ∅. D’autre part, si
y ∈ A, par la définition [a, y] ∈ A.
Notons c = sup(A). On a c ≤ b. Par la continuité de f et g, il existe δ > 0 tel que
ε ε
a ≤ x ≤ a + δ =⇒ kf (x) − f (a)k < et |g(x) − g(a)| < ,
2 2
alors :
ε
kf (x) − f (a)k < ≤ g(x) − g(a) + ε,
2
et donc, x vérifie (1). D’où [a, a + δ] ⊂ A et alors c > a. En faisant x tendre vers c par des
valeurs inférieures, on obtient (par la continuité de f et g),
kf (c) − f (a)k ≤ g(c) − g(a) + ε(c − a) + ε.
Donc A = [a, c].
Supposons par contradiction que c < b. Alors, f et g sont dérivables en c et il existe γ > 0
tel que c + γ < b. Au voisinage de c, on a
f (x) − f (c) = f 0 (c)(x − c) + ε1 (x)(x − c) et g(x) − g(c) = g 0 (c)(x − c) + ε2 (x)(x − c),
avec
lim ε1 (x) = 0Rp et lim ε2 (x) = 0.
x→c x→c
Donc, on peut choisir γ suffisamment petit tel que
ε ε
kε1 (x)k < et |ε2 (x)| < .
2 2
Alors, pour tout x ∈ [c, c + γ], on a
ε ε
kf (x) − f (c)k ≤ kf 0 (c)k(x − c) + (x − c) et g 0 (c)(x − c) ≤ g(x) − g(c) + (x − c).
2 2
En utilisant l’hypothèse, on obtient
ε
kf (x) − f (c)k ≤ kf 0 (c)k(x − c) + (x − c)
2
0 ε
≤ g (c)(x − c) + (x − c)
2
≤ g(x) − g(c) + ε(x − c).
Finalement, pour tout x ∈ [c, c + γ], on a
kf (x) − f (a)k ≤ kf (x) − f (c)k + kf (c) − f (a)k ≤ g(x) − g(a) + ε(x − a) + ε.
Donc, [c, c + γ] ⊂ A, ce qui contradit la définition de c. D’où c = b.
15
Corollaire 2.1 Soit f : [a, b] → Rp continue sur [a, b] et dérivable sur ]a, b[. Supposons qu’il
existe M > 0 tel que
∀x ∈ [a, b], kf 0 (x)k ≤ M.
Alors,
kf (b) − f (a)k ≤ M (b − a).
Preuve : On peut supposer que M = supx∈[a,b] kDf (x)k < +∞ (cas contraire le membre de
droite de l’inégalité vaut +∞ et l’inégalité est évidente). On définit c : [0, 1] → [a, b] ⊂ Ω par
De plus,
k(f ◦c)0 (t)kRp ≤ sup kDf (x)(b − a)kRp ≤ kb − akRn sup kDf (x)k = M kb − akRn .
x∈[a,b] x∈[a,b]
Définition 2.10 On dit qu’un sous-ensemble Ω d’un espace vectoriel normé E est convexe
si, pour tous a, b ∈ Ω, le segment [a, b] est dans Ω.
Corollaire 2.3 (Inégalité des accroissements finis pour les convexes) Soit Ω ouvert
convexe de Rn et f : Ω → Rp différentiable. Si kDf (x)k ≤ M , pour tout x ∈ Ω, alors
Pour les applications différentiables, être lipschitzienne est équivalent à avoir sa différen-
tielle bornée.
Proposition 2.5 Soit f une application différentiable sur Ω ouvert convexe. Alors,
16
Preuve : La condition suffisante est immédiate d’après le corollaire 2.3.
Condition nécessaire : supposons
17
Preuve : On peut appliquer l’inégalité de la moyenne à Df sur le segment [a, x],
kDf (x) − Df (a)k ≤ kx − ak sup kD2 f (y)k,
y∈[a,x]
d’où
sup kDf (x) − Df (a)k ≤ kb − ak sup kD2 f (y)k.
x∈[a,b] y∈[a,b]
Par le théorème 2.7, on obtient le résultat.
Alors, par le théorème des accroissements finis pour les convexes, pour tout x ∈ B(a, r),
n
X
kg(x)k ≤ kg(x1 , . . . , xk−1 , xk , ak+1 , . . . , an ) − g(x1 , . . . , xk−1 , ak , ak+1 , . . . , an )k
k=1
n
X
≤ ε|xk − ak | ≤ nεkx − ak, où kx − ak = max |xk − ak |.
1≤k≤n
k=1
18
3 Différentielles d’ordre supérieur
Ce chapitre est consacré aux différentielles d’ordre supérieur d’une application différen-
tiable et aux régles de calcul les concernant. Les résultats principaux sont : le théorème
de Schwarz sur la symétrie des différentielles d’ordre supérieur, la formule de Taylor et les
applications à l’étude des points critiques pour les fonctions à valeurs réelles.
Proposition 3.1 Soient E, F , G trois e.v.n.. On note L(E, F ; G) l’espace des applications
bilinéaires continues de E × F dans G. Alors, L(E, L(F, G)) est canoniquement isométrique
à L(E, F ; G).
Preuve : Pour L ∈ L(E, L(F, G)), on définit Φ(L) ∈ L(E, F ; G) par Φ(L)(x, y) = L(x)(y) et,
pour B ∈ L(E, F ; G) on définit Ψ(B) ∈ L(E, L(F, G)) par Ψ(B)(x)(y) = B(x, y). On montre
facilement que Φ et Ψ sont deux isomorphismes (applications linéaires bijectives) réciproques
l’une de l’autre.
Par la continuité de L ∈ L(E, L(F, G)), on a
Alors, kΦ(L)k ≤ kLk. Donc, Φ est continue et kΦk ≤ 1. D’autre part, par la continuité de
B ∈ L(E, F ; G), on a, pour tout x ∈ E,
D2 f (a)(h, k) = D2 f (a)(h)(k), h, k ∈ Rn .
D2 f : Ω → L(Rn , Rn ; Rp ).
19
Plus généralement, les différentielles d’ordre m ≤ m0 de f au point a sont des applications
m-linéaires continues :
Dm f (a) : Rn × . . . Rn → Rp .
Le théorème suivant montre que les dérivées secondes sont des applications bilinéaires
symétriques.
Soit ε > 0 fixé. Par la définition de la différentielle, il existe r > 0 tel que pour k(h, k)k < r
on a
et
k[Df (a + th) − Df (a) − D2 f (a)(th)](h)k ≤ εkthkkhk ≤ εkhk2 .
Alors, en ajoutant ces inégalités et en utilisant la linéarité de D2 f (a), on obtient
c’est-à-dire
kg 0 (t) − D2 f (a)(k, h)k ≤ 2εkhk(khk + kkk).
En particulier, pour t = 0, on a
D’où,
kg 0 (t) − g 0 (0)k ≤ 4εkhk(khk + kkk), ∀t ∈ [0, 1] =⇒ sup kg 0 (t) − g 0 (0)k ≤ 4εkhk(khk + kkk).
t∈[0,1]
20
D’après (2), on a
En permutant h et k et en utilisant la symétrie de g(1) − g(0) par rapport (h, k), on a aussi
D’où :
kD2 f (a)(k, h) − D2 f (a)(h, k)k ≤ 6ε(khk + kkk)2 . (3)
Cette inégalité étant valable pour k(h, k)k < r. Soit (h, k) ∈ Rn × Rn quelconque. On prend
λ > 0 tel que k(λh, λk)k < r. Alors,
Preuve : On a :
21
Le corollaire suivant est conséquence du théorème de Schwarz et de la proposition précé-
dente.
Corollaire 3.1 Si f est deux fois différentiable, on peut permuter l’ordre des dérivées par-
tielles : pour tout x ∈ Ω, pour tous 1 ≤ i, j ≤ n,
∂2f ∂2f
(x) = (x).
∂xi ∂xj ∂xj ∂xi
2
Alors, si les ∂x∂i ∂x
f
j
existent et sont continues, on peut permuter l’ordre des dérivations.
En effet, la continuité des dérivées partielles secondes entraı̂ne le caractère C 2 de f et
2f
donc la symétrie. Alors que la simple existence des ∂x∂i ∂x j
ne permet pas de conclure que f
est deux fois différentiable.
Si f : Ω → R est deux fois différentiable sur Ω ouvert de Rn et a ∈ Ω, D2 f (a) est une
forme bilinéaire symétrique qui est matriciellement représentée par les valeurs prises sur les
couples de vecteurs (ei , ej ) de la base canonique.
Pour tous h, k ∈ Rn , on a
D2 f (a)(h, k) =thH(f )(a)k,
où h et k sont identifiés avec ces vecteurs colonnes.
22
Théorème 3.2 (Formule de Taylor-Young) Soit f : Ω → R une fonction m fois différentiable
au voisinage de a ∈ Ω. Alors, pour h suffisamment petit, on a :
1 m
f (a + h) = f (a) + Df (a)(h) + . . . + D f (a)((h)m ) + o(khkm ).
m!
Preuve : Pour m = 1, la formule se réduit à la définition de la différentielle. On raisonne
alors par récurrence sur m ≥ 1. On suppose la relaction vraie jusqu’à m − 1. On pose, pour
h suffisamment petit,
1 1 m
ϕ(h) = f (a + h) − f (a) − Df (a)(h) − D2 f (a)(h, h) − . . . − D f (a)((h)m ).
2 m!
On calcule la différentielle de ϕ en utilisant le lemme précédent : pour h suffisamment petit
et k ∈ Rn ,
1
Dϕ(h)(k) = Df (a + h)(k) − Df (a)(k) − D2 f (a)(h, k) − . . . − Dm f (a)((h)(m−1) , k).
(m − 1)!
∂f ∂f
Df (a, b)(h, k) = (a, b)h + (a, b)k = sin(b)h + a cos(b)k,
∂x ∂y
23
Théorème 3.3 (Formule de Taylor avec reste intégral) Soit Ω un ouvert de Rn et f :
Ω → R une fonction de classe C m+1 . Si a ∈ Ω et h ∈ Rn tels que le segment [a, a + h] ⊂ Ω
alors,
Z 1
1 m m (1 − t)m m+1
f (a+h)−f (a) = Df (a)(h)+. . .+ D f (a)((h) )+ D f (a+th)((h)m+1 ) dt.
m! 0 m!
En particulier, pour tout compact convexe K contenu dans Ω, il existe C > 0 tel que, pour
a ∈ K, a + h ∈ K, on a la Formule de Taylor-Lagrange d’ordre m :
1 m
kf (a + h) − f (a) − Df (a)(h) − . . . D f (a)((h)m )k ≤ Ckhkm+1 .
m!
La formule de Taylor avec reste intégrale est la plus longue à écrire mais aussi la plus
précise.
Définition 3.3 On dit que a ∈ Ω est un point critique de f si le rang de Df (a) est inférieur
à p. Dans ce cas, on dit que f (a) est une valeur critique de f .
Remarquer que
rangDf (a) = dimDf (a)(E).
Alors, le rang de Df (a) n’est pas maximum si et seulement si Df (a) n’est pas surjective.
Si p = 1, le rang de Df (a) est au plus un. Dans ce cas, a est critique si et seulement si
Df (a) = 0.
24
Proposition 3.4 Soit f : Ω → R deux fois différentiable en a ∈ Ω.
1. Si a est un minimum relatif de f , alors Df (a) = 0 et D2 f (a) est une forme quadratique
positive, c’est-à-dire
∀h ∈ Rn , D2 f (a)(h, h) ≥ 0.
2. Si a est un maximum relatif de f , alors Df (a) = 0 et D2 f (a) est une forme quadratique
positive, c’est-à-dire
∀h ∈ Rn , D2 f (a)(h, h) ≤ 0.
Preuve : Comme dans la proposition précédente, on raisonne sur la fonction g(t) = f (a + th).
Preuve :
1. Par la formule de Taylor-Young, pour h = x − a, on a
1 α
f (x) − f (a) = Q(x − a) + kx − ak2 ε(x − a) ≥ ( + ε(x − a))kx − ak2 .
2 2
Ainsi, pour x suffisamment proche de a et x 6= a, le signe de α prédomine et l’on a
f (x) > f (a).
2. On raisonne de façon analogue. Alors, pour tout x suffisamment proche de a et x 6= a,
on a f (x) < f (a).
25
La forme quadratique Q associée à D2 f (a) est alors caractérisée par la matrice hessienne
de f en a :
∂2f ∂2f
2 (a) ... ∂x (a)
∂x 1 1 ∂xn
.. .
2
H(f )(a) =
. ∂ f .. .
∂xi ∂xj (a)
∂2f ∂2f
∂xn ∂x1 (a) ... ∂x2
(a)
n
avec
n
t
X ∂2f
Q(h) = hH(f )(a)h = (a)hi hj , où h = (h1 , . . . , hn ) ∈ Rn .
∂xi ∂xj
i,j=1
La matrice H(f )(a) est symétrique et donc orthogonalement diagonalisable. Deux cas se
présentent :
1. Il n’y a pas de valeur propre nulle : Q est régulière et le point critique a est dit non-
dégénéré ou régulier.
2. Il y a au moins une valeur propre nulle : Q est non-régulière et le point critique est
dit dégénéré ou singulier. Il faut alors examiner les différentielles d’ordre supérieur pour
décider de la nature de a.
Preuve :
1. Q est une forme définie positive, c’est-à-dire
∀h ∈ Rn , h 6= 0, Q(h) > 0.
En particulier, Q est strictement positive sur la sphère unité qui est compacte dans Rn .
Alors, la forme quadratique Q (qui est continue sur Rn ) y atteint le minimum par une
valeur α > 0. Donc, on a (4) et on conclut par la proposition 3.5.
2. Q est une forme définie négative, c’est-à-dire
∀h ∈ Rn , h 6= 0, Q(h) < 0.
Ensuite, on raisonne de façon analogue pour montrer qu’il existe β > 0 tel que (5) est
vérifiée et on applique la proposition 3.5 pour conclure.
3. Il existe des directions h telles que Q(h) soit positif, et d’autres pour lequel il est négatif.
Donc, a n’est pas un extremum.
Puisque le signe de la forme quadratique Q(h) = D2 f (x)(h, h) dépend du signe des mineurs
principaux de la matrice hessienne H(f )(x), la proposition précédente peut-être énoncée d’une
façon équivalente comme suit. On rappelle d’abord que, pour une matrice A carrée d’ordre n,
la sous-matrice principale d’ordre k de A est la matrice extraite de A en éliminant les n − k
dernières lignes et les n − k dernières colonnes. On appelle alors mineur principal d’ordre k
de A le déterminant de la sous-matrice principale d’ordre k de A.
26
Proposition 3.7 Soit Ω un ouvert de Rn , f : Ω → R de classe C 2 et a ∈ Ω un point critique
de f .
1. Si les n mineurs principaux de H(f )(a) sont tous positifs, c’est-à-dire
∂2f ∂2f ∂2f
∂2f ∂2f ∂x21
(a) ∂x1 ∂x2 (a) ∂x1 ∂x3 (a)
∂2f ∂x21
(a) ∂x1 ∂x2 (a) ∂2f ∂2f ∂2f
(a) > 0, 2 ∂2f > 0, ∂x2 ∂x1 (a) ∂x22
(a) ∂x2 ∂x3 (a) > 0, · · ·
∂x21 ∂ f
∂x2 ∂x1 (a) (a)
∂x22 ∂2f 2
∂ f ∂2f
∂x3 ∂x1 (a) ∂x3 ∂x2 (a) ∂x23
(a)
27
4 Les théorèmes d’inversion locale et des fonctions implicites
Dans ce chapitre, on aborde les premiers théorèmes d’existence. Le résultat central est le
théorème d’inversion locale et le théorème des fonctions implicites en est une des conséquences
importantes.
Dans ce qui suit, les espaces normés sont complets (donc, espaces de Banach).
f ◦f −1 = 1V et f −1 ◦f = 1U .
Donc, Df (x) et D(f −1 )(y) sont deux isomorphismes réciproques l’un de l’autre. On a
On peut écrire également : D(f −1 ) = J ◦Df ◦f −1 . Alors, si f est C 1 , D(f −1 ) sera continu.
Par récurrence, f −1 sera C k si f l’est.
28
L’existence d’un difféomorphisme entre U et V fait que les espaces E et F sont iso-
morphes. Donc, il ne peut pas exister de difféomorphisme d’un ouvert de Rn vers un ouvert
de Rm lorsque n 6= m. Dans le cas E = F = Rn , U et V ouverts de Rn et f : U → V un
difféomorphisme, alors pour tout x ∈ U ,
Définition 4.2 Soit E espace de Banach et A ⊂ E. On dit que f : A → A est une contraction
de A si f est k-lipschitzienne avec k ∈ [0, 1[, c’est-à-dire
Théorème 4.3 (Théorème du point fixe) Soit E un espace de Banach et A une partie
fermée non vide de A. Alors toute contraction f de A possède un unique point fixe.
Comme 0 ≤ k < 1, on a kx − yk = 0 ⇐⇒ x = y.
Existence du point fixe : On fixe x0 ∈ A et on définit la suite récurrente xn+1 = f (xn ).
On a donc
kxn+1 − xn k ≤ kkxn − xn−1 k.
Alors, par récurrence sur n ≥ 1, on obtient
kxn+1 − xn k ≤ k n kx1 − x0 k.
29
L’hypothèse 0 ≤ k < 1 entraı̂ne que (xn )n≥0 est une suite de Cauchy dans A. Alors (xn )
converge vers une limite notée x dans Ā = A. Par la continuité de f , on a :
Remarque : Ce théorème affirme que l’équation f (x) = y admet une solution x unique,
pourvu que y soit choisi “assez proche” de b = f (a) et que x soit cherché “assez proche” de
a.
Par la continuité de f et g,
On a
k = f (a + h) − f (a) = L(h) + khkε(h).
Alors,
L−1 (k) = h + khkL−1 (ε(h)).
Pour conclure, il suffit de montrer que khkL−1 (ε(h)) est un o(k). On a :
Comme kL−1 (ε(h))k tend vers zéro avec k, on a donc khkL−1 (ε(h)) = o(k).
30
Corollaire 4.1 On suppose les conditions du lemme précédent avec, de plus, f de classe C 1 .
Alors f est un difféomorphisme local en a.
Preuve : L’ensemble Isom(Rn , Rn ) est ouvert dans L(Rn , Rn ) (on admet ce résultat). Par la
continuité de Df , il existe un voisinage ouvert W ⊂ U de a tel que Df (W ) ⊂ Isom(Rn , Rn ).
Donc, en tout point x ∈ W , f vérifie les conditions du lemme précédent, alors f|W est un
difféomorphisme sur f (W ).
Pour démonstrer le théorème d’inversion, il suffit donc de montrer que ses hypothèeses
entraı̂nent que f est un homéomorphisme local en a. Notons que la proposition 4.1 assure que
f et f −1 sont de la même classe de différentiabilité.
Preuve du théorème 4.4 : On peut supposer que f (a) = a = 0 et Df (a) = IdRn . En effet,
il suffit de remplacer f (x) par h(x) = [Df (a)]−1 [f (a + x) − f (a)] et de remarquer que f est
difféomorphisme local en a si et seulement si h est difféomorphisme local en 0.
Par la continuité de Df , il existe r > 0 tel que
1
kxk ≤ r =⇒ kDf (x) − IdRn k < .
2
En appliquant l’inégalité de la moyenne, on a
kxk
∀x ∈ B(0Rn , r), kx − f (x)k ≤ .
2
Pour tout y ∈ B(0Rn , r/2), et pour kxk ≤ r, on a
kxk
ky + x − f (x)k ≤ kyk + kx − f (x)k ≤ kyk + < r.
2
Alors, y + x − f (x) ∈ B(0Rn , r). On peut donc définir :
On a kDϕ(x)k = kIdRn − Df (x)k < 21 , pour tout x ∈ B̄(0Rn , r), donc ϕ est une contraction
de la boule fermée B̄(0Rn , r). Comme Rn est un espace de Banach, par le théorème du point
fixe, il existe un unique point x ∈ B̄(0Rn , r) tel que :
Mais ϕ prend ses valeurs dans la boule ouverte. Alors, pour tout y ∈ B(0Rn , r/2) il existe un
unique x ∈ B(0Rn , r) tel que y = f (x). Donc, f réalise une bijection, notée g, de
Il est clair que g = f|U est continue. De plus, pour tous x, x0 ∈ B(0Rn , r), on a
1
kf (x) − f (x0 ) − (x − x0 )k = kϕ(x) − ϕ(x0 )k ≤ kx − x0 k,
2
ce qui implique que
kx − x0 k ≤ 2kf (x) − f (x0 )k.
31
Alors, g −1 : V → U est 2-lipschitzienne et donc continue.
La fonction f est C ∞ et on a
y cos(x) sin(x)
J(f )(x, y) = .
2xy x2
Donc det J(f )(x, y) = yx(x cos(x) − 2 sin(x)). Si y 6= 0, x 6= 0 et x cos(x) 6= 2 sin(x), Df (x, y)
est inversible et f détermine un difféomorphisme C ∞ d’un voisinage de (x, y).
Corollaire 4.2 Soit Ω un ouvert de Rn . Si f : Ω → f (Ω) est de classe C 1 , injective et, pour
tout x ∈ Ω, Df (x) ∈ Isom(Rn , Rn ), alors f est un difféomorphisme de Ω sur f (Ω).
où les fi sont des fonctions réelles de variables réelles. En notant x = (x1 , . . . , xn ), y =
(y1 , . . . , yp ) et f = (f1 , . . . , fp ), le système s’écrit :
f (x, y) = 0 ∈ Rp .
32
On suppose Ω ouvert de Rn × Rp et f : Ω → Rp une fonction C 1 . Soient (a, b) ∈ Ω et
Dx f (a, b) ∈ L(Rn , Rp ), Dy f (a, b) ∈ L(Rp , Rp ) les différentielles partielles de f en (a, b) par
rapport à x et y, respectivement, définies par
où
∂f1 ∂f1
∂f1 ∂f1
∂y1 (a, b) ... ∂yp (a, b)
∂x1 (a, b) ... ∂xn (a, b)
.. .. .. ..
Jx f (a, b) = et Jy f (a, b) = .
. . . .
∂fp ∂fp ∂fp ∂fp
∂x1 (a, b) . . . ∂xn (a, b) ∂y1 (a, b) . . . ∂yp (a, b)
sont les matrices des dérivées partielles de f par rapport aux xi (1 ≤ i ≤ n) et aux yj
(1 ≤ j ≤ p), respectivement, en (a, b).
On suppose que les fi sont de classe C k (k ≥ 1) et que det(Jy f (a, b)) 6= 0. Alors, par le
théorème des fonctions implicites, il existe un fonction explicitante ϕ de classe C k à valeurs
dans Rp telle que y = ϕ(x). En posant ϕ = (ϕ1 , . . . , ϕp ), x = (x1 , . . . , xn ) et y = (y1 , . . . , yp )
on peut écrire :
y1 = ϕ1 (x1 , . . . , xn )
y2 = ϕ2 (x1 , . . . , xn )
..
.
yp = ϕp (x1 , . . . , xn )
Cet énoncé admet une variante dans laquelle la condition initiale f (a, b) = 0 est remplacée
par f (a, b) = c. Dans ce cas, la fonction explicitante dépend différentiablement de c.
33
Le premier théorème est en certain sens un cas particulier du second.
Dg(a, b)(h, k) = (h, Df (a, b)(h, k)) = (h, Dx f (a, b)(h) + Dy f (a, b)(k)).
[Dg(a, b)]−1 (h0 , k 0 ) = (h0 , [Dy f (a, b)]−1 (k 0 − Dx f (a, b)(h0 ))).
Preuve du Théorème 4.5 : On raisonne comme pour le Théorème 4.6. En particulier, pour
z = 0, on a
(x, y) ∈ U, f (x, y) = 0 ⇐⇒ (x, z) ∈ W, y = ϕ1 (x, 0).
En notant j : Rn → Rn × Rp l’injection j(x) = (x, 0), ϕ = ϕ1 ◦ j et V = j −1 (W ) (qui est un
ouvert de Rn contenant a), on obtient
∀x ∈ V, f (x, ϕ(x)) = 0.
Remarque. L’existence de Dϕ(x) sur V est donnée par le théorème 4.5. Il est inutile d’ap-
prendre une formule, mais bien plus profitable de retenir une formule : différencier les relations
qui vérifient les fonctions implicites.
On sait que, pour tout x = (x1 , . . . , xn ) ∈ V et tout 1 ≤ j ≤ p,
fj (x1 , . . . , xn , y1 , . . . , yp ) = 0,
c’est-à-dire
fj (x1 , . . . , xn , ϕ1 (x1 , . . . , xn ), . . . , ϕp (x1 , . . . , xn )) = 0,
34
Alors, pour tout 1 ≤ i ≤ n, on a
p
∂fj X ∂fj ∂ϕk
(x, ϕ(x)) + (x, ϕ(x)) (x) = 0.
∂xi ∂xk ∂xi
k=1
35
Donc, pour tout t ∈ I,
Pour t = 0, on a
1 − y 0 (0) = 0 x0 (0) = 0
⇐⇒ .
x0 (0) = 0 y 0 (0) = 1
36
5 Sous-variétés dans Rn
5.1 Sous-variétés
Quoi de commun à la parabole d’équation
y = x2 ,
à l’ovale de Cassini
(x2 + y 2 )2 = x2 − y 2 + 1,
à l’ellipse
x = a cos t, y = b sin t,
les trois appelés courbes de R2 ? Quoi de commun au paraboloı̈de hyperbolique
z = xy,
au cylindre
x2 + y 2 − x = 0,
au tore
x = (2 + cos ϕ) cos θ, y = (2 + cos ϕ) sin θ, z = sin ϕ,
appelés surfaces de R3 ?
La réponse est dans l’aspect local de ces sous-ensembles de R2 (res-
pectivement R3 ) qui est celui d’une droite (respectivement un plan) que l’on aurait déformé.
L’application
F : (x, y) 7−→ (u, v) = (x, y − x2 ),
d’inverse
F −1 : (u, v) 7−→ (x, y) = (u, v + u2 ),
est un difféomorphisme de classe C ∞ de R2 sur lui-même, qui transforme la parabole y = x2
en la droite v = 0.
Il peut sembler facile d’aplatir une parabole... Pourtant, ce serait impossible pour les
ensembles définis par y = |x| ou par x3 − y 3 = 0. La première courbe est lisse à l’origine, les
autres pas, au sens de la définition suivante.
Définition 5.1 Soient M un sous-ensemble de Rn , a ∈ M . On dit que M est lisse en a de
dimension p ≤ n, s’il existe un voisinage ouvert U de Rn et un difféomorphisme ϕ : U −→
V ⊂ Rn tels que
ϕ(U ∩ M ) = V ∩ (Rp × {0Rn−p }).
On dit que M est une sous-variété de dimension p ≤ n de Rn si M est lisse (de dimension
p) en chacun de ses points.
Si le difféomorphisme est de classe C k , M est dite C k -sous-variété.
Une sous-variété se ramène (localement) à une droite, ou un plan, etc., par simple chan-
gement de coordonnées. Par définition, les notions de “lisse en un point”, “sous-variété”, sont
invariantes par difféomorphisme : si ϕ est un difféomorphisme de Rn , M est lisse en a (de
dimension p) si et seulement si ϕ(M ) est lisse en ϕ(a) (de dimension p).
On appelle courbe lisse, surface lisse, hypersurface lisse, une sous-variété de dimension 1,
resp. 2, resp. n − 1, de Rn .
Pour vérifier que certains sous-ensembles de Rn sont des sous-variétés, nous utilisons
essentiellement l’équation d’une sous-variété, notion précisée dans l’énoncé suivant.
37
Théorème 5.1 Soit Ω un ouvert de Rn et g : Ω → Rk une application C 1 avec k < n. On
suppose que, pour tout x ∈ Ω, Dg(x) est surjective (on dit que g est une submersion C 1 sur
Ω). Alors, le sous-ensemble M = g −1 ({0Rk }) est une sous-variété de dimension n − k de Rn .
On dit que g(x) = 0 est l’équation de la sous-variété M .
Nous admettons qu’une sous-variété peut toujours être globalement définie par une équation.
Exemples :
1. La sphère unité de Rn+1 , notée S n , est une sous-variété de dimension n définie par
l’équation :
g(x1 , . . . , xn+1 ) = x21 + . . . + x2n+1 − 1 = 0.
La différentielle de g a pour jacobienne :
qui s’annule seulement à l’origine, point n’appartenant pas à S n = g −1 (0). Toutes les
autres sphères de Rn+1 (de rayon > 0) se déduisent par un difféomorphisme global et
sont donc également des sous-variétés de dimension n.
2. Les cylindres dans R3 dont le modèle a pour équation x2 + y 2 − 1 = 0, sont des sous-
variétes de dimension 2.
Les sous-variétés peuvent aussi être caractérisées comme les images d’applications parti-
culières : les imersions f : O → Rn (c’est-à-dire f : O → Rn différentiable, avec O ouvert de Rp
et p < n, et telle que, pour tout x ∈ Ω, Df (x) est injective), qui réalisent un homéomorphisme
de Ω sur leur image f (Ω) munie de la topologie induite.
Théorème 5.2 Une partie M de Rn est une sous-variété de dimension p si et seulement si,
en tout point x ∈ M , il existe une immersion h : O → U d’un ouvert de Rp dans un voisinage
ouvert U de x telle que h réalise un homéomorphisme de O sur h(O) = U ∩ M . Une telle
immersion est un système de coordonnées locales ou encore une paramétrisation locale de M .
Remarque. L’hypothèse que h réalise un homéomorphisme sur son image, empêche une
situation de point double de se produire.
Il faut généralement plusieurs systèmes de coordonnées locales pour recouvrir une sous-
variété.
Par exemple, les coordonnées sphériques :
π π
(θ, φ) ∈]0, 2π[×] − , [7→ (R cos(θ) cos(φ), R sin(θ) cos(φ), R sin(φ)),
2 2
définissent une paramétrisation pour la sphère de rayon R. Il fautp quatre ouverts de définition
différentes pour récouvrir la sphère. Également, (x, y) 7→ (x, y, 1 − x2 − y 2 ) est un système
de coordonnées locales pour la sphère unité.
38
5.2 Espace tangent
Intuitivement, l’espace tangent à une sous-variété est formé des vitesses de courbes tracés
sur la sous-variété.
Définition 5.2 Étant donné une sous-variété M définie par une équation g(x) = 0 (où
g satisfait les hypothèses du théorème précédent), on appelle espace tangent à M au point
x ∈ M , le sous-espace vectoriel ker Dg(x). On le note Tx (M ). Le sous-espace affine tangent
en x est défini par x + ker Dg(x).
0 = g(x) = Dg(a)(x − a) + . . . ,
Dg(a)(x − a) = 0,
5.3 Surfaces de R3
Soit f : R3 → R une fonction de classe C 1 telle que, pour tout (a, b, c) de l’ensemble S
d’équation f (x, y, z) = 0,
∂f
(a, b, c) 6= 0.
∂z
Alors S est une sous-variété de dimension 2 de R3 que l’on appelle surface de R3 .
L’application F définie sur R3 par
39
Donc DF (a, b, c) est inversible, et le théorème d’inversion locale montre que F est un difféomorphisme
d’un voisinage V de (a, b, c) sur un voisinage W de F (a, b, c) = (a, b, 0). Alors, en notant
(u, v, w) = F (x, y, z),
(x, y, z) ∈ S ∩ V ⇐⇒ (u, v, w) ∈ W et w = 0.
Le changement de variables F transforme S (au voisinage du point considéré) en le plan
w = 0, donc S est lisse de dimension 2 en tout point de S ∩ V .
Soit (a, b, c) ∈ S. Alors (X, Y, Z) ∈ R3 est tangent en (a, b, c) à S si et seulement si
∂f ∂f ∂f
(a, b, c)X + (a, b, c)Y + (a, b, c)Z = 0.
∂x ∂y ∂z
C’est l’équation du plan vectoriel tangent à S en (a, b, c) (noyau de l’application linéaire
Df (a, b, c)). L’hypothèse ∂f
∂z (a, b, c) 6= 0 signifie que ce plan n’est pas vertical.
5.4 Courbes de R3
Soient f, g : R3 −→ R deux fonctions de classe C 1 . Soit C l’ensemble défini par
f (x, y, z) = 0, g(x, y, z) = 0.
On suppose que, pour tout (a, b, c) ∈ C,
∂f ∂g ∂f ∂g
(a, b, c) (a, b, c) − (a, b, c) (a, b, c) 6= 0. (6)
∂y ∂z ∂z ∂y
Alors, C est une sous-variété de dimension 1 de R3 que l’on appelle courbe de R3 .
L’application F définie sur R3 par
F (x, y, z) = (x, f (x, y, z), g(x, y, z)) = (u, v, w),
est un difféomorphisme local qui transforme C en la droite v = w = 0
En effet, F est de classe C 1 sur R3 et
1 0 0
∂f ∂f ∂f
DF = ∂x ∂y ∂z .
∂g ∂g ∂g
∂x ∂y ∂z
C’est l’équation de la droite vectorielle tangente en (a, b, c) à C, intersection des plans vecto-
riels tangents aux deux surfaces f = 0, g = 0. L’hypothèse (6) signifie que ces deux plans se
coupent selon une droite non parallèle au plan Y OZ (c’est-à-dire X 6= 0).
40
5.5 Extrema liés – Multiplicateurs de Lagrange
Des nombreuses questions peuvent nous conduire à rechercher les extremums d’une fonc-
tion de plusieurs variables, sachant que ces variables sont “liées” par certaines relations ou
sous contraintes. Nous allons nous intéresser aux extrema de la restriction à une sous-variété
d’une fonction différentiable.
Dans la suite de ce paragraphe, on établit une condition nécessaire pour qu’en un point a
de A la fontion f|A admette un minimum relatif ou un maximum relatif.
Rappel d’algèbre linéaire. Soient E, F et G espaces vectoriels et deux applications
u ∈ L(E, F ), v ∈ L(E, G), on a l’équivalence :
Contraintes d’égalité.
Soit Ω ouvert de Rn , f : Ω → R de classe C 1 et g : Ω → Rk différentiable, avec k ≤ n. On
note g = (g1 , . . . , gk ). On suppose que, pour tout x ∈ M = g −1 ({0}), Dg(x) est surjective.
Alors, M est sous-variété de dimension n − k de Rn .
Notons que x ∈ M = g −1 ({0}) si les k contraintes d’égalité sont vérifiées :
g1 (x) = 0, . . . , gk (x) = 0.
Théorème 5.4 Soit la sous-variété définie par M = g −1 ({0}). Si a ∈ M est un point d’ex-
tremum de f|M , il existe alors k multiplicateurs de Lagrange tels que :
Preuve : Si a est un extremum de f|M , pour tout courbe c tracée sur M et passant par
c(0) = a, f ◦ c admet 0 comme extremum. Donc, c0 (0) ∈ ker Df (a). Mais le théorème 5.3
affirme que tout vecteur de ker Dg(a) est de la forme c0 (0), alors
41
Définition 5.4 On appelle fonction de Lagrange ou Lagrangien associée à la fonction f et à
la sous-variété M = g −1 ({0}), la fonction définie par :
x = (x1 , . . . , xk ) ∈ Rk , λ = (λ1 , . . . , λk ).
Remarques :
1. Nous pouvons dire que la recherche des minima ou maxima liés de f , pour la liaison
g(x) = 0 (contrainte d’égalité), se ramène à la recherche des minima ou maxima relatifs
(au sens usuel) de la fonction de Lagrange L = f − (λ1 g1 + . . . + λk gk ). Il faut remarquer
que les multiplicateurs de Lagrange λ1 , . . . , λk ne sont pas connus d’avance. Ils seront
déterminés au même temps que le point a, grâce à la résolution des équations :
Df (a) − (λ1 Dg1 (a) + . . . + λk Dgk (a)) = 0
g(a) = 0
3. Le théorème précédent nous donne uniquement l’ensemble des points candidats à point
d’extremum de f sur M (c’est-à-dire, sous la contrainte d’égalité g(x) = 0). Comme
dans le cas d’un problème d’extremums sans contrainte, pour déterminer la solution
il faut établir des conditions suffisantes (du second ordre) permettant d’identifier les
maxima et minima de f sur M parmi l’ensemble des points satisfaisant la condition
nécessaire (du premier ordre - théorème 5.4).
2 −y 2
Exemple : On considère la fonction f définie sur R2 par f (x, y) = (x2 + y 2 )ex . On
calcule les extrema de f sur le cercle C = {(x, y) ∈ R2 : x2 + y 2 = 2}.
On pose g(x, y) = x2 + y 2 − 2. On a
Alors, Dg(x, y) : R2 → R est surjective pour tout (x, y) ∈ R2 \ {0R2 }. On conclut que
C = g −1 ({0R2 } est une sous-variété de dimension 1 de R2 . D’autre part, C est un fermé borné
de R2 et donc C est un compact de R2 . Alors, f (étant une fonction continue sur R2 ) admet
un maximum et un minimum global sur C.
Soit L la fonction de Lagrange définie par :
2 −y 2
L(x, y, λ) = f (x, y) − λg(x, y) = (x2 + y 2 )ex − λ(x2 + y 2 − 2).
42
On a : 2 2 2 2
2x(1 + x2 + y 2 )ex −y − λ2x = 0 x = 0 ou λ = 3ex −y
2 2 2 2
2y(1 − x2 − y 2 )ex −y − λ2y = 0 ⇐⇒ y = 0 ou λ = −ex −y
2
x + y2 = 2
2
x + y2 = 2
√ √ √ √
−2 ), (0, − 2, −e−2 ), ( 2, 0, 3e2 ) et (− 2, 0, 3e2 ).
Les points critiques
√ de L sont
√ : (0, 2, −e √ √ √
De plus,√f (0, 2) = f (0, − 2) = 2e−2 et f ( 2, 0) = f (− √ 2, 0) = 2e2 >√2e−2 . Donc, (0, 2)
et (0, − 2) sont points de minimum absolu de f sur C, ( 2, 0) et (− 2, 0) sont points de
maximum absolu de f sur C.
Le théorème suivant donne des conditions suffisantes pour qu’un point a ∈ M soit un
point d’extremum local de f sur la sous-variété M .
Les conditions (7) et (8) stipulent que la forme quadratique associée à la matrice hessienne
par rapport aux variables (x1 , . . . , xn ) du Lagrangien en (a, λ̄) est respectivement définie
négative et positive sur l’hyperplan tangent à M au point a. Le théorème suivant, donne deux
conditions suffisantes du secon ordre plus faciles à vérifier que (7) et (8) et qui impliquent
celles-ci.
43
Remarque. La matrice bordée B au point (a, λ̄) est une matrice carrée d’ordre (k+n)×(k+n)
et elle est donnée par :
∂g1 ∂g1
0 ··· 0 ∂x1 (a) · · · ∂xn (a)
.. .. .. .. .. ..
. . . . . .
∂gk ∂gk
0 ··· 0 (a) · · · (a)
∂x1 ∂xn
B = ∂g1
∂gk 2
∂ L 2
∂ L
.
∂x1 (a) · · · ∂x1 (a) ∂x21
(a, λ̄) · · · ∂xn ∂x1 (a, λ̄)
.
.. . .. .
.. .
.. . .. .
..
∂g1 ∂gk ∂2L ∂2L
∂xn (a) · · · ∂xn (a) ∂x1 ∂xn (a, λ̄) · · · ∂x2
(a, λ̄)
n
On vérifie facilement que ∇L(x, y, µ) = (0, 0, 0) si et seulement si (x, y, µ) = (8, 2, 2). Finale-
ment,
∂h ∂h
0 ∂x ∂y 0 1 4
2
∂ L ∂2L
B(8, 2, 2) = ∂h
∂x ∂x2 ∂x∂y (8, 2, 2) = 1 0 1 = 8 > 0.
∂h ∂2L ∂2L 4 1 0
∂y ∂y∂x2 ∂y
Contraintes d’inégalité.
Soient Ω ouvert de Rn , f : Ω → R et gi : Rn → R avec i = 1, . . . , k, des fonctions d’au
moins classe C 1 sur Rn . Soit b = (b1 , . . . , bk ) ∈ Rk et D l’ensemble de points respectant les k
contraintes d’inégalité :
D = {x ∈ Rn : g1 (x) ≤ b1 , . . . , gk (x) ≤ bk }.
Soit (x̄, ȳ) un maximum ou minimum local de f sur l’ensemble D. Deux cas sont possibles :
g(x̄, ȳ) = b ou g(x̄, ȳ) < b.
44
Dans le premier cas, g(x̄, ȳ) = b, on dit que la contrainte est saturée en (x̄, ȳ). Comme dans
le cas d’une contrainte d’égalité, la courbe de niveau f (x, y) = f (x̄, ȳ) est tangente en (x̄, ȳ)
à la courbe répresentant l’ensemble {(x, y) ∈ R2 : g(x, y) = b}. Donc, les vecteurs gradients
∇f (x̄, ȳ) et ∇g(x̄, ȳ) ont la même direction en (x̄, ȳ), c’est-à-dire qu’il existe λ̄ ∈ R tel que
∇f (x̄, ȳ) = λ̄∇g(x̄, ȳ). (11)
De plus, puisque le vecteur gradient d’une fonction admet comme direction celle pour laquelle
la fonction s’accroı̂t le plus rapidement, les vecteurs gradients ∇f (x̄, ȳ) et ∇g(x̄, ȳ) doivent
s’orienter dans le même sens si (x̄, ȳ) est un point de maximum et dans le sens opposé si (x̄, ȳ)
est un point de minimum. Donc, le multiplicateur de Lagrange dans (11) doit vérifier λ̄ ≥ 0
si (x̄, ȳ) est un point de maximum et λ̄ ≤ 0 si (x̄, ȳ) est un point de minimum.
Dans le cas g(x̄, ȳ) < b, on dit que la contrainte n’est pas saturée en (x̄, ȳ) et le point (x̄, ȳ)
est un point de maximum ou minimum local sans contraintes car il appartient à l’ensemble
ouvert {(x, y) ∈ R2 : g(x, y) < b}. Il doit donc vérifier
∇f (x̄, ȳ) = (0, 0),
et les dérivées de g n’interviennent pas dans la caractérisation de (x̄, ȳ).
On obtient le théorème suivant.
45
est maximal et donc égal à k0 . Alors, il existe un unique λ̄ = (λ̄1 , . . . , λ̄k ) ∈ Rk tel que
∂L
(x̄, λ̄) = 0, i = 1, . . . , n,
∂xi
et
λ̄j (gj (x̄) − bj ) = 0, j = 1, . . . , k,
avec λ̄j ≥ 0 pour tout j = 1, . . . , k, si x̄ est un point de maximum et λ̄j ≤ 0 pour tout
j = 1, . . . , k, si x̄ est un point de minimum.
Remarque. Dans les théorèmes précédents, le signe des multiplicateurs de Lagrange est lié
aux inégalités définies pas les k contraintes
gi (x) ≤ bi i = 1, . . . , k.
gi (x) ≥ bi i = 1, . . . , k,
Si λ = 0, alors (x, y) = (0, 0). Mais la fonction f atteint des valeurs positives et négatives en
toute boule centrée en (0, 0). Donc, (0, 0) est un point selle.
Si λ 6= 0, alors la contrainte est saturée, c’est-à-dire x2 + y 2 = 1, et
y x
λ= = .
2x 2y
Alors, les points critiques de L sont :
√ √ √ √ √ √ √ √
2 2 1 2 2 1 2 2 1 2 2 1
( , , ), (− ,− , ), ( ,− , − ), (− , , − ).
2 2 2 2 2 2 2 2 2 2 2 2
Comme la contrainte est saturée en ces points, les conditions
√ √ suffisantes
√ du
√ second ordre pour
des contraintes d’égalité impliquent que les points ( 22 , 22 ) et (− 22 , − 22 ) sont deux points
√ √ √ √
2 2 2 2
de maximum de f sur D et que ( 2 ,− 2 ) et (− 2 , 2 ) sont deux points de minimum de f
sur D.
46
Références
[1] R. Abraham, J. Marsden, Fondations of mechanics, 2nd edition, Benjamin, New York,
1978.
[2] G. Auliac, J. Y. Caby, Mathématiques, topologie et analyse, Editions EdiScience, 2007.
[3] A. Avez, Calcul différentiel, Masson, 1983.
[4] M. Berger, B. Gostiaux, Géométie différentielle, Armand Colin, Paris, 1971.
[5] H. Cartan, Cours de calcul différentiel, Hermann, Éditeurs des Sciences et des Arts, 1967.
[6] F. Cottet-Emard, Calcul différentiel et intégral, De Boeck, 2007.
[7] J. Dieudonné, Éléments d’analyse, Tome 1, Gauthiers-Villars, Paris, 1968.
[8] P. Donato, Calcul différentiel pour la licence, Dunod, Paris, 2000.
[9] J. M. Souriau, Calcul linéaire, Tomes I et II, Jacques Gabay Éditeur, Paris, 1998.
[10] J. Stewart, Analyse : concepts et contextes, Volume 2 : Fonctions de plusieurs variables,
De Boeck University, 2001.
47
Fonctions convexes et fonctions concaves‘
On dit qu’un ensemble A de Rn est convexe si et seulement si pour tout λ ∈ [0, 1] et tout
point x, y ∈ A on a λx + (1 − λ)y ∈ A. Cela signifie que le segment d’extrémités x et y est
entièrement contenu dans A.
Une fonction définie sur un sous-ensemble convexe A de Rn est convexe si, pour tout
λ ∈ [0, 1] et tout point x, y ∈ A on a
De même, une fonction définie sur un sous-ensemble convexe A de Rn est concave si, pour
tout λ ∈ [0, 1] et tout point x, y ∈ A on a
La condition (12) (respectivement, (13) dit qu’une fonction de classe C 1 est convexe
(respectivement, concave) si et seulement si le plan tangent au graphe de la fonction est
toujours au dessous (respectivement, au-dessus) du graphe.
On peut démontrer facilement l’existence d’un minimum absolu pour une fonction convexe
et l’existence d’un maximum absolu pour une fonction concave.
48