0% ont trouvé ce document utile (0 vote)
38 vues21 pages

Calcul différentiel et géométrie des surfaces

Ce document est un polycopié sur le calcul différentiel, les courbes et surfaces, destiné aux étudiants en Licence de Mathématiques à l'Université Lyon 1. Il couvre des concepts fondamentaux tels que les définitions de la différentiabilité, les dérivées partielles, et les théorèmes liés aux fonctions implicites et à l'inversion locale. Le document aborde également les courbes et surfaces paramétrées ainsi que des éléments d'optimisation.

Transféré par

Obi Wang
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
38 vues21 pages

Calcul différentiel et géométrie des surfaces

Ce document est un polycopié sur le calcul différentiel, les courbes et surfaces, destiné aux étudiants en Licence de Mathématiques à l'Université Lyon 1. Il couvre des concepts fondamentaux tels que les définitions de la différentiabilité, les dérivées partielles, et les théorèmes liés aux fonctions implicites et à l'inversion locale. Le document aborde également les courbes et surfaces paramétrées ainsi que des éléments d'optimisation.

Transféré par

Obi Wang
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Calcul différentiel, courbes et surfaces

Licence de Mathématiques
Université Lyon 1

Filippo Santambrogio
ce poly se base partiellement sur le poly de Calcul Différentiel et Analys Complexe de Dragoş Iftimie

Table des matières


1 Calcul différentiel 2
1.1 Définitions et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Le cas de la dimension finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Dérivées partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Matrice jacobienne et gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Continuité des dérivées partielles et différentiabilité . . . . . . . . . . . . . . . 5
1.3 Inégalité des accroissements finis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Dérivées d’ordre deux et supérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5 Théorème d’inversion locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6 Théorème des fonctions implicites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Courbes et surfaces paramétrées 11


2.1 Définitions et représentation implicite . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Courbes parametrées : longueur, courbure et torsion . . . . . . . . . . . . . . . . . . . 12
2.2.1 Longueur et paramétrisation par longueur d’arc . . . . . . . . . . . . . . . . . 12
2.2.2 Allure d’une courbe plane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Remarques sur les courbes gauches . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Gédoésiques sur la sphère et sur d’autres surfaces . . . . . . . . . . . . . . . . . . . . 14
2.4 Première et seconde formes fondamentales . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Éléments d’optimisation 17
3.1 Existence du minimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Conditions nécessaires d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Algorithmes itératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Miseà jour le 9 avril 2024.


1 Calcul différentiel
Soient (E, k · kE ) et (F, k · kF ) deux espaces vectoriels normés sur R ou C. Pour simplifier la
notation, on ne mettra pas d’indiceà la norme k · k lorsqu’il n’yp a pas de risque de confusion. Dans
le cas de Rn on utilisera toujours la norme euclidienne kxk = x21 + x22 + · · · + x2n .

1.1 Définitions et premières propriétés


Définition 1.1. Soit U un ouvert de E, a ∈ U et f : U → F . On dit que f est différentiable en a
s’il existe une application linéaire et continue L : E → F telle que

f (a + h) = f (a) + L(h) + o(khk) quand h → 0.


X
(On a utilisé la notation habituelle X = o(khk) ssi khk
→ 0 quand h → 0.)

Remarques.
a) Pour pouvoir étudier la différentiabilité d’une fonction en un point il faut que la fonction soit
définie au voisinage de ce point.
b) La notion de différentiabilité ne change pas quand on remplace les normes de E et F par des
normes équivalentes.
c) En dimension finie le théorème de Riesz affirme que toutes les normes sont équivalentes. Par
conséquent, si E et F sont de dimension finie alors la notion de différentiabilité ne change pas
quand on change les normes de E et F .
d) En dimension finie, il est également vrai que toutes les applications linéaires sont continues.
On n’a donc pas à se soucier de la continuité de L dans la définition de différentiabilité.

Proposition 1.2. L’application linéaire et continue L qui apparaît dans la définition 1.1 est unique.
On appelle L la différentielle de f au point a et on note L = Df (a) ou encore L = f 0 (a) lorsqu’il n’y
a pas de risque de confusion avec la dérivée usuelle.

Proposition 1.3. Une fonction différentiable en a est continue en a.

Proposition 1.4. Si E = F = R, alors une fonction f est différentiable en un point a si et seulement


si elle est dérivable. De plus, la différentielle Df (a) est l’application linéaire et continue donnée par
la multiplication par la dérivée f 0 (a) :

Df (a)(h) = hf 0 (a).

Exemples.
a) Toute application linéaire et continue entre deux espaces normés est différentiable en tout
point et sa différentielle en un point arbitraire est elle-même.
b) L’application f : R2 → R, f (x) = x1 x2 est différentiable en tout point et sa différentielle est
donnée par
Df (a)(h) = a1 h2 + a2 h1 .
c) Soient E1 , E2 et F des espaces normés, B : E1 × E2 → F une application bilinéaire et continue
(i.e. kB(x1 , x2 )k ≤ Ckx1 kkx2 k). Alors B est différentiable en tout point et DB(a)(h) =
B(a1 , h2 ) + B(h1 , a2 ).
d) Soit E l’espace des fonctions continues sur [0, 1]à valeurs dans R muni de la norme k · k∞ .
R1 R1
L’application T : E → R, T (f ) = f 2 est partout différentiable et DT (f )(h) = 2 f h.
0 0
Nous avons que la composition de deux applications différentiables est différentiable et la diffé-
rentielle de la composition est la composition des différentielles.
Proposition 1.5. Soient E, F et G trois espaces normés, U un ouvert de E, V un ouvert de F ,
f : U → F et g : V → G. On suppose que f est différentiable en a ∈ U , que f (a) ∈ V et que g est
différentiable en f (a). Alors g ◦ f est différentiable en a et

D(g ◦ f )(a) = Dg(f (a)) ◦ Df (a).

Remarque. Cet énoncé concernant la composition peut être utilisé avec l’exemple b) ci-dessus pour
prouver que le produit de deux fonctions différentiables (à valeur dans R) est aussi différentiable
et retrouver la formule usuelle pour sa différentielle. D’autre part, la somme de deux fonctions
différentiables (à valeur dans un même espace vectoriel normé arbitraire ) est aussi différentiable
et sa difféntielle est la somme des deux difféntielles, ce qui prouve qu’on peut finalement traiter
toutes les fonctions construites à partir des fonctions usuelles.
Définition 1.6. Soit U un ouvert de E, a ∈ U , v ∈ E et f : U → F . On dit que f admet au point
a une dérivée directionnelle dans la direction v, et on la note par ∂f
∂v
(a), si la limite suivante existe :

∂f f (a + εv) − f (a)
(a) = lim .
∂v ε&0 ε
∂f
En d’autres termes, la dérivée directionnelle ∂v
(a) est la dérivéeà droite en 0 de la fonction t 7→
f (a + tv).
Proposition 1.7. Si f est différentiable en a alors f admet des dérivées directionnelles en a suivant
toute direction et nous avons de plus que
∂f
(a) = Df (a)(v).
∂v

Exemples.
a) L’existence des dérivées directionnelles suivant toute direction n’entraîne pas forcément la
différentiabilité de la fonction. Ni même la continuité. La fonction f : R2 → R

2
1 si y ≥ x

f (x, y) = 1 si y ≤ 0

0 sinon

admet des dérivées directionnelles en 0 qui sont nulles en toute direction. Mais f n’est pas
continue en 0, et a fortiori n’est pas différentiable en 0.
b) Même si la fonction est continue et que toutes ses dérivées directionnelles existent en un point
cela n’implique toujours pas que la fonction est différentiable. La fonction f : R2 → R
( 2 2
x(x −3y )
x2 +y 2
si (x, y) 6= (0, 0)
f (x, y) =
0 si (x, y) = (0, 0)

est continue en 0 et toutes ses dérivées directionnelles en 0 existent :


∂f
(0) = f (v) ∀v ∈ R2 .
∂v
Elle n’est cependant pas différentiable en 0 car les dérivées directionnelles en 0 ne sont pas
linéaires en v.
1.2 Le cas de la dimension finie
On passe maintenant au cas de la dimension finie. Plus précisément, on suppose dans cette partie
que E est de dimension finie : E = Rn .

1.2.1 Dérivées partielles


Définition 1.8. Soit U un ouvert de Rn , a ∈ U et f : U → F . On dit que f admet au point a une
dérivée partielle par rapportà la variable xj si la fonction suivante
t 7→ f (a1 , a2 , . . . , aj−1 , t, aj+1 , . . . , an )
est dérivable en t = aj . Sa dérivée partielle par rapportà la variable xj est la valeur de cette dérivée,
∂f
et on la note par ∂x j
(a).
Ainsi, cette dérivée partielle est également donnée par la limite suivante (si elle existe, sinon la
fonction f n’admet pas de dérivée partielle) :
∂f f (a + εej ) − f (a)
(a) = lim
∂xj ε→0 ε
où on a noté par ej le j-ème élément de la base canonique de Rn : toutes les composantes de ej sont
nulles sauf la j-ème qui est égaleà 1.
La différentielle peut s’exprimer en fonction des dérivées partielles de la manière suivante.
Proposition 1.9. Soit U un ouvert de Rn , a ∈ U et f : U → F une fonction différentiable en a.
Alors n
X ∂f
Df (a)(h) = hj (a).
j=1
∂x j

On peut se demander quelle est la relation entre dérivées partielles et dérivées directionnelles
et si l’existence des unes implique l’existence des autres. On remarque d’abord que les dérivées
directionnelles concernent toutes les directions, et pas seulement celles des axes coordonnés. On
pourrait donc penser que l’existence de toutes les dérivées directionnelles implique celles de toutes les
dérivées partielles, mais ce n’est pas le cas à cause d’une subtilité : les dérivées directionnelles ne sont
pas définies comme une limite pour ε → 0, mais seulement d’un côté (ε → 0+ ) ; elles correspondent
donc à une dérivée droite ou gauche seulement ; il serait donc possible que la restriction d’une fonction
aux axes cordonnées passant par un point admette des dérivées droite et gauche mais différentes, et
donc pas de dérivée tout court. On peut considérer les deux exemples suivants.

Exemples.
a) L’existence des dérivées directionnelles suivant toute direction n’entraîne pas forcément celle
des dérivées partielles. La fonction f : Rn → R donnée par f (x) := ||x|| (en utlisant, par
exemple, la norme euclidienne) admet des dérivées directionnelles en a = 0 données par
∂f
∂v
(0) = ||v|| mais chaque fonction t 7→ f (a1 , a2 , . . . , aj−1 , t, aj+1 , . . . , an ) coïncide avec |t| et
n’est donc pas érivable en t = 0 = aj .
b) L’existence des dérivées partielles n’entraine pas non plus celle des dérivées directionnelles,
comme on peut voir dans l’exemple suivant d’une fontion f : R2 → R.
(
0 si xy = 0
f (x, y) =
1 si xy 6= 0
Comme la restriction de f à chaque axe cordonnée passant par l’orogine a = (0, 0) est la
fonction nulle, les dérivées partielles existent et sont nulles. D’autre part, si on prend un
vecteur v qui n’est pas orienté comme les axes (par exemple v = (1, 1)) on a f (a + εv) = 1 et
f (a) = 0, ce qui entraine que la limite définissant ∂f
∂v
(0) vaut +∞ et la fonction n’admet donc
pas de dérivées dirctionnells sauf pour certains v.
1.2.2 Matrice jacobienne et gradient
Supposons maintenant que F est lui aussi de dimension finie : F = Rm . Une fonction f à valeurs
dans F admet m composantes  
f1
 f2 
f =  .. 
 
 . 
fm
Comme la limite dans Rm se fait composante par composante et que les dérivées partielles sont
définies via une limite, nous avons que f admet des dérivées partielles ssi chaque composante de f
admet des dérivées partielles et la dérivée partielle de f s’obtient en prenant les dérivées partielles
des composantes.
La différentielle est une application linéaire de Rn dans Rm . Elle s’identifie doncà une matrice.
On peut exprimer cette matrice en fonction des dérivées partielles des composantes de f .
Proposition 1.10. Soit U un ouvert de Rn , a ∈ U et f : U → Rm une fonction différentiable en a.
La matrice de Df (a) dans les bases canoniques de Rn et Rm est donnée par la matrice suivante
 ∂f1 ∂f1 ∂f1 
∂x1
(a) ∂x 2
(a) . . . ∂x n
(a)
 ∂f   ∂f2 (a) ∂f2 (a) . . . ∂f2 (a) 
i  ∂x1 ∂x2 ∂xn
Mf (a) = (a) 1≤i≤m =  .

∂xj  . . .
. .
. 
1≤j≤n . . 
∂fm
∂x1
(a) ∂fm
∂x2
(a) . . . ∂f
∂xn
m
(a)

On appelle cette matrice la matrice jacobienne en a.


Une fonction f : R2 → R2 peut aussi être vue comme une fonction définie de C dans C. Nous avons
alors deux notions de différentiabilité. D’une part la notion de différentiabilité sur R2 vu comme un R-
espace vectoriel. Et d’autre part la notion de différentiabilité sur C vu comme un C-espace vectoriel.
Ces deux notions sont-elles les mêmes ? La réponse est non. Plus précisément, la C différentiabilité
implique la R différentiabilité mais la réciproque est fausse. Cela vient du fait qu’une application
linéaire sur C est aussi linéaire sur R2 mais une application linéaire sur R2 ne l’est pas forcément sur
C.
Définition 1.11. Soit U un ouvert de Rn , a ∈ U et f : U → R une fonction différentiable en a. On
appelle gradient de f en a le vecteur ligne
∂f ∂f ∂f 
∇f (a) = (a), (a), . . . , (a) .
∂x1 ∂x2 ∂xn
Le gradient coïncide avec la matrice jacobienne. On peut facilement voir que le gradient est la
direction où f augmente le plus vite.

1.2.3 Continuité des dérivées partielles et différentiabilité


Le critère le plus important pour la différentiabilité d’une fonction est celui de la continuité des
dérivées partielles.
Théorème 1.12. Soit U un ouvert de Rn , a ∈ U et f : U → Rm . On suppose que les dérivées
partielles de f existent dans un voisinage de a et sont continues en a. Alors f est différentiable en a.
Si la continuité des dérivées partielles est une condition suffisante de différentiabilité, ce n’est pas
une condition nécessaire (seule l’existence des dérivées partielles est une condition nécessaire). En
pratique, lorsqu’on veut décider de la différentiabilité d’une fonction concrète (qui a en général des
points de singularité) on peut procéder de la manière suivante :
1. On étudie la continuité de la fonction. Si la fonction n’est pas continue elle n’est pas différen-
tiable.
2. Si la fonction est continue, on étudie l’existence des dérivées partielles. Si au moins une des
dérivées partielles n’existe pas, la fonction n’est pas différentiable.
3. Si la fonction est continue et toutes les dérivées partielles existent, on étudie la continuité
des dérivées partielles. Si toutes les dérivées partielles sont continues alors la fonction est
différentiable.
4. Si la fonction est continue et toutes les dérivées partielles existent mais certaines sont disconti-
nues, il ne reste plus qu’à vérifier la définition de la différentiabilité. Mais l’application linéaire
et continue L de la définition est connue (sa matrice est la matrice des dérivées partielles, la
matrice jacobienne) donc la vérification de la définition est maintenant aisée.

Exemple. La fonction
(
1
2 x2 sin x2 +y 2 si (x, y) 6= (0, 0)
f : R → R, f (x, y) =
0 si (x, y) = (0, 0)
est continue en (0, 0), les dérivées partielles existent partout mais sont discontinues en (0, 0). La
fonction est différentiable en (0, 0) de différentielle nulle.
Cela nous donne l’occasion de discuter la notion de fonction C 1 et plus généralement C k .
Définition 1.13. — Une fonction f : U ouvert de E espace norméà valeurs dans F espace
normé est dite de classe C 1 si elle est différentiable et si sa différentielle Df : U → L (E, F )
est continue.
— Une fonction f : U ouvert de E espace norméà valeurs dans F espace normé est dite de
classe C k , k ≥ 2 si elle est différentiable et si sa différentielle Df : U → L (E, F ) est de
classe C k−1 . Elle est dite de classe C ∞ si elle est de classe C k pour tout k.

1.3 Inégalité des accroissements finis


Commençons par rappeler à nouveau la définition de dérivabilité.
Définition 1.14. Soit I un intervalle de R, E un espace normé et f : I → E. On dit que f est
dérivable en un point t0 de I si la limite
f (t) − f (t0 )
f 0 (t0 ) = lim
t→t0 t − t0
existe.
Pour une fonction d’une variable réelle à valeurs dans un espace normé, les notions de dérivabilité
et différentiabilité coïncident.
Nous rappelons d’abord le théorème des accroissements finis pour des fonctions de R dans R.
Théorème 1.15. Si f : [a, b] → R est une fonction continue, dérivable dans ]a, b[, il existe un point
ξ ∈]a, b[ tel que f 0 (ξ) = (f (b) − f (a))/(b − a).
On voudrait étendre ce théorème au cas multidimensionnel. Première mauvaise surprise : il est
faux même pour des fonctions d’une variable, lorsqu’elles sont à valeur dans Rm , même pour m = 2.
On peut considérer l’exemple suivant
 
cos(t)
[a, b] = [0, 2π], f (t) = .
sin(t)
En effet f (b) − f (a) = 0, mais f 0 (t) ne s’annule jamais comme vecteur (ses composantes s’annulent,
mais pas en un même point).
Lemme 1.16. Soit I un intervalle de R, E un espace normé, f : I → E et t0 ∈ I. La fonction f
est dérivable en t0 si et seulement si elle est différentiable en t0 . De plus, la différentielle en t0 est
l’application linéaire et continue de multiplication par la dérivée f 0 (t0 ) et nous avons

k|Df (t0 )k|L (R,E) = kf 0 (t0 )kE .

Voici l’inégalité des accroissements finis dans un cas particulier.

Lemme 1.17. Soit f : [a, b] → E dérivable. On suppose qu’il existe C tel que kf 0 (t)kE ≤ C pour
tout t ∈ [a, b]. Alors kf (b) − f (a)kE ≤ C|b − a|.

Enfin le cas général :

Théorème 1.18. Soit f : Ω → F où Ω est un ouvert de E et E, F sont des espaces normés. Soient
a, b ∈ Ω tels que le segment [a, b] = {ta + (1 − t)b ; t ∈ [0, 1]} soit inclus dans Ω. On suppose que f
est différentiable en tout point de [a, b] et que la norme de sa différentielle en tout point du segment
est bornée par une constante indépendante du point. Alors nous avons l’inégalité suivante

kf (a) − f (b)kF ≤ ka − bkE sup k|Df (x)k|L (E,F ) .


x∈[a,b]

Corollaire 1.19. Soit f : Ω → F où Ω est un ouvert convexe de E et E, F sont des espaces


normés. On suppose que f est différentiable sur Ω et que sa différentielle est bornée. Alors f est
Lipschitzienne.

Corollaire 1.20. Soit f : Ω → F où Ω est un ouvert connexe de E et E, F sont des espaces normés.
On suppose que f est différentiable sur Ω et que sa différentielle est nulle en tout point. Alors f est
constante.

1.4 Dérivées d’ordre deux et supérieur

On considère une fonction f : Ω → R, avec Ω ⊂ Rn un ouvert (sinon, on peut la regarder


composante par composante, si c’est une fonction à valeurs vectoriels). On a défini son gradient
∇f : Ω → Rn , si cette fonction est différentiable (l’existence des dérivées partielles suffit pour définir
le gradient comme vecteur). On peut regarder la différentielle du gradient en un point x̄ ∈ Ω, c’est
une matrice carrée n × n appelée Hessienne, et notée D2 f (x̄). Ses composantes sont données par les
dérivées secondes  
∂ ∂f
(x̄).
∂xi ∂xj
Un point important est le fait que cette matrice est, sous une simple hypothèse de continuité, symé-
trique :

Théorème 1.21 (Théorème de Schwarz). Soit Ω ⊂ Rn un ouvert, x̄ ∈ Ω, et f : Ω → R une fonction


C 1 dans un voisinage de x̄, telles que ses dérivées partielles admettent aussi des dérivées partielles
par rapport à toutes les variables, et que ces dérivées secondes sont continues en x̄. Alors on a
   
∂ ∂f ∂ ∂f
(x̄) = (x̄).
∂xi ∂xj ∂xj ∂xi

Ce théorème se démontre, entre autre, par une double application du théorème des accroissements
finis pour des fonctions réelles d’une variable réelle. On indiquera désormais par ∂ 2 f /(∂xi ∂xj ) les
dérivées partielles secondes, sans se soucier de l’ordre de dérivation.
Les dérivées secondes servent aussi à donner un développement limité d’ordre deux aux fonctions
de plusieurs variables. Nous rappelons d’abord ce qu’un DL2 dans le cas d’une variable : si f est
C k−1 et qu’elle admet une dérivée k-ème en x̄ on a
k
X 1 (j)
f (x̄ + h) = f (x̄)hj + o(hk )
j=0
j!

lorque h → 0. Si on se limite aux cas k = 1, 2 on a

f 00 (x̄) 2
f (x̄ + h) = f (x̄) + f 0 (x̄)h + o(h), f (x̄ + h) = f (x̄) + f 0 (x̄)h + h + o(h2 ).
2
La première formule se généralise dans le cas de plusieurs variables en
n
X ∂f
f (x̄ + h) = f (x̄) + (x̄)hj + o(|h|),
j=1
∂xj

et ce n’est rien d’autre que la définition de différentielle et son identification avec le produit scalaire
avec le gradient. La deuxième par contre donne le DL que l’on trouve dans cet énoncé (qu’on présente
par simplicité dans le cas C 2 , alors que la différentiabilité du gradient suffirait. . .)

Théorème 1.22. Soit Ω ⊂ Rn un ouvert, x̄ ∈ Ω, et f : Ω → R une fonction C 2 . Alors on a


n n
X ∂f 1 X ∂ 2f
f (x̄ + h) = f (x̄) + (x̄)hj + (x̄)hl hk + o(|h|2 ).
j=1
∂x j 2 l,k=1
∂x l ∂x k

Cela peut également s’écrire sous la forme


1
f (x̄ + h) = f (x̄) + ∇f (x̄) · h + D2 f (x̄)h · h + o(|h|2 )
2
Le développement à l’ordre deux permet de mieux comprendre le rôle de points critiques (ceux où
les gradients s’annule). Pour cela il faut rappeler la notion de matrice (semi)définie positive(négative).

Définition 1.23. Une matrice carrée n × n symétrique A est dit définie positive si Ah · h > 0 pour
tout vecteur h ∈ Rn \ {0}. Cela se produit si et seulement si toutes ses valeurs propres sont stricte-
ment positives.
Une matrice carrée n × n symétrique A est dit semi-définie positive si Ah · h ≥ 0 pour tout vecteur
h ∈ Rn . Cela se produit si et seulement si toutes ses valeurs propres sont non-négatives.
Une matrice carrée n × n symétrique A est dit définie négative si Ah · h < 0 pour tout vecteur
h ∈ Rn \ {0}. Cela se produit si et seulement si toutes ses valeurs propres sont strictement négatives.
Une matrice carrée n × n symétrique A est dit semi-définie négative si Ah · h ≥ 0 pour tout vecteur
h ∈ Rn . Cela se produit si et seulement si toutes ses valeurs propres sont non-positives.

Nous avons le résultat suivant.

Théorème 1.24. Soit Ω ⊂ Rn un ouvert. Si un point x̄ ∈ Ω est un minimum(maximum) local de


f alors ∇f (x̄) = 0 et la matrice D2 f (x̄) est semi-définie positive(négative). Viceversa, si un point
x̄ ∈ Ω est tel que ∇f (x̄) = 0 et la matrice D2 f (x̄) est définie positive(négative) alors il est un
minimum(maximum) local.
Si un point x̄ ∈ Ω est tel que ∇f (x̄) = 0 mais la matrice D2 f (x̄) admet tant des valeurs propres
positives que négatives, alors le point x̄ est un point selle (ou col), c’est-à-dire un point qui minimise
localement f dans une direction et maximise localement dans une autre.
Pour présenter les DL d’ordre supérieur à deux il faut introduire la notaiton des multi-index.
Un multi-index α est un vecteur de Nn ; on a donc α = (α1 , . . . , αn ) avec αi ∈ N pour tout i. Nous
utilisons les notations suivantes
X ∂ αf ∂ |α| f
|α| := αi ; := ; xα := xα1 1 . . . xαnn ; α! := α1 ! . . . αn !.
i
∂xα ∂xα1 1 . . . ∂xαnn

Le résultat concernant les DL à l’ordre m est alors le suivant.


Théorème 1.25. Soit Ω ⊂ Rn un ouvert, x̄ ∈ Ω, et f : Ω → R une fonction C m . Alors on a
Xm X 1 ∂ αf
f (x̄ + h) = α
(x̄)hα + o(||h||m ).
k=0
α! ∂x
α:|α|=k

1.5 Théorème d’inversion locale


On présente d’abord un résultat préliminaire. On rappelle d’abord la définition de homéomor-
phisme.
Définition 1.26. Une fonction f est dite homéomorphisme de U dans V si f est bijective de U dans
V , et f et f −1 sont des applications continues.
On remarque que la définition de continuité, et donc celle de homéomorphisme, ne nécessite pas
la structure d’espace vectoriel normé (des espaces topologiques suffiraient). Dans le cas des espaces
vectoriels, les applications linéaires qui sont des homéomorphismes (et dont la réciproque serait donc
aussi linéaire) jouent un rôle particulier.
Proposition 1.27. L ∈ L(E, F ) est un homéomorphisme si et seulement si
— L est surjective ;
— il existe une constante c > 0 telle que c||h||E ≤ ||L(h)||F pour tout h.
On regarde maintenant la différentielle de l’inverse, qui est l’inverse de la différentielle. Plus
précisément :
Théorème 1.28. Soient E et F deux espaces normés, U un ouvert de E, V un ouvert de F et
f : U → V un homéomorphisme. On suppose que f est différentiable en un point a ∈ U et que sa
différentielle Df (a) est un homéomorphisme de E dans F . Alors f −1 est différentiable en f (a) et
−1
D(f −1 )(f (a)) = Df (a) .

On passe ensuite à la notion de difféomorphisme.


Définition 1.29. Une fonction f est dite difféomorphisme de U dans V si U et V sont ouverts, si
f est bijective de U dans V , f est C 1 et f −1 est C 1 .

Montrons un lemme qui sera utilisé dans la preuve du théorème d’inversion locale. On écrit L(E)
pour les applications linéaires continues de E dans E (donc L(E) = L(E, E)).
Lemme 1.30. Soit E un espace de Banach. L’ensemble I(E) = {T ∈ L (E) ; T inversible} est un
ouvert de L (E) et l’application I(E) 3 T 7→ T −1 ∈ L (E) est continue.
Voici le théorème d’inversion locale.
Théorème 1.31 (inversion locale). Soient E un espace de Banach, f : U → E (où U est un ouvert
de E) une fonction de classe C 1 et a ∈ U tels que Df (a) est un homéomorphisme. Alors il existe U 0
un ouvert qui contient a et V 0 un ouvert qui contient f (a) tels que f est un diffémorphisme de U 0
dans V 0 .
Nous avons aussi une version globale du théorème d’inversion locale.
Théorème 1.32 (inversion globale). Soient E un espace de Banach, f : U ouvert de E à valeurs
dans E une fonction de classe C 1 . Si f est injective et Df (x) est un homéomorphisme pour tout
x ∈ U alors f (U ) est un ouvert et f est un difféomorphisme de U dans f (U ).

1.6 Théorème des fonctions implicites


Le théorème des fonctions implicites permet de résoudre une équation du type f (x, y) = 0 en
exprimant une des variables en fonction des autres. Par exemple y = ϕ(x) où ϕ est une fonction
implicite. On sait que ϕ existe mais on ne la connaît pas explicitement, d’où la terminologie de
fonction implicite. On peut montrer ainsi que les zéros d’une fonction de R2 se trouvent sur une
courbe ; on discutera cela plus en détail quand on parlera de courbes plus tard.
Définissions d’abord la notion de différentielle partielle, qui est similaire à la notion de dérivée
partielle.
Définition 1.33. Soit f : U ouvert de E × F à valeurs dans G où E, F et G sont des espaces
normés. On dit que f = f (x, y) admet une différentielle partielle par rapportà x au point (a, b) ∈ U
si l’application x 7→ f (x, b) est différentiable en a et on note

Dx f (a, b) = D x 7→ f (x, b) (a).
On définit de même la différentielle partielle par rapport à y et on note

Dy f (a, b) = D y 7→ f (a, y) (b).
Comme dans le cas des dérivées partielles, on peut exprimer la différentielle en fonction des
différentielles partielles.
Lemme 1.34. Soit f : U ouvert de E × F à valeurs dans G où E, F et G sont des espaces normés.
Si f est différentiable en (a, b) alors elle admet des différentielles partielles en (a, b) et on a
Df (a, b)(h, k) = Dx f (a, b)h + Dy f (a, b)k.
Voici le théorème des fonctions implicites.
Théorème 1.35 (fonctions implicites). Soient E, F des espaces de Banach, U un ouvert de E × F ,
f : U → F une fonction de classe C 1 . Soit (a, b) ∈ U tel que f (a, b) = 0 et Dy f (a, b) est un
homéomorphisme de L (F ). Alors il existe un ouvert W qui contient (a, b), un ouvert V qui contient
a et une fonction ϕ : V → F de classe C 1 tels qu’on a l’équivalence suivante :
(x, y) ∈ W et f (x, y) = 0 ⇔ x ∈ V et y = ϕ(x).

Exemples.
a) Considérons le système (
4xy + 2xz + y + 4y 2 = 0
x3 y + xz + 4z − z 2 = 0
au voisinage du point (0, 0, 0). Le théorème des fonctions implicites s’applique et nous permet
d’exprimer y et z en fonction de x. Mais il ne s’applique pas pour exprimer x et y en fonction
de z, ni x et z en fonction de y. Par ailleurs, il ne peut pas s’appliquer pour exprimer par
exemple x en fonction de y et z car dans le théorèmes des fonctions implicites le nombre de
variables qui s’expriment en fonction des autres est toujours égal au nombre d’équations.
b) Considérons l’équation 2xy−z+2xz 3 = 5 au voisinage du point (1, 2, 1). On peut exprimer z en
fonction de x et y et on peut calculer les dérivées de la fonction implicite en (1, 2)à n’importe
quel ordre.

2 Courbes et surfaces paramétrées


2.1 Définitions et représentation implicite
Définition 2.1. — Une courbe paramétrée de Rn est une application continue γ : I → Rn où I
est un intervalle de R.
— Le support de la courbe est γ(I).
— Une courbe est dite de classe C k si l’application γ est de classe C k .
— Une courbe est dite simple si l’application γ est injective.
— Deux courbes paramétrées γ : I → Rn et γ̃ : I˜ → Rn sont dites équivalentes s’il existe
un homéomorphisme ϕ : I → I˜ tel que γ̃ ◦ ϕ = γ. L’application ϕ est dite changement de
paramètre, ou changement de paramétrage. Si ϕ est croissante, le sens de parcours de la courbe
est conservé ; dans le cas contraire il est inversé. Si γ et γ̃ sont C 1 et ϕ est un difféomorphisme,
on dit qu’elles sont C 1 -équivalentes. Si elles sont C k et que ϕ est un difféomorphisme C k , on
dit qu’elles sont C k -équivalentes.
— Un point γ(t0 ) d’une courbe γ est dit régulier si γ 0 (t0 ) 6= 0. Une courbe est dite régulière si
tous ses points sont réguliers.
— Si un point γ(t0 ) d’une courbe γ est régulier, la direction du vecteur γ 0 (t0 ) est dite direction
tangente à γ en γ(t0 ). L’ensemble {γ(t0 ) + sγ 0 (t0 ) : s ∈ R} est l’espace affine tangent à γ en
γ(t0 ).
— Un point γ(t0 ) d’une courbe γ ∈ C 2 est dit bi-régulier si γ 0 (t0 ) 6= 0, γ 00 (t0 ) 6= 0, et ces deux
vecteurs ne sont pas colinéaires.
On pourrait avoir envie de considérer comme une courbe certains sous-ensembles de Rn décrits
de manière implicte comme zéros d’une fonction. Par exemple, l’ensemble
C := {(x, y) ∈ R2 : x2 + y 2 − 1 = 0}
est clairement le cercle unité autour de l’origine, qui peut être parametré par γ(t) = (cos t, sin t)
pour t ∈ [0, 2π] (ou pour t ∈ R, ou pour t dans tout intervalle de longueur au moins 2π). Cela se
base pourtant sur une intuition qui nous a fait deviner la formule de γ. Le théorème des fonctions
implicites nous permet de traiter le cas général, au moins localement.
Proposition 2.2. Si f : R2 → R est C 1 et ∇f 6= 0 sur l’ensemble C = {x ∈ R2 : f (x) = 0}, alors
localement cet ensemble peut être décrit comme graphe d’une fonction φ ∈ C 1 , c’est-à-dire comme
support d’une courbe de la forme t 7→ γ(t) = (t, φ(t)) ou t 7→ γ(t) = (φ(t), t).
On oberve en passant que les courbes obtenues comme graphe sont toujours régulières, parce
qu’une des composantes de γ 0 vaut 1.
En dimension supérieure on a :
Proposition 2.3. Si f : Rn → Rn−1 est C 1 et le rang de Df vaut n − 1 partout sur l’ensemble
C = {x ∈ Rn : f (x) = 0}, alors localement cet ensemble peut être décrit comme graphe d’une
fonction d’une variable φ ∈ C 1 , c’est-à-dire, dans un système de coordonnées opportun, comme
support d’une courbe de la forme t 7→ γ(t) = (t, φ1 (t), . . . , φn−1 (t)).
Dans le cas d’une courbe définie implicitement par f = 0, la direction tangente en un point x0
où f (x0 ) = 0 et le rang de Df (x0 ) vaut n − 1 est donnée par l’orthogonal à tous les vecteurs ∇fi (x0 )
pour i = 1, . . . , n − 1.
On peut faire de même pour les surfaces.
Définition 2.4. — Une surface paramétrée de Rn est une application continue X : Ω → Rn où
Ω est un ouvert connexe de R2 .
— Le support de la surface est X(Ω)
— Une surface est dite de classe C k si l’application X est de classe C k .
— Une surface est dite simple si l’application X est injective.
— Deux surfaces paramétrées X : Ω → Rn et X̃ : Ω̃ → Rn sont dites équivalentes s’il existe
un homéomorphisme ϕ : Ω → Ω̃ tel que X̃ ◦ ϕ = X. L’application ϕ est dite changement de
paramètre, ou changement de paramétrage. Si X et X̃ sont C 1 et ϕ est un difféomorphisme,
on dit qu’elles sont C 1 -équivalentes. Si elles sont C k et que ϕ est un difféomorphisme C k , on
dit qu’elles sont C k -équivalentes.
— Un point X(u0 , v0 ) d’une surface est dit régulier si ∂X ∂u
(u0 , v0 ) et ∂X
∂v
(u0 , v0 ) forment une famille
libre. Une surface est dite régulière si tous ses points sont réguliers.
— Si un point X(u0 , v0 ) est régulier, l’espace vectoriel de dimension deux engendré par les vec-
teurs ∂X∂u
(u0 , v0 ) et ∂X
∂v
(u0 , v0 ) est dit plan tangent à X en ce point. L’ensemble {X(u0 , v0 ) +
s ∂X
∂u
(u ,
0 0v ) + t ∂X
∂v
(u , v 2
0 0 ) : (s, t) ∈ R } est l’espace affine tangent à X en ce point.

Dans le cas des surfaces aussi, on pourrait avoir envie de considérerdes sous-ensembles de Rn
décrits de manière implicte. Par exemple, l’ensemble

C := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 − 1 = 0}

est clairement la sphère unité autour de l’origine, qui peut être parametré par

X(u, v) = (cos u cos v, sin u cos v, sin v)

pour (u, v) dans tout ouvert contenant [0, 2π] × [− π2 , π2 ]. Le théorème des fonctions implicites peut
également être utilisé localement. On présentera les résultats seulement dans le cas des surfaces dans
l’espace de dimension trois.
Proposition 2.5. Si f : R3 → R est C 1 et ∇f 6= 0 sur l’ensemble C = {x ∈ R3 : f (x) = 0}, alors
localement cet ensemble peut être décrit comme graphe d’une fonction φ ∈ C 1 , c’est-à-dire, dans
un système de coordonnées opportun, comme support d’une surface de la forme (u, v) 7→ X(u, v) =
(u, v, φ(u, v)).
On oberve aussi que les surfaces parametrées comme graphe sont toujours régulières.
Dans le cas d’une surface définie implicitement par f = 0, le plan tangent en un point x0 où
f (x0 ) = 0 et ∇f (x0 ) 6= 0 est donné par l’orthogonal à ∇f (x0 ).

2.2 Courbes parametrées : longueur, courbure et torsion


2.2.1 Longueur et paramétrisation par longueur d’arc
Définition 2.6. La longueur d’une courbe paramétrée γ : [a, b] → Rn est la borne supérieure des
longueurs de toutes les lignes polygonales dont les sommets sont pris dans l’ordre sur la courbe :
n
X
long(γ) = sup kγ(tj ) − γ(tj−1 )k,
a=t0 <t1 <···<tn =b j=1

le sup étant pris sur N et sur les familles de points (t0 , t1 , . . . , tN ).


Proposition 2.7. Soit γ : [a, b] → Rn une courbe de classe C 1 . Nous avons alors
Zb
long(γ) = kγ 0 (t)k dt.
a
Remarque. Deux courbes équivalentes ont la même longueur.

Définition 2.8. Une courbe est dite paramétrée par la longueur d’arc, ou par l’abscisse curviligne,
si kγ 0 (t)k = 1 pour tout t.

Remarque. La notion de longueur d’une courbe, ainsi que celle de courbe paramétrée par la
longueur d’arc, dépendent de la norme choisie. En l’absence d’indication contraire, on sous-entend
en général qu’il s’agit de la norme euclidienne.

Proposition 2.9. Toute courbe régulière admet un paramétrage par la longueur d’arc. Ce paramé-
trage est uniqueà une translation près et au sens de parcours près. De plus, dans le cas de la norme
euclidienne, si la courbe originale est C k son parametrage par la longueur d’arc l’est aussi.

Proposition 2.10. Dans un point régulier γ(t0 ), la direction de la tangente à la courbe est donnée
par γ 0 (t0 ). Si, de plus, γ est paramétrée par la longueur d’arc (par rapport à la norme euclidienne),
alors le vecteur γ 00 (t0 ) est normal à la courbe.

2.2.2 Allure d’une courbe plane


Dans toute cette partie nous considérons des courbes à valeur dans R2 muni de la norme eucli-
dienne.

Définition 2.11. Soit γ une courbe C 2 paramétrée par la longueur d’arc. On appelle courbure la
quantité
κ(t) = kγ 00 (t)k
et centre de courbure le point
γ 00 (t)
P (t) = γ(t) +
kγ 00 (t)k2
Proposition 2.12. Soit γ une courbe régulière C 2 (pas nécessairement paramétrée par la longueur
d’arc). Nous avons la formule suivante pour la courbure :

|γ 0 (t) ∧ γ 00 (t)|
κ(t) =
kγ 0 (t)k3

où on a utilisé la notation x ∧ y = x1 y2 − x2 y1 .

La courbure est une mesure quantitative du caractère ‘plus ou moins courbé”. La courbure d’une
droite est nulle. Celle d’un cercle de rayon R est R1 . Intuitivement, un bout d’un cercle de rayon très
grand semble être presque plat ; il est donc normal que sa courbure soit petite. Nous avons aussi la
réciproque :

Proposition 2.13. a) Toute courbe régulière de classe C 2 de courbure nulle est un bout de droite.
b) Toute courbe régulière de classe C 3 de courbure constante et strictement positive est un bout
de cercle.

Définition 2.14. Le cercle osculateur est le cercle dont le centre est le centre de courbure et le rayon
1
est l’inverse de la courbure : C(P (t), κ(t) ).
2.2.3 Remarques sur les courbes gauches
Une courbe gauche est une courbe de R3 qui n’est pas plane. La tangente à la courbe est encore
dirigée par γ 0 . Soit γ paramétrée par la longueur d’arc. Alors γ 00 est encore orthogonale à γ 0 , donc
à la courbe. On appelle plan osculateur le plan engendré par γ 0 (t) et γ 00 (t) et qui passe par γ(t). On
peut définir comme en dimension deux la courbure et le cercle osculateur qui sera tracé dans le plan
osculateur. Une quantité spécifiqueà la dimension trois est la torsion qui est définie par

det(γ 0 , γ 00 , γ 000 )
θ=−
kγ 0 ∧ γ 00 k2

La torsion d’une courbe mesure la manière dont la courbe se tord pour sortir de son plan oscu-
lateur. On peut montrer

Proposition 2.15. Soit γ une courbe C 3 dans R3 , birégulière en tout point. Alors sa torsion est
identiquement nulle si et seulement si la courbe est plane.

2.3 Gédoésiques sur la sphère et sur d’autres surfaces


Définition 2.16. Étant donné un sous-ensemble fermé et connexe M ⊂ Rn on dit qu’une courbe C 1
γ : [0, T ] → M est une géodésique de M si elle satisfait la proprit́é suivante :

long(γ) = min{long(γ̃) : γ̃ : [0, T ] → M, γ̃ ∈ C 1 , γ̃(0) = γ(0), γ̃(T ) = γ(T )}.

On se propose de trouver les courbes qui sont gédosésiques dans le cas de la sphère M = S2 ⊂
R3 = {x ∈ R3 , ||x|| = 1} (la norme étant toujours la norme euclidenne). Il s’agit en fait des arcs
de grand cercle, qui sont de la forme γ(t) = v cos t + w sin t pour tout choix de v, w vecteurs unités
orthogonaux : ||v|| = ||w|| = 1, v · w = 0, à condition que T soit suffisamment petit.
On a besoin des lemmes suivants.

Lemme 2.17. Il existe une constante C telle que l’inégalité suivante (dite de Poincaré) est satisfaite
par toute fonction η : [0, T ] → Rd de classe C 1 avec η(0) = η(T ) = 0 :

ZT ZT
2
||η(t)|| dt ≤ CT 2
||η 0 (t)||2 dt.
0 0

Il est facile de montrer l’inégalité avec C = 1, de l’améliorer avec C = 1/4, mais la constante
optimale (qu’on peut trouver en regardant les séries de Fourier) est C = π −2 .

Lemme 2.18. Si γ : [0, T ] → R3 est de la forme γ(t) = v cos t + w sin t avec ||v|| = ||w|| = 1,
v · w = 0, et γ̃ : [0, T ] → S2 satisfait γ̃ ∈ C 1 , γ̃(0) = γ(0), γ̃(T ) = γ(T ), et T est suffisamment petit
(CT 2 ≤ 1 si C est la constante du lemme précédent) alors on a

ZT ZT
||γ 0 (t)||2 dt ≤ ||γ̃ 0 (t)||2 dt.
0 0

En choisissant γ̃ parametrée à vitesse constante on obtient enfin :

Proposition 2.19. Toute courbe γ : [0, T ] → R3 de la forme γ(t) = v cos t + w sin t avec ||v|| =
||w|| = 1, v · w = 0, est une géodésique de S2 si T est suffisamment petit.
On peut se demander qu’en est-il des géodésiques sur d’autres surfaces. On considérera une surface
S décrite de manière implicite comme S = {x ∈ R3 : f (x) = 0} pour une fonction f : R3 → R
régulière (au moins C 1 , mais on aura besoin jusquà C 3 pour certains énoncés) et telle que ∇f 6= 0
sur S.
Le point clé de l’analyse d’optimalité des grands cercles étaient l’équation différentielle qu’ils
satisfont, γ 00 = −γ. Comme dans la sphère le vecteur normal au point x ∈ S2 est le vecteur unité x
même, la généralisation qui nous intéresse concerne les courbes telles que l’accélération γ 00 est normale
à S en tout point. On a d’abord l’énoncé suivant.

Lemme 2.20. Si une courbe γ : [0, T ] → S est telle que γ 00 est normal à S en tout point, alors on a
forcément
D2 f (γ(t))(γ 0 (t), γ 0 (t))
γ 00 (t) = − ∇f (γ(t)).
||∇f (γ(t))||2
On considère maintenant l’EDO définie par la relation ci-dessus, et on a :

Proposition 2.21. Pour tout x0 ∈ S et w ∈ R3 tel que w · ∇f (x0 ) = 0 le problème de Cauchy


ci-dessous adment une solution locale unique
D2 f (γ(t))(γ 0 (t),γ 0 (t))

00
γ (t) = −
 ||∇f (γ(t))||2
∇f (γ(t)),
γ(0) = x0 ,

 0
γ (0) = w.

De plus, cette solution satisfait γ(t) ∈ S et ||γ 0 (t)|| = ||w|| pour tout t. Enfin, toute courbe γ : [0, T ] →
S solution de cette équation différentielle est une géodésique si T est sufisamment petit.

La propriété ||γ 0 (t)|| = ||w|| permet de donner une borne sur γ 0 (t). Avec une borne sur γ 0 (t) aussi
on voit que la solution ne peut pas exploser et cela montre que son intervalle maximal de définition
est bien R. Cela peut être garantit par l’hypothèse que S soit un ensemble compact mais on n’a pas
strictement besoin de cette hypothèse. En effet, pout tout inter valle fixé [−T, T ] on a bien une borne
sur |γ(t)|, et plus précisément ||x0 || + T ||w||.

2.4 Première et seconde formes fondamentales


Considérons une surface C 1 régulière S = X(Ω) ⊂ R3 . En un point P0 = X(u0 , v0 ) l’espace
tangent TanP0 (S) est l’espace de dimension deux engendré par les vecteurs u := Xu (u0 , v0 ) et v :=
Xv (u0 , v0 ). Le vecteur normal n à S en P0 est un vecteur unité orthogonal à u et v, donc on peut
u∧v
prendre n = ||u∧v|| . On définit deux formes bilinéaires sur TanP0 (S).
La première, notée I, s’appelle Première Forme fondamentale et coïncide avec la restriction du
produit scalaire Euclidien usuel à TanP0 (S). Autrement dit, on a I(w1 , w2 ) := w1 · w2 . Dans la base
(u, v) cette forme bilinéaire s’écrit à l’aide de la matrice suivante :
   
||u||2 u · v ||Xu ||2 Xu · Xv
I := = .
u · v ||v||2 Xu · Xv ||Xv ||2

On note que cette matrice coïncide également avec la matrice DX T · DX. Cete matrice dépend
évidemment de la paramétrisation, et si on écrit X = Y ◦ φ (avec X : Ω → R3 , Y : ω 0 → R3 et
φ : Ω0 → Ω) on trouve I(X) = (Dφ)T · I(Y ) · Dφ, où I(Y ) représente la première forme fondamentale
écrite selon la base donnée par la paramétrisation Y (au point φ(u, v)) et I(X) celle écrite selon la
base donnée par la paramétrisation X (au point (u, v)).
La première forme fondamentale est celle qui donne la déformation des longueurs entre les courbes
dans Ω et celles sur S : si ω : [0, T ] → Ω est une courbe, γ := X ◦ ω est une courbe à valeur dans S,
et on a ||γ 0 (t)||2 = ||DX(ω(t))ω̇ 0 (t)||2 = Iω(t),(X) (ω 0 (t), ω 0 (t)), donc

ZT q
long(γ) = Iω(t),(X) (ω 0 (t), ω 0 (t))dt.
0

La Seconde Forme fondamentale, notée II, est définie seulement lorsque X est C 2 . Elle représente
l’écart dans la direction normale, à l’ordre deux, de la suface par rapport au plan tangent. Notamment,
pour tout w ∈ TanP (S), la valeur de II(w, w) est telle que l’on a n·(Q−P ) = 21 II(w, w)+o(||w||2 ), où
Q est le point de S tel que Q − (P + w) est parallèle à n. Si on prend (u0 , v0 ) = (0, 0) et w = uu + vv
on a
1 1
Q = X(u, v) = P + w + Xuu u2 + Xuv uv + Xv v 2 + o(||(u, v)||2 ).
2 2
Or, le point Q n’est pas celui tel que Q − (P + w) est parallèle à n, mais il est tel que Q − (P + w̃)
est parallèle à n, pour un vecteur w̃ = w + o(||w||) appartenant aussi à l’espace tangent. On obtient
donc
1 1
II(w, w) + o(||w||2 ) = II(w̃, w̃) + o(||w||2 ) = n · (Q − (P + w̃)) = n · (Q − (P w))
2 2
1 1
= n · ( Xuu u2 + Xuv uv + Xv v 2 ) + o(||w||2 ).
2 2
Cela nous permet d’écrire II dans la base (u, v) comme
 
Xuu · n Xuv · n
II := .
Xuv · n Xvv · n

Ici on a II = D2 X · n. En cas de changement de paramétrisation X = Y ◦ φ, on utilise D2 X =


D2 Y ◦ φ(Dφ, Dφ) + DY ◦ φ · D2 φ. en prenant le produit scalaire avec n et en utilisant que DY est
tangent, on trouve
IIX = IIY (Dφ, Dφ) = (Dφ)T · IIY · Dφ.
Cela montre que, même si les deux formes fondamentales dépendent en effet de la paramétrisation,
on a quand même
(IX )−1 IIX = (Dφ)T · (IY )−1 IIY · Dφ,
et les deux matrices (IX )−1 IIX et (IY )−1 IIY sont conjuguées. Elles ont en particulier le même déter-
minant det II
det I
, qui est un invariant (dit courbure de Gauss).
Dans le cas où S est exprimée comme un graph X(u, v) = (u, v, ϕ(u, v)) et que ∇ϕ(u0 , v0 ) = 0
(graphe qui est horizontal en (u0 , v0 )) le calcul des deux formes fondamentales est simple et on a

I = I, II = D2 ϕ.

Dans le cas où S est exprimée comme S = {x : f (x) = 0} pour une fonction f ∈ C 2 et telle que
∇f 6= 0 sur S on a aussi l’identité entre formes bilinéaires
D2 f
II = − ,
||∇f ||
parce qu’on a, par exemple, ∇f (X)·Xu u = −D2 f (X)(Xu , xu ). Attention : les deux formes bilinéaires
pourraient être écrites dans deux bases différentes (d’habitude, quand on écrit D2 f comme matrice
des deérivées seocndes, on utilise la base canonique, pas celle engendrée par Xu et Xv ).
La seconde forme fondamentale sert à déterminer si lasurface se trouve d’un côté ou de l’autre du
plan tangent : elle est du côté du vecteur n si II est définie posiitive, du côté opposé si II est définie
négative,et elle passe d’un côté à l’autre si II a deux valeurs propres de signes opposés (et donc si
det II < 0, e qui est un invariant parce que le signe du déterminant de I est toujours positif.
Par exemple, pour S = {(x, y, z) : z 2 = x2 + y 2 + 1} la seconde forme fondamentale en (0, 0, 1)
est définie positive et S y est localement au-dessus du plan tangent, qui est horzontal. Pour la surface
de rotation S = {(x, y, z) : z 2 + 1 = x2 + y 2 }, au contraire, la econde forme fondamentale en (1, 0, 0)
n’est pas définie, et en efet la surface se trouve d’ûn ecôté en suivant z = 0 et de l’autre en suivant
y = 0.
On considère maintenant une géodésique γ : [0, T ] → S = {f = 0} avec γ(t0 ) = x0 et γ 0 (t0 ) = w
et on regarde sa courbure. On prendra des géoédsiques satisfaisant l’EDO introduite précédemment
et on suppose ||w|| = 1 de manière à ce que la courbe soit paramétrée par longueur d’arc. On a

|D2 f (x0 )(w, w)|


κ = ||γ 00 (t0 )|| = = |II(w, w).|
||∇f (x0 )||

Cela montre le lien entre seconde forme fondamentale et courbures : les courbures des géodésiques
passant par x0 sont obtenues en évaluant la seconde forme fondamentale sur des vecteurs unités (donc
des vecteurs où la première forme fondamentale vaut 1).

3 Éléments d’optimisation
3.1 Existence du minimum
On s’intéresse à des problèmes du type

min{f (x) : x ∈ E},

où f : E → R est une fonction continue et E est un sous-ensembe de Rd . Dans la modélisation il est


parfois utile de considérer des fonctions à valeurs dans R ∪ {+∞} (la valeur −∞ par contre rend le
problème de minimisation triviale) mais il faut comprendre que, dans les problèmes d’optimisation,
les fonctions à minimiser ne peuvent jamais être à valeurs vectoriels, puisqu’il faut un ordre dans
l’espace d’arrivée. Considérer des problèmes de maximisation au lieu de regarder la minimisation ne
revient qu’à changer des signes.
On rappelle le théorème de Weierstrass.

Théorème 3.1. Si f est continue et E est compact, alors il existe un point x0 ∈ E réalisant le
minimum de f , c’est-à-dire f (x0 ) ≤ f (x) pour tout x ∈ E.

Souvent l’ensemble E n’est pas compact, mais on peut pouver l’existence lorsque la fonction f
tend vers l’infini en l’infini ou, plus généralement, si sa limite (ou liminf) en l’infini est plus grande
que des valeurs prises dans des points de E. L’énoncé le plus général qu’on peut prouver est le suivant.

Théorème 3.2. Soit E un ensemble fermé mais non borné et f : E → R une fonction continue.
Soit `0 := lim inf f (x).
||x||→+∞,x∈E
— S’il existe x0 ∈ E tel que f (x0 ) < `0 alors f admet un minimum sur E.
— Si pour tout x ∈ E on a f (x) > `0 alors f n’admet pas de minimum sur E.
— Si pour tout x ∈ E on a f (x) ≥ `0 et qu’il existe au moins un point x0 ∈ E tel que f (x0 ) = `0 ,
alors f admet un minimum sur E.

3.2 Conditions nécessaires d’optimalité


On rappelle cet énoncé bien connu :

Théorème 3.3. Supposons que f est C 1 , que x0 est un minimum local de f sur E, et que x0 est
dans l’intérieur de E (il existe un rayon r > 0 tel que B(x0 , r) ⊂ E). Alors ∇f (x0 ) = 0.
On s’intéresse maintenant au cas où l’ensemble E est donné de manière implicite par des équations
gi (x) = 0. En général, cela définit une surface et aucun point de E ne serait à l’intérieur. On a le
théorème suivant (extrema liés ou multiplicateurs de Lagrange) :

Théorème 3.4. Supposons que f : Rd → R et g : Rd → Rk sont des fonctions C 1 , avec k < n,


et posons E = {x ∈ Rd : g(x) = 0}. Supposons que x0 est un minimum local de f sur E, et que
P matrice Dg(x0 ) est de rang k. Alors on peut trouver des nombres λi ∈ R tels que ∇f (x0 ) =
la
λi ∇gi (x0 ), où les fonctions gi sont les composantes de g.
i

La condition sur le rang de Dg(x0 ) est dite condition de qualification des contraintes. Ce théorème
est à interpréter surtout comme une manière d’exclure P l’optimalité de certains (en fait, la plupart)
points : seuls les points où la condition ∇f (x0 ) = λi ∇gi (x0 ) ou ceux où le rang de Dg(x0 ) est
i
strictement plus petit que k ont le droit d’être des points de minimum.
Par exemple, pour la résolution d’un problème du type

min{f (x) : gi (x) ≤ 0}

on obtient la recette suivante


— prouver d’abord l’existence d’un minimum (en prouvant par exemple que E est borné – il
serait donc compact parce que fermé frâce aux inégalités larges dans la définition – ou en
regardant la liminf de f en l’infini) ;
— faire une liste de tous les candidats à être des points de minimum :
— tous les points au voisinage desquels f ou g ne seraient pas C 1 ;
— tous les points à l’intérieur de E (c’est-à-dire que l’on a gi (x0 ) < 0 pour tout i) où ∇f (x0 ) =
0;
— pour chaque J ⊂ {1, . . . , k}, tous les points x0 qui s’obtiennent en résolvant le système
 P
∇f (x0 ) =
 λi ∇gi (x0 ),
 i∈J

 gi (x0 ) = 0 pour tout i ∈ J,



gi (x0 ) < 0 pour tout i ∈
/ J.

Il s’agit d’un sytème avec n+#J inconnues et n+#J équations et devrait raisonnablement
avoir peut de solutions ; ce système peut également s’écrire sous la forme
k
X
∇f (x0 ) = λi ∇gi (x0 ), λi gi (x0 ) = 0;
i=1

— tous les points où on ne peut pas appliquer le théorème des extrema liés parce que le
rang de Dg(x0 ) n’est pas k (cela correspond à résoudre, pour tout J, un système avec
#J équations pour imposer gi = 0 et énormément d’équations pour imposer que tous les
mineurs de la matrice Jacobienne s’annulent, ce qui n’a souvent pas de solutions).
— epsérer que ces points ne soient pas trop nombreux et calculer la valeur de f en chacun ;
— prendre le ou les points qui donnent la valeur la plus petite.
On peut aussi donner une condition nécessaire d’optimalité d’ordre deux.

Théorème 3.5. Supposons que f : Rd → R et g : Rd → Rk sont des fonctions C 2 , avec k < n,


et posons E = {x ∈ Rd : g(x) = 0}. Supposons que x0 est un minimum local de f sur E, et
P Dg(x0 ) est de rang k. On sait qu’on peut trouver des nombres λi ∈ R tels que
que la matrice
∇f (x0 ) = λi ∇gi (x0 ).
i
Le point x0 doit alors satisfaire aussi
!
X
2 2
D f (x0 ) − λi D gi (x0 ) (v, v) ≥ 0
i

pour tout vecteur v tel que v · ∇gi (x0 ) = 0 pour tout i.

Une application des multiplicateurs de Lagrange permet de prouver le résultat bien connu de
diagonalisation des matrices symétriques :

Proposition 3.6. Soit A une matrice n × n symétrique et x1 une solution de


1
min{ Ax · x : ||x|| = 1},
2
ainsi que, pour tout k = 2, . . . , n xk une solution de
1
min{ Ax · x : ||x|| = 1, x · xj = 0 pour tout j < k}.
2
Les vecteurs x1 , . . . , xn forment alors une base orthonormée de Rn et on a Axk = λk xk pour des
nombres λk avec λ1 ≤ λ2 ≤ · · · ≤ λn .

On peut d’ailleurs vérifier la validité de la condition d’ordre deux sur les points solution des
problèmes d’optimisation de cet exemple.

3.3 Fonctions convexes


Définition 3.7. Une fonction f : Rn → R est dite convexe si pour tout x, y ∈ Rn et tout t ∈ [0, 1]
on a
f ((1 − t)x + ty) ≤ (1 − t)f (x) + tf (y).
On, dit que f est strictement convexe si la même inégalité est satisfaite au sens stricte dès que x 6= y
et t ∈]0, 1[.

En dimension 1 on a les caractérisation suivantes.

Proposition 3.8. Si f est C 1 elle est convexe si et seulement si f 0 est une fonction croissante et si
et seulement si on a l’inégalité suivante

f (y) ≥ f (x) + f 0 (x)(y − x)

pour tout x, y.
Si f est C 2 alors elle est convexe si et seulement si f 00 ≥ 0.

En dimension supérieure cela devient

Proposition 3.9. Si f est C 1 elle est convexe si et seulement si ∇f satisfait l’inégalité

(∇f (x) − ∇f (y)) · (x − y) ≥ 0

pour tout x, y et si et seulement si on a l’inégalité suivante

f (y) ≥ f (x) + ∇f (x) · (y − x)

pour tout x, y.
Si f est C 2 alors elle est convexe si et seulement si D2 f ≥ 0 au sens des matrices symétriques.
On donne aussi la définition de fonction uniformément convexe ou elliptique.

Définition 3.10. Une fonction f : Rn → R est dite uniformément convexe ou elliptique s’il existe
α > 0 tel que x 7→ f (x) − α2 ||x||2 est une fonction convexe (on dit alors qu’elle est α-elliptique).

On obtient donc les caractéristions suivantes

Proposition 3.11. Si f est C 1 elle est α-elliptique si et seulement si ∇f satisfait l’inégalité

(∇f (x) − ∇f (y)) · (x − y) ≥ α||x − y||2

pour tout x, y et si et seulement si on a l’inégalité suivante


α
f (y) ≥ f (x) + ∇f (x) · (y − x) + ||x − y||2
2
pour tout x, y.
Si f est C 2 alors elle est α-elliptique si et seulement si D2 f ≥ αI au sens des matrices symétriques
(donc si toutes ses valeures propres sont supérieures ou égales à α).

On remarque que toute fonction elliptique est strictement convexe.


Pour la minimisation des fonctions convexes on a :

Proposition 3.12. Si f est une fonction convexe C 1 alors un point x̄ minimise f si et seulement
∇f (x̄) = 0. Si f est une fonction strictement convexe alors le point de minimum, s’il existe, est
unique. Si f est elliptique alors le point de minimum existe et est unique.

En effet, si la stricte convexité est suffisante pour l’unicité du minimimseur elle ne l’est pas pour
l’existence (penser à f (x) = ex ). Par contre, l’ellipticité est suffisante pour l’existence parce que toute
fonction elliptique est minorée par une parabole.

3.4 Algorithmes itératifs


On considère l’algorithme d’optimisation le plus simple, celui du gradient à pas fixe : étant donné
un point x0 , on définit une suite itérée en prenant xk+1 = xk − τ ∇f (xk ).
On a le théorème suivant.

Théorème 3.13. Soit f : Rn → R une fonction C 2 avec αI ≤ D2 f (x) ≤ LI pour deux constants
L ≥ α > 0. Supposons τ ∈]0, L2 [. Alors la suite définie par l’algorithme du gradient à pas fixe converge
vers le seul minimiseur x̄ de f et on a

||xk − x̄|| ≤ ||x0 − x̄||λk

où le nombre λ est donné par λ = max{1 − τ α, τ L − 1} < 1.


2 L−α
La valeur de τ qui minimise la valeur de λ serait τ = α+L
, qui donnerait λ = L+α
.
Comme on sait que pour une fonction convexe la minimisation équivaut à annuler le gradient,
on pourrait aussi considérer des algorithmes pour résoudre F = 0, en prenant F = ∇f . Un des
algorithmes les plus efficaces pour résoudre F = 0 est l’algorithme de Newton, qui consiste à chaque
étape à trouver xk+1 en trouvant le point où le DL1 de F autour de xk s’annule, donc

xk+1 = xk − (DF (xk ))−1 F (xk ).

Cet algorithme converge très vite mais à condition de démarrer en un point x0 qui soit déjà suffi-
samment proche de x̄, solution de F (x̄) = 0.
Théorème 3.14. Soit F : Rn → Rn une fonction C 2 avec F (x̄) = 0 et DF (x̄) inversible. Alors il
existe un rayon R > 0 tel que
— DF (x) est inversible pour tout x ∈ B(x̄, R) ;
— pour tout point x ∈ B(x̄, R) on a x − (DF (x))−1 F (x) ∈ B(x̄, R) ;
— pour tout point x0 ∈ B(x̄, R) la suite donnée par xk+1 = xk − (DF (xk ))−1 F (xk ) converge vers
x̄ et on a
||xk+1 − x̄|| ≤ C||xk − x̄||2 .

La vitesse de convergence de l’algorithme de Newton permet de dire que le nombre de chiffres


décimaux calculé exactement double à chaque itération, contre ce qui se passerait si on avait ||xk −
x̄|| ≤ Cλk où il faudrait un nombre fixe d’itérations pour l’augmenter de 1. Par contre,pour avoir la
convergence il faut partir d’un point qui soit déjà suffisamment proche de x̄. Aussi, il est nécessaire
à chaque itération de l’algorithme d’inverser la différentielle DF (xk ) ce qui, en pratique, peut assez
coûteux computationnellement.
Cela peut s’appliquer pour résoudre ∇f = 0 et on a donc

Théorème 3.15. Soit f : Rn → R une fonction C 3 . Si x̄ est un point de minimum de f et D2 (x̄)est


définie positive, alors il existe un rayon R > 0 tel que pour tout point x0 ∈ B(x̄, R) la suite donnée
par xk+1 = xk − (DF (xk ))−1 F (xk ) converge vers x̄ et satisfait ||xk+1 − x̄|| ≤ C||xk − x̄||2 .

On remarque que appliquer l’algorithme de Newton à la minimisation de la fonction f correspond


à minimiser à chaque itération la fonction
1
f˜xk (x) := f (xk ) + ∇f (xk ) · (x − xk ) + D2 f (xk )(x − xk , x − xk )
2
qui est le DL2 de f en xk . Au contraire, appliquer l’algorithme du gradient à pas fixe correspond à
minimiser à chaque itération la fonction
1
fˆxk (x) := f (xk ) + ∇f (xk ) · (x − xk ) + ||x − xk ||2 ,

qui est une approximation plus grossière de f (mais demande à inverser la matrice identité au lieu
de la matrice D2 f (xk )).
L’algorithme de Newton pourrait aussi être utilisé pour résoudre numériquement le système des
exrema liés
k

∇f (x) = P λi ∇gi (x),
i=1 ,
gi (x) = 0

en prenant F : Rn+k → Rn+k donnée par F (x, λ) = (∇f (x) − λi ∇gi (x), g(x)).
P
i

Vous aimerez peut-être aussi