Calcul différentiel et géométrie des surfaces
Calcul différentiel et géométrie des surfaces
Licence de Mathématiques
Université Lyon 1
Filippo Santambrogio
ce poly se base partiellement sur le poly de Calcul Différentiel et Analys Complexe de Dragoş Iftimie
3 Éléments d’optimisation 17
3.1 Existence du minimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Conditions nécessaires d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4 Algorithmes itératifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Remarques.
a) Pour pouvoir étudier la différentiabilité d’une fonction en un point il faut que la fonction soit
définie au voisinage de ce point.
b) La notion de différentiabilité ne change pas quand on remplace les normes de E et F par des
normes équivalentes.
c) En dimension finie le théorème de Riesz affirme que toutes les normes sont équivalentes. Par
conséquent, si E et F sont de dimension finie alors la notion de différentiabilité ne change pas
quand on change les normes de E et F .
d) En dimension finie, il est également vrai que toutes les applications linéaires sont continues.
On n’a donc pas à se soucier de la continuité de L dans la définition de différentiabilité.
Proposition 1.2. L’application linéaire et continue L qui apparaît dans la définition 1.1 est unique.
On appelle L la différentielle de f au point a et on note L = Df (a) ou encore L = f 0 (a) lorsqu’il n’y
a pas de risque de confusion avec la dérivée usuelle.
Df (a)(h) = hf 0 (a).
Exemples.
a) Toute application linéaire et continue entre deux espaces normés est différentiable en tout
point et sa différentielle en un point arbitraire est elle-même.
b) L’application f : R2 → R, f (x) = x1 x2 est différentiable en tout point et sa différentielle est
donnée par
Df (a)(h) = a1 h2 + a2 h1 .
c) Soient E1 , E2 et F des espaces normés, B : E1 × E2 → F une application bilinéaire et continue
(i.e. kB(x1 , x2 )k ≤ Ckx1 kkx2 k). Alors B est différentiable en tout point et DB(a)(h) =
B(a1 , h2 ) + B(h1 , a2 ).
d) Soit E l’espace des fonctions continues sur [0, 1]à valeurs dans R muni de la norme k · k∞ .
R1 R1
L’application T : E → R, T (f ) = f 2 est partout différentiable et DT (f )(h) = 2 f h.
0 0
Nous avons que la composition de deux applications différentiables est différentiable et la diffé-
rentielle de la composition est la composition des différentielles.
Proposition 1.5. Soient E, F et G trois espaces normés, U un ouvert de E, V un ouvert de F ,
f : U → F et g : V → G. On suppose que f est différentiable en a ∈ U , que f (a) ∈ V et que g est
différentiable en f (a). Alors g ◦ f est différentiable en a et
Remarque. Cet énoncé concernant la composition peut être utilisé avec l’exemple b) ci-dessus pour
prouver que le produit de deux fonctions différentiables (à valeur dans R) est aussi différentiable
et retrouver la formule usuelle pour sa différentielle. D’autre part, la somme de deux fonctions
différentiables (à valeur dans un même espace vectoriel normé arbitraire ) est aussi différentiable
et sa difféntielle est la somme des deux difféntielles, ce qui prouve qu’on peut finalement traiter
toutes les fonctions construites à partir des fonctions usuelles.
Définition 1.6. Soit U un ouvert de E, a ∈ U , v ∈ E et f : U → F . On dit que f admet au point
a une dérivée directionnelle dans la direction v, et on la note par ∂f
∂v
(a), si la limite suivante existe :
∂f f (a + εv) − f (a)
(a) = lim .
∂v ε&0 ε
∂f
En d’autres termes, la dérivée directionnelle ∂v
(a) est la dérivéeà droite en 0 de la fonction t 7→
f (a + tv).
Proposition 1.7. Si f est différentiable en a alors f admet des dérivées directionnelles en a suivant
toute direction et nous avons de plus que
∂f
(a) = Df (a)(v).
∂v
Exemples.
a) L’existence des dérivées directionnelles suivant toute direction n’entraîne pas forcément la
différentiabilité de la fonction. Ni même la continuité. La fonction f : R2 → R
2
1 si y ≥ x
f (x, y) = 1 si y ≤ 0
0 sinon
admet des dérivées directionnelles en 0 qui sont nulles en toute direction. Mais f n’est pas
continue en 0, et a fortiori n’est pas différentiable en 0.
b) Même si la fonction est continue et que toutes ses dérivées directionnelles existent en un point
cela n’implique toujours pas que la fonction est différentiable. La fonction f : R2 → R
( 2 2
x(x −3y )
x2 +y 2
si (x, y) 6= (0, 0)
f (x, y) =
0 si (x, y) = (0, 0)
On peut se demander quelle est la relation entre dérivées partielles et dérivées directionnelles
et si l’existence des unes implique l’existence des autres. On remarque d’abord que les dérivées
directionnelles concernent toutes les directions, et pas seulement celles des axes coordonnés. On
pourrait donc penser que l’existence de toutes les dérivées directionnelles implique celles de toutes les
dérivées partielles, mais ce n’est pas le cas à cause d’une subtilité : les dérivées directionnelles ne sont
pas définies comme une limite pour ε → 0, mais seulement d’un côté (ε → 0+ ) ; elles correspondent
donc à une dérivée droite ou gauche seulement ; il serait donc possible que la restriction d’une fonction
aux axes cordonnées passant par un point admette des dérivées droite et gauche mais différentes, et
donc pas de dérivée tout court. On peut considérer les deux exemples suivants.
Exemples.
a) L’existence des dérivées directionnelles suivant toute direction n’entraîne pas forcément celle
des dérivées partielles. La fonction f : Rn → R donnée par f (x) := ||x|| (en utlisant, par
exemple, la norme euclidienne) admet des dérivées directionnelles en a = 0 données par
∂f
∂v
(0) = ||v|| mais chaque fonction t 7→ f (a1 , a2 , . . . , aj−1 , t, aj+1 , . . . , an ) coïncide avec |t| et
n’est donc pas érivable en t = 0 = aj .
b) L’existence des dérivées partielles n’entraine pas non plus celle des dérivées directionnelles,
comme on peut voir dans l’exemple suivant d’une fontion f : R2 → R.
(
0 si xy = 0
f (x, y) =
1 si xy 6= 0
Comme la restriction de f à chaque axe cordonnée passant par l’orogine a = (0, 0) est la
fonction nulle, les dérivées partielles existent et sont nulles. D’autre part, si on prend un
vecteur v qui n’est pas orienté comme les axes (par exemple v = (1, 1)) on a f (a + εv) = 1 et
f (a) = 0, ce qui entraine que la limite définissant ∂f
∂v
(0) vaut +∞ et la fonction n’admet donc
pas de dérivées dirctionnells sauf pour certains v.
1.2.2 Matrice jacobienne et gradient
Supposons maintenant que F est lui aussi de dimension finie : F = Rm . Une fonction f à valeurs
dans F admet m composantes
f1
f2
f = ..
.
fm
Comme la limite dans Rm se fait composante par composante et que les dérivées partielles sont
définies via une limite, nous avons que f admet des dérivées partielles ssi chaque composante de f
admet des dérivées partielles et la dérivée partielle de f s’obtient en prenant les dérivées partielles
des composantes.
La différentielle est une application linéaire de Rn dans Rm . Elle s’identifie doncà une matrice.
On peut exprimer cette matrice en fonction des dérivées partielles des composantes de f .
Proposition 1.10. Soit U un ouvert de Rn , a ∈ U et f : U → Rm une fonction différentiable en a.
La matrice de Df (a) dans les bases canoniques de Rn et Rm est donnée par la matrice suivante
∂f1 ∂f1 ∂f1
∂x1
(a) ∂x 2
(a) . . . ∂x n
(a)
∂f ∂f2 (a) ∂f2 (a) . . . ∂f2 (a)
i ∂x1 ∂x2 ∂xn
Mf (a) = (a) 1≤i≤m = .
∂xj . . .
. .
.
1≤j≤n . .
∂fm
∂x1
(a) ∂fm
∂x2
(a) . . . ∂f
∂xn
m
(a)
Exemple. La fonction
(
1
2 x2 sin x2 +y 2 si (x, y) 6= (0, 0)
f : R → R, f (x, y) =
0 si (x, y) = (0, 0)
est continue en (0, 0), les dérivées partielles existent partout mais sont discontinues en (0, 0). La
fonction est différentiable en (0, 0) de différentielle nulle.
Cela nous donne l’occasion de discuter la notion de fonction C 1 et plus généralement C k .
Définition 1.13. — Une fonction f : U ouvert de E espace norméà valeurs dans F espace
normé est dite de classe C 1 si elle est différentiable et si sa différentielle Df : U → L (E, F )
est continue.
— Une fonction f : U ouvert de E espace norméà valeurs dans F espace normé est dite de
classe C k , k ≥ 2 si elle est différentiable et si sa différentielle Df : U → L (E, F ) est de
classe C k−1 . Elle est dite de classe C ∞ si elle est de classe C k pour tout k.
Lemme 1.17. Soit f : [a, b] → E dérivable. On suppose qu’il existe C tel que kf 0 (t)kE ≤ C pour
tout t ∈ [a, b]. Alors kf (b) − f (a)kE ≤ C|b − a|.
Théorème 1.18. Soit f : Ω → F où Ω est un ouvert de E et E, F sont des espaces normés. Soient
a, b ∈ Ω tels que le segment [a, b] = {ta + (1 − t)b ; t ∈ [0, 1]} soit inclus dans Ω. On suppose que f
est différentiable en tout point de [a, b] et que la norme de sa différentielle en tout point du segment
est bornée par une constante indépendante du point. Alors nous avons l’inégalité suivante
Corollaire 1.20. Soit f : Ω → F où Ω est un ouvert connexe de E et E, F sont des espaces normés.
On suppose que f est différentiable sur Ω et que sa différentielle est nulle en tout point. Alors f est
constante.
Ce théorème se démontre, entre autre, par une double application du théorème des accroissements
finis pour des fonctions réelles d’une variable réelle. On indiquera désormais par ∂ 2 f /(∂xi ∂xj ) les
dérivées partielles secondes, sans se soucier de l’ordre de dérivation.
Les dérivées secondes servent aussi à donner un développement limité d’ordre deux aux fonctions
de plusieurs variables. Nous rappelons d’abord ce qu’un DL2 dans le cas d’une variable : si f est
C k−1 et qu’elle admet une dérivée k-ème en x̄ on a
k
X 1 (j)
f (x̄ + h) = f (x̄)hj + o(hk )
j=0
j!
f 00 (x̄) 2
f (x̄ + h) = f (x̄) + f 0 (x̄)h + o(h), f (x̄ + h) = f (x̄) + f 0 (x̄)h + h + o(h2 ).
2
La première formule se généralise dans le cas de plusieurs variables en
n
X ∂f
f (x̄ + h) = f (x̄) + (x̄)hj + o(|h|),
j=1
∂xj
et ce n’est rien d’autre que la définition de différentielle et son identification avec le produit scalaire
avec le gradient. La deuxième par contre donne le DL que l’on trouve dans cet énoncé (qu’on présente
par simplicité dans le cas C 2 , alors que la différentiabilité du gradient suffirait. . .)
Définition 1.23. Une matrice carrée n × n symétrique A est dit définie positive si Ah · h > 0 pour
tout vecteur h ∈ Rn \ {0}. Cela se produit si et seulement si toutes ses valeurs propres sont stricte-
ment positives.
Une matrice carrée n × n symétrique A est dit semi-définie positive si Ah · h ≥ 0 pour tout vecteur
h ∈ Rn . Cela se produit si et seulement si toutes ses valeurs propres sont non-négatives.
Une matrice carrée n × n symétrique A est dit définie négative si Ah · h < 0 pour tout vecteur
h ∈ Rn \ {0}. Cela se produit si et seulement si toutes ses valeurs propres sont strictement négatives.
Une matrice carrée n × n symétrique A est dit semi-définie négative si Ah · h ≥ 0 pour tout vecteur
h ∈ Rn . Cela se produit si et seulement si toutes ses valeurs propres sont non-positives.
Montrons un lemme qui sera utilisé dans la preuve du théorème d’inversion locale. On écrit L(E)
pour les applications linéaires continues de E dans E (donc L(E) = L(E, E)).
Lemme 1.30. Soit E un espace de Banach. L’ensemble I(E) = {T ∈ L (E) ; T inversible} est un
ouvert de L (E) et l’application I(E) 3 T 7→ T −1 ∈ L (E) est continue.
Voici le théorème d’inversion locale.
Théorème 1.31 (inversion locale). Soient E un espace de Banach, f : U → E (où U est un ouvert
de E) une fonction de classe C 1 et a ∈ U tels que Df (a) est un homéomorphisme. Alors il existe U 0
un ouvert qui contient a et V 0 un ouvert qui contient f (a) tels que f est un diffémorphisme de U 0
dans V 0 .
Nous avons aussi une version globale du théorème d’inversion locale.
Théorème 1.32 (inversion globale). Soient E un espace de Banach, f : U ouvert de E à valeurs
dans E une fonction de classe C 1 . Si f est injective et Df (x) est un homéomorphisme pour tout
x ∈ U alors f (U ) est un ouvert et f est un difféomorphisme de U dans f (U ).
Exemples.
a) Considérons le système (
4xy + 2xz + y + 4y 2 = 0
x3 y + xz + 4z − z 2 = 0
au voisinage du point (0, 0, 0). Le théorème des fonctions implicites s’applique et nous permet
d’exprimer y et z en fonction de x. Mais il ne s’applique pas pour exprimer x et y en fonction
de z, ni x et z en fonction de y. Par ailleurs, il ne peut pas s’appliquer pour exprimer par
exemple x en fonction de y et z car dans le théorèmes des fonctions implicites le nombre de
variables qui s’expriment en fonction des autres est toujours égal au nombre d’équations.
b) Considérons l’équation 2xy−z+2xz 3 = 5 au voisinage du point (1, 2, 1). On peut exprimer z en
fonction de x et y et on peut calculer les dérivées de la fonction implicite en (1, 2)à n’importe
quel ordre.
Dans le cas des surfaces aussi, on pourrait avoir envie de considérerdes sous-ensembles de Rn
décrits de manière implicte. Par exemple, l’ensemble
C := {(x, y, z) ∈ R3 : x2 + y 2 + z 2 − 1 = 0}
est clairement la sphère unité autour de l’origine, qui peut être parametré par
pour (u, v) dans tout ouvert contenant [0, 2π] × [− π2 , π2 ]. Le théorème des fonctions implicites peut
également être utilisé localement. On présentera les résultats seulement dans le cas des surfaces dans
l’espace de dimension trois.
Proposition 2.5. Si f : R3 → R est C 1 et ∇f 6= 0 sur l’ensemble C = {x ∈ R3 : f (x) = 0}, alors
localement cet ensemble peut être décrit comme graphe d’une fonction φ ∈ C 1 , c’est-à-dire, dans
un système de coordonnées opportun, comme support d’une surface de la forme (u, v) 7→ X(u, v) =
(u, v, φ(u, v)).
On oberve aussi que les surfaces parametrées comme graphe sont toujours régulières.
Dans le cas d’une surface définie implicitement par f = 0, le plan tangent en un point x0 où
f (x0 ) = 0 et ∇f (x0 ) 6= 0 est donné par l’orthogonal à ∇f (x0 ).
Définition 2.8. Une courbe est dite paramétrée par la longueur d’arc, ou par l’abscisse curviligne,
si kγ 0 (t)k = 1 pour tout t.
Remarque. La notion de longueur d’une courbe, ainsi que celle de courbe paramétrée par la
longueur d’arc, dépendent de la norme choisie. En l’absence d’indication contraire, on sous-entend
en général qu’il s’agit de la norme euclidienne.
Proposition 2.9. Toute courbe régulière admet un paramétrage par la longueur d’arc. Ce paramé-
trage est uniqueà une translation près et au sens de parcours près. De plus, dans le cas de la norme
euclidienne, si la courbe originale est C k son parametrage par la longueur d’arc l’est aussi.
Proposition 2.10. Dans un point régulier γ(t0 ), la direction de la tangente à la courbe est donnée
par γ 0 (t0 ). Si, de plus, γ est paramétrée par la longueur d’arc (par rapport à la norme euclidienne),
alors le vecteur γ 00 (t0 ) est normal à la courbe.
Définition 2.11. Soit γ une courbe C 2 paramétrée par la longueur d’arc. On appelle courbure la
quantité
κ(t) = kγ 00 (t)k
et centre de courbure le point
γ 00 (t)
P (t) = γ(t) +
kγ 00 (t)k2
Proposition 2.12. Soit γ une courbe régulière C 2 (pas nécessairement paramétrée par la longueur
d’arc). Nous avons la formule suivante pour la courbure :
|γ 0 (t) ∧ γ 00 (t)|
κ(t) =
kγ 0 (t)k3
où on a utilisé la notation x ∧ y = x1 y2 − x2 y1 .
La courbure est une mesure quantitative du caractère ‘plus ou moins courbé”. La courbure d’une
droite est nulle. Celle d’un cercle de rayon R est R1 . Intuitivement, un bout d’un cercle de rayon très
grand semble être presque plat ; il est donc normal que sa courbure soit petite. Nous avons aussi la
réciproque :
Proposition 2.13. a) Toute courbe régulière de classe C 2 de courbure nulle est un bout de droite.
b) Toute courbe régulière de classe C 3 de courbure constante et strictement positive est un bout
de cercle.
Définition 2.14. Le cercle osculateur est le cercle dont le centre est le centre de courbure et le rayon
1
est l’inverse de la courbure : C(P (t), κ(t) ).
2.2.3 Remarques sur les courbes gauches
Une courbe gauche est une courbe de R3 qui n’est pas plane. La tangente à la courbe est encore
dirigée par γ 0 . Soit γ paramétrée par la longueur d’arc. Alors γ 00 est encore orthogonale à γ 0 , donc
à la courbe. On appelle plan osculateur le plan engendré par γ 0 (t) et γ 00 (t) et qui passe par γ(t). On
peut définir comme en dimension deux la courbure et le cercle osculateur qui sera tracé dans le plan
osculateur. Une quantité spécifiqueà la dimension trois est la torsion qui est définie par
det(γ 0 , γ 00 , γ 000 )
θ=−
kγ 0 ∧ γ 00 k2
La torsion d’une courbe mesure la manière dont la courbe se tord pour sortir de son plan oscu-
lateur. On peut montrer
Proposition 2.15. Soit γ une courbe C 3 dans R3 , birégulière en tout point. Alors sa torsion est
identiquement nulle si et seulement si la courbe est plane.
On se propose de trouver les courbes qui sont gédosésiques dans le cas de la sphère M = S2 ⊂
R3 = {x ∈ R3 , ||x|| = 1} (la norme étant toujours la norme euclidenne). Il s’agit en fait des arcs
de grand cercle, qui sont de la forme γ(t) = v cos t + w sin t pour tout choix de v, w vecteurs unités
orthogonaux : ||v|| = ||w|| = 1, v · w = 0, à condition que T soit suffisamment petit.
On a besoin des lemmes suivants.
Lemme 2.17. Il existe une constante C telle que l’inégalité suivante (dite de Poincaré) est satisfaite
par toute fonction η : [0, T ] → Rd de classe C 1 avec η(0) = η(T ) = 0 :
ZT ZT
2
||η(t)|| dt ≤ CT 2
||η 0 (t)||2 dt.
0 0
Il est facile de montrer l’inégalité avec C = 1, de l’améliorer avec C = 1/4, mais la constante
optimale (qu’on peut trouver en regardant les séries de Fourier) est C = π −2 .
Lemme 2.18. Si γ : [0, T ] → R3 est de la forme γ(t) = v cos t + w sin t avec ||v|| = ||w|| = 1,
v · w = 0, et γ̃ : [0, T ] → S2 satisfait γ̃ ∈ C 1 , γ̃(0) = γ(0), γ̃(T ) = γ(T ), et T est suffisamment petit
(CT 2 ≤ 1 si C est la constante du lemme précédent) alors on a
ZT ZT
||γ 0 (t)||2 dt ≤ ||γ̃ 0 (t)||2 dt.
0 0
Proposition 2.19. Toute courbe γ : [0, T ] → R3 de la forme γ(t) = v cos t + w sin t avec ||v|| =
||w|| = 1, v · w = 0, est une géodésique de S2 si T est suffisamment petit.
On peut se demander qu’en est-il des géodésiques sur d’autres surfaces. On considérera une surface
S décrite de manière implicite comme S = {x ∈ R3 : f (x) = 0} pour une fonction f : R3 → R
régulière (au moins C 1 , mais on aura besoin jusquà C 3 pour certains énoncés) et telle que ∇f 6= 0
sur S.
Le point clé de l’analyse d’optimalité des grands cercles étaient l’équation différentielle qu’ils
satisfont, γ 00 = −γ. Comme dans la sphère le vecteur normal au point x ∈ S2 est le vecteur unité x
même, la généralisation qui nous intéresse concerne les courbes telles que l’accélération γ 00 est normale
à S en tout point. On a d’abord l’énoncé suivant.
Lemme 2.20. Si une courbe γ : [0, T ] → S est telle que γ 00 est normal à S en tout point, alors on a
forcément
D2 f (γ(t))(γ 0 (t), γ 0 (t))
γ 00 (t) = − ∇f (γ(t)).
||∇f (γ(t))||2
On considère maintenant l’EDO définie par la relation ci-dessus, et on a :
De plus, cette solution satisfait γ(t) ∈ S et ||γ 0 (t)|| = ||w|| pour tout t. Enfin, toute courbe γ : [0, T ] →
S solution de cette équation différentielle est une géodésique si T est sufisamment petit.
La propriété ||γ 0 (t)|| = ||w|| permet de donner une borne sur γ 0 (t). Avec une borne sur γ 0 (t) aussi
on voit que la solution ne peut pas exploser et cela montre que son intervalle maximal de définition
est bien R. Cela peut être garantit par l’hypothèse que S soit un ensemble compact mais on n’a pas
strictement besoin de cette hypothèse. En effet, pout tout inter valle fixé [−T, T ] on a bien une borne
sur |γ(t)|, et plus précisément ||x0 || + T ||w||.
On note que cette matrice coïncide également avec la matrice DX T · DX. Cete matrice dépend
évidemment de la paramétrisation, et si on écrit X = Y ◦ φ (avec X : Ω → R3 , Y : ω 0 → R3 et
φ : Ω0 → Ω) on trouve I(X) = (Dφ)T · I(Y ) · Dφ, où I(Y ) représente la première forme fondamentale
écrite selon la base donnée par la paramétrisation Y (au point φ(u, v)) et I(X) celle écrite selon la
base donnée par la paramétrisation X (au point (u, v)).
La première forme fondamentale est celle qui donne la déformation des longueurs entre les courbes
dans Ω et celles sur S : si ω : [0, T ] → Ω est une courbe, γ := X ◦ ω est une courbe à valeur dans S,
et on a ||γ 0 (t)||2 = ||DX(ω(t))ω̇ 0 (t)||2 = Iω(t),(X) (ω 0 (t), ω 0 (t)), donc
ZT q
long(γ) = Iω(t),(X) (ω 0 (t), ω 0 (t))dt.
0
La Seconde Forme fondamentale, notée II, est définie seulement lorsque X est C 2 . Elle représente
l’écart dans la direction normale, à l’ordre deux, de la suface par rapport au plan tangent. Notamment,
pour tout w ∈ TanP (S), la valeur de II(w, w) est telle que l’on a n·(Q−P ) = 21 II(w, w)+o(||w||2 ), où
Q est le point de S tel que Q − (P + w) est parallèle à n. Si on prend (u0 , v0 ) = (0, 0) et w = uu + vv
on a
1 1
Q = X(u, v) = P + w + Xuu u2 + Xuv uv + Xv v 2 + o(||(u, v)||2 ).
2 2
Or, le point Q n’est pas celui tel que Q − (P + w) est parallèle à n, mais il est tel que Q − (P + w̃)
est parallèle à n, pour un vecteur w̃ = w + o(||w||) appartenant aussi à l’espace tangent. On obtient
donc
1 1
II(w, w) + o(||w||2 ) = II(w̃, w̃) + o(||w||2 ) = n · (Q − (P + w̃)) = n · (Q − (P w))
2 2
1 1
= n · ( Xuu u2 + Xuv uv + Xv v 2 ) + o(||w||2 ).
2 2
Cela nous permet d’écrire II dans la base (u, v) comme
Xuu · n Xuv · n
II := .
Xuv · n Xvv · n
I = I, II = D2 ϕ.
Dans le cas où S est exprimée comme S = {x : f (x) = 0} pour une fonction f ∈ C 2 et telle que
∇f 6= 0 sur S on a aussi l’identité entre formes bilinéaires
D2 f
II = − ,
||∇f ||
parce qu’on a, par exemple, ∇f (X)·Xu u = −D2 f (X)(Xu , xu ). Attention : les deux formes bilinéaires
pourraient être écrites dans deux bases différentes (d’habitude, quand on écrit D2 f comme matrice
des deérivées seocndes, on utilise la base canonique, pas celle engendrée par Xu et Xv ).
La seconde forme fondamentale sert à déterminer si lasurface se trouve d’un côté ou de l’autre du
plan tangent : elle est du côté du vecteur n si II est définie posiitive, du côté opposé si II est définie
négative,et elle passe d’un côté à l’autre si II a deux valeurs propres de signes opposés (et donc si
det II < 0, e qui est un invariant parce que le signe du déterminant de I est toujours positif.
Par exemple, pour S = {(x, y, z) : z 2 = x2 + y 2 + 1} la seconde forme fondamentale en (0, 0, 1)
est définie positive et S y est localement au-dessus du plan tangent, qui est horzontal. Pour la surface
de rotation S = {(x, y, z) : z 2 + 1 = x2 + y 2 }, au contraire, la econde forme fondamentale en (1, 0, 0)
n’est pas définie, et en efet la surface se trouve d’ûn ecôté en suivant z = 0 et de l’autre en suivant
y = 0.
On considère maintenant une géodésique γ : [0, T ] → S = {f = 0} avec γ(t0 ) = x0 et γ 0 (t0 ) = w
et on regarde sa courbure. On prendra des géoédsiques satisfaisant l’EDO introduite précédemment
et on suppose ||w|| = 1 de manière à ce que la courbe soit paramétrée par longueur d’arc. On a
Cela montre le lien entre seconde forme fondamentale et courbures : les courbures des géodésiques
passant par x0 sont obtenues en évaluant la seconde forme fondamentale sur des vecteurs unités (donc
des vecteurs où la première forme fondamentale vaut 1).
3 Éléments d’optimisation
3.1 Existence du minimum
On s’intéresse à des problèmes du type
Théorème 3.1. Si f est continue et E est compact, alors il existe un point x0 ∈ E réalisant le
minimum de f , c’est-à-dire f (x0 ) ≤ f (x) pour tout x ∈ E.
Souvent l’ensemble E n’est pas compact, mais on peut pouver l’existence lorsque la fonction f
tend vers l’infini en l’infini ou, plus généralement, si sa limite (ou liminf) en l’infini est plus grande
que des valeurs prises dans des points de E. L’énoncé le plus général qu’on peut prouver est le suivant.
Théorème 3.2. Soit E un ensemble fermé mais non borné et f : E → R une fonction continue.
Soit `0 := lim inf f (x).
||x||→+∞,x∈E
— S’il existe x0 ∈ E tel que f (x0 ) < `0 alors f admet un minimum sur E.
— Si pour tout x ∈ E on a f (x) > `0 alors f n’admet pas de minimum sur E.
— Si pour tout x ∈ E on a f (x) ≥ `0 et qu’il existe au moins un point x0 ∈ E tel que f (x0 ) = `0 ,
alors f admet un minimum sur E.
Théorème 3.3. Supposons que f est C 1 , que x0 est un minimum local de f sur E, et que x0 est
dans l’intérieur de E (il existe un rayon r > 0 tel que B(x0 , r) ⊂ E). Alors ∇f (x0 ) = 0.
On s’intéresse maintenant au cas où l’ensemble E est donné de manière implicite par des équations
gi (x) = 0. En général, cela définit une surface et aucun point de E ne serait à l’intérieur. On a le
théorème suivant (extrema liés ou multiplicateurs de Lagrange) :
La condition sur le rang de Dg(x0 ) est dite condition de qualification des contraintes. Ce théorème
est à interpréter surtout comme une manière d’exclure P l’optimalité de certains (en fait, la plupart)
points : seuls les points où la condition ∇f (x0 ) = λi ∇gi (x0 ) ou ceux où le rang de Dg(x0 ) est
i
strictement plus petit que k ont le droit d’être des points de minimum.
Par exemple, pour la résolution d’un problème du type
Il s’agit d’un sytème avec n+#J inconnues et n+#J équations et devrait raisonnablement
avoir peut de solutions ; ce système peut également s’écrire sous la forme
k
X
∇f (x0 ) = λi ∇gi (x0 ), λi gi (x0 ) = 0;
i=1
— tous les points où on ne peut pas appliquer le théorème des extrema liés parce que le
rang de Dg(x0 ) n’est pas k (cela correspond à résoudre, pour tout J, un système avec
#J équations pour imposer gi = 0 et énormément d’équations pour imposer que tous les
mineurs de la matrice Jacobienne s’annulent, ce qui n’a souvent pas de solutions).
— epsérer que ces points ne soient pas trop nombreux et calculer la valeur de f en chacun ;
— prendre le ou les points qui donnent la valeur la plus petite.
On peut aussi donner une condition nécessaire d’optimalité d’ordre deux.
Une application des multiplicateurs de Lagrange permet de prouver le résultat bien connu de
diagonalisation des matrices symétriques :
On peut d’ailleurs vérifier la validité de la condition d’ordre deux sur les points solution des
problèmes d’optimisation de cet exemple.
Proposition 3.8. Si f est C 1 elle est convexe si et seulement si f 0 est une fonction croissante et si
et seulement si on a l’inégalité suivante
pour tout x, y.
Si f est C 2 alors elle est convexe si et seulement si f 00 ≥ 0.
pour tout x, y.
Si f est C 2 alors elle est convexe si et seulement si D2 f ≥ 0 au sens des matrices symétriques.
On donne aussi la définition de fonction uniformément convexe ou elliptique.
Définition 3.10. Une fonction f : Rn → R est dite uniformément convexe ou elliptique s’il existe
α > 0 tel que x 7→ f (x) − α2 ||x||2 est une fonction convexe (on dit alors qu’elle est α-elliptique).
Proposition 3.12. Si f est une fonction convexe C 1 alors un point x̄ minimise f si et seulement
∇f (x̄) = 0. Si f est une fonction strictement convexe alors le point de minimum, s’il existe, est
unique. Si f est elliptique alors le point de minimum existe et est unique.
En effet, si la stricte convexité est suffisante pour l’unicité du minimimseur elle ne l’est pas pour
l’existence (penser à f (x) = ex ). Par contre, l’ellipticité est suffisante pour l’existence parce que toute
fonction elliptique est minorée par une parabole.
Théorème 3.13. Soit f : Rn → R une fonction C 2 avec αI ≤ D2 f (x) ≤ LI pour deux constants
L ≥ α > 0. Supposons τ ∈]0, L2 [. Alors la suite définie par l’algorithme du gradient à pas fixe converge
vers le seul minimiseur x̄ de f et on a
Cet algorithme converge très vite mais à condition de démarrer en un point x0 qui soit déjà suffi-
samment proche de x̄, solution de F (x̄) = 0.
Théorème 3.14. Soit F : Rn → Rn une fonction C 2 avec F (x̄) = 0 et DF (x̄) inversible. Alors il
existe un rayon R > 0 tel que
— DF (x) est inversible pour tout x ∈ B(x̄, R) ;
— pour tout point x ∈ B(x̄, R) on a x − (DF (x))−1 F (x) ∈ B(x̄, R) ;
— pour tout point x0 ∈ B(x̄, R) la suite donnée par xk+1 = xk − (DF (xk ))−1 F (xk ) converge vers
x̄ et on a
||xk+1 − x̄|| ≤ C||xk − x̄||2 .
en prenant F : Rn+k → Rn+k donnée par F (x, λ) = (∇f (x) − λi ∇gi (x), g(x)).
P
i