0% ont trouvé ce document utile (0 vote)
65 vues107 pages

Introduction aux Systèmes Dynamiques

Transféré par

cffc151
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
65 vues107 pages

Introduction aux Systèmes Dynamiques

Transféré par

cffc151
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Systèmes Dynamiques FIMFA

Notes du cours

Raphaël KRIKORIAN
Université Paris 6

Année 2008-2009
2
Table des matières

1 Quelques Notions de Dynamique 7


1.1 Systèmes dynamiques . . . . . . . . . . . . . . . . . . . . . . . 7

2 Dynamique Topologique 9
2.1 Récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Minimalité . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Transitivité . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.3 Mélange topologique . . . . . . . . . . . . . . . . . . . 13
2.3 Décalages (ou shifts) . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.1 Shift de Bernoulli . . . . . . . . . . . . . . . . . . . . . 13
2.3.2 Sous-shifts de type fini . . . . . . . . . . . . . . . . . . 14
2.4 Application à la preuve du théorème de van der Waerden . . . 17

3 Mesures Invariantes 21
3.1 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Premiers exemples . . . . . . . . . . . . . . . . . . . . 25
3.2 Les Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Le point de vue spectral et le théorème de Von Neumann 27
3.2.2 Convergence presque sûre . . . . . . . . . . . . . . . . 29
3.3 Liens avec la dynamique topologique . . . . . . . . . . . . . . 31
3.3.1 Existence de mesures ergodiques . . . . . . . . . . . . . 31
3.3.2 Points génériques . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Unique ergodicité . . . . . . . . . . . . . . . . . . . . . 33
3.4 Mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4 Homéomorphismes et difféomorphismes du cercle 43


4.1 Homéomorphismes du cercle . . . . . . . . . . . . . . . . . . . 43
4.1.1 Forme des relevés d’un homéomorphisme du cercle . . . 43
4.1.2 Nombre de rotation . . . . . . . . . . . . . . . . . . . . 45
4.1.3 Le théorème de Poincaré . . . . . . . . . . . . . . . . . 48

3
4 TABLE DES MATIÈRES

4.2 Difféomorphismes du cercle . . . . . . . . . . . . . . . . . . . . 51


4.2.1 Rappels sur les fractions continues . . . . . . . . . . . 51
4.2.2 Théorème de Denjoy . . . . . . . . . . . . . . . . . . . 54
4.2.3 Contre-exemples de Denjoy . . . . . . . . . . . . . . . 56
4.2.4 Le Théorème d’Herman-Yoccoz . . . . . . . . . . . . . 57
4.2.5 Théorème d’Arnold . . . . . . . . . . . . . . . . . . . . 57

5 Hyperbolicité 59
5.1 Point fixe hyperbolique d’un difféomorphisme . . . . . . . . . 59
5.2 Stabilité structurelle des automorphismes du tore . . . . . . . 63
5.2.1 Forme des homéomorphismes du tore . . . . . . . . . . 63
5.2.2 Conjugaison topologique . . . . . . . . . . . . . . . . . 64
5.3 Variétés stables et instables . . . . . . . . . . . . . . . . . . . 65

6 Théorie spectrale 69
6.1 Le théorème spectral . . . . . . . . . . . . . . . . . . . . . . . 70
6.2 Transformations à spectre discret . . . . . . . . . . . . . . . . 72
6.3 Mélange faible . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.4 Facteur de Kronecker . . . . . . . . . . . . . . . . . . . . . . . 77
6.5 Couplages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.6 Mélange faible d’ordre supérieur . . . . . . . . . . . . . . . . . 79

7 Entropie 81
7.1 Entropie métrique . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1.1 Entropie d’une partition finie . . . . . . . . . . . . . . 81
7.1.2 Entropie d’une transformation . . . . . . . . . . . . . . 84
7.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.1.4 Théorème de Shannon . . . . . . . . . . . . . . . . . . 90
7.1.5 Entropie d’un facteur, d’un produit et d’une puissance 92

A Calcul différentiel 95
A.1 Théorèmes du Point Fixe . . . . . . . . . . . . . . . . . . . . . 95
A.1.1 Théorème du Point Fixe pour les applications contrac-
tantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A.2 Le théorème d’Inversion Locale et ses conséquences . . . . . . 98
A.2.1 Difféomorphismes . . . . . . . . . . . . . . . . . . . . . 98
A.2.2 Inversion locale . . . . . . . . . . . . . . . . . . . . . . 99
A.2.3 Fonctions Implicites . . . . . . . . . . . . . . . . . . . 101
A.2.4 Théorème du rang constant . . . . . . . . . . . . . . . 102
A.3 Sous-variétés de Rm . . . . . . . . . . . . . . . . . . . . . . . . 103
A.3.1 Définition, exemples . . . . . . . . . . . . . . . . . . . 103
TABLE DES MATIÈRES 5

A.3.2 Espace tangent . . . . . . . . . . . . . . . . . . . . . . 104


A.3.3 Groupes et algèbres de Lie linéaires . . . . . . . . . . . 105
A.3.4 Variétés . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6 TABLE DES MATIÈRES
Chapitre 1

Quelques Notions de Dynamique

1.1 Systèmes dynamiques


Un système dynamique est la donnée d’un ensemble X (l’espace des
phases) et d’un groupe G agissant sur X. Bien souvent ce groupe est Z et on
dit que le système dynamique est discret ou R et on parle alors de système
dynamique continu. On peut considérer cependant des dynamiques associées
à des groupes de Lie, par exemple SL(2, R). On peut également considérer
l’action de semi-groupes sur G et on parle de dynamiques non-inversibles.
Une action du groupe Z sur X est équivalente à l’itération d’une appli-
cation bijective f : X → X ; plus généralement l’itération d’une application
f : X → X non nécéssairement injective est équivalente à l’action du semi-
groupe N sur X. Ces exemples seront les principaux sujets d’étude de ce
cours.
Une action de R sur X est équivalente à un groupe à un paramètre réel
de bijections de X sur X.
Pour obtenir des objets d’étude intéressants, il faut supposer que l’espace
X et la dynamique sont munis de structure supplémentaires.
Quand X est un espace muni d’une σ-algèbre B (et d’une mesure de proba-
bilité µ ) et que f : X → X est une application mesurable, la dynamique est
dite mesurable ;
quand X est un espace topologique (muni d’une topologie U) et que l’action
de Z est continue (ou l’application f : X → X est continue) on dit que l’on
a à faire à un système dynamique topologique ;
si X est une variété différentiable et f : X → X est de classe C k on dit que
la dynamique est différentiable.
L’objet de la théorie ergodique est l’étude des dynamiques mesurables.

7
8 CHAPITRE 1. QUELQUES NOTIONS DE DYNAMIQUE

Définition 1.1.1 Un système dynamique mesurable est la donnée d’un es-


pace mesurable (X, B) et d’une application f : X → X mesurable : pour tout
B ∈ B, f −1 (B) ∈ B. Si f est bijective et que f −1 est également mesurable on
dit que la dynamique est inversible.
Dans la pratique, nos espaces mesurables sont munis d’une mesure de
probabilité µ.

Définition 1.1.2 Un système dynamique mesuré est la donnée dun espace


mesuré (X, B, µ) et d’une application f : X1 → X2 où X −X1 et X −X2 sont
µ-négligeables, f est mesurable et préserve la mesure µ : pour tout B ∈ B,
µ(f −1 (B)) = µ(B). Si f est bijective et que f −1 est également mesurable on
dit que la dynamique est inversible.

Exercice Soit S : R/Z définie par Sx = 2x. Montrer que S est bien définie
et montrer que pour tout entier n, x = p/(2n − 1) (0 ≤ p < 2n − 1) est
un point périodique de période n. (Il s’agit de démontrer que les points
x, Sx, . . . , S n−1 x sont distincts, ce qui revient à démontrer que (2b −1)/(2a −1)
n’est pas entier si a ne divise pas b ; on pourra faire la division euclidienne
b = qa + r).
Chapitre 2

Dynamique Topologique

Dans ce qui suit X est un espace métrique compact et f : X → X est


une application continue.

Ensembles invariants Un ensemble A ⊂ X est dit invariant si f (A) ⊂ A,


fortement invariant si f (A) = A et complètement invariant si f −1 (A) = A.
Quand f est un homéomorphisme, ces notions coincident.

2.1 Récurrence
Point périodique Un point x ∈ X est périodique s’il existe n0 ∈ N tel
que f n0 (x) = x. Nous noterons Pn (f ) l’ensemble n
S des points fixes de f : c’est
un compact ; de même nous noterons P (f ) = n∈N Pn (f ).

Point récurrent Un point x est dit récurrent ssi

inf d(x, f n (x)) = 0.


n≥1

Ensembles α et ω-limite Si x ∈ X, l’ensemble des points ω-limite de x est


l’ensemble des y ∈ X qui sont points d’accumulation de la suite (f n (x))n≥0 .
Si f est inversible on définit également l’ensemble α-limite de x qui est l’en-
semble des points d’accumulation de la suite (f n (x))n≤0 . Si f est inversible,
nous notons [ 
L(f ) = Adh ω(x) ∪ P ∪ α(x) .
x∈X

9
10 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Point non errant Un point x0 est dit errant ssi il existe un voisinage U
de x0 tel que pour tout n ≥ 1, f n (U ) ∩ U = ∅ ; un point est non-errant s’il
n’est pas errant. On note Ω(f ) l’ensemble des points non errants.

Point récurrent par chaînes Un point x est récurrent par chaîınes si


et seulement si pour tout  > 0 il existe une suite xi , 0 ≤ i ≤ n telle que
x0 = x = xn et telle que pour tout 0 ≤ i ≤ n − 1, on a d(xi+1 , f (xi )) ≤ .

2.2 Irréductibilité
2.2.1 Minimalité
Notons F l’ensemble des compacts non-vides K ⊂ X qui sont f -invariants.
Un compact K est dit minimal s’il est minimal dans F pour l’inclusion (si
L ⊂ K avec L compact et f (L) ⊂ L alors L = K). On dit que X est minimal
s’il ne contient aucun compact non vide invariant autre que lui-même.
L’intérêt de cette notion réside dans la proposition suivante :

Proposition 2.2.1 Un compact K ⊂ X est minimal ssi pour tout x ∈ K,


Adh(f n (x))n∈N = K.
Démonstration.— Supposons que K soit minimal. Alors pour tout x ∈ K
le compact Adh(f n (x))n∈N = K est f -invariant non vide inclus dans K et
égale donc K. Réciproquement si pour tout x ∈ K on a Adh(f n (x))n∈N = K,
alors si L ⊂ K est un compact invariant on a pour x ∈ L, et tout n ≥ 0,
f n (x) ∈ L et partant K = Adh(f n (x))n∈N ⊂ L c’est-à-dire L = K.
2
Le principal rèsultat est :

Théorème 2.2.1 Si (X, d) est un espace métrique compact et f : X → X


est continue, il existe toujours un compact K ⊂ X minimal.
Démonstration.— Nous aurons besoin pour la preuve du lemme de Zorn

Lemme 2.2.1 (Zorn) Si F est un ensemble muni d’une relation d’ordre, il


existe un sous-ensemble totalement ordonné et maximal pour cette propriété.
Ainsi, (F, ⊂) contient un sous-ensemble totalement ordonné maximal G. Le
compact K = ∩K∈G L est f -invariant et minimal.
2
2.2. IRRÉDUCTIBILITÉ 11

Définition 2.2.1 On dit que f est minimale sur X ou que X est minimale
pour f si X est f -minimal.

Remarque : Si f est minimale et si X est infini alors f n’admet pas d’orbite


périodique.
Exemples : a) Soit X = R/Z le tore et f (x) = x + α. Montrons que
f est minimale si et seulement si α ∈ / Q/Z. Si α = p/q il est clair que
q
tout point est périodique (f (x) = x mod 1). Réciproquement supposons α
irrationnel : alors la suite nα est dense sur T. En effet, la suite nα prend une
infinité de valeurs sur le compact X et admet donc un point d’accumulation,
disons x0 , c’est-à-dire qu’il existe une suite nk strictement croissante telle
que nk α converge vers x0 . Ainsi, pour tout  > 0, il existe N tel que, dès que
nk > nl ≥ N , on a d(nk α, nl α) <  soit : d(mα, 0) <  où m = nk − nl . Il est
facile de voir que si z ∈ T vérifie d(z, 0) <  alors pour tout x ∈ T il existe
r ∈ N tel que d(x, rz) < . Si on pose z = mα, on a ainsi d(x, (rm)α) < .
Terminons la preuve de la minimalité : si x et y sont deux points il existe
r0 ∈ N tel que d(y − x, r0 α) <  et donc d(y, x + r0 α) < .
b) Sur X = R/Z, f (x) = 2x n’est pas minimale car elle admet des points
périodiques (les k/2n ).
c) Un homéomorphisme de R n’est jamais minimal
d) Un homéomorphisme de R2 n’est jamais minimal (c’est une conséquence
du théorème de translation de Brouwer : si un homéomorphisme de R2 est
sans point fixe alors tout point est errant).

2.2.2 Transitivité
Définition 2.2.2 On dit que f est transitive sur X si et seulement s’il existe
un point x ∈ X tel que l’ensemble des points d’accumulation de l’orbite posi-
tive de x soit dense dans X. (Si f est inversible il est équivalent de dire que
l’orbite de x est dense dans X).
Voici une proposition qui justifie la terminologie :

Proposition 2.2.2 f est transitive sur X si et seulement si pour tous ou-


verts U et V de X il existe n tel que f −n (U ) ∩ V 6= ∅ (c’est-à-dire il existe
un point de U qui visite un point de V ).
Démonstration.— Supposons donc qu’il existe un point z ∈ X tel que l’en-
semble des points d’accumulation de l’orbite positive de z soit dense et soient
U, V deux ouverts de X. Il existe donc n > m entiers positifs tels f m (z) ∈ U
et f n−m (f m (z)) = f n (z) ∈ V . On a donc f m (z) ∈ U ∩ f −(n−m) (V ).
12 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Réciproquement, supposons que pour tous ouverts U, V de X il existe n


tel que U ∩ f −n (V ) 6= ∅. Remarquons qu’en fait il existe une infinité de tels
entiers n (pourquoi ?). On en déduit que pour tout N l’ouvert
[
f −n (B)
n≥N

est dense. Puisque X est compact, pour tout p ≥ 1 il existe un recouvrement


fini de X par des boules ouvertes de rayon 1/p. Notons Rp cet ensemble fini
de boules de rayons 1/p. L’ensemble
\ \ \ [
f −n (B)
p≥1 B∈Rp N ≥0 n≥N

est l’ensemble des points dont l’orbite positive a un ensemble dense de points
d’accumulation. Mais, c’est une intersection dénombrable d’ouverts denses et
d’après la propriété de Baire (X est compact) c’est un ensemble dense, donc
en particulier non vide.
2

Remarque La preuve du théorème précédent montre que l’ensemble des


points z dont l’orbite est dense est en fait un Gδ -dense de X.
Exercice : a) Montrer que f est minimale si et seulement si pour tout ouvert
U de X il existe N tel que

N
[
X= f −i (U ).
i=0

b) Montrer que f est transitive si et seulement pour tout ouvert U ,


[
f −i (U )
i=0

est dense dans X.


c) Montrer que si f est transitive alors pour toute fonction continue φ : X →
R φ ◦ f = φ implique que φ est constante. Que dire de la réciproque ?
d) Montrer qu’une action isométrique est transitive si et seulement si elle est
minimale.
2.3. DÉCALAGES (OU SHIFTS) 13

2.2.3 Mélange topologique


Définition 2.2.3 On dit que f est topologiquement mélangeante si pour tous
ouverts U, V de X il existe N tel que pour tout n ≥ N f −N (U ) ∩ V 6= ∅.

Remarque : Le mélange topologique, tout comme la minimalité entraîne la


transitivité l’inverse étant faux.

Exemples a) Sur X = R/Z, f (x) = 2x est topologiquement mélangeante


(et donc transitive). En effet, il suffit de démontrer que pour tous intervalles
dyadiques I et J, il existe N tel que pour tout n ≥ N f −n (I)∩J est non vide.
Or dès que n ≥ N , f −n (I) a une intersection non vide avec tout intervalle
dyadique de longueur 2−N .
b) Une translation Tα sur R/Z n’est jamais faiblement mélangeante : si α est
rationnel c’est clair car Tα n’est pas transitive ; si α est irrationnel soient I
et J deux intervalles de longueur 1/4 par exemple et notons I0 un intervalle
de longueur 1/4 disjoint de J. Comme Tα est minimale, on sait que Tα−n (I)
sera pour une infinité de valeurs de n proche de I0 et sera donc disjoint de J.
c) L’application du tore R2 /Z2 définie par A(x, y) = (2x + y, x + y) est
topologiquement mélangeante (mais pas minimale : elle admet une infinité
de points périodiques).

2.3 Décalages (ou shifts)


2.3.1 Shift de Bernoulli
Notons Σ = {0, 1}N , l’ensemble des suites (xi )i∈N , xi ∈ {0, 1}. On munit
Σ de la distance ultra-métrique

d(x, y) = 2−m(x,y) , m(x, y) = inf{j : xj 6= yj }.

Les cylindres C(m; a0 , . . . , am ) = {(xj )j∈N : x0 = a0 , . . . , xm = am } est une


base d’ouverts de la topologie définie par d. Le théorème de Tykhonov (ou
encore un argument diagonal) montre que (Σ, d) est compact. On définit alors
l’application de décalage ou shift σ par

(σ(x))i = xi+1 .

Il est facile de voir que σ est continue sur (Σ, d).

Proposition 2.3.1 L’application σ est faiblement mélangeante.


14 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Démonstration.— Il suffit de démontrer que pour tous cylindres C =


C(m; a0 , . . . , am ), C 0 = C(m0 ; a00 , . . . , a0m0 ) il existe N tel que pour tout n ≥ N
σ −n (C) ∩ C 0 6= ∅. Mais σ −n (C) est l’ensemble des mots de la forme yaz où
a = a0 . . . am et y est une suite quelconque de longueur n, et z ∈ Σ est
également quelconque. Ainsi, si n ≥ m0 , tout mot de la forme a0 waz où
a0 = a00 . . . a0m0 et w de longueur n − m0 et z sont quelconques, appartient à
σ −n (C) ∩ C 0 .
2
On peut généraliser la construction et la proposition précédente au cas d’un
shift sur un alphabet à r symboles.

2.3.2 Sous-shifts de type fini


Soit A = {1, . . . , r} un alphabet à r symboles et A une matrice r × r à
coefficients dans {0, 1} telle que pour tout 1 ≤ i ≤ r il existe j et j 0 dans
A tels (A)ij = 1 et (A)j 0 i = 1. On associe à A un graphe orienté tel que
pour tous sommets i, j il existe au plus une flèche de i vers j et pour tout
sommet i il existe une flèche arrivant en i et une flèche sortant de i (cette
association (matrice,graphe) est alors bijective). Nous noterons ΓA le graphe
orienté associé à A et Γ̃A le graphe non-orienté associé à ΓA . Les hypothèses
que nous avons faites sur A assure que le graphe non orienté Γ̃A associé à A est
connexe. En revanche, la connexité du graphe orienté n’est pas automatique.

Définition 2.3.1 Le graphe orienté ΓA est dit fortement connexe si pour


toute paire i, j dans l’alphabet A il existe un chemin allant de i à j (en
suivant le sens des flèches).

Remarque : Le nombre de chemins de longueur r allant de i à j est le


coefficient (Ar )ij . Le graphe ΓA est donc fortement connexe si et seulement
si
∀ i, j ∃r(i, j), (Ar )ij > 0.
Nous noterons ΣA l’ensemble des suites (xi )i∈N de AN qui vérifient la
condition de compatibilité suivante : pour tout i ≥ 0, Axi x1+1 = 1. Il est
clair que ΣA est encore un espace compact quand on le munit de la distance
induite par l’inclusion et que ΣA est un fermé invariant par σ.

Théorème 2.3.1 Le système dynamique (ΣA , σ) est transitif si et seulement


si le graphe ΓA est fortement connexe.
Démonstration.— Remarquons déjà que si i, j ∈ A l’existence d’un chemin
de i à j est équivalente au fait qu’il existe un entier n tel que Ui ∩σ −n (Uj ) 6= ∅
2.3. DÉCALAGES (OU SHIFTS) 15

où on note Ui = {x : x0 = i} Uj = {x : x0 = j}. On a donc clairement que si


(ΣA , σ) est transitif alors ΓA est fortement connexe.
Réciproquement, supposons le graphe ΓA fortement connexe. Pour dé-
montrer la transitivité il suffit de prouver que pour tous cylindres C =
C(m; a0 , . . . , am ) et C 0 = C(m0 ; a00 , . . . , a0m0 ) il existe n tel que C ∩ σ −n (C 0 ) 6=
∅. Notons a (resp. a0 ) le mot a0 , . . . , am (resp. a00 , . . . , a0m0 ). On sait qu’il existe
un chemin allant de la fin du mot am de a au début du mot a00 de a0 . On peut
donc construire un mot b commençant par am et terminant par a00 . Alors tout
mot aba0 x est dans C et est tel que σ l (aba0 x) ∈ C 0 pour l égal à la somme
des longueurs des mots a et b.
2
Caractérisons les sous-shifts de type fini topologiquement mélangeant :

Théorème 2.3.2 Le système dynamique (ΣA , σ) est topologiquement mélan-


geant si et seulement si ΓA vérifie la propiété suivante : il existe un entier
r > 0 tel que pour toute paire (i, j) il existe un chemin de longueur r allant
de i à j (ce qui est équivalent à (Ar )ij > 0).
Démonstration.— Le début de la preuve du théorème précédent montre que
si (ΣA , σ) est topologiquement mélangeant, pour toute paire (i, j) il existe
un entier Ni,j tel que pour n ≥ Ni,j , Ui ∩ σ −n (Uj ) 6= ∅. Par conséquent si on
pose r = max i, jNi,j on a bien l’existence d’un chemin de longueur r dans le
graphe ΓA allant de i à j.
Réciproquement, supposons que le graphe vérifie la propriété du théo-
rème. Alors, Ar a tous ses coefficients positifs strictement. Comme aucune
ligne de A n’est nulle (et comme A est à coefficients positifs ou nuls), Ar+1
et plus généralement Ak , k ≥ r a tous ses coefficients strictement positifs. Il
existe donc des chemins pour tout k ≥ r et toute paire i, j, des chemins de
longueur k allant de i à j. Si on reprend la deuxième partie de la preuve du
théorème précédent, on voit que les mots de la forme aba0 x où b est un mot
de longueur k ≥ r sont dans C ∩ σ −k (C 0 ).
2
Il existe en fait une décomposition des sous-shifts de type fini transitifs
en union disjointe de fermés ou la restriction d’une puissance de σ est topo-
logiquement mélangeant.

Théorème 2.3.3 Le système (ΣA , σ) est transitif si et seulement si il existe


Σ1 , . . . , Σm fermés de ΣA disjoints et dont l’union est ΣA tels que
a) pour tout 1 ≤ i < m on a σ(Σi ) = Σi+1 et σ(Σm ) = Σ1 ;
b) σ m |Σ1 est topologiquement mélangeant.
16 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Démonstration.— Montrons déjà le sens direct. Notons Λij l’ensemble des


longueurs de chemins allant de i à j ; on a pour i, j, k ∈ A Λij + Λjk ⊂ Λik .
En particulier Λ11 + Λ11 ⊂ Λ11 et si on note m le pgcd des éléments de Λ11 on
peut dire que Λ11 contient tous les multiples de m assez grands (Exercice).
Définissons alors les sous-ensembles de A, I1 , . . . , Im de la façon suivante :
j appartient à Il si et seulement s’il existe un chemin allant de 1 à j de
longueurs congrue à l − 1 modulo m. On a alors,

Lemme 2.3.1 Si i ∈ Il et j ∈ Il0 tous les chemins allant de i à j sont de


longueurs congrues à l0 − l modulo m
Démonstration.— a) Démontrons déjà qu’il existe un chemin allant de i à
1 de longueur congrue à −l modulo m. On sait qu’il existe un chemin allant
de i à 1 dont on note s la longueur ; on peut donc construire un chemin
allant de 1 à 1 en concaténant un chemin de longueur congrue à l modulo
m et le chemin de longueur s. Comme tous les chemins allant de 1 à 1 sont
de longueurs divisibles par m (par définition de m), s doit être congru à −l
modulo m.
b) Démontrons que tous les chemins allant de 1 à i ont une longueur congrue
à l modulo m. En effet, étant donné un tel chemin de longueur t, puisqu’il en
existe un autre allant de i à 1 de longueur congrue à −l modulo m, on peut
en concaténant construire un chemin de 1 à 1 de longueur congrue à t − l
modulo m. Mais un tel chemin a une longueur divisble par m si bien que t
est congru à l modulo m.
c) Comme tout chemin allant de i à i concaténé à un chemin allant de i à 1
donne un chemin allant de i à 1, on déduit de b) que tout chemin de i à i est
de longueur congrue à 0 modulo m.
d) D’après b), il existe un chemin allant de i à j de longueur congrue à l0 − l
modulo m (en concaténant via 1) et un autre de j à i de longueur congrue à
l − l0 modulo m. Pour tout chemin allant de i à j de longueur t on peut en
concaténant en j construire un chemin de i à i de longueur congrue à t + l − l0
modulo m et comme cette longueur doit être un multiple de m d’après c) on
a bien la conclusion du lemme.
2
Définissons alors Σl comme étant l’ensemble des suites x = (xi )i∈N de ΣA
telles que x0 ∈ Il . Automatiquement, x1 ∈ Il+1 mod m car il existe un chemin
de 1 à x1 de longueur 1 + l (l de 1 à x0 et 1 de x0 à x1 ) et de façon plus
générale xk ∈ Il+k mod m . On a donc bien σ(Σl ) = Σl+1 mod m . Vérifions que
σ m restreint à Σ1 est topologiquement mélangeant. Pour cela on reprend la
démonstration du théorème précédent : il suffit de démontrer que si a est un
2.4. APPLICATION À LA PREUVE DU THÉORÈME DE VAN DER WAERDEN17

mot de longueur p commençant par une lettre de I1 et a0 un mot de longueur


p0 commençant par une lettre de I1 , on peut construire pour tout entier km
un mot compatible de la forme aba0 x où b est un mot de longueur km. Or
ceci est toujours possible dès que k est assez grand puisque Λ11 contient tous
les multiples de m assez grands.

La réciproque est laissée en exercice au lecteur.


2

2.4 Application à la preuve du théorème de van


der Waerden
Nous nous proposons de démontrer par des méthodes de dynamique to-
pologique le théorème suivant dû à van der Waerden :

Théorème 2.4.1 (van der Waerden) Si Z = A1 ∪ · · · ∪ Ap est une par-


tition de Z il existe i ∈ {1, . . . , p} tel que Ai contienne des progressions
arithmétiques de longueur arbitraire i.e : pour tout r ∈ N il existe a, b ∈ Z
tels que a, a + b, . . . , a + (r − 1)b appartiennent à Ai .

La preuve du théorème précédent est basée sur un théorème de récurrence


multiple :

Théorème 2.4.2 Si (X, d) est un espace métrique compact et T un homéo-


morphisme de X il existe x ∈ X tel que pour tout r ≥ 1

inf max d(x, T in x) = 0.


n≥1 1≤i≤r

Démonstration.— La preuve se fait par récurrence sur r ≥ 1.


i) Si r = 1 nous avons vu que le résultat est vrai : si K est un ensemble
minimal de X, tout point x de K est d’orbite dense dans K et en particulier
r{ecurrent.
ii) Notons K un ensemble minimal fixé et notons pour r ≥ 1, Er l’ensemble
des x ∈ K pour lesquels

inf max d(x, T in x) = 0.


n≥1 i≤r

Lemme 2.4.1 Si Er est un Gδ -dense de K alors il en est de même de Er+1 .


18 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Démonstration.— [du lemme 2.4.1]


A) Remarquons tout d’abord que l’ensemble Ẽr des x ∈ K pour lesquels
n
T ∈E
T x r pour tout n ∈ Z, x ∈ Er est encore un Gδ -dense (c’est l’ensemble
−n
n∈Z T (Er )). Définissons alors par récurrence les suites n de réels positifs
et xn d’éléments de Ẽr de la fao̧n suivante : x1 ∈ Ẽr et 1 étant choisis, il
existe n1 tel que
max d(x, T −in1 x1 ) ≤ (1/2)1 .
1≤i≤r
−(r+1)n1
On pose alors x2 = T x1 et on choisit 2 suffisamment petit pour que
2 ≤ (1/2)1 et pour que d(y, x2 ) ≤ 2 implique d(T n1 (r+1) y, x1 ) ≤ 1 .. Nous
noterons
n1
x2 −→ x1
1
les relations
max d(x1 , T in1 x2 ) ≤ 1 /2.
1≤i≤r+1
Avec le choix que nous avons fait pour 2 il est clair que pour tout y tel que
d(y, x2 ) ≤ 2 on a
n1
y −→ x1 .
1
On sait qu’il existe n2 tel que
max d(x, T −in2 x2 ) ≤ (1/2)2 ,
1≤i≤r

et on pose x3 = T −(r+1)n2 x2 . On a bien


n
2
x3 −→ x2
2 /2

et si 3 ≤ 2 /2 est choisi suffisamment petit on a


n2
y −→ x2
2

pour tout y tel que d(y, x3 ) ≤ 3 . On a donc pour un tel y


n2 1 n
y −→ x2 −→ x1 .
2 1

Par récurrence on construit des suites infinies k , xk telles que


nk nk−11 n
· · · xk+1 −→ xk −→ · · · −→ x1 .
k k−1 1

Comme K est compact, pour tout  > 0 il existe xk , xl ∈ Ẽr avec k > l er
d(xk , xl ) <  tels que
nk,l
xk −→ xl
l

où nk,l = nk−1 + · · · + nl . En particulier, comme on peut choisir l tel que


l < , on a prouvé le lemme suivant :
2.4. APPLICATION À LA PREUVE DU THÉORÈME DE VAN DER WAERDEN19

Lemme 2.4.2 Pour tout  > 0 il existe x ∈ Ẽr et n tels que


n

x −→ x .


B) Démontrons que l’on peut inverser l’ordre des quantificateurs : Notons


A l’ensemble des x ∈ Ẽr pour lesquels il existe n tel que
n

x −→ x.


Cet ensemble est un ouvert de Ẽr ⊂ K et est donc un Gδ de K. Démontrons


qu’il est dense dans K. Comme T est minimale sur K, pour tout y ∈ K et
η > 0 il existe un entier N tel que tout point x de K se trouve après moins
de N itérations dans B(y, η/2) (∃0 ≤ j ≤ N , T j x ∈ B(y, η/2)) et comme les
applications T j , j ≤ N sont uniformément continues sur K on peut affirmer
qu’il existe 0 tel que toute boule de rayon plus petit que 0 se trouve après
au plus N itérations dans B(y, η). D’autre part, pour tout  > 0 on sait qu’il
existe un point x et n tel que
n

x −→ x .


Ainsi, si  ≤ 0 , il existe j ≤ N tel que,


T j x , T j (T n x ), . . . , T j (T (r+1)n x ) ∈ B(y, η).
Puisque T j (T in (x )) = T in (T j (x )) on a démontré que z = T j x est dans
B(y, η) ∩ Ẽr+1 . Ceci démontre que A est dense dans K et est donc un Gδ -
dense.
C) D’après le théorème de Baire

\
A1/m
m=1

est donc également un Gδ -dense ; mais cet ensemble n’est rien d’autre que
Er+1 . La preuve du lemme est terminée.
2
Terminons la preuve du théorème 2.4.2. L’intersection
\
E= Er
r≥1

est un Gδ -dense d’après le théorème de Baire. Si x est dans E la conclusion


du théorème 2.4.2 est vérifiée.
2
20 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE

Preuve du théorème 2.4.1 Soit ω ∈ {1, . . . , p}Z la suite définie par ωi =


k si i ∈ Ak et notons X l’adhérence de l’orbite de ω sous l’action du décalage
σ : {1, . . . , p}Z → {1, . . . , p}Z . L’application σ est un homéomorphisme de
X. Appliquons le théorème de récurrence multiple 2.4.2 à (X, σ) : il existe
x ∈ X tel que pour tout r ≥ 1 et  = 1/4 on peut trouver un entier b pour
lequel
max d(x, T ib x) < (1/4).
1≤i≤r

Notons i = x0 . On déduit de l’inégalité précédente que i = x0 = (T b x)0 =


· · · = (T rb x)0 . Comme x est dans l’adhérence de {σ k ω}k∈Z , il existe a tel que
d(T a ω, x) < (1/4) et également

max d(T a ω, T ib (T a ω)) < (1/4).


1≤i≤r

Ainsi, ωa = x0 = i et ωa = ωa+b = · · · = ωa+rb . On a donc démontré que a, a+


b, . . . , a + rb appartiennent à Ai . Ceci termine la preuve du théorème 2.4.1.
Chapitre 3

Mesures Invariantes

Dans ce qui suit X est encore un espace métrique compact, B désigne la


tribu borélienne de X (la plus petite tribu engendrée par les ouverts de X et
f : X → X est une application continue.

Définition 3.0.1 Une mesure de probabilité µ sur (X, B) est dite f -invariante
si f∗ µ = µ c’est-à-dire si pour tout A ∈ B

µ(f −1 (A)) = µ(A).

Nous noterons Mf l’ensemble des mesures de probabilité f -invariantes. De


façon équivalente, µ est f -invariante si et seulement si pour toute fonction
continue φ ∈ C(X), µ(φ ◦ f ) = µ(φ)

Exemple
La mesure de Haar sur le tore R/Z est invariante par toute translation Tα :
x 7→ x + α. Nous verrons plus loin que dans le cas où α est irrationnel, c’est
l’unique mesure invariante par Tα . En revanche, si α = p/q, toute orbite
périodique porte une mesure invariante.
La mesure de Haar sur le tore R/Z est invariante par l’application S : x 7→
2x. Il existe une infinité d’autres mesures invariantes, en particulier les me-
sures portées par les orbites périodiques. Si x est un point périodique de
période p, la mesure (δx + · · · + δS p−1 (x) )/p est une mesure de probabilité
S-invariante qui n’est pas équivalente à la mesure de Lebesgue.
Exercice : Construire une dynamique sur [0, 1] (non continue) qui n’admet
pas de mesure de probabilité invariante.
L’ensemble Mf sera muni de la topologie faible∗ : une suite de mesures
R probabilité µn converge vers µ si pourR toute fonction continue φ ∈ C(X),
de
φdµn = hµn , φi = µn (φ) converge vers φdµ= hµ, φi = µ(φ).

21
22 CHAPITRE 3. MESURES INVARIANTES

La proposition qui suit montre que lorsque f est continue il existe toujours
des mesures f -invariantes sur X compact.

Proposition 3.0.1 L’ensemble Mf est non vide, convexe et compact pour


la topologie faible∗ .
Démonstration.— La convexité de Mf est immédiate. Sa compacité pour
la topologie faible∗ résulte du fait que Mf est fermé pour cette topologie
et du fait que l’ensemble des mesures de probabilités sur X compact est
compact pour cette topologie. Il reste donc à démontrer qu’il existe une
mesure de probabilité f -invariante : soit x ∈ X et considérons le barycentre
des mesures de Dirac :
n−1
1X
µn = δ k .
n k=0 f (x)
On a pour φ ∈ C(X)
n−1
1X
µn (φ) = φ(f k (x)).
n k=0
On peut extraire de la suite µn une sous-suite µnk qui converge pour la
topologie faible∗ vers une mesure de probabilité µ. Comme,
n−1
φ(f n (x)) − φ(x) 1 X
µn (φ ◦ f ) = + φ(f k (x))
n n k=0

on a bien la conclusion en prenant n = nk et en faisant k → ∞.


2
Savoir qu’une mesure est f -invariante donne des renseignements précieux
sur les propriétés de récurrence de f :

Théorème 3.0.3 ( de récurrence de Poincaré) Si µ est une mesure f -


invariante et A ∈ B un sous-ensemble de X de µ-mesure positive µ(A) > 0
alors pour µ-presque tout point x de A il existe une suite infinie d’entiers nk
telle que f nk (x) ∈ A.
Démonstration.— Notons B l’ensemble des x ∈ A qui ne reviennent jamais
dans A c’est-à-dire \
B =A∩ f −n (X − A).
n≥1

Nous allons démontrer que µ(B) = 0. Prouvons pour cela que les ensembles
B, f −1 (B), . . . , f −k (B), . . . dont 2 à 2 disjoints. En effet pour j > i
f −i (B) ∩ f −j (B) = f −i (B ∩ f −(j−i) (B));
23

or si un point x appartient à B ∩ f −(j−i) (B), son itéré f j−i (x) appartient à


B donc à A ce qui contredit la définition de B puisque x est dans A et qu’un
de ses itérés est dans A.
Puisque les f −n (B), n ≥ 0 sont disjoints deux à deux on a
X [
µ(f −n (B)) = µ( f −n (B));
n≥0 n≥0

L’inégalité µ(B) > 0 est impossible puisque d’après l’invariance de µ par f


le membre de gauche est infini, tandis que le membre de droite est inférieur
ou égal à 1 (µ est une mesure de probabilité). Nous avons démontré que
µ(B) = S 0. D’après l’invariance de µ par f nous avons aussi µ(f −k (B)) = 0 et
donc µ( k≥0 f −k (B)) = 0. Mais cet ensemble contient les x ∈ A pour lesquels
il existe k0 tel que f k (x) ∈
/ A pour k ≥ k0 . Le théorème est démontré.
2

Corollaire 3.0.1 Si (X, d) est métrique compact, l’ensemble des x ∈ X qui


sont f -récurrents est de µ-mesure totale.
Démonstration.— Notons Un , n ≥ 1 une base dénombrable de voisinage
de X. Notons Cn l’ensemble des x ∈ Un qui ne sont pas récurrents dans Un .
L’enemble des points non récurrents de X est la réunion des Cn et comme
d’après le théorème précédent chaque Cn est de mesure nulle, le corollaire est
démontré.
2

Exemples Translations sur les tores : Si Tn = Rn /Zn est le tore de di-


mension n, la mesure de Haar µ = dx1 ∧ · · · ∧ dxn (on identifie la forme
volume avec une mesure) est l’unique mesure invariante par les translations
Tα , Tα (x) = x + α, α ∈ Tn .
T : x 7→ 2x sur [0, 1] : La mesure de Lebesgue λ est invariante par T puisque
pour tout intervalle dyadique I = ([k/2p , (k + 1)/2p [, T −1 ([k/2p , (k + 1)/2p [)
est l’union disjointe de [k/2p+1 , (k + 1)/2p+1 [ et de (1/2) + [k/2p+1 , (k +
1)/2p+1 [. On a donc bien λ(T −1 (I) = λ(I) et comme les intervalles dyadiques
engendrent la tribu borélienne, la propriété d’invariance s’etend à tous les
boréliens.
Décalage et sous-décalage de type fini : Si p ∈ [0, 1] on peut définir la mesure µ
sur {0, 1}Z (muni de la tribu engendrée par les cylindres) de la façon suivante :
pour tout cylindre C = C(0 , . . . , n−1 ) on pose µ(C) = pr (1 − p)n−r où r est
le nombre de i égaux à 1. Le théorème de Carathéodory (ou Kolmogorov)
24 CHAPITRE 3. MESURES INVARIANTES

permet d’étendre cette mesure à la tribu borélienne toute entière. La mesure


obtenue est clairement invariante par le shift σ (c’est clair sur les cylindres
et on utilise la partie unicité du théorème de Carathéodory). Ceci fournit
une famille entière de mesures invariantes par le décalage, les mesures de
Bernoulli. Ce ne sont pas les seules : chaque orbite périodique de σ définit
naturellement une mesure σ-invariante : la moyenne des mesures de Dirac
portées par l’orbite périodique.
Pour les sous-shifts de type fini sur un alphabet à r symboles et de matrice
de transition A, la construction de mesures naturelles invariantes par σ se fait
de la manière suivante : soit Pij (1 ≤ i, j ≤ r) les coefficients d’une matrice
stochastique P :
a) Pij ≥ 0
b) rj=1 Pij = 1
P
et faisons l’hypothèse que P est compatible avec A c’est-à-dire que Aij = 0
si et seulement si Pij = 0 et supposons que A soit irréductible c’est-à-dire
que (ΣA , σ) soit transitif.
La condition b montre que le vecteur dont toutes les composantes valent
1 est vecteur propre de P associé à la valeur propre 1. Par conséquent 1 est
valeur propre de t P et il est possible de démontrer que l’espace propre cor-
respondant est engendré par un vecteur dont tous les coefficeients p1 , . . . , pr
sont positifs ou nuls. On peut supposer que la somme p1 + · · · + pr = 1. On
a donc pour tout 1 ≤ j ≤ r
r
X
pi Pij = pj . (3.1)
i=1

Pour tout cylindre C = C(0 , . . . , n ) de ΣA définissons

µ(C) = p0 P0 1 · · · Pn−1 n .

La condition b) garantit la cohérence au sens du théorème de Kolmogorov :


r
X
µ(C(0 , . . . , n−1 )) = µ(C(0 , . . . , n−1 , l)).
l=1

Par conséquent, on peut étendre µ en une mesure (de probabilité) à la tribu


entière. L’invariance de µ par σ se fait sur les cylindres en utilisant (3.1) et
r
X
µ(σ −1 (C(0 , . . . , n ) = µ(C(l, 0 , . . . , n )).
l=1
3.1. ERGODICITÉ 25

Automorphismes des tores Si A ∈ SL(n, Z), l’application Ā de Rn /Zn dans


lui même définie par Ā(x + Zn ) = Ax + Zn est inversible et s’appelle un
automorphisme du tore Tn . Puisque det(A) = 1 on voit que la mesure de
Haar est invariante par Ā. Bien évidemment ce n’est pas la seule puisque A
admet une infinité de points périodiques.

3.1 Ergodicité
Définition 3.1.1 Un système dynamique (X, B, µ, T ) est dit ergodique ssi
tout ensemble A ∈ B tel que µ(A∆T −1 (A)) = 0 est de µ mesure 0 ou 1.
En d’autres termes, d’un point de vue mesurable, les seuls ensembles inva-
riants sont ∅ ou X. On peut reformuler la définition précédente :

Proposition 3.1.1 Le système dynamique (X, B, µ, T ) est ergodique si et


seulement si les seules fonctions φ ∈ L∞ (X, µ) vérifiant φ ◦ T = φ sont les
fonctions constantes
Démonstration.— Prouvons que si T est ergodique les seules fonctions
invariantes par T sont les constantes : introduisons Eλ = {x ∈ X : φ(x) ≤ λ}.
Comme φ ◦ T = φ on a φ1 (Eλ ) = Eλ (µ p.p) et d’après l’ergodicité Fφ (λ) :=
µ(φ ≤ λ) ∈ {0, 1}. Comme la fonction de répartition Fφ est croissante et
continue à droite il existe λ0 tel que pour tout λ ≥ λ0 , µ(φ ≤ λ) = µ(φ =
λ0 ) = 1. Ainsi, φ est µ-p.p constante (égale à λ0 ).
La réciproque est claire (observer que φ = 1A est T -invariante ssi A est
un ensemble T -invariant).
2

3.1.1 Premiers exemples


Translation sur des tores
Si X = T et µ est la mesure de Haar, la transformation T : x 7→ x + α
est µ-ergodique si et seulement si α est irrationnel. En effet, soit φ est une
fonction L∞ telle que φ ◦ T = φ. Puisque φ est L2 , on a l’identité dans L2
X
φ(x) = φ̂(k)e2πikx
k∈Z

où les φ̂(k) sont les coefficients de Fourier de φ. De l’unicité de la décompo-


sition de Fourier et de l’identité dans L2 , φ ◦ T = φ on tire
φ̂(k)e2πikα = φ̂(k).
26 CHAPITRE 3. MESURES INVARIANTES

Si α est irrationnel on a alors pour tout k 6= 0 φ̂(k) = 0 et par conséquent,


φ est constante. Si α = p/q il existe clairement des fonctions φ qui sont
T -invariantes et qui ne sont pas constantes, par exemple φ(x) = e2πiqx .
On peut donner une deuxième preuve de ce résultat qui est plus géomé-
trique et ne fait pas appel à la décomposition en série de Fourier. Si α = p/q
(p ∧ q = 1) est rationnel, l’orbite de 0 est un ensemble discret. Il est clair
qu’il existe un petit intervalle ouvert I contenant 0 et dont tous les itérés (qui
sont au nombre de q) sont disjoints deux à deux. L’union de ces intervalles
est un borélien de mesure de Haar différente de 0 et de 1 et invariant par T
ce qui prouve que T n’est pas ergodique pour la mesure de Haar. Supposons
à présent α irrationnel et faisons l’hypothèse qu’il existe un ensemble boré-
lien A T -invariant, de mesure de Lebesgue comprise entre 0 et 1 strictement.
D’après le théorème de densité de Lebesgue, presque tout point de A est un
point de densité de A, ce qui signifie que pour Lebesgue presque tout x ∈ A
on a
Leb(]x − , x + [∩A)
lim = 1.
→0 2
Soit x un point de densité et I =]x − , x + [ tel que Leb(]x−,x+[∩A)
2
≥ 1 − δ.
Comme T est une isométrie minimale, il est clair que l’on peut trouver une
suite d’entiers nk , 0 ≤ k ≤ r telle que les T nk , 1 ≤ k ≤ r soient disjoints
deux à deux et couvrent un ensemble de mesure plus grande que 1 − δ. Dans
chaque T nk I la proportion de points de A est supérieure à 1−δ puisque A est
T -invariant , si bien que A ∩ ∪0≤k≤r T nk I a une mesure supérieure ou égale à
(1 − δ)2 . Par conséquent la mesure de A est supérieure ou égale à (1 − δ)2 .
Comme ceci vaut pour tout δ, on en déduit que la mesure de A égale 1, ce
qui est une contradiction.

Exercice Montrer qu’une translation Tα sur le tore de dimension n est ergo-


dique pour la mesure de Haar, si et seulement si hk, αi ∈ Z, k ∈ Z entraîne
k = 0.

Ergodicité de x 7→ 2x
Démontrons que T : x 7→ 2x est ergodique pour la mesure de Haar sur
T. Soit φ une fonction T -invariante. Les coefficients de Fourier de φ vérifient
φ̂(2k) = φ̂(k) si bien que φ̂(2p k) = φ̂(k) pour tous entiers k, p. Si k 6= 0
limp→∞ φ̂(2p k) = 0 car les coefficients de Fourier d’une fonction L2 sont dans
l2 (Z) et donc tendent vers 0 à l’infini. Ainsi, φ est constante, ce qui prouve
l’ergodicité.

Exercice Démontrer que si X = T2 , l’automorphisme du tore T (x, y) =


(2x + y, x + y) préserve la mesure de Haar et est ergodique pour cette mesure.
3.2. LES THÉORÈMES ERGODIQUES 27

Exercice Démontrer que le décalage est ergodique pour les mesures de Ber-
noulli.

3.2 Les Théorèmes ergodiques


3.2.1 Le point de vue spectral et le théorème de Von
Neumann
Considérons un système dynamique mesurable (X, B, T, µ). L’espace L2 (X, B, µ)
muni du produit scalaire
Z
hφ, ψi = φψ̄dµ, φ, ψ ∈ L2 (X, B, µ)
X

est un espace de Hilbert. Le point de vue spectral consiste à étudier l’opéra-


teur linéaire UT (que nous noterons souvent T ) agissant sur L2 (X, B, µ) :

UT : L2 (X, B, µ) → L2 (X, B, µ)
φ 7→ φ ◦ T

Notons U ∗ l’adjoint de U défini par

hU ∗ φ, ψi = hφ, U ψi;

puisque T préserve µ il est facile de voir que UT est une isométrie c’est-à-dire
préserve la norme (ou le produit scalaire) kUT φk = kφk et par conséquent

U ∗ U = Id.

Si en outre T est inversible T est unitaire c’est-à-dire que U ∗ = U −1 puisque,


T préservant µ
Z
hφ ◦ T, ψi = (φ · ψ̄ ◦ T −1 ) ◦ T dµ = hφ, ψ ◦ T −1 i.
X

Essayons de comprendre la situation quand T n’est pas inversible. La sigma


algèbre T −1 B est incluse dans B et il est possible de définir l’espace L2 (X, T −1 B, µ)
des fonctions T −1 B-mesurables qui sont L2 pour la (restriction à T −1 B de la)
mesure µ. C’est un sous-espace fermé de L2 (X, B, µ) et on peut introduire la
projection orthogonale P : L2 (X, B, µ) → L2 (X, T −1 B, µ) (rappelons qu’une
projection orthogonale est caractérisée par P ∗ = P et P 2 = P ). Cette pro-
jection s’appelle l’espérance conditionnelle par rapport à la tribu T −1 B. On
a le lemme facile suivant :
28 CHAPITRE 3. MESURES INVARIANTES

Lemme 3.2.1 L’espace L2 (X, T −1 B, µ) est l’ensemble des fonctions φ ∈


L2 (X, B, µ) qui s’écrivent sous la forme φ = ψ ◦ T où ψ ∈ L2 (X, B, µ).
Démonstration.— Il est clair qu’une fonction de la forme φ = ψ ◦ T où ψ ∈
L2 (X, B, µ) est mesurable par rapport à la tribu T −1 B et appartient donc à
L2 (X, T −1 B, µ). Réciproquement, si une fonction φ est dans L2 (X, −1
PT B, µ),
il est possible de trouver une suite de fonctions étagées φn = i λi,n 1Bi,n
avec Bi,n ∈ T −1 B convergeant µ-pp et L2 vers φ. Les Bi,n sont par définition
de la forme T −1 Ai,n et 1T −1 Ai,n = 11i,n ◦ T . Remarquons que
X X X X
k λi 1T −1 Ci k2 = |λi |2 µ(T −1 Ci ) = |λi |2 µ(T −1 Ci ) = k λi 1Ci k2 .
i i i i

la suite φn = i λi,n 1Bi,n converge dans L2 si et seulement si la suite


P
Ainsi,P
ψn = i λi,n 1Ai,n converge dans L2 . Notons ψ sa limite. Puisque φn = ψn ◦
T = UT ψn et que UT est continue dans L2 on a φ = ψ ◦ T .
2
Le lemme précédent montre que ImP = ImU . Comme P est un projec-
teur ker P = (ImP )⊥ et comme de façon générale (ImU )⊥ = ker U ∗ on a
ker P = ker U ∗ . L’opérateur U U ∗ est symétrique borné et vérifie (U U ∗ )2 =
U U ∗ U U ∗ = U U ∗ (car U est une isométrie) si bien que U U ∗ est une projection
orthogonale ; son noyau ker U U ∗ est ker U ∗ (exercice) i.e ker P . Cela suffit
pour affirmer que U U ∗ = P . Nous avons donc démontré

Lemme 3.2.2 On a UT∗ UT = Id et UT UT∗ = E(·|T −1 B).

La tribu des invariants Notons I la tribu constituée des A ∈ B tels que


T −1 A = A mod 0. L’espace L2 (X, I, µ) est l’ensemble des φ ∈ L2 telles que
φ ◦ T = φ (exercice). On définit comme précédemment E(·|I) la projection
orthogonale sur L2 (X, I, µ). On peut énoncer le théorème de Von Neumann

Théorème 3.2.1 Si (X, B, µ, T ) est un système dynamique, alors pour toute


fonction φ ∈ L2 (X, B, µ) la suite
 
1 1 n−1
Sn φ = φ + φ ◦ T + ··· + φ ◦ T
n n
converge dans L2 (X, B, µ) vers E(φ|I).
Démonstration.— Nous allons démontrer que pour toute fonction φ ∈
L2 (X, B, µ) et tout  > 0 il existe ψ ∈ L2 (X, B, µ) et η ∈ L2 (X, B, µ) tels
quekη k < /2 et
φ = ψ ◦ T − ψ + E(φ|I) + η .
3.2. LES THÉORÈMES ERGODIQUES 29

Il suffit pour cela de démontrer que φ − E(φ|I) est dans l’adhérence L2 de



U − I. Un calcul simple montre Im(I − U ) = ker(I − U ∗ ). Or, si U ∗ φ = φ
on a P φ = U U ∗ φ = U φ. Mais, kU φk = kφk i.e kP φk = kφk. Ceci n’est
possible que si φ ∈ ImP c’est-à-dire si P φ = φ d’où l’on déduit U φ = φ.
Réciproquement, si U φ = φ on a φ = U ∗ U φ = U ∗ φ. On a donc prouvé

Im(U − I) = ker(U ∗ − I) = ker(U − I) = L2 (X, I, µ).

On a donc,
Im(U − I) = L2 (X, I, µ)⊥
Mais par définition pour tout φ ∈ L2 (X, B, µ), φ − E(φ|I) ∈ L2 (X, I, µ)⊥
Concluons la preuve du théorème :

1 1 1
Sn φ = (φ ◦ T n − φ) + E(φ|I) + Sn η ;
n n n
mais k n1 Sn η k ≤ /2 si bien que

1 2kψ k
k Sn φ − E(φ|I)k ≤ + kη k
n n
≤

si n est assez grand.


2

3.2.2 Convergence presque sûre


Théorème 3.2.2 a) Si (X, B, µ, T ) est un système dynamique, alors pour
toute fonction φ ∈ L1 (X, B, µ) la suite
 
1 1 n−1
Sn φ = φ + φ ◦ T + ··· + φ ◦ T
n n

converge vers E(φ|I)


i) µ-presque sûrement
ii) dans L1 (X, B, µ).
b) Si T est inversible on a la même conclusion pour n → −∞.
Démonstration.—
Un ingrédient crucial de la preuve de ce théorème est le lemme suivant
30 CHAPITRE 3. MESURES INVARIANTES

Lemme 3.2.3 (ergodique maximal de Hopf ) Si φ est mesurable, notons


Sn∗ φ(x)R= max1≤k≤n (Sk φ(x)), En = {x ∈ X : Sn∗ φ(x) ≥ 0} et E = ∪En .
Alors, E φdµ ≥ 0.
Démonstration.— On observe que

−φ(x) + Sn+1 φ(x) = max(Sn∗ φ(T x), 0)
si bien que

φ(x) = Sn+1 φ(x) − (Sn∗ φ)+ ◦ T (x)
et
Z Z Z

φdµ = (Sn+1 φ)dµ − ((Sn∗ φ) ◦ T )+ dµ

Sn+1 φ≥0 ∗
Sn+1 φ≥0 ∗
Sn+1 φ≥0
Z Z

≥ (Sn+1 φ)+ dµ − (Sn∗ φ)+ ◦ T dµ
ZX ZX

≥ (Sn+1 φ)+ dµ − (Sn∗ φ)+ dµ
X X
≥0
la dernière inégalité provenant du fait que Rmax(0, φ(x), . . . , Sn−1 φ(x), Sn φ(x)) ≥
max(0, φ(x), . . . , Sn−1 φ(x)). On a donc En+1 φdµ ≥ 0 pour tout n et on
conclut par convergence dominée.
2
Un corollaire
R du lemme précédent est le suivant : Si A ∈ B vérifie T −1 A =
A alors E∩A φdµ ≥ 0. Démontrons à présent le théorème de Birkhoff : soit
Aα,β l’ensemble des x ∈ X tels que
1 1
lim inf Sn φ(x) ≤ α < β ≤ lim sup Sn φ(x)
n→∞ n n→∞ n

L’ensemble Aα,β est T invariant. Le lemme de Hopf appliqué à α − φ et φ − β


montre que (pourquoi ?)
Z Z
φ ≤ αµ(Aα,β ), φ ≥ βµ(Aα,β )
Aα,β Aα,β

ce qui n’est possible que si µ(Aα,β ) = 0. Par conséquent, pour µ-presque


tout x ∈ X lim inf n→∞ n1 Sn φ(x) = lim supn→∞ n1 Sn φ(x) et donc n1 Sn φ(x)
converge.
Nous avons donc montré l’existence d’une fonction φ̃ telle que pour µ-pp
1
lim Sn φ(x) = φ̃(x).
n→∞ n
3.3. LIENS AVEC LA DYNAMIQUE TOPOLOGIQUE 31

On a nécessairement
R φ̃ ◦ TR = φ̃ et pour toute fonction ψ ∈ L∞ (I) (i.e
ψ ◦ T = ψ) on a X ψ φ̃dµ = X ψφdµ, c’est-à-dire que E(φ|I) = φ̃.

Prouvons à présent ii) : d’après le théorème de convergence dominée c’est


évident si φ est dans L∞ (X, µ). Sinon, pour tout  > 0 il existe φ ∈ L∞ qui
est -L1 -proche de φ. Comme kE(φ − φ |I)kL1 ≤  et que l’on a convergence
L1 de n−1 Sn φ vers E(φ |I) on conclut aisément.
2

Exercice Démontrer le point b) du théorème. (On pourra utiliser la conver-


gence L1 donnée par le théorème de Birkhoff.)

3.3 Liens avec la dynamique topologique


Dans cette section on suppose que (X, d) est un espace métrique compact.
La tribu avec laquelle on travaille est la tribu borélienne.

3.3.1 Existence de mesures ergodiques


Définition 3.3.1 Si K est un ensemble convexe, on dit qu’un point x ∈ X
est extrémal si x = tx1 + (1 − t)x2 , 0 < t < 1, x1 ∈ K, x2 ∈ K implique
x = x1 = x2 .

Notons M l’ensemble des mesures invariantes T -invariantes. C’est un en-


semble convexe non vide et compact pour la topologie faible*. Le théorème
suivant permet de caractériser les mesures T -invariantes ergodiques

Théorème 3.3.1 Si (X, d) est un espace métrique compact et si T : X →


X est continue, une mesure de probabilité T -invariante est ergodique si et
seulement si elle est extrémale.

Démonstration.— Supposons que µ est T -ergodique et qu’il existe une


décomposition µ = tµ1 + (1 − t)µ2 , 0 < t < 1, µ1 , µ2 étant T -invariantes. La
mesure µ1 est absolument continue par rapport à la mesure µ et d’après le
théorème de Radon-Nikodym, il existe une fonction f ∈ L1 (µ), f ≥ 0 telle
que dµ1 = f dµ. Montrons que f est T -invariante. Observons que comme µ1
est T -invariante on a pour toute fonction φ ∈ L∞
Z Z
φdµ1 = φ ◦ T dµ1
32 CHAPITRE 3. MESURES INVARIANTES

c’est-à-dire Z Z
φf dµ = φ ◦ T · f dµ

et comme µ est T -invariante


Z Z
φ ◦ T · f ◦ T dµ = φ ◦ T · f dµ.

Posons à présent φ = 1f >λ . On a


Z Z
f ◦ T dµ = f dµ
f ◦T >λ f ◦T >λ

et puisque µ est T -invariante


Z Z Z
+ +
(f − λ) dµ = (f ◦ T − λ) dµ = (f − λ)dµ.
X f ◦T >λ f ◦T >λ

On a donc pour tout λ

{f > λ} = {f ◦ T > λ},

modulo un ensemble de µ-mesure nulle. Par conséquent, f = f ◦ T , µ-pp.


La réciproque est plus facile à démontrer. Supposons que µ ne soit pas
T -ergodique. Il existe donc un ensemble A dans la tribu, T -invariant et tel
que 0 < µ(A) < 1. Si on pose µ1 = µ(· ∩ A)/µ(A) et µ2 = µ(· ∩ Ac )/µ(Ac ),
on a µ = tµ1 + (1 − t)µ2 avec t = µ(A), ce qui contredit le fait que µ est un
point extrémal.
2
Un corollaire du théorème précédent est l’existence de mesure ergodique
pour toute transformation continue sur un espace compact.

Corollaire 3.3.1 Si (X, d) est un espace métrique compact et T : X → X


une application continue, il existe une mesure qui est T -ergodique.
Démonstration.— Ceci résulte du théorème de Krein-Milman qui affirme
que tout compact, convexe d’un espace vectoriel topologique admet des points
extrémaux1 . Dans le cas qui nous intéresse, on peut le démontrer directe-
ment. Choisissons (φn )n une suite de fonctions continues dense dans C 0 (X).
L’ensemble M0 des mesures de probabilités µ sur X telles que hµ, φ0 i =
supν∈M hν, φ0 i est non vide puisque M est compact pour la topologie faible*
1
et qu’il est l’enveloppe convexe de ses points extrémaux
3.3. LIENS AVEC LA DYNAMIQUE TOPOLOGIQUE 33

et est un espace convexe compact pour la topologie faible*. Par récurrence on


construit Mp qui est l’ensemble non vide convexe compact pour la topologie
faible* constitué des mesures ν ∈ Mp−1 telles que hµ, φp i = supν∈Mp−1 hν, φp i.
Notons M∞ l’intersection des Mp , p ≥ 0. C’est toujours un ensemble non
vide convexe compact pour la topologie faible*. Démontrons qu’il est consti-
tué de points extrémaux. Supposons par l’absurde que ce ne soit pas le cas
et que l’on ait une écriture µ = tµ1 + (1 − t)µ2 avec 0 < t < 1. Il est facile
de voir que pour tout p, hµ, φp i = hµ1 , φp i = hµ2 , φp i (utiliser la définition de
Mp ) et comme la suite φp est dense dans C 0 (X) on a µ = µ1 = µ2 .
2

3.3.2 Points génériques


Supposons que (X, d) soit un espace métrique compact, et soient T une
transformation mesurable sur X, µ une mesure T -invariante ergodique et
(φk )k≥0 une suite de fonctions continues sur X dense dans C 0 (X). Le Théo-
rème de Birkhoff nous apprend qu’il existe un ensemble R Ek de µ-mesure 1
tel que pour tout x ∈ Ek , (1/n)Sn φk (x) converge vers X φk dµ. L’ensemble
E = ∩k Ek est de µ-mesure 1 et comme la suite des φk est C 0 -dense dans
C 0 (X), il est clair que pour toute φ R ∈ C 0 (X) et tout x ∈ X, la suite
(1/n)Sn φ(x) converge également vers X φdµ. On dit que l’ensemble E est
un ensemble générique pour (T, µ).
Un corollaire du résultat précédent est le suivant :

Corollaire 3.3.2 Si µ et ν sont deux mesures de probabilité T -invariantes


et ergodiques elles sont mutuellement singulières 2 ou égales.

Démonstration.— Supposons que ce ne soit pas le cas. L’intersection E de


l’ensemble des points réguliers de µ et de l’ensemble des points réguliers de ν
est alors de µ-mesure et de ν-mesure positive. Pour touteRfonction continue
R
φ et x ∈ E, on a donc convergence de (1/n)Sn φ(x) vers X φdµ et X φdν.
Par conséquent, µ = ν.
2

3.3.3 Unique ergodicité


Définition 3.3.2 On dit qu’un système dynamique (X, T, µ) est uniquement
ergodique, si µ est l’unique mesure de probabilité invariante par T .
2
pour tout borélien, µ(A) > 0 implique ν(A) = 0 et ν(A) > 0 implique µ(A) = 0
34 CHAPITRE 3. MESURES INVARIANTES

Puisque l’ensemble des mesures ergodiques est l’ensemble des mesures extré-
males on a

Proposition 3.3.1 Si (X, T, µ) est uniquement ergodique, il est ergodique.

Exemple : La translation Rα : x 7→ x+α sur le cercle R/Z avec α irrationnel


admet la mesure de Lebesgue comme unique mesure invariante. En effet, si
(Rα )∗ µ = µ, on a (Rn a )∗ µ = µ et comme la suite nα est dense sur le cercle,
il est facile de voir que pour tout β sur le cercle (Rβ )∗ µ = µ. Mais la mesure
de Haar est l’unique mesure invariante par toute translation.

Théorème 3.3.2 Soit (X, d) un espace métrique compact et T : X → X une


transformation continue et µ une mesure T -invariante. Les trois propriétés
suivantes sont équivalentes :
i) µ est l’unique mesure de probabilité invariante par T ;
ii) pour toute fonction φ ∈ C(X) et tout  > 0 il existe des fonctions ψ, η ∈
C(X) telles que
Z
φ=ψ◦T −ψ+η+ φdµ, kηk0 ≤ ;
X

iii) pour toute fonction continue φ ∈ C(X),R les moyennes de Birkhoff de φ,


(1/n)Sn φ(·) convergent uniformément vers X φdµ.
Le fait que pour toute fonction continue φ ∈ C(X), les moyennes de Birkhoff
de φ, (1/n)Sn φ(·) convergent uniformément vers une constante est équivalent
à l’unique ergodicité de (T, µ).
Démonstration.—
i) ⇔ ii) : Notons E l’ensemble des fonctions continues de X de µ-intégrale
nulle et F l’adhérence pour la topologie C 0 de l’ensemble des fonctions de la
forme ψ ◦ T − ψ. Si E 6= F, le théorème de Hanh-Banach nous enseigne qu’il
existe une forme linéaire non nulle Λ ∈ E ∗ dont la restriction à F est nulle.
D’après le théorème de représentation
R de Riesz, il existe une mesure (réelle) ν
telle que pour tout φ ∈ E, Λφ = X Rφdν. Par conséquent,R pour toute fonction
R
φ = ψ◦T −ψ où ψ est continue on a X φdν = 0, et donc X ψ◦T dν = X ψdν.
On a donc T∗ ν = ν. La mesure ν admet une écriture unique de la forme
ν = ν+ − ν− où ν± sont des mesures boréliennes positives telles que pour tout
borélien A, ν± (A) = ±ν(A ∩ E± ), où E± sont des boréliens. Démontrons que
ν± sont T -invariantes. Déjà,

ν+ (T −1 E + ) ≥ ν(T −1 E+ ) = ν(E+ ) = ν+ (E+ )


3.3. LIENS AVEC LA DYNAMIQUE TOPOLOGIQUE 35

et donc ν+ (T −1 E+ ∆E+ ) = 0. En outre,

ν+ (T −1 E+ ) − ν− (T −1 E+ ) = ν(T −1 E+ ) = ν(E+ ) = ν+ (E+ )

et comme ν+ (E+ ) = ν+ (T −1 E+ ) on en déduit ν− (T −1 E+ ) = 0 et ν(T −1 E+ ∆E+ ) =


0. Pour tout borélien A

ν+ (T −1 A) = ν(T −1 A ∩ E + ) = ν(T −1 A ∩ T −1 E+ ) = ν(A ∩ E+ ) = ν+ (A)

. On verrait de même que ν− est T -invariante. Comme par hypothèse (T, µ)


est uniquement ergodique, on a ν+ = µ. Mais alors, Λ est nulle sur E, ce qui
est une contradiction.
ii) ⇔ iii) : C’est clair.
R
iii)
R ⇔ i) : Si ν est une mesure de probabilité T -invariante, X
(1/n)Sn φdν =
RX φdν. De la convergence uniforme des moyennes de Birkhoff de φ vers
X
φdµ on déduit µ = ν.
2

Skew-shift
Pour α ∈ T irrationnel, notons T = Tα : T2 → T2 défini par T (x, y) =
(x + α, y + x). Les itérés de T se calculent aisément : pour n ≥ 0,

T n (x, y) = (x + nα, y + nx + n(n − 1)α/2).

Si m désigne la mesure de Lebesgue, il est clair que m est T -invariante puisque


le jacobien de T est constant égal à 1. Démontrons que (T, m) est ergodique :
si f est une fonction bornée T -invariante, il est facile de voir que ses coef-
ficients de Fourier vérifient fˆ(k + l, l) = e2πikα fˆ(k, l) ; comme ils sont dans
l2 (Z2 ) on voit facilement que f est constante.
Démontrons à présent

Théorème 3.3.3 Si α est irrationnel, Tα est uniquement ergodique.


Démonstration.— Il suffit pour cela de démontrer que si ν est une mesure
de probabilité T -invariante elle est égale à m. Si π : T2 → T est la projection
suivant la première variable, on voit que π ◦ Tα = Rα ◦ π où Rα est la
translation d’angle α sur T. On a donc (Rα )∗ (π∗ ν) = (π∗ ν) et comme la
mesure de Lebesgue est l’unique mesure invariante par Rα (α est irrationnel)
on a nécessairement π∗ ν = Leb : ν se projette par le premier facteur sur la
mesure de Lebesgue. Ainsi, pour tout borélien I ⊂ T, ν(π −1 I) = Leb(I).
Notons Em (resp. Eν ) l’ensemble des points m-génériques (resp. ν-générique)
36 CHAPITRE 3. MESURES INVARIANTES

pour T . Le théorème de Fubini implique qu’il existe un ensemble I ⊂ T de


mesure de Lebesgue 1 tel que pour tout x ∈ I la mesure de Lebesgue de la
fibre π −1 (x) ∩ Em égale 1.Si on note J l’ensemble des x ∈ I pour lesquels
π −1 (x) ∩ Eν = ∅, on a Leb1 (J) = ν(π −1 (J)) = 0 ; en notant I˜ = I − J on voit
˜ = 1 si bien que Eν = π −1 (I)
que ν(π −1 (I)) ˜ mod ν . Comme pour x ∈ I, ˜
−1 2 ˜
π (x) ∈ Em on a que pour tout (x, y) ∈ T avec x ∈ I il existe une suite
yn ∈ T convergeant vers y telle que chaque (x, yn ) est m-générique. On a
donc pour toute fonction continue f : T2 → R,
N
1 X
lim f (x + kα, y + kx + k(k − 1)α) = f˜ν (x, y),
N →∞ N
k=0

N Z
1 X
lim f (x + kα, yn + kx + k(k − 1)α) = f dm,
N →∞ N
k=0

et du fait de l’uniforme continuité de f


N
1 X
lim sup |f (x+kα, y+kx+k(k−1)α)−f (x+kα, yn +kx+k(k−1)α)| ≤ δ(|y−yn |),
N →∞ N
k=0

˜
où δ est une fonction tendant vers 0 en 0. Ceci démontre que pour tout x ∈ I,
−1
la fibre entière π (x) est dans Em et donc que ν-presque tout point de Eν
est appartient à Em . Mais ceci entraîne de façon claire que ν = m puisque le
théorème
R de Rconvergence dominée montre Rque pour toute fonction continue
f , X f dν = X (1/n)Sn f dν converge vers X f dm.
2
On peut donner une preuve qui s’inspire du point de vue spectral. Supposons
que ν soit une mesure invariante par T et notons U : L2 (T2 , ν) → L2 (T2 , ν)
l’opérateur unitaireR 3 défini par U f = f ◦ T . Pour r = (k, l) ∈ Z2 notons
ν̂(r) = hν, e−r i = T2 e−2πihr,zi dz les coefficients de Fourier de ν (rappelons
qu’une mesure est caractérisée par ses coefficients de Fourier).
Si r 6= 0 est fixé, les vecteurs (U n er )n≥1 sont deux à deux orthogonaux.
En effet, hU n er , U m er i = hU n−m er , er i. Comme U e(k,l) = e2πikα e(k+l,l) on voit
que U (n−m) er est de la forme e(k0 ,l) (avec k 0 = k ssi n − m = 0), si bien que
hU n−m er , er i = he(k0 ,0) , e(k,0) i. Mais on a
0
he(k0 ,0) , e(k,0) i = hU e(k0 ,0) , U e(k,0) i = e(2πi(k −k)α) he(k0 ,0) , e(k,0) i
3
on munit L2 (X, ν) du produit hermitien hf, gi =
R
T2
f (z)ḡ(z)dν(z)
3.3. LIENS AVEC LA DYNAMIQUE TOPOLOGIQUE 37

ce qui entraîne que he(k0 ,0) , e(k,0) i égale 0 si k 6= k 0 et 1 sinon. On a donc bien
démontré que les vecteurs (U n er )n≥1 sont deux à deux orthogonaux. Proje-
tons le vecteur 1 sur l’espace engendré par les (U n er )n≥1 : d’après l’inégalité
de Parseval-Bessel
X
|hU n er , 1i|2 ≤ k1k2L2 (ν) = 1.
n≥0

Mais, hU n er , 1i = hU n er , U n 1i = her , 1i = ν̂(−r). On a donc démontré que


pour tout r ∈ Z2 , ν̂(r) = 0 si r 6= 0 et ν̂(0) = 1. Ces relations caractérisent
la mesure de Lebesgue sur T2 .

Equirépartition
Définition 3.3.3 Une suite (xn ) de points dans [0, 1]d est équirépartie si
pour tout pavé I ⊂ [0, 1]d on a

#{k ∈ {1, . . . , N } : xk ∈ I}
lim = vold (I)
N →∞ N

Un critère d’équirépartition est le suivant (preuve laissée en exercice au lec-


teur).

Théorème 3.3.4 Les propriétés suivantes sont équivalentes :


i) La suite (xn ) est équirépartie ;
ii) Pour toute Rfonction Riemann intégrable f sur [0, 1]d la suite n1 nk=1 f (xk )
P
converge vers [0,1]d f (x)dx.
toute fonction continue f sur [0, 1]d la suite n1 nk=1 f (xk ) converge
P
iii) Pour
R
vers [0,1]d f (x)dx.
1
Pn
iv) Pour
R tout polynôme trigonométrique P la suite n k=1 P (xk ) converge
vers Td P (x)dx.

Comme corollaire des deux sous-sections précédentes on a

Corollaire 3.3.3 Si α est irrationnel, la suite n(n − 1)α/2 est équirépartie


sur [0, 1]

Démonstration.— Il suffit de poser f (x, y) = e2πir y et d’appliquer les théo-


rèmes 3.3.2, 3.3.3, 3.3.4
2
38 CHAPITRE 3. MESURES INVARIANTES

On peut démontrer par cette méthode que si P (n) est un polynôme dont
le coefficient du monôme du plus haut degré est irrationnel, alors la suite
(P (n)) est équirépartie. On introduira pour cela T : Td → Td défini par
T : (θ1 , θ2 , . . . , , θd ) 7→ (θ1 + α, θ2 + θ1 , . . . , θd + θd−1 ),
et on démontrera que l’unique mesure de probabilité T -invariante est la
mesure de Lebesgue sur T2 . Si P est de degré d, on pose Pd = P , et
Pj = Pj+1 (X + 1) − Pj+1 (X), j = N − 1, . . . , 0. On a P0 (X) = α où on
a noté α/N ! le coefficient dominant de P . Si on pose θn = P1 (n), . . . , Pd (n))
on a T n θ0 = θn . On conclut alors comme précédemment.

3.4 Mélange
Définition 3.4.1 Un système dynamique (X, A, T, m) est dit mélangeant si
pour tous boréliens A, B ∈ A on a
lim m(T −n A ∩ B) = m(A)m(B).
n→∞

Il n’est pas difficile de prouver que

Proposition 3.4.1 Un système dynamique est mélangeant si et seulement


si pour toutes fonctions f, g ∈ L2 (X, m) on a
Z Z Z
n
lim f ◦ T ḡdm = f dm ḡdm
n→∞ X X X

Théorème 3.4.1 Si un système dynamique est mélangeant il est ergodique.


Démonstration.— En effet, si A est un borélien T -invariant on a limn→∞ m(T −n A∩
A) = m(A)m(A) ce qui s’écrit m(A) = m(A)2 et donc m(A) égale 0 ou 1.
2
Dans un cadre probabiliste il s’agit de la loi du 0,1 de Kolmogorov.
Un exemple important de systèmes mélangeants est fourni par les sous-
shifts de type fini.

Théorème 3.4.2 (Perron-Frobenius) Si P ∈ Mr (R) est une matrice sto-


chastique irréductible 4 alors il existe une unique mesure stationnaire, c’est-
à-dire un unique vecteur p ∈ Rn à coordonnées positives et dont la somme
des composantes vaut 1 tel que µP = µ. En outre, si P est apériodique 5
alors pour toute mesure de probabilité ν sur {1, . . . , r}, ν, limn→∞ qP n = p.
4
ce qui signifie que le graphe orienté de P est connexe
5
∃m ≥ 0, ∀i, j, (P m )ij > 0
3.4. MÉLANGE 39

Démonstration.— Supposons P irréductible, et faisons l’hypothèse qu’il


existe deux mesures de probabilités µ1 , µ2 différentes telles que µ1 = µ1 P
P µ2 = µ2 P . Si on appelle x le vecteur ligne x = µ1 − µ2 on a x = xP et
et
i∈E xi = 0 ; en particulier il existe deux indices i, j tels que xi et xj sont de
signes opposés. Puisque la matrice P est irréductible il existe un exposant m
tel que (P m )ij > 0. Ecrivons x = xP m puis,
X X X
|xj | = | xk (P m )kj |
j∈E j∈E k∈E
XX
≤ |xk ||(P m )kj |
j∈E k∈E
XX
≤ |xk |(P m )kj
k∈E j∈E
X
≤ |xk |
k∈E

puisque la matrice P est stochastique ( j∈E (P m )ij = 1). Or, cette dernière
P
inégalité est une égalité ; par conséquent dans la suite d’inégalités que nous
avons écrites nous avions en fait déjà des égalités. Il en résulte que pour tout
j, X X
|xj | = | xk (P m )kj | = |xk |(P m )kj ,
k∈E k∈E
m
ce qui n’est possible que si les |xk |(P )kj , sont tous de même signe quand k
varie dans le sous-ensemble de E constitué des k pour lesquels |xk |(P m )kj est
non nul. Puisque xi 6= 0 et que par définition de m le coefficient (P m )ij > 0,
ceci entraîne que xj est de même signe que xi ce qui est une contradiction.

P P apériodique. Notons M0 l’ensemble des vecteurs


Supposons à présent
lignes x tels que i∈E xi = 0. Définissons pour x ∈ M0 la norme suivante :

1X X
kxk = |xi | = (xi )+ .
2 i∈E i∈E

(Avec la notation z + = max(0, z)). L’application x 7→ xP envoie M0 dans


lui même. On a le lemme suivant

Lemme 3.4.1 Soit Q une matrice stochastique telle que α = mini,j∈E Qij >
0. Alors, Q est une (1 − α)-contraction : pour tout x ∈ M0

kxQk ≤ (1 − α)kxk.
40 CHAPITRE 3. MESURES INVARIANTES

Démonstration.— On a
X
kxQk = (xQ)i
i:(xQ)i >0
X X
= xk (Q)ki
i:(xQ)i >0 k∈E
X X
≤ |xk |(Q)ki |
i:(xQ)i >0 k:xk >0
X X
≤ xk (Q)ki
k:xk >0 i:(xQ)i >0

P
Comme xQ ∈ M0 on a i∈E (xQ)i = 0 et l’ensemble des i ∈ E pour lesquels
(xQ)i > 0 n’est pas E tout entier. Par conséquent,
X X X
(Q)ki = (Q)ki − (Q)ki
i:(xQ)i >0 i∈E i:(xQ)i ≤0
X
=1− (Q)ki
i:(xQ)i ≤0

≤ (1 − α).
Revenant aux inégalités précédentes
kxQk ≤ (1 − α)kxk.

2
Puisque P est apériodique il existe un entier m tel que Q = P m soit à
coefficients strictement positifs. L’application x 7→ xP m de (M0 , k · k) dans
lui même est donc une (1 − α)-contraction et par conséquent pour tout entier
l, kxP lm k ≤ (1 − α)l kxk. Si µ est l’unique mesure de probabilité stationnaire
et ν une mesure de probabilité µ − ν ∈ M0 et donc pour tous entiers l, c
k(µ − ν)P lm+c k ≤ (1 − α)l k(µ − ν)P c k
ce qui s’écrit (en utilisant µP n = µ)
kµ − νP lm+c k ≤ (1 − α)l k(µ − ν)P c k.
Comme tout entier n s’écrit de façon unique n = lm + c avec 0 ≤ c < m,
l ≥ n/m (division euclidienne de n par m) et comme 0 ≤ (1 − α) < 1, la
suite µ − νP n converge vers 0.
2
Comme corollaire on obtient :
3.4. MÉLANGE 41

Théorème 3.4.3 Si P est une matrice stochastique et A la matrice de tran-


sition associée à P (Ai,j = 1 ssi Pij > 0) notons p l’unique mesure sta-
tionnaire telle que pP = p et m la mesure correspondante sur (ΣA , Bor). Le
système dynamique (ΣA , Bor, σ, m) est mélangeant.
Démonstration.— Il suffit de démontrer que pour tous cylindres C =
C(0 , . . . , n ), C 0 = C(00 , . . . , 0n0 ) on a

lim m(C ∩ σ −k C 0 ) = 0.
k→∞

Si k est assez grand (k ≥ n), C∩σ −k C 0 est le cylindre C 00 = C(0 , . . . , n , ∗, k , . . . , k+n0 )


dont la m mesure vaut

m(C 00 ) = p0 P0 1 · · · Pn−1 n (P k−n )n k Pk k+1 · · · Pk+n0 −1 k+n0
= p0 P0 1 · · · Pn−1 n (P k−n )n 00 P00 01 · · · P0n0 −1 0n0

Mais qj (P k−n )ji converge vers pi quand k tend vers l’infini ; ainsi, quand k
tend vers l’infini m(C 00 ) tend vers

p0 P0 1 · · · Pn−1 n p00 P00 01 · · · P0n0 −1 0n0

qui vaut m(C)m(C 0 ).


2
42 CHAPITRE 3. MESURES INVARIANTES
Chapitre 4

Homéomorphismes et
difféomorphismes du cercle

4.1 Homéomorphismes du cercle


4.1.1 Forme des relevés d’un homéomorphisme du cercle
Nous entreprenons dans cette section l’étude des homéomorphismes du
cercle (ou plutôt du tore de dimension 1) T = R/Z = {x + Z : x ∈ R}.
Nous notons π a projection canonique π : R → R/Z. On dit que x ∈ R est
un relevé de x̄ ∈ R/Z si π(x) = x̄. Si x̄, ȳ ∈ R/Z admettent pour relevés
respectifs x, y ∈ R nous posons d(x, y) = mink∈Z |x − y − k|. Il est facile de
voir que (R/Z, d) est un espace métrique complet compact. Par construction
(R, π) est un revêtement de R/Z. Ceci permet de définir une orientation sur
R/Z : nous dirons que x̄, ȳ, z̄ sont ordonnés dans le sens direct s’il existe des
relevés x, y, z ∈ R tels que x < y < z < x + 1. On dit qu’une application
continue f : R/Z → R/Z préserve l’orientation si pour tout triplé ordonné
dans le sens direct (x, y, z) le triplet image (f (x), f (y), f (z)) est ordonné dans
le sens direct.
Exemple L’application de T dans lui même x 7→ −x ne préserve pas l’orien-
tation (elle la renverse).
Comme [0, 1] est simplement connexe, pour tout chemin continu γ :
[0, 1] → R/Z et tout x̃ ∈ π −1 (γ(0)) il existe un unique chemin continu
γ̃ : [0, 1] → R tel que γ̃(0) = x̃ et qui relève γ : π ◦ γ̃ = γ. De la même
façon, toute application continue g : R → R/Z se relève en une applica-
tion continue G : R → R, tous les autres relèvement de g étant de la forme
G(·) + k, k ∈ Z. Par conséquent si f : R/Z → R/Z est une application
continue elle se relève en une application continue F : R → R (considérer

43
44CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

g = f ◦ π) toutes les autres applications relevant f étant de la forme F + k,


k ∈ Z. On a ainsi
π◦F =f ◦π
et Z étant discret, il existe un unique entier k ∈ Z tel que

F (· + 1) = F (·) + k.

Lemme 4.1.1 Une application f : R/Z → R/Z est un homéomorphisme


préservant l’orientation si et seulement si il existe un relèvement F : R →
R de f continu strictement monotone tel que F (· + 1) = F (·) + 1. Par
conséquent il existe une fonction φ ∈ C 0 (R, R) qui est Z-périodique et telle
que F = id + φ. Tout autre relèvement est de la forme id + φ + k où k ∈ Z.

Démonstration.— Soit F un relèvement continu de f tel que F (x + 1) =


F (x) + k, k ∈ Z. Comme f est injective F est strictement monotone (sinon
on peut trouver deux points x, y ∈ R x < y < x + 1 tels que F (x) =
F (y) ; mais cela fournit deux points distincts x̄ = π(x), ȳ = π(y) tels que
f (x̄) = f (ȳ) contredisant l’injectivité de f ). Ceci entraîne k 6= 0 et par
conséquent lim±∞ F ∈ {−∞, ∞} si bien que F est un homéomorphisme
de R. Comme f préserve l’orientation, F est strictement croissante et on
a k > 0. Supposons l’entier k > 1. Alors, d’après le théorème des valeurs
intermédiaires, il existerait 0 < x < 1 tel que F (0) < F (x) = F (0) + 1 <
F (1) = F (0) + k (F est nécessairement strictement croissante si p > 0).
Mais ceci contredit l’injectivité de f = π ◦ F ◦ π. On a donc k = 1 et
F (· + 1) = F (·) + 1. Il est alors clair que la fonction φ : x 7→ F (x) − x est
Z-périodique.
2

Remarque Un critère pour qu’une application de la forme x + φ(x) où


φ ∈ C 0 (R/Z) soit un homéomorphisme croissant de R est que |φ(x)−φ(y)| <
|x − y| pour tous x, y. En particulier, si φ est dérivable et supx∈R |φ0 (x)| < 1
ce sera le cas.
Nous notons Homeo+ (RZ) l’ensemble des homéomorphismes de RZ pré-
0
servant l’orientation et D+ (R/Z) l’ensemble des homéomorphismes F de R
croissants tels que x 7→ F (x)−x est croissant. Ce dernier espace s’identifie na-
turellement à C 0 (R/Z) et nous définirons une distance d sur D+ 0
(T) en posant
dC 0 (F, G) = supx∈R |((F (x)−x)−(G(x)−x))|. Nous munirons Homeo+ (R/Z)
0
de la plus petite topologie qui rend l’application π : D+ (T) → Homeo+ (T)
continue : une base de voisinage de Homeo+ (T) est l’ensemble des Vδ (f ) où
Vδ (f ) est {π ◦ (F + φ) : φ ∈ C 0 (T), kφkC 0 < δ} où F est un relèvement de F .
4.1. HOMÉOMORPHISMES DU CERCLE 45

4.1.2 Nombre de rotation


Soit f un homéomorphisme du cercle et F (x) = x + φ(x) un relèvement
(φ est 1-périodique). Remarquons que puisque φ est 1-périodique on peut
considérer φ comme une application définie sur R/Z (exercice : vérifier).
Le lemme et la remarque qui suivent sont à la base de la théorie du nombre
de rotation

Lemme 4.1.2 Si F (x) = x + φ(x) est le relèvement d’un homéomorphisme


du cercle (préservant l’orientation) on a pour tout x, y ∈ R tels que |x − y| <
1, l’inégalité |F (x) − F (y)| < 1.
Démonstration.— Supposons en effet que x < y < x + 1. Comme F est
strictement croissante et que F (x + 1) = F (x) + 1 on a F (x) < F (y) <
F (x) + 1.
2

Remarque : Si on note F n l’itéré n-ième de F on a


n−1
X
F n (x) − x = φ ◦ f k (x).
k=0

Le théorème fondamental de cette section est le suivant :

Théorème 4.1.1 Les moyennes de Birkhoff de φ le long de f (ou F )


n−1
F n (x) − x 1X
= φ ◦ f k (x)
n n k=0

convergent uniformément vers un nombre ρ(F ).R Pour toute mesure de proba-
bilité µ sur R/Z invariante par f on a ρ(F ) = R/Z φdµ. Comme ρ(F + k) =
ρ(F ) + k pour tout k ∈ Z on définit ρ(f ) = ρ(F ) mod Z.
Démonstration.— Considérons φ comme une application continue de R/Z
sur R et soit µ une mesure de probabilité sur R/Z invariante par f . D’après
le théorème de Birkhoff, on sait qu’il
P existe au moins un point x0 ∈ R/Z pour
lequel la somme de Birkhoff 1/n n−1 k=0 φ ◦ f k
(x 0 ) converge. Mais ceci signifie
que (F (x0 ) − x0 )/n converge vers un nombre ρ. Comme F n est un relevé de
n

f n on a |F n (x) − F n (y)| < 1 pourvu que |x − y| < 1. Par conséquent, pour


tout x tel que |x − x0 | < 1 on a
1 2
|(F n (x) − x) − (F n (x0 ) − x0 )| ≤ ,
n n
46CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

ce qui prouve la convergence uniforme de n1 (F n (x) − x) vers un nombre ρ.


Pour identifier ce dernier, il suffit de constater que
Z Z
n
(F (x) − x)dµ(x) = n φdµ
R/Z R/Z
R
pour obtenir que ρ = R/Z
φdµ pour toute mesure de probabilité µ qui est
f -invariante.

Remarque On peut éviter le recours au Théorème ergodique en observant


que l’égalité Z  Z 
k
(F (x) − x) − k φdµ dµ(x) = 0
R/Z R/Z

assure l’existence d’un point xk pour lequel F k (xk ) − xk = kρ.


2

Remarque La remarque de la preuve précédent montre que pour tout k ∈ Z


il existe un point xk tel que R−kρ ◦ f k admette xk comme point fixe.

Propriétés du nombre de rotation

Proposition 4.1.1 1) Si f, g ∈ Homeo+ (R/Z) et h : R/Z est une semi-


conjugaison : f ◦ h = h ◦ g alors ρ(f ) = ρ(g).
0
2) L’application ρ : D+ (T) → R (resp. ρ : Homeo+ (R/Z) → T) est continue.
3) Si f, g ∈ Homeo+ (T) commutent (f ◦g = g ◦f ) alors ρ(f ◦g) = ρ(f )◦ρ(g).
0
4) Si F, G ∈ D+ (T) vérifient ∀x ∈ R F (x) ≤ G(x) alors ρ(F ) ≤ ρ(G).
5) Si f ∈ Homeo+ (T), ρ(f ) = p/q ((p, q) ∈ Z × Z, p.g.c.d.(p, q) = 1) si et
seulement si f admet un point périodique de période q.
6) Si on note Rλ : R → R l’application Rλ (x) = x + λ alors l’application
λ 7→ ρ(Rλ ◦ F ) est croissante au sens large et si ρ(f ) ∈
/ Q alors ρ(Rλ ◦ f ) =
ρ(f ) implique λ = 0.
Démonstration.—
1) Soient F , G, H des relèvements de f, g, h et φ, ψ, θ ∈ C 0 (T) tels que
F (x) = x + φ(x), G(x) = x + ψ(x), H(x) = x + θ(x). La relation de semi-
conjugaison se relève sous la forme F ◦ H = H ◦ G + k où k est un entier
que l’on peut supposer nul quitte à le retrancher à F . Il est facile de voir que
pour tout entier n on a F n ◦ H = H ◦ Gn si bien que
F n (H(x)) − H(x) H(Gn (x)) − H(x)
= .
n n
4.1. HOMÉOMORPHISMES DU CERCLE 47

Mais H(Gn (x)) = Gn (x) + θ(Gn (x)), si bien que


F n (H(x)) − H(x) Gn (x) − G(x) + (θ(Gn (x)) − θ(x))
= .
n n
Mais θ est bornée sur R et en faisant tendre n vers l’infini on obtient le
résultat.
2) On a vu que (F n − id)/n convergeait uniformément vers ρ(F ). Mais F 7→
(F n − id)/n est continue. Par conséquent (une limite uniforme de fonctions
continues est continue) F 7→ ρ(F ) est continue.
3) On peut trouver des relèvements tels que F ◦ G = G ◦ F . On a donc
(F ◦ G)n = F n ◦ Gn et
(F ◦ G)n (x) − x F n (Gn (x)) − Gn (x) Gn (x) − x
−(ρ(F )+ρ(G)) = ( −ρ(F ))+( −ρ(G))
n n n
et donc
(F ◦ G)n − id F n − id Gn − id
k −(ρ(F )+ρ(G))k0 ≤ k −ρ(F ))|k0 +k −ρ(G))k0 .
n n n
4) Si pour tout x F (x) ≤ G(x) alors comme F et G sont croissantes F (F (x)) ≤
F (G(x)) ≤ G(G(x)) et plus généralement F n (x) ≤ Gn (x).
5) Si f admet un point périodique x de période q, il existe un relèvement F
et un entier p tel que F q (x̃) = x̃ + p (x̃ est un relèvement de x). On a donc
F nq (x) − x = np et donc ρ(F ) = p/q. Réciproquement si ρ(f ) = p/q alors il
existe un relèvement F tel que ρ(F ) = p/q. On a vu (cf. la Remarque dans
la preuve de l’existence du nombre de rotation) qu’il existait x ∈ R tel que
F q (x) = x + q(p/q) = x + p. Par conséquent f q (x) = x. Démontrons que q est
la plus petite période. Notons l cette plus petite période : il existe un entier m
tels que F l (x) = x+m ; la division euclidienne de q par l, q = al+r, 0 ≤ r < l
donne le résultat suivant ; x + p = F q (x) = F q−al (F al (x)) = F q−al (x + am) =
F r (x) + am. Par conséquent F r (x) = x + p − am où 0 ≤ r < l ce qui
contredit la minimalité de l si r est non nul. On a donc r = 0 c’est-à-dire
q = al et p = am ; mais alors p et q ne sont pas premiers entre eux d’où une
contradiction.
6) Notons Fλ = Rλ ◦ F . La croissance résulte du point 4). Si ρ(F ) ∈ / Q et
λ > 0 alors il existe un rationnel p/q tel que (p/q) − (λ/2q) < ρ(F ) < p/q.
En outre, on sait qu’il existe un x ∈ R pour lequel F q (x) = x + qρ(F ) et
donc x + p − (λ/2) < F q (x) < x + p. Par conséquent, comme F, Fλ sont
croissantes et λ > 0, Fλq (x) = Fλ (Fλq−1 (x)) ≥ Fλ (F q−1 (x)) = λ + F q (x),
si bien que Fλq (x) ≥ x + p + (λ/2) et donc ρ(Fλq ) ≥ p + (λ/2). On a donc
ρ(Fλ ) > p/q > ρ(F ).
48CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

Exercice Démontrer qu’en général le nombre de rotation de la composition


de deux homéomorphismes du cercle préservant l’orientation n’est pas égal à
la somme de leurs nombres de rotation. (Considérer une perturbation d’un
difféomorphisme du cercle admettant un point fixe hyperbolique).

4.1.3 Le théorème de Poincaré


Une question centrale en systèmes dynamiques est de savoir si une dyna-
mique donnée peut être conjuguée à une dynamique modèle plus simple. Dans
le cas qui nous intéresse il s’agit de savoir si un homéomorphisme du cercle
peut être conjugué à une rotation par un homéomorphisme. Comme nous
allons le voir, ce n’est en général pas le cas mais on a le résultat important
suivant dû à Poincaré. En fait, si ρ(f ) ∈/ Q on peut toujours semi-conjuguer
f à une rotation.

Théorème 4.1.2 Soit f ∈ Homeo+ (T) tel que ρ(f ) ∈ / Q. Alors, il existe
h : T → T continue surjective telle que f ◦ h = Rρ(f ) ◦ h et h admet un
relèvement de la forme H(x) = x + θ(x) croissant au sens large sur R avec
θ ∈ C 0 (R/Z). En outre, si µ est une mesure de probabilité f -invariante
Rx et
µ̃ est un relèvement de µ à R (π∗ µ̃ = µ) on peut choisir H(x) = 0 dµ̃(t).
L’application h appartient à Homeo+ (T) si et seulement si supp(µ) = T.

Démonstration.— Soit µ une mesure de probabilité sur T invariante par f .


Remarquons déjà que µ est sans atome car si ce n’était pas le cas l’orbite d’un
atome serait nécessairement finie et donc f admettrait un point périodique ;
or, cela est impossible car ρ(fP )∈/ Q. On peut relever µ à R en posant pour
tout borélien A de R µ̃(A) = k∈Z µ(A ∩ [k, k + 1)). On a µ̃(A + k) = µ̃(A)
pour tout borélien A de R et tout entier k. La mesure µ̃ ainsi obtenue R x est
également F invariante si F est un relèvement de f . Posons H(x) = 0 dµ̃(t).
Cette application est croissante au sens large puisque µ̃ est positive, elle est
continue car µ̃ est sans atome et elle vérifie H(x + 1) = H(x) + 1 ; détaillons
ce dernier point : µ̃([0, x + 1]) = µ̃([0, x]) + µ̃([x, x + 1]) ; mais si k est l’entier
pour lequel x ≤ k < x + 1 on a µ̃([x, x + 1]) = µ̃([x, k]) + µ̃([k, x + 1]) =
µ̃([x, k])+µ̃([k−1, x]) = µ̃([k−1, k]) = 1. Démontrons que H vérifie la relation
de semi-conjugaison. On a H(F (x)) = µ̃([0, F (x)]) = µ̃([0, x]) + µ̃([x, F (x)]).
Comme

µ̃([x, F (x)]) = −µ̃([0, x]) + µ̃([0, F (0)]) + µ̃([F (0), F (x)])


4.1. HOMÉOMORPHISMES DU CERCLE 49

et comme µ̃ est F -invariante et que F est un homéomorphisme (monotone)


on a µ̃([F (0), F (x)]) = µ̃([0, x]) si bien que

H(F (x)) = F (x) + λ

où λ = µ̃([0, F (0)]). Mais comme le nombre de rotation est invariant par


semi-conjugaison on déduit de cela que λ = ρ(F ).
L’application H est surjective puisque H(k) = k pour tout entier k et elle
est strictement croissante si µ charge tout ouvert.
2

Remarques 1) On dit que (T, Rρ(f ) ) est un facteur de (T, f ).


2) Il est commode de considérer que T = [0, 1]/ ∼ où ∼ est l’identification
de 0 et de 1 et de voir h comme une application continue croissante au sens
large de [0, 1] dans lui même et telle que h(0) = 0, h(1) = 1.
3) Supposons que le support de µ ne soit pas égal à T. Son complémentaire
est un ouvert qui possède ainsi un nombre dénombrable de composantes
connexes. Si I est l’une d’entre elles h est constante sur I. Réciproquement,
si I est un intervalle sur lequel h est constante alors I est inclus dans le
support de µ
4) Si I = (a, b), J = (c, d) sont deux composantes connexes distinctes et si on
suppose par exemple (a, b, c, d) bien ordonné on a b < c car sinon {b} serait un
point isolé dans le support de µ et serait un atome. On a µ([b, c]) > 0 car sinon
(a, d) serait inclus dans le support de µ et I ne serait pas une composante
connexe du complémentaire de suppµ. On a donc h(c) = h(b) + µ([b, c]) >
h(b). On voit donc que les composantes connexes de Oµ sont indexées par
leurs h-hauteur.
5) Notons Oµ le complémentaire de suppµ. C’est un ouvert qui est invariant
par f (puisque le support de µ est f -invariant). Si I est une composante
connexe de Oµ alors pour tout k ∈ Z, f k (I) est une composante connexe
de I qui est toujours disjointe de I car h|f k (I) = h|I + kρ(f ) mod 1 et
ρ(f ) ∈
/ Q. Par conséquent, toute composante connexe de Oµ est un ensemble
errant.
6) Notons Iµ l’ensemble dénombrable des composantes connexes de Oµ et Dµ
l’union des ∂I, pour I variant dans Iµ . Alors, Dµ est un ensemble dénom-
brable et il est invariant par f puisque si x ∈ ∂I, I ∈ Iµ on a f (I) ∈ Iµ et
x ∈ ∂(f (I)).

Lemme 4.1.3 Soit h : [0, 1] → [0, 1], h(0) = 0, h(1) = 1 une application
continue croissante. Notons O l’ouvert sur lequel h est localement constante,
50CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

K son complémentaire, I l’ensemble des composantes connexes de O et D


l’union des ∂I, I ∈ I. Alors, D est dénombrable, h|(K − D) est un homéo-
morphisme de K − D sur son image et h−1 ([0, 1] − h(D)) = K − D.

Démonstration.— Comme I est dénombrable, il en est de même de D. Si


h(x) = h(y) avec x, y ∈ K − D et x < y alors h|]x, y[ est constante et donc
]x, y[ est inclus dans une composante connexe I de O. Mais comme x, y sont
dans K ceci implique que x, y ∈ ∂I ⊂ D ce qui est une contradiction. Ainsi,
h est injective sur K − D. Par ailleurs, si h(x) ∈ [0, 1] − h(D) alors h n’est
pas constante sur un voisinage de x (sinon il existerait I composante connexe
de O contenant x et h(x) = h|∂I ∈ h(D)) et donc x ∈ K et n’est pas dans
D. On a donc h−1 ([0, 1] − h(D)) = K − D. Enfin, si h−1 (xn ) → h−1 (x) avec
xn , x ∈ [0, 1] − h(D), on a xn → x (car h est continue).
2

Minimal invariant

Soit µ une probabilité invariante sur T par f ∈ Homeo+ (T) et supposons


que ρ(f ) ∈
/ Q. Notons Kµ le support de la mesure µ. C’est un ensemble
compact de T qui est f -invariant.

Proposition 4.1.2 Si Kµ := suppµ 6= T alors Kµ est un ensemble de Can-


tor, c’est-à-dire est fermé, sans point isolé et d’intérieur vide. En outre Kµ
est l’unique compact minimal invariant.

Démonstration.— L’ensemble Kµ est sans point isolé car sinon un tel point
serait un atome de µ. Démontrons que Kµ est minimal. Pour cela il suffit de
démontrer que si L est un compact invariant par f on a Kµ ⊂ L. Le théorème
de Poincaré montre que hµ (L) (resp. hµ (Kµ )) est un compact de T invariant
par Rρ : c’est donc T (Rρ est minimale). Comme hµ est injective sauf sur
l’ensemble dénombrable Dµ (cf. le Lemme 4.1.3), on a Kµ − Dµ ⊂ L. Comme
Kµ est sans point isolé et que Dµ est dénombrable, on a Kµ ⊂ L car Kµ et L
sont fermés, ce qui démontre que Kµ est l’unique ensemble fermé f -invariant
minimal. Ceci implique que Kµ est d’intérieur vide : en effet, si ce n’était
pas le cas, sa frontière Kµ − int(Kµ ) serait un ensemble fermé f -invariant
(comme f est un homéomorphisme l’intérieur d’un ensemble invariant est
invariant) et Kµ ne serait pas minimal.
2
4.2. DIFFÉOMORPHISMES DU CERCLE 51

Unique ergodicité

Théorème 4.1.3 Si f ∈ Homeo+ (T) vérifie ρ(f ) ∈


/ Q alors f est unique-
ment ergodique.

Démonstration.— Soit h telle que h ◦ f = Rρ ◦ h et ν une mesure de


probabilité f invariante (on ne suppose pas que h(·) = ν([0, ·])).Comme
h : (T, f ) → (T, Rρ ) est un facteur, on voit que h∗ ν est Rρ invariante et
comme ρ est irrationnel h∗ ν = Leb (Rρ est uniquement ergodique)
Si h est un homéomorphisme on a donc ν = (h−1 )∗ Leb et ν est unique.
Sinon, notons K le minimal invariant de f et D l’union des extrémités des
composantes connexes de son complémentaire. Remarquons que suppν = K,
car sinon il existerait un intervalle errant dans le support de ν, ce qui est
impossible. Mais pour tout borélien A ⊂ R on a ν(A) = ν(K ∩ A) car
K = suppν et comme D est dénombrable et que ν est sans atome ν(A) =
ν((K ∩ A) − D). Comme h((K ∩ A) − D) ⊂ [0, 1] − h(D) on a d’après le
Lemme 4.1.3 h−1 (h((K ∩ A) − D) = (K ∩ A) − D et comme h∗ ν = Leb

ν(A) = ν((K ∩ A) − D) = Leb(h((K ∩ A) − D)).

Cette dernière quantité ne dépend pas de ν, donc ν est unique.


2

4.2 Difféomorphismes du cercle


Nous donnons dans cette section un critère qui permet de déterminer
quand la semi-conjugaison obtenue dans le théorème de Poincaré est en fait
une conjugaison et quelle est la régularité que l’on peut espérer pour cette
conjugaison.

4.2.1 Rappels sur les fractions continues


Soit 0 < α < 1 un nombre irrationnel et définissons par récurrence deux
suites (an ), (αn ) (n ≥ 0) où les an ≥ 1 sont des entiers et les αn sont dans
]0, 1[ :
αn+1 = {αn−1 }, an+1 = [αn−1 ], α0 = α (4.1)
52CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

({·}, [·] sont respectivement la partie fractionnaire et la partie entière). On a


ainsi la représentation

1
α= .
1
a1 +
1
a2 +
1
··· +
an + αn
Nous noterons pn /qn (pn ∧ qn = 1) le rationnel

pn 1
= .
qn 1
a1 +
1
a2 +
1
··· +
an
On dit que pn /qn est la n-ième réduite de α. Remarquons que si on effectue
la procédure précédente avec pn /qn à la place de α on obtient des α̃k pour
1 ≤ k ≤ n avec α̃n = 0 tels que

α̃k+1 = {α̃k−1 }, ak+1 = [α̃k−1 ], α0 = pn /qn (4.2)

Il est commode d’introduire également les suites βn où

βn = αn · · · α0 , β−1 = 1.

Multipliant l’égalité αn−1 = an+1 + αn+1 par βn on voit que

βn−1 = an+1 βn + βn+1

ce qu’on peut écrire

(−1)n+1 βn+1 = an+1 (−1)n βn + (−1)n−1 βn−1

ou encore     
(−1)n+1 βn+1 an+1 1 (−1)n βn
=
(−1)n βn 1 0 (−1)n−1 βn−1
On a donc
      
(−1)n βn an 1 a1 1 α
= ···
(−1)n−1 βn−1 1 0 1 0 −1
4.2. DIFFÉOMORPHISMES DU CERCLE 53

Si on pose β̃k = α̃k · · · α̃0 on aura β̃n = 0 et


 
      pn
0 an 1 a 1  
n−1 = ··· 1 qn
(−1) β̃n−1 1 0 1 0
−1

Notons Pk , Qk ∈ N
     
Qn Pn an 1 a1 1
:= ···
Qn−1 Pn−1 1 0 1 0
 
Qn Pn
On a Qn Pn−1 − Qn−1 Pn = det = (−1)n si bien que Pn ∧ Qn =
Qn−1 Pn−1
1. Par conséquent comme 0 = Qn pn /qn − Pn on voit que Pn /Qn = pn /qn
mais comme Pn ∧ Qn = pn ∧ qn cela implique Pn = pn et Qn = qn . On a donc
démontré

Lemme 4.2.1 Les suites pn , qn sont définies par les relations de récurrence
(
pn = an pn−1 + pn−1 , p0 = 1, p−1 = 0
qn = an qn−1 + qn−2 q0 = a1 , q−1 = 0

Remarque Il est facile de voir que pour tout n ≥ 1 on a qn+1 > qn et


tout n ≥ 2, qn ≥ 2n/2 .

Lemme 4.2.2 Pour tout n ≥ 1 on a


pn + αn pn−1
α=
qn + αn qn−1

pn (−1)n
α− =
qn (qn+1 + αn+1 qn )qn
pn 1 1
|α − |≤ < 2.
qn qn+1 qn qn
Démonstration.— On a
pn + αn pn−1 an pn−1 + pn−2 + αn pn−1
=
qn + αn qn−1 an qn−1 + qn−2 + αn qn−1
α−1 pn−1 + pn−2
= n−1
−1
αn−1 qn−1 + qn−2
pn−1 + αn−1 pn−2
=
qn−1 + αn−1 qn−2
54CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

ce qui démontre la première égalité.


On a
pn pn + αn pn−1 pn
α− = −
qn qn + αn qn−1 qn
αn (pn−1 qn − qn−1 pn )
=
qn (qn + αn qn−1 )
(−1)n
=
qn (αn−1 qn + qn−1 )

En utilisant le fait que αn−1 = αn+1 + an+1 et la relation de récurrence des qn


on obtient la deuxième égalité.
Enfin l’inégalité est immédiate.
2

4.2.2 Théorème de Denjoy


L’objet de cette section est la démonstration du théorème de Denjoy.

Théorème 4.2.1 Soit f un homéomorphisme du cercle préservant l’orienta-


tion de nombre de rotation irrationnel. Supposons que f soit dérivable et que
log(Df ) (où Df (·) = f 0 est la dérivée de f ) soit à variation bornée1 . Alors,
il existe un homéomorphisme h ∈ Homeo+ (T) qui conjugue f à Rρ (f ).
Démonstration.— D’après le théorème de Poincaré, il s’agit de démontrer
qu’il n’existe pas d’intervalles errants pour f . Cela est garanti par le lemme
suivant :

Lemme 4.2.3 (Inégalité de Denjoy) Sous les hypothèses du Théorème de


Denjoy on a l’inégalité de Denjoy : pour tout q ∈ N tel qu’il existe p ∈ N
vérifiant |α − (p/q)| < 1/q 2 (donc pour toute réduite) et tout x ∈ T

e−V ≤ Df q (x) ≤ eV ,

où V = V ar(log(Df )).
Démonstration.— La preuve de ce lemme repose sur l’inégalité de Denjoy-
Koksma :
1
Une fonction φ : [a, b] → R est à variation bornée
Pns’il existe une constante C telle que
pour tous a = x0 < x1 < · · · < xn < xn+1 = b on a k=0 |φ(xk+1 ) − φ(xk )| ≤ C. On note
alors V ar(φ) la plus petite constante C possible. Une fonction φ dont la dérivée est L1 est
automatiquement à variation bornée et V ar(φ) ≤ kφ0 kL1
4.2. DIFFÉOMORPHISMES DU CERCLE 55

Lemme 4.2.4 (Denjoy-Koksma) Soit f un homéomorhisme du cercle pré-


servant l’orientation et µ une mesure de probabilité telle que F∗ µ = µ. Alors
pour toute fonction φ ∈ C 0 (T) à variation bornée, tout x ∈ T et tout q ∈ N
tel qu’il existe p ∈ N vérifiant |α − (p/q)| < 1/q 2 on a
q−1 Z
X
i
φ(f (x)) − q φdµ ≤ V ar(φ).
i=0 T

Démonstration.— Considérons x = 0, identifions T avec [0, 1]/ ∼ et définis-


sons q intervalles Ik (x) = [xk , xk+1 [ (0 ≤ k ≤ q − 1) où 0 = x0 < x1 < . . . <
xq−1 < xq = 1 sont définis par µ([xk , xk+1 ]) = (1/q) (on découpe donc le cercle
en q parties d’égales µ-mesure). Supposons que (p/q) − (1/q 2 ) < ρ < p/q (si-
non on considère f −1 ) ; on a pour tout 0 ≤ i ≤ q − 1

ip ip 1
< iρ < + .
q q q

Notons que comme p et q sont premiers entre eux, p est inversible modulo
q et l’ensemble {ip mod q, 0 ≤ i ≤ q − 1} a q éléments et est en bijection
avec {k mod q, 0 ≤ k ≤ q − 1}. Nous noterons i 7→ i(k) cette bijection et
k 7→ k(i) la bijection réciproque. Par conséquent, il y a un et un seul point
de iρ mod Z (0 ≤ i ≤ q − 1) dans chaque intervalle Ik ; nous noterons Ik(i)
l’intervalle contenant iρ mod Z. On a
q−1 Z q−1 Z
X X
i k(i)
φ(f (x)) − q φ(t)dµ(t) = φ(f (x)) − q φ(t)dµ(t)
i=0 T i=0 T
q−1  
XZ
k(i)
=q φ(f (x)) − φ(t) dµ(t)
i=0 Ik(i)
q−1
XZ  
i(k)
=q φ(f (x)) − φ(t) dµ(t)
k=0 Ik
q−1
X
≤ max φ(f i(k) (x)) − φ(t)
t∈Ik
k=0
≤ V ar(φ).

2
Nous pouvons démontrer l’inégalité de Denjoy : appliquons l’inégalité de
Denjoy-Koksma à φ = log Df et observons que d’après la formule donnant
56CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

la dérivée d’une composition on a


q−1
X
q
log Df (x) = (log Df )(f k (x)).
k=0

On a donc
Z
q
log Df (x) − q log(Df (t))dµ(t) ≤ V ar(log(Df )).
T
R
Si on avait T log(Df (t))dµ(t) > 0 par exemple, alors log Df q (x) converge-
R1
rait uniformément vers ∞ tout comme Df q (x). Mais comme 0 |Df q (t)|dt
est égal à 1 (c’est la longueur
R de l’image du cercle par f q ) on obtient une
contradiction. De même T log(Df (t))dµ(t) ne peut être négative : elle est
donc nulle et l’inégalité de Denjoy est alors claire.
2
Démontrons enfin le théorème de Denjoy. On sait qu’il existe un homéomor-
phisme h qui semi-conjugue f et Rρ et que h est un homéomorphisme si
et seulement si f n’admet pas d’intervalles errants. Supposons que I soit
un intervalle errant. Alors, on a limn→∞ |f qn (I)| = 0 (|J| est la longueur de
l’intervalle J). Mais d’après le théorème des valeurs intermédiaires il existe
zn ∈ I tel que
|f qn (I)|
= Df qn (zn ).
|I|
On doit donc avoir limn→∞ Df qn (zn ) = 0 ce qui contredit l’inégalité de Den-
joy. La semi-conjugaison h est donc un homéomorphisme.
2

4.2.3 Contre-exemples de Denjoy


Le théorème de Denjoy est en général faux si f est seulement C 1 :

Théorème 4.2.2 Si α est un nombre irrationnel, il existe un difféomor-


phisme C 1 de T qui préserve l’orientation et qui admet un minimal invariant
différent de T (f n’est donc pas topologiquement conjugué à Rα ou à une
rotation en général).
Nous ne donnerons pas la preuve de ce résultat. Disons seulement que l’idée
de la preuve est d’"ouvrir" le cercle (en rajoutant des intervalles de longueurs
variables) aux points Rαk (0).
4.2. DIFFÉOMORPHISMES DU CERCLE 57

4.2.4 Le Théorème d’Herman-Yoccoz


Il est naturel de se demander si l’on ne peut pas obtenir dans le théorème
de Denjoy une conjugaison plus régulière quitte à supposer f régulière (par
exemple C ∞ ). C’est en général faux si l’on ne fait pas d’hypothèse sur le
nombre de rotation de f .

Définition 4.2.1 On dit que α est diophantien d’exposant σ ≥ 0 et de


constante γ (on note α ∈ CD(γ, σ)) si pour tous entiers (p, q) ∈ Z×(Z−{0})
on a
p γ
|α − | ≥ 2+σ .
q q
Remarques 1) Il n’existe pas de nombre diophantien d’exposant σ < 0
(pourquoi ? ).
2) Il n’est pas difficile de démontrer que si σ > 0 et si on choisit γ suffisam-
ment petit l’ensemble CD(γ, σ) est de mesure de Lebesgue positive.
S
3) Si on définit CD(σ) = γ>0 CD(γ, σ) l’ensemble des nombres diophan-
tiens d’exposant σ > 0, alors cet ensemble est de mesure de Lebesgue totale.
4) Si α ∈ CD(σ) avec σ = 0 on dit que α est de type constant. Il est
équivalent de dire que les ai qui interviennent dans le développement en
fractions continues de α sont bornés.
5) Un nombre est diophantien (dans l’union des CD(σ), σ ≥ 0) si et seule-
ment si il existe une constante A > 0 telle que qi+1 ≤ qiA pour tout i.

Théorème 4.2.3 Si f est un difféomorphisme de T préservant l’orientation,


de classe C ∞ et tel que ρ(f ) est diophantien, alors il existe un difféomor-
phisme de classe C ∞ qui conjugue f à Rρ(f ) .
Remarques 1) On peut en fait relier la régularité minimale de f requise pour
que le théorème fournisse un conjugaison de classe au moins C 0 à l’exposant
σ de ρ(f ).
2) Si α n’est pas diophantien, il existe des difféomorphismes f de classe C ∞
tels que ρ(f ) = α qui ne sont pas linérisables (conjugués à des rotations).

4.2.5 Théorème d’Arnold


58CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE
Chapitre 5

Hyperbolicité

5.1 Point fixe hyperbolique d’un difféomorphisme


Soit (E, k · k) un espace de Banach et A : E → E un opérateur linéaire
continu et inversible (son inverse est donc continu). On dit que A est hy-
perbolique s’il existe une décomposition Es ⊕ Eu et des constantes positives
C, ρs , ρu telles que pour tout vs ∈ Es (resp. vu ∈ Eu ) et tout n ∈ N on a
kAn vs k ≤ Ce−ρs n kvk (resp ; kA−n vu k ≤ e−nρu kvku .
Quand E = Rn est de dimension finie et A ∈ GLn (R), on peut démontrer
que A est hyperbolique si et seulement si le σ(A), spectre de A (l’ensemble de
ses valeurs propres) a une intersection vide avec le cercle unité {z ∈ C, |z| =
1}. Dans ce cas,
M M
Es = Γλ , Eu = Γλ ,
λ∈σ(A):|λ|<1 λ∈σ(A):|λ|>1

et on peut choisir ρs < minλ∈σ(A):|λ|<1 (− log |λ|) et ρu < minλ∈σ(A):|λ|>1 (log |λ|).
C’est une conséquence du théorème de décomposition de Jordan (cf. Annexe
B) Comme les valeurs propres d’une matrice dépendent de façon continue de
cette matrice on déduit facilement le résultat suivant.

Proposition 5.1.1 L’ensemble des A ∈ GL(n, R) qui sont hyperboliques est


un ouvert (le même résultat est vrai dans les Banach)

Si A est hyperbolique, on dit qu’une norme est adaptée à A si pour tout


vs ∈ Es (resp. vu ∈ Eu ) on a kAvs k ≤ e−ρs kvk (resp ; kA−1 vu k ≤ e−ρu kvku .

Lemme 5.1.1 Si A est hyperbolique, il existe une norme A-adaptée (quitte


à diminuer les valeurs de ρs , ρu ).

59
60 CHAPITRE 5. HYPERBOLICITÉ

Démonstration.— Il suffit d’en construire une sur Es (et une sur Eu ). Il


suffit pour cela de définir pour v ∈ Es et ρ0s < ρs

0
X

kvk = eρ k kAk vk.
k=0

Cette somme converge du fait de la décroissance exponentielle des termes de


la série. En outre,

0
X
kAvk∗ = eρ k kAk+1 vk (5.1)
k=0

−ρ0 0
X
≤e eρ l kAl vk (5.2)
l=1
−ρ0
≤e kvk∗ (5.3)

On procède de la même manière pour définir k · k∗ sur Eu mais en itérant


dans le passé.
2

Définition 5.1.1 Soit f un difféomorphisme local de (Rn , x0 ) (on peut égale-


ment travailler dans des Banach). On dit que x0 est un point fixe hyperbolique
de f si f (x0 ) = x0 et si Df (x0 ) est hyperbolique.

Lemme 5.1.2 Soit A ∈ Gl(n, R) et ε > 0. Alors il existe une constante


δ > 0 pour laquelle ce qui suit est vrai : si F : Rn → Rn est une application
de classe C 1 telle que

kF k1 := sup max(kF (x)k, kDF (x)k) < δ,


x∈Rn

alors, l’application f = A + F est un difféomorphisme de Rn et (A + F )−1


est de la forme A−1 + G où G : Rn → Rn est ε-lipschitizienne : pour tous
x1 , x2 ∈ Rn kG(x1 ) − G(x2 )k ≤ εkx1 − x2 k.
Démonstration.— L’équation y = Ax+F (x) est équivalente à x = Ky (x) :=
A−1 y − A−1 F (x). ainsi, y étant donné, x est point fixe de Ky . Or cette appli-
cation Ky : Rn → Rn est clairement k-contractante avec k = kF k1 kA−1 k−1
(pourvu que la constante de Lipschitz de F soit plus petite que kA−1 k−1 ) et
admet donc un unique point fixe xy . Comme la constante k est indépendante
de y et que Ky est continue par rapport à y, le point fixe xy dépend conti-
nûment de y. On a ainsi x = y + G(y) avec G continue. Montrons que G
5.1. POINT FIXE HYPERBOLIQUE D’UN DIFFÉOMORPHISME 61

est Lipschitz. Pour y1 , y2 on a kx1 − x2 k ≤ kA−1 (y1 − y2 )k + kF k1 kx1 − x2 k


c’est-à-dire kx1 − x2 k ≤ (kA−1 k/(1 − kF k1 )ky1 − y2 k.
2

Théorème 5.1.1 (Hartman-Grobman) Si A est linéaire et hyperbolique


alors il existe ε > 0 tel que pour toute application F : Rn → Rn de classe C 1
et telle que kF k1 ≤ ε il existe un homéomorphisme h : Rn → Rn de la forme
h(x) = x + H(x) avec kHk0 < ∞ tel que
A + F = h ◦ A ◦ h−1 .
En outre, un tel h est unique si on le cherche sous la forme id + K avec
kKk0 < ∞.
La preuve de ce théorème passe par la preuve de la proposition plus
générale suivante

Lemme 5.1.3 Si A est linéaire et hyperbolique alors il existe ε > 0 tel que
pour toutes applications F1 , F2 : Rn → Rn de classe C 1 et telle que kFi k1 ≤ ε
(i = 1, 2) il existe un homéomorphisme h : Rn → Rn de la forme h(x) =
x + H(x) avec kHk0 < ∞ tel que
A + F2 = h ◦ (A + F1 ) ◦ h−1 .
En outre, un tel h est unique si on le cherche sous la forme id + K avec
kKk0 < ∞.
Démonstration.— On peut supposer que la norme de notre espace de Ba-
nach est A-adaptée. Si G : Rn → Rn on note Gs , Gu ses projections sur Es
parallèlement à Eu et sur Es parallèlement à Es . L’équation de conjugaison
que nous voulons résoudre est équivalente à
(A + F2 ) ◦ (I + H) = (I + H) ◦ (A + F1 ) (5.4)
AH + F2 ◦ (I + H) = F1 + H ◦ (A + F1 )
et en projetant sur Es , Eu
As Hs + F2,s ◦ (I + H) = F1,s + Hs ◦ (A + F1 )
Au Hu + F2,u ◦ (I + H) = F1,u + Hu ◦ (A + F1 ).
Puisque d’après le lemme 5.1.2 A + F1 est inversible si la norme C 1 de F1 est
suffisamment petite, on peut récrire ce système sous la forme
Hs = As Hs ◦ (A + F1 )−1 + F2,s ◦ (I + H) ◦ (A + F1 )−1 − F1,s ◦ (A + F1 )−1
 
−1
Hu = Au F1,u + Hu ◦ (A + F1 ) − F2,u ◦ (I + H)
62 CHAPITRE 5. HYPERBOLICITÉ

Introduisons alors l’espace de Banach (E, k · k) des paires (Hs , Hu ) avec


Hs , Hu ∈ C 0 (Rn , Rn ) telles que k(Hs , Hu )k := max(kHs kC 0 (Rn ) , kHu kC 0 (Rn ) )
soit fini et l’application Φ : E → E définie par Φ(Hs , Hu ) = (H̃s , H̃u ) où

H̃s = As Hs ◦ (A + F1 )−1 + F2,s ◦ (I + H) ◦ (A + F1 )−1 − F1,s ◦ (A + F1 )−1


 
−1
H̃u = Au F1,u + Hu ◦ (A + F1 ) − F2,u ◦ (I + H) .

Utilisant le fait que F2,u est kF2 k-lipschitzienne, on voit que l’application Φ
est k-contractante avec

k = min(ρs + kF2 k1 , ρu (1 + kF2 k1 ))

On a bien 0 ≤ k < 1 si kF k2 est suffisamment petite. Par conséquent l’équa-


tion (5.4) a une unique solution de la forme I + H où H est de norme C 0 -
bornée sur Rn . Il n’est en revanche pas clair a priori que I + H est inversible.
Ceci découle de la remarque suivante : Intervertissons les rôles de F1 et F2 :
on obtient H̃ tel que

(A + F1 ) ◦ (I + H̃) = (I + H̃) ◦ (A + F2 )

et tenant compte de (5.4) on obtient

(I + H̃) ◦ (I + H) ◦ (A + F1 ) = (A + F1 ) ◦ (I + H̃) ◦ (I + H). (5.5)

L’application (I + H̃) ◦ (I + H) est de la forme I + Ĥ où Ĥ est C 0 -bornée sur


Rn et est de ce fait l’unique solution de (5.5). Mais I est également solution
de cette équation : par conséquent (I + H̃) ◦ (I + H) = I, ce qui démontre
que I + H est un homéomorphisme.
2
Le théorème précédent admet une version locale :

Théorème 5.1.2 Si f : (Rn , 0) est un difféomorphisme local de classe C 1


tel que A = Df (0) est hyperbolique, alors il existe un homéomorphisme local
h : (Rn , 0) tel que sur un voisinage de 0

f = h ◦ Df (0) ◦ h−1 .

Démonstration.— L’idée de la preuve est de trouver une extensionf˜ de f


à Rn tout entier qui reste un difféomorphisme C 1 de Rn sur Rn . Supposons
que f soit défini sur une boule de centre 0 et de rayon 3δ. On conjugue tout
5.2. STABILITÉ STRUCTURELLE DES AUTOMORPHISMES DU TORE63

d’abord f par une dilatation Mδ : x 7→ δx pour obtenir fδ = Mδ−1 ◦ f ◦ Mδ ;


on a ainsi pour tout x dans la boule B(0, 3) de centre 0 et de rayon 3
1
fδ (x) = f (δx), Dfδ (x) = Df (x).
δ
D’après le théorème des accroissements finis
|fδ (x) − Df (0)x| ≤ 3ε(δ)
où ε(δ) = maxx∈B(0,3δ) |Df (x) − Df (0)| tend vers 0 avec δ (f est C 1 ). Soit
alors η une fonction de classe C ∞ qui vaut 0 sur B(0, 1) et 1 en dehors de
B(0, 2) et posons
f˜δ (x) = Df (0)x + η(x)(fδ (x) − Df (0)x).
Il est clair que sur la boule B(0, 1) on a f˜δ (x) = f/ d(x) et en dehors de la boule
B(0, 2) f˜δ (x) = Df (0)x. En outre, comme Df˜δ (x) = Df (0) + Dη(x)(fδ (x) −
Df (0)x)+η(x)(Dfδ (x)−Df (0)) on voit que kf˜δ −Df (0)xkC 1 (Rn ) ≤ 3ε(δ)kηkC 1 .
Par conséquent, dès que δ est suffisamment petit, le théorème de Hartman-
Grobman global s’applique à f˜δ et il existe une conjugaison h̃ telle que
f˜δ = h̃ ◦ Df (0) ◦ h̃−1 . Cette relation est vraie sur B(0, 1) et on a donc
f = h ◦ Df (0) ◦ h−1 où h = Mδ ◦ h̃ ◦ Mδ−1 .
2

5.2 Stabilité structurelle des automorphismes


du tore
Nous appliquons les résultats de la section précédente à un exemple de
stabilité structurelle. Soit A ∈  Z) telle que Spec(A) ∩ {|z| = 1} = ∅
 SL(d,
2 1
(par exemple la matrice A = ). La matrice A est donc hyperbolique.
1 1
On a vu que A définissait un difféomorphisme TA de Td qui préserve la
mesure de Haar sur Td . En outre, il est facile de voir par l’analyse de Fourier
que (TA , Haar) est ergodique. Considérons à présent une perturbation f , C 1 -
proche de TA (kf − AkC 1 est petite). Le théorème que nous allons démontrer
établit que f est C 0 -conjuguée à A.

5.2.1 Forme des homéomorphismes du tore


Proposition 5.2.1 Soit f un homéomorphisme de Td . Alors, il existe une
matrice A ∈ GL(d, Z) et une application φ : Rd /Zd → Rd continue elles que
64 CHAPITRE 5. HYPERBOLICITÉ

F : Rd → Rd , F (x) = Ax + φ(x) est un relèvement de f (π ◦ F = f ◦ π où


π : Rd → Td est la projection canonique).
Démonstration.— Soit F un relèvement continue de f . Pour tout entier
k ∈ Zd , F (· + k) − F (·) prend des valeurs entières et il existe donc l(k) ∈ Zd
tel que F (·+k)−F (·) = lF (k). Il es facile de voir que lF (k+k 0 ) = lF (k)+lF (k 0 )
pour tous k, k 0 ∈ Zd . En outre, si on note G un relevé de f −1 tel que G = F −1 ,
il est facile de voir que lF ◦ lG = id. Par conséquent (Exercice) il existe une
matrice A ∈ GL(d, /Z) telle que lF (k) = Ak pour tout k ∈ Zd . L’application
F − lF est clairement Zd -périodique.
2
Remarque La matrice A est l’action f∗ de f sur H1 (Td , Z).

5.2.2 Conjugaison topologique


Théorème 5.2.1 Si f est un difféomorphisme du tore Td de classe C 1 de
la forme f = A + φ où A ∈ GL(d, Z) est hyperbolique et kφkC 1 (Td ) est
suffisamment petite, alors il existe un homéomorphisme h de Td tel que
f = h ◦ TA ◦ h−1 .
Démonstration.— Soit F (x) = Ax + φ(x) un relèvement de f avec ϕ ∈
C 1 (Rd /Zd , Rd ). On sait d’après la forme global du théorème d’Hartman-
Grobman qu’il existe une application θ : Rd → Rd continue bornée, telle
que H := id + θ soit un homéomorphisme de Rd et telle que
F = A + φ = (I + θ)−1 ◦ A ◦ (I + θ).
Démontrons que θ est Zd -périodique. Comme φ est Zd -périodique, on voit
que pour tout point x ∈ Rd , tout k ∈ Zd et tout n ∈ Z
F n (x + k) = F n (x) + An k.
Comme H(x) = x + θ(x) avec θ bornée par une constante disons M on a
 
n n n n
max kH(F (x + k)) − F (x + k)k, kH(F (x)) − F (x)k ≤ M

et d’après la relation de conjugaison


 
n n n n
max kA (H(x + k)) − F (x + k)k, kA (H(x)) − F (x)k ≤ M

ce qui entraîne
kAn (H(x + k) − H(x)) − (F n (x + k) − F n (x))k ≤ 2M
5.3. VARIÉTÉS STABLES ET INSTABLES 65

c’est-à-dire
kAn (H(x + k) − H(x)) − An k)k ≤ 2M.
Par conséquent, pour tout n ∈ Z la suite An (H(x+k)−H(x)−k) est bornée.
Comme A est hyperbolique cela implique que
H(x + k) = H(x) + k;
comme cela est vrai pour tout k ∈ Zd , θ est bien Zd périodique et H passe
au quotient par Zd : si on pose h = H ◦ π on a bien h ◦ f = TA ◦ h, et il est
facile de voir que h est inversible (H l’est).
2

5.3 Variétés stables et instables


Nous supposerons dans la suite que A ∈ GL(n, R) est une matrice hyper-
bolique et nous noterons Es et Eu ses espaces stables et instables et ρs et ρu
des exposants associés.

Théorème 5.3.1 Soient A : Rn une matrice hyperbolique et k ≥ 1. Il


existe ε tel que pour toute application F : Rn → Rn de classe C k telle que
kF kC k (Rn ) ≤ ε, F (0) = 0, DF (0) = 0, l’ensemble W s des points de Rn tels
que limn→∞ d(f n (x), 0) = 0 (où f = A + F ) est le graphe d’une fonction
S : Es → Eu de classe C k telle que S(0) = 0 et DS(0)|Es = 0, c’est-à-dire
que W s coïncide avec {xs + S(xs ) : xs }. En outre, pour tout x ∈ W s on a
pour tout 0 ≤ α < ρ
d(f n (x), 0) ≤ Cx e−nα .
Démonstration.— On peut supposer que la norme de Rn avec laquelle
on travaille est A-adaptée. Introduisons l’espace E des couples de suites
((sn )n≥1 , (un )n≥0 )) où pour tout n ≥ 1, sn ∈ Es et tout n ≥ 0, un ∈ Eu .
Posons pour α > 0,
k(s, u)kα = max(sup enα |sn |, sup enα |un |),
n≥1 n≥0

et notons Eα l’ensemble des (s, u) ∈ E tels que k(s, v)kα < ∞. Muni de k · kα
c’est un espace de Banach. Notons Φ l’application Φ : Es × Eα → Eα qui à
(t, (s, u)) associe la (s̃, ũ) définie par les relations suivantes : pour tout n ≥ 1
s̃n+1 = As sn + Fs (sn , un )
un+1 = Au ũn + Fu (sn , un )
66 CHAPITRE 5. HYPERBOLICITÉ

et
s̃1 = As t + Fs (t, u0 )
u1 = Au ũ0 + Fu (t, u0 )

On a donc,
s̃n = As sn−1 + Fs (sn−1 , un−1 ) s̃1 = As t + Fs (t, u0 )
ũn = A−1
u (un+1 − Fu (sn , un )) ũ0 = A−1u (u1 − Fu (t, u0 ))

Remarquons que si Φ(t, (s, u)) = (s, u), cela signifie que pour tout n ≥ 1,
(sn , un ) = f n (t, u0 ) et que (sn , un ) est dans Eα .
Exercice Montrer que pour t fixé Φ(t, ·) est κ-contractante où κ := max(eα (ρ+
kDF k), ρ(e−α + kDF k)) < 1
Exercice Montrer que Φ est C k et que la dérivée D2 Φ(t, (u, v)) · (∆u, ∆v) =
(∆ũ, ∆ṽ) où

∆s̃n = As ∆sn−1 + DFs (sn−1 , un−1 ) · (∆sn−1 , ∆un−1 )


∆ũn = A−1
u (∆un+1 − DFu (sn−1 , un−1 ) · (∆sn , ∆un ))

∆s̃1 = DFs (t, u0 ) · (0, ∆u0 )


∆ũ0 = A−1
u (∆u1 − DFu (t, u0 ) · (0, ∆u0 ))

On a donc kD2 Φk ≤ max(eα (κ + kDF k), κ(e−α + kDF k)) < 1. Le théo-
rème du point fixe à dépendance C k s’applique et permet de conclure la
preuve du théorème.
2
Comme corollaire du théorème précédent on obtient :

Théorème 5.3.2 Si f : (Rn , 0) est une application de classe C k telle que


(f (0) = 0) Df (0) est hyperbolique, alors il existe des voisinages de 0, V ⊂
Rn , Vs ⊂ Es et Vu ⊂ Eu et des applications Ss : Vs → Eu , Su : Vu → Es ,
telles que Ss,u (0) = 0 et DSs,u (0) = 0 et
{(xs , xu ) ∈ V, lim f n (x) = 0} = {(xs , Ss (xs ), xs ∈ Vs }
n→∞

{(xs , xu ) ∈ V, lim f n (x) = 0} = {(Su (xu ), xu ), xu ∈ Vu }.


n→−∞
s u
En outre, pour tout α < ρ, et tout x ∈ Wloc (resp. x ∈ Wloc ), kf n (x)k ≤
Cx e−nα pour tout n ≥ 0 (resp. n ≤ 0).
5.3. VARIÉTÉS STABLES ET INSTABLES 67

Remarque : Si on considère des perturbations fλ de classe C k du difféo-


morphisme précédent telles qu’en topologie C k , λ 7→ fλ soit continue, alors,
il existe au voisinage de 0 un unique point fixe xλ hyperbolique pour fλ et
les variétés stable et instable associées à xλ dépendent continûment de λ en
topologie C k . (Exercice : Le démontrer ; on pourra démontrer une version
à deux paramètres du théorème du point fixe).
68 CHAPITRE 5. HYPERBOLICITÉ
Chapitre 6

Théorie spectrale

Dans ce qui suit (X, B, µ, T ) est un système dynamique mesurable, X


étant un espace de Lebesgue. L’idée de la théorie specrale est d’étudier ce sys-
tème dynamique via les propriétés spectrales de l’isométrie UT : L2 (X, µ) →
L2 (X, µ), φ 7→ φ ◦ T . Nous supposerons dans la suite que T est inversible
(T −1 étant B mesurable) de façon que UT est en fait un opérateur unitaire
UT∗ = UT−1 . On peut reformuler les notions d’ergodicité, de mélange ou de
mélange faible au moyen de UT . Si on note P la projection orthogonale de
L2 (X, µ) sur ker(UT − Id) = L2 (I, µ) (I étant la tribu des invariants de T ) :
i) (X, B, µ, T ) est ergodique si et seulement si, la tribu des invariants I égale la
tribu triviale {∅, X} ; d’après le théorème de Von Neumann ceci est équivalent
au fait que pour tout φ ∈ L2 (X, µ)
n−1
1X k
lim UT φ = P φ = hφ, 1i1
n→∞ n
k=0

au sens L2 , où P est la projection orthogonale sur l’espace des fonctions


constantes. En fait, (X, B, µ, T ) est ergodique si et seulement si pour tout
φ ∈ L2 (X, µ), Sn φ/n converge faiblement vers P φ : pour tout ψ ∈ L2 (X, µ)
n−1
1X k
lim hUT φ, ψi = hP φ, ψi.
n→∞ n
k=0

ii) (X, B, µ, T ) est mélangeant si pour tous φ, ψ ∈ L2 (X, µ)

lim hUTn φ, ψi = hφ, 1ihψ, 1i = hP φ, ψi,


n→∞

(c’est-à-dire UTn φ converge faiblement vers P φ.

69
70 CHAPITRE 6. THÉORIE SPECTRALE

6.1 Le théorème spectral


Le théorème fondamental est le suivant :

Théorème 6.1.1 (Théorème spectral) Si H est un espace de Hilbert (sé-


parable) et U : H → H un opérateur unitaire (U ∗ = U −1 ) alors il existe
a) r ∈ N ∪ {∞} et des mesuresνi , 1 ≤ i ≤ r telles que ν1 >> ν2 >> . . .
b) une isométrie bijective Λ entre H et E = ri=1 L2 (S 1 , Bor, νi ) qui conjugue
L
U (qui agit sur H) à l’opérateurMz de multiplication par z (qui agit sur E) :
si Λv = φ(·) alors (ΛHv)(z) = zφ(z).
En outre cette décomposition Lr̃est essentiellement unique : si (H, U ) est
2 1
isométriquement équivalent à ( i=1 L (S , Bor, ν̃i ), Mz ) avec ν̃1 >> ν̃2 >>
. . ., alors r̃ = r et ν̃i est équivalente à νi pour tout i.

La démonstration du théorème spectral que nous ne ferons pas complètement


repose sur les résultats suivants

Théorème 6.1.2 (Existence des mesures spectrales) 1) Pour tout x ∈


H il existe une mesure de probabilité νx telle que pour tout n ∈ Z
Z Z
−n
n
hU x, xi = ν̂x (n) := z dν(z) = e−2πinθ dν̃(θ).
S1 R/Z

2) Pour tout x ∈ H l’opérateur unitaire U restreint à l’espace cyclique


C(x) = Adh{U k x, k ∈ Z} est isométriquement équivalent à l’opérateur de
multiplication Mz agissant sur L2 (S1 , Bor(S1 , ν).

Démonstration.— 1) Nous travaillerons plutôt sur R/Z ≡ S 1 (on note


z = e2πiθ ). Posons pour kxk = 1

N −1 2
1 X k 2πikθ
νN (θ) = (U x)e .
N k=0

Par définition νN ≥ 0 et puisque

1 X
νN (θ) = hU k , U l xie2πi(k−l)θ
N 0≤k,l≤N −1
1 X
= kxk2 + hU k−l x, xie2πi(k−l)θ
N 0≤k6=l≤N −1
6.1. LE THÉORÈME SPECTRAL 71
R
on voit que T ν(θ)dθ = 1. Ainsi la mesure νN = νN (θ)dθ est de probabilité.
Le calcul précédent montre que
1 X
ν̂N (n) = hU k−l x, xi
N 0≤k6=l≤N −1
k−l=n
N −n n
= hU x, xi
N
et donc pour tout n ∈ Z, limn→∞ ν̂N (n) = hU n x, xi. Ceci implique que νN
converge faiblement vers une mesure de probabilité ν et que ν̂(n) = hU n x, xi.1
2) Pour tout polynôme trigonométrique P on a ν(P ) = hP (U )x, xi. Par
ailleurs,

kP (U )xk2 = h(P (U ))∗ P (U )x, xi


= hP̄ (U −1 )P (U )x, xi
= ν(Q) (Q(z) := P̄ (z −1 )P (z))
= ν(|P |2 )

car pour z ∈ S1 (|z| = 1) P̄ (z −1 )P (z) = |P |2 (z). On a donc démontré que


pour tout polynôme trigonométrique
Z
2
kP (U )xk = |P (z)|2 dν(z).
S1

Si Pn (U )x est une suite de C(x) convergeant vers y ∈ C(x), la suite Pn (U )x


est de Cauchy et d’après l’inégalité précédente il en est de même de Pn (·) ∈
L2 (S1 , ν). Il existe donc φ ∈ L2 (S1 , ν) tel que limn→∞ kPn −φkL2 (ν) = 0. Si Qn
est une autre suite de polynôme trigonométrique telle que Qn (U )x converge
vers y il est facile de voir que Qn qui est de Cauchy dans L2 (S1 , ν) converge
également vers φ 2 . Si on pose Ly = φ il est facile de voir que L est linéaire
et par définition kyk = kLykL2 (S1 ,ν) .
2

Proposition 6.1.1 Si x et y sont dans H, notons µx et µy des mesures


spectrales associées à x et y comme cela a été fait dans le théorème précédent.
Alors,
1
Pour tout polynôme trigonométrique la limite limN →∞ νN (P ) existe ; en outre, pour
toutes fonctions continues φ, P : S1 → C, on a |νN (φ) − νN 0 (φ)| ≤ |νN (P ) − νN 0 (P )| +
supS1 |φ(z)−P (z)|. Par conséquent, pour toute fonction continue φ la suite νN (φ) converge
vers un réel ν(φ) ; d’après le théorème de Banach-Steinhaus ν est une mesure de probabilité.
2
car kPn − Qn kL2 (S1 ,ν) converge vers 0
72 CHAPITRE 6. THÉORIE SPECTRALE

a) si µx ⊥ µy alors C(x) + C(y) ⊂ C(x + y).


b) si C(x) ⊂ C(y) alors µx << µy .
Enfin mentionnons le théorème de Wiener :

Théorème 6.1.3 Si H = L2 (S1 , B, ν) les sous-espaces fermés invariants par


M : φ(z) 7→ zφ(z) sont les 1B ·L2 (S1 , ν) = {f ∈ L2 (S1 , B, ν) : f |S 1 − B = 0}
où B parcourt les boréliens B ⊂ B.
Démonstration.— Soit L un sous-espace fermé invariant par M e écrivons
1 = f + g avec f ∈ L, g ∈ L⊥ . On a z n f
perpg pour tout n et donc pour tout polynôme trtigonométrique
Z
P (z)f (z)g(z)dν(z) = 0
S1

si bien que f ḡ = 0 ν-pp. Ainsi, f = 1B , g = 1B c pour B ∈ Bor(S1 ). En


outre, z n 1B ∈ L et z n 1B c ∈ L⊥ pour tout n entraîne que 1B L2 (S1 , ν) ⊂ L
et 1B c L2 (S1 , ν) ⊂ L⊥ . Comme 1B L2 (S1 , ν) + 1B c L2 (S1 , ν) = L2 (S1 , ν) on a
L = 1B L2 (S1 , ν).
2

6.2 Transformations à spectre discret


Définition 6.2.1 On dit que (X, B, ν, T ) est à spectre discret si le spectre de
UT est purement ponctuel (la mesure spectrale maximale est une somme de
mesures de Dirac).

Proposition 6.2.1 Si une transformation est à spectre discret et ergodique


alors toutes ses valeurs propres sont simples, sur le cercle unité et constituent
un sous-groupe multiplicatif de (T, ·) ; les fonctions propres peuvent être choi-
sies à valeurs dans T.
Démonstration.— Supposons en effet que U f = λf et U g = λg. De fa-
çon claire f, g sont de module constant (d’après l’ergodicité) et on peut les
supposer à valeurs sur T. La fonction f /g est invariante par U et est donc
constante.
2
On dit que deux systèmes dynamiques (Xi , Bi , νi , Ti ), i = 1, 2 sont spectrale-
ment isomorphes s’il existe un opérateur unitaire V : L2 (X1 , ν1 ) → L2 (X2 , ν2 )
tel que
UT2 = V ◦ UT1 ◦ V −1 .
6.3. MÉLANGE FAIBLE 73

On dit qu’ils sont métriquement isomorphes s’il existe une application inver-
sible h : (X1 , B1 , ν1 ) → (X2 , B2 , ν2 ) telle que

T2 = h ◦ T1 ◦ h−1 .

D’après le théorème spectral et la propriété précédente, deux systèmes dy-


namiques ergodiques et à spectre discret sont spectralement isomorphe si et
seulement si ils ont le même spectre.

Théorème 6.2.1 Si deux systèmes dynamiques à spectre discret sont er-


godiques et spectralement isomorphes (ont le même spectre) alors ils sont
mesurablement isomorphes.

Théorème 6.2.2 Un système dynamique ergodique et à spectre discret est


métriquement isomorphe à une translation sur un groupe abelien compact.

6.3 Mélange faible


Définition 6.3.1 On dit que (X, B, ν, T ) est faiblement mélangeant (en abrégé
f.m.) si 1 est l’unique valeur propre de UT et si elle est simple (les seules
fonctions propres sont les constantes).
Ainsi, une transformation f.m est ergodique. Le théorème spectral permet de
caractériser les transformations faiblement mélangeante. :

Théorème 6.3.1 Les assertions suivantes sont équivalentes :


i) (X, B, µ, T ) est faiblement mélangeant ;
ii) pour tous A, B ∈ B
n−1
1X
lim µ(T −k A ∩ B) − µ(A)µ(B) = 0;
n→∞ n
k=0

3
iii) pour tous A, B ∈ B il existe un sous-ensemble N de N de densité 1 tel
que
lim µ(T −k A ∩ B) = µ(A)µ(B);
n→∞
n∈N

iv) les mêmes assertions que ii) et iii) mais en remplaçant "tous A, B ∈ B
par "pour tous A, B dans un ensemble engendrant la tribu B"
3
Pn−1
un ensemble A ∈ N est de densité 1 si (1/n) k=0 1A (k) converge vers 1 quand n → ∞
74 CHAPITRE 6. THÉORIE SPECTRALE

v) Pour toutes f, g ∈ L2 (X, µ)


n−1 Z Z 
1X
lim |hU k f, gi|2 = f dµ ḡdµ .
n→∞ n X X
k=0

Démonstration.— a) Nous allons d’abord démontrer i)ssiv).


Supposons que i) soit vraie : par polarisation il suffit de démontrer que
pour toute f ∈ L2 (X, µ)
n−1 Z 2
1X k 2
lim |hU f, f i| = f (x)dµ(x)
n→∞ n X
k=0
R
et il est facile de voir qu’il suffit de démontrer ceci pour f telle que X f (x)dµ(x) =
0. Utilisons le théorème spectral pour U restreinte à l’espace cyclique engen-
dré par f : il existe une mesure de probabilité ν borélienne sur S1 et une
fonction φ ∈ L2 (S1 , ν) telles que pour tout k
Z
k
hU f, f i = z k φ(z)φ̄(z)dν(z).
S1
On a donc
n−1 n−1 Z 2
1X 1X
|hU k f, f i|2 = z k φ(z)φ̄(z)dν(z)
n k=0 n k=0 S1
n−1 Z 2
1X
= z k dσ(z)
n k=0 S1
n−1
1X
= |σ̂(k)|2
n k=0
où µ est la mesure de probabilité dσ(z) = |φ(z)|2 dν(z). Or, on a le théorème
suivant :
Théorème 6.3.2 (Wiener) Si σ est une mesure de probabilité sur S1
n−1
1X X
lim |σ̂(k)|2 = |σ({a})|2
n→∞ n
k=0 a atome de σ

Démonstration.— En effet
n−1 n−1 Z Z 
1X 2 1X k −k
|µ̂(k)| = z dσ(z) w dσ(w)
n k=0 n k=0 S1 S1
Z  Xn−1 
1 −1 k
= (zw ) d(σ ⊗ σ)(z, w).
S1 ×S1 n k=0
6.3. MÉLANGE FAIBLE 75

Or,
n−1
1X
(zw−1 )k ≤ 1 ∈ L2
n k=0
converge simplement vers 1∆ (z, w) où ∆ est la diagonale z = w dans S1 × S1 .
Le théorème de convergence dominée montre donc que
n−1 Z
1X 2
lim |µ̂(k)| = 1∆ (z, w)d(σ ⊗ σ)(z, w)
n→∞ n S1 ×S1
k=0
Z
= σ({z})dσ(z)
S1
X
= |σ({a})|2
a atome de σ

2
Utilisant ce théorème de Wiener on voit que
n−1
1X X
lim |hU k f, f i|2 = |φ(a)|2 |ν({a})|2 .
n→∞ n
k=0 a atome de ν

Mais, si ν({a}) > 0 cela signifie que a est valeur propre de UT restreint à
C(f ) (Pourquoi ?) ; comme T est f.m a = 1 et la fonction propre associée
est une constante non nulle. Ceci est impossible car toute fonction de C(f )
est de µ moyenne nulle.
L’implication réciproque est facile : si U f = λf alors λ est de module 1 (car
U est une isométrie) et U k f = λk f . Par conséquent,
Z 2 n−1 n−1
1X k 2 1 X 2k
f dµ = lim |hU f, f i| = lim λ = 0.
X n→∞ n n→∞ n
k=0 k=0

b) Les autres implications découleront facilement du lemme important sui-


vant.

Lemme 6.3.1 Soit (ak ) une suite de réels positifs. On a


n−1
1X
(a) lim ak = 0
n→∞ n
k=0

si et seulement si : (b) la suite ak tend vers 0 le long d’un ensemble de densité


1 : il existe Z ⊂ N de densité 1 tel que
lim an = 0.
n→∞
n∈Z
76 CHAPITRE 6. THÉORIE SPECTRALE

Démonstration.— Le fait que (b) implique (a) est trivial et laissé au lecteur.
Montrons donc que (a) entraîne (b). Pour tout p ≥ 1 l’ensemble

1
Zp = {k : ak ≥ }
p

est de densité 0 (son complémentaire est de densité 1). Par conséquent il


existe np tel que pour tout n ≥ np

np −1
1 X 1
1Zp (k) ≤ .
n k=0 p

Posons alors [
Z= (Zp ∩ [np , ∞[).
p≥1

Le long de Z c la suite an tend vers 0 ; en effet, si n ∈


/ Z alors pour n ≥ np
on a an ≤ (1/p). En outre, Z est de densité 0 : puisque les ensembles Zp
croissent avec p, pour n ≥ 1, Z ∩ [0, n] ⊂ Zp où np ≤ n < np+1 . Donc,

n−1 n−1
1X 1X 1
1Z (k) ≤ 1Zp (k) ≤ .
n k=0 n k=0 p

2
Le fait que v) implique iii) se fait en utilisant le lemme précédent et en
faisant dans v) f = 1A − µ(A), g = 1B − µ(B). L’équivalence de iii) et ii)
est encore due au lemme précédent. Montrons que iii) entraîne v) : Le lemme
et iii) impliquent que v) a lieu pour f et g de la forme f = 1A − µ(A),
g = 1B − µ(B) et donc v) a lieu pour f et g fonctions indicatrices puis
fonctions simples puis L2 . L’équivalence de iv) avec le reste est facile est
laissée au lecteur.
2

Exercice : Démontrer que T est faiblement mélangeante si pour tous A, B, C ∈


B
n−1
1X
µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C).
n k=0

Le théorème précédent a pour conséquence le suivant :


6.4. FACTEUR DE KRONECKER 77

Théorème 6.3.3 Les assertions suivantes sont équivalentes


i) (X × X, B ⊗ B, µ ⊗ µ, T × T ) est ergodique
ii) (X, B, µ, T ) est faiblement mélangeant
iii) (X × X, B ⊗ B, µ ⊗ µ, T × T ) est faiblement mélangeant
iv) pour tout (Y, C, ν, S) le système dynamique (X × Y, B ⊗ C, µ ⊗ ν, T × S)
est ergodique.
Démonstration.—
Montrons que i) implique ii) : Si φ est une fonction propre de T de v.p λ,
T φ = λφ on a T φ̄ = ¯barφ si bien que si on pose ψ = φ ⊗ φ̄ (ψ(x, y) =
φ(x)ψ̄(y)) on a (T × T )ψ = λ̄λψ. Or, |λ| = 1 (UT est une isométrie) si bien
que ψ est constante (T × T est ergodique) et par conséquent φ est constante
µ-pp (Pourquoi ?).
ii) implique iii) : soient A, B, C, D ∈ B et Z un ensemble de densité 1 sur
lequel µ(T −k A ∩ C) → µ(A)µ(C) et µ(T −k B ∩ D) → µ(B)µ(D) . On a par
définition de la mesure produit

(µ ⊗ µ)((T −k A × T −k B) ∩ (C × D)) = µ(T −k A ∩ C)µ(T −k B ∩ D).

et quand k ∈ Z cette dernière quantité tend vers µ(A)µ(C)µ(B)µ(D) qui est


(µ ⊗ µ)(A × B) · (µ ⊗ µ)(C × D)).
iii) implique i) est immédiat.
L’équivalence de iv) avec le reste se fait comme "ii) implique iii)".
2

Remarque : Quand on étudie des actions de groupes autres que Z on dé-


finit le faible mélange comme étant l’absence de sous-espaces vectoriels de
dimension finie invariants en dehors de l’ensemble des constantes.

6.4 Facteur de Kronecker


Supposons que (X, B, µ, T ) soit ergodique et notons F l’adhérence dans
2
L (X, µ) de l’espace vectoriel engendré par les fonctions propres de UT .
Notons par ailleurs K la tribu engendrée par les fonctions propres de U
(c’est-à-dire engendrée par les {f > λ}, λ ∈ R, f fonction propre de U ). Il
est clair que F ⊂ L2 (X, K). Démontrons l’inclusion réciproque. Remarquons
que si f est une fonction propre de U de valeur propre associée λ alors
f n est fonction propre de valeur propre λn . Les valeurs propres de U sont
simples, si bien que les fonctions f n , n ∈ Z sont deux à deux orthogonales
78 CHAPITRE 6. THÉORIE SPECTRALE

dans L2 (X, µ). Si P (z) = |k|≤N ak z k est un polynôme en z, z −1 on a donc


P

kP (f )kL2 (µ) = |k|≤N |ak |2 et donc


P

Z
kP (f )kL2 (X,µ) = |P (z)|2 dz.
2
T

Si A est un borélien de T il existe une suite de tels polynômes trigonomé-


triques Pn qui converge vers 1A dans L2 (T, dz), si bien que 1A ◦ f est limite
dans L2 (X, µ) de Pn (f ). Ceci démontre que toute fonction de L2 (X, µ) de la
forme 1A ◦ f est dans F . Mais il est clair que L2 (K, µ) est engendré par les
1A ◦ f quand A décrit les boréliens de T et f les fonctions propres de U .

Notons à présent Λ le groupe abélien constitué des valeurs propres de U et


Γ son groupe dual, c’est-à-dire le groupe des caractères de Λ.

6.5 Couplages
Etant donnés deux systèmes dynamiques (X1 , B1 , µ1 , T1 ) et (X2 , B2 , µ2 , T2 ),
on appelle couplage, toute mesure ν définie sur la tribu B = B1 ⊗ B2 , inva-
riante par T1 × T2 : X1 × X2 → X1 × X2 et qui se projette sur le premier
facteur sur µ1 et sur le deuxième facteur sur µ2 .

Exemple a) La mesure produit ν = µ1 ⊗ µ2 définie par ν(A1 × A2 ) =


µ1 (A1 )µ2 (A2 ) est toujours un couplage.
b) Si (Xi , Bi , µi , Ti ) = (X, B, µ, T ), i = 1, 2, la mesure diagonale ∆(A1 ×
A2 ) = µ(A1 ∩ A2 ) est un couplage.

Définition 6.5.1 On dit que les systèmes dynamiques sont disjoints (X1 , B1 , µ1 , T1 )
et (X2 , B2 , µ2 , T2 ) si le seul couplage qu’ils admettent est la mesure produit.
On a alors la propriété suivante simple mais très utile :

Proposition 6.5.1 L’identité est toujours disjointe des ergodiques : avec les
notations précédentes, si T1 = Id et si (X2 , B2 , µ2 , T2 ) est ergodique, alors le
seul couplage possible est la mesure produit.
Démonstration.— Soit ν est une P mesure invariante par I × T2 ; pour f ∈
C(X1 ), g ∈ C(X2 ) la moyenne n Rn−1 1 k
k=0 f (x1 )g(T2 x2 ) converge pour tout
x1 ∈ X1 et µ2 -p.t x2 ∈ X2 vers f (x1 ) X2 g(y)dµ2 (y). En particulier, puisque
(π2 )∗ ν = µ2 la convergence a lieu ν-p.p. et d’après le théorème de convergence
dominée
Z Z Z
f (x1 )g(x2 )dν(x1 , x2 ) = f (x1 )dν(x1 , x2 ) g(x2 )dµ2 (x2 ).
X1 ×X2 X1 ×X2 X2
6.6. MÉLANGE FAIBLE D’ORDRE SUPÉRIEUR 79

Comme (π1 )∗ ν = µ1 on a donc


Z Z Z
f (x1 )g(x2 )dν(x1 , x2 ) = f (x1 )dµ1 (x1 ) g(x2 )dµ2 (x2 ),
X1 ×X2 X1 X2

ce qui prouve que ν est la mesure produit.


2

Exercice On suppose que (X, B, µ, T ) est faiblement mélangeant.


1) On note S = I ×T ×T 2 et ∆ la mesure diagonale sur (X 3 , B 3⊗ ) définie par
∆(A × B × C) =P µ(A ∩ B ∩ C). Soit λ une limite pour la topologie faible-∗
de la suite (1/N ) N k
k=0 (S∗ ) ∆. Démontrer que λ est un couplage de (I, µ) et
(T × T 2 , µ ⊗ µ).
2) En déduire que pour tous A, B, C ∈ A
N
1 X
lim µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C).
N →∞ N
k=0

[Comme (T 2 , µ) est ergodique ((T, µ) est f.m) et que (T, µ) est f.m., on voit
que (T × T 2 , µ ⊗ µ) est ergodique]
3). Démontrer que pour tous A, B, C ∈ A il existe N ⊂ N de densité 1 tel
que
lim µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C).
k→∞,N ∈N

[Appliquer le résultat du 2. à (T × T, µ ⊗ µ), A × A, B × B, C × C pour


obtenir
N  2
1 X −k −2k
lim µ(A ∩ T B ∩ T C) − µ(A)µ(B)µ(C) .
N →∞ N
k=0

6.6 Mélange faible d’ordre supérieur


On dit qu’une transformation est p-mélangeante si pour tous A1 , . . . , Ap ∈
B
lim µ(A1 ∩ T −n A2 · · · ∩ T −n(r−1) Ap ) = µ(A1 )µ(A2 ) · · · µ(Ap ).
n→∞

Une question toujours non résolue qui est l’objet de recherches actives est
la suivante : le 2-mélange implique-t-il le 3-mélange ? Il est remarquable que
80 CHAPITRE 6. THÉORIE SPECTRALE

l’analogue faible de cette question admette une réponse positive dont la dé-
monstration est non triviale. On dit qu’une transformation est faiblement
mélangeante d’ordre p si pour tous A1 , . . . , Ap ∈ B il existe un ensemble
Z ⊂ N de densité 1 tel que

lim µ(A1 ∩ T −n A2 · · · ∩ T −n(r−1) Ap ) = µ(A1 )µ(A2 ) · · · µ(Ap ).


n→∞
n∈Z

Il est équivalent de dire que pour tous A1 , . . . , Ap ∈ B


n−1
X
lim |µ(A1 ∩ T −k A2 · · · ∩ T −k(r−1) Ap ) − µ(A1 )µ(A2 ) · · · µ(Ap )| = 0.
n→∞
k=0

On a

Théorème 6.6.1 Si (X, B, µ, T ) est faiblement mélangeant alors pour tout


p ≥ 3 il est faiblement mélangeant d’ordre p.
Il est facile d’adapter la preuve de l’exercice de la section précédente pour
démontrer ce résultat. On peut également en donner une preuve en utilisant
la méthode de Van der Corput.
Chapitre 7

Entropie

La notion d’entropie métrique (resp. topologique) en théorie ergodique


est un invariant très utile de conjugaison mesurable (resp. topologique).

7.1 Entropie métrique


Dans tout ce qui suit (X, B, µ, T ) est un système dynamique.

7.1.1 Entropie d’une partition finie


Si ξ est une partition mesurable finie de X c’est-à-dire si ξ est une par-
tition finie de X en ensembles Ci ∈ B, 1 ≤ i ≤ r (r = #ξ) de µ-mesure
non-nulle 1 on définit l’entropie de la partition ξ par rapport à µ par
r
X
Hµ (ξ) = − µ(Ci ) log(µ(Ci )).
i=1

Dans la suite nous omettrons souvent l’indice µ.


Il est commode d’introduire la fonction d’information définie pour tout
x ∈ X par
Xr
I(ξ)(x) = − log(µ(Ci ))1Ci (x).
i=1

On a Z
Hµ (ξ) = I(ξ)(x)dµ(x).
X
Si ξ et η sont deux partitions mesurables finies on introduit la partition
ξ ∨ η qui est la plus petite partition raffinant ξ et η (contenant les atomes de
1
Nous dirons que les Ci sont les atomes de la partition ξ

81
82 CHAPITRE 7. ENTROPIE

ξ et de η) : c’est la partition dont les atomes sont les Ci ∩ Dj , Ci ∈ ξ, Dj ∈ η.


Essayons de calculer l’entropie de la partition ξ ∨ η en fonction de celles de
ξ et de η :
X
H(ξ ∨ η) = − µ(Ci ∩ Dj ) log(µ(Ci ∩ Dj ))
Ci ∈ξ,Dj ∈η
X
=− µ(Ci ∩ Dj ) log(µ(Ci |Dj )µ(Dj ))
Ci ∈ξ,Dj ∈η
X X
=− µ(Ci ∩ Dj ) log(µ(Dj )) − µ(Ci ∩ Dj ) log(µ(Ci |Dj ))
Ci ∈ξ,Dj ∈η Ci ∈ξ,Dj ∈η
X
= H(η) − µ(Ci ∩ Dj ) log(µ(Ci |Dj ))
Ci ∈ξ,Dj ∈η

où on a noté µ(Ci |Dj ) = µ(Ci ∩ Dj )/µ(Dj ). Si on introduit l’entropie condi-


tionnelle H(ξ|η) de ξ par rapport à η
X
H(ξ|η) = − µ(Ci ∩ Dj ) log(µ(Ci |Dj ))
Ci ∈ξ,Dj ∈η

on obtient la formule très importante


Hµ (ξ ∨ η) = Hµ (ξ|η) + Hµ (η).
Il est utile parfois d’écrire
X
Hµ (ξ|η) = µ(Dj )Hµ(·|Dj ) (ξ)
Dj ∈η

où µ(·|Dj ) est la mesure conditionnelle par rapport à Dj (i.e µ(·|Dj ) = µ(· ∩


Dj )/µ(Dj )).
A ce stade il est pertinent d’introduire la fonction d’information condi-
tionnelle. Supposons que ξ est une partition mesurable finie et que A est une
sous-tribu de B ; dans la situation précédente, A sera la tribu η̂ engendrée par
les atomes de la partition η. Introduisons l’espérance conditionnelle E(·|A)
par rapport à la tribu A ; dans le cas où A = η̂ on a pour toute fonction
f ∈ L1 (X, B, µ)
X 1 Z 
E(f |A)(·) = f (x)dµ(x) 1Dj (·).
D ∈η
µ(D j ) Dj
j

Nous définissons alors


X  
I(ξ|A)(·) = − log E(1Ci |A)(·) 1Ci (·).
Ci ∈ξ
7.1. ENTROPIE MÉTRIQUE 83

On définit alors l’entropie conditionelle de ξ par rapport à la tribu A


Z
H(ξ|A) = I(ξ|A)(x)dµ(x).
X
R R
Remarquons que puisque E(f |A)dµ = X f dµ on a
X
Z X   
H(ξ|A) = − log E(1Ci |A)(·) E(1Ci |A)(·) dµ
X Ci ∈ξ

ou encore en notant φ(t) = −t log t


Z X  
H(ξ|A) = φ E(1Ci |A)(·) dµ (7.1)
X C ∈ξ
i

Dans la cas où A = η̂ on retrouve le résultat précédent.

Remarque : Si A = {∅, X} est la tribu triviale I(ξ|A)(·) = I(ξ)(·) tandis


que si A = B on a I(ξ|A)(·) = 0 µ-pp. En effet, si A est la tribu triviale
le résultat estPclair tandis que si A = B on a E(1Ci |A)(·) = 1Ci (·) et donc
I(ξ|A)(x) = Ci ∈ξ φ(1Ci (x)) où φ(t) = −t log t (observer que φ(0) = φ(1) =
0).

Nous regroupons dans la proposition qui suit quelques propriétés utiles de


l’entropie :

Proposition 7.1.1 Si ξ et η sont des partitions mesurables finies


1) H(ξ ∨ η) = H(η) + H(ξ|η) = H(ξ) + H(η|ξ) 2
2) H(ξ ∨ η) ≤ H(ξ) + H(η).
3) Si T : X → X est B-mesurable et préserve µ

H(T −1 ξ|T −1 η) = H(ξ|η).

4) Si ξ1 < ξ2 (ξ2 est plus fine que ξ1 3 ) alors H(ξ1 |A) ≤ H(ξ2 |A).
5) Si A1 ⊂ A2 sont des tribus, H(ξ|A2 ) ≤ H(ξ|A1 )4 . (En particulier H(ξ|η) ≤
H(ξ).)
6) On a toujours H(ξ) ≤ log(#ξ).
2
et plus généralement H(ξ ∨ η|A) = H(η|A) + H(ξ|η̂ ∨ A) = H(ξ|A) + H(η|ξˆ ∨ A) :
c’est facile à démontrer si A a un nombre fini d’atomes, plus délicat sinon.
3
i.e. tout atome de ξ2 est inclus dans un atome de ξ1
4
H(ξ|B) = 0, H(ξ|{∅, X}) = H(ξ)
84 CHAPITRE 7. ENTROPIE

Démonstration.— Le point 1) a déjà été démontré. Le point 3) est évident.


Le 2) est un cas particulier de 5) qui repose sur l’inégalité de Jensen 5 et le
fait que la fonction t 7→ −t log t est concave : puisque A1 ⊂ A2 l’opérateur
E(·|A1 ) restreint à L1 (A2 ) est l’identité si bien que d’après l’inégalité de
Jensen      
E φ E(1Ci |A2 )(·) |A1 ≤ φ E(1Ci |A1 )(·) ;

comme
Z   Z    
φ E(1Ci |A2 )(·) dµ = E φ E(1Ci |A2 )(·) |A1 dµ
X X

l’égalité (7.1) permet de conclure la preuve de 5).


Le point 4) (et son analogue conditionnel) se démontre en remarquant
que puisque ξ1 < ξ2 on a ξ1 ∨ ξ2 = ξ2 et donc,

H(ξ2 ) = H(ξ1 ) + H(ξ2 |ξ1 ) ≥ H(ξ1 ).

Le point 6) est facile (utiliser la concavité de φ).


2

Exercice Démontrer que


I(T −1 ξ) = I(ξ) ◦ T et
I(ξ ∨ η) = I(ξ|η) + I(η).

7.1.2 Entropie d’une transformation


Définition
Nous sommes en mesure de définir l’entropie d’une transformation (T, µ).

Théorème 7.1.1 Si (X, B, µ, T ) est un système


Wn−1 −kdynamique et si ξ est une
partition mesurable finie de X la suite H( k=0 T ξ) est sous-additive et on
note
n−1
1 _
hµ (T, ξ) = lim H( T −k ξ).
n→∞ n
k=0

5
 c’est-à-dire
 pour φ fonction concave, f ∈ L1 (X, B, µ) et A sous-tribu de B on a
φ E(f |A) ≥ E(φ ◦ f |A) ; cela se démontre facilement d’abord dans le cas où f est
étagée
7.1. ENTROPIE MÉTRIQUE 85
Wn−1 −k
Démonstration.— Notons ξn = k=0 T ξ. Puisque ξn+m = ξn ∨ ξm on a
d’après le 2 de la proposition 7.1.1

H(ξn+m ) ≤ H(ξn ) + H(ξm ).

Définition 7.1.1 On définit l’entropie de (T, µ) comme étant

hµ (T ) = sup h(T, ξ)
ξ

le sup étant pris sur toutes les partitions mesurables finies d’entropie finie.

Exemples : Calculons l’entropie d’une translation rationnelle sur R/Z d’angle


p/q. Pour touteWpartition mesurable finie ξ d’entropie finie, le nombre d’atomes
de la partition n−1
k=0 T
−k
ξ est inférieur à (#ξ)q et est donc borné. Par consé-
quent h(T, ξ) = 0 pour toute partition finie et donc h(T ) = 0.
Notons le théorème suivant

Théorème 7.1.2 Pour toute partition mesurable finie ξ


n−1
_
h(T, ξ) = lim H(ξ| T −k ξ)
n→∞
k=1

ou encore ∞
_
h(T, ξ) = H(ξ| T −k ξ).
k=1

Démonstration.— Pour la première partie, il suffit d’écrire


n−1
_ n−1
_
H( T −k ξ) = H(ξ ∨ T −k ξ)
k=0 k=1
n−1
_ n−1
_
−k
= H(ξ| T ξ) + H( T −k ξ)
k=1 k=1
n−1
_ n−2
_
−k −1
= H(ξ| T ξ) + H(T T −k ξ)
k=1 k=0
n−1
_ n−2
_
= H(ξ| T −k ξ) + H( T −k ξ)
k=1 k=0
86 CHAPITRE 7. ENTROPIE

où on a utilisé le 3) de la proposition 7.1.1. Si on itère la relation précédente


on trouve que

n−1
_ n−1
_
−k −1 −1 −2
H(ξ| T ξ) = H(ξ|T ξ) + · · · + H(ξ|T ξ ∨T ξ) + · · · + H(ξ| T −k ξ).
k=0 k=1

La suite H(ξ| n−1 −k


W
k=1 T ξ) est décroissante par rapport à k (cf. 5) de la pro-
position 7.1.1 ) et par conséquent converge ; le théorème de Césaro 6 permet
de conclure.
La deuxième partie du théorème se démontre en utilisant le lemme sui-
vant :

Lemme 7.1.1 Si les tribus An v’érifient An ↑ A, alors

lim H(ξ|An ) = H(ξ|A).


n→∞

Démonstration.— D’après le théorème de convergence  des martingales


7
E(1Ci |An )(·) converge µ-p.p vers E(1Ci |A)(·) et donc φ E(1Ci |An )(·)
 
converge µ-p.p vers φ E(1Ci |An )(·) . Comme la fonction φ = −t log t est
continue (donc bornée) sur [0, 1] les hypothèses du théorème de convergence
dominée sont vérifiées et on a
Z   Z  
lim φ E(1Ci |An )(·) dµ = φ E(1Ci |A)(·) dµ.
n→∞ X X

Puisque ξ est finie et que


Z X  
H(ξ|A)(·) = φ E(1Ci |A)(·) dµ
X C ∈ξ
i

on a convergence µ-p.p de H(ξ|An )(·) vers H(ξ|A)(·). L


2

2
6
si an converge alors la moyenne (a1 + · · · + an )/n converge vers la même limite
7
Si f est une fonction L1 (B, µ) E(f |An ) converge L1 et µ-p.p vers E(f |A).
7.1. ENTROPIE MÉTRIQUE 87

Distance de Rokhlin
Théorème 7.1.3 Si ξ et η sont deux partitions mesurables finies on a tou-
jours
|hµ (T , ξ) − hµ (T , η)| ≤ H (ξ|η) + H (η|ξ).

Démonstration.— En effet
n−1
_ n−1
_ n−1
_
H( T −k ξ) ≤ H( T −k ξ ∨ T −k η)
k=0 k=0 k=0
n−1
_ n−1
_ n−1
_
≤ H( T −k η) + H( T −k ξ| T −k η)
k=0 k=0 k=0
n−1
_ n−1
X n−1
_
≤ H( T −k η) + H(T −l ξ| T −k η)
k=0 l=0 k=0
n−1
_ n−1
X
≤ H( T −k η) + H(T −l ξ|T−l η)
k=0 l=0
n−1
_ n−1
X
≤ H( T −k η) + H(ξ|η)
k=0 l=0
n−1
_
≤ H( T −k η) + nH(ξ|η).
k=0

Diviser par n and faire tendre n → ∞ donne

h(T, ξ) − h(T, η) ≤ H(ξ|η).

L’inégalité inverse est claire.


2

Définition 7.1.2 La quantité d(ξ, η) = H(ξ|η) + H(η|ξ) définit une distance


appelée distance de Rokhlin. Ainsi ξ 7→ h(T, ξ) est 1-lipschitzienne.

Mentionnons un corollaire très utile du théorème précédent :

Théorème 7.1.4 Si ξn est une suite de partition mesurables finies croissante


telle que ξˆn ↑ B alors
lim h(T, ξn ) = h(T ).
n→∞
88 CHAPITRE 7. ENTROPIE

Démonstration.— Remarquons que pour n ≤ m


h(T, ξm ) ≤ h(T, ξn ) + H(ξm |ξn );
mais comme ξn < ξm on a H(ξm |ξn ) = 0. Ainsi la suite h(T, ξn ) est décrois-
sante et admet donc une limite. En outre, on a vu que H(η|ξn ) convergeait
vers H(η|B) = 0. Comme
h(T, η) ≤ h(T, ξn ) + H(η|ξn ),
on en déduit que pour tout η
h(T, η) ≤ lim h(T, ξn ),
n→∞

c’est-à-dire h(T ) ≤ limn→∞ h(T, ξn ). L’inégalité inverse est évidente.


2

Générateur, générateur fort


Définition 7.1.3 Si le système dynamique (T, µ) est inversible, on dit qu’une
partition est un générateur générateur fort) si B coïncide avec la
pour T (resp. W
tribu engendrée par ∞ −k ∞ −k
W
k=−∞ T ξ (resp. k=0 T ξ). Si T n’est pas inversible
seule la définition d’un générateur fort (au sens précédent) est pertinente.
Le théorème suivant permet de calculer facilement des entropies :

Théorème 7.1.5 Si ξ est un générateur (resp. générateur fort) pour T


hµ (T ) = hµ (T, ξ).
Démonstration.— Ecrivons,
n−1
_ n−1
_ m+n−1
_
−k −k
H( T η) ≤ H( T η∨ T −k ξ)
k=0 k=0 k=0
m+n−1
_ n−1
_ m+n−1
_
≤ H( T −k ξ) + H( T −k η| T −k ξ)
k=0 k=0 k=0
m+n−1
_ n−1
X m+n−1
_
≤ H( T −k ξ) + H(T −l η| T −k ξ)
k=0 l=0 k=0
m+n−1
_ n−1
X m+l
_
≤ H( T −k ξ) + H(T −l η| T −k ξ)
k=0 l=0 k=l
m+n−1
_ n−1
X m
_
≤ H( T −k ξ) + H(η| T −k ξ).
k=0 l=0 k=0
7.1. ENTROPIE MÉTRIQUE 89

Or,
m
_
lim H(η| T −k ξ) = 0
m→∞
k=0
Wm
puisque la tribu engendrée par k=0 T −k ξ converge en croissant
Wm vers B. Par
−k
conséquent, si on choisit m assez grand pour que H(η| k=0 T ξ) ≤  on a
pour n assez grand
n−1 m+n−1
1 _
−k n+m 1 _
H( T η) ≤ H( T −k ξ) + n.
n k=0 n n+m k=0

Si on fait tendre n vers l’infini on obtient

h(T, η) ≤ h(T, ξ) + 

ceci pour tout  et tout η. Par conséquent h(T ), qui est le sup des h(T, η),
égale h(T, ξ).
2

Remarque :
1) Si T est inversible et admet un générateur fort alors h(T ) = 0.
2) Toute transformation d’entropie finie admet une partition génératrice finie
qui a au plus [eh(T ) ] + 1 éléments. (Krieger).

7.1.3 Exemples
Entropie d’une translation sur un tore
Calculons l’entropie d’une translation x 7→ x + α sur R/Z par rapport à
la mesure de Haar (qui est clairement invariante). On a déjà vu que h(T ) = 0
si α est rationnel. Supposons donc α irrationnel.
Première méthode : Soit ξ une partition finie en intervalles du cercle et no-
tons A l’ensemble des extrémités de ces intervalles. Un instant de réflexion
montre que le joint ξn := n−1 −k
W
k=0 T ξ est la partition en intervalles qui sont
Sn−1
les composantes connexes du complémentaire de k=0 T k A dans le cercle.
Ainsi, ξn comporte au plus n#ξ atomes et donc
log(n#ξ)
h(T, ξ) = lim = 0.
n→∞ n
A présent, si ξ (m) est la partition en intervalles m-adiques il est clair que
ξ (m) ↑ Bor et le théorème 7.1.4 permet de dire que h(T ) = 0.
90 CHAPITRE 7. ENTROPIE

Deuxième méthode : On peut raisonner de la façon suivante ; la partition


ξ = {[0, 1/2), [1/2, 1)} est génératrice quand α est irrationnel car pour tout
m, la tribu engendrée par les intervalles
Wn−1 m-adiques est incluse dans la tribu
−k
engendrée par les atomes du joint k=0 T ξ pour n assez grand (le sup des
diamètres des atomes tend vers 0). Il suffit donc de démontrer que h(T, ξ) = 0
ce qui s’effectue comme précédemment.
W∞ On peut aussi procéder de la façon
−k
suivante : h(T, ξ) = limn→∞ H(ξ| k=1 T ξ) = 0 car le joint précédent en-
gendre la tribu borélienne.
On peut généraliser les résultats précédents aux cas des translations sur le
tore Td . (Exercice).

7.1.4 Théorème de Shannon


Théorème 7.1.6 (Shannon-Mc-Millan-Breiman) Si T est µ ergodique
et si ξ est une partition mesurable finie

n−1
1 _ −k
lim I( T ξ)(·) = h(ξ, T )
n→∞ n
k=0

la convergence précédente ayant lieu µ-p.s et L1 (µ).


Wn−1 −k
Démonstration.— Notons Bn = k=1 T ξ pour n ∈ N ∪ {∞} et B0 =
{∅, X}. On a d’après l’exercice de l’exercice suivant la proposition 7.1.1

n−1
_ n−1
_ n−1
_
I( T −k ξ) = I(ξ| T −k ξ) + I( T −k ξ)
k=0 k=1 k=1
n−1
_ n−2
_
= I(ξ| T −k ξ) + I( T −k ξ) ◦ T
k=1 k=0

et par conséquent

n−1
_
I( T −k ξ) = I(ξ|B0 ) ◦ T n + I(ξ|B1 ) ◦ T n−1 + · · · + I(ξ|Bn ).
k=0

Posons

gn (·) = |I(ξ|Bn )(·) − I(ξ|B∞ (·)|, GM (·) = sup gn (·).


n≥M
7.1. ENTROPIE MÉTRIQUE 91

On a vu que GM (·) → 0 µ-p.p et L1 (µ) quand M → ∞. Pour M > 0 on a


n
X n
X
n−k
In (x) = (I(ξ|Bk ) − I(ξ|B∞ )) ◦ T (x) + I(ξ|B∞ ) ◦ T n−k (x)
k=0 k=0
M
X −1 n
X n
X
n−k n−k
≤ gk ◦ T (x) + GM ◦ T (x) + I(ξ|B∞ ) ◦ T n−k (x)
k=0 k=M k=0
M
X −1 n−M
X n
X
≤ gk ◦ T n−k (x) + GM ◦ T l (x) + I(ξ|B∞ ) ◦ T l (x)
k=0 l=0 l=0

D’après le théorème de Birkhoff ( µ est ergodique) on a µ-p.s


n Z
1X l
lim I(ξ|B∞ ) ◦ T (x) = I(ξ|B∞ )dµ
n→∞ n X
l=0
= h(T, ξ)
tandis que
n−M Z
1 X l
lim GM ◦ T (x) = GM dµ ≤ M .
n→∞ n X
l=0
Enfin on a µ-p.p8
M −1
1 X
lim gk ◦ T n−k (x) = 0.
n→∞ n
k=0
Au total, pour µ-presque tout x et tout M
Z
1
lim sup | I(ξ)(x) − h(T, ξ)| ≤ GM dµ ≤ M .
n→∞ n X
Comme M → 0 on a bien la conclusion.
2

Remarque : Le théorème précédent se reformule de la façon suivante ; si


Wn−1
on note Cξ,n (x) l’atome de la partition k=0 T −k ξ qui contient x, on a pour
µ-p.t x
1
lim log µ(Cξ,n (x)) = −h(T, ξ).
n→∞ n
Il est facile de voir que pour tous α, β > 0 il existe un n0 tel que pour tout
n ≥ n0 il existe Cn ∈ X tel que : 1) µ(Cn ) ≥ 1α ; 2) Cn admet une partition
mesurable finie dont les atomes sont de µ-mesures comprises entre e−n(h+β)
et e−n(h−β) et dont le nombre d’atome est dans [en(h−β) , en(h+β) ].
8
si h est une fonction L1 (µ), alors h ◦ T n /n converge µ − pp vers 0 (appliquer p.ex le
théorème de Birkhoff à h et h ◦ T et faire la différence des sommes ergodiques).
92 CHAPITRE 7. ENTROPIE

7.1.5 Entropie d’un facteur, d’un produit et d’une puis-


sance
Théorème 7.1.7 Si (Y, BY , S, ν) est un facteur de (X, BX , T, ν) on a

hν (S) ≤ hµ (T ).

Démonstration.— Soit η une partition finie de Y et posons ξ = f −1 η où


f : X → Y est la projection définissant le facteur. Il est facile de vérifier que
1 1
Hµ (ξ ∨ . . . ∨ T −(n−1) ξ) = Hν (η ∨ . . . ∨ S −(n−1) η),
n n
et donc
hν (S, η) = hµ (T, ξ) ≤ hµ (T ).
Cette identité étant vraie pour toute partition finie η on a la conclusion.
2

Corollaire 7.1.1 Si (X, BX , T, µ) et (Y, BY , S, ν) sont isomorphes hµ (T ) =


hν (S).

Théorème 7.1.8 Si (Xi , Bi , µi , Ti ), i = 1, 2 sont deux systèmes dynamiques


alors le système produit (X1 × X2 , B1 ⊗ B2 , µ1 ⊗ µ2 , T1 × T2 ) vérifie

hµ1 ⊗µ2 (T1 × T2 ) = hµ1 (T1 ) + hµ2 (T2 ).


(i)
Démonstration.— Soient ξ (i) = {Ck } une partition mesurable finie de Xi ,
(1) (2)
i = 1, 2. Il est facile de voir que la partition ξ := ξ (1) ⊗ ξ (2) = {Ck × Cl }
vérifie
n−1
_ n−1
_ n−1
_
−s −s (1)
H( T ξ) = H( T ξ ) + H( T −s ξ (2) ),
s=0 s=0 s=0
et que par conséquent

h(T1 × T2 , ξ (1) ⊗ ξ (2) ) = h(T1 , ξ (1) ) + h(T2 , ξ (2) ).


(i)
Si à présent on choisit deux suites de partitions ξn ↑ Bi (ce qui est possible
(1) (2)
car on suppose que les espaces sont de Lebesgue) on aura aussi ξn ⊗ ξn ↑
B1 ⊗ B2 . Le théorème 7.1.4 permet de conclure.
2

Théorème 7.1.9 Pour m ∈ Z (m ∈ N si T n’est pas inversible) on a

hµ (T m ) = |m|hµ (T ).
7.1. ENTROPIE MÉTRIQUE 93

Démonstration.— Supposons m > 0. Soit ξ une partition mesurable finie


et posons ηm = ξ ∨ T −1 ξ ∨ · · · ∨ T m−1 ξ. On a
nm−1
_ n−1
_
−k
H( T ξ) = H( (T m )−l ηm )
k=0 l=0

et divisant par n|m| et faisant n → ∞ on obtient

h(T, ξ) = 1mh(T m , ηm ).

On a donc |m|h(T, ξ) ≤ h(T m ) et donc |m|h(T ) ≤ h(T m ). Démontrons l’in-


égalité inverse. Pour toute partition ξ
1
h(T m , ξ) = lim H(ξ ∨ T −m ξ ∨ · · · ∨ T −mn ξ)
n→∞ n
m
≤ lim H(ξ ∨ T −1 ∨ T −2 ξ · · · ∨ T −mn ξ)
n→∞ mn
≤ mh(T, ξ),

ce qui termine la preuve du théorème.


2
94 CHAPITRE 7. ENTROPIE
Annexe A

Calcul différentiel

A.1 Théorèmes du Point Fixe


Nous faisons auparavant quelques rappels sur des théorèmes abstraits
classiques.

A.1.1 Théorème du Point Fixe pour les applications


contractantes
Soit (A, d) un espace complet (c’est-à-dire un espace métrique dans le-
quel toute suite de Cauchy converge) . Nous disons que φ : A → A est
ρ-contractante (0 ≤ ρ < 1) si pour tout x, y ∈ A,
d(φ(x), φ(y)) ≤ ρ.d(x, y).
Une application contractante est donc continue. Dans les applications que
nous aurons à traiter A sera un ensemble fermé d’un espace de Banach E et
on munira A de la distance,
d(x, y) = kx − ykE ;
une application ρ-contractante φ : A → A vérifie alors,
kφ(x) − φ(y)kE ≤ ρ.kx − ykE ,
(mais φ n’est pas nécessairement linéaire).
Le théorème du Point Fixe de Picard est alors le suivant :

Théorème A.1.1 (du point fixe de Picard) Avec les notations précédentes,
soit φ : A → A une application ρ-contractante (0 ≤ ρ < 1). Alors φ admet
un unique point fixe x ∈ A (i.e. φ(x) = x). Pour tout x0 ∈ A la suite φi (x0 )
converge vers x.

95
96 ANNEXE A. CALCUL DIFFÉRENTIEL

Démonstration.— Montrons déjà l’unicité par l’absurde : si φ(x1 ) = x1 , φ(x2 ) =


x2 on a,
d(x1 , x2 ) = d(φ(x1 ), φ(x2 )) ≤ ρd(x1 , x2 ),
ce qui entraîne vu que 0 ≤ ρ < 1, d(x1 , x2 ) = 0.
Montrons à présent l’existence. Choisissons x0 ∈ A et posons xk = φk (x)
(où φk désigne l’itéré k-ième de φ). Le fait que φ soit ρ-contractante montre
que pour k ≥ 1,

d(xk+1 , xk ) = d(φ(xk ), φ(xk−1 )) ≤ ρd(xk , xk−1 ),

et par conséquent, en itérant cette inégalité,

d(xk+1 , xk ) ≤ ρk d(x1 , x0 ).

L’inégalité triangulaire assure donc que pour tout p ≥ 1,


p
X
d(xk+p , xk ) ≤ d(xk+j , xk+j−1 )
j=1
p
X
≤ ( ρk+j )d(x1 , x0 )
j=1
1 − ρp
k
≤ ρ . d(x1 , x0 )
1−ρ
d(x1 , x0 )
≤ ρk ,
1−ρ

ce qui montre que la suite (xk ) est de Cauchy et converge donc vers un
point x ∈ A. En faisant k → ∞ dans l’identité φ(xk ) = xk+1 on obtient
φ(x) = x, c’est-à-dire l’existence du point fixe et également la dernière partie
du théorème.
2
Mentionnons une version à paramètre :

Théorème A.1.2 Soient A un espace complet, L un espace métrique (non


nécessairement complet) et 0 ≤ ρ < 1. Supposons que φ : A × L → A soit
une application continue et que pour tout λ ∈ L l’application φ(·, λ) : A → A
soit ρ-contractante. Alors, pour tout λ ∈ L il existe un unique point fixe x(λ)
de φ(·, λ) et l’application x(·) : L → A est continue.
Démonstration.— Définissons E comme étant l’ensemble des fonctions conti-
nues de L dans A et munissons le de la norme de la convergence uniforme :
A.1. THÉORÈMES DU POINT FIXE 97

c’est un espace complet. Définissons alors f : E → E, par f (x(·)) = φ(x(·), ·) :


c’est une application ρ-contractante (c’est pratiquement immédiat, vue la dé-
finition de la convergence uniforme). Le théorème s’applique donc et fournit
une unique application x(.) telle que f (x(·)) = x(·) c’est-à-dire, du fait de la
définition de f la conclusion recherchée.
2
Donnons enfin l’estimée suivante qui précise le théorème précédent :

Proposition A.1.1 Si φ et φ̃ sont deux applications ρ contractante de (A, d) →


(A, d) admettant respectivement comme uniques points fixes x et x̃ on a,
1
d(x, x̃) ≤ d(φ(x), φ̃(x)).
1−ρ
Démonstration.— Définissons x̃n = φ̃n (x) et majorons,
d(x, x̃n+1 ) = d(φ(x), φ̃(x̃n ))
≤ d(φ(x), φ̃(x)) + d(φ̃(x), φ̃(x̃n ))
≤  + ρd(x, x̃n ),
où on a noté  = d(x, φ̃(x)) = d(φ(x), φ̃(x)). Si on note un = d(x, x̃n ), on a
donc,
un ≤  + ρ + ρ2  + · · · + ρn−1 

≤ ,
1−ρ
ce qui est la conclusion.
2
Si l’on veut obtenir des résultats sur la dépendance C k par rapport au
paramètre, il faut faire des hypothèses de différentiabilité sur φ. Cependant
dans ce cadre il est souvent plus simple d’utiliser le théorème des fonctions
implicites que nous présentons plus loin.

Théorème A.1.3 Soient A ⊂ E et L ⊂ F des ouverts des espace de Banach


E et F et 0 ≤ ρ < 1. Supposons que φ : A × L → A soit de classe C k et que
pour tout λ ∈ L l’application φ(·, λ) : A → A soit ρ-contractante. Si en outre
κ := sup kD1 φ(x, λ)k < 1,
(x,λ)∈A×L

alors, pour tout λ ∈ L il existe un unique point fixe x(λ) de φ(·, λ) et l’appli-
cation x(·) : L → A est C k . On a
Dx(λ) = −(D1 φ(x(λ), λ) − I)−1 D2 φ(x(λ), λ).
98 ANNEXE A. CALCUL DIFFÉRENTIEL

Démonstration.— Soit x0 ∈ A et définissons par récurrence x0 (λ) = x0 et


xn+1 (λ) = φ(xn (λ), λ). Les fonctions xn (λ) sont de classe C k et on a
Dxn+1 (λ) = D1 φ(xn (λ), λ)Dxn (λ) + D2 φ(xn (λ), λ).
Si on note un = Dxn (λ), An = D1 φ(xn (λ), λ), bn = D2 φ(xn (λ), λ), b =
D2 φ(x(λ), λ) On a un+1 = An un + bn si bien que
n−1
X
un = (An−1 · · · A1 )u0 + (An−1 · · · Ak )bk + bn .
k=1

Comme kAn−1 · · · Ak k ≤ κn , κ < 1, et puisque limn→∞ kbn − bk = 0 (on a


vu que xn (λ) converge vers x(λ)), la série précédente converge (Exercice :
Pourquoi ?). Ainsi Dxn (λ) converge au même titre que xn (λ). Par conséquent,
λ 7→ limn→∞ x(λ) est dérivable. La convergence est en fait uniforme en λ
d’après la proposition précédente et de ce fait x(·) est C 1 . Comme x(λ) =
φ(x(λ), λ) on a Dx(λ) = −(D1 φ(x(λ), λ) − I)−1 D2 φ(x(λ), λ). Cette relation
montre que x(·) est C k si φ l’est.
2

A.2 Le théorème d’Inversion Locale et ses consé-


quences
A.2.1 Difféomorphismes
Rappelons qu’un homéomorphisme f : U → V entre deux ouverts U ⊂ E
et V ⊂ F est une application continue de U dans F qui établit une bijection
entre U et V et telle que son inverse f −1 : V → U est continue.

Définition A.2.1 Nous dirons qu’un homéomorphisme f : U → V entre


deux ouverts U ⊂ E et V ⊂ F est un C k -difféomorphisme si f : U → V et
f −1 : V → U sont de classe C k .
Donnons le critère suivant pour déterminer si un homéomorphisme est un
difféomorphisme :

Proposition A.2.1 Avec les notations précédentes un homéomorphisme f :


U → V est un C k -difféomorphisme si et seulement si f est de classe C k et
si pour tout x ∈ U , Df (x) ∈ Lc (E, F ) est une application linéaire continue
inversible (dont l’inverse est continu). On a alors,
∀y ∈ V, Df −1 (y) = [Df (f −1 (y))].
A.2. LE THÉORÈME D’INVERSION LOCALE ET SES CONSÉQUENCES99

Démonstration.— Posons pour y = f (x) ∈ V , et h ∈ F suffisamment petit,


xh = f −1 (y + h). On a alors,
h = f (xh ) − f (x) = Df (x).h.(xh − x) + kxh − xkE (xh − x),
où lim0  = 0 et donc,
kxh − xk = (Df (x))−1 .h + kxh − xk(Df (x))−1 .(xh − x); (A.1)
comme xh tend vers x quand h tend vers 0 (puisque f −1 est continue) on a
pour h suffisamment petit
1
k(xh − x)k ≤ k(Df (x))−1 k−1 ,
2
et donc,
kxh − xk ≤ k(Df (x))−1 k.khk + kxh − xkk(Df (x))−1 kk(xh − x)k
1
≤ k(Df (x))−1 k.khk + kxh − xk.
2
Au total,
kxh − xk ≤ 2k(Df (x))−1 k.khk,
et l’égalité (A.1) montre que,
f −1 (y + h) − f −1 (y) = xh − x = (Df (x))−1 .h + o(h),
ce qui montre que f −1 est dérivable en y et que,
Df −1 (y) = (Df (x))−1 = [Df ◦ f −1 (y))]−1 .
Cette dernière égalité établit (en utilisant le théorème de composition et celui
sur l’inversion) que f −1 est de classe C k .
2

A.2.2 Inversion locale


Le théorème du point fixe précédent permet de démontrer le théorème
fondamental suivant :

Théorème A.2.1 (d’inversion locale) Soient E, F deux espaces de Ba-


nach, f : E → F une application de classe C k (k ≥ 1) définie sur un
voisinage de x0 ∈ E de l’espace de Banach E et telle que f (x0 ) = y0 ∈ F .
Supposons que Df (x0 ) ∈ L(E, F ) soit inversible (et son inverse est donc
continu) ; alors f est un difféomorphisme local d’un voisinage de x0 sur un
voisinage de y0 .
100 ANNEXE A. CALCUL DIFFÉRENTIEL

Démonstration.— Puisque [Df (x0 )]−1 existe est continu, f réalisera un


difféomorphisme d’un voisinage de x0 sur un voisinage de y0 si et seulement
si,
f0 (·) = Df (0)−1 .(f (x0 + ·) − y0 ),
réalise un difféomorphisme d’un voisinage de 0 ∈ E sur un voisinage de
0 ∈ E. Remarquons que f0 est de classe C 1 et que l’on a,

f (0) = 0
Df0 (0) = Id

Posons alors pour u, v dans un voisinage de 0 ∈ E,

f˜v (u) = v + (u − f0 (u)),

et observons que, f0 (u) = v si et seulement si f˜v (u) = u, c’est-à-dire si et


seulement si fv admet u pour point fixe. Vérifions donc si fv est contractante
dans un voisinage de 0 pour v suffisamment petit. Soient δ > 0 suffisamment
petit et u1 , u2 dans la boule fermée Bf (0, δ) de centre 0 et de rayon δ :

kf˜(u1 ) − f˜(u2 )k = k(Id − f0 )(u1 ) − (Id − f0 )(u1 )k,

et d’après le théorème des accroissements finis,

k(Id − f0 )(u1 ) − (Id − f0 )(u1 )k ≤ sup kD(Id − f0 )k.ku1 − u2 k;


w∈B(0,δ)

mais comme Df0 (·) est continue sur un voisinage de 0 et que Df0 (0) = Id
on a, pourvu que δ soit assez petit,
1
sup kD(Id − f0 )(w)k ≤ ,
w∈Bf (0,δ) 2

et l’application f˜v est 12 -contractante sur Bf (0, δ). On a en particulier (faire


u2 = 0),
1
kf˜(u1 ) − vk ≤ ku1 k,
2
et donc,
1
kf˜(u1 )k ≤ kvk + δ,
2
ce qui prouve que si kvk ≤ δ/2, f˜v envoit Bf (0, δ) dans elle-même. Les condi-
tions d’application du théorème du point fixe sont vérifiées et f˜v admet donc
un unique point fixe uv dans Bf (0, δ).
A.2. LE THÉORÈME D’INVERSION LOCALE ET SES CONSÉQUENCES101

En outre comme f˜v (·) est continue en v, les hypothèses du théorème du


point fixe à paramètre sont vérifiées et on en déduit que l’unique point fixe
uv obtenu précédemment dépend continument de v.
Tout ceci montre que f réalise un homéomorphisme d’un voisinage de
x0 sur un voisinage de y0 et d’après la proposition A.2.1, f est donc un C k
difféomorphisme d’un voisinage de x0 sur un voisinage de y0 .
2
Nous illustrons la puissance du théorème d’inversion locale par la démons-
tration du théorème suivant : (Lemme de Morse) Si f : (Rn , 0) → R est de
classe C 3 et est telle que A = D2 f (0) est non dégénérée (i.e la forme qua-
dratique D2 f (0)(·, ·) est non dégénérée) alors il existe un difféomorphisme
h : (Rn , 0) → (Rn , 0) tel que f ◦ h(x) = t xAx. Nous proposons la démonstra-
tion en exercice.

Exercice a) Démontrer qu’il existe une application S de classe C 1 définie sur


un voisinage de 0 ∈ Rn et à valeurs dans l’espace des matrices symétriques
Symn (R) telle que f (x) = t xAx + t xS(x)x avec S(0) = 0. (Utiliser Taylor
intégral).
b) Démontrer qu’il suffit de démontrer le résultat suivant : Soit A ∈ Mn (R)
une matrice symétrique non dégénérée et B ∈ Rn la boule de centre 0 et
de rayon 1. Il existe ε > 0 tel que si S ∈ C 1 (B, Symn (R)) est de norme C 1
plus petite que ε alors il existe ϕ ∈ C 1 (B, Rn ) telle que t xAx + t xS(x)x =
t
(x + ϕ(x))A(x + ϕ(x)).
c) On note E l’espace de Banach des ϕ ∈ C 1 (B, Rn ) telles que ϕ(0) = 0 et F
l’espace de Banach des S ∈ C 1 (B, Symn (R)) telle que S(0) = 0. Introduisons
Φ : E → F , Φ(h)(x) = 2t h(x)Ax + t h(x)Ah(x). Démontrer que Φ est un
difféomorphisme local de (E, 0) → (F, 0).
d) Conclure.
Le corollaire suivant est également très utile :

A.2.3 Fonctions Implicites


Théorème A.2.2 (des fonctions implicites) Si f : E × F → E est C k ,
vérifie f (x0 , λ0 ) = 0 et si Dx f (x0 , λ0 ) ∈ Lc (E, E) est inversible, alors l’en-
semble des solutions de f (x, λ) = 0 est dans un voisinage de (x0 , λ0 ) de la
forme, (x(λ), λ) où λ → x(λ) est C k . On a alors ∂λ x = −(Dx f (x, λ))−1 ◦Dλ f .
Démonstration.— On applique le théorème précédent à l’application dé-
finie sur un voisinage de (x0 , λ0 ) ∈ E × F à valeurs dans un voisinage de
(0, λ0 )i nE × F par φ(x, λ) = (f (x, λ), λ) qui est de classe C k . Calculons son
102 ANNEXE A. CALCUL DIFFÉRENTIEL

application linéaire tangente Dφ(x0 , λ0 ) ∈ Lc (E × F, E × F ) en (x0 , λ0 ). On


a pour tout (∆x, ∆λ) ∈ E × F (nous utilisons une notation matricielle) :
  
Dx f (x0 , λ0 ) Dλ f (x0 , λ0 ) ∆x
Dφ(x0 , λ0 ).(∆x, ∆λ) = ,
0 IdF ∆λ

qui a une forme trigonale et qui est inversible puisque par hypothèse Dx f (x0 , λ0 ) ∈
Lc (E, E) l’est. On peut donc appliquer le théorème d’inversion locale : φ
réalise un difféomorphisme de classe C k d’un voisinage de (x0 , λ0 ) dans un
voisinage de (0, λ0 ) et vue la forme de φ, le difféomorphisme inverse φ−1 est
de la forme,
φ−1 (y, λ) = (g(y, λ), λ),
où g est de classe C k d’un voisinage de 0 à valeurs dans un voisinage de x0 .
On a donc,
(x, λ) = (g(f (x, λ), λ), λ),
pour tout (x, λ) dans un voisinage de (x0 , λ0 ) et par conséquent pour (x, λ)
dans ce voisinage f (x, λ) = 0 si et seulement si,

x = g(0, λ).

Ceci termine la preuve du théorème des fonctions implicites.


2

A.2.4 Théorème du rang constant


Théorème A.2.3 Soient E un espace de Banach, F un espace de dimension
finie m et x0 ∈ E. Si f : (E, x0 ) → (F, f (x0 )) est une application de classe
C k telle que pour tout x dans un voisinage de x0 le rang de Df (x) (c’est-
à-dire la dimension de ImDf (x)) est constant égal à p, alors, il existe des
difféomorphismes g : (Rp ⊕ E 0 , 0) → (E, x0 ) (E 0 étant un espace de Banach)
et h : (F, f (x0 )) → (Rm , 0) tels que pour (t, s) ∈ Rp ⊕ E 0

h ◦ f ◦ g(t, s) = (t, 0Rm−p ).

Démonstration.— On peut supposer que F = Rm et que x0 = 0. Soit


E 0 = ker Df (x0 ). Puisque rgDf (x0 ) est fini, il existe E 00 ⊂ E de dimension
finie égale à p tel que E = E 0 ⊕ E 00 et tel que Df (x0 ) restreinte à E 00 soit
un isomorphisme sur son image. Quitte à faire des changements linéaires
de coordonnées à la source et au but, on peut supposer que E 00 = Rp et
Df (x0 )·E = Rp . Si on note f1 , f2 les projections de f respectivement sur Rp ⊂
F et sur son supplémentaire dans F on a que ∂1 f1 (0, 0) est un isomorphisme
A.3. SOUS-VARIÉTÉS DE RM 103

de E 00 = Rp sur Rp ⊂ F . D’après le théorème d’inversion locale l’application


ϕ : (u1 , u2 ) 7→ (f1 (u1 , u2 ), u2 ) est donc un difféomorphisme local en (0, 0). Son
inverse g est de la forme g : (t, u2 ) 7→ (u1 (t, u2 ), u2 ) si bien que f1 ◦g(t, u2 ) = t.
L’application f ◦ g est donc de la forme (t, u2 ) 7→ (t, f2 ◦ g(t, u2 )) et comme
elle est de rang égal à p 1 pour tout (t, u2 ) dans un voisinage de 0 on a
nécessairement ∂2 (f2 ◦ g)(t, u2 ) = 02 pour tout (t, u2 ) dans un voisinage de 0.
Par conséquent f2 ◦ g(t, u2 ) ne dépend que de t. Si on pose ψ(t) = f2 ◦ g(t, 0)
alors l’application h : (t, u2 ) 7→ (t, u2 − ψ(t)) est un difféomorphisme local et
on a h ◦ f ◦ g(t, s) = (t, 0).
2

A.3 Sous-variétés de Rm
A.3.1 Définition, exemples
Définition A.3.1 Soit M ⊂ Rm . On dit que M est une sous-variété de Rm
de classe C k si pour tout x ∈ M il existe un entier p ≤ m, un voisinage
ouvert Ux ⊂ Rm contenant x et un difféomorphisme de classe C k ϕ : Ux →
ϕ(Ux ) ⊂ Rm tel que l’image de M ∩ Ux soit Rp ⊕ {0}m−p . On dira que (Ux , ϕ)
est une carte en x.

Il n’est pas difficile de voir que si M est connexe, l’entier p de la définition


précédente ne dépend pas du point x ; on l’appelle la dimension de M et on
note p = dimM.

Exemple Soient H : Rm → R une application lisse (C ∞ ) et c ∈ H(Rm ) ⊂ R.


Si pour tout x ∈ H −1 (c) on a DH(x) (qui est une forme linéaire sur Rm )
est non nulle, alors H −1 (c) est une sous-variété de dimension m − 1. C’est
une conséquence du théorème d’inversion locale (par exemple). Exercice
Démontrer le résultat précédent.
La proposition suivante est un outil utile pour démontrer qu’un ensemble
est une sous-variété.

Proposition A.3.1 Les propositions suivantes sont équivalentes :


(1) M est une sous-variété de Rm de dimension p
(2) M s’écrit localement comme un graphe : pour tout x ∈ M il existe un
voisinage ouvert Ux de x dans Rm , une décomposition en sous-espaces
1
D(f ◦ g) = Df ◦ g · Dg, Dg est un isomorphisme et Df  de rang p 
2 Ip 0
la matrice bloc représentant D(f ◦ g) est de la forme
∗ ∂2 (f2 ◦ g)
104 ANNEXE A. CALCUL DIFFÉRENTIEL

vectoriels Rm = F1 ⊕ F2 , avec p := dim F1 (dim F2 = m − p) et une


fonction S de classe C k S : F1 ∩ Ux → F2 telle que M ∩ Ux soit le
graphe de S : S = {x1 ⊕ x2 ∈ Ux , x1 ∈ F1 , x2 ∈ F2 : x2 = S(x1 )}
(3) pour tout x ∈ M il existe un voisinage ouvert Ux de x et des fonctions
de classe C k ϕ1 , . . . , ϕm−p définies sur Ux et à valeurs réelles telles
que : (a) M ∩ Ux coïncide avec l’ensemble des x ∈ Ux tels que ϕ1 (x) =
· · · = ϕm−p (x) = 0 et (b) les formes linéaires dϕ1 (x), . . . , dϕm−p (x)
sont linéairement indépendantes.

Exercice Soit E, F deux espaces vectoriels de dimensions finies et r ≤


(dim E, dim F ). Démontrer que l’ensemble Lr (E, F ) des endomorphismes
A ∈ L(E, F ) de rang r est une sous-variété de dimension (dim E −r)(dim F −
r). [Indication : Soit Z0 de rang r. On peut
 supposer,
 quitte à changer de
I 0
base que A0 est représenté par la matrice r . Notons U l’ensemble des
0 0  
A B
Z ∈ L(E, F ) qui se représentent dans cette base sous la forme
C D
(A matrice r × r) avec det A 6= 0. C’est un voisinage ouvert de Z0 . On a
Lr (E, F ) ∩ U = {Z : D = CA−1 B}]

A.3.2 Espace tangent


Définition A.3.2 (Proposition et définition) Soient M une sous-variété
de Rm et x ∈ M . L’espace tangent Tx M en x à M est le sous-espace vectoriel
de Rm qui a la propriété suivante : pour toute carte (resp. une carte) (Ux , ϕ)
en x, Tx M := ImD(ϕ−1 )(x) · (Rp ⊕ {0}m−p ).

Exercice : Décrire localement l’espace tangent de Tx M dans chacune des


représentations données par la proposition A.3.1.

Exercice : Démontrer que l’espace tangent en v ∈ Lr (E, F ) est l’espace


vectoriel {w ∈ L(E, F ) : w(ker v) ⊂ Imv}.

Définition A.3.3 (Proposition et définition) Soient M ⊂ Rm et N ⊂


Rn deux sous-variétés et f : M → N . On dit que f est de classe C k si pour
tout x ∈ M et tout choix (resp. un choix) de cartes (Ux , ϕ) et (Vf (x) , ψ) en
x ∈ M et f (x) ∈ N l’application fϕ,ψ := ψ ◦ f ◦ ϕ−1 |Rp ⊕{0}n−p est de classe
C k . L’application linéaire, indépendante du choix des cartes,
Dψ −1 (ψ(f (x))) ◦ Dfϕ,ψ (ϕ(x)) ◦ Dϕ : Tx M → Tf (x) N
est appelée application linéaire tangente de f en x.
A.3. SOUS-VARIÉTÉS DE RM 105

A.3.3 Groupes et algèbres de Lie linéaires


Définition A.3.4 Un groupe de Lie linéaire est un sous-groupe fermé de
GL(n, R).

Exemples : Il est facile de vérifier que les groupes suivants sont des groupes
de Lie :
SL(n, R) = {A ∈ GL(n, R) : det A = 1}

SO(n, R) = {A ∈ GL(n, R) : t AA = I, det A = 1}


 
t 0 In
Sp(2n, R) = {A ∈ GL(n, R) : AJA = J}, J=
−In 0
Remarquons que le SL(n, R) est l’ensemble des transformations linéaires qui
préservent le volume de Rn , SO(n, R) est l’ensemble des transformations
linéaires qui préservent l’orientation et la norme euclidienne sur Rn q(v) = t vv
(v est un vecteur colonne) et Sp(2n, R) est l’ensemble des transformations
linéaires de R2n qui préservent la forme symplectique ω(v, w) = t vJw.
On a alors le théorème non trivial suivant :
2
Théorème A.3.1 Un groupe de Lie linéaire est une sous-variété de Rn .

Exercice Démontrer directement que les groupes SL(n, R), SO(n, R), Sp(2n, R)
sont des sous-variétés, calculer leurs dimensions et démontrer que

TI SL(n, R) = {a ∈ Mn (R) : Tr(a) = 0}

TI SO(n, R) = {a ∈ Mn (R) : t a + a = 0}

TI Sp(2n, R) = {a ∈ M2n (R) : t aJ + Ja = 0}.

A.3.4 Variétés
Soit M une espace topologique. Etant donnés U un ouvert de M et ϕ :
U → ϕ(U ) ⊂ Rn un homéomorphisme, on dit que (U, ϕ) est une carte locale.

Définition A.3.5 Une variété de classe C k est un espace topologique M


muni d’une famille A de cartes telle que : (a) les U (pour lesquels (U, ϕ) ∈ A)
forment un recouvrement de M ; (b) pour toutes cartes (U, ϕ) et (V, ψ) de A
l’application ϕ ◦ ψ −1 : ϕ(U ) ∩ ψ(V ) → Rn est un difféomorphisme local.
106 ANNEXE A. CALCUL DIFFÉRENTIEL

Il est facile de voir que toute sous-variété de Rm est une variété. En fait la
réciproque est vraie : toute variété peut être vue (on dit plongée) comme une
sous-variété d’un espace Rp pourvu que p soit suffisamment grand (p ≥ 2n+1
dans le cas des variétés C ∞ ) ; c’est un théorème de Whitney.
Exemples Le groupe (Zn , +) est un sous-groupe de (Rn , +). Le quotient
Rn /Zn est par définition l’ensemble des classes d’équivalence de la relation
d’équivalence x ≡ y ssi x − y ∈ Zn , c’est-à-dire est l’ensemble Rn /Zn =
{x + Zn , x ∈ Rn }. On note Tn = Rn /Zn , le tore de dimension n. C’est par
construction un groupe abélien (x + Zn ) + (y + Zn ) = (x + y) + Zn . On peut
canoniquement le munir d’une topologie de la façon suivante : un ouvert de
Tn est un ensemble de la forme U + Zn = {u + Zn , u ∈ U } = {U + k, k ∈ Zn }
où U est un ouvert de Rn . Munissons à présent Tn d’une structure de variété :
l’ensemble des VB = B +Zn ou B décrit l’ensemble des boules de Rn de rayon
strictement plus petit que 1/2 est un recouvrement ouvert de Tn . Pour un tel
VB on définit ϕB : VB → Rn qui à tout point de la forme x + k x ∈ B, k ∈ Zn
associe x. C’est une application qui est bien définie puisqu’un point de VB
s’écrit de façon unique sous cette forme (le rayon de la boule est strictement
plus petit que 1/2). Il est facile de voir que ϕB est un homéomorphisme local
et que si B et B 0 sont deux boules de rayon strictement plus petits que 1/2
l’application ϕB ◦ ϕ−1 0
B 0 est de la forme x 7→ x + k − k . La famille (UB , ϕB )B
est donc un atlas.
Cette construction se généralise à des situations plus générales (quotient d’un
groupe de Lie par un sous-groupe fermé).
Tout comme dans le cas des sous-variétés, on peut définir la notion d’ap-
plication différentiable entre deux variétés M et N : il suffit d’adapter celle
que l’on a donnée dans le cas des sous-variétés. On peut également définir
la notion d’espace tangent en un point d’une variété. Une définition possible
repose sur le lemme suivant

Lemme A.3.1 Soient γ1 , γ2 deux applications de classe C 1 de ] − 1, 1[→


M telles que γ1 (0) = γ2 (0) = x. Si dans une carte (U, ϕ), x ∈ U on a
(ϕ−1 ◦ γ1 )0 (0) = (ϕ−1 ◦ γ2 )0 (0) alors dans tout autre carte (V, ψ) x ∈ V , on
a (ψ −1 ◦ γ1 )0 (0) = (ψ −1 ◦ γ2 )0 (0). On écrit γ1 ∼ γ2 ; cette relation est une
relation d’équivalence. En outre si γ3 :] − 1, 1[→ M , γ3 (0) = x est C 1 et si
dans une carte (ϕ−1 ◦ γ3 )0 (0) = (ϕ−1 ◦ γ1 )0 (0) + (ϕ−1 ◦ γ2 )0 (0) alors dans toute
autre carte (ψ −1 ◦ γ3 )0 (0) = (ψ −1 ◦ γ1 )0 (0) + (ψ −1 ◦ γ2 )0 (0).
D’après le lemme, l’espace des chemins γ :] − 1, 1[→ M tels que γ(0) = x
quotienté par ∼ peut être muni d’une structure d’espace vectoriel. C’est ce
que l’on appelle l’espace tangent en x à M que l’on note Tx M .
A.3. SOUS-VARIÉTÉS DE RM 107

Une autre façon de définir l’espace tangent Tx M est la suivante : si A


est l’atlas des cartes, α = (Uα , ϕα ) et Ax la sous-collection des α tels que
x ∈ Uα , on considère dans l’espace vectoriel (Rn )Ax des suites (vα )α∈Ax (muni
de la structure d’espace vectoriel produit) le sous-espace vectoriel des suites
(vα )α∈Ax vérifiant la relation de compatibilité suivante : pour tous α, β, vβ =
D(ϕβ ◦ ϕ−1 α )(ϕa (x)) · vβ . Il est facile de voir que c’est bien un sous-espace
vectoriel.
Définissons à présent l’espace tangent de la variété M comme l’union
disjointe des Tx M où x varie dans M : T M = {(x, v) : x ∈ M, v ∈ Tx M } et
notons π : T M → M l’application qui à (x, v) ∈ T M associe x. Il est alors
possible de définir une structure de variété différentielle sur T M compatible
avec celle de M dans le sens où l’application π : T M → M soit différentiable.
Exercice : Le faire.

Vous aimerez peut-être aussi