0% ont trouvé ce document utile (0 vote)
29 vues42 pages

LFGN

loi fort des grands nombres

Transféré par

Yassine Lachhab
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
29 vues42 pages

LFGN

loi fort des grands nombres

Transféré par

Yassine Lachhab
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université des Sciences et Technologies de Lille

U.F.R. de Mathématiques Pures et Appliqu%’ees


Bât. M2, F-59655 Villeneuve d’Ascq Cedex

Lois des grands nombres

Charles SUQUET

2003–2004
Lois des grands nombres

Notations usuelles : les Xk sont des variables aléatoires réelles indépendantes et


n
X
Sn := Xk .
k=1

On s’intéresse à la convergence des moyennes n−1 Sn . En préambule, il convient de men-


tionner la loi du zéro-un de Kolmogorov.

Théorème 1 (Loi 0-1) Soit (Xk ) une suite de variables aléatoires indépendantes. On
définit sa tribu d’événements asymptotiques
\
F∞ := σ(Xk ; k ≥ n).
n∈N

Si A ∈ F∞ , P (A) = 0 ou P (A) = 1.

Preuve : Voir Billingsley [2], Barbe Ledoux [1], Revuz [9]. 


L’évènement {Sn /n converge } est dans F∞ , on sait donc dès la départ que sa pro-
babilité vaut zéro ou 1. Dans le cas où elle vaut 1, la variable aléatoire limite S est
F∞ -mesurable. En particulier pour tout x ∈ R, {S ≤ x} ∈ F∞ . Donc P (S ≤ x) = 0 ou
1. Ceci implique que la fonction de répartition de S est de la forme F = 1[c,+∞[ pour
une certaine constante c. Autrement dit, S = c p.s., la limite lorsqu’elle existe ne peut
être qu’une v.a. constante.

1 Cas des variables aléatoires bornées


1.1 Une inégalité exponentielle
Théorème 2 On suppose les variables aléatoires réelles Xk indépendantes et identi-
quement distribuées, centrées (IE X1 = 0) et bornées (∃c > 0; |X1 | ≤ c p.s.). Alors
 S
n
  ε2 
∀ε > 0, P ≥ ε ≤ 2 exp −n 2 . (1)
n 2c

1
Commentaires : Pour comprendre la signification de ce théorème, comparons avec ce
que √l’on obtient lorsque les Xk sont gaussiennes N (0, 1). Dans√ce cas, la loi de Sn∗ :=
Sn / n est aussi N (0, 1), d’où P (|Sn |/n ≥ ε) = P (|Sn∗ | ≥ ε n) ≤ exp(−nε2 /2) en
utilisant l’inégalité élémentaire 1 P (|X| ≥ t) ≤ exp(−t2 /2) pour tout t > 0 lorsque
X ∼ N (0, 1). Ainsi lorsque les Xk sont bornées, le comportement asymptotique de Sn
est analogue à celui du cas gaussien. [ Par ailleurs, le théorème central limite nous fait
pressentir qu’on ne peut espérer mieux. Remarquer aussi que chaque Sn est une v.a.
bornée, mais que la suite (Sn ) n’est pas bornée p.s.]. On pourra trouver le théorème 2
dans Ouvrard [8, Ex. 10.11, p. 132] ou Toulouse [11, Th. 1.4, p. 14].
Preuve : L’idée est d’exploiter l’existence de moments exponentiels IE exp(tSn ) en fai-
sant de l’optimisation par rapport au paramètre t. On remarque d’abord que pour tout
t > 0,
S 
n
≥ ε = P (tSn ≥ ntε) = P exp(tSn ) ≥ entε .

P
n
L’inégalité de Markov puis l’indépendance et l’équidisdribution des Xi nous donnent
alors : S  IE exp(tS )
n n n
P ≥ε ≤ = e−ntε IE exp(tX1 ) . (2)
n exp(ntε)
Ceci nous amène à chercher une bonne majoration de IE exp(tX1 ). En représentant tout
x ∈ [−c, c] sous la forme x = −cu + c(1 − u) avec u ∈ [0, 1], la convexité de exp(t.) : x 7→
exp(tx) nous donne
exp(tx) ≤ ue−ct + (1 − u)ect . (3)
En appliquant le paramétrage de [−c, c] à x = X1 (ω) avec le u = U (ω) correspondant,
on voit que la variable aléatoire U vérifie 2U = 1 − X1 /c, d’où IE U = 1/2 puisque
IE X1 = 0. Compte tenu de (3), il vient

IE exp(tX1 ) ≤ IE U e−ct + (1 − IE U )ect = ch(ct). (4)

En raison de l’exposant n dans le deuxième membre de (2), il est commode de majorer


ch(ct) par une exponentielle bien choisie. Le développement en série entière
+∞
c2 t2 X (ct)2k
ch(ct) = 1 + +
2 k=2
(2k)!

nous suggère de choisir exp(c2 t2 /2). L’inégalité

ch(ct) ≤ exp(c2 t2 /2), ∀t ∈ R, (5)

peut se vérifier en comparant terme à terme les développements en série entière. En effet

(ct)2k 1  c2 t2 k 1 1
≤ ⇔ ≤ k ⇔ 2k ≤ (k + 1)(k + 2) · · · (k + k)
(2k)! k! 2 (2k)! 2 k!
1
R +∞ dx
Par changement de variable x = t + u dans P (X ≥ t) = t
exp(−x2 /2) 2π et exp(−ut) ≤ 1. . .

2 Ch. Suquet, LFGN


1. Cas des variables aléatoires bornées

et cette dernière inégalité est clairement vérifiée dès que k ≥ 1. En revenant à (2), on
a donc montré que pour tout t > 0, P (n−1 Sn ≥ ε) ≤ exp(−ntε + nc2 t2 /2). Comme le
premier membre de cette inégalité ne dépend pas de t, on optimise en écrivant
 
−1 2 2 2 2
P (n Sn ≥ ε) ≤ inf exp(−ntε + nc t /2) = exp n inf (−tε + c t /2) .
t>0 t>0

Le minimum étant atteint en t = ε/c2 , on obtient


S
n
  ε2 
∀ε > 0, P ≥ ε ≤ exp −n 2 . (6)
n 2c
En remplaçant Xk par −Xk dans la démonstration précédente on a immédiatement
S
n
  ε2 
∀ε > 0, P ≤ −ε ≤ exp −n 2 , (7)
n 2c
ce qui joint à (6), donne (1). 
Comme sous-produit de la démonstration précédente, on a établi au passage le ré-
sultat suivant (noter que la convexité de x 7→ exp(tx) ne dépend pas du signe de t).

Lemme 3 Si IE X = 0 et s’il existe c constante telle que P (|X| ≤ c) = 1, alors


 c2 t2 
∀t ∈ R, IE exp(tX) ≤ exp . (8)
2

1.2 LFGN pour des variables aléatoires i.i.d. bornées


Le théorème 2 donne facilement 2 la loi forte des grands nombres suivante par une
simple utilisation du premier lemme de Borel-Cantelli et la discrétisation du ε.
Théorème 4 Soit (Xk )k≥1 une suite de variables aléatoires indépendantes, de même loi
telle que pour une constante c, |X1 | ≤ c presque sûrement. Alors
Sn
→ IE X1 p.s. (9)
n
Une application importante de ce théorème est la convergence des fréquences de suc-
cès dans une suite d’épreuves répétées de Bernoulli indépendantes. Ce résultat explique
a posteriori l’appoche fréquentiste dans la définition d’une probabilité. À titre d’exemple
historique, on peut mentionner le problème de l’aiguille de Buffon. Le théorème 4 a une
traduction statistique fondamentale : il permet de justifier la convergence de la fonction
de répartition empirique. Considérons une suite (Yk ) de variables aléatoires indépen-
dantes et de même loi de fonction de répartition F . On définit la fonction de répartition
empirique Fn construite sur l’ échantillon Y1 , . . . , Yn par
n
1X
Fn (x) := 1{Yk ≤x} , x ∈ R. (10)
n k=1
2
Pour une preuve détaillée, voir Th. 23 dans l’annexe A.

Ch. Suquet, LFGN 3


Le théorème 4 appliqué aux variables aléatoires bornées Xk = 1{Yk ≤x} nous donne immé-
diatement pour tout x ∈ R la convergence presque sûre de Fn (x) vers F (x) en remarquant
que IE X1 = P (Y1 ≤ x) = F (x). Ainsi une loi inconnue peut être reconstituée approxi-
mativement à partir de l’observation d’un échantillon de grande taille. En fait, on peut
obtenir mieux que la convergence simple presque sûre de Fn vers F .

Théorème 5 (Glivenko-Cantelli) Soit (Yk ) une suite de variables aléatoires indépen-


dantes, de même loi et (Fn ) la suite de fonctions de répartition empiriques associées.
Alors
kFn − F k∞ := sup |Fn (x) − F (x)| → 0, p.s. (11)
x∈R

Preuve : Voir Billingsley [2], Th. 20.6 p. 269. Voir aussi Ouvrard [8] pp. 115–121 incluant
une digression sur le test de Kolmogorov-Smirnov dans le cas non asymptotique (n petit).

La LFGN pour des variables aléatoires bornées donne aussi immédiatement la conver-
gence presque sûre des fonctions caractéristiques empiriques.

Proposition 6 Soit (Yk ) une suite de vecteurs aléatoires dans Rd , indépendants et de


même loi de fonction caractéristique ϕ définie par ϕ(u) := IE exp(ihu, Y1 i), u ∈ Rd . Alors
la fonction caractérisitique empirique
n
1X
ϕn (u) := exp(ihu, Yk i)
n k=1

converge ponctuellement presque sûrement sur Rd vers ϕ.

Preuve : Il suffit d’appliquer le théorème 4 aux variables aléatoires Xk0 = cos(hu, Yk i)


et Xk00 = sin(hu, Yk i). 

1.3 Autres applications et illustrations du cas borné


1.3.1 Entonnoirs déterministes pour les fréquences
L’inégalité exponentielle (1) permet une approche « quantitative » de la convergence
p.s.
P des moyennes Sn /n. En effet, (1) nous donne un contrôle explicite du reste de série
k>n P (|Sk /k| > ε). En prenant ε = εn tendant vers 0 à une vitesse adéquate, on peut
avec une probabilité 1 − δ, encadrer Sn /n à partir d’un rang déterministe n0 = n0 (δ)
et ce jusqu’à l’infini entre les deux suites déterministes IE X1 − εn et IE X1 + εn . Pour
préciser cette idée, nous allons considérer le cas où Sn suit la loi binomiale Bin(n, p). En
vue des simulations, on va d’abord donner une version affinée du théorème 2, en effet
la constante c dans (1) intervenant à l’intérieur de l’exponentielle, il n’est pas du tout
indifférent en pratique de pouvoir la minimiser.

4 Ch. Suquet, LFGN


1. Cas des variables aléatoires bornées

Théorème 7 Si les Xk sont indépendantes, identiquement distribuées et s’il existe des


constantes a et b telles que P (a ≤ X1 ≤ b) = 1, alors
 S − IE S
n n
  2ε2 
∀ε > 0, P ≥ ε ≤ 2 exp −n . (12)
n (b − a)2
Remarquons qu’avec des bornes symétriques a = −c et b = c, on retrouve exactement
(1). Le gain est dans le cas non symétrique (pour le voir, comparer les majorants fournis
par (1) et (12) lorsque X1 suit une loi de Bernoulli de paramètre p 6= 1/2). La preuve
est tout à fait analogue à celle du théorème 2, le seul point méritant d’être explicité est
la version améliorée du lemme 3 que l’on pourra trouver dans [4, Th. I.2 p. 41].
Lemme 8 Si la variable aléatoire réelle X est telle que P (a ≤ X ≤ b) = 1,
  (b − a)2 t2 
∀t ∈ R, IE exp t(X − IE X) ≤ exp . (13)
8
Preuve : Comme le majorant cherché ne dépend des bornes a et b que par b − a, on ne
perd pas de généralité en se ramenant au cas où IE X = 0 (celà revient à remplacer a
par a0 = a − IE X, b par b0 = b − IE X et ne change pas le résultat final). De plus, quitte
à remplacer t par (b − a)t et X par X/(b − a), on voit qu’il suffit de prouver le résultat
pour b − a = 1. L’argument de convexité utilisé pour obtenir (4) donne ici :
IE exp(tX) ≤ b exp(at) − a exp(bt) =: f (t)

(noter que comme IE X = 0, a ≤ 0 et b ≥ 0). Posons g(t) := ln f (t) . Pour montrer que
f (t) ≤ exp(t2 /8), on va vérifier que g 00 (t) ≤ 1/4. On obtient successivement
eat − ebt
g 0 (t) = ab ;
f (t)
00 (−a2 − b2 + 2ab)e(a+b)t
g (t) = ab
(beat − aebt )2
−ab e(a+b)t
= .
(beat − aebt )2
L’inégalité (x + y)2 ≥ 4xy avec x = −a exp(bt) et y = b exp(at) donne g 00 (t) ≤ 1/4.
Comme g 0 (0) = 0 et g(0) = 0, on en déduit par intégration que g(t) ≤ t2 /8. 
On peut utiliser l’inégalité (12) pour étudier quantitativement les fluctuations asymp-
totiques de Sn /n autour de IE X1 . Pour simplifier, on suppose désormais a = 0 et b = 1.
On vérifie alors facilement (faites le !) que pour tout entier N ≥ 2 et tout α > 1/2,
 S r α ln k  2
k
P ∀k > N, − IE X1 ≤ ≥1− N 1−2α . (14)

k k 2α − 1
Par exemple avec α = 1,
 r r 
ln k Sk ln k
P ∀k > 200, IE X1 − ≤ ≤ IE X1 − ≥ 0, 99.
k k k

Ch. Suquet, LFGN 5


1.2

1.1

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2
0 4e3 8e3 12e3 16e3 20e3 24e3 28e3 32e3

Figure 1.1 – Entonnoir pour X1 ∼ Ber(0.7) et α = 1

0.74

0.73

0.72

0.71

0.70

0.69

0.68

0.67

0.66

0.65
200 400 600 800 1000 1200 1400

Figure 1.2 – Zoom sur l’entonnoir de la figure 1.1

6 Ch. Suquet, LFGN


1. Cas des variables aléatoires bornées

La représentation graphique nous donne un entonnoir déterministe qui avec une


probabilité d’au moins 0, 99 encadre jusqu’à l’infini la ligne polygonale de sommets
(k, Sk /k). Les figures 1.1 et 1.2 ont été réalisées à partir d’un échantillon simulé de taille
32 000 ( voir TP en Scilab).

1.3.2 Nombres normaux de Borel et mesures singulières


Thème assez classique, que l’on retrouve dans de nombreux ouvrages, par exemple
[1, ex. 6.14 p. 154].
Ex 1.3.1
P Les Xk sont des v.a. de Bernoulli indépendantes de même paramètre p. La
−k
série k≥1 2 Xk convergeant p.s. (pourquoi ?), on note U sa somme. La loi de cette
variable aléatoire U qui Pest donc une mesure de probabilité sur [0, 1] sera notée µp . Pour
x réel de [0, 1], on note k≥1 xk 2−k son développement propre en base 2.
1) En utilisant la loi forte des grands nombres pour les fréquences, montrer que
pour µp -presque tout x de [0, 1], la proportion de 1 dans le développement propre de x
en base 2 tend vers p. En déduire que les lois µp sont étrangères les unes aux autres.
2) Montrer que µ1/2 est la mesure de Lebesgue P (ou loi−kuniforme) sur [0, 1]. Indica-
tion : calculer la fonction caractéristique de Un := 1≤k≤n 2 Xk , en utilisant l’identité :
n
Y
sin t = 2 sin(t/2) cos(t/2) = 22 sin(t/4) cos(t/2) cos(t/4) = · · · = 2n sin(2−n t) cos(2−k t).
k=1

3) On suppose 0 < p < 1. Montrer que la mesure µp n’a pas de masse ponctuelle
(∀x ∈ [0, 1], µp ({x}) = 0). On a ainsi construit une infinité de mesures singulières à
fonctions de répartition continues.

Ch. Suquet, LFGN 7


1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Figure 1.3 – Fonction de répartition de U pour p = 3/4

1.3.3 Vitesse de convergence des polynômes de Bernstein


Thème un peu à la limite de cette leçon, donné sous forme d’exercices.
Ex 1.3.2 Une preuve probabiliste d’un théorème d’analyse
Le but de cet exercice est de présenter une démonstration probabiliste d’un célèbre
théorème d’analyse (Bernstein-Weierstrass-Stone) : toute fonction continue sur [0, 1] est
limite uniforme sur cet intervalle d’une suite de polynômes. La méthode utilisée ici est
due à Bernstein et donne une construction explicite de la suite de polynômes. Les trois
dernières questions sont consacrées à la vitesse de convergence. On note C[0, 1] l’espace
des fonctions continues sur [0, 1] muni de la norme :

kf k∞ = sup |f (x)|.
x∈[0,1]

La convergence suivant cette norme n’est autre que la convergence uniforme. Si f ∈


C[0, 1], on définit son polynôme de Bernstein d’ordre n par :
n
X k
Bn f (x) = Cnk f xk (1 − x)n−k , n ≥ 1.
k=0
n

1) Justifier la relation :
n
X
f (x) = Cnk f (x)xk (1 − x)n−k .
k=0

8 Ch. Suquet, LFGN


1. Cas des variables aléatoires bornées

2) Pour x ∈ [0, 1] fixé, considérons la variable aléatoire Sn de loi binomiale B(n, x).
Vérifier que :
S 
n
IE f = Bn f (x).
n
3) Justifier les inégalités :
X
|f (x) − Bn f (x)| ≤ εCnk xk (1 − x)n−k
k:|f (x)−f (k/n)|<ε
X
+ 2kf k∞ Cnk xk (1 − x)n−k
k:|f (x)−f (k/n)|≥ε
  S  
n
≤ ε + 2kf k∞ P f (x) − f ≥ε . (15)

n
4) La fonction f est uniformément continue sur [0, 1] (pourquoi ?). On a donc :
∀ε > 0, ∃δ > 0, tel que |x − y| < δ ⇒ |f (x) − f (y)| < ε,
δ ne dépendant que de f et ε, mais pas de x. En déduire que
  S  
n
P f (x) − f ≥ ε ≤ P (|Sn − nx| ≥ nδ),

n
puis en appliquant l’inégalité de Tchebycheff :
  S   x(1 − x) 1
n
P f (x) − f ≥ε ≤ ≤ .

n nδ 2 4nδ 2
5) En reportant cette majoration dans (15), on obtient finalement :
kf k∞
∀n ≥ 1, ∀x ∈ [0, 1], |f (x) − Bn f (x)| ≤ ε + (16)
2δ 2 n
Conclure.
6) On s’intéresse maintenant à la vitesse de convergence. Supposons d’abord que f
est lipschitzienne : il existe une constante a telle que
∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ a|x − y|.
On peut alors prendre δ = ε/a dans l’écriture de la continuité uniforme de f . En choi-
sissant convenablement ε en fonction de n dans (16), en déduire que kf − Bn f k∞ =
O(n−1/3 ).
7) Plus généralement, on suppose f hölderienne d’exposant α : il existe des constantes
0 < α ≤ 1 et a > 0 telles que :
∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ a|x − y|α .
 
−α/(2+α)
Montrer qu’alors kf − Bn f k∞ = O n .
Ex 1.3.3 Vitesse de convergence des polynômes de Bernstein
L’inégalité (12) permet d’améliorer les résultats de l’exercice précédent sur la vitesse de

Ch. Suquet, LFGN 9


convergence uniforme des polynômes de Bernstein d’une fonction continue. L’utilisation
de (12) à la place de l’inégalité de Tchebycheff nous donne en effet la majoration :

kf − Bn f k∞ ≤ ε + 4kf k∞ exp(−2nδ 2 ). (17)

1) On suppose f lipschitzienne. Vérifier que le choix ε = cn−β dans (17) donne une
vitesse de convergence en O(n−β ) pour tout β < 1/2, mais que la même méthode ne
permet pas d’obtenir la vitesse O(n−1/2 ).
2) Toujours avec f lipschitzienne, comment choisir c minimal pour obtenir avec
ε = c(ln n/n)1/2 la vitesse O (ln n/n)1/2 ?
3) On suppose maintenant f hölderienne d’exposant
 α. Montrer qu’avec un choix
α/2
judicieux de ε, on obtient la vitesse O (ln n/n) .

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

p
Figure 1.4 – Fonctions f , B10 f et B200 f , pour f (t) = |2t − 1|

10 Ch. Suquet, LFGN


2. Une loi faible des grands nombres

2 Une loi faible des grands nombres


La version naı̈ve de la loi faible des grands nombres présente la convergence en pro-
babilité de Sn /n vers IE X1 comme un corollaire immédiat de l’inégalité de Tchebycheff.
Ceci a l’inconvénient de supposer l’existence d’un moment d’ordre 2 pour X1 (d’ailleurs
c’est en fait la convergence L2 que l’on obtient) 3 . La version de la loi faible étudiée
ci-dessous suppose seulement l’existence de l’espérance de X. On suit l’approche de
Toulouse [11]. On pourra consulter également Foata Fuchs [7, p. 227–228] pour une
version plus générale supposant seulement l’indépendance 2 à 2 et l’existence de IE X1 .

Lemme 9 Soit X une variable aléatoire d’espérance nulle. Pour tout δ > 0, il existe
une variable aléatoire bornée Y telle que IE Y = 0 et IE |X − Y | ≤ δ.

Preuve : Comme l’espérance de X existe, IE |X| est fini et par convergence dominée,
limt→+∞ IE |X|1{|X|>t} = 0. Ceci nous fournit un t tel que

δ
IE |X|1{|X|>t} < .
2
On pose alors Z := X1{|X|≤t} et Y := Z − IE Z. Clairement |Y | ≤ 2t et IE Y = 0. D’autre
part comme X = Z + X1{|X|>t} ,
δ
IE |X − Y | = IE X1{|X|>t} + IE Z ≤ + | IE Z|.
2
La construction de Z nous assure que IE Z diffère de IE X d’au plus δ/2 :
δ
| IE X − IE Z| = IE X1{|X|>t} ≤ IE |X|1{|X|>t} < .
2
Comme IE X = 0, on en déduit | IE Z| < δ/2 et IE |X − Y | < δ. 
Notons que la variable bornée Y peut s’écrire Y = fδ (X), où

fδ (x) = x1[−t,t] (x), x ∈ R.

La fonction mesurable fδ ne dépend que de δ et de la loi de X (via le choix de t).

Théorème 10 Si (Xk ) est une suite de v. a. réelles i.i.d. et si IE |X1 | < +∞, n−1 Sn
converge dans L1 (Ω) vers IE X1 (et donc aussi en probabilité).

Commentaires : Ce théorème n’est pas un simple corollaire de la LFGN de Kolmogorov-


Khintchine (th. 11 ci-dessous) puisque la convergence p.s. implique la convergence en
probabilité, mais n’implique pas la convergence dans L1 (Ω). La preuve de cette LFGN
par les martingales permet d’obtenir les deux convergences p.s. et L1 (Ω), cf. Williams
[12, chap. 14].
3
L’avantage de cette méthode est que l’indépendance deux à deux ou plus généralement l’orthogo-
nalité des Xk suffit.

Ch. Suquet, LFGN 11


Preuve : Par centrage, on se ramène au cas où IE X1 = 0. Fixons δ > 0. Par le lemme 9,
les variables aléatoires Yk := fδ (Xk ), forment une suite i.i.d. de variables bornées (
|Yk | ≤ 2t), d’espérances nulles et telles que IE |Xk − Yk | < δ pour tout k ≥ 1. Posons
n
X
Tn := Yk , n ≥ 1.
k=1

Par le théorème 4, n−1 Tn converge p.s. vers 0. Ceci joint à l’inégalité |n−1 Tn | ≤ 2t nous
donne par convergence dominée :
T
n
lim IE = 0.
n→+∞ n
Par ailleurs,
S n
n Tn 1 X

IE − ≤ |Xk − Yk | ≤ δ.
n n n k=1

On en déduit S T
n n
IE ≤ IE + δ,
n n
puis
S
n
lim sup IE ≤ 0 + δ.
n→+∞ n
Cette inégalité étant valable pour tout δ > 0 et le premier membre ne dépendant pas de
δ, il en résulte que
S
n
lim sup IE = 0.
n→+∞ n
Ceci peut se reécrire limn→+∞ IE |n−1 Sn | = 0, ce qui est exactement la convergence dans
L1 de n−1 Sn vers 0. 

3 Lois fortes des grands nombres


On discute dans cette section les lois fortes des grands nombres dans le cas général
où les Xk ne sont pas supposées bornées.

3.1 Cas i.i.d.


Théorème 11 (Kolmogorov-Khintchine) Si (Xk ) est une suite de variables aléa-
toires réelles i.i.d.,
Sn
converge p.s. ⇔ IE |X1 | < +∞. (18)
n
Lorsqu’il y a convergence, la limite est IE X1 .

12 Ch. Suquet, LFGN


3. Lois fortes des grands nombres

Pour la partie IE |X1 | finie implique n−1 Sn converge p.s. vers IE X1 , une bonne ré-
férence est Billingsley [2, Th. 22.1]. On peut aussi voir Revuz [9] pour l’équivalence
(méthode inspirée de techniques de martingales. On peut proposer à la démonstration
la nécessité de IE |X1 | fini que nous détaillons ci-dessous (cf. Barbe Ledoux [1, Th. 5.2,
p. 140]).
Preuve de la nécessité de l’intégrabilité de X1 : Par hypothèse, il existe une
constante c telle que n−1 Sn converge p.s. vers c. Alors
Xn Sn − Sn−1 Sn n − 1 Sn−1 p.s.
= = − × −−−−−→ c − c = 0.
n n n n n − 1 n→+∞
En fixant ε > 0, on en déduit
n |Xn (ω)| o
P ω ∈ Ω; ∃n0 = n0 (ω), ∀n ≥ n0 , < ε = 1,
n
soit en passant au complémentaire
n |X | o
n
P ≥ ε une infinité de fois = 0.
n
Par le second lemme de Borel Cantelli 4 on a alors
X n |Xn | o
P ≥ ε < +∞.
n≥1
n

Les Xi ayant même loi, ceci s’écrit


+∞
X
P (|X1 | ≥ nε) < +∞. (19)
n=1

Pour finir la preuve, on observe que


X+∞ 
IE |X1 | ≤ IE (n + 1)ε1{nε≤|X1 |<(n+1)ε}
n=0
+∞
X
= (n + 1)εP (nε ≤ |X1 | < (n + 1)ε)
n=0
+∞
X
= ε P (nε ≤ |X1 |) < +∞,
n=0

la dernière ligne s’obtenant par sommation triangulaire à partir des décompositions en


unions disjointes [
{|X1 | ≥ nε} = {nε ≤ |X1 | < (n + 1)ε}.
k≥n


4
P
Si (An )n≥1 est une suite d’événements indépendants telle que n≥1 P (An ) = +∞, alors
P (lim supn→+∞ An ) = 1.

Ch. Suquet, LFGN 13


3.2 LFGN sans équidistribution
Théorème 12 (Kolmogorov) Soit (Xk ) une suite de variables aléatoires indépen-
dantes vérifiant :
a) pour tout k ≥ 1, IE Xk2 < +∞ ;
b) il existe une suite (ak ) de réels strictement positifs qui tend en croissant vers +∞
telle que
+∞
X Var Xk
2
< +∞.
k=1
a k

Alors (Sn −IE Sn )/an converge presque sûrement vers 0. Si de plus a−1
n IE Sn → m, Sn /an
converge p.s. vers m.

Les conditions de moments d’ordre 2 sont plus sévères qu’au théorème 11, mais il faut
noter qu’on ne suppose plus les Xk de même loi. Une bonne référence pour la preuve de
ce théorème est Feller [6], VII.8, Th. 2 et 3. On peut esquisser le schéma de la preuve
qui repose sur les trois résultats suivants dont chacun a son intérêt propre.

Théorème 13 (Inégalité maximale de Kolmogorov) Si les Xk sont indépendantes,


centrées et de carrés intégrables
 1
∀t > 0, P max |Sk | ≥ t ≤ 2 Var Sn .
1≤k≤n t

Preuve : Voir Billingsley [2], Th. 22.4 p. 287 ou Ouvrard [8], Th. 10.13 p. 101. 
Cette inégalité pour les maxima des sommes partielles permet d’établir une condition
suffisante de convergence p.s. d’une série de v.a. indépendantes.

Théorème 14 Si les Yk sont indépendantes, centrées et si k≥1 IE Yk2 < +∞, alors
P
P+∞
k=1 Yk converge p.s.

Preuve : Voir Billingsley [2], Th. 22.6 p. 289 ou Feller [6], VII.8, Th. 2. 
À ce stade, l’hypothèse b) du théorème 12 nous donne la convergence presque sûre
de la série de terme général (Xk − IE Xk )/ak . On complète la preuve du théorème 12
grâce au lemme d’analyse suivant.

Lemme 15 (Kronecker) Soient (xk ) une suite de réels et P(a k ) une suite de réels stric-
+∞
tement positifs qui tend en croissant vers +∞, telles que k=1 xk /ak converge. Alors
n
1 X
xk → 0.
an k=1

Preuve : Voir Feller [6], VII.8, Lemme 1 ou Ouvrard [8] Lemme 10.16 p. 105 qui note
xk ce que nous avons noté xk /ak . 

14 Ch. Suquet, LFGN


4. Fluctuations des sommes partielles

Il est intéressant de regarder ce que donne le théorème 12 dans le cas i.i.d.

Corollaire 16 Si les v.a. Xk sont i.i.d., centrées et de carrés intégrables,


Sn
√ → 0, p.s., (20)
n(ln n)β

pour tout réel β > 1/2.

Preuve : Choisir ak = k 1/2 (ln k)β dans le théorème 12. 


La signification de ce corollaire est que si IE X12 < +∞, on a une vitesse de conver-
gence dans la LFGN de Kolmogorov-Khintchine : en effet on peut alors écrire n−1 Sn (ω) =
εn (ω)n−1/2 (ln n)β , avec εn → 0 presque sûrement. Remarquons qu’on ne peut espérer
supprimer √ le facteur logarithmique dans (20) puisque qu’en raison du théorème central
limite Sn / n ne tend pas vers 0 en loi.

4 Fluctuations des sommes partielles


La loi forte des grands nombres nous donne dans le cas i.i.d. l’estimation Sn −IE Sn =
o(n) avec probabilité 1. On a vu avec le corollaire 16 que s’il y a un moment d’ordre 2
cette estimation peut être améliorée. On examine plus précisément dans cette section la
relation entre l’intégrabilité de X1 et les fluctuations asymptotiques de Sn . Une bonne
référence pour toute cette section est Stout [10], p. 126–137.

Théorème 17 (LFGN de Marcinkiewicz) Soit (Xk )k≥1 une suite de variables aléa-
toires i.i.d.
Sn p.s.
a) Si IE |X1 |p < +∞ pour un p ∈]0, 1[, 1/p −−−−−→ 0.
n n→+∞
S n − n IE X1 p.s.
b) Si IE |X1 |p < +∞ pour un p ∈ [1, 2[, −−−−−→ 0.
n1/p n→+∞
Sn − bn p.s.
c) S’il existe un p ∈]0, 2[ et une suite de constantes (bn ) tels que −−−−−→ 0,
n1/p n→+∞
p
alors IE |X1 | < +∞.

Commentaires : On notera l’exclusion du cas p = 2 (et a fortiori p > 2) en liaison avec


le théorème de limite centrale. La LFGN de Marcinkiewicz dans le cas 1 < p < 2 donne
une vitesse de convergence dans la LFGN de Kolmogorov-Khintchine (pourquoi ?).
Lorsque X1 a un moment d’ordre 2, on a un résultat très précis sur les fluctuations
de Sn − IE Sn , c’est le théorème suivant connu sous le nom loi du log itéré.

Théorème 18 (Hartman Wintner, 1941) On suppose les Xk i.i.d. et de carré inté-


grable. On note σ 2 = Var X1 (σ > 0). Alors presque sûrement,

Sn − IE Sn Sn − IE Sn
lim inf √ = −1 et lim sup √ = +1.
n→+∞ σ 2n log log n n→+∞ σ 2n log log n

Ch. Suquet, LFGN 15


Commentaires : Ce théorème signifie que presque sûrement pour tout c ∈]0, 1[, la
suite des Sn − IE Sn sortira
√ une infinité de
√ fois par le bas et une infinité de fois par le
haut du segment [ −cσ 2n log log n, +cσ 2n log log √ n ] et qu’elle restera
√ définitivement
0 0
à partir d’un certain rang (aléatoire) dans [ −c σ 2n log log n, +c σ 2n log log n ] pour
tout c0 > 1. La loi du log itéré nous donne avec probabilité 1 des entonnoirs déterministes
de la forme
r r
2 log log k S k 2 log log k
IE X1 − c0 σ ≤ ≤ IE X1 + c0 σ ,
k k k

pour tout k ≥ N avec N aléatoire et nous dit que ces entonnoirs sont les meilleurs pos-
sibles. Les entonnoirs déterministes du type (14) obtenus par des techniques élémentaires
dans le cas des variables bornées sont asymptotiquement moins précis. Ils ont néanmoins
l’avantage de donner un résultat quantitatif avec un N déterministe. Une très bonne lec-
ture pour la loi du log itéré dans le cas du jeu de pile ou face est le chapitre 19 de Foata
Fuchs [7]. Enfin on notera que la loi du log itéré fournit un exemple « naturel » de suite
qui converge en probabilité mais pas presque sûrement. En effet, en raison du théorème
de limite centrale, on vérifie (exercice !) que

S − IE Sn Pr
√n −−−−−→ 0.
σ 2n log log n n→+∞

5 Applications
5.1 La méthode de Monte Carlo
La loi des grands nombres fournit une méthode de calcul approché d’intégrales, in-
téressante lorsque la fonction à intégrer est très irrégulière ou lorsque la dimension de
l’espace est élevée. Supposons que l’on veuille effectuer un calcul approché de
Z
I := f (x) dx,
[0,1]d

où f est Lebesgue intégrable sur [0, 1]d . Soit (Ui )i≥1 , une suite de variables aléatoires
indépendantes de même loi uniforme sur [0, 1]. On déduit facilement de la LFGN de
Kolmogorov-Khintchine que :
n Z
1X  p.s.
f U(k−1)d+1 , U(k−1)d+2 , . . . , Ukd −−−−−→ IE f (U1 , . . . , Ud ) = f (x) dx.
n k=1 n→+∞ [0,1]d

Le théorème de limite centrale permet ensuite d’obtenir un intervalle de confiance


pour I si l’on a des hypothèses supplémentaires permettant de contrôler la variance
de f (U1 , . . . , Ud ), par exemple f bornée. . .

16 Ch. Suquet, LFGN


5. Applications

5.2 Estimation de paramètres


La LFGN permet de définir des estimateurs convergents de paramètres d’une loi in-
connue µ (ou partiellement inconnue, par exemple on sait qu’il s’agit d’une loi de Poisson
paramètre α dont on ignore la valeur). Pour cela on utilise une suite d’observations in-
dépendantes X1 (ω), . . . , Xn (ω) où
R les Xi sont i.i.d. de même loi µ. On souhaite estimer
un paramètre θ de la forme θ = R H dµ. L’idée est de remplacer la mesure déterministe
mais inconnue µ par la mesure aléatoire µn calculable à partir des observations :
n
1X
µn = δX .
n i=1 i
Cette mesure est appelée mesure empirique. La fonction de répartition empirique déjà
vue en (10) est simplement sa fonction de répartition : Fn (x) = µn (]−∞, x]). On propose
d’estimer θ par
Z n
1X
θn :=
b H dµn = H(Xi ).
R n i=1
La définition de θ suppose implicitement que H est µ intégrable. Cette intégrabilité
s’écrit encore IE |H(X1 )| < +∞. Ainsi par la loi forte des grands nombres,
Z
p.s.
θn −−−−−→ IE H(X1 ) =
b H dµ = θ.
n→+∞ R

On dit que θbn est une estimateur fortement consistant de θ. Il est aussi sans biais puisque
IE θbn = θ.
Cette méthode
R permet notamment d’estimer les moments de µ : en prenant H(x) =
r r r
x , θ = IE X1 = R x µ( dx). Le cas r = 1 revêt une importance particulière. L’estimateur
θbn est alors simplement la moyenne empirique
n
1X
X̄n := Xi .
n i=1
On peut ainsi estimer notamment
– le paramètre p d’une loi de Bernoulli car IE X1 = p ;
– le paramètre α d’une loi de Poisson car IE X1 = α ;
– le paramètre m d’une loi N (m, σ 2 ) car IE X1 = m ;
– le paramètre θ d’une loi uniforme 5 sur [0, θ] car θ = 2 IE X1 .
Dans le même ordre d’idées, on peut estimer le paramètre a d’une loi exponentielle de
densité f (t) = a exp(−at)1R+ (t) par θ̃n = 1/X̄n . En effet, IE X1 = 1/a. On garde un
estimateur fortement consistant, mais il n’est plus sans biais car IE(1/X̄n ) 6= 1/ IE X1 .
On peut de même estimer la variance σ 2 d’une loi µ d’espérance connue m. Il suffit
de prendre H(x) = (x − m)2 et on obtient l’estimateur fortement consistant et sans biais
n
1X
θbn = (Xi − m)2 .
n i=1
5
En fait dans ce cas, un meilleur estimateur est θ̃n = max1≤i≤n Xi , affaire à suivre. . .

Ch. Suquet, LFGN 17


Quand m est inconnu, on l’estime par X̄n et la variance σ 2 est estimée par la variance
empirique
n n  X n 2
1X 2 1X 2 1
Vn = (Xi − X̄n ) = X − Xi ,
n i=1 n i=1 i n i=1
la dernière égalité résultant simplement de la formule de Koenig pour la variance de la loi
de probabilité µn (ω) qui est exactement Vn (ω). On a toujours un estimateur fortement
consistant par la LFGN, par contre il n’est plus qu’asymptotiquement sans biais puisque :
 X n 2
2 1 n−1 2
IE Vn = IE X1 − IE Xi = · · · = σ .
n i=1 n
Ceci explique pourquoi pour les petites valeurs de n on préfère l’estimateur sans biais
n 2
V noté souvent σn−1
n−1 n
par un de ces abus d’écriture qui font le charme si particulier
de la littérature statistique. . .

5.3 Estimation de la densité par fonctions orthogonales


On va estimer cette fois un paramètre de nature fonctionnelle (donc vivant a priori
dans un espace de dimension infinie) de la loi inconnue µ : sa densité f , en supposant
qu’elle existe et qu’elle est dans L2 (R). Le schéma général de la méthode est le suivant.
On choisit une base hilbertienne (ek )k∈N de L2 (R) et on fixe une version de chaque ek . En
pratique, celà ne pose pas de problème puisque les ek sont des fonctions de Haar ou des
fonctions bien régulières (base trigonométrique si f est à support compact, polynômes
orthogonaux,. . .). On a ainsi
+∞
X Z
f= ak ek , avec ak = ek (t)f (t) dt,
k=0 R

la convergence de la série ayant lieu au sens L2 (R).


On commence par projeter f sur s.e.v.{e0 , . . . , eN }. On obtient ainsi une approxima-
tion déterministe
N
L2
X
fN = ak ek , avec fN −−−−−→ f.
N →+∞
k=0
Des convergences plus fortes sont possibles moyennant des hypothèses de régularité de
f (penser au cas des séries de Fourier).
Ensuite on estime fN en estimant ses N + 1 coefficients ak :
N n
X 1X
fbN := ak,n ek
b où b
ak,n := ek (Xi ).
k=0
n i=1

Il serait plus correct de noter fbN,n , mais dans la suite on fera dépendre N de n, d’où
l’abus de notation. Pour l’instant remarquons que par la LFGN,
Z
p.s.
ak,n −−−−−→ IE ek (X1 ) =
b ek (t)f (t) dt = ak .
n→+∞ R

18 Ch. Suquet, LFGN


5. Applications

Ainsi pour N fixé, fbN converge p.s. vers fN dans L2 (R) (en dimension finie, il suffit pour
cela d’avoir la convergence de chaque composante sur la base).
La suite du jeu consiste à prendre N = N (n) tendant vers +∞ avec n (intuitivement
beaucoup plus lentement) et à discuter le choix de N (n) en fonction d’hypothèses sup-
plémentaires sur f (régularité, intégrabilité,. . .) pour obtenir diverses convergences de
fbN vers f . On pourra consulter à ce sujet Bosq Lecoutre [4, Chap. 9]. On peut envisager
une illustration expérimentale de cette méthode avec Scilab (cf. TP).

Ch. Suquet, LFGN 19


20 Ch. Suquet, LFGN
Annexe A

Loi des grands nombres∗

Les inégalités de moment (Markov, Tchebycheff) ont d’importantes applications à la


convergence de la moyenne arithmétique :
n
1X
Mn = Xi
n i=1

des n premiers termes d’une suite de v.a. indépendantes et de même loi. Ce type de
résultat est connu sous le nom de loi des grands nombres. Nous en donnons un premier
aperçu 1 .

A.1 Deux modes de convergence


Pour commencer, il convient de préciser ce que l’on entend par convergence d’une
suite de variables aléatoires (Xn ) vers une v.a. X. Comme les Xn sont des applications
de Ω dans R, le premier mode de convergence auquel on pense est la convergence pour
tout ω ∈ Ω de la suite de réels Xn (ω) vers le réel X(ω). Ceci correspond à la convergence
simple d’une suite d’applications en analyse. Malheureusement pour le type de résultat
que nous avons en vue, ce mode de convergence est trop restrictif. Pour la loi des grands
nombres, même dans le cas le plus favorable 2 , on ne peut empêcher que la suite étudiée
diverge pour une infinité de ω. Ce qui sauve la situation est que l’ensemble de ces ω a
une probabilité nulle. Ceci nous amène à définir la convergence presque sûre :
Définition 19 (Convergence presque sûre)
Soit (Xn )n≥1 une suite de variables aléatoires et X une v.a. définies sur le même espace
probabilisé (Ω, F, P ). On dit que Xn converge presque sûrement vers X si l’ensemble des

Reproduction du chapitre 6 de Introduction au Calcul des Probabilités, cours de Deug, Ch. Suquet.
1
Seuls sont au programme du DEUG dans ce chapitre, la convergence en probabilité et la loi faible des
grands nombres avec ses applications. La convergence presque sûre et la loi forte des grands nombres sont
destinés aux lecteurs plus curieux ou plus avancés. Ils pourront être considérés comme une introduction
au cours de Licence. Néanmoins ils ont été rédigés en n’utilisant que des outils mathématiques du
DEUG.
2
Voir la discussion à propos de la loi forte des grands nombres pour les fréquences section A.5.

21
Annexe A. Loi des grands nombres1

ω tels que Xn (ω) converge vers X(ω) a pour probabilité 1.


p.s.
Notation : Xn −−−−→ X.
n→+∞

Rappelons qu’un événement de probabilité 1 n’est pas forcément égal à Ω, il peut même y
avoir une infinité d’éléments dans son complémentaire (par exemple si A et B lancent un
dé à tour de rôle, le gagnant étant le premier à obtenir « six », l’évènement « il n’y a pas
de gagnant »a une probabilité nulle mais est constitué d’une infinité non dénombrable

d’évènements élémentaires, c’est {1, . . . , 5}N ). Remarquons aussi que l’ensemble Ω0 des
ω tels que Xn (ω) converge vers X(ω) est bien un événement observable (vu en exercice),
c’est-à-dire un événement de la famille F. Il est donc légitime de parler de sa probabilité.
Dans la convergence presque sûre, le rang n0 à partir duquel on peut approximer
Xn (ω) par X(ω) avec une erreur inférieure à ε dépend à la fois de ε et de ω ∈ Ω0 : n0 =
n0 (ε, ω). On ne sait pas toujours expliciter la façon dont n0 (ε, ω) dépend de ω. D’autre
part on peut très bien avoir sup{n0 (ε, ω), ω ∈ Ω0 } = +∞. Ceci fait de la convergence
presque sûre en général un résultat essentiellement théorique 3 . Supposons que la valeur
de Xn dépende du résultat de n épreuves répétées (ou de n observations). Savoir que
Xn converge presque sûrement vers X ne permet pas de prédire le nombre non aléatoire
n d’épreuves (ou d’observations) à partir duquel on aura |Xn (ω) − X(ω)| < ε (sinon
pour tous les ω ∈ Ω0 , du moins avec une probabilité supérieure à un seuil fixé à l’avance
par exemple 95%, 99%,. . .). Or cette question a une grande importance pratique pour le
statisticien. C’est l’une des raisons de l’introduction de la convergence en probabilité qui
permet de répondre à cette question lorsque l’on connaı̂t la vitesse de convergence selon
ce mode.
Définition 20 (Convergence en probabilité)
Soit (Xn )n≥1 une suite de variables aléatoires et X une v.a. définies sur le même espace
probabilisé (Ω, F, P ). On dit que Xn converge en probabilité vers X si :
∀ε > 0, lim P (|Xn − X| ≥ ε) = 0.
n→+∞
Pr
Notation : Xn −−−−→ X.
n→+∞

La convergence presque sûre implique la convergence en probabilité, la réciproque est


fausse (exercices). Pour cette raison, la convergence en probabilité de la suite Mn définie
en introduction s’appelle une loi faible des grands nombres, sa convergence presque sûre
une loi forte des grands nombres.

A.2 Loi faible des grands nombres


Théorème 21 Soit (Xn )n≥1 une suite de variables aléatoires deux à deux indépendantes,
de même loi ayant un moment d’ordre 2. Alors :
n
1X Pr
Xi −−−−→ IE X1 .
n i=1 n→+∞

3
Sauf si l’on connaı̂t la loi de la v.a. ω 7→ n0 (ε, ω), ou au moins si l’on sait majorer P (n0 > t). . .

22 Ch. Suquet, LFGN


A.2. Loi faible des grands nombres

Preuve : Ici, la v.a. limite est la constante IE X1 (ou n’importe quel IE Xi , puisque les
Xi ayant même loi ont même espérance). Il s’agit donc de vérifier que :
 X n 
1

∀ε > 0, lim P Xi − IE X1 ≥ ε = 0.

n→+∞ n i=1
n
1X
Posons Mn = Xi . On a :
n i=1
n
1X
IE Mn = IE Xi = IE X1 . (A.1)
n i=1
D’autre part, les Xi étant deux à deux indépendantes et de même loi on a :
X n 
1 1 1
Var Mn = 2 Var Xi = 2 (n Var X1 ) = Var X1 . (A.2)
n i=1
n n
L’inégalité de Tchebycheff appliquée à chaque Mn nous dit que pour ε > 0 fixé :
Var Mn
∀n ∈ N∗ , P (|Mn − IE Mn | ≥ ε) ≤ .
ε2
D’où compte tenu du calcul de IE Mn et Var Mn :
Var X1
∀n ∈ N∗ , P (|Mn − IE X1 | ≥ ε) ≤ . (A.3)
nε2
En faisant tendre n vers +∞ (ε restant fixé) on en déduit :
lim P (|Mn − IE X1 | ≥ ε) = 0.
n→+∞

Ce raisonnement est valable pour tout ε > 0. 


Remarque : Nous avons en fait démontré un peu plus que la seule convergence en pro-
babilité. Nous avons d’après (A.3) une vitesse de convergence en O(1/n). Si l’on connaı̂t
Var X1 ou si on sait le majorer, on peut donc répondre à la question posée page 22 lors
de l’introduction de la convergence en probabilité.
Corollaire 22 (Loi faible des g. n. pour les fréquences)
Si (Xn )n≥1 est une suite de v.a. de Bernoulli indépendantes de même paramètre p, alors :
n
1X Pr
Xi −−−−→ p.
n i=1 n→+∞

Preuve : Il suffit d’appliquer la loi faible des grands nombres en notant qu’ici IE X1 = p.

Interprétation : Considérons une suite d’épreuves répétées indépendantes. Pour chaque
épreuve la probabilité d’un « succès » est p. Notons Xi l’indicatrice de l’événement succès
à la i-ème épreuve. Alors :
X n
Sn = Xi est le nombre de succès en n épreuves et Mn = n−1 Sn est la fréquence des
i=1
succès au cours des n premières épreuves. Remarquons que pour tout ω, 0 ≤ Mn (ω) ≤ 1.

Ch. Suquet, LFGN 23


Annexe A. Loi des grands nombres1

A.3 Estimation d’une proportion inconnue


On se propose d’estimer le paramètre p inconnu d’une loi de Bernoulli à partir des
observations Xi (ω), 1 ≤ i ≤ n, les Xi étant des v.a. de Bernoulli indépendantes de même
paramètre p.

Exemple 1 On a une urne comportant des boules rouges en proportion inconnue p et


des boules vertes (en proportion q = 1−p). On effectue n tirages d’une boule avec remise.
Notons :
Xi = 1{rouge au i-ème tirage}
et comme ci-dessus désignons par Mn la moyenne arithmétique des Xi ou fréquence
d’apparition du rouge au cours des n premiers tirages. D’après la loi faible des grands
nombres pour les fréquences, Mn converge en probabilité vers p. Comme on s’attend
à ce que Mn soit proche de p pour les grandes valeurs de n, il est naturel d’estimer p
par Mn . En fait on observe une valeur particulière Mn (ω) calculée à partir des résultats
des n tirages réellement effectués. La question pratique qui se pose est de donner une
« fourchette » pour l’approximation de p par la valeur observée Mn (ω). L’inégalité de
Tchebycheff (A.3) pour Mn s’écrit ici :

Var X1 p(1 − p)
P (|Mn − p| ≥ t) ≤ 2
= . (A.4)
nt nt2
Comme p est inconnu, on ne peut pas utiliser directement ce majorant. On remplace
alors p(1 − p) par :
1
sup x(1 − x) =
x∈[0,1] 4

(la parabole d’équation y = x(1 − x) a sa concavité tournée vers les y négatifs, les
deux zéros du trinôme sont x1 = 0 et x2 = 1 ; par symétrie, le sommet a pour abscisse
(x1 + x2 )/2 = 1/2 et pour ordonnée 1/2(1 − 1/2) = 1/4). En reportant dans (A.4), on
obtient quelle que soit la valeur inconnue p :

Var X1 1
P (|Mn − p| ≥ t) ≤ 2
= (A.5)
nt 4nt2
d’où en passant à l’événement complémentaire :

1
P (Mn − t < p < Mn + t) ≥ 1 − . (A.6)
4nt2
En pratique on remplace Mn par la valeur réellement observée Mn (ω) et on dit que
I =]Mn (ω) − t, Mn (ω) + t[ est un intervalle de confiance (ou fourchette) pour p. Le
deuxième membre de (A.5) peut s’interpréter comme un majorant de la probabilité de
se tromper lorsque l’on déclare que p est dans I. On dit aussi que I est un intervalle de
confiance au niveau α ≥ 1 − 1/(4nt2 ). 

24 Ch. Suquet, LFGN


A.4. Convergence presque sûre des fréquences

Exemple 2 (Sondage) Avant le second tour d’une élection présidentielle opposant les
candidats A et B, un institut de sondage interroge au hasard 1 000 personnes dans la
rue 4 . On note p la proportion d’électeurs décidés à voter pour A dans la population
totale. Dans l’échantillon sondé, cette proportion est égale à 0.54. Proposer un intervalle
de confiance pour p au niveau 0.95.
Le sondage peut être assimilé à un tirage avec remise (en admettant qu’une personne
interrogée plusieurs fois accepte de répondre à chaque fois) et on est ramené à la situa-
tion de l’exemple précédent. Ici la fréquence observée réellement est Mn (ω) = 0.54 et
l’inégalité (A.6) nous dit que l’on peut prendre comme intervalle de confiance :
1
I =]0.54 − t, 0.54 + t[ avec un niveau α ≥ 1 − .
4nt2
Comme on souhaite que α soit au moins égal à 0.95, il suffit de choisir la plus petite
valeur de t telle que :
1 1
1− ≥ 0.95 ⇔ t ≥ √ ' 0.0707.
4 000t2 10 2
En prenant t = 0.071, on obtient : I =]0.469, 0.611[. On remarque qu’une partie de cet
intervalle correspond à p < 1/2. Ainsi, bien que le sondage donne 54% d’intentions de
vote en faveur de A, l’inégalité (A.6) ne nous permet pas de pronostiquer sa victoire avec
une probabilité d’erreur inférieure à 5%. 

Exemple 3 (Sondage, suite) L’institut de sondage désire présenter à ses clients une
fourchette à ±1% avec un niveau de confiance égal au moins à 0.95%. Combien de
personnes doit-il interroger ?
On repart de (A.6). Cette fois on impose t = 0.01 et on cherche n minimal tel que :
1
≤ 0.05
4n × 0.012
On trouve n = 50 000, ce qui donne au sondage un coût prohibitif 5 . Nous reviendrons
sur ce problème au chapitre suivant. 

A.4 Convergence presque sûre des fréquences


On peut représenter graphiquement la suite Mn (ω) des fréquences de succès dans une
suite d’épreuves de Bernoulli par la ligne brisée dont les sommets ont pour coordonnées
4
Ceci est une simplification volontaire permettant d’assimiler la situation à un tirage avec remise : une
même personne peut ainsi être interrogée plusieurs fois au cours du sondage. En pratique les méthodes
utilisées par les instituts de sondage pour sélectionner un échantillon sont un peu plus compliquées. . .
5
Les sondages ordinaires sont faits sur des échantillons de 500 ou 1 000 personnes. Pour les élections
présidentielles, les instituts interrogent des échantillons de 5 000 personnes. La petite étude ci-dessus
montre que pour gagner une décimale sur la précision du sondage (i.e. diviser par 10 la longueur de
l’intervalle de confiance), il faut multiplier la taille de l’échantillon et donc le coût du sondage par 100. . .

Ch. Suquet, LFGN 25


Annexe A. Loi des grands nombres1

(n, Mn (ω)). A chaque ω correspond ainsi une ligne brisée infinie que nous appellerons
trajectoire. La loi faible des grands nombres nous donne le comportement asymptotique
de ces trajectoires dans leur ensemble. Elle signifie grosso modo que pour n grand fixé
(n ≥ n0 (ε)) la plupart des trajectoires vont traverser le segment vertical d’ extrémités
(n, p − ε) et (n, p + ε). Elle ne nous dit rien sur le comportement individuel de chaque
trajectoire. Une trajectoire qui traverse ]p−ε, p+ε[ à la verticale de n peut très bien sortir
de la bande horizontale engendrée par ce segment au delà de n. Une question naturelle
est alors : existe-t-il des trajectoires qui à partir d’un certain rang n0 = n0 (ω, ε) restent
dans la bande {(x, y) ∈ R2 , x ≥ n0 et p − ε < y < p + ε} ? Nous allons montrer que
l’ensemble des trajectoires qui vérifient cette propriété pour tout ε > 0 a pour probabilité
1, autrement dit que Mn converge presque sûrement vers p.

Théorème 23 (Loi forte des g. n. pour les fréquences)


Si (Xn )n≥1 est une suite de v.a. de Bernoulli indépendantes de même paramètre p, alors :
n
1X p.s.
Xi −−−−→ p.
n i=1 n→+∞

Preuve : Comme précédemment, nous notons :


n
X Sn
Sn = Xi et Mn = .
i=1
n

Les deux ingrédients principaux de la démonstration sont :


– L’écriture de l’événement {Mn converge vers p} à l’aide d’opérations ensemblistes
dénombrables sur les événements {|Mn − p| ≥ ε} dont on sait majorer les proba-
bilités.
– L’obtention d’une vitesse de convergence vers 0 de ces mêmes probabilités suffisante
pour que :
+∞
X
P (|Mn − p| ≥ ε) < +∞. (A.7)
n=1

Remarquons que l’inégalité de Tchebycheff est ici trop faible puisqu’elle nous donne
seulement une vitesse en O(n−1 ). En fait, on peut obtenir une vitesse de convergence
exponentielle grâce à l’inégalité suivante :

P (|Mn − p| ≥ ε) ≤ 2 exp(−2nε2 ). (A.8)

Nous admettons provisoirement cette inégalité dont une preuve est proposée en exercice 6 .
A partir de maintenant, la démonstration se développe en 7 « pas » élémentaires.
1er pas : On rappelle la traduction automatique des quantificateurs. Si I est un ensemble
quelconque d’indices, (Pi ) une propriété dépendant de l’indice i et Ai l’ensemble des
6
Dans le polycopié de Deug. Pour le présent document, voir théorème 7.

26 Ch. Suquet, LFGN


A.4. Convergence presque sûre des fréquences

ω ∈ Ω vérifiant (Pi ), on a :
\
{ω ∈ Ω, ∀i ∈ I, ω vérifie (Pi )} = Ai
i∈I
[
{ω ∈ Ω, ∃i = i(ω) ∈ I, ω vérifie (Pi )} = Ai
i∈I

Ainsi le quantificateur ∀ peut toujours se traduire par une intersection et le quantificateur


∃ par une réunion.
2e pas : Considérons l’ensemble :

C = {ω ∈ Ω, lim Mn (ω) = p}.


n→+∞

On peut exprimer C à l’aide des événements {|Mn − p| < ε} en écrivant la définition de


la limite :

ω ∈ C ⇔ ∀ε > 0, ∃k = k(ω, ε), ∀n ≥ k, |Mn (ω) − p| < ε, (A.9)

et en appliquant la règle de traduction automatique des quantificateurs :


\[ \
C= {|Mn − p| < ε}.
ε>0 k∈N n≥k

L’inconvénient de cette décomposition est que le « ε > 0 » dans la première intersection


est une indexation par l’ensemble I =]0, +∞[ qui n’est pas dénombrable. On ne peut
donc pas appliquer les propriétés de σ-additivité ou de continuité monotone séquentielle
à ce stade.
3e pas : Il est facile de remédier à cet inconvénient : il suffit de discrétiser le ε dans la
définition de la limite. On sait qu’on obtient une définition équivalente remplaçant dans
(A.9) le « ∀ε > 0 » par « ∀εj » où (εj )j∈N est une suite strictement décroissante de réels
tendant vers 0. On peut choisir par exemple εj = 10−j . En appliquant à nouveau la
traduction des quantificateurs, nous obtenons :
\[ \
C= {|Mn − p| < εj }.
j∈N k∈N n≥k

Remarquons au passage que, sous cette forme, il est clair que l’ensemble C est en fait un
événement, c’est-à-dire un membre de la famille F de parties de Ω sur laquelle est définie
la fonction d’ensemble P . En effet, Mn étant une variable aléatoire, les {|Mn − p| < εj }
sont des événements et C s’obtient par des opérations ensemblistes dénombrables sur ces
événements. Il est donc légitime de parler de la probabilité de C. Nous allons montrer
que P (C) = 1.
4e pas : Nous venons de passer d’une infinité non dénombrable de ε à une suite (εj ). Le
lemme suivant va nous permettre de travailler avec une seule valeur de ε.
Lemme 24 Si (Aj )j∈N est une suite d’événements ayant chacun une probabilité 1, alors
leur intersection a aussi une probabilité 1.

Ch. Suquet, LFGN 27


Annexe A. Loi des grands nombres1

Preuve : Par passage au complémentaire, il suffit de prouver que la réunion des Acj a
une probabilité nulle. Or :
 X
0 ≤ P ∪ Acj ≤ P (Acj ) = 0,
j∈N
j∈N

puisque chaque P (Acj ) est nul par hypothèse. 


Si l’on prouve que pour chaque ε > 0 fixé, P (Cε ) = 1 où
[ \
Cε = {|Mn − p| < ε},
k∈N n≥k

il suffira d’appliquer le lemme avec Aj = Cεj pour obtenir P (C) = 1.


5e pas : Soit donc ε > 0 fixé. Pour montrer que Cε a une probabilité 1, on travaille sur
son complémentaire que nous noterons B.
\ [
B= {|Mn − p| ≥ ε}.
k∈N n≥k

On a : \ [
B= Bk avec Bk = {|Mn − p| ≥ ε}.
k∈N n≥k
Donc B est inclus dans chaque Bk , d’où :
∀k ∈ N, 0 ≤ P (B) ≤ P (Bk ). (A.10)
6e pas : On majore P (Bk ) en utilisant la sous-additivité de P pour les unions dénom-
brables :
  X
0 ≤ P (Bk ) = P ∪ {|Mn − p| ≥ ε} ≤ P (|Mn − p| ≥ ε).
n≥k
n≥k

D’après (A.8), ce majorant est le reste de rang k d’une série convergente. Il tend donc
vers 0 quand k tend vers +∞. Il en est donc de même pour P (Bk ).
7e pas, conclusion : En passant à la limite quand k tend vers +∞ dans (A.10), on en
déduit P (B) = 0. En passant à l’événement complémentaire on a donc montré que
P (Cε ) = 1. Comme la seule hypothèse faite sur ε pour obtenir ce résultat était ε > 0, on
a donc P (Cε ) = 1 pour tout ε > 0. D’après le 4e pas ceci entraı̂ne P (C) = 1, autrement
dit : Mn converge presque sûrement vers p. 
Comme sous-produit de la démonstration que nous venons d’achever, nous avons
montré au passage que la convergence en probabilité avec une vitesse suffisante implique
la convergence presque sûre, plus précisément :
Théorème 25 (Condition suffisante de convergence p.s.)
Si (Yn )n≥1 et Y sont des variables aléatoires vérifiant :
+∞
X
∀ε > 0, P (|Yn − Y | > ε) < +∞, (A.11)
n=1

alors Yn converge presque sûrement vers Y .

28 Ch. Suquet, LFGN


A.5. Discussion

Preuve : Il suffit de remplacer |Mn − p| par |Yn − Y | dans la démonstration ci-dessus.




A.5 Discussion
Considérons une urne contenant 10 boules numérotées de 0 à 9. La loi forte des
grands nombres pour les fréquences nous dit que si l’on effectue une suite illimitée de
tirages avec remise d’une boule, la fréquence d’apparition du chiffre 7 va converger vers
1/10 avec probabilité 1. Pour démontrer ce théorème, nous avons admis implicitement
l’existence d’un espace probabilisé (Ω, F, P ) modélisant cette expérience (suite infinie de
tirages avec remise). La construction mathématique rigoureuse d’un tel modèle présente
une réelle difficulté qui est au coeur de la théorie de la mesure et relève du programme
de la licence de mathématiques. Nous nous contenterons de quelques considérations
élémentaires 7 sur cet espace probabilisé, utiles pour notre exploration de la loi forte des
grands nombres.
L’espace Ω doit être assez « riche » pour « supporter » une suite infinie (Yi )i≥1 de v.
a. indépendantes et de même loi uniforme sur {0, 1, 2, . . . , 8, 9}. La variable aléatoire Yi
s’interprète comme le numéro obtenu lors du i-ième tirage. On pose alors Xi = 1{Yi =7}
et Mn = n−1 ni=1 Xi est la fréquence d’aparition du 7 en n tirages.
P
Nous allons examiner deux choix possibles pour Ω. Le premier et le plus naturel est
de prendre :

Ω = {0, 1, 2, . . . , 8, 9}N .
Autrement dit un élément quelconque ω de Ω est une suite (ci )i≥1 de chiffres décimaux. Le
choix de la famille F d’événements observables est plus délicat. On ne peut pas prendre
l’ensemble de toutes les parties de Ω car on ne pourrait pas attribuer une probabilité à
chacune de ces parties de façon compatible avec ce que l’on sait déjà sur les tirages finis.
Il est clair que F doit contenir les événements dont la réalisation ne dépend que d’un
nombre fini de tirages (c’est bien le cas des événements du type {|Mn − p| > ε} auxquels
on sait attribuer une probabilité (au moins théoriquement puisque l’on sait écrire une
formule donnant P (n(p − ε) < Sn < n(p + ε)) à l’aide de la loi binomiale). On prend
pour F la plus petite famille d’événements observables 8 parmi celles qui contiennent les
événements dont la réalisation ne dépend que d’un nombre fini d’épreuves. Pour définir
la fonction d’ensemble P sur F, on utilise un théorème de prolongement de la théorie de
la mesure. On peut alors voir qu’avec ce modèle, chaque événement élémentaire ω doit
avoir une probabilité nulle. En effet, fixons ω0 = (u1 , u2 , . . . , un , . . .) ∈ Ω. On a :
∀n ≥ 1, {ω0 } ⊂ {Y1 = u1 } ∩ {Y2 = u2 } ∩ · · · ∩ {Yn = un },
d’où n
n Y  1 n
P ({ω0 }) ≤ P ( ∩ {Yi = ui }) = P (Yi = ui ) = ,
i=1
i=1
10
7
Tout est relatif. . .
8
i.e. la plus petite tribu.

Ch. Suquet, LFGN 29


Annexe A. Loi des grands nombres1

en utilisant la nécessaire indépendance des Yi . Ainsi :

∀n ≥ 1, 0 ≤ P ({ω0 }) ≤ 10−n .

En faisant tendre n vers l’infini on en déduit P ({ω0 }) = 0. Ce raisonnement est valable


pour tout ω0 de Ω.
Notons que la nullité de P ({ω}) pour tout ω ∈ Ω neP contredit pas l’égalité P (Ω) =
1. En effet on n’a pas le droit d’écrire ici « P (Ω) = ω∈Ω P ({ω}) » car l’ensemble
d’indexation Ω n’est pas dénombrable (il est en bijection avec l’intervalle [0, 1] de R).
Si E est un événement dénombrable, les événements élémentaires P qui le composent
peuvent être indexés par N : E = {ω0 , ω1 , . . . , ωn , . . .} et P (E) = n∈N P ({ωn }) = 0.
Ceci est valable a fortiori pour les événements finis.
Donc si un événement a une probabilité non nulle dans ce modèle, il est nécessaire-
ment composé d’une infinité non dénombrable d’événements élémentaires. La réciproque
est fausse. Considérons en effet l’événement B défini comme l’obtention à chacun des
tirages des seuls chiffres 0 ou 1. Dans notre modèle B est l’ensemble des suites de 0 et
de 1, il n’est pas dénombrable (puisqu’en bijection avec [0, 1]). Par ailleurs :

B= ∩ {Yi = 0 ou 1}.
i∈N∗

n
On a donc pour tout n ≥ 1, B ⊂ Bn = ∩ {Yi = 0 ou 1}, d’où
i=1

 2 n
∀n ≥ 1, 0 ≤ P (B) ≤ P (Bn ) = .
10
En faisant tendre n vers l’infini, on en déduit P (B) = 0. Notons d’autre part que si
ω ∈ B, ω ne contient aucun « 7 » parmi ses termes donc Mn (ω) = 0 et B est inclus
dans l’événement {Mn → 0} (ce qui prouve d’une autre façon que P (B) = 0 grâce à la
loi forte des grands nombres). Ainsi le complémentaire de l’événement de probabilité 1
{Mn → 1/10} contient l’événement B et est donc lui même infini non dénombrable.
La situation est même encore plus surprenante : on peut faire converger Mn (ω) vers
n’importe quel rationnel r fixé de [0, 1] et ce, pour tous les ω d’un événement Cr non
dénombrable et de probabilité nulle (si r 6= 1/10). Voici comment faire. On pose r = k/l,
k ∈ N, l ∈ N∗ et on définit Cr comme l’ensemble des suites de la forme :

ω = (7, . . . , 7, uk+1 , . . . , ul , 7, . . . , 7, ul+k+1 , . . . , u2l , 7, . . . , 7, . . . . . .)


| {z } | {z } | {z } | {z } | {z }
k l−k k l−k k

en répétant indéfiniment l’alternance de blocs de k chiffres 7 consécutifs et des blocs de


l − k chiffres ui pouvant prendre seulement les valeurs 0 ou 1. Il est immédiat de vérifier
que la fréquence des 7 dans une telle suite converge vers k/l, donc Cr ⊂ {Mn → r}.

Il est aussi clair que Cr est en bijection avec {0, 1}N (la bijection s’obtient en effaçant
les 7 et sa réciproque en intercalant des blocs de k chiffres 7 consécutifs tous les l − k
chiffres binaires).

30 Ch. Suquet, LFGN


A.5. Discussion

En adaptant ce procédé, on peut faire converger Mn (ω) vers n’importe quel réel x
de [0, 1] sur un événement Cx non dénombrable et de probabilité nulle si x 6= 1/10
(exercice).
On peut aussi construire des événements non dénombrables et de probabilité nulle sur
lesquels Mn ne converge vers aucune limite. A titre d’exemple voici comment construire
un événement E tel que ∀ω ∈ E :
lim inf Mn (ω) = 0, et lim sup Mn (ω) = 1. (A.12)
n→+∞ n→+∞

Commençons par construire une suite particulière ω0 = (ci )i≥1 vérifiant (A.12) :
ω0 = ( 7, 7 , 8, 8, 8, 8, 7, . . . , 7, 8, . . . , 8, 7, . . . . . . , 7, . . . . . .).
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2

et ainsi de suite en alternant indéfiniment des bloc de 7 consécutifs et de 8 consécutifs.


La longueur de chaque bloc est le carré de la somme des longueurs de tous les blocs
précédents. Avec cette construction, l’indice du dernier chiffre de chaque bloc est un
entier de la forme m + m2 . A chaque étape, le dernier bloc placé écrase quasiment tout
le passé et ainsi Mn (ω0 ) va osciller indéfiniment entre 0 et 1. Plus précisément, si le bloc
considéré se termine par un 8, il contient au moins m2 chiffres 8 et donc au plus m chiffres
7 donc Mm2 +m (ω0 ) ≤ m/(m + m2 ) et ce majorant tend vers 0 quand m tend vers +∞. Si
le bloc finit sur un 7, il contient au moins m2 chiffres 7, donc Mm2 +m (ω0 ) ≥ (m2 /(m+m2 )
et ce minorant
 tend vers 1 quand m tend vers +∞. On a ainsi pu extraire de la suite
Mn (ω0 ) n∈N∗ une sous suite convergeant vers 0 et une autre convergeant vers 1. Comme
0 ≤ Mn (ω0 ) ≤ 1 pour tout n, on en déduit que ω0 vérifie (A.12).
Pour obtenir une infinité non dénombrable de suites ω ayant la même propriété, il
suffit de modifier légèrement la construction de ω0 en :
ω = ( 7, ∗ , 8, 8, 8, ∗, 7, . . . , 7, ∗, 8, . . . , 8, ∗, 7, . . . . . . , 7, ∗, . . . . . .)
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2

où le dernier chiffre de chaque bloc de ω0 est remplacé au choix par un 0 ou un 1


(représenté par l’astérisque ci-dessus).
En travaillant encore un peu, on pourrait de même montrer pour tout couple de
réels (a, b) de [0, 1] tels que a < b, l’existence d’événements Ea,b non dénombrables et de
probabilité nulle sur lesquels Mn a pour limite inférieure a et pour limite supérieure b. . .
Tous ces exemples montrent que l’événement {Mn ne converge pas vers 1/10} a
une structure très complexe. Ainsi l’aspect naturel et intuitif de la loi forte des grands
nombres pour les fréquences masque un résultat plus profond qu’il n’y paraı̂t. Le presque
sûrement qui figure dans l’énoncé de cette loi n’est pas une finasserie artificielle de puriste
mais est bien inhérent au problème étudié.
On est naturellement tenté d’interpréter les résultats précédents du point de vue de
la théorie des nombres en considérant les suites de chiffres décimaux sur lesquelles nous
venons de travailler comme des développements décimaux illimités de nombres réels de
[0, 1]. Notre second modèle sera donc (Ω0 , F 0 , P 0 ) où :
Ω0 = [0, 1]

Ch. Suquet, LFGN 31


Annexe A. Loi des grands nombres1

et F 0 et P 0 restent à définir.
Cependant il se présente ici une difficulté qui fait que ce nouveau modèle ne se
réduit pas à une traduction automatique du précédent. Si (ci )i≥1 est une suite de chiffres
décimaux, la série :
+∞
X ci
(A.13)
i=1
10i
converge et sa somme est un réel x de [0, 1] que l’on peut noter
+∞
X ci
x = 0.c1 c2 . . . ci . . . = .
i=1
10i

Réciproquement, tout réel de [0, 1] admet un développement décimal du type (A.13). Ce


développement est unique lorsque x n’est pas un nombre décimal (i.e. x n’est pas de la
forme k/10n , k ∈ N, n ∈ N∗ ). Par contre si x est décimal, il possède deux développements
décimaux distincts. Ceci provient de la sommation de série géométrique suivante :
+∞ +∞
X 9 9 X 1 9 1 1
∀n ≥ 1, i
= n j
= n 1
 = n−1 . (A.14)
i=n
10 10 j=0 10 10 1 − 10 10

Cette relation permet de voir que si un développement décimal illimité ne comporte plus
que des 9 à partir d’un certain rang n (le (n − 1)-ème chiffre n’étant pas un 9), on ne
change pas la somme de la série en remplaçant tous ces 9 par des 0 et en augmentant
d’une unité le (n − 1)-ème chiffre. On a ainsi la propagation d’une retenue depuis l’infini.
Par exemple :
5973
0.5972999999 . . . = 0.5973000000 . . . =
104
(il ne s’agit pas d’une égalité approchée, mais d’une égalité rigoureuse, les points de
suspension représentant la répétition indéfinie du chiffre 9 ou 0 respectivement). Le
développement ne comportant que des 9 à partir d’un certain rang est appelé développe-
ment décimal impropre, celui ne comportant que des 0 est appelé développement décimal
propre.
En revenant aux tirages illimités dans notre urne à dix boules, on voit que si l’on
choisit Ω0 = [0, 1], les deux suites de résultats qui correspondent à un même réel
décimal seront représentées par le même réel ω. Par exemple (5, 9, 7, 2, 9, 9, 9, . . .) et
(5, 9, 7, 3, 0, 0, 0, . . .) seront représentées par l’événement élémentaire ω = 5973/1 0000.
Pour surmonter cette difficulté, nous « dédoublons » la suite (Yi )i≥1 . Pour tout i ≥ 1,
on définit les deux variables aléatoires Yi et Yi0 comme suit. Si ω ∈ [0, 1] n’est pas décimal,
Yi (ω) = Yi0 (ω) est le i-ème chiffre décimal de l’unique développement décimal de ω. Si
ω est un décimal de [0, 1], Yi (ω) est le i-ème chiffre de son développement propre, Yi0 (ω)
le i-ème chiffre décimal de son développement impropre. On requiert, comme dans le
premier modèle que chacune de ces deux suites soit indépendante et que chacune des
variables Yi et Yi0 suive la loi uniforme sur {0, 1, . . . , 8, 9}. Ceci permet de montrer que
chaque événement élémentaire ω doit avoir une probabilité P 0 nulle. D’autre part, Yi

32 Ch. Suquet, LFGN


A.5. Discussion

et Yi0 diffèrent seulement sur l’ensemble D des décimaux de [0, 1] qui est dénombrable
(vu en exercice), donc de probabilité P 0 nulle. Ainsi les deux suites (Yi )i≥1 et (Yi0 )i≥1
sont égales P 0 -presque sûrement. Il est donc quand même possible d’interpréter la suite
illimitée de tirages dans l’urne comme le choix aléatoire d’un réel ω de [0, 1] suivant la
loi de probabilité P 0 .
On peut maintenant examiner les conséquences de notre cahier des charges (les condi-
tions sur les suites de v.a. (Yi )i≥1 et (Yi0 )i≥1 ) sur la construction de (F 0 , P 0 ). La condition
d’indépendance de la suite (Yi )i≥1 avec même loi uniforme sur {0, 1, . . . , 8, 9} pour tout
Yi peut s’écrire comme suit. Pour tout n ≥ 1, et tout n-uplet (c1 , . . . , cn ) de chiffres
décimaux,
n
0
Y 1
P (Y1 = c1 , Y2 = c2 , . . . , Yn = cn ) = P 0 (Yi = ci ) = n .
i=1
10
En notant que l’on a exclu les développement impropres dans la définition des Yi , on a
l’équivalence :

Y1 (ω) = c1 , Y2 (ω) = c2 , . . . , Yn (ω) = cn ⇔ ω ∈ [αn , αn + 10−n [,

où l’on a posé : αn = c1 10−1 + · · · + cn 10−n . Lorsque le n-uplet (c1 , . . . , cn ) prend toutes
les valeurs possibles (à n fixé), αn décrit exactement l’ensemble des décimaux pouvant
s’écrire sous la forme k10−n . La condition sur la suite (Yi )i≥1 peut donc se traduire par :
 h k k + 1h  1
n 0
∀n ≥ 1, ∀k = 0, 1, . . . , 10 − 1, P n
, n
= n.
10 10 10
L’utilisation de la suite (Yi0 ) à la place de (Yi ) dans le raisonnement ci-dessus nous
aurait donné la même conclusion mais avec des intervalles ouverts à gauche et fermés à
droite. Notons que dans les deux cas la probabilité P 0 de l’intervalle concerné est égale
à sa longueur. On peut aussi utiliser chacun de ces deux résultats pour redémontrer que
la probabilité d’un événement élémentaire ω est forcément nulle. Finalement, grâce à
l’additivité de P 0 on en déduit facilement que la condition sur la suite (Yi ) équivaut à :

∀a, b ∈ [0, 1] ∩ D (a < b), P 0 ([a, b]) = b − a (A.15)

(ou à chacune des conditions obtenues avec [a, b[, ]a, b] ou ]a, b[). Par continuité monotone
de P 0 , on en déduit que (A.15) s’étend au cas de réels a, b > a quelconques de [0, 1] :
il suffit de considérer deux suites de décimaux an ↑ a et bn ↓ b et de noter que [a, b] =
∩n≥1 [an , bn ] (détails laissés en exercice).
Nous voyons maintenant que le problème de la construction de (F 0 , P 0 ) est exac-
tement celui de la construction d’une fonction d’ensemble σ − additive prolongeant la
fonction longueur d’un intervalle. Ce problème est celui de la construction de la mesure
de Lebesgue. On peut le résoudre en prenant pour F 0 la plus petite famille d’événe-
ments observables contenant les intervalles. On arrive ainsi à définir la longueur ou
mesure de Lebesgue des sous ensembles de [0, 1] qui sont dans F 0 . Si un tel sous en-
semble est de la forme B = ∪i≥1 ]ai , bi [ où les suites (ai ) et (bi ) vérifient pour tout n :

Ch. Suquet, LFGN 33


Annexe A. Loi des grands nombres∗

0 ≤ an < bn ≤ an+1 < bn+1 ≤ 1, alors B est une réunion disjointe d’intervalles et sa pro-
babilité P 0 ou longueur est évidemment la série de terme général la longueur de ]ai , bi [.
Malheureusement, tous les éléments de la famille F 0 sont loin d’avoir une structure aussi
simple et le calcul explicite de leur longueur n’est pas toujours possible (on sait qu’elle
existe et on connaı̂t ses propriétés). Nous connaissons déjà un exemple d’élément de F 0
qui ne peut pas s’écrire comme réunion dénombrable d’intervalles disjoints, c’est l’évé-
nement C7 = {convergence de la fréquence du chiffre 7 vers 1/10}. En effet par densité
des décimaux, tout intervalle contient au moins un décimal (en fait une infinité) et si ω
est décimal, Yi (ω) = 0 à partir d’un certain rang (de même Yi0 (ω) = 9) par conséquent
Mn (ω) converge vers 0 donc ω ∈ / C7 . Ainsi C7 ne peut s’écrire comme réunion dénom-
brable d’intervalles disjoints. Nous savons pourtant calculer sa longueur par la loi forte
des grands nombres : elle vaut 1.
Dans toute cette section nous nous sommes intéressés à la fréquence d’apparition
du 7. Bien sûr ce chiffre n’a été choisi que pour fixer les idées et n’importe quel autre
chiffre décimal aurait tout aussi bien fait l’affaire. Pour généraliser un peu définissons
Mn,j comme la fréquence d’apparition du chiffre j (j ∈ {0, 1, . . . , 8, 9}) au cours des n
premiers tirages. Notons de même Cj l’événement {Mn,j converge vers 1/10}. Par la loi
forte des grands nombres, chaque Cj a une longueur (i.e. une probabilité P 0 ) égale à 1.
Par le lemme 24, l’intersection de ces dix ensembles a aussi une longueur 1.
Convenons d’appeler nombre normal tout réel de [0, 1] tel que la fréquence de chacun
des 10 chiffres décimaux 0, 1, . . . 9 dans le développement décimal illimité de ce nombre
converge vers 1/10. Nous avons ainsi obtenu un résultat de théorie des nombres qui
s’énonce ainsi : l’ensemble de tous les nombres normaux de [0, 1] a pour longueur 1 (on
dit aussi presque tout nombre de [0, 1] est normal). Ce résultat est dû à Borel. On pourrait
maintenant traduire tous les exemples étudiés dans le cadre du premier modèle et voir
ainsi que l’ensemble de longueur nulle des nombres non normaux a une structure très
complexe. Là encore, le théorème de Borel est plus profond qu’il n’y paraı̂t à première
vue. . .

34 Ch. Suquet, LFGN


Annexe B

L’aiguille de Buffon∗

Dans cette expérience inventée par Buffon (1777) on trace sur une surface plane
horizontale des droites parallèles équidistantes, séparées par une distance a (on peut par
exemple utiliser les rainures d’un parquet). On laisse tomber sur cette surface une aiguille
de longueur ` ≤ a et une fois l’aiguille immobilisée, on observe si elle coupe l’une des
droites du réseau. On répète l’expérience en notant la fréquence des intersections. Lorsque
le nombre d’expériences augmente indéfiniment, cette fréquence converge selon Buffon
2`
vers p = πa permettant ainsi d’obtenir une estimation expérimentale du nombre π.

1


1



« Echec » « Succès »

Le document de la page 38 représente les résultats de 1200 lancers réalisés avec une
allumette et un réseau tracé sur une feuille de format A4. On a ici ` = a = 4, 5 cm et
p = π2 ≈ 0, 637.
Cherchons une modélisation de cette expérience. On note Y la distance du milieu de
l’aiguille à la droite la plus proche. Y prend ses valeurs dans [0, a2 ]. On note Φ une mesure
de l’angle entre les droites (toutes orientées dans le même sens) et l’aiguille orientée du
chas vers la pointe. Φ prend ses valeurs dans [0, 2π] (par exemple) 1 .


Extrait de Mathématiques pour l’Enseignement Secondaire (M.E.S. 1), Probabilités, option de Maı̂-
trise, Ch. Suquet, Lille 1992.
1
On pourrait aussi utiliser les angles de droites, Φ serait alors à valeurs dans un intervalle de lon-
gueur π.

35
Annexe B. L’aiguille de Buffon1

Y et Φ sont des variables aléatoires. La 3



connaissance du couple (Y (ω), Φ(ω))  6`
Y6
?  ?2 |sin Φ|
suffit pour savoir s’il y a ou non inter- 

section. En effet en notant E l’événe-


ment l’aiguille coupe l’une des droites


du réseau , on a :
 
`
E = Y ≤ |sin Φ|
2

Nous ferons les hypothèses suivantes sur les variables aléatoires Y et Φ :

(H1 ) Y suit la loi uniforme sur [0, a2 ].


(H2 ) Φ suit la loi uniforme sur [0, 2π].
(H3 ) Y et Φ sont indépendantes.

Compte tenu de ces trois hypothèses, la loi du couple (Φ, Y ) est la loi uniforme sur le
rectangle [0, 2π] × [0, a2 ].
Remarquons 2 que nous n’avons pas précisé (Ω, A, P). Si on souhaite considérer
chaque position précise de l’aiguille comme un événement élémentaire, on peut prendre
Ω = R2 × [0, 2π] où ω = ((u, v), ϕ) représente la position de l’aiguille lorsque son centre
est le point de coordonnées (u, v) et qu’elle forme un angle ϕ avec les droites orientées
du réseau. La tribu A associée peut être choisie de la manière suivante. On note g l’ap-
plication de Ω dans [0, 2π] × [0, a2 ] définie par g(ω) = (ϕ, y) où y est la distance du point
(u, v) à la droite la plus proche du réseau. On note B la tribu borélienne de [0, 2π]×[0, a2 ].
Pour que E soit bien un événement dans ce modèle, il suffit qu’il soit un élément de A.
Il suffit pour cela de prendre A = g −1 (B). Autrement dit A est la tribu des événements
qui ne dépendent que de Y et Φ. Si P est une probabilité sur cette tribu, on a par le
théorème de transfert en notant A un élément quelconque de A et A0 = g(A) :
Z Z Z
P(A) = 1A dP = 1A0 dP(Φ,Y ) = 1A0 (ϕ, y) dP(Φ,Y ) (ϕ, y).
Ω R2 [0,2π]×[0, a2 ]

On voit ainsi que si P(Φ,Y ) est la loi uniforme sur le rectangle [0, 2π] × [0, a2 ], alors en
définissant P par la formule de transfert ci-dessus, (Ω, A, P) vérifie bien les hypothèses
(H1 ), (H2 ), (H3 ). On pourrait faire la même construction avec tout Ω suffisamment riche
pour décrire tous les résultats possibles de l’expérience.
Finalement, tout revient pour le calcul de P(E) à remplacer l’espace Ω par Ω0 =
[0, 2π] × [0, a/2] et P par la loi uniforme sur Ω0 et E par l’ensemble E 0 = {(ϕ, y) ∈
Ω0 , y ≤ 2` |sin ϕ|}.

2
Ce paragraphe peut être sauté en première lecture.

36 Ch. Suquet, LFGN


y

a
2

`
2

0 2π ϕ

On obtient ainsi :
2π π
λ2 (E 0 )
Z Z  
1 ` ` 2 `
P(E) = = |sin ϕ| dϕ = sin ϕ dϕ = .
0
λ2 (Ω ) 2π a2 0 2 πa 0 π a

Remarquons que le choix a priori des hypothèses (H1 ), (H2 ), (H3 ) ne peut guère être
guidé que par des considérations du genre : « on ne voit pas pourquoi certaines valeurs
de Φ ou Y devraient être avantagées, on ne voit pas pourquoi il devrait y avoir un lien
entre Y et Φ. . . ». Ou plus cyniquement : « Ces hypothèses conduisent à des calculs
simples que l’on sait faire » !

Ch. Suquet, LFGN 37


Annexe B. L’aiguille de Buffon1

Résultats de 1200 lancers


0111110001 6 6 1111111011 9 69 1011111110 8 131
0101111011 7 13 1110100111 7 76 1001110111 7 138
0011100110 5 18 0111100010 5 81 1101101110 7 145
1110011101 7 25 1110111100 7 88 1001011110 6 151
1110000011 5 30 0000100101 3 91 0111110001 6 157
0001111001 5 35 0001111011 6 97 1101001001 5 162
1101000101 5 40 1110011001 6 103 1101001100 5 167
1101111000 6 46 1011111110 8 111 1110100101 6 173
1111011111 9 55 1101010101 6 117 0110001100 4 177
1000100111 5 60 1100100111 6 123 1011010110 6 183

1011101011 7 190 0111110011 7 251 1101100110 6 315


1101100010 5 195 0110110111 7 258 1011011101 7 322
1100000111 5 200 1011110010 6 264 1100101111 7 329
0001111111 7 207 0000111001 4 268 1111010010 6 335
0010001101 4 211 0111100101 6 274 1110001111 7 342
0101001011 5 216 1111111101 9 283 0101001111 6 348
0100111011 6 222 1101010101 6 289 1001100101 5 353
0111111101 8 230 0111111110 8 297 1101111001 7 360
1111111010 8 238 0011101000 4 301 1010111111 8 368
1110001011 6 244 0111111101 8 309 0111101000 5 373

1001110011 6 379 1011011100 6 444 0111111110 8 518


1111011111 9 388 1011111010 7 451 0100010010 3 521
0110011111 7 395 1011110111 8 459 0101101011 6 527
1000011101 5 400 0011001111 6 465 0011111011 7 534
1111100111 8 408 1000001101 4 469 1100100101 5 539
1010010001 4 412 1011011111 8 477 1010110110 6 545
0100001110 4 416 1111111111 10 487 1111101101 8 553
1111011010 7 423 1011111101 8 495 1110111101 8 561
1010111110 7 430 1011111101 8 503 1110110110 7 568
1101011111 8 438 1110011101 7 510 0111001101 6 574

1000010110 4 578 1101001001 5 634 1100110011 6 690


0110110110 6 584 1110111111 9 643 1010111101 7 697
1000101100 4 588 0110110110 6 649 1010111110 7 704
1011011101 7 595 1000001000 2 651 1111111111 10 714
1100110110 6 601 1000011000 3 654 0011011110 6 720
1111011010 7 608 0111001011 6 660 0111111110 8 728
0001000110 3 611 1100010100 4 664 1001111101 7 735
0001110001 4 615 0101110110 6 670 0100111101 6 741
1111100111 8 623 1111111001 8 678 0100110101 5 746
0010111110 6 629 0000111111 6 684 1110101010 6 752

38 Ch. Suquet, LFGN


Tableau des fréquences observées

10k 0 10 20 30 40 50 60 70 80 90
0,600 0,650 0,600 0,625 0,600 0,583 0,571 0,575 0,611
100 0,600 0,627 0,633 0,623 0,629 0,607 0,606 0,606 0,617 0,616
200 0,615 0,624 0,627 0,630 0,629 0,628 0,623 0,619 0,618 0,610
300 0,610 0,613 0,609 0,606 0,609 0,603 0,600 0,600 0,605 0,610
400 0,610 0,612 0,614 0,614 0,609 0,609 0,615 0,615 0,619 0,614
500 0,618 0,618 0,619 0,621 0,620 0,622 0,621 0,619 0,621 0,624
600 0,622 0,621 0,626 0,627 0,625 0,628 0,624 0,621 0,622 0,623
700 0,626 0,625 0,626 0,629 0,628 0,625 0,628 0,632 0,635 0,637
800 0,637 0,640 0,635 0,635 0,636 0,634 0,634 0,636 0,637 0,638
900 0,638 0,635 0,635 0,632 0,633 0,633 0,633 0,630 0,628 0,629
1000 0,629 0,628 0,630 0,630 0,626 0,623 0,623 0,621 0,620 0,622
1100 0,622 0,622 0,622 0,623 0,626 0,626 0,628 0,628 0,628 0,627
1200 0,627

Courbe des fréquences observées

0.8

0.75

0.7

0.65

0.6

0.55

0.5

0.45

0.4
0 200 400 600 800 1000 1200

Ch. Suquet, LFGN 39


Annexe B. L’aiguille de Buffon1

40 Ch. Suquet, LFGN


Bibliographie

[1] P. Barbe et M. Ledoux. Probabilité. Espaces 34, Belin, 1998.


[2] P. Billingsley. Probability and measure. Wiley, third edition 1995.
[3] E. Borel. Probabilité et certitude. Que sais-je ? No 445 P.U.F.
[4] D. Bosq et J.-P. Lecoutre. Théorie de l’Estimation Fonctionnelle. Collection
« Économie et Statistiques Avancées », Economica, 1987.
[5] W. Feller. An Introduction to Probability Theory and its Applications, Vol. I.
Wiley.
[6] W. Feller. An Introduction to Probability Theory and its Applications, Vol. II.
Wiley.
[7] D. Foata et A. Fuchs. Calcul des Probabilités. Dunod, 1998.
[8] J.-Y. Ouvrard. Probabilités tome 2, Maı̂trise–Agrégation. Cassini, 2000.
[9] D. Revuz. Probabilités. Hermann, 1997.
[10] W. F. Stout. Almost sure convergence. Academic Press, 1974.
[11] P. S. Toulouse. Thèmes de Probabilités et Statistique. Dunod, 1999.
[12] Williams Probability with martingales. Cambridge University Press, Cambridge
(1991).

41

Vous aimerez peut-être aussi