0% ont trouvé ce document utile (0 vote)

29 vues42 pages

LFGN

loi fort des grands nombres

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

29 vues42 pages

LFGN

loi fort des grands nombres

Transféré par

Yassine Lachhab

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université des Sciences et Technologies de Lille

U.F.R. de Mathématiques Pures et Appliqu%’ees

Bât. M2, F-59655 Villeneuve d’Ascq Cedex

Lois des grands nombres

Charles SUQUET

2003–2004
Lois des grands nombres

Notations usuelles : les Xk sont des variables aléatoires réelles indépendantes et

n
X
Sn := Xk .
k=1

On s’intéresse à la convergence des moyennes n−1 Sn . En préambule, il convient de men-

tionner la loi du zéro-un de Kolmogorov.

Théorème 1 (Loi 0-1) Soit (Xk ) une suite de variables aléatoires indépendantes. On
définit sa tribu d’événements asymptotiques
\
F∞ := σ(Xk ; k ≥ n).
n∈N

Si A ∈ F∞ , P (A) = 0 ou P (A) = 1.

Preuve : Voir Billingsley [2], Barbe Ledoux [1], Revuz [9].

L’évènement {Sn /n converge } est dans F∞ , on sait donc dès la départ que sa pro-
babilité vaut zéro ou 1. Dans le cas où elle vaut 1, la variable aléatoire limite S est
F∞ -mesurable. En particulier pour tout x ∈ R, {S ≤ x} ∈ F∞ . Donc P (S ≤ x) = 0 ou
1. Ceci implique que la fonction de répartition de S est de la forme F = 1[c,+∞[ pour
une certaine constante c. Autrement dit, S = c p.s., la limite lorsqu’elle existe ne peut
être qu’une v.a. constante.

1 Cas des variables aléatoires bornées

1.1 Une inégalité exponentielle
Théorème 2 On suppose les variables aléatoires réelles Xk indépendantes et identi-
quement distribuées, centrées (IE X1 = 0) et bornées (∃c > 0; |X1 | ≤ c p.s.). Alors
S
n
ε2
∀ε > 0, P ≥ ε ≤ 2 exp −n 2 . (1)
n 2c

1
Commentaires : Pour comprendre la signification de ce théorème, comparons avec ce
que √l’on obtient lorsque les Xk sont gaussiennes N (0, 1). Dans√ce cas, la loi de Sn∗ :=
Sn / n est aussi N (0, 1), d’où P (|Sn |/n ≥ ε) = P (|Sn∗ | ≥ ε n) ≤ exp(−nε2 /2) en
utilisant l’inégalité élémentaire 1 P (|X| ≥ t) ≤ exp(−t2 /2) pour tout t > 0 lorsque
X ∼ N (0, 1). Ainsi lorsque les Xk sont bornées, le comportement asymptotique de Sn
est analogue à celui du cas gaussien. [ Par ailleurs, le théorème central limite nous fait
pressentir qu’on ne peut espérer mieux. Remarquer aussi que chaque Sn est une v.a.
bornée, mais que la suite (Sn ) n’est pas bornée p.s.]. On pourra trouver le théorème 2
dans Ouvrard [8, Ex. 10.11, p. 132] ou Toulouse [11, Th. 1.4, p. 14].
Preuve : L’idée est d’exploiter l’existence de moments exponentiels IE exp(tSn ) en fai-
sant de l’optimisation par rapport au paramètre t. On remarque d’abord que pour tout
t > 0,
S
n
≥ ε = P (tSn ≥ ntε) = P exp(tSn ) ≥ entε .

P
n
L’inégalité de Markov puis l’indépendance et l’équidisdribution des Xi nous donnent
alors : S IE exp(tS )
n n n
P ≥ε ≤ = e−ntε IE exp(tX1 ) . (2)
n exp(ntε)
Ceci nous amène à chercher une bonne majoration de IE exp(tX1 ). En représentant tout
x ∈ [−c, c] sous la forme x = −cu + c(1 − u) avec u ∈ [0, 1], la convexité de exp(t.) : x 7→
exp(tx) nous donne
exp(tx) ≤ ue−ct + (1 − u)ect . (3)
En appliquant le paramétrage de [−c, c] à x = X1 (ω) avec le u = U (ω) correspondant,
on voit que la variable aléatoire U vérifie 2U = 1 − X1 /c, d’où IE U = 1/2 puisque
IE X1 = 0. Compte tenu de (3), il vient

IE exp(tX1 ) ≤ IE U e−ct + (1 − IE U )ect = ch(ct). (4)

En raison de l’exposant n dans le deuxième membre de (2), il est commode de majorer

ch(ct) par une exponentielle bien choisie. Le développement en série entière
+∞
c2 t2 X (ct)2k
ch(ct) = 1 + +
2 k=2
(2k)!

nous suggère de choisir exp(c2 t2 /2). L’inégalité

ch(ct) ≤ exp(c2 t2 /2), ∀t ∈ R, (5)

peut se vérifier en comparant terme à terme les développements en série entière. En effet

(ct)2k 1 c2 t2 k 1 1
≤ ⇔ ≤ k ⇔ 2k ≤ (k + 1)(k + 2) · · · (k + k)
(2k)! k! 2 (2k)! 2 k!
1
R +∞ dx
Par changement de variable x = t + u dans P (X ≥ t) = t
exp(−x2 /2) 2π et exp(−ut) ≤ 1. . .

2 Ch. Suquet, LFGN

1. Cas des variables aléatoires bornées

et cette dernière inégalité est clairement vérifiée dès que k ≥ 1. En revenant à (2), on
a donc montré que pour tout t > 0, P (n−1 Sn ≥ ε) ≤ exp(−ntε + nc2 t2 /2). Comme le
premier membre de cette inégalité ne dépend pas de t, on optimise en écrivant

−1 2 2 2 2
P (n Sn ≥ ε) ≤ inf exp(−ntε + nc t /2) = exp n inf (−tε + c t /2) .
t>0 t>0

Le minimum étant atteint en t = ε/c2 , on obtient

S
n
ε2
∀ε > 0, P ≥ ε ≤ exp −n 2 . (6)
n 2c
En remplaçant Xk par −Xk dans la démonstration précédente on a immédiatement
S
n
ε2
∀ε > 0, P ≤ −ε ≤ exp −n 2 , (7)
n 2c
ce qui joint à (6), donne (1).
Comme sous-produit de la démonstration précédente, on a établi au passage le ré-
sultat suivant (noter que la convexité de x 7→ exp(tx) ne dépend pas du signe de t).

Lemme 3 Si IE X = 0 et s’il existe c constante telle que P (|X| ≤ c) = 1, alors

c2 t2
∀t ∈ R, IE exp(tX) ≤ exp . (8)
2

1.2 LFGN pour des variables aléatoires i.i.d. bornées

Le théorème 2 donne facilement 2 la loi forte des grands nombres suivante par une
simple utilisation du premier lemme de Borel-Cantelli et la discrétisation du ε.
Théorème 4 Soit (Xk )k≥1 une suite de variables aléatoires indépendantes, de même loi
telle que pour une constante c, |X1 | ≤ c presque sûrement. Alors
Sn
→ IE X1 p.s. (9)
n
Une application importante de ce théorème est la convergence des fréquences de suc-
cès dans une suite d’épreuves répétées de Bernoulli indépendantes. Ce résultat explique
a posteriori l’appoche fréquentiste dans la définition d’une probabilité. À titre d’exemple
historique, on peut mentionner le problème de l’aiguille de Buffon. Le théorème 4 a une
traduction statistique fondamentale : il permet de justifier la convergence de la fonction
de répartition empirique. Considérons une suite (Yk ) de variables aléatoires indépen-
dantes et de même loi de fonction de répartition F . On définit la fonction de répartition
empirique Fn construite sur l’ échantillon Y1 , . . . , Yn par
n
1X
Fn (x) := 1{Yk ≤x} , x ∈ R. (10)
n k=1
2
Pour une preuve détaillée, voir Th. 23 dans l’annexe A.

Ch. Suquet, LFGN 3

Le théorème 4 appliqué aux variables aléatoires bornées Xk = 1{Yk ≤x} nous donne immé-
diatement pour tout x ∈ R la convergence presque sûre de Fn (x) vers F (x) en remarquant
que IE X1 = P (Y1 ≤ x) = F (x). Ainsi une loi inconnue peut être reconstituée approxi-
mativement à partir de l’observation d’un échantillon de grande taille. En fait, on peut
obtenir mieux que la convergence simple presque sûre de Fn vers F .

Théorème 5 (Glivenko-Cantelli) Soit (Yk ) une suite de variables aléatoires indépen-

dantes, de même loi et (Fn ) la suite de fonctions de répartition empiriques associées.
Alors
kFn − F k∞ := sup |Fn (x) − F (x)| → 0, p.s. (11)
x∈R

Preuve : Voir Billingsley [2], Th. 20.6 p. 269. Voir aussi Ouvrard [8] pp. 115–121 incluant
une digression sur le test de Kolmogorov-Smirnov dans le cas non asymptotique (n petit).

La LFGN pour des variables aléatoires bornées donne aussi immédiatement la conver-
gence presque sûre des fonctions caractéristiques empiriques.

Proposition 6 Soit (Yk ) une suite de vecteurs aléatoires dans Rd , indépendants et de

même loi de fonction caractéristique ϕ définie par ϕ(u) := IE exp(ihu, Y1 i), u ∈ Rd . Alors
la fonction caractérisitique empirique
n
1X
ϕn (u) := exp(ihu, Yk i)
n k=1

converge ponctuellement presque sûrement sur Rd vers ϕ.

Preuve : Il suffit d’appliquer le théorème 4 aux variables aléatoires Xk0 = cos(hu, Yk i)

et Xk00 = sin(hu, Yk i).

1.3 Autres applications et illustrations du cas borné

1.3.1 Entonnoirs déterministes pour les fréquences
L’inégalité exponentielle (1) permet une approche « quantitative » de la convergence
p.s.
P des moyennes Sn /n. En effet, (1) nous donne un contrôle explicite du reste de série
k>n P (|Sk /k| > ε). En prenant ε = εn tendant vers 0 à une vitesse adéquate, on peut
avec une probabilité 1 − δ, encadrer Sn /n à partir d’un rang déterministe n0 = n0 (δ)
et ce jusqu’à l’infini entre les deux suites déterministes IE X1 − εn et IE X1 + εn . Pour
préciser cette idée, nous allons considérer le cas où Sn suit la loi binomiale Bin(n, p). En
vue des simulations, on va d’abord donner une version affinée du théorème 2, en effet
la constante c dans (1) intervenant à l’intérieur de l’exponentielle, il n’est pas du tout
indifférent en pratique de pouvoir la minimiser.

4 Ch. Suquet, LFGN

1. Cas des variables aléatoires bornées

Théorème 7 Si les Xk sont indépendantes, identiquement distribuées et s’il existe des

constantes a et b telles que P (a ≤ X1 ≤ b) = 1, alors
S − IE S
n n
2ε2
∀ε > 0, P ≥ ε ≤ 2 exp −n . (12)
n (b − a)2
Remarquons qu’avec des bornes symétriques a = −c et b = c, on retrouve exactement
(1). Le gain est dans le cas non symétrique (pour le voir, comparer les majorants fournis
par (1) et (12) lorsque X1 suit une loi de Bernoulli de paramètre p 6= 1/2). La preuve
est tout à fait analogue à celle du théorème 2, le seul point méritant d’être explicité est
la version améliorée du lemme 3 que l’on pourra trouver dans [4, Th. I.2 p. 41].
Lemme 8 Si la variable aléatoire réelle X est telle que P (a ≤ X ≤ b) = 1,
(b − a)2 t2
∀t ∈ R, IE exp t(X − IE X) ≤ exp . (13)
8
Preuve : Comme le majorant cherché ne dépend des bornes a et b que par b − a, on ne
perd pas de généralité en se ramenant au cas où IE X = 0 (celà revient à remplacer a
par a0 = a − IE X, b par b0 = b − IE X et ne change pas le résultat final). De plus, quitte
à remplacer t par (b − a)t et X par X/(b − a), on voit qu’il suffit de prouver le résultat
pour b − a = 1. L’argument de convexité utilisé pour obtenir (4) donne ici :
IE exp(tX) ≤ b exp(at) − a exp(bt) =: f (t)

(noter que comme IE X = 0, a ≤ 0 et b ≥ 0). Posons g(t) := ln f (t) . Pour montrer que
f (t) ≤ exp(t2 /8), on va vérifier que g 00 (t) ≤ 1/4. On obtient successivement
eat − ebt
g 0 (t) = ab ;
f (t)
00 (−a2 − b2 + 2ab)e(a+b)t
g (t) = ab
(beat − aebt )2
−ab e(a+b)t
= .
(beat − aebt )2
L’inégalité (x + y)2 ≥ 4xy avec x = −a exp(bt) et y = b exp(at) donne g 00 (t) ≤ 1/4.
Comme g 0 (0) = 0 et g(0) = 0, on en déduit par intégration que g(t) ≤ t2 /8.
On peut utiliser l’inégalité (12) pour étudier quantitativement les fluctuations asymp-
totiques de Sn /n autour de IE X1 . Pour simplifier, on suppose désormais a = 0 et b = 1.
On vérifie alors facilement (faites le !) que pour tout entier N ≥ 2 et tout α > 1/2,
S r α ln k 2
k
P ∀k > N, − IE X1 ≤ ≥1− N 1−2α . (14)

k k 2α − 1
Par exemple avec α = 1,
r r
ln k Sk ln k
P ∀k > 200, IE X1 − ≤ ≤ IE X1 − ≥ 0, 99.
k k k

Ch. Suquet, LFGN 5

1.2

1.1

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2
0 4e3 8e3 12e3 16e3 20e3 24e3 28e3 32e3

Figure 1.1 – Entonnoir pour X1 ∼ Ber(0.7) et α = 1

0.74

0.73

0.72

0.71

0.70

0.69

0.68

0.67

0.66

0.65
200 400 600 800 1000 1200 1400

Figure 1.2 – Zoom sur l’entonnoir de la figure 1.1

6 Ch. Suquet, LFGN

1. Cas des variables aléatoires bornées

La représentation graphique nous donne un entonnoir déterministe qui avec une

probabilité d’au moins 0, 99 encadre jusqu’à l’infini la ligne polygonale de sommets
(k, Sk /k). Les figures 1.1 et 1.2 ont été réalisées à partir d’un échantillon simulé de taille
32 000 ( voir TP en Scilab).

1.3.2 Nombres normaux de Borel et mesures singulières

Thème assez classique, que l’on retrouve dans de nombreux ouvrages, par exemple
[1, ex. 6.14 p. 154].
Ex 1.3.1
P Les Xk sont des v.a. de Bernoulli indépendantes de même paramètre p. La
−k
série k≥1 2 Xk convergeant p.s. (pourquoi ?), on note U sa somme. La loi de cette
variable aléatoire U qui Pest donc une mesure de probabilité sur [0, 1] sera notée µp . Pour
x réel de [0, 1], on note k≥1 xk 2−k son développement propre en base 2.
1) En utilisant la loi forte des grands nombres pour les fréquences, montrer que
pour µp -presque tout x de [0, 1], la proportion de 1 dans le développement propre de x
en base 2 tend vers p. En déduire que les lois µp sont étrangères les unes aux autres.
2) Montrer que µ1/2 est la mesure de Lebesgue P (ou loi−kuniforme) sur [0, 1]. Indica-
tion : calculer la fonction caractéristique de Un := 1≤k≤n 2 Xk , en utilisant l’identité :
n
Y
sin t = 2 sin(t/2) cos(t/2) = 22 sin(t/4) cos(t/2) cos(t/4) = · · · = 2n sin(2−n t) cos(2−k t).
k=1

3) On suppose 0 < p < 1. Montrer que la mesure µp n’a pas de masse ponctuelle
(∀x ∈ [0, 1], µp ({x}) = 0). On a ainsi construit une infinité de mesures singulières à
fonctions de répartition continues.

Ch. Suquet, LFGN 7

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Figure 1.3 – Fonction de répartition de U pour p = 3/4

1.3.3 Vitesse de convergence des polynômes de Bernstein

Thème un peu à la limite de cette leçon, donné sous forme d’exercices.
Ex 1.3.2 Une preuve probabiliste d’un théorème d’analyse
Le but de cet exercice est de présenter une démonstration probabiliste d’un célèbre
théorème d’analyse (Bernstein-Weierstrass-Stone) : toute fonction continue sur [0, 1] est
limite uniforme sur cet intervalle d’une suite de polynômes. La méthode utilisée ici est
due à Bernstein et donne une construction explicite de la suite de polynômes. Les trois
dernières questions sont consacrées à la vitesse de convergence. On note C[0, 1] l’espace
des fonctions continues sur [0, 1] muni de la norme :

kf k∞ = sup |f (x)|.
x∈[0,1]

La convergence suivant cette norme n’est autre que la convergence uniforme. Si f ∈

C[0, 1], on définit son polynôme de Bernstein d’ordre n par :
n
X k
Bn f (x) = Cnk f xk (1 − x)n−k , n ≥ 1.
k=0
n

1) Justifier la relation :
n
X
f (x) = Cnk f (x)xk (1 − x)n−k .
k=0

8 Ch. Suquet, LFGN

1. Cas des variables aléatoires bornées

2) Pour x ∈ [0, 1] fixé, considérons la variable aléatoire Sn de loi binomiale B(n, x).
Vérifier que :
S
n
IE f = Bn f (x).
n
3) Justifier les inégalités :
X
|f (x) − Bn f (x)| ≤ εCnk xk (1 − x)n−k
k:|f (x)−f (k/n)|<ε
X
+ 2kf k∞ Cnk xk (1 − x)n−k
k:|f (x)−f (k/n)|≥ε
S
n
≤ ε + 2kf k∞ P f (x) − f ≥ε . (15)

n
4) La fonction f est uniformément continue sur [0, 1] (pourquoi ?). On a donc :
∀ε > 0, ∃δ > 0, tel que |x − y| < δ ⇒ |f (x) − f (y)| < ε,
δ ne dépendant que de f et ε, mais pas de x. En déduire que
S
n
P f (x) − f ≥ ε ≤ P (|Sn − nx| ≥ nδ),

n
puis en appliquant l’inégalité de Tchebycheff :
S x(1 − x) 1
n
P f (x) − f ≥ε ≤ ≤ .

n nδ 2 4nδ 2
5) En reportant cette majoration dans (15), on obtient finalement :
kf k∞
∀n ≥ 1, ∀x ∈ [0, 1], |f (x) − Bn f (x)| ≤ ε + (16)
2δ 2 n
Conclure.
6) On s’intéresse maintenant à la vitesse de convergence. Supposons d’abord que f
est lipschitzienne : il existe une constante a telle que
∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ a|x − y|.
On peut alors prendre δ = ε/a dans l’écriture de la continuité uniforme de f . En choi-
sissant convenablement ε en fonction de n dans (16), en déduire que kf − Bn f k∞ =
O(n−1/3 ).
7) Plus généralement, on suppose f hölderienne d’exposant α : il existe des constantes
0 < α ≤ 1 et a > 0 telles que :
∀x, y ∈ [0, 1], |f (x) − f (y)| ≤ a|x − y|α .

−α/(2+α)
Montrer qu’alors kf − Bn f k∞ = O n .
Ex 1.3.3 Vitesse de convergence des polynômes de Bernstein
L’inégalité (12) permet d’améliorer les résultats de l’exercice précédent sur la vitesse de

Ch. Suquet, LFGN 9

convergence uniforme des polynômes de Bernstein d’une fonction continue. L’utilisation
de (12) à la place de l’inégalité de Tchebycheff nous donne en effet la majoration :

kf − Bn f k∞ ≤ ε + 4kf k∞ exp(−2nδ 2 ). (17)

1) On suppose f lipschitzienne. Vérifier que le choix ε = cn−β dans (17) donne une
vitesse de convergence en O(n−β ) pour tout β < 1/2, mais que la même méthode ne
permet pas d’obtenir la vitesse O(n−1/2 ).
2) Toujours avec f lipschitzienne, comment choisir c minimal pour obtenir avec
ε = c(ln n/n)1/2 la vitesse O (ln n/n)1/2 ?
3) On suppose maintenant f hölderienne d’exposant
α. Montrer qu’avec un choix
α/2
judicieux de ε, on obtient la vitesse O (ln n/n) .

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

p
Figure 1.4 – Fonctions f , B10 f et B200 f , pour f (t) = |2t − 1|

10 Ch. Suquet, LFGN

2. Une loi faible des grands nombres

2 Une loi faible des grands nombres

La version naı̈ve de la loi faible des grands nombres présente la convergence en pro-
babilité de Sn /n vers IE X1 comme un corollaire immédiat de l’inégalité de Tchebycheff.
Ceci a l’inconvénient de supposer l’existence d’un moment d’ordre 2 pour X1 (d’ailleurs
c’est en fait la convergence L2 que l’on obtient) 3 . La version de la loi faible étudiée
ci-dessous suppose seulement l’existence de l’espérance de X. On suit l’approche de
Toulouse [11]. On pourra consulter également Foata Fuchs [7, p. 227–228] pour une
version plus générale supposant seulement l’indépendance 2 à 2 et l’existence de IE X1 .

Lemme 9 Soit X une variable aléatoire d’espérance nulle. Pour tout δ > 0, il existe
une variable aléatoire bornée Y telle que IE Y = 0 et IE |X − Y | ≤ δ.

Preuve : Comme l’espérance de X existe, IE |X| est fini et par convergence dominée,
limt→+∞ IE |X|1{|X|>t} = 0. Ceci nous fournit un t tel que

δ
IE |X|1{|X|>t} < .
2
On pose alors Z := X1{|X|≤t} et Y := Z − IE Z. Clairement |Y | ≤ 2t et IE Y = 0. D’autre
part comme X = Z + X1{|X|>t} ,
δ
IE |X − Y | = IEX1{|X|>t} + IE Z ≤ + | IE Z|.
2
La construction de Z nous assure que IE Z diffère de IE X d’au plus δ/2 :
δ
| IE X − IE Z| = IE X1{|X|>t} ≤ IE |X|1{|X|>t} < .
2
Comme IE X = 0, on en déduit | IE Z| < δ/2 et IE |X − Y | < δ.
Notons que la variable bornée Y peut s’écrire Y = fδ (X), où

fδ (x) = x1[−t,t] (x), x ∈ R.

La fonction mesurable fδ ne dépend que de δ et de la loi de X (via le choix de t).

Théorème 10 Si (Xk ) est une suite de v. a. réelles i.i.d. et si IE |X1 | < +∞, n−1 Sn
converge dans L1 (Ω) vers IE X1 (et donc aussi en probabilité).

Commentaires : Ce théorème n’est pas un simple corollaire de la LFGN de Kolmogorov-

Khintchine (th. 11 ci-dessous) puisque la convergence p.s. implique la convergence en
probabilité, mais n’implique pas la convergence dans L1 (Ω). La preuve de cette LFGN
par les martingales permet d’obtenir les deux convergences p.s. et L1 (Ω), cf. Williams
[12, chap. 14].
3
L’avantage de cette méthode est que l’indépendance deux à deux ou plus généralement l’orthogo-
nalité des Xk suffit.

Ch. Suquet, LFGN 11

Preuve : Par centrage, on se ramène au cas où IE X1 = 0. Fixons δ > 0. Par le lemme 9,
les variables aléatoires Yk := fδ (Xk ), forment une suite i.i.d. de variables bornées (
|Yk | ≤ 2t), d’espérances nulles et telles que IE |Xk − Yk | < δ pour tout k ≥ 1. Posons
n
X
Tn := Yk , n ≥ 1.
k=1

Par le théorème 4, n−1 Tn converge p.s. vers 0. Ceci joint à l’inégalité |n−1 Tn | ≤ 2t nous
donne par convergence dominée :
T
n
lim IE = 0.
n→+∞ n
Par ailleurs,
S n
n Tn 1 X

IE − ≤ |Xk − Yk | ≤ δ.
n n n k=1

On en déduit S T
n n
IE ≤ IE + δ,
n n
puis
S
n
lim sup IE ≤ 0 + δ.
n→+∞ n
Cette inégalité étant valable pour tout δ > 0 et le premier membre ne dépendant pas de
δ, il en résulte que
S
n
lim sup IE = 0.
n→+∞ n
Ceci peut se reécrire limn→+∞ IE |n−1 Sn | = 0, ce qui est exactement la convergence dans
L1 de n−1 Sn vers 0.

3 Lois fortes des grands nombres

On discute dans cette section les lois fortes des grands nombres dans le cas général
où les Xk ne sont pas supposées bornées.

3.1 Cas i.i.d.

Théorème 11 (Kolmogorov-Khintchine) Si (Xk ) est une suite de variables aléa-
toires réelles i.i.d.,
Sn
converge p.s. ⇔ IE |X1 | < +∞. (18)
n
Lorsqu’il y a convergence, la limite est IE X1 .

12 Ch. Suquet, LFGN

3. Lois fortes des grands nombres

Pour la partie IE |X1 | finie implique n−1 Sn converge p.s. vers IE X1 , une bonne ré-
férence est Billingsley [2, Th. 22.1]. On peut aussi voir Revuz [9] pour l’équivalence
(méthode inspirée de techniques de martingales. On peut proposer à la démonstration
la nécessité de IE |X1 | fini que nous détaillons ci-dessous (cf. Barbe Ledoux [1, Th. 5.2,
p. 140]).
Preuve de la nécessité de l’intégrabilité de X1 : Par hypothèse, il existe une
constante c telle que n−1 Sn converge p.s. vers c. Alors
Xn Sn − Sn−1 Sn n − 1 Sn−1 p.s.
= = − × −−−−−→ c − c = 0.
n n n n n − 1 n→+∞
En fixant ε > 0, on en déduit
n |Xn (ω)| o
P ω ∈ Ω; ∃n0 = n0 (ω), ∀n ≥ n0 , < ε = 1,
n
soit en passant au complémentaire
n |X | o
n
P ≥ ε une infinité de fois = 0.
n
Par le second lemme de Borel Cantelli 4 on a alors
X n |Xn | o
P ≥ ε < +∞.
n≥1
n

Les Xi ayant même loi, ceci s’écrit

+∞
X
P (|X1 | ≥ nε) < +∞. (19)
n=1

Pour finir la preuve, on observe que

X+∞
IE |X1 | ≤ IE (n + 1)ε1{nε≤|X1 |<(n+1)ε}
n=0
+∞
X
= (n + 1)εP (nε ≤ |X1 | < (n + 1)ε)
n=0
+∞
X
= ε P (nε ≤ |X1 |) < +∞,
n=0

la dernière ligne s’obtenant par sommation triangulaire à partir des décompositions en

unions disjointes [
{|X1 | ≥ nε} = {nε ≤ |X1 | < (n + 1)ε}.
k≥n

4
P
Si (An )n≥1 est une suite d’événements indépendants telle que n≥1 P (An ) = +∞, alors
P (lim supn→+∞ An ) = 1.

Ch. Suquet, LFGN 13

3.2 LFGN sans équidistribution
Théorème 12 (Kolmogorov) Soit (Xk ) une suite de variables aléatoires indépen-
dantes vérifiant :
a) pour tout k ≥ 1, IE Xk2 < +∞ ;
b) il existe une suite (ak ) de réels strictement positifs qui tend en croissant vers +∞
telle que
+∞
X Var Xk
2
< +∞.
k=1
a k

Alors (Sn −IE Sn )/an converge presque sûrement vers 0. Si de plus a−1
n IE Sn → m, Sn /an
converge p.s. vers m.

Les conditions de moments d’ordre 2 sont plus sévères qu’au théorème 11, mais il faut
noter qu’on ne suppose plus les Xk de même loi. Une bonne référence pour la preuve de
ce théorème est Feller [6], VII.8, Th. 2 et 3. On peut esquisser le schéma de la preuve
qui repose sur les trois résultats suivants dont chacun a son intérêt propre.

Théorème 13 (Inégalité maximale de Kolmogorov) Si les Xk sont indépendantes,

centrées et de carrés intégrables
1
∀t > 0, P max |Sk | ≥ t ≤ 2 Var Sn .
1≤k≤n t

Preuve : Voir Billingsley [2], Th. 22.4 p. 287 ou Ouvrard [8], Th. 10.13 p. 101.
Cette inégalité pour les maxima des sommes partielles permet d’établir une condition
suffisante de convergence p.s. d’une série de v.a. indépendantes.

Théorème 14 Si les Yk sont indépendantes, centrées et si k≥1 IE Yk2 < +∞, alors
P
P+∞
k=1 Yk converge p.s.

Preuve : Voir Billingsley [2], Th. 22.6 p. 289 ou Feller [6], VII.8, Th. 2.
À ce stade, l’hypothèse b) du théorème 12 nous donne la convergence presque sûre
de la série de terme général (Xk − IE Xk )/ak . On complète la preuve du théorème 12
grâce au lemme d’analyse suivant.

Lemme 15 (Kronecker) Soient (xk ) une suite de réels et P(a k ) une suite de réels stric-
+∞
tement positifs qui tend en croissant vers +∞, telles que k=1 xk /ak converge. Alors
n
1 X
xk → 0.
an k=1

Preuve : Voir Feller [6], VII.8, Lemme 1 ou Ouvrard [8] Lemme 10.16 p. 105 qui note
xk ce que nous avons noté xk /ak .

14 Ch. Suquet, LFGN

4. Fluctuations des sommes partielles

Il est intéressant de regarder ce que donne le théorème 12 dans le cas i.i.d.

Corollaire 16 Si les v.a. Xk sont i.i.d., centrées et de carrés intégrables,

Sn
√ → 0, p.s., (20)
n(ln n)β

pour tout réel β > 1/2.

Preuve : Choisir ak = k 1/2 (ln k)β dans le théorème 12.

La signification de ce corollaire est que si IE X12 < +∞, on a une vitesse de conver-
gence dans la LFGN de Kolmogorov-Khintchine : en effet on peut alors écrire n−1 Sn (ω) =
εn (ω)n−1/2 (ln n)β , avec εn → 0 presque sûrement. Remarquons qu’on ne peut espérer
supprimer √ le facteur logarithmique dans (20) puisque qu’en raison du théorème central
limite Sn / n ne tend pas vers 0 en loi.

4 Fluctuations des sommes partielles

La loi forte des grands nombres nous donne dans le cas i.i.d. l’estimation Sn −IE Sn =
o(n) avec probabilité 1. On a vu avec le corollaire 16 que s’il y a un moment d’ordre 2
cette estimation peut être améliorée. On examine plus précisément dans cette section la
relation entre l’intégrabilité de X1 et les fluctuations asymptotiques de Sn . Une bonne
référence pour toute cette section est Stout [10], p. 126–137.

Théorème 17 (LFGN de Marcinkiewicz) Soit (Xk )k≥1 une suite de variables aléa-
toires i.i.d.
Sn p.s.
a) Si IE |X1 |p < +∞ pour un p ∈]0, 1[, 1/p −−−−−→ 0.
n n→+∞
S n − n IE X1 p.s.
b) Si IE |X1 |p < +∞ pour un p ∈ [1, 2[, −−−−−→ 0.
n1/p n→+∞
Sn − bn p.s.
c) S’il existe un p ∈]0, 2[ et une suite de constantes (bn ) tels que −−−−−→ 0,
n1/p n→+∞
p
alors IE |X1 | < +∞.

Commentaires : On notera l’exclusion du cas p = 2 (et a fortiori p > 2) en liaison avec

le théorème de limite centrale. La LFGN de Marcinkiewicz dans le cas 1 < p < 2 donne
une vitesse de convergence dans la LFGN de Kolmogorov-Khintchine (pourquoi ?).
Lorsque X1 a un moment d’ordre 2, on a un résultat très précis sur les fluctuations
de Sn − IE Sn , c’est le théorème suivant connu sous le nom loi du log itéré.

Théorème 18 (Hartman Wintner, 1941) On suppose les Xk i.i.d. et de carré inté-

grable. On note σ 2 = Var X1 (σ > 0). Alors presque sûrement,

Sn − IE Sn Sn − IE Sn
lim inf √ = −1 et lim sup √ = +1.
n→+∞ σ 2n log log n n→+∞ σ 2n log log n

Ch. Suquet, LFGN 15

Commentaires : Ce théorème signifie que presque sûrement pour tout c ∈]0, 1[, la
suite des Sn − IE Sn sortira
√ une infinité de
√ fois par le bas et une infinité de fois par le
haut du segment [ −cσ 2n log log n, +cσ 2n log log √ n ] et qu’elle restera
√ définitivement
0 0
à partir d’un certain rang (aléatoire) dans [ −c σ 2n log log n, +c σ 2n log log n ] pour
tout c0 > 1. La loi du log itéré nous donne avec probabilité 1 des entonnoirs déterministes
de la forme
r r
2 log log k S k 2 log log k
IE X1 − c0 σ ≤ ≤ IE X1 + c0 σ ,
k k k

pour tout k ≥ N avec N aléatoire et nous dit que ces entonnoirs sont les meilleurs pos-
sibles. Les entonnoirs déterministes du type (14) obtenus par des techniques élémentaires
dans le cas des variables bornées sont asymptotiquement moins précis. Ils ont néanmoins
l’avantage de donner un résultat quantitatif avec un N déterministe. Une très bonne lec-
ture pour la loi du log itéré dans le cas du jeu de pile ou face est le chapitre 19 de Foata
Fuchs [7]. Enfin on notera que la loi du log itéré fournit un exemple « naturel » de suite
qui converge en probabilité mais pas presque sûrement. En effet, en raison du théorème
de limite centrale, on vérifie (exercice !) que

S − IE Sn Pr
√n −−−−−→ 0.
σ 2n log log n n→+∞

5 Applications
5.1 La méthode de Monte Carlo
La loi des grands nombres fournit une méthode de calcul approché d’intégrales, in-
téressante lorsque la fonction à intégrer est très irrégulière ou lorsque la dimension de
l’espace est élevée. Supposons que l’on veuille effectuer un calcul approché de
Z
I := f (x) dx,
[0,1]d

où f est Lebesgue intégrable sur [0, 1]d . Soit (Ui )i≥1 , une suite de variables aléatoires
indépendantes de même loi uniforme sur [0, 1]. On déduit facilement de la LFGN de
Kolmogorov-Khintchine que :
n Z
1X p.s.
f U(k−1)d+1 , U(k−1)d+2 , . . . , Ukd −−−−−→ IE f (U1 , . . . , Ud ) = f (x) dx.
n k=1 n→+∞ [0,1]d

Le théorème de limite centrale permet ensuite d’obtenir un intervalle de confiance

pour I si l’on a des hypothèses supplémentaires permettant de contrôler la variance
de f (U1 , . . . , Ud ), par exemple f bornée. . .

16 Ch. Suquet, LFGN

5. Applications

5.2 Estimation de paramètres

La LFGN permet de définir des estimateurs convergents de paramètres d’une loi in-
connue µ (ou partiellement inconnue, par exemple on sait qu’il s’agit d’une loi de Poisson
paramètre α dont on ignore la valeur). Pour cela on utilise une suite d’observations in-
dépendantes X1 (ω), . . . , Xn (ω) où
R les Xi sont i.i.d. de même loi µ. On souhaite estimer
un paramètre θ de la forme θ = R H dµ. L’idée est de remplacer la mesure déterministe
mais inconnue µ par la mesure aléatoire µn calculable à partir des observations :
n
1X
µn = δX .
n i=1 i
Cette mesure est appelée mesure empirique. La fonction de répartition empirique déjà
vue en (10) est simplement sa fonction de répartition : Fn (x) = µn (]−∞, x]). On propose
d’estimer θ par
Z n
1X
θn :=
b H dµn = H(Xi ).
R n i=1
La définition de θ suppose implicitement que H est µ intégrable. Cette intégrabilité
s’écrit encore IE |H(X1 )| < +∞. Ainsi par la loi forte des grands nombres,
Z
p.s.
θn −−−−−→ IE H(X1 ) =
b H dµ = θ.
n→+∞ R

On dit que θbn est une estimateur fortement consistant de θ. Il est aussi sans biais puisque
IE θbn = θ.
Cette méthode
R permet notamment d’estimer les moments de µ : en prenant H(x) =
r r r
x , θ = IE X1 = R x µ( dx). Le cas r = 1 revêt une importance particulière. L’estimateur
θbn est alors simplement la moyenne empirique
n
1X
X̄n := Xi .
n i=1
On peut ainsi estimer notamment
– le paramètre p d’une loi de Bernoulli car IE X1 = p ;
– le paramètre α d’une loi de Poisson car IE X1 = α ;
– le paramètre m d’une loi N (m, σ 2 ) car IE X1 = m ;
– le paramètre θ d’une loi uniforme 5 sur [0, θ] car θ = 2 IE X1 .
Dans le même ordre d’idées, on peut estimer le paramètre a d’une loi exponentielle de
densité f (t) = a exp(−at)1R+ (t) par θ̃n = 1/X̄n . En effet, IE X1 = 1/a. On garde un
estimateur fortement consistant, mais il n’est plus sans biais car IE(1/X̄n ) 6= 1/ IE X1 .
On peut de même estimer la variance σ 2 d’une loi µ d’espérance connue m. Il suffit
de prendre H(x) = (x − m)2 et on obtient l’estimateur fortement consistant et sans biais
n
1X
θbn = (Xi − m)2 .
n i=1
5
En fait dans ce cas, un meilleur estimateur est θ̃n = max1≤i≤n Xi , affaire à suivre. . .

Ch. Suquet, LFGN 17

Quand m est inconnu, on l’estime par X̄n et la variance σ 2 est estimée par la variance
empirique
n n X n 2
1X 2 1X 2 1
Vn = (Xi − X̄n ) = X − Xi ,
n i=1 n i=1 i n i=1
la dernière égalité résultant simplement de la formule de Koenig pour la variance de la loi
de probabilité µn (ω) qui est exactement Vn (ω). On a toujours un estimateur fortement
consistant par la LFGN, par contre il n’est plus qu’asymptotiquement sans biais puisque :
X n 2
2 1 n−1 2
IE Vn = IE X1 − IE Xi = · · · = σ .
n i=1 n
Ceci explique pourquoi pour les petites valeurs de n on préfère l’estimateur sans biais
n 2
V noté souvent σn−1
n−1 n
par un de ces abus d’écriture qui font le charme si particulier
de la littérature statistique. . .

5.3 Estimation de la densité par fonctions orthogonales

On va estimer cette fois un paramètre de nature fonctionnelle (donc vivant a priori
dans un espace de dimension infinie) de la loi inconnue µ : sa densité f , en supposant
qu’elle existe et qu’elle est dans L2 (R). Le schéma général de la méthode est le suivant.
On choisit une base hilbertienne (ek )k∈N de L2 (R) et on fixe une version de chaque ek . En
pratique, celà ne pose pas de problème puisque les ek sont des fonctions de Haar ou des
fonctions bien régulières (base trigonométrique si f est à support compact, polynômes
orthogonaux,. . .). On a ainsi
+∞
X Z
f= ak ek , avec ak = ek (t)f (t) dt,
k=0 R

la convergence de la série ayant lieu au sens L2 (R).

On commence par projeter f sur s.e.v.{e0 , . . . , eN }. On obtient ainsi une approxima-
tion déterministe
N
L2
X
fN = ak ek , avec fN −−−−−→ f.
N →+∞
k=0
Des convergences plus fortes sont possibles moyennant des hypothèses de régularité de
f (penser au cas des séries de Fourier).
Ensuite on estime fN en estimant ses N + 1 coefficients ak :
N n
X 1X
fbN := ak,n ek
b où b
ak,n := ek (Xi ).
k=0
n i=1

Il serait plus correct de noter fbN,n , mais dans la suite on fera dépendre N de n, d’où
l’abus de notation. Pour l’instant remarquons que par la LFGN,
Z
p.s.
ak,n −−−−−→ IE ek (X1 ) =
b ek (t)f (t) dt = ak .
n→+∞ R

18 Ch. Suquet, LFGN

5. Applications

Ainsi pour N fixé, fbN converge p.s. vers fN dans L2 (R) (en dimension finie, il suffit pour
cela d’avoir la convergence de chaque composante sur la base).
La suite du jeu consiste à prendre N = N (n) tendant vers +∞ avec n (intuitivement
beaucoup plus lentement) et à discuter le choix de N (n) en fonction d’hypothèses sup-
plémentaires sur f (régularité, intégrabilité,. . .) pour obtenir diverses convergences de
fbN vers f . On pourra consulter à ce sujet Bosq Lecoutre [4, Chap. 9]. On peut envisager
une illustration expérimentale de cette méthode avec Scilab (cf. TP).

Ch. Suquet, LFGN 19

20 Ch. Suquet, LFGN
Annexe A

Loi des grands nombres∗

Les inégalités de moment (Markov, Tchebycheff) ont d’importantes applications à la

convergence de la moyenne arithmétique :
n
1X
Mn = Xi
n i=1

des n premiers termes d’une suite de v.a. indépendantes et de même loi. Ce type de
résultat est connu sous le nom de loi des grands nombres. Nous en donnons un premier
aperçu 1 .

A.1 Deux modes de convergence

Pour commencer, il convient de préciser ce que l’on entend par convergence d’une
suite de variables aléatoires (Xn ) vers une v.a. X. Comme les Xn sont des applications
de Ω dans R, le premier mode de convergence auquel on pense est la convergence pour
tout ω ∈ Ω de la suite de réels Xn (ω) vers le réel X(ω). Ceci correspond à la convergence
simple d’une suite d’applications en analyse. Malheureusement pour le type de résultat
que nous avons en vue, ce mode de convergence est trop restrictif. Pour la loi des grands
nombres, même dans le cas le plus favorable 2 , on ne peut empêcher que la suite étudiée
diverge pour une infinité de ω. Ce qui sauve la situation est que l’ensemble de ces ω a
une probabilité nulle. Ceci nous amène à définir la convergence presque sûre :
Définition 19 (Convergence presque sûre)
Soit (Xn )n≥1 une suite de variables aléatoires et X une v.a. définies sur le même espace
probabilisé (Ω, F, P ). On dit que Xn converge presque sûrement vers X si l’ensemble des
∗
Reproduction du chapitre 6 de Introduction au Calcul des Probabilités, cours de Deug, Ch. Suquet.
1
Seuls sont au programme du DEUG dans ce chapitre, la convergence en probabilité et la loi faible des
grands nombres avec ses applications. La convergence presque sûre et la loi forte des grands nombres sont
destinés aux lecteurs plus curieux ou plus avancés. Ils pourront être considérés comme une introduction
au cours de Licence. Néanmoins ils ont été rédigés en n’utilisant que des outils mathématiques du
DEUG.
2
Voir la discussion à propos de la loi forte des grands nombres pour les fréquences section A.5.

21
Annexe A. Loi des grands nombres1

ω tels que Xn (ω) converge vers X(ω) a pour probabilité 1.

p.s.
Notation : Xn −−−−→ X.
n→+∞

Rappelons qu’un événement de probabilité 1 n’est pas forcément égal à Ω, il peut même y
avoir une infinité d’éléments dans son complémentaire (par exemple si A et B lancent un
dé à tour de rôle, le gagnant étant le premier à obtenir « six », l’évènement « il n’y a pas
de gagnant »a une probabilité nulle mais est constitué d’une infinité non dénombrable
∗
d’évènements élémentaires, c’est {1, . . . , 5}N ). Remarquons aussi que l’ensemble Ω0 des
ω tels que Xn (ω) converge vers X(ω) est bien un événement observable (vu en exercice),
c’est-à-dire un événement de la famille F. Il est donc légitime de parler de sa probabilité.
Dans la convergence presque sûre, le rang n0 à partir duquel on peut approximer
Xn (ω) par X(ω) avec une erreur inférieure à ε dépend à la fois de ε et de ω ∈ Ω0 : n0 =
n0 (ε, ω). On ne sait pas toujours expliciter la façon dont n0 (ε, ω) dépend de ω. D’autre
part on peut très bien avoir sup{n0 (ε, ω), ω ∈ Ω0 } = +∞. Ceci fait de la convergence
presque sûre en général un résultat essentiellement théorique 3 . Supposons que la valeur
de Xn dépende du résultat de n épreuves répétées (ou de n observations). Savoir que
Xn converge presque sûrement vers X ne permet pas de prédire le nombre non aléatoire
n d’épreuves (ou d’observations) à partir duquel on aura |Xn (ω) − X(ω)| < ε (sinon
pour tous les ω ∈ Ω0 , du moins avec une probabilité supérieure à un seuil fixé à l’avance
par exemple 95%, 99%,. . .). Or cette question a une grande importance pratique pour le
statisticien. C’est l’une des raisons de l’introduction de la convergence en probabilité qui
permet de répondre à cette question lorsque l’on connaı̂t la vitesse de convergence selon
ce mode.
Définition 20 (Convergence en probabilité)
Soit (Xn )n≥1 une suite de variables aléatoires et X une v.a. définies sur le même espace
probabilisé (Ω, F, P ). On dit que Xn converge en probabilité vers X si :
∀ε > 0, lim P (|Xn − X| ≥ ε) = 0.
n→+∞
Pr
Notation : Xn −−−−→ X.
n→+∞

La convergence presque sûre implique la convergence en probabilité, la réciproque est

fausse (exercices). Pour cette raison, la convergence en probabilité de la suite Mn définie
en introduction s’appelle une loi faible des grands nombres, sa convergence presque sûre
une loi forte des grands nombres.

A.2 Loi faible des grands nombres

Théorème 21 Soit (Xn )n≥1 une suite de variables aléatoires deux à deux indépendantes,
de même loi ayant un moment d’ordre 2. Alors :
n
1X Pr
Xi −−−−→ IE X1 .
n i=1 n→+∞

3
Sauf si l’on connaı̂t la loi de la v.a. ω 7→ n0 (ε, ω), ou au moins si l’on sait majorer P (n0 > t). . .

22 Ch. Suquet, LFGN

A.2. Loi faible des grands nombres

Preuve : Ici, la v.a. limite est la constante IE X1 (ou n’importe quel IE Xi , puisque les
Xi ayant même loi ont même espérance). Il s’agit donc de vérifier que :
X n
1

∀ε > 0, lim P Xi − IE X1 ≥ ε = 0.

n→+∞ n i=1
n
1X
Posons Mn = Xi . On a :
n i=1
n
1X
IE Mn = IE Xi = IE X1 . (A.1)
n i=1
D’autre part, les Xi étant deux à deux indépendantes et de même loi on a :
X n
1 1 1
Var Mn = 2 Var Xi = 2 (n Var X1 ) = Var X1 . (A.2)
n i=1
n n
L’inégalité de Tchebycheff appliquée à chaque Mn nous dit que pour ε > 0 fixé :
Var Mn
∀n ∈ N∗ , P (|Mn − IE Mn | ≥ ε) ≤ .
ε2
D’où compte tenu du calcul de IE Mn et Var Mn :
Var X1
∀n ∈ N∗ , P (|Mn − IE X1 | ≥ ε) ≤ . (A.3)
nε2
En faisant tendre n vers +∞ (ε restant fixé) on en déduit :
lim P (|Mn − IE X1 | ≥ ε) = 0.
n→+∞

Ce raisonnement est valable pour tout ε > 0.

Remarque : Nous avons en fait démontré un peu plus que la seule convergence en pro-
babilité. Nous avons d’après (A.3) une vitesse de convergence en O(1/n). Si l’on connaı̂t
Var X1 ou si on sait le majorer, on peut donc répondre à la question posée page 22 lors
de l’introduction de la convergence en probabilité.
Corollaire 22 (Loi faible des g. n. pour les fréquences)
Si (Xn )n≥1 est une suite de v.a. de Bernoulli indépendantes de même paramètre p, alors :
n
1X Pr
Xi −−−−→ p.
n i=1 n→+∞

Preuve : Il suffit d’appliquer la loi faible des grands nombres en notant qu’ici IE X1 = p.

Interprétation : Considérons une suite d’épreuves répétées indépendantes. Pour chaque
épreuve la probabilité d’un « succès » est p. Notons Xi l’indicatrice de l’événement succès
à la i-ème épreuve. Alors :
X n
Sn = Xi est le nombre de succès en n épreuves et Mn = n−1 Sn est la fréquence des
i=1
succès au cours des n premières épreuves. Remarquons que pour tout ω, 0 ≤ Mn (ω) ≤ 1.

Ch. Suquet, LFGN 23

Annexe A. Loi des grands nombres1

A.3 Estimation d’une proportion inconnue

On se propose d’estimer le paramètre p inconnu d’une loi de Bernoulli à partir des
observations Xi (ω), 1 ≤ i ≤ n, les Xi étant des v.a. de Bernoulli indépendantes de même
paramètre p.

Exemple 1 On a une urne comportant des boules rouges en proportion inconnue p et

des boules vertes (en proportion q = 1−p). On effectue n tirages d’une boule avec remise.
Notons :
Xi = 1{rouge au i-ème tirage}
et comme ci-dessus désignons par Mn la moyenne arithmétique des Xi ou fréquence
d’apparition du rouge au cours des n premiers tirages. D’après la loi faible des grands
nombres pour les fréquences, Mn converge en probabilité vers p. Comme on s’attend
à ce que Mn soit proche de p pour les grandes valeurs de n, il est naturel d’estimer p
par Mn . En fait on observe une valeur particulière Mn (ω) calculée à partir des résultats
des n tirages réellement effectués. La question pratique qui se pose est de donner une
« fourchette » pour l’approximation de p par la valeur observée Mn (ω). L’inégalité de
Tchebycheff (A.3) pour Mn s’écrit ici :

Var X1 p(1 − p)
P (|Mn − p| ≥ t) ≤ 2
= . (A.4)
nt nt2
Comme p est inconnu, on ne peut pas utiliser directement ce majorant. On remplace
alors p(1 − p) par :
1
sup x(1 − x) =
x∈[0,1] 4

(la parabole d’équation y = x(1 − x) a sa concavité tournée vers les y négatifs, les
deux zéros du trinôme sont x1 = 0 et x2 = 1 ; par symétrie, le sommet a pour abscisse
(x1 + x2 )/2 = 1/2 et pour ordonnée 1/2(1 − 1/2) = 1/4). En reportant dans (A.4), on
obtient quelle que soit la valeur inconnue p :

Var X1 1
P (|Mn − p| ≥ t) ≤ 2
= (A.5)
nt 4nt2
d’où en passant à l’événement complémentaire :

1
P (Mn − t < p < Mn + t) ≥ 1 − . (A.6)
4nt2
En pratique on remplace Mn par la valeur réellement observée Mn (ω) et on dit que
I =]Mn (ω) − t, Mn (ω) + t[ est un intervalle de confiance (ou fourchette) pour p. Le
deuxième membre de (A.5) peut s’interpréter comme un majorant de la probabilité de
se tromper lorsque l’on déclare que p est dans I. On dit aussi que I est un intervalle de
confiance au niveau α ≥ 1 − 1/(4nt2 ).

24 Ch. Suquet, LFGN

A.4. Convergence presque sûre des fréquences

Exemple 2 (Sondage) Avant le second tour d’une élection présidentielle opposant les
candidats A et B, un institut de sondage interroge au hasard 1 000 personnes dans la
rue 4 . On note p la proportion d’électeurs décidés à voter pour A dans la population
totale. Dans l’échantillon sondé, cette proportion est égale à 0.54. Proposer un intervalle
de confiance pour p au niveau 0.95.
Le sondage peut être assimilé à un tirage avec remise (en admettant qu’une personne
interrogée plusieurs fois accepte de répondre à chaque fois) et on est ramené à la situa-
tion de l’exemple précédent. Ici la fréquence observée réellement est Mn (ω) = 0.54 et
l’inégalité (A.6) nous dit que l’on peut prendre comme intervalle de confiance :
1
I =]0.54 − t, 0.54 + t[ avec un niveau α ≥ 1 − .
4nt2
Comme on souhaite que α soit au moins égal à 0.95, il suffit de choisir la plus petite
valeur de t telle que :
1 1
1− ≥ 0.95 ⇔ t ≥ √ ' 0.0707.
4 000t2 10 2
En prenant t = 0.071, on obtient : I =]0.469, 0.611[. On remarque qu’une partie de cet
intervalle correspond à p < 1/2. Ainsi, bien que le sondage donne 54% d’intentions de
vote en faveur de A, l’inégalité (A.6) ne nous permet pas de pronostiquer sa victoire avec
une probabilité d’erreur inférieure à 5%.

Exemple 3 (Sondage, suite) L’institut de sondage désire présenter à ses clients une
fourchette à ±1% avec un niveau de confiance égal au moins à 0.95%. Combien de
personnes doit-il interroger ?
On repart de (A.6). Cette fois on impose t = 0.01 et on cherche n minimal tel que :
1
≤ 0.05
4n × 0.012
On trouve n = 50 000, ce qui donne au sondage un coût prohibitif 5 . Nous reviendrons
sur ce problème au chapitre suivant.

A.4 Convergence presque sûre des fréquences

On peut représenter graphiquement la suite Mn (ω) des fréquences de succès dans une
suite d’épreuves de Bernoulli par la ligne brisée dont les sommets ont pour coordonnées
4
Ceci est une simplification volontaire permettant d’assimiler la situation à un tirage avec remise : une
même personne peut ainsi être interrogée plusieurs fois au cours du sondage. En pratique les méthodes
utilisées par les instituts de sondage pour sélectionner un échantillon sont un peu plus compliquées. . .
5
Les sondages ordinaires sont faits sur des échantillons de 500 ou 1 000 personnes. Pour les élections
présidentielles, les instituts interrogent des échantillons de 5 000 personnes. La petite étude ci-dessus
montre que pour gagner une décimale sur la précision du sondage (i.e. diviser par 10 la longueur de
l’intervalle de confiance), il faut multiplier la taille de l’échantillon et donc le coût du sondage par 100. . .

Ch. Suquet, LFGN 25

Annexe A. Loi des grands nombres1

(n, Mn (ω)). A chaque ω correspond ainsi une ligne brisée infinie que nous appellerons
trajectoire. La loi faible des grands nombres nous donne le comportement asymptotique
de ces trajectoires dans leur ensemble. Elle signifie grosso modo que pour n grand fixé
(n ≥ n0 (ε)) la plupart des trajectoires vont traverser le segment vertical d’ extrémités
(n, p − ε) et (n, p + ε). Elle ne nous dit rien sur le comportement individuel de chaque
trajectoire. Une trajectoire qui traverse ]p−ε, p+ε[ à la verticale de n peut très bien sortir
de la bande horizontale engendrée par ce segment au delà de n. Une question naturelle
est alors : existe-t-il des trajectoires qui à partir d’un certain rang n0 = n0 (ω, ε) restent
dans la bande {(x, y) ∈ R2 , x ≥ n0 et p − ε < y < p + ε} ? Nous allons montrer que
l’ensemble des trajectoires qui vérifient cette propriété pour tout ε > 0 a pour probabilité
1, autrement dit que Mn converge presque sûrement vers p.

Théorème 23 (Loi forte des g. n. pour les fréquences)

Si (Xn )n≥1 est une suite de v.a. de Bernoulli indépendantes de même paramètre p, alors :
n
1X p.s.
Xi −−−−→ p.
n i=1 n→+∞

Preuve : Comme précédemment, nous notons :

n
X Sn
Sn = Xi et Mn = .
i=1
n

Les deux ingrédients principaux de la démonstration sont :

– L’écriture de l’événement {Mn converge vers p} à l’aide d’opérations ensemblistes
dénombrables sur les événements {|Mn − p| ≥ ε} dont on sait majorer les proba-
bilités.
– L’obtention d’une vitesse de convergence vers 0 de ces mêmes probabilités suffisante
pour que :
+∞
X
P (|Mn − p| ≥ ε) < +∞. (A.7)
n=1

Remarquons que l’inégalité de Tchebycheff est ici trop faible puisqu’elle nous donne
seulement une vitesse en O(n−1 ). En fait, on peut obtenir une vitesse de convergence
exponentielle grâce à l’inégalité suivante :

P (|Mn − p| ≥ ε) ≤ 2 exp(−2nε2 ). (A.8)

Nous admettons provisoirement cette inégalité dont une preuve est proposée en exercice 6 .
A partir de maintenant, la démonstration se développe en 7 « pas » élémentaires.
1er pas : On rappelle la traduction automatique des quantificateurs. Si I est un ensemble
quelconque d’indices, (Pi ) une propriété dépendant de l’indice i et Ai l’ensemble des
6
Dans le polycopié de Deug. Pour le présent document, voir théorème 7.

26 Ch. Suquet, LFGN

A.4. Convergence presque sûre des fréquences

ω ∈ Ω vérifiant (Pi ), on a :
\
{ω ∈ Ω, ∀i ∈ I, ω vérifie (Pi )} = Ai
i∈I
[
{ω ∈ Ω, ∃i = i(ω) ∈ I, ω vérifie (Pi )} = Ai
i∈I

Ainsi le quantificateur ∀ peut toujours se traduire par une intersection et le quantificateur

∃ par une réunion.
2e pas : Considérons l’ensemble :

C = {ω ∈ Ω, lim Mn (ω) = p}.

n→+∞

On peut exprimer C à l’aide des événements {|Mn − p| < ε} en écrivant la définition de

la limite :

ω ∈ C ⇔ ∀ε > 0, ∃k = k(ω, ε), ∀n ≥ k, |Mn (ω) − p| < ε, (A.9)

et en appliquant la règle de traduction automatique des quantificateurs :

\[ \
C= {|Mn − p| < ε}.
ε>0 k∈N n≥k

L’inconvénient de cette décomposition est que le « ε > 0 » dans la première intersection

est une indexation par l’ensemble I =]0, +∞[ qui n’est pas dénombrable. On ne peut
donc pas appliquer les propriétés de σ-additivité ou de continuité monotone séquentielle
à ce stade.
3e pas : Il est facile de remédier à cet inconvénient : il suffit de discrétiser le ε dans la
définition de la limite. On sait qu’on obtient une définition équivalente remplaçant dans
(A.9) le « ∀ε > 0 » par « ∀εj » où (εj )j∈N est une suite strictement décroissante de réels
tendant vers 0. On peut choisir par exemple εj = 10−j . En appliquant à nouveau la
traduction des quantificateurs, nous obtenons :
\[ \
C= {|Mn − p| < εj }.
j∈N k∈N n≥k

Remarquons au passage que, sous cette forme, il est clair que l’ensemble C est en fait un
événement, c’est-à-dire un membre de la famille F de parties de Ω sur laquelle est définie
la fonction d’ensemble P . En effet, Mn étant une variable aléatoire, les {|Mn − p| < εj }
sont des événements et C s’obtient par des opérations ensemblistes dénombrables sur ces
événements. Il est donc légitime de parler de la probabilité de C. Nous allons montrer
que P (C) = 1.
4e pas : Nous venons de passer d’une infinité non dénombrable de ε à une suite (εj ). Le
lemme suivant va nous permettre de travailler avec une seule valeur de ε.
Lemme 24 Si (Aj )j∈N est une suite d’événements ayant chacun une probabilité 1, alors
leur intersection a aussi une probabilité 1.

Ch. Suquet, LFGN 27

Annexe A. Loi des grands nombres1

Preuve : Par passage au complémentaire, il suffit de prouver que la réunion des Acj a
une probabilité nulle. Or :
X
0 ≤ P ∪ Acj ≤ P (Acj ) = 0,
j∈N
j∈N

puisque chaque P (Acj ) est nul par hypothèse.

Si l’on prouve que pour chaque ε > 0 fixé, P (Cε ) = 1 où
[ \
Cε = {|Mn − p| < ε},
k∈N n≥k

il suffira d’appliquer le lemme avec Aj = Cεj pour obtenir P (C) = 1.

5e pas : Soit donc ε > 0 fixé. Pour montrer que Cε a une probabilité 1, on travaille sur
son complémentaire que nous noterons B.
\ [
B= {|Mn − p| ≥ ε}.
k∈N n≥k

On a : \ [
B= Bk avec Bk = {|Mn − p| ≥ ε}.
k∈N n≥k
Donc B est inclus dans chaque Bk , d’où :
∀k ∈ N, 0 ≤ P (B) ≤ P (Bk ). (A.10)
6e pas : On majore P (Bk ) en utilisant la sous-additivité de P pour les unions dénom-
brables :
X
0 ≤ P (Bk ) = P ∪ {|Mn − p| ≥ ε} ≤ P (|Mn − p| ≥ ε).
n≥k
n≥k

D’après (A.8), ce majorant est le reste de rang k d’une série convergente. Il tend donc
vers 0 quand k tend vers +∞. Il en est donc de même pour P (Bk ).
7e pas, conclusion : En passant à la limite quand k tend vers +∞ dans (A.10), on en
déduit P (B) = 0. En passant à l’événement complémentaire on a donc montré que
P (Cε ) = 1. Comme la seule hypothèse faite sur ε pour obtenir ce résultat était ε > 0, on
a donc P (Cε ) = 1 pour tout ε > 0. D’après le 4e pas ceci entraı̂ne P (C) = 1, autrement
dit : Mn converge presque sûrement vers p.
Comme sous-produit de la démonstration que nous venons d’achever, nous avons
montré au passage que la convergence en probabilité avec une vitesse suffisante implique
la convergence presque sûre, plus précisément :
Théorème 25 (Condition suffisante de convergence p.s.)
Si (Yn )n≥1 et Y sont des variables aléatoires vérifiant :
+∞
X
∀ε > 0, P (|Yn − Y | > ε) < +∞, (A.11)
n=1

alors Yn converge presque sûrement vers Y .

28 Ch. Suquet, LFGN

A.5. Discussion

Preuve : Il suffit de remplacer |Mn − p| par |Yn − Y | dans la démonstration ci-dessus.

A.5 Discussion
Considérons une urne contenant 10 boules numérotées de 0 à 9. La loi forte des
grands nombres pour les fréquences nous dit que si l’on effectue une suite illimitée de
tirages avec remise d’une boule, la fréquence d’apparition du chiffre 7 va converger vers
1/10 avec probabilité 1. Pour démontrer ce théorème, nous avons admis implicitement
l’existence d’un espace probabilisé (Ω, F, P ) modélisant cette expérience (suite infinie de
tirages avec remise). La construction mathématique rigoureuse d’un tel modèle présente
une réelle difficulté qui est au coeur de la théorie de la mesure et relève du programme
de la licence de mathématiques. Nous nous contenterons de quelques considérations
élémentaires 7 sur cet espace probabilisé, utiles pour notre exploration de la loi forte des
grands nombres.
L’espace Ω doit être assez « riche » pour « supporter » une suite infinie (Yi )i≥1 de v.
a. indépendantes et de même loi uniforme sur {0, 1, 2, . . . , 8, 9}. La variable aléatoire Yi
s’interprète comme le numéro obtenu lors du i-ième tirage. On pose alors Xi = 1{Yi =7}
et Mn = n−1 ni=1 Xi est la fréquence d’aparition du 7 en n tirages.
P
Nous allons examiner deux choix possibles pour Ω. Le premier et le plus naturel est
de prendre :
∗
Ω = {0, 1, 2, . . . , 8, 9}N .
Autrement dit un élément quelconque ω de Ω est une suite (ci )i≥1 de chiffres décimaux. Le
choix de la famille F d’événements observables est plus délicat. On ne peut pas prendre
l’ensemble de toutes les parties de Ω car on ne pourrait pas attribuer une probabilité à
chacune de ces parties de façon compatible avec ce que l’on sait déjà sur les tirages finis.
Il est clair que F doit contenir les événements dont la réalisation ne dépend que d’un
nombre fini de tirages (c’est bien le cas des événements du type {|Mn − p| > ε} auxquels
on sait attribuer une probabilité (au moins théoriquement puisque l’on sait écrire une
formule donnant P (n(p − ε) < Sn < n(p + ε)) à l’aide de la loi binomiale). On prend
pour F la plus petite famille d’événements observables 8 parmi celles qui contiennent les
événements dont la réalisation ne dépend que d’un nombre fini d’épreuves. Pour définir
la fonction d’ensemble P sur F, on utilise un théorème de prolongement de la théorie de
la mesure. On peut alors voir qu’avec ce modèle, chaque événement élémentaire ω doit
avoir une probabilité nulle. En effet, fixons ω0 = (u1 , u2 , . . . , un , . . .) ∈ Ω. On a :
∀n ≥ 1, {ω0 } ⊂ {Y1 = u1 } ∩ {Y2 = u2 } ∩ · · · ∩ {Yn = un },
d’où n
n Y 1 n
P ({ω0 }) ≤ P ( ∩ {Yi = ui }) = P (Yi = ui ) = ,
i=1
i=1
10
7
Tout est relatif. . .
8
i.e. la plus petite tribu.

Ch. Suquet, LFGN 29

Annexe A. Loi des grands nombres1

en utilisant la nécessaire indépendance des Yi . Ainsi :

∀n ≥ 1, 0 ≤ P ({ω0 }) ≤ 10−n .

En faisant tendre n vers l’infini on en déduit P ({ω0 }) = 0. Ce raisonnement est valable

pour tout ω0 de Ω.
Notons que la nullité de P ({ω}) pour tout ω ∈ Ω neP contredit pas l’égalité P (Ω) =
1. En effet on n’a pas le droit d’écrire ici « P (Ω) = ω∈Ω P ({ω}) » car l’ensemble
d’indexation Ω n’est pas dénombrable (il est en bijection avec l’intervalle [0, 1] de R).
Si E est un événement dénombrable, les événements élémentaires P qui le composent
peuvent être indexés par N : E = {ω0 , ω1 , . . . , ωn , . . .} et P (E) = n∈N P ({ωn }) = 0.
Ceci est valable a fortiori pour les événements finis.
Donc si un événement a une probabilité non nulle dans ce modèle, il est nécessaire-
ment composé d’une infinité non dénombrable d’événements élémentaires. La réciproque
est fausse. Considérons en effet l’événement B défini comme l’obtention à chacun des
tirages des seuls chiffres 0 ou 1. Dans notre modèle B est l’ensemble des suites de 0 et
de 1, il n’est pas dénombrable (puisqu’en bijection avec [0, 1]). Par ailleurs :

B= ∩ {Yi = 0 ou 1}.
i∈N∗

n
On a donc pour tout n ≥ 1, B ⊂ Bn = ∩ {Yi = 0 ou 1}, d’où
i=1

2 n
∀n ≥ 1, 0 ≤ P (B) ≤ P (Bn ) = .
10
En faisant tendre n vers l’infini, on en déduit P (B) = 0. Notons d’autre part que si
ω ∈ B, ω ne contient aucun « 7 » parmi ses termes donc Mn (ω) = 0 et B est inclus
dans l’événement {Mn → 0} (ce qui prouve d’une autre façon que P (B) = 0 grâce à la
loi forte des grands nombres). Ainsi le complémentaire de l’événement de probabilité 1
{Mn → 1/10} contient l’événement B et est donc lui même infini non dénombrable.
La situation est même encore plus surprenante : on peut faire converger Mn (ω) vers
n’importe quel rationnel r fixé de [0, 1] et ce, pour tous les ω d’un événement Cr non
dénombrable et de probabilité nulle (si r 6= 1/10). Voici comment faire. On pose r = k/l,
k ∈ N, l ∈ N∗ et on définit Cr comme l’ensemble des suites de la forme :

ω = (7, . . . , 7, uk+1 , . . . , ul , 7, . . . , 7, ul+k+1 , . . . , u2l , 7, . . . , 7, . . . . . .)

| {z } | {z } | {z } | {z } | {z }
k l−k k l−k k

en répétant indéfiniment l’alternance de blocs de k chiffres 7 consécutifs et des blocs de

l − k chiffres ui pouvant prendre seulement les valeurs 0 ou 1. Il est immédiat de vérifier
que la fréquence des 7 dans une telle suite converge vers k/l, donc Cr ⊂ {Mn → r}.
∗
Il est aussi clair que Cr est en bijection avec {0, 1}N (la bijection s’obtient en effaçant
les 7 et sa réciproque en intercalant des blocs de k chiffres 7 consécutifs tous les l − k
chiffres binaires).

30 Ch. Suquet, LFGN

A.5. Discussion

En adaptant ce procédé, on peut faire converger Mn (ω) vers n’importe quel réel x
de [0, 1] sur un événement Cx non dénombrable et de probabilité nulle si x 6= 1/10
(exercice).
On peut aussi construire des événements non dénombrables et de probabilité nulle sur
lesquels Mn ne converge vers aucune limite. A titre d’exemple voici comment construire
un événement E tel que ∀ω ∈ E :
lim inf Mn (ω) = 0, et lim sup Mn (ω) = 1. (A.12)
n→+∞ n→+∞

Commençons par construire une suite particulière ω0 = (ci )i≥1 vérifiant (A.12) :
ω0 = ( 7, 7 , 8, 8, 8, 8, 7, . . . , 7, 8, . . . , 8, 7, . . . . . . , 7, . . . . . .).
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2

et ainsi de suite en alternant indéfiniment des bloc de 7 consécutifs et de 8 consécutifs.

La longueur de chaque bloc est le carré de la somme des longueurs de tous les blocs
précédents. Avec cette construction, l’indice du dernier chiffre de chaque bloc est un
entier de la forme m + m2 . A chaque étape, le dernier bloc placé écrase quasiment tout
le passé et ainsi Mn (ω0 ) va osciller indéfiniment entre 0 et 1. Plus précisément, si le bloc
considéré se termine par un 8, il contient au moins m2 chiffres 8 et donc au plus m chiffres
7 donc Mm2 +m (ω0 ) ≤ m/(m + m2 ) et ce majorant tend vers 0 quand m tend vers +∞. Si
le bloc finit sur un 7, il contient au moins m2 chiffres 7, donc Mm2 +m (ω0 ) ≥ (m2 /(m+m2 )
et ce minorant
tend vers 1 quand m tend vers +∞. On a ainsi pu extraire de la suite
Mn (ω0 ) n∈N∗ une sous suite convergeant vers 0 et une autre convergeant vers 1. Comme
0 ≤ Mn (ω0 ) ≤ 1 pour tout n, on en déduit que ω0 vérifie (A.12).
Pour obtenir une infinité non dénombrable de suites ω ayant la même propriété, il
suffit de modifier légèrement la construction de ω0 en :
ω = ( 7, ∗ , 8, 8, 8, ∗, 7, . . . , 7, ∗, 8, . . . , 8, ∗, 7, . . . . . . , 7, ∗, . . . . . .)
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2

où le dernier chiffre de chaque bloc de ω0 est remplacé au choix par un 0 ou un 1

(représenté par l’astérisque ci-dessus).
En travaillant encore un peu, on pourrait de même montrer pour tout couple de
réels (a, b) de [0, 1] tels que a < b, l’existence d’événements Ea,b non dénombrables et de
probabilité nulle sur lesquels Mn a pour limite inférieure a et pour limite supérieure b. . .
Tous ces exemples montrent que l’événement {Mn ne converge pas vers 1/10} a
une structure très complexe. Ainsi l’aspect naturel et intuitif de la loi forte des grands
nombres pour les fréquences masque un résultat plus profond qu’il n’y paraı̂t. Le presque
sûrement qui figure dans l’énoncé de cette loi n’est pas une finasserie artificielle de puriste
mais est bien inhérent au problème étudié.
On est naturellement tenté d’interpréter les résultats précédents du point de vue de
la théorie des nombres en considérant les suites de chiffres décimaux sur lesquelles nous
venons de travailler comme des développements décimaux illimités de nombres réels de
[0, 1]. Notre second modèle sera donc (Ω0 , F 0 , P 0 ) où :
Ω0 = [0, 1]

Ch. Suquet, LFGN 31

Annexe A. Loi des grands nombres1

et F 0 et P 0 restent à définir.
Cependant il se présente ici une difficulté qui fait que ce nouveau modèle ne se
réduit pas à une traduction automatique du précédent. Si (ci )i≥1 est une suite de chiffres
décimaux, la série :
+∞
X ci
(A.13)
i=1
10i
converge et sa somme est un réel x de [0, 1] que l’on peut noter
+∞
X ci
x = 0.c1 c2 . . . ci . . . = .
i=1
10i

Réciproquement, tout réel de [0, 1] admet un développement décimal du type (A.13). Ce

développement est unique lorsque x n’est pas un nombre décimal (i.e. x n’est pas de la
forme k/10n , k ∈ N, n ∈ N∗ ). Par contre si x est décimal, il possède deux développements
décimaux distincts. Ceci provient de la sommation de série géométrique suivante :
+∞ +∞
X 9 9 X 1 9 1 1
∀n ≥ 1, i
= n j
= n 1
= n−1 . (A.14)
i=n
10 10 j=0 10 10 1 − 10 10

Cette relation permet de voir que si un développement décimal illimité ne comporte plus
que des 9 à partir d’un certain rang n (le (n − 1)-ème chiffre n’étant pas un 9), on ne
change pas la somme de la série en remplaçant tous ces 9 par des 0 et en augmentant
d’une unité le (n − 1)-ème chiffre. On a ainsi la propagation d’une retenue depuis l’infini.
Par exemple :
5973
0.5972999999 . . . = 0.5973000000 . . . =
104
(il ne s’agit pas d’une égalité approchée, mais d’une égalité rigoureuse, les points de
suspension représentant la répétition indéfinie du chiffre 9 ou 0 respectivement). Le
développement ne comportant que des 9 à partir d’un certain rang est appelé développe-
ment décimal impropre, celui ne comportant que des 0 est appelé développement décimal
propre.
En revenant aux tirages illimités dans notre urne à dix boules, on voit que si l’on
choisit Ω0 = [0, 1], les deux suites de résultats qui correspondent à un même réel
décimal seront représentées par le même réel ω. Par exemple (5, 9, 7, 2, 9, 9, 9, . . .) et
(5, 9, 7, 3, 0, 0, 0, . . .) seront représentées par l’événement élémentaire ω = 5973/1 0000.
Pour surmonter cette difficulté, nous « dédoublons » la suite (Yi )i≥1 . Pour tout i ≥ 1,
on définit les deux variables aléatoires Yi et Yi0 comme suit. Si ω ∈ [0, 1] n’est pas décimal,
Yi (ω) = Yi0 (ω) est le i-ème chiffre décimal de l’unique développement décimal de ω. Si
ω est un décimal de [0, 1], Yi (ω) est le i-ème chiffre de son développement propre, Yi0 (ω)
le i-ème chiffre décimal de son développement impropre. On requiert, comme dans le
premier modèle que chacune de ces deux suites soit indépendante et que chacune des
variables Yi et Yi0 suive la loi uniforme sur {0, 1, . . . , 8, 9}. Ceci permet de montrer que
chaque événement élémentaire ω doit avoir une probabilité P 0 nulle. D’autre part, Yi

32 Ch. Suquet, LFGN

A.5. Discussion

et Yi0 diffèrent seulement sur l’ensemble D des décimaux de [0, 1] qui est dénombrable
(vu en exercice), donc de probabilité P 0 nulle. Ainsi les deux suites (Yi )i≥1 et (Yi0 )i≥1
sont égales P 0 -presque sûrement. Il est donc quand même possible d’interpréter la suite
illimitée de tirages dans l’urne comme le choix aléatoire d’un réel ω de [0, 1] suivant la
loi de probabilité P 0 .
On peut maintenant examiner les conséquences de notre cahier des charges (les condi-
tions sur les suites de v.a. (Yi )i≥1 et (Yi0 )i≥1 ) sur la construction de (F 0 , P 0 ). La condition
d’indépendance de la suite (Yi )i≥1 avec même loi uniforme sur {0, 1, . . . , 8, 9} pour tout
Yi peut s’écrire comme suit. Pour tout n ≥ 1, et tout n-uplet (c1 , . . . , cn ) de chiffres
décimaux,
n
0
Y 1
P (Y1 = c1 , Y2 = c2 , . . . , Yn = cn ) = P 0 (Yi = ci ) = n .
i=1
10
En notant que l’on a exclu les développement impropres dans la définition des Yi , on a
l’équivalence :

Y1 (ω) = c1 , Y2 (ω) = c2 , . . . , Yn (ω) = cn ⇔ ω ∈ [αn , αn + 10−n [,

où l’on a posé : αn = c1 10−1 + · · · + cn 10−n . Lorsque le n-uplet (c1 , . . . , cn ) prend toutes
les valeurs possibles (à n fixé), αn décrit exactement l’ensemble des décimaux pouvant
s’écrire sous la forme k10−n . La condition sur la suite (Yi )i≥1 peut donc se traduire par :
h k k + 1h 1
n 0
∀n ≥ 1, ∀k = 0, 1, . . . , 10 − 1, P n
, n
= n.
10 10 10
L’utilisation de la suite (Yi0 ) à la place de (Yi ) dans le raisonnement ci-dessus nous
aurait donné la même conclusion mais avec des intervalles ouverts à gauche et fermés à
droite. Notons que dans les deux cas la probabilité P 0 de l’intervalle concerné est égale
à sa longueur. On peut aussi utiliser chacun de ces deux résultats pour redémontrer que
la probabilité d’un événement élémentaire ω est forcément nulle. Finalement, grâce à
l’additivité de P 0 on en déduit facilement que la condition sur la suite (Yi ) équivaut à :

∀a, b ∈ [0, 1] ∩ D (a < b), P 0 ([a, b]) = b − a (A.15)

(ou à chacune des conditions obtenues avec [a, b[, ]a, b] ou ]a, b[). Par continuité monotone
de P 0 , on en déduit que (A.15) s’étend au cas de réels a, b > a quelconques de [0, 1] :
il suffit de considérer deux suites de décimaux an ↑ a et bn ↓ b et de noter que [a, b] =
∩n≥1 [an , bn ] (détails laissés en exercice).
Nous voyons maintenant que le problème de la construction de (F 0 , P 0 ) est exac-
tement celui de la construction d’une fonction d’ensemble σ − additive prolongeant la
fonction longueur d’un intervalle. Ce problème est celui de la construction de la mesure
de Lebesgue. On peut le résoudre en prenant pour F 0 la plus petite famille d’événe-
ments observables contenant les intervalles. On arrive ainsi à définir la longueur ou
mesure de Lebesgue des sous ensembles de [0, 1] qui sont dans F 0 . Si un tel sous en-
semble est de la forme B = ∪i≥1 ]ai , bi [ où les suites (ai ) et (bi ) vérifient pour tout n :

Ch. Suquet, LFGN 33

Annexe A. Loi des grands nombres∗

0 ≤ an < bn ≤ an+1 < bn+1 ≤ 1, alors B est une réunion disjointe d’intervalles et sa pro-
babilité P 0 ou longueur est évidemment la série de terme général la longueur de ]ai , bi [.
Malheureusement, tous les éléments de la famille F 0 sont loin d’avoir une structure aussi
simple et le calcul explicite de leur longueur n’est pas toujours possible (on sait qu’elle
existe et on connaı̂t ses propriétés). Nous connaissons déjà un exemple d’élément de F 0
qui ne peut pas s’écrire comme réunion dénombrable d’intervalles disjoints, c’est l’évé-
nement C7 = {convergence de la fréquence du chiffre 7 vers 1/10}. En effet par densité
des décimaux, tout intervalle contient au moins un décimal (en fait une infinité) et si ω
est décimal, Yi (ω) = 0 à partir d’un certain rang (de même Yi0 (ω) = 9) par conséquent
Mn (ω) converge vers 0 donc ω ∈ / C7 . Ainsi C7 ne peut s’écrire comme réunion dénom-
brable d’intervalles disjoints. Nous savons pourtant calculer sa longueur par la loi forte
des grands nombres : elle vaut 1.
Dans toute cette section nous nous sommes intéressés à la fréquence d’apparition
du 7. Bien sûr ce chiffre n’a été choisi que pour fixer les idées et n’importe quel autre
chiffre décimal aurait tout aussi bien fait l’affaire. Pour généraliser un peu définissons
Mn,j comme la fréquence d’apparition du chiffre j (j ∈ {0, 1, . . . , 8, 9}) au cours des n
premiers tirages. Notons de même Cj l’événement {Mn,j converge vers 1/10}. Par la loi
forte des grands nombres, chaque Cj a une longueur (i.e. une probabilité P 0 ) égale à 1.
Par le lemme 24, l’intersection de ces dix ensembles a aussi une longueur 1.
Convenons d’appeler nombre normal tout réel de [0, 1] tel que la fréquence de chacun
des 10 chiffres décimaux 0, 1, . . . 9 dans le développement décimal illimité de ce nombre
converge vers 1/10. Nous avons ainsi obtenu un résultat de théorie des nombres qui
s’énonce ainsi : l’ensemble de tous les nombres normaux de [0, 1] a pour longueur 1 (on
dit aussi presque tout nombre de [0, 1] est normal). Ce résultat est dû à Borel. On pourrait
maintenant traduire tous les exemples étudiés dans le cadre du premier modèle et voir
ainsi que l’ensemble de longueur nulle des nombres non normaux a une structure très
complexe. Là encore, le théorème de Borel est plus profond qu’il n’y paraı̂t à première
vue. . .

34 Ch. Suquet, LFGN

Annexe B

L’aiguille de Buffon∗

Dans cette expérience inventée par Buffon (1777) on trace sur une surface plane
horizontale des droites parallèles équidistantes, séparées par une distance a (on peut par
exemple utiliser les rainures d’un parquet). On laisse tomber sur cette surface une aiguille
de longueur ` ≤ a et une fois l’aiguille immobilisée, on observe si elle coupe l’une des
droites du réseau. On répète l’expérience en notant la fréquence des intersections. Lorsque
le nombre d’expériences augmente indéfiniment, cette fréquence converge selon Buffon
2`
vers p = πa permettant ainsi d’obtenir une estimation expérimentale du nombre π.

1

1

« Echec » « Succès »

Le document de la page 38 représente les résultats de 1200 lancers réalisés avec une
allumette et un réseau tracé sur une feuille de format A4. On a ici ` = a = 4, 5 cm et
p = π2 ≈ 0, 637.
Cherchons une modélisation de cette expérience. On note Y la distance du milieu de
l’aiguille à la droite la plus proche. Y prend ses valeurs dans [0, a2 ]. On note Φ une mesure
de l’angle entre les droites (toutes orientées dans le même sens) et l’aiguille orientée du
chas vers la pointe. Φ prend ses valeurs dans [0, 2π] (par exemple) 1 .

∗
Extrait de Mathématiques pour l’Enseignement Secondaire (M.E.S. 1), Probabilités, option de Maı̂-
trise, Ch. Suquet, Lille 1992.
1
On pourrait aussi utiliser les angles de droites, Φ serait alors à valeurs dans un intervalle de lon-
gueur π.

35
Annexe B. L’aiguille de Buffon1

Y et Φ sont des variables aléatoires. La 3

connaissance du couple (Y (ω), Φ(ω)) 6`
Y6
? ?2 |sin Φ|
suffit pour savoir s’il y a ou non inter-

section. En effet en notant E l’événe-

ment l’aiguille coupe l’une des droites

du réseau , on a :

`
E = Y ≤ |sin Φ|
2

Nous ferons les hypothèses suivantes sur les variables aléatoires Y et Φ :

(H1 ) Y suit la loi uniforme sur [0, a2 ].

(H2 ) Φ suit la loi uniforme sur [0, 2π].
(H3 ) Y et Φ sont indépendantes.

Compte tenu de ces trois hypothèses, la loi du couple (Φ, Y ) est la loi uniforme sur le
rectangle [0, 2π] × [0, a2 ].
Remarquons 2 que nous n’avons pas précisé (Ω, A, P). Si on souhaite considérer
chaque position précise de l’aiguille comme un événement élémentaire, on peut prendre
Ω = R2 × [0, 2π] où ω = ((u, v), ϕ) représente la position de l’aiguille lorsque son centre
est le point de coordonnées (u, v) et qu’elle forme un angle ϕ avec les droites orientées
du réseau. La tribu A associée peut être choisie de la manière suivante. On note g l’ap-
plication de Ω dans [0, 2π] × [0, a2 ] définie par g(ω) = (ϕ, y) où y est la distance du point
(u, v) à la droite la plus proche du réseau. On note B la tribu borélienne de [0, 2π]×[0, a2 ].
Pour que E soit bien un événement dans ce modèle, il suffit qu’il soit un élément de A.
Il suffit pour cela de prendre A = g −1 (B). Autrement dit A est la tribu des événements
qui ne dépendent que de Y et Φ. Si P est une probabilité sur cette tribu, on a par le
théorème de transfert en notant A un élément quelconque de A et A0 = g(A) :
Z Z Z
P(A) = 1A dP = 1A0 dP(Φ,Y ) = 1A0 (ϕ, y) dP(Φ,Y ) (ϕ, y).
Ω R2 [0,2π]×[0, a2 ]

On voit ainsi que si P(Φ,Y ) est la loi uniforme sur le rectangle [0, 2π] × [0, a2 ], alors en
définissant P par la formule de transfert ci-dessus, (Ω, A, P) vérifie bien les hypothèses
(H1 ), (H2 ), (H3 ). On pourrait faire la même construction avec tout Ω suffisamment riche
pour décrire tous les résultats possibles de l’expérience.
Finalement, tout revient pour le calcul de P(E) à remplacer l’espace Ω par Ω0 =
[0, 2π] × [0, a/2] et P par la loi uniforme sur Ω0 et E par l’ensemble E 0 = {(ϕ, y) ∈
Ω0 , y ≤ 2` |sin ϕ|}.

2
Ce paragraphe peut être sauté en première lecture.

36 Ch. Suquet, LFGN

a
2

`
2

0 2π ϕ

On obtient ainsi :
2π π
λ2 (E 0 )
Z Z
1 ` ` 2 `
P(E) = = |sin ϕ| dϕ = sin ϕ dϕ = .
0
λ2 (Ω ) 2π a2 0 2 πa 0 π a

Remarquons que le choix a priori des hypothèses (H1 ), (H2 ), (H3 ) ne peut guère être
guidé que par des considérations du genre : « on ne voit pas pourquoi certaines valeurs
de Φ ou Y devraient être avantagées, on ne voit pas pourquoi il devrait y avoir un lien
entre Y et Φ. . . ». Ou plus cyniquement : « Ces hypothèses conduisent à des calculs
simples que l’on sait faire » !

Ch. Suquet, LFGN 37

Annexe B. L’aiguille de Buffon1

Résultats de 1200 lancers

0111110001 6 6 1111111011 9 69 1011111110 8 131
0101111011 7 13 1110100111 7 76 1001110111 7 138
0011100110 5 18 0111100010 5 81 1101101110 7 145
1110011101 7 25 1110111100 7 88 1001011110 6 151
1110000011 5 30 0000100101 3 91 0111110001 6 157
0001111001 5 35 0001111011 6 97 1101001001 5 162
1101000101 5 40 1110011001 6 103 1101001100 5 167
1101111000 6 46 1011111110 8 111 1110100101 6 173
1111011111 9 55 1101010101 6 117 0110001100 4 177
1000100111 5 60 1100100111 6 123 1011010110 6 183

1011101011 7 190 0111110011 7 251 1101100110 6 315

1101100010 5 195 0110110111 7 258 1011011101 7 322
1100000111 5 200 1011110010 6 264 1100101111 7 329
0001111111 7 207 0000111001 4 268 1111010010 6 335
0010001101 4 211 0111100101 6 274 1110001111 7 342
0101001011 5 216 1111111101 9 283 0101001111 6 348
0100111011 6 222 1101010101 6 289 1001100101 5 353
0111111101 8 230 0111111110 8 297 1101111001 7 360
1111111010 8 238 0011101000 4 301 1010111111 8 368
1110001011 6 244 0111111101 8 309 0111101000 5 373

1001110011 6 379 1011011100 6 444 0111111110 8 518

1111011111 9 388 1011111010 7 451 0100010010 3 521
0110011111 7 395 1011110111 8 459 0101101011 6 527
1000011101 5 400 0011001111 6 465 0011111011 7 534
1111100111 8 408 1000001101 4 469 1100100101 5 539
1010010001 4 412 1011011111 8 477 1010110110 6 545
0100001110 4 416 1111111111 10 487 1111101101 8 553
1111011010 7 423 1011111101 8 495 1110111101 8 561
1010111110 7 430 1011111101 8 503 1110110110 7 568
1101011111 8 438 1110011101 7 510 0111001101 6 574

1000010110 4 578 1101001001 5 634 1100110011 6 690

0110110110 6 584 1110111111 9 643 1010111101 7 697
1000101100 4 588 0110110110 6 649 1010111110 7 704
1011011101 7 595 1000001000 2 651 1111111111 10 714
1100110110 6 601 1000011000 3 654 0011011110 6 720
1111011010 7 608 0111001011 6 660 0111111110 8 728
0001000110 3 611 1100010100 4 664 1001111101 7 735
0001110001 4 615 0101110110 6 670 0100111101 6 741
1111100111 8 623 1111111001 8 678 0100110101 5 746
0010111110 6 629 0000111111 6 684 1110101010 6 752

38 Ch. Suquet, LFGN

Tableau des fréquences observées

10k 0 10 20 30 40 50 60 70 80 90
0,600 0,650 0,600 0,625 0,600 0,583 0,571 0,575 0,611
100 0,600 0,627 0,633 0,623 0,629 0,607 0,606 0,606 0,617 0,616
200 0,615 0,624 0,627 0,630 0,629 0,628 0,623 0,619 0,618 0,610
300 0,610 0,613 0,609 0,606 0,609 0,603 0,600 0,600 0,605 0,610
400 0,610 0,612 0,614 0,614 0,609 0,609 0,615 0,615 0,619 0,614
500 0,618 0,618 0,619 0,621 0,620 0,622 0,621 0,619 0,621 0,624
600 0,622 0,621 0,626 0,627 0,625 0,628 0,624 0,621 0,622 0,623
700 0,626 0,625 0,626 0,629 0,628 0,625 0,628 0,632 0,635 0,637
800 0,637 0,640 0,635 0,635 0,636 0,634 0,634 0,636 0,637 0,638
900 0,638 0,635 0,635 0,632 0,633 0,633 0,633 0,630 0,628 0,629
1000 0,629 0,628 0,630 0,630 0,626 0,623 0,623 0,621 0,620 0,622
1100 0,622 0,622 0,622 0,623 0,626 0,626 0,628 0,628 0,628 0,627
1200 0,627

Courbe des fréquences observées

0.8

0.75

0.7

0.65

0.6

0.55

0.5

0.45

0.4
0 200 400 600 800 1000 1200

Ch. Suquet, LFGN 39

Annexe B. L’aiguille de Buffon1

40 Ch. Suquet, LFGN

Bibliographie

[1] P. Barbe et M. Ledoux. Probabilité. Espaces 34, Belin, 1998.

[2] P. Billingsley. Probability and measure. Wiley, third edition 1995.
[3] E. Borel. Probabilité et certitude. Que sais-je ? No 445 P.U.F.
[4] D. Bosq et J.-P. Lecoutre. Théorie de l’Estimation Fonctionnelle. Collection
« Économie et Statistiques Avancées », Economica, 1987.
[5] W. Feller. An Introduction to Probability Theory and its Applications, Vol. I.
Wiley.
[6] W. Feller. An Introduction to Probability Theory and its Applications, Vol. II.
Wiley.
[7] D. Foata et A. Fuchs. Calcul des Probabilités. Dunod, 1998.
[8] J.-Y. Ouvrard. Probabilités tome 2, Maı̂trise–Agrégation. Cassini, 2000.
[9] D. Revuz. Probabilités. Hermann, 1997.
[10] W. F. Stout. Almost sure convergence. Academic Press, 1974.
[11] P. S. Toulouse. Thèmes de Probabilités et Statistique. Dunod, 1999.
[12] Williams Probability with martingales. Cambridge University Press, Cambridge
(1991).

Vous aimerez peut-être aussi

Équations aux dérivées partielles par Henrot
Pas encore d'évaluation
Équations aux dérivées partielles par Henrot
73 pages
Resume de Cours 2
Pas encore d'évaluation
Resume de Cours 2
2 pages
Exercices de Dérivation en Mathématiques
67% (3)
Exercices de Dérivation en Mathématiques
2 pages
Equations Inequations Et Systemes Exercices Non Corriges 10
80% (5)
Equations Inequations Et Systemes Exercices Non Corriges 10
1 page
Résumé sur la Dérivation 1BAC et 2BAC
Pas encore d'évaluation
Résumé sur la Dérivation 1BAC et 2BAC
1 page
La Droite Dans Le Plan Exercices Non Corriges 8
67% (3)
La Droite Dans Le Plan Exercices Non Corriges 8
1 page
LFGN
Pas encore d'évaluation
LFGN
42 pages
Calcul Trigonometrique 1 Exercices Non Corriges 1
Pas encore d'évaluation
Calcul Trigonometrique 1 Exercices Non Corriges 1
1 page
Quali Examen Correction2013
Pas encore d'évaluation
Quali Examen Correction2013
6 pages
Statistiques : Loi Normale et Tests
Pas encore d'évaluation
Statistiques : Loi Normale et Tests
9 pages
Introduction aux Chaînes de Markov
Pas encore d'évaluation
Introduction aux Chaînes de Markov
54 pages
Projet Statistique
Pas encore d'évaluation
Projet Statistique
17 pages
TD SeriesTemp PDF
Pas encore d'évaluation
TD SeriesTemp PDF
6 pages
Modélisation de la charge de sinistre
Pas encore d'évaluation
Modélisation de la charge de sinistre
1 page
TD 7
Pas encore d'évaluation
TD 7
2 pages
SÃrie3 Processus Alãatoires 2024 2025-CorrigÃ-exo3-1
Pas encore d'évaluation
SÃrie3 Processus Alãatoires 2024 2025-CorrigÃ-exo3-1
2 pages
Modèle collectif en assurance non-vie
Pas encore d'évaluation
Modèle collectif en assurance non-vie
16 pages
Exos STA240 Estimation
Pas encore d'évaluation
Exos STA240 Estimation
9 pages
Corrigé Statistique III L2
Pas encore d'évaluation
Corrigé Statistique III L2
2 pages
PDF M1 Examterm Jan2007
Pas encore d'évaluation
PDF M1 Examterm Jan2007
2 pages
100715O524008281118Tabel Chi Square PDF
Pas encore d'évaluation
100715O524008281118Tabel Chi Square PDF
1 page
Régression Linéaire Simplifiée
Pas encore d'évaluation
Régression Linéaire Simplifiée
58 pages
TD 3
Pas encore d'évaluation
TD 3
3 pages
MCP Cours Fateh
Pas encore d'évaluation
MCP Cours Fateh
78 pages
Cours Proba-Stat Chapitre VI
Pas encore d'évaluation
Cours Proba-Stat Chapitre VI
5 pages
2023 Lyon Sujet0
Pas encore d'évaluation
2023 Lyon Sujet0
9 pages
Estimation des Paramètres Statistiques
Pas encore d'évaluation
Estimation des Paramètres Statistiques
9 pages
Prevision
Pas encore d'évaluation
Prevision
79 pages
TD Probabilite ISTAG 2024
Pas encore d'évaluation
TD Probabilite ISTAG 2024
4 pages
Méthodes de Sondage - Echantillonnage Et Redressement
Pas encore d'évaluation
Méthodes de Sondage - Echantillonnage Et Redressement
198 pages
Série 3
Pas encore d'évaluation
Série 3
1 page
Proba
Pas encore d'évaluation
Proba
45 pages
Chaine Markov en Temps Continu
Pas encore d'évaluation
Chaine Markov en Temps Continu
26 pages
MAJ - Cours Traitement Info - 2!1!2024
Pas encore d'évaluation
MAJ - Cours Traitement Info - 2!1!2024
40 pages
Concours HEC 2005 : Épreuve de Mathématiques
Pas encore d'évaluation
Concours HEC 2005 : Épreuve de Mathématiques
4 pages
Estimation Ponctuelle et Échantillonnage
Pas encore d'évaluation
Estimation Ponctuelle et Échantillonnage
16 pages
TD 1 2019-2020
100% (1)
TD 1 2019-2020
2 pages