0% ont trouvé ce document utile (0 vote)

47 vues68 pages

Notes

Ce document présente les bases de la simulation aléatoire et de la représentation de données en Python pour l'étude des probabilités et de la statistique. Il introduit les bibliothèques et commandes Python utiles pour générer des variables aléatoires, illustrer des concepts probabilistes et effectuer des analyses statistiques.

Transféré par

eaigle2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

47 vues68 pages

Notes

Transféré par

eaigle2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mathématiques Assistées par Ordinateur -

Probabilités et Statistiques

Paul Melotti
Basé sur des notes de cours de Yan Pautrat

Master 1 mathématiques et applications

2020-2021

version du 30 avril 2021

MAO Probas-Stats

2
Université Paris-Saclay Master 1 mathématiques et applications

Table des matières

0 Rappels et commandes Python 5

0.1 L’aléatoire en Python . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2 Illustration de données . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . 7

1 Simulation de variables aléatoires 9

1.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Méthode par inversion . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Mélanges et conditionnement . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Générateurs pseudo-aléatoires (facultatif) . . . . . . . . . . . . . . . 15

2 Convergence des variables aléatoires 17

2.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Illustration de la convergence presque-sûre . . . . . . . . . . . . . . . 20
2.3 Illustration de la convergence en loi . . . . . . . . . . . . . . . . . . 21
2.4 Illustration de la convergence P . . . . . . . . . . . . . . . . . . . . . 23
2.5 Illustration des convergences Lp . . . . . . . . . . . . . . . . . . . . 23
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Grands théorèmes de convergence 27

3.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Théorèmes centraux limite . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Valeurs extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Principes de grandes déviations . . . . . . . . . . . . . . . . . . . . . 33

4 Tests et estimateurs classiques 37

4.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . 38
4.1.3 Méthode par insertion . . . . . . . . . . . . . . . . . . . . . 39
4.1.4 Méthode du maximum de vraisemblance . . . . . . . . . . . 39
4.2 Borne de Cramér-Rao et modèles exponentiels . . . . . . . . . . . . . 40

3
MAO Probas-Stats

4.2.1 Minoration du risque . . . . . . . . . . . . . . . . . . . . . . 40

4.2.2 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4 Tests d’hypothèses : définitions générales . . . . . . . . . . . . . . . 44
4.5 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1 Ajustement à une loi . . . . . . . . . . . . . . . . . . . . . . 45
4.5.2 Ajustement à une famille de lois . . . . . . . . . . . . . . . . 46
4.6 Texst de Kolmogorov et dérivés . . . . . . . . . . . . . . . . . . . . 47
4.7 Exercice supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Chaı̂nes de Markov 51
5.1 Simulation et résultats classiques . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Trajectoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.2 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.3 Période . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.4 Mesure invariante et théorème ergodique . . . . . . . . . . . 52
5.1.5 Convergence en loi vers l’équilibre . . . . . . . . . . . . . . 53
5.2 Méthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Algorithme de Metropolis–Hastings . . . . . . . . . . . . . . . . . . 55
5.4 Mesures de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.5 Méthode du recuit simulé . . . . . . . . . . . . . . . . . . . . . . . . 58
5.5.1 Algorithme du recuit . . . . . . . . . . . . . . . . . . . . . . 59
5.5.2 Vitesse de convergence : méthode spectrale . . . . . . . . . . 61
5.6 Exercice supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . 62

6 Martingales 63
6.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Quelques résultats de convergence . . . . . . . . . . . . . . . . . . . 64
6.3 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . . . . 66

4
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 0

Rappels et commandes Python

Commençons par donner les bases de la simulation en Python, et de la représentation

de données.
0.1 L’aléatoire en Python
Pour des rappels généraux sur le fonctionnement de Python, vous pouvez consulter
en préambule le polycopié de Sophie Lemaire, que vous avez peut-être déjà pratiqué :
http://www.math.u-psud.fr/˜lemaire/polyl3python.pdf
Vous êtes également encouragé·e·s à vous servir de l’aide de Python, soit en ligne
soit directement depuis votre gestionnaire, quel qu’il soit. On commencera toujours par
invoquer les modules suivants :

import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import numpy.random as rnd
import scipy.stats as sts

Vous connaissez sans doute déjà les bibliothèques numpy et scipy, qui contiennent
un grand nombre de fonctions mathématiques et de structures de données utiles. Vous
connaissez certainement celle que l’on a nommée plt, qui permet de faire des gra-
phiques.
Le paquet random de numpy que nous avons abrégé en rnd, permet de réaliser des
simulations indépendantes de lois classiques. La syntaxe est particulièrement simple.
Allez voir la page en ligne pour quelques exemples.
Le paquet stats de scipy que nous avons abrégé en sts dans notre préambule,
permet de réaliser des simulations indépendantes de lois classiques, mais aussi d’avoir
accès aux densités, fonctions de répartition, quantiles. . . de ces lois. La philosophie est
un peu plus orientée objet : par exemple, si on travaille avec une variable aléatoire
X de loi N (1, 22 ), taper X=sts.norm(1,2) ne renvoie pas une réalisation mais un
ojet qui représente la variable aléatoire dans sa globablité. Pour avoir une simulation
aléatoire, on pourra taper X.rvs(). Pour connaı̂tre la densité de cette loi en x = 5
on peut faire appel directement à X.pdf(5) (ou à sts.norm.pdf(5,1,2) mais
il faut alors faire attention à l’ordre des variables).

5
MAO Probas-Stats

0.2 Illustration de données

Les principales commandes pour illustrer des données sont les suivantes ; elles
sont toutes issues du paquet matplotlib.pyplot, que nous avons abrégé en plt.
N’hésitez pas à consulter l’aide quand vous voulez les utiliser :
• plt.plot pour les tracés de courbes,
• plt.step pour les tracés de fonctions en escalier,
• plt.stem pour les diagrammes bâton,
• plt.scatter pour les nuages de points,
• plt.hist pour les histogrammes.
Pour les quatre premières, la syntaxe de base est plt.commande(X,Y) oùX et Y sont
des listes ou tableaux de réels et de même longueur. La syntaxe de plt.hist est,
forcément différente : plt.hist(X) trace un histogramme obtenu en regroupant les
valeurs contenues dans X dans des classes, la hauteur étant proportionnelle au nombre
de points tombant dans la classe. On peut/doit utiliser les options suivantes :
• bins=c (où c est un entier) imposera c classes, bins=’auto’ fait un choix
automatique ;
• density=True normalise les hauteurs pour avoir une surface totale égale à 1,
density=False conserve une hauteur égale au nombre de points.

Exercice 1 On se demande à présent comment tracer de manière la fonction de répartition

empirique FbN d’un N -échantillon Y (1) ,. . . ,Y (N ) . Celle-ci est définie par
n
1X
FbN (x) = 1lY ≤x .
n i=1 i

On note Y(1) , . . . , Y(N ) la statistique d’ordre associée à Y (1) , . . . , Y (N ) (autrement

dit, les Y(1) , . . . , Y(N ) sont les Y (1) , . . . , Y (N ) ordonnés par ordre croissant). Si Y est
un vecteur contenant les valeurs Y (1) , . . . , Y (N ) , comment obtenir un vecteur Yord
contenant les Y(i) (dans le bon ordre) ? Combien vaut FbN sur l’intervalle [Y(i) , Y(i+1) [ ?
Comment tracer une fonction en escalier ?

0.3 Lois classiques

On rappelle ici les lois les plus classiques, et leurs notations qui seront utilisées tout
au long de ces notes.
0.3.1 Lois discrètes
Mesure de Dirac δx : pour x ∈ Rd , c’est une loi qui vaut x avec probabilité 1.
Loi de Bernouilli B(p) de paramètre p ∈ [0, 1] : elle vaut 1 avec probabilité p et 0
avec probabilité 1 − p. Autrement dit

B(p) = pδ1 + (1 − p)δ0 .

6
Rappels et commandes Python

Loi binomiale B(n, p) de paramètres n ∈ N∗ et p ∈ [0, 1] : elle est à support dans

{0, . . . , n} et vaut k ∈ {0, . . . , n} avec probabilité

n k
p (1 − p)n−k .
k
Une variable aléatoire de loi B(n, p) est égale en loi à la somme de n variables aléatoires
indépendantes de loi B(p). Ainsi, dans le cas n = 1, c’est une généralisation du cas
précédent.
Loi uniforme discrète U({a1 , . . . , an }) : pour un ensemble fini {a1 , . . . , an }, la loi
uniforme discrète est définie comme
n
1X
U({a1 , . . . , an }) = δ ak .
n
k=1

Autrement dit, tous les éléments sont équiprobables de probabilité n1 .

Loi géométrique G(p) de paramètre p ∈]0, 1] : c’est la loi du moment du premièr
succès dans un jeu de pile ou face avec probabilité p de gagner et q = 1 − p de perdre.
Elle est portée par N∗ , et la probabilité de k ∈ N∗ est pq k−1 .
Loi de Poisson P(λ) de paramètre λ > 0 : elle est portée par N, et la probabilité de
k ∈ N est
λk
e−λ .
k!
0.3.2 Lois continues
Loi uniforme U([a, b]) sur l’intervalle [a, b] avec a < b : c’est la loi de densité
1
1l[a,b] (x).
b−a
Loi exponentielle E(λ) de paramètre λ > 0 : c’est la loi de densité
λ exp(−λx)1lR+ (x).
Loi normale (ou gaussienne) N (m, σ 2 ) de moyenne m ∈ R et de variance σ 2 > 0 :
c’est la loi de densité
(x − m)2

1
√ exp − .
2πσ 2 2σ 2
Loi de Cauchy C(λ) de paramètre λ > 0 : c’est la loi de densité
1 λ
.
π λ 2 + x2
Cette loi n’est pas dans L1 : une variable aléatoire de Cauchy n’admet pas d’espérance.
Loi Gamma Γ(a, λ) de paramètres a > 0 et λ > 0 : c’est la loi de densité
λa a−1
x exp(−λx)1lR+ (x)
Γ(a)
où dans cette formule, Γ(a) désigne la valeur en a de la fonction Gamma d’Euler.
Rappelons aussi qu’il existe des mesures de probabilité sur R qui ne sont ni discrètes,
ni à densité par rapport à la mesure de Lebesgue.

7
MAO Probas-Stats

8
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 1

Simulation de variables aléatoires

Dans ce chapitre, on se donne une suite de variables i.i.d. (U1 , U2 , . . . ) uniformément

distribuées dans [0, 1] (on peut penser à des appels successifs à la fonction random()
du paquet numpy.random par exemple). On veut l’utiliser pour simuler n’importe
quelle autre variable aléatoire de notre choix.
Dans la plupart des cas, on pourrait atteindre notre objectif en utilisant d’autres
fonctions des paquets numpy.random ou scipy.stats. Mais l’objectif est de
comprendre comment ces commandes fonctionnent, d’acquérir des bases théoriques,
et de savoir simuler des variables plus exotiques si on en rencontre un jour.
Bien sûr cela repousse le problème : comment l’ordinateur produit-il des nombres
aléatoires uniformes dans [0, 1] ? Pour les plus curieu·x·ses, on donne quelques éléments
de réponse à la fin de ce chapitre.
1.1 Lois discrètes
Commençons par un exercice instructif :

Exercice 2 Soit p ∈]0, 1[. Écrire une fonction qui simule une loi de Bernouilli B(p) à
l’aide de la fontion random.
Une loi discrète est à support dans un ensemble au plus dénombrable.Si on a com-
pris le cas de la variable de Bernouilli, le résultat suivant n’est qu’une généralisation.
P
Proposition 1.1.1 (Simulation canonique de lois discrètes) Soit µ = k∈N pk δxk
une loi sur un ensemble au plus dénombrable {x0 , x1 , . . .}. Soit s−1 = 0 et pour
tout k ∈ N, sk = sk−1 + pk . Soit U une variable aléatoire uniforme sur [0, 1]. Alors la
variable aléatoire X
X= xk 1l]sk−1 ,sk ] (U )
k∈N

suit la loi µ.

Exercice 3 Prouver la Proposition 1.1.1.

Exercice 4 Écrire un programme qui prend en entrée un vecteur de probabilités probas

et retourne une réalisation d’une variable aléatoire à valeurs dans {0, . . . , n − 1} et
de loi donnée par le vecteur de probabilités probas.

9
MAO Probas-Stats

Le programme suggéré par cet exercice ne permet pas a priori de simuler une loi
dont le support est infini dénombrable, comme une loi géométrique par exemple. De
plus, pour certaines lois spécifiques, il peut exister des méthodes plus efficaces. On va
en voir quelques unes.

Proposition 1.1.2 (Simulation de la loi uniforme discrète) Soit n ∈ N∗ . Si U est une

variable aléatoire uniforme sur [0, 1] alors la variable aléatoire bnU c + 1 suit la loi
uniforme discrète sur {1, . . . , n}.

Proposition 1.1.3 (Simulation de la loi géométrique) Soit p ∈]0, 1[. Si U est une va-
log U
riable aléatoire uniforme sur [0, 1] alors la variable aléatoire b log(1−p) c + 1 suit la loi
géométrique G(p).

Exercice 5 Prouver les Propositions 1.1.2 et 1.1.3. On pourra au choix montrer qu’il
s’agit en fait d’applications de la Proposition 1.1.1, ou utiliser une méthode directe.

Proposition 1.1.4 (Simulation de la loi de Poisson) Soit λ > 0. Si (Un )n∈N∗ est une
suite i.i.d. de variables aléatoires uniformes sur [0, 1] alors la variable aléatoire

N = inf{n ≥ 0 | U1 × . . . × Un+1 < e−λ }

est finie presque sûrement et suit la loi de Poisson P(λ).

1.2 Méthode par inversion

On va maintenant passer à des lois µ réelles quelconques. L’objet fondamental
de cette section est la fonction de répartition, définie par F (x) = µ(] − ∞, x]). On
rappelle que F est une fonction croissante, en tout point continue à droite avec une
limite à gauche, a une quantité au plus dénombrable de points de discontinuité, et que
limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1. On définit son pseudo-inverse F (−1)
comme la fonction
F (−1) : ]0, 1[ → R
q 7→ inf{x ∈ R | F (x) ≥ q}.

Le résultat suivant dit que si l’on sait simuler la loi uniforme sur [0, 1], alors on sait
simuler la loi µ :

Théorème 1.2.1 Soit µ une mesure de probabilité sur R, F sa fonction de répartition

et F (−1) son pseudo-inverse. Alors si U est une variable de loi uniforme sur [0, 1], la
variable F (−1) (U ) a pour loi µ.

Exercice 6
1. Montrer que q ≤ F (x) ⇔ F (−1) (q) ≤ x, et que F ◦ F (−1) (q) ≥ q avec égalité
si et seulement si q ∈ Im F .
2. Soit U ∼ U([0, 1]). Montrer que F (−1) (U ) est une variable aléatoire de fonction
de répartition F .

10
Simulations de variables aléatoires

On a donc une méthode très générale et directement applicable de simulation de la

loi µ sur R : on calcule (à la main) F (−1) , on simule une uniforme U et on choisit
X = F (−1) (U ).

Remarque 1.2.2 Dans le cas où µ est une loi discrète, le Théorème 1.2.1 se ramène
en fait à la Proposition 1.1.1.

L’exercice suivant propose des applications pratiques.

Exercice 7 Appliquez la méthode du Théorème 1.2.1 pour écrire des fonctions permet-
tant de simuler des échantillon de :
1. une loi µ discrète avec µ({xi } = pi (ici l’objectif est de s’apercevoir que le
travail est déjà fait),
2. exponentielle E(λ),
3. de Cauchy C(λ),
4. de Weibull 1 W(a, λ).
Tenter, et échouer, de calculer F (−1) dans le cas où µ est une loi normale.

Cette méthode très générale a cependant plusieurs défauts pratiques, comme on

le voit avec de cas le la loi normale. Dans les paragraphes qui suivent on va donner
d’autres méthodes, qui permettront notamment de simuler la loi normale.
1.3 Méthode de rejet
Une autre méthode générale est la méthode de rejet, qui permet de simuler une
loi µ conditionnée à prendre des valeurs dans une sous-partie B de Rd , dès que l’on
sait simuler la loi µ non conditionnée. Comme on va le voir, une application directe
mais particulièrement intéressante est la simulation d’une loi µ à densité f , dès que
l’on sait simuler une loi ν à densité g, avec f ≤ λg pour un certain λ > 0.

Proposition 1.3.1 Soit (Xn )n une suite de variables aléatoires indépendantes de loi
µ et B un borélien tel que µ(B) > 0. Soit T le plus petit entier n ≥ 1 tel que Xn ∈ B.
Alors
1. T est une variable aléatoire de loi géométrique de paramètre µ(B),
2. XT est une variable aléatoire indépendante de T ayant pour loi la loi condition-
nelle µ(.|B).

Exercice 8 Prouvez la Proposition 1.3.1.

Une application directe de la Proposition 1.3.1 est le tirage uniforme suivant la loi
uniforme sur un Borélien B de Rd , quand on sait effectuer un tirage uniforme sur un
autre Borélien C ⊃ B. En voici un exemple :
1. qui pour a > 0 et λ > 0 a pour densité f (x) = aλxa−1 exp(−λxa )1lR+ (x).

11
MAO Probas-Stats

Exercice 9 Écrire une fonction Python tirant un point uniformément dans le disque
unité D. On pourra utiliser une instruction while. En moyenne, combien de tirages
de l’uniforme sur [−1, +1]2 faut-il pour obtenir un tirage de l’uniforme sur D ?

Cette méthode permet également de simuler des lois à densité. On utilisera pour
cela les deux résultats suivants, parfois appelés théorèmes densité-surface.

Proposition 1.3.2 Soit ν une mesure de probabilité sur (Rd , B(Rd )) admettant une
densité g par rapport à la mesure de Lebesgue. Soit Xν une variable aléatoire de loi ν
et U une variable aléatoire indépendante de Xν , de loi U([0, 1]). Alors la variable
(Xν , U g(Xν )) suit une loi uniforme sur

Eg = {(x, y) ∈ Rd × R+ | 0 < y < g(x)}.

On a également un résultat réciproque :

Lemme 1.3.3 Soit (X, Y ) une variable aléatoire de loi uniforme sur Eg comme ci-
dessus. Alors X suit la loi de densité g par rapport à la mesure de Lebesgue.

Exercice 10 Prouvez la Proposition 1.3.2 et le Lemme 1.3.3.

Une conséquence immédiate des Propositions 1.3.1 et 1.3.2 est la suivante :

Proposition 1.3.4 Soient µ et ν deux mesures de probabilité sur (Rd , B(Rd )) de den-
sités f , g respectivement par rapport à la mesure de Lebesgue, et telles que f ≤ λg
Lebesgue-presque partout, pour un certain λ > 0. Soit (Xn )n une suite de variables
aléatoires indépendantes de loi ν, (Un )n une suite de variables aléatoires indépendantes
de loi uniforme U([0, 1]), et T le plus petit entier n ≥ 1 tel que λUn g(Xn ) ≤ f (Xn ).
Alors
1. T est une variable aléatoire de loi géométrique de paramètre 1/λ,
2. XT est une variable aléatoire de loi µ.

Preuve. La Proposition 1.3.2 montre que (Xn , Un λg(Xn )) est une suite i.i.d. de
loi uniforme sur Eλg . La RProposition 1.3.1 montre à son tour que T suit une loi
f (x) dx
géométrique de paramètre R λg(x) dx = 1/λ, et que (XT , UT λg(XT )) suit une loi uni-
forme sur Ef . Le Lemme 1.3.3 montre que XT suit une loi de densité f par rapport à
la mesure de Lebesgue. 2
La Proposition 1.3.4 donne à nouveau une méthode générale et facilement appli-
cable. Le cas le plus simple est celui d’une densité f sur un intervalle borné de R,
acceptant une borne uniforme, auquel cas on peut choisir g constante. Remarquez que
l’on a intérêt à choisir le λ le plus petit possible (mais respectant, bien sûr, la contrainte
f ≤ λg), puisque E[T ] = λ.

Exercice 11 On cherche à simuler la loi normale centrée réduite N (0, 1).

12
Simulations de variables aléatoires

1. Montrer que si X a pour loi N (0, 1), alors |X| suit la loi de densité
r 2
2 x
f (x) = exp − 1lR+ (x).
π 2

Cette loi s’appelle la loi demi-normale.

2. On considère une variable Y qui suit la loi E(1). Rappeler sa densité g et trouver
un λ > 0 tel que f ≤ λg.
3. En déduire un algorithme permettant de simuler la loi demi-normale par rejet.
4. Si on sait simuler une loi demi-normale, comment simuler une loi normale ?

Remarque 1.3.5 Une manière de choisir une loi ν facilement simulable et donnant
un λ petit est de polygonaliser le domaine Ef et d’utiliser l’algorithme décrit dans
l’exercice 17.

1.4 Mélanges et conditionnement

Nous allons formuler la notion de mélange dans un cadre relativement abstrait, qui
couvrira de nombreuses situations, et nous apprendra le principe suivant :
Si l’on sait simuler la loi de Y et toutes les lois conditionnelles de X
sachant Y = y, alors on sait simuler la loi de (X, Y ).
Soit (µy )y∈Rd une collection de mesures de probabilités sur Rd , et ν une autre me-
sure de probabilité sur Rd . On suppose que chaque σ-algèbre associée est soit la tribu
borélienne, soit la tribu engendrée par une famille dénombrable de points. On suppose
aussi que pour tout événement A, y 7→ µy (A) est mesurable. On dit alors qu’une me-
sure de probabilité µ est un mélange de (µy )y d’intensité ν si pour tout événement
A, Z
µ(A) = µy (A) dν(y). (1.1)

Ce formalisme correspond au cas où une variable aléatoire Y a pour loi ν, et qu’une
autre variable X a pour “loi conditionnelle à Y = Ry” 2 la loi µy . La loi de X est alors µ :
pour φ une fonction continue bornée, et ψ : y 7→ φ(x) dµy (x), on a :
Z ZZ

E φ(X) = E E(φ(X)|Y ) = E ψ(Y ) = ψ(y) dν(y) = φ(x) dµy (x)dν(y)

R
et cette dernière expression est φ(x) dµ(x), ce qui prouve bien que la loi de X est µ.
Par conséquent, si l’on sait simuler une famille de lois (µy )y sur Rd comme ci-
dessus, et que l’on sait simuler une autre loi ν sur Rd , alors on sait simuler la loi µ
définie par (1.1) : il suffit de simuler Y de loi ν puis, si l’on a obtenu un résultat y, de
simuler la loi µy .
R
2. Au sens où pour tout ϕ mesurable, la variable E(ϕ(X)|σ(Y )) est la fonction y 7→ ϕ(x) dµy (x)
évaluée en Y . Voir par exemple le polycopié de J.-F. Le Gall, “intégration, probabilités et processus
aléatoires”.

13
MAO Probas-Stats

Exercice 12 Cet exercice est lié à un texte d’agrégation écrit par Florent Malrieu.
On suppose qu’une falaise est habitée par quatre espèces de mouettes. Chaque espèce
fabrique un nid dont le diamètre suit une loi N (mi , σi2 ), et les espèces sont en pro-
portions pi , i = 1, . . . , 4. Ecrire une fonction qui simule le résultat d’une observation
aléatoire de nid.

Exercice 13 (*) En utilisant la notion de mélange et le Théorème 1.2.1, démonter le

résultat suivant :
Pour toute loi µ sur Rd , il existe une fonction borélienne fµ : Rd → Rd dont l’en-
semble des points de discontinuité est Lebesgue-négligeable et telle que, si U1 , . . . , Ud
sont des variables i.i.d uniformes sur [0, 1], la variable fµ (U1 , . . . , Ud ) suit la loi µ.
Ce résultat justifie qu’on puisse simuler tout ce que l’on veut à l’aide de va-
riables uniformes indépendantes, mais en pratique l’explicitation d’une fonction fµ
n’est pas forcément simple, ni même possible.

1.5 Exercices
Exercice 14 Si B1 , . . . , Bn sont des variables de Bernoulli indépendantes de loi B(p),
la variable B1 + . . . + Bn suit une loi binomiale B(n, p). Utiliser ce résultat pour
donner une fonction qui simule une loi binomiale de paramètres n et p.

Exercice 15 (Algorithme de Box-Müller) On donne ici la méthode classique de si-

mulation des lois normales. Soient U1 et U2 sont deux variables aléatoires indépendantes
de loi U([0, 1]). Montrer que les variables X1 et X2 définies par
p p
X1 = −2 log U1 cos(2πU2 ) X2 = −2 log U1 sin(2πU2 )

sont indépendantes et de même loi N (0, 1). En déduire une fonction qui simule un
échantillon (X1 , . . . , Xn ) de variables aléatoires i.i.d. de loi N (0, 1).

Exercice 16 Montrez la réciproque partielle suivante de l’exercice 6 : si X une va-

riable aléatoire de fonction de répartition F continue, montrez que F (X) ∼ U ([0, 1])
si F est continue, et que F continue équivaut à F (R) ⊃]0, 1[.

Exercice 17 Comment peut-on simuler une variable de loi uniforme dans un pavé
[0, r1 ] × . . . × [0, rd ] de Rd ? On poursuit avec le cas d = 2. Dans ce cas, com-
ment simuler une variable de loi uniforme dans un rectangle quelconque, de som-
mets A = (a1 , a2 ), B = (b1 , b2 ), C = (c1 , c2 ), D = (d1 , d2 ) ? Comment simuler
une variable de loi uniforme dans un triangle rectangle de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? et dans un triangle quelconque de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? Programmez une fonction qui, en fonction des variables
d’entrée A,B,C, effectue ce tirage.
À partir de cette méthode et d’un algorithme de découpage d’un polygone en tri-
angles, on peut construire une fonction permettant de tirer des lois uniformes sur un
polygone quelconque. Ceci peut être très utile pour accélérer des méthodes par rejet.

14
Simulations de variables aléatoires

1.6 Générateurs pseudo-aléatoires (facultatif)

L’objectif de cette section est de donner quelques éléments de réponse à la ques-
tion : comment l’ordinateur produit-il des nombres aléatoires ? Jusqu’ici on a vu qu’on
pouvait tout ramener à la fonction random, qui renvoie des nombres aléatoires uni-
formes dans [0, 1]. Mais comment fonctionne-t-elle ?
Première remarque : si on sait simuler une loi uniforme discrète dans {0, 1, . . . , m−
1} pour m assez grand, alors en divisant par m on aura une bonne approximation d’une
loi uniforme sur [0, 1].
On cherche donc à produire une suite de nombres (xn )n∈N appartenant à {0, 1, . . . , m−
1} dont les propriétés sont proches d’une suite aléatoire. Les méthodes dont on va parler
sont basées sur des algorithmes déterministes, construits pour que les résultats soient
suffisamment chaotiques pour être indistinguables d’une suite de nombres iid. C’est
pourquoi on parle de nombre pseudo-aléatoires 3
La plupart des générateurs sont construits sur une relation de récurrence xn+1 =
f (xn ). Ils sont donc nécessairement périodiques, de période maximale m. Si cette
période est trop petite, le générateur est assez mauvais. Le cas le plus classique consiste
à utiliser une méthode de congruence simple :

xn = (axn−1 + b) mod m

pour un bon choix de a, b, m et d’une valeur initiale x0 , appelée graine ou seed 4 .

Exercice 18 Pour a = 6, b = 0, m = 25 et x0 = 1, quelle est la période du générateur

précédent ? Que dire de la qualité de ces nombres pseudo-aléatoires ?

Il existe un moyen d’assurer que la période maximale est atteinte, grâce à un

théorème de Hull et Dobell (que l’on admettra) :

Théorème 1.6.1 (Hull et Dobell) Soient a, b, m tels que

(i) b et m sont premiers entre eux,
(ii) (a − 1) est un multiple de chaque nombre premier qui divise m,
(iii) si m est multiple de 4 alors a − 1 l’est aussi.
Alors pour tout x0 ∈ {0, . . . , m − 1}, la suite définie par la récurrence

xn = (axn−1 + b) mod m

a pour période m.

Exercice 19 Produire des triplets (a, b, m) vérifiant les hypothèses avec m arbitraire-
ment grand.
3. Il est aussi possible de générer de l’aléatoire par des processus physiques, en mesurant des fluctuations
de température ou de tension par exemple. On ne parlera pas de ces méthodes ici.
4. Ainsi, si on lance le même programme sur deux ordinateurs différents avec la même seed, on obtiendra
la même suite pseudo-aléatoire. Cela peut être pratique pour reproduire des résultats. Si au contraire on veut
que la suite soit toujours différente (ou presque), on peut choisir une seed différente à chaque fois, par
exemple l’heure du système en ms.

15
MAO Probas-Stats

C’est déjà un bon point : on peut produire des suites de période maximale, grâce à
une récurrence très simple à calculer. On a donc une certaine équirépartition, mais cela
n’empêche pas qu’il y ait des fortes corrélations, par exemple entre xi et xi+1 ...

Exercice 20 On prend a = 9, b = 3, m = 256. Testez quelques termes de la suite

à l’aide d’une fonction Python. Ces nombres vous semblent-ils satisfaisants comme
nombres aléatoires ?
Tracer les 256 points (xi , xi+1 ) dans un nuage de points et commenter.
L’exercice précédent montre que de fortes corrélations peuvent subsister. Une manière
d’y remédier est d’utiliser une méthode de congruence avec retard r ∈ N∗ :

xn = (axn−r + b) mod m

et l’on doit désormais choisir r valeurs initiales (ou bien les générer à partir d’une seule
graine x0 et d’une méthode de congruence simple).

Exercice 21 Tracer 256 points (xi , xi+1 ) pour la méthode de congruence avec retard
avec m = 256, a = 5, b = 1, r = 6. On calculera les termes x0 , . . . , x5 à l’aide d’une
congruence simple avec m = 8, x0 = 1, a = 5, b = 1.
Il existe bien d’autres méthodes de génération pseudo-aléatoire (méthode du carré
médian, de congruence avec mélanges, de l’inverse, de registre à décalage, ou même
basées sur des calculs rapides de décimales de nombres comme π...). Leur étude est
souvent assez délicate et il n’est pas évident de répérer leurs défauts potentiels au pre-
mier coup d’œil. Il est judicieux de les soumettre à des tests statistiques pour évaluer
leur qualité, comme le test du χ2 . On aura l’occasion d’effectuer de tels tests en TP.

16
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 2

Convergence des variables aléatoires

Le but de ce chapitre est de rappeler les différents modes de convergence de suites

(Xn )n variables aléatoires, leurs propriétés et relations, et de voir comment les illustrer.
L’illustration dont on parle ici ne joue pas forcément le rôle d’exemple qui suit un
théorème : c’est aussi un outil pour étudier un modèle et établir des conjectures sur
son comportement. Mais l’illustration n’est pas non plus une preuve et une fois la
conjecture établie, il restera à la démontrer. Dans toute la suite, on suppose à chaque
fois que l’on sait simuler les variables aléatoires (Xn )n mais pas forcément que
l’on sait simuler la limite X.

2.1 Rappels
Dans cette section, on rappelle sans preuve 1 les définitions et propriétés fondamen-
tales des modes de convergence pour des suites de variables aléatoires. Dans toute cette
section, (Xn )n , (Yn )n , etc. représenteront des suites de variables aléatoires. Suivant
les cas, les variables Xn correspondant à différentes valeurs de n vivront sur différents
espaces de probabilité (Ωn , Fn , Pn ), ou au contraire sur un même espace (Ω, F, P).
Toutes les variables considérées sont à valeurs dans un espace Rd muni d’une norme
k · k (dont le choix importe peu : toutes ces normes sont équivalentes). On rappelle
d’abord les définitions générales :

Définition 2.1.1 On dit que :

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge presque-sûrement
vers une variable X, également sur (Ω, F, P), si

P( lim Xn = X) = 1.
n→∞

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en norme Lp (où
p ≥ 1) vers une variable X, également sur (Ω, F, P), si

lim E(kXn − Xkp ) = 0.

n→∞

1. Vous trouverez des preuves de ces résultats dans votre livre favori de probabilités, et des contre-
exemples à “toutes” les autres implications dans le livre Counterexamples in probability de Stoyanov.

17
MAO Probas-Stats

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en probabilité

vers une variable X, également sur (Ω, F, P), si pour tout > 0,

lim P(kXn − Xk > ) = 0.

n→∞

• une suite de variables aléatoires (Xn )n sur (Ωn , Fn , Pn ) converge en loi vers
une variable X sur (Ω, F, P), si pour toute fonction continue bornée ϕ sur Rp ,

lim E ϕ(Xn ) = E ϕ(X) .
n→∞

p.s. P Lp L
On note →, →, →, → respectivement ces quatre modes de convergence.

Remarque 2.1.2 La convergence en loi peut donc s’énoncer pour des variables vivant
sur des espaces de probabilité différents puisque la convergence concerne la loi des
variables et non les variables elles-mêmes.
On rappelle maintenant les relations générales entre ces différents modes de conver-
gence, qui sont résumées par la Figure 2.1.

Lq
q≥ p

p.s.
Lp
p≥ 1
suite extraite
(X np)n u.i.

limite constante

loi

F IGURE 2.1 – La Proposition 2.1.3 en image

Proposition 2.1.3
1. La convergence presque-sûre implique la convergence en probabilité,
2. la convergence Lq implique la convergence Lp si q ≥ p, et la convergence en
probabilité,
3. la convergence en probabilité implique la convergence en loi,
4. la convergence en loi d’une suite (Xn )n vers une constante c implique la conver-
gence en probabilité vers c
5. la convergence en probabilité implique la convergence presque-sûre d’une suite
extraite,

18
Convergence des variables aléatoires

6. la convergence en probabilité d’une suite (Xn )n vers X est équivalente à la

convergence L1 de inf(kXn − Xk, 1) vers 0,
7. on a équivalence entre les deux points suivants :
P
• (Xn )n est uniformément intégrable et Xn → X,
L1
• X est intégrable et Xn → X.

Rappelons qu’une suite (Xn )n est uniformément intégrable (ou u.i.) si et seulement
si elle vérifie l’une des deux conditions équivalentes suivantes :

lim sup E(|Xn |1l|Xn |>c ) = 0

c→∞
∀ > 0, ∃δ > 0 tel que P(A) < δ ⇒ sup E(|Xn |1lA ) < .
n

Il est immédiat que s’il existe Y intégrable telle que pour tout n, on a |Xn | ≤ Y p.s.
alors (Xn )n est u.i.

Proposition 2.1.4 Si f est une fonction continue, alors :

p.s. p.s.
• Si Xn → X, on a f (Xn ) → f (X),
P P
• si Xn → X, on a f (Xn ) → f (X),
L L
• Si Xn → X, on a f (Xn ) → f (X).

Ces résultats sont utiles si on les combine avec la proposition suivante, puisqu’ils per-
mettront de discuter par exemple la convergence de (Xn + Yn )n si l’on suppose la
convergence de (Xn )n et de (Yn )n :

Lemme 2.1.5
p.s. p.s. p.s.
• Si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ),
P P P
• si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ).

Remarque 2.1.6 Pour la convergence en loi, il n’y a pas de résultat aussi simple, et en
L L L L
particulier Xn → X et Yn → n’implique pas Xn +Yn → X+Y , ni Xn ×Yn → X×Y .
La raison en est que la loi de X + Y , par exemple, ne dépend pas que des lois de X et
de Y mais de la loi du couple (X, Y ). Considérez par exemple Xn ∼ 12 δ−1 + 12 δ+1
L L
et Yn = −Xn , auquel cas Xn → X1 , Yn → X1 mais Xn + Yn = 0 ne converge pas
en loi vers 2X1 .

Un résultat particulièrement utile dans cette direction est le lemme de Slutsky :

L L
Lemme 2.1.7 (lemme de Slutsky) Si Xn → X et Yn → c où c est une constante,
L
alors (Xn , Yn ) → (X, c).

19
MAO Probas-Stats

2.2 Illustration de la convergence presque-sûre

La convergence presque-sûre est la plus simple à illustrer. Pour cela, on répète
plusieurs fois l’opération suivante :
• on simule quelques réalisations de la suite (Xn )n pour n ≤ nmax ,
• pour chaque réalisation, on trace la suite des valeurs obtenues.
Si la convergence a lieu, les tracés doivent tous avoir une asymptote. Cependant :
• Il faut faire attention à ce que, pour une réalisation de la suite (Xn )n , chaque
Xn (ω) corresponde au même ω, et que l’on ne change pas l’aléa pour chaque n.
L’exercice 22 illustre la différence entre les deux situations.
• On a l’habitude d’illustrer la convergence presque-sûre dans des cas du type “loi
des grands nombres” auquel cas la limite est une constante et les trajectoires
p.s.
ont toutes la même asymptote. Il faut faire attention au fait que si Xn → X
mais que la variable limite X n’est pas presque-sûrement constante, la limite
peut dépendre du ω, donc l’asymptote n’est pas forcément la même pour toutes
les réalisations de suites (voir les exercices 22 et 28). En revanche il n’est pas
p.s.
nécessaire de savoir simuler X pour illustrer Xn → X, et l’on peut même esti-
mer la loi de X grâce à ces simulations.
Ce que l’on a écrit ci-dessus pose plusieurs questions :
combien de tracés ? On veut illustrer le fait que p := P ω | Xn (ω) converge) est
égale à 1. Si l’on fait M tracés indépendants, la probabilité de n’avoir “choisi” que des
ω pour lesquels on a convergence est pM . On peut formaliser la situation par un test
statistique, dans lequel on souhaite distinguer entre H0 : p = 1 et H1 : p < 1, et
on rejette H0 si on observe une réalisation sans convergence parmi les M réalisations
indépendantes. On peut connsidérer que l’erreur de première espèce est 0, car on ne re-
jettera jamais H0 à tort (pourvu que les trajectoires soient assez longues pour constater
la convergence, voir le point suivant), et la puissance du test est 1 − pM . On choisira
alors M en fonction de la puissance souhaitée.
Notons que dans de nombreuses situations (en particulier quand une loi du 0-1
s’applique) on pourra prouver que la probabilité de convergence est soit 0, soit 1 ; dans
ce cas il suffira d’observer la convergence dans une situation pour avoir une indication
de la convergence presque-sûre.
quelle longueur de trajectoire ? autrement dit, jusqu’à quelles valeurs de nmax pous-
ser ? Il n’y a pas de bonne réponse puisque cela dépend de la vitesse de convergence,
que l’on ne connaı̂t pas (sauf dans le cas où l’on cherche simplement à illustrer un
résultat). L’erreur que l’on risque de commettre par un mauvais choix de nmax est de
conclure à l’absence de convergence, alors que la convergence est seulement trop lente.
peut-on en tirer une estimation de la vitesse de convergence ? on pourra tenter
d’intuiter la vitesse de convergence en utilisant des tracés modifiés : si un tracé log-log
(c’est-à-dire un tracé de log(Xn − X) en fonction de log n) a une apparence affine,
alors la convergence semble être polynomiale (d’exposant égal à la pente négative), si
un tracé logarithmique a une apparence affine, la convergence semble être exponentielle
(de taux égal à la pente négative). . .

20
Convergence des variables aléatoires

Exercice 22 Soit (Rn )n∈N une suite i.i.d. de variables de Rademacher P(R0 = ±1) =
1/2. Pour un a ∈] − 1, +1[ fixé on pose

Xn = a0 R0 + . . . + an−1 Rn−1 .

Montrez que la suite Xn converge presque-sûrement. Supposons maintenant que pour

la simulation de chaque Xn , on tire à nouveau les R0 , . . . , Rn−1 , de sorte que ce qu’on
calcule est
Xn0 = a0 Rn,0 0 0
+ . . . + an−1 Rn,n−1
0
où les (Ri,j ) sont iid de même loi. A-t-on à nouveau convergence presque-sûre ? et
pour
Xn00 = a0 Rn−1 + . . . + an−1 R0 ?

2.3 Illustration de la convergence en loi

Il existe plusieurs méthodes pour illustrer la convergence en loi, dont les plus clas-
siques sont :
• dans le cas de variables aléatoires discrètes, le tracé de diagrammes en bâton,
• dans le cas de variables à densité, le tracé des densités,
• le tracé d’histogrammes,
• le tracé de fonctions de répartitions empiriques.
Les deux première méthodes sont basées sur les résultat suivant :

Proposition 2.3.1
• Si (Xn )n est une suite de variables aléatoires à valeurs dans un ensemble dis-
cret D, alors (Xn )n converge en loi si et seulement
P si pour tout d ∈ D, la limite
µd = limn→∞ P(Xn = d)n existe et que d µd = 1. Dans ce cas, la loi limite
est portée par D et décrite par les µd .
• (Lemme de Scheffé) Si (Xn )n est une suite de variables aléatoires de densités
(fn )n , et que la suite (fn )n converge en tout point vers f , alors (Xn )n converge
en loi, vers une loi de densité f .
Remarquons bien que le lemme de Scheffé ne donne qu’une condition suffisante. Au-
trement dit un tracé de densités ne permettra de conjecturer que la convergence en loi,
et pas la non-convergence en loi.
Dans la suite, nous parlerons principalement de la méthode par les fonctions de
répartition empiriques, qui a deux avantages notables : elle fonctionne dans tous les
cas où l’on travaille avec des variables réelles, et elle est simple à coder.

Proposition 2.3.2 Soit (Xn )n une suite de variables aléatoires réelles. Alors on a
L
Xn → X si et seulement si FXn (t) → FX (t) pour tout t point de continuité de
FX .
Utiliser le résultat ci-dessus suppose de connaı̂tre la loi de X. Si tout ce que l’on ob-
serve est une convergence ponctuelle de (FXn )n vers une fonction F , alors on n’a pas
forcément convergence en loi : il faut en plus que F tende vers 0 en −∞ et vers 1 en

21
MAO Probas-Stats

+∞, ce qui n’est pas forcément facile à identifier. Dans ce cas, F sera la fonction de
répartition d’une unique loi.
Remarquons que même si l’on arrive à simuler Xn , on n’a pas forcément immédiatement
accès à FXn . Pour approximer cette fonction, on utilisera le théorème de Glivenko-
Cantelli :

Théorème 2.3.3 (Glivenko-Cantelli) Soit Y une variable aléatoire réelle et (Y (k) )N

k=1
(N )
est un N -échantillon de même loi que Y . Soit FbY la fonction de répartition empi-
rique :
N
(N ) 1 X
FbY (t) = 1lY (k) ≤t .
N
k=1

Alors Fb(N ) converge presque-sûrement uniformément en t vers la fonction de répartition

FY de Y . Autrement dit,
(N )
P sup |FbY (t) − FY (t)| −→ 0 = 1.
t∈R N →∞

Ce théorème, s’il est un peu pénible à démontrer, est essentiellement une application de
la loi des grands nombres. Pour avoir une bonne estimation de FY , encore faut-il choi-
sir N assez grand. Une estimation peut être donnée par le théorème de Kolmogorov-
Smirnov :

Théorème 2.3.4 (Kolmogorov-Smirnov) Sous les mêmes hypothèses,

√ (N )
N sup |FbY (t) − FY (t)|
t∈R

converge en loi quand N → ∞, vers une loi appelée loi de Kolmogorov-Smirnov 2 .

On reconnaı̂t un théorème universel, comme le théorème central limite : la loi limite est
la même quel que soit Y . Comme la loi de Kolmogorov-Smirnov est intégrable √ (elle a
même des moments de tous ordres), le sup en question est de l’ordre de 1/ N . Ainsi,
si on veut approcher FY uniformément sur un segment avec précision , on prendra N
d’ordre 1/2 .
Par ailleurs, le théorème de Kolmogorov-Smirnov fournit des tests efficace pour
savoir si un échantillon suit bien une loi Y donnée, ou encore si deux échantillons
suivent la même loi (de loi possiblement inconnue).

Exercice 23 Soit (Xn )n une suite de variables i.i.d. suivant une loi qui admet deux
premiers moments, et que vous savez simuler. Illustrez le théorème de la limite centrale.

Exercice 24 Dans l’exercice 22 montrez que les trois suites (Xn )n , (Xn0 )n , (Xn00 )n
convergent en loi et illustrez cette convergence.
k−1 e−2k2 x2 .
P∞
2. Sa fonction de distribution est P(K ≤ x) = 1 − 2 k=1 (−1)

22
Convergence des variables aléatoires

L’exercice suivant commence l’étude d’un classique appelé le “collectionneur de

vignettes 3 ”.

Exercice 25 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :

Tn = inf k tel que #{Y1 , . . . , Yk } = n .

Écrire une fonction Python simulant Tn ; on pourra utiliser la structure de données ap-
pelée set (qui représente donc un ensemble). Expérimentez pour voir si Tn /(nα logβ n)
semble converger en loi, pour des valeurs simples de α, β.

2.4 Illustration de la convergence P

Compte tenu des points 3 et 4 de la Proposition 2.1.3, le plus simple pour illustrer
la convergence en probabilité de (Xn )n vers X est d’illustrer la convergence en loi de
Xn − X vers zéro. On peut également chercher à montrer la convergence L1 vers zéro
de inf(|Xn − X|, 1) avec les méthodes développées dans la section suivante. Dans les
deux cas il faut en général connaı̂tre X pour appliquer ces méthodes.
2.5 Illustration des convergences Lp
La méthode naturelle pour illustrer le fait E(|Xn − X|p ) → 0 est d’utiliser les
moyennes empiriques :
(k)
• on simule, pour différents n et N grand, N réalisations (Xn − X (k) )N
k=1 de
Xn − X,
PN (k)
• on calcule la moyenne empirique N1 k=1 |Xn − X (k) |p ,
• on trace la suite en n de ces quantités.
Si la convergence a lieu, on s’attend à avoir convergence vers zéro de cette suite. Encore
une fois, plusieurs questions se posent :
pour quels n ? on ne peut donner que la même réponse qu’en section 2.2 : ça dépend,
et on fait comme on peut.
pour quelle(s) taille(s) N d’échantillon ? ce choix ne peut se faire que compte tenu
d’un seuil de confiance choisi par ailleurs.
On a deux problèmes cependant :
• On veut ici des intervalles de confiance pour des quantités dont on cherche
à montrer qu’elles tendent vers zéro : il va donc falloir pouvoir faire tendre
le diamètre de l’intervalle de confiance vers zéro aussi, et pour que cela soit
réalisable en pratique, il faudra que le N ne croisse pas trop vite.
• En général, le N permettant une précision donnée dans l’estimation de E(|Xn −
X|p ) va dépendre de n. Puisque l’on veut illustrer la convergence des quantités
estimées, on voudrait idéalement pouvoir choisir N tel que les intervalles de
confiance donnés sont valables pour tout n “assez grand”.
3. le terme anglais étant “coupon collector”, on a tendance à parler de “collectionneur de coupons”

23
MAO Probas-Stats

Il n’y a pas de bonne réponse à ces problèmes ; nous verrons quelques outils plus tard
dans le cours. En pratique on pourra souvent illustrer une autre forme de convergence
plutôt qu’une convergence Lp : si par exemple on suppose les (Xn )n à valeurs dans
[a, b] alors l’inégalité de Hoeffding permet de répondre de manière satisfaisante aux
L1
deux points ci-dessous, mais alors (Xn )n est uniformément intégrable et, donc Xn →
p.s. P L
X équivaut à Xn → X ou à Xn → X, qui équivaut à Xn − X → 0. Remarquons par
ailleurs qu’il est nécessaire de savoir simuler X (ou en tout cas Xn −X) pour appliquer
ces méthodes.

Exercice 26 Soit (Sn )n une marche aléatoire symétrique sur Z et Xn = 1lSn =0 . Mon-
L1 p.s.
trer que Xn → 0, et rappeler pourquoi que Xn → 6 0. Essayez d’illustrer la conver-
gence L1 par la méthode décrite ci-dessus (avec un N fixé a priori pour toutes les
valeurs de n entre 1 et nmax ).

2.6 Exercices
Exercice 27 Dans les cas suivants, démontrer et illustrer les convergences ou absences
de convergence proposées.
L
1. Si Xn ∼ B(n, nλ ) avec λ ∈ R+ , alors Xn → P(λ).
Pn
2. Si les (Xn )n∈N sont i.i.d. avec X0 ∼ B 21 , et si Yn = k=0 Xk 2−k , alors

p.s.
Yn → U([0, 1]).
Que dire si X0 ∼ B(p) où p ∈ [0, 1] ?
P L1 p.s.
3. Si Xn ∼ B n1 , alors Xn → 0, Xn → 0, mais Xn 9 0. Et pour nXn ?

Exercice 28 (inspiré du texte d’agrégation public 2015-A7) On définit deux variables

aléatoires An par A0 = a, B0 = b et
An
P (An+1 , Bn+1 = (An + 1, Bn ) | (An , Bn ) =
n+a+b
Bn
P (An+1 , Bn+1 = (An , Bn + 1) | (An , Bn ) = ,
n+a+b
(le processus (An , Bn )n est donc une urne de Pólya).
• Simuler une réalisation de la suite (An )n . Semble-t-il y avoir convergence presque-
sûre de An /n ?
• On se place dans le cas a = b = 1. Quelle loi semble suivre la limite de An /n ?
On pourra tracer une approximation de la fonction de répartition de la loi de
An /n à partir d’un échantillon, pour n assez grand.
• On conjecture que la loi limite de An /n est une loi β(a, b) ; illustrer ce point.
An +a
On peut prouver la convergence presque-sûre en montrant que n+a+b est une martin-
gale.

Exercice 29 On reprend l’exercice 25 mais cette fois-ci le collectionneur ne cherche

(ρ)
qu’à obtenir une proportion ρ ∈]0, 1[ des vignettes disponibles, et on note Tn le

24
Convergence des variables aléatoires

temps correspondant. Montrer (par la simulation) que pour tout ρ ∈]0, 1[ il existe deux
T (ρ) −m n L
constantes mρ et σρ2 pour lesquelles n√ 2 ρ → N (0, 1).
σρ n
Pour cela, on commencera par observer que E(Tn ) et var(Tn ) sont approximati-
vement linéaires en n. On pourra alors estimer les coefficients mρ et σρ2 à partir de
(ρ)
moyenne et variance empiriques de Tn pour n assez grand.

25
MAO Probas-Stats

26
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 3

Grands théorèmes de convergence

Le but de ce chapitre est de rappeler les grands théorèmes de convergence de va-

riables aléatoires, et de donner des méthodes permettant de traiter au cas par cas les
situations où les hypothèses de ces théorèmes ne sont pas vérifiées. Les deux types de
résultats de convergence que nous discuterons sont les suivants (à chaque fois (an )n et
(bn )n sont des suites déterministes) :
Pn
• les lois des grands nombres ou théorèmes ergodiques, qui sont du type “ a1n k=1 Xk
converge vers une quantité déterministe”,
Pn
• les résultats du type “central limite” qui disent que “ b1n k=1 Xk − E(Xk )

converge en loi”,
Tous les livres classiques de probabilités discutent loi des grands nombres et théorème
central limite, mais tous ne discutent pas leurs variantes. Une lecture très intéressante
sur ces points se trouve sur le blog de Terence Tao https://terrytao.wordpress.
com (chercher “275A probability theory” ; il y a six chapitres au total, “Notes 0” à
“Notes 5”).
3.1 Lois des grands nombres
Dans toute la suite, on considère une suite de variables aléatoires (Xn )n∈N∗ . On
notera
Sn = X1 + . . . + Xn

Un résultat de loi des grands nombres concerne la convergence de Sn /an vers une
constante (en général an = n mais pas toujours, voir l’exercice 34). On parlera de loi
forte pour un résultat de convergence presque-sûre, et de loi faible pour un résultat de
convergence en probabilité.
Le résultat le plus classique est la loi forte des grands nombres :

Théorème 3.1.1 (Kolmogorov) Soit (Xn )n une suite i.i.d. de variables aléatoires.
Alors la suite (X̄n )n converge p.s. si et seulement si X1 ∈ L1 , et alors la limite est
E(X1 ).

La démonstration n’est pas évidente, mais il faut savoir traiter des cas où les hypthèses
sont plus fortes :

27
MAO Probas-Stats

Exercice 30 On cherche à démontrer un sens du Théorème 3.1.1 dans le cas où X1 ∈

L4 (c’est-à-dire E[X14 ] < ∞). On pourra supposer X1 centrée (pourquoi ?).
1. Calculer E[Sn4 ] en fonction de σ 2 = E[X12 ] et τ 4 = E[X14 ].
4
2. Montrer que E[X̄n4 ] ≤ 3τ2 .
P∞ n 4
3. En déduire que E n=1 X̄n < ∞.
4. Conclure la convergence p.s. de X̄n vers 0.
On affaiblit les hypothèses en supposant seulement X1 ∈ L2 . Montrer la convergence
en probabilité, en utilisant l’inégalité de Bienaymé-Tchebychev.
Il existe d’autres résultats du type “loi des grands nombres” dans les cadres sui-
vants :
• pour les chaı̂nes de Markov : c’est le théorème
Pn ergodique, qui donne une conver-
gence presque-sûre de toute quantité n1 k=1 f (Xk ) dès que la chaı̂ne admet
une uniqueR mesure invariante π, dès que f est une fonction π-intégrable (la li-
mite étant f dπ) ;
• pour les martingales : si (Mn )n une martingale telle que chaque Mn est de carré
intégrable, alors il existe un processus croissant hM in tel que sur l’événement
Mn p.s.
[limn hM in = ∞], on a hM in → 0.
Revenons au Théorème 3.1.1. Il y a trois hypothèses que l’on aimerait affaiblir :
1. les (Xn )n ont même loi,
2. les (Xn )n sont indépendantes,
3. les (Xn )n sont intégrables.
Le Théorème 3.1.1 étant un “si et seulement si”, aucun espoir d’avoir une convergence
presque-sûre de Sn /n sans l’hypothèse 3 : l’exercice suivant illustre cela.

Exercice 31 Comment se comporte (au sens presque-sûr) Sn /n quand les (Xn )n suivent
des lois de Cauchy ? et au sens de la convergence en loi ? Conjecturer le résultat par si-
mulation, puis le prouver (indication : la fonction caractéristique de X1 est t 7→ e−|t| ).
Notons qu’il existe un analogue faible qui permet d’affaiblir l’hypothèse 3 :

Théorème 3.1.2 Soit (Xn )n une suite i.i.d. de variables aléatoires. Alors la suite
1
n (Sn −nE(X1 1l|X1 |≤n ) n converge en probabilité si et seulement si limt→∞ P(|X1 | ≥
t) = 0.
Pour ce qui est d’affaiblir l’hypothèse 1, le théorème des trois séries de Kolmo-
gorov (encore lui) montre que si les les (Xn )n sont indépendantes et toutes de carré
intégrable,
n
1X X var Xn p.s.
si E(Xk ) → µ et <∞ alors X̄n → µ. (3.1)
n n
n2
k=1

Ce résultat est une conséquence des lois des grands nombres pour les martingales, que
nous aborderons au chapitre 6.

28
Grands théorèmes de convergence

Un premier résultat affaiblissant l’hypothèse 2 est simple et classique (on pourra

le trouver dans les livers de Barbe et Ledoux ou de Bercu et Chafaı̈)

Théorème 3.1.3 (Etemadi) Soit (Xn )n une suite de variables aléatoires deux à deux
indépendantes. Alors la suite (X̄n )n converge presque-sûrement si et seulement si
X1 ∈ L1 , et alors la limite est E(X1 ).

Des méthodes “à la main” permettant d’affaiblir l’hypothèse 2 peuvent être obte-
nues — quitte à renforcer un peu les hypothèses — en utilisant la méthode des mo-
ments, comme on l’a fait dans l’exercice 30. En voici quelques exemples.

Exercice 32 En s’inspirant de l’exercice 30, montrer le résultat suivant :

Si (Xi,n )i≤n est une famille de variables aléatoires qui ont toutes la même espérance
E(X1,1 ) et telle que pour tout P n, X1,n , . . . , Xn,n est une famille indépendante et
p n
supi,n E(Xi,n ) < ∞, alors n1 k=1 Xk,n converge vers E(X1,1 ) en probabilité si
p = 2 et presque-sûrement si p = 4.

Exercice 33 On fabrique une suite (Vn , En )n∈N∗ de graphes aléatoires dits de Erdös–
Rényi de la manière suivante :
• l’ensemble des sommets Vn est {1, . . . , n},
• chaque {a, b} (où a 6= b) est une arête du graphe avec probabilité 1/2, et
indépendamment des autres arêtes.
Écrire une fonction Python simulant un tel graphe ; on pourra pour cela coder le
graphe par sa matrice d’adjacence.
Montrer que #En / ( n2 ) converge presque-sûrement vers 1/2.

Exercice 34 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :

Tn = inf k tel que #{Y1 , . . . , Yk } = k .

On rappelle qu’on a conjecturé la convergence en probabilité de Tn /n log n vers 1 ;

montrer que Tn = Xn,1 + . . . + Xn,n pour des variables aléatoires indépendantes de
loi géométrique, calculer l’espérance de Tn et majorer sa variance. Montrer alors que
P
Tn /n log n → 1.

Exercice 35 (*) On choisit une permutation σn aléatoirement et de manière uniforme

dans Sn et on s’intéresse au nombre Cn de cycles dans cette permutation. On codera
une permutation de la manière suivante :

1 2 3 4 5 6 7 8 9
σ=
3 9 6 8 2 1 5 4 7

est représenté par sigma=[3,9,6,8,2,1,5,4,7].

Écrire une fonction qui prend en entrée une permutation et rend une décomposition
en cycles.

29
MAO Probas-Stats

Observez empiriquement que l’espérance et la variance de Cn sont de l’ordre de

log n.
On peut prouver en fait que Cn a même loi que la somme de Xn,k indépendants,
1
pour k = 1, . . . , n où Xn,k ∼ B( n−k+1 ) ; voir Probability theory and examples de
Durrett. En acceptant ce résultat, prouvez les résultats observés.
Montrez ensuite que Cn / log n tend vers 1 en probabilité. L’illustrer est assez diffi-
cile à cause de la lenteur de la convergence.

3.2 Théorèmes centraux limite

Ici aussi, nous allons discuter l’énoncé standard et les extensions que l’on peut
obtenir en améliorant ses différentes méthodes de preuve. Nous allons aussi discuter la
vitesse de convergence.

Théorème 3.2.1 Si (Xn )n est une suite i.i.d. de carré intégrable, alors
Sn − nE(X1 ) L
√ → N 0, var(X1 )
n
La preuve la plus courante et la plus courte utilise les fonctions caractéristiques
ΦZ : R → C
t 7 → E(eitZ )
et le théorème de Lévy-Cramér. Cette preuve est la plus courte mais elle n’est pas celle
qui s’étend le plus facilement. Une autre méthode de preuve du théorème de la limite
centrale passe par les moments. Elle utilise le résultat suivant : si une suite de variables
aléatoires (Yn )n vérifie E(Ynp ) → E(Z p ) pour tout p ∈ N, où Z ∼ N (0, 1) alors
L
Yn → Z (et on peut remplacer ici N (0, 1) par toute loi “déterminée par ses moments”,
i.e. qui est la seule avec les moments donnés — et c’est le cas de la loi normale).
Pour la culture, on donne une généralisation du Théorème Central Limite 3.2.1, qui
consiste à sommer des variables différentes pour chaque n, comme on l’a fait dans les
exercices 32,33,34.

Théorème 3.2.2 (Lindeberg-Feller) Soit Kn une suite d’entiers avec Kn → ∞ quand

n → ∞, et soit pour tout n une famille X̃n,1 , . . . , X̃n,Kn de variables aléatoires indépen-
PKn
dantes. On note σ̃n2 = k=1 var(X̃n,k ) ; alors la condition
Kn
1 X h 2 i
∀ > 0 E X̃n,k − E( X̃n,k ) 1
l |X̃ −E( X̃ )|>σ̃ −→ 0 (3.2)
σ̃n2 n,k n,k n n→∞
k=1

est vérifiée si et seulement si on a

1
max var(X̃n,k ) −→ 0 (3.3)
σ̃n2 1≤k≤Kn n→∞

et
Kn
1 X L
X̃n,k − E(X̃n,k ) → N (0, 1).
σ̃n
k=1

30
Grands théorèmes de convergence

Remarque 3.2.3
• On retrouve le résultat standard donné par le Théorème 3.2.1 en prenant X̃n,k = Xk .
• La condition (3.2) est appelée “condition de Lindeberg”.
PKn Elle signifie qu’aucun

Xn,k ne joue un rôle prédominant dans la somme k=1 X̃n,k − E(X̃n,k ) .

Exercice 36 On utilise les notations de l’exercice 35. On pose X̃n,k = Xn,n−k ; en

n −log n
utilisant le Théorème 3.2.2, montrer que C√ log n
converge en loi vers une variable
normale centrée réduite puis illustrer ce résultat.

Remarque 3.2.4 Une condition suffisante pour (3.2) est qu’il existe δ > 0 tel que
Kn
1 X
lim E(|X̃n,k − E(X̃n,k )|2+δ ) = 0. (3.4)
n→∞ σ̃n2+δ k=1

Cette condition (3.4) est appelée “condition de Lyapounov”.

Exercice 37 On reprend l’exercice 34 mais cette fois-ci le collectionneur ne cherche

qu’à obtenir une proportion ρ ∈]0, 1[ des vignettes disponibles.
(ρ)
Montrer que le temps Tn peut s’écrire comme Xn,1 + . . . + Xn,rn avec rn ∼ ρn
rn
et les (Xn,k )k=1 indépendants avec Xn,k géométrique de paramètre 1 − k/n.
Utiliser le Théorème 3.2.2 pour montrer que pour tout ρ ∈]0, 1[ il existe deux
T (ρ) −m n L
constantes mρ et σρ2 pour lesquelles n√ 2 ρ → N (0, 1). On pourra prouver que
σρ n
la condition (3.4) est vérifiée avec δ = 2 en utilisant l’inégalité 1
!
4
1 K
E Gp − ≤ 4
p p

pour Gp suivant une loi géométrique de paramètre p, et K une certaine constante

(indépendante de p).
2
Et pour ρ = 1 ? On rappelle que E(Tn ) ∼ n log n et que var(Tn ) ∼ π6 n2 ; a-t-on
−n √
convergence en loi de Tnπn/ log n
6
?

Parlons maintenant de vitesse de convergence dans le théorème central limite. Le

résultat principal est le théorème suivant :

Théorème 3.2.5 (Berry-Esséen) Soit (Xn )n une suite de variables aléatoires i.i.d.
admettant des moments d’ordre 3. On note Fn la fonction de répartition de Zn =
Sn −nE(X1 )
√ et F la fonction de répartition de N (0, 1). Alors
n var(X1 )

Cρ
sup Fn (x) − F (x) ≤ √
x∈R σ3 n

où C ' 0, 4748 est une constante universelle et ρ = E |X1 − E(X1 )|3 .
1. facile à montrer si l’on connaı̂t les moments d’ordre 3 et 4 de Gp .

31
MAO Probas-Stats

Ce résultat exprimé
en termes
de fonctions de répartition donne en fait une estimation
de E φ(Zn ) −E φ(Z) (où Z ∼ N (0, 1)) pour toute fonction suffisamment régulière,
via les identités
Z Z
E φ(Zn ) = φ0 (t) 1 − Fn (t) dt E φ(Z) = φ0 (t) 1 − F (t) dt

Ce résultat montre donc essentiellement que√la vitesse de convergence dans le théorème

central limite, Théorème 3.1.1, est en O(1/ n).

Exercice 38 Soit (X)n une suite de variables i.i.d. de Rademacher ; l’inégalité du

(N )
Théorème 3.2.5 est censée être atteinte pour ces variables. On note Fn la fonction
de répartition empirique approchant Fn associée au N -échantillon.
(N )
1. Montrer que supx∈R Fn (x)−F (x) est atteint en l’un des points de l’échantillon.
2. Donner une estimation de cette quantité pour différentes valeurs de n et la com-
parer au majorant donné dans le Théorème 3.2.5.

Un autre raffinement du Théorème Central Limite consiste à étudier les écarts re-
cords de Sn −nE(X
√
n
1)
. Le théorème suivant montre moralement qu’ils prennent des va-
leurs de l’ordre de log log n une infinité de fois.

Théorème 3.2.6 (Loi du log itéré) Soit (Xn )n une suite i.i.d. de carré intégrable, et

1
Vn = √ Sn − nE(X1 ) .
2n log log n

Alors presque-sûrement
p p
lim sup Vn = + var(X1 ) lim inf Vn = − var(X1 ).
n→∞ n→∞

Exercice 39 A-t-on convergence presque-sûre ou même en proba dans le théorème de

la limite centrale ? Pour justifier théoriquement la réponse, on utilisera le Théorème 3.2.6.
Pourquoi ne peut-on pas en pratique illustrer ce résultat ?
On peut en revanche observer que Vn prend des valeurs “éloignées de zéro” pour
des temps arbitrairement grands. Simuler une trajectoire de Vn pour des Xn de loi de
Rademacher.

3.3 Valeurs extrêmes

Soit encore (Xn )n une famille i.i.d. de variables réelles. Nous nous intéressons ici
à la variable donnant les maxima de la suite :

Mn = max Xk
k=1,...,n

et à l’éventuelle convergence en loi de (Mn − an )/bn quand n → ∞.

On peut commencer par se demander quel est le comportement de Mn lui-même.

32
Grands théorèmes de convergence

Exercice 40 Soit xF = sup{x ∈ R | P(X1 ≤ x) < 1} ∈] − ∞, +∞]. Montrer que

P
Mn → x F .

La question de la convergence de (Mn − an )/bn consiste alors à étudier le comporte-

ment de xF − Mn (si xF < ∞) ou la vitesse de divergence de Mn (si xF = ∞). Le
résultat standard en la matière est le suivant :

Théorème 3.3.1 (Fisher-Fréchet-Gnedenko-Tippett) Soit (Xn )n une famille i.i.d.

de variables réelles. S’il existe deux suites, (an )n de réels quelconques et (bn )n de
réels strictement positifs, telles que (Mn − an )/bn converge en loi quand n → ∞,
alors cette loi limite est nécessairement, à translation et dilatation près, de l’un des
quatre types suivants :
• une masse de Dirac,
−x
• une loi de Gumbel, i.e. de fonction de répartition x 7→ e−e ,
a
• une loi de Weibull i.e. de fonction de répartition x 7→ e−(−x) 1lR− (x) + 1lR+ (x)
avec a > 0,
−a
• une loi de Fréchet, i.e. de fonction de répartition x 7→ e−x 1lR+ (x) avec a > 0.

Nous n’allons pas démontrer ce résultat mais l’illustrer dans des cas correspondant à
différentes situations.

Exercice 41 Dans les cas suivants, prouvez puis illustrez le résultat.

L
1. Si X1 ∼ B(p) avec p ∈]0, 1[, on a Mn → δ1 .
L
2. Si X1 ∼ U([0, θ]) pour θ > 0, on a (Mn − θ)/ nθ → une loi de Weibull avec
a = 1 (qui est la même chose que la loi de −E pour E ∼ E(1)).
log n 1 L
3. Si X1 ∼ E(λ) avec λ > 0, on a (Mn − λ )/ λ → une loi de Gumbel.
L
4. Si X1 ∼ C(1) alors Mn / nπ → une loi de Fréchet avec a = 1.

3.4 Principes de grandes déviations

Pour une suite (Xn ) de variables aléatoires i.i.d. réelles intégrables, le théorème
central limite implique que la moyenne empirique X̄n converge p.s. vers m = E[X1 ].
Les principes de grandes déviations ont pour objectif d’évaluer la probabilité d’événements
rares, du type {X̄n ∈ A} où A ⊂ R ne contient pas m.

Exercice 42 On considère la partie A = [x, +∞) où x > m.

1. Soit t > 0 Montrer en utilisant une inégalité de Markov sur exp(tSn )que

P(X̄n ≥ x) ≤ exp (−n(xt − φ(t)))

où φ : R →] − ∞, ∞] est la log-Laplace de X1 :

φ(t) = log E[exp(tX1 )].

33
MAO Probas-Stats

2. En déduire que
1
log P(X̄n ≥ x) ≤ − sup(xt − φ(t)).
n t>0

On note I(x) = supt>0 (xt − φ(t)).

3. Dans le cas suivants, expliciter la fonction φ puis la fonction I (attention aux
valeurs potentiellement infinies qu’elles peuvent prendre) :
(a) X1 ∼ B(p),
(b) X1 ∼ P(λ),
(c) X1 ∼ E(λ).
L’exercice précédent montre qu’on peut s’attendre à ce que ces probabilités d’événements
rares soient majorées par une exponentielle décroissante en n. Le théorème suivant 2 ,
très général et s’appliquant même quand X1 n’est pas intégrable, montre que c’est le
cas et fournit également une borne inférieure.

Théorème 3.4.1 (Cramér-Chernov) Soient (Xn ) des variables réelles i.i.d, et X̄n =
1
n (X1 + · · · + Xn ). Pour t ∈ R on note φ(t) = log E[exp(tX1 )], et pour x ∈ R,

I(x) = sup(xt − φ(t)).

t∈R

Alors pour tout fermé F de R,

1
lim sup log P(X̄n ∈ F ) ≤ − inf I(x)
n n x∈F

et pour tout ouvert G de R,

1
lim inf log P(X̄n ∈ G) ≥ − inf I(x)
n n x∈G

Remarque 3.4.2 La fonction I s’appelle fonction de taux ou transformée de Cramér

associée à X1 . Elle est positive, semi-continue inférieurement, convexe.

Exercice 43 Soient (Xn ) des variables i.i.d réelles intégrables, de moyenne m =

E[X1 ]. Déduire du Théorème 3.4.1 que pour tout x > m,
1
lim P(X̄n ≥ x) = −I(x).
n→∞ n
Autrement dit, P(X̄n ≥ x) = exp (−nI(x) + o(n))
On veut illustrer ce résultat dans le cas X1 ∼ B(p) où p ∈]0, 1[. On souhaite
estimer empiriquement n1 log P(X̄n ≥ x) avec n = 100 pour diverses valeurs de x
entre p et 1. Rappelons dans ce cas la fonction I(x) calculée dans l’exercice 42 :

x 1−x
I(x) = x log + (1 − x) log
p 1−p
2. Pour une preuve, voir par exemple le livre Large deviations techniques and applications de Dembo et
Zeitouni

34
Grands théorèmes de convergence

pour x ∈ [0, 1], et +∞ ailleurs. Combien d’essais faut-il effectuer pour estimer cor-
rectement la probabilité P(X̄n ≥ x) ? Tracer la fonction I et dire pourquoi cette pro-
babilité est difficile à estimer empiriquement, à part pour des x très proches de p.

35
MAO Probas-Stats

36
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 4

Tests et estimateurs classiques

4.1 Estimateurs
Nous commençons par rappeler les définitions générales. Tout au long du chapitre
on garde la notation X̄n pour la moyenne empirique X1 +···+X
n
n
d’une suite de variables
aléatoires.
4.1.1 Définitions
Définition 4.1.1 Un modèle paramétrique est une famille de probabilités indexées par
un paramètre θ ∈ Θ, où Θ ⊂ Rd : P = {Pθ , θ ∈ Θ}. Le modèle est dit identifiable si
θ 7→ Pθ est injective.
Si X est une variable aléatoire dont la loi appartient à un tel modèle paramétrique P,
une statistique Z est une variable X-mesurable (donc de la forme ϕ(X)) ; cette statis-
tique est un estimateur d’un paramètre g(θ) si presque-sûrement Z ∈ g(Θ).
Souvent, le modèle dépendra d’un paramètre n : il s’agira souvent d’un modèle de n
réalisations i.i.d. (il sera alors noté P ⊗n car ses élements sont de la forme P⊗n
θ ) mais
pas forcément, voir l’exemple ci-après.

Exemple 1
• Si X1 , . . . , Xn est un n-échantillon de loi normale N (m, σ 2 ) avec m, σ 2 incon-
nus, alors le modèle naturel associé est
P ⊗n = {P⊗n 2
m,σ 2 | (m, σ ) ∈ R × R+ }

où Pm,σ2 est la loi normale N (m, σ 2 ) sur R.

• On considère les n + 1 premiers pas (Xk )nk=0 d’une chaı̂ne de Markov sur un
espace d’état fini E, de loi initiale µ et de matrice de transition P . Le modèle
(n)
associé est l’ensemble des lois Pµ,P :
(n)
Pµ,P (x0 , . . . , xn ) = µ(x0 )Px0 ,x1 . . . Pxn−1 ,xn ,

qui n’est pas de la forme P ⊗n .

Être un estimateur n’est pas une propriété intéressante : par exemple, n’importe
quelle constante de Θ est un estimateur. On va donc définir plusieurs qualités possibles
pour un estimateur. On commence par définir le biais et le risque quadratique :

37
MAO Probas-Stats

Définition 4.1.2 Soit P un modèle paramétrique, et Z un estimateur de g(θ). On sup-

pose que pour tout θ ∈ Θ, Eθ (kZk) < ∞. On définit

r(θ) = Eθ (Z − g(θ))2

b(θ) = Eθ (Z) − g(θ)

(où, dans les deux cas, Eθ est l’espérance par rapport à Pθ ) qui sont appelés respecti-
vement le biais de Z et son risque quadratique.

Différentes qualités éventuelles d’un estimateur Z de g(θ), ou Zn (lorsque le modèle

dépend d’un paramètre n mais que Θ est fixe) seront les suivantes :
• être sans biais, c’est-à-dire avoir un biais b(θ) nul pour tout θ ;
• avoir un risque quadratique faible (mais toute comparaison du risque de deux
estimateurs n’a de sens que si elle est vraie pour tout θ) ;
• être asymptotiquement sans biais, c’est-à-dire vérifier, limn→∞ bn (θ) = 0,
p.s.
• être fortement consistant c’est-à-dire vérifier que pour tout θ on a Zn → g(θ),
P
• être (faiblement) consistant, c’est-à-dire vérifier que pour tout θ on a Zn → g(θ).
Une autre qualité recherchée d’une suite d’estimateurs est l’existence d’une loi
asymptotique,c’est-à-dire le fait qu’il existe une suite (an )n avec an → ∞, telle que
an Zn − g(θ) converge en loi, vers une loi non triviale. On √ dit dans ce cas que la suite
d’estimateurs (Zn )n est de vitesse (an )n . Lorsque an = n et que la loi limite est une
normale centrée, on parle de normalité asymptotique.

Exercice 44 Soit θ > 0. On considère U1 , . . . , Un un n-échantillon de loi U([0, θ]).

1. Montrez que Z1 = 2Ūn est un estimateur sans biais, consistant et asymptotique-
ment normal de θ.
2. Montrez que Z2 = max(U1 , . . . , Un ) est un estimateur consistant de θ et que n(Z2 −
θ) converge en loi vers une loi que l’on identifiera.
3. Pour un θ quelconque, simulez un 100-échantillon U1 , . . . , Un et définissez les
estimateurs Z1 et Z2 correspondant aux 100 valeurs de n. Tracez les trajectoires
de Z1 et Z2 . Lequel des deux estimateurs semble converger le plus vite vers θ ?

Exercice 45 Soit (X1 , . . . , Xn ) un échantillon de loi admettant un moment d’ordre

deux. On propose l’estimateur suivant pour la variance :

n n
!2 n
1X 2 X 1X 2
ŝ2n = X − Xi = Xi − X̄n .
n i=1 i i=1
n i=1

n 2
Montrer qu’il est fortement consistant mais biaisé. Montrer que n−1 ŝn est sans biais.

4.1.2 Méthode des moments

Une manière de construire des estimateurs est la méthode des moments. Si g(θ)
est une fonction des moments, on l’estime par la même fonction mais évaluée en les
moments empiriques.

38
Tests et estimateurs classiques

Exemple 2 Soit X1 , . . . , Xn un n-échantillon de loi β(a, b) (dont la densité est donnée

1
par B(α,β) xα−1 (1 − x)β−1 , où B(α, β) = Γ(α)Γ(β)
Γ(α+β) ). On a

a ab
E(X) = var X = .
a+b (a + b)2 (a + b + 1)
On en tire

E(X)(1 − E(X)) E(X)(1 − E(X))
a = E(X) −1 b = (1−E(X)) −1 .
E(X 2 ) − E(X)2 E(X 2 ) − E(X)2

La méthode des moments suggère donc comme estimateurs

! !
X n (1 − X n ) X n (1 − X n )
â = X n 2 −1 b̂ = (1 − X n ) 2 −1 .
X 2n − X n X 2n − X n

Ces estimateurs sont fortement consistants d’après la loi des grands nombres.

Exercice 46
• Montrez que Z1 dans l’exercice 44 ci-dessus aurait pu être trouvé par la méthode
des moments.
• Soit P1 , . . . , Pn un n-échantillon de loi de Poisson de paramètre λ. En utilisant
les formules pour l’espérance et la variance de cette loi, proposer deux esti-
mateurs de λ différents. Ces estimateurs sont-ils biaisés ? Sont-ils consistants ?
Tenter de les comparer par simulation (on pourra se limiter à λ ∈ Λ = [1, 3]).
4.1.3 Méthode par insertion
La méthode par insertion est similaire : si g(θ)
s’écrit comme une fonction d’un
autre paramètre h(θ), par exemple g(θ) = ψ h(θ) , et que l’on connaı̂t un estimateur
Zh de h(θ), on propose ψ(Zh )pour estimateur de g(θ).

Exemple 3 Soit Z1 , . . . , Zn un n-échantillon de loi N (0, σ 2 ). Alors E(|Z1 |) = √σ ;

2π
√
on peut donc proposer 2π |Z1 |+···+|Z n
n|
comme estimateur de σ.

4.1.4 Méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance est la plus complexe mathématiquement
mais aussi la plus universelle, et elle possède souvent de bonnes propriétés. On suppose
que toutes les lois Pθ sont absolument continues par rapport à une mesure commune
µ. On note alors fθ la densité de Pθ par rapport à µ ; une réalisation X de loi Pθ étant
donnée, on propose comme estimation de θ la valeur (si elle est unique) de θ qui maxi-
mise la vraisemblance V : θ 7→ fθ (X).
En général on travaillera avec un n-échantillon X1 , . . . , Xn , de sorte que la densité
à considérer sera
Vn : θ 7→ fθ (X1 ) . . . fθ (Xn ),

39
MAO Probas-Stats

Exemple 4 On considère le modèle {P⊗n 2 +

m,σ 2 | (m, σ ) ∈ R × R }. La fonction à maxi-
miser est
n
Y 1 (Xi −m)2
θ 7→ √ e− 2σ2 .
i=1 2πσ 2
En passant au log, on obtient
X 2 − 2mX + m2
log Vn (θ) = −n + log σ + constante.
2σ 2

Quel que soit σ 2 , le m maximiseur est X. En réinjectant ce résultat dans l’expression

2
on trouve que le σ 2 maximiseur est X 2 − X .

Exercice 47 Dans le modèle de l’exercice 44, quel est l’estimateur du maximum de

vraisemblance ?

4.2 Borne de Cramér-Rao et modèles exponentiels

On a vu qu’il était intéressant de minimiser le risque quadratique d’un estimateur.
La borne de Cramér-Rao donne une borne inférieure pour ce risque quadratique, mon-
trant que l’on ne peut espérer faire mieux qu’une certaine quantité.
4.2.1 Minoration du risque
Plaçons-nous dans le cadre d’un modèle régulier, c’est à dire que l’on suppose :
• que Θ est un ouvert de Rd ,
• que toutes les lois Pθ ont même support et sont absolument continues par rapport
à une mesure commune µ, et on note encore fθ = dP dµ ,
θ

• que θ 7→ log fθ est deux fois continûment dérivable en µ-presque tout point, et
de carré intégrable.

Définition 4.2.1 On suppose que le modèle {Pθ | θ ∈ Θ ⊂ R} est régulier. On appelle

information de Fisher du modèle la fonction
" 2 #
∂
I(θ) = Eθ log fθ (X)
∂θ

Théorème 4.2.2 (borne de Cramér-Rao) Pour {Pθ | θ ∈ Θ} un modèle régulier, on

a (sous des hypothèses de régularité supplémentaires) que tout estimateur sans biais
de g(θ) a un risque quadratique qui vérifie
2
g 0 (θ)
r(θ) ≥ .
I(θ)

La preuve est donnée dans Statistique mathématique en action de Rivoirard et Stoltz,

ou dans votre cours de statistiques de M1.

40
Tests et estimateurs classiques

Exercice 48 Pour une observation X dont l’ensemble des lois possibles est formé par
les lois de Poisson de paramètre θ ∈ R∗+ , calculer la fonction d’information de Fisher.
On dispose maintenant d’un n-échantillon (X1 , . . . , Xn ) de loi P(θ). Que devient
la fonction I(θ) ?
On propose comme estimateur de θ la moyenne empirique X̄n . Pourquoi est-il sans
biais ? Calculer son risque quadratique et le comparer à la borne de Cramér-Rao.

Exercice 49 Dans le cas de l’exercice 44, le théorème précédent s’applique-t-il ? Cal-

culer l’information de Fisher du modèle, puis comparer le risque quadratique des es-
timateurs Z1 , Z2 à la borne de Cramér-Rao.

4.2.2 Modèles exponentiels

Si l’on se restreint encore quant au type de modèle considéré, on peut obtenir un
résultat général qui montre que la borne de Cramér-Rao est asymptotiquement atteinte.
Commençons par définir ces modèles : on dit qu’un modèle est exponentiel s’il est
régulier avec des densités fθ de la forme

fθ (x) = φ(x) exp a(θ)h(x) − b(θ)

où φ est une fonction mesurable à valeurs dans R+ et a, h, b des fonctions mesurables
à valeurs dans R.

Exercice 50 Montrer que le modèle de l’exercice 48 est exponentiel.

Théorème 4.2.3 Soit P = {Pθ | θ ∈ Θ} un modèle exponentiel (avec des hypothèses

de régularité supplémentaires). On considère P = P ⊗n le modèle associé à un n-
échantillon. L’estimateur du maximum de vraisemblance θ̂n de θ vérifie
√ L
n θ̂n − θ → N (0, I1 (θ)−1 )

où I1 (θ) est l’information de Fisher associée à P (donc à une seule variable X1 ).

Exercice 51 Soit X1 , . . . , Xn un échantillon de loi N (θ, θ2 ), où θ est un réel stricte-

ment positif. La densité correspondante est notée pθ (x).
1. Proposer des estimateurs pour estimer le paramètre θ ? Quelle est leur variance ?
2. Calculer la log-vraisemblance associée aux observations pour le paramètre θ et
en déduire que le maximum de vraisemblance θ̂n est défini par :
r
Xn 1 2
θ̂n = − + Xn2 + Xn .
2 4

3. Montrer que cet estimateur est consistant.

Pour illustrer ce résultat, on pourra poser θ = 1 et simuler N = 1000 réalisations
de l’estimateur θ̂n , pour n = 10, 100, 1000 et superposer les trois histogrammes.
4. Montrer que I(θ) = 3/θ2 .

41
MAO Probas-Stats

5. Comparer avec le risque quadratique de l’estimateur X̄n .

On pourra illustrer une fois de plus avec θ = 1 ; pour n = 23 , . . . , 210 , simuler
N = 1000 réalisations de θ̂n , puis estimer R(θ̂n , θ) par la moyenne empirique
de (θ̂n − θ)2 , on obtient alors une valeur estimée R̂n du risque de l’estimateur
θ̂n . Tracer nR̂n en fonction de n (on pourra mettre l’abscisse en échelle loga-
rithmique). Faire de même pour les estimateurs proposés au 1. et superposer les
tracés.

4.3 Intervalles de confiance

Définition 4.3.1 Un intervalle de confiance pour g(θ) est un intervalle aléatoire I(ω),
dont les bornes sont des fonctions mesurables de X. On dit que l’intervalle
de confiance
est de niveau (de confiance) 1 − α pour α ∈]0, 1[, si P g(θ) ∈ I ≥ 1 − α.
Un intervalle de confiance asymptotique pour g(θ) est la donnée pour tout n d’un
intervalle de confiance In (ω). On dit qu’il est niveau (de confiance) asymptotique 1−α
pour α ∈]0, 1[, si lim inf n→∞ P(θ ∈ In ) ≥ 1 − α.
Un intervalle peut être bilatère, c’est-à-dire de la forme I(ω) = [A(ω), B(ω)], ou bien
unilatère, c’est-à-dire de la forme I(ω) = [A(ω), +∞[ ou bien I(ω) =] − ∞, B(ω)].
Plus on choisit α petit (donc plus on veut de certitude sur notre estimation), plus l’in-
tervalle devra être grand (et donc moins on aura d’information – mais avec plus de
certitude).

Exercice 52 Soit X1 , . . . , Xn un n-échantillon de loi normale de variance connue

N (m, σ02 ). On propose l’estimateur X̄n de m. Donner un intervalle de confiance pour
m en utilisant le fait que X̄n − m suit une loi connue.
Pour β ∈ [0, 1] et une variable aléatoire réelle X, on appelle quantile d’ordre β de
la loi de X la quantité

qβ = inf{x ∈ R | P(X ≤ x) ≥ β}.

Supposons qu’une suite d’estimateurs (Zn )n est de vitesse (an )n , c’est à dire que
L
an (Zn − θ) → loi limite.

Alors si l’on note qα/2 , q1−α/2 les quantiles de la loi limite que l’on suppose que ce ne
sont pas des atomes 1 , on a immédiatement un intervalle de confiance asymptotique de
niveau 1 − α :
qα/2 q1−α/2
In = Zn + , Zn +
an an

Exercice 53 On considère le modèle de régression linéaire suivant :

Y = β1 f (x) + β2 + ε, ε ∼ N (0, σ 2 ),

où β1 , β2 et σ 2 sont des paramètres inconnus à estimer.

L
1. si Xn → X alors P(Xn ≤ x) → P(X ≤ x) n’est vrai a priori que si x n’est pas un atome de X.

42
Tests et estimateurs classiques

1. Donner des estimateurs des paramètres β1 , β2 , σ 2 pour un échantillon (x1 , Y1 ), . . . , (xn , Yn ).

Écrire une fonction qui simule le nuage de points correspondant à l’échantillon
précédent pour des points x1 , . . . , xn répartis uniformément sur [0, 1] et la fonc-
tion f définie par f (x) = (1 + x)2 .
2. Écrire un programme qui trace la courbe de régression et qui donne des inter-
valles de confiance de niveau 1 − α pour les paramètres à estimer.
3. Tracer deux régions de confiance de niveau (au moins) 95% pour le couple
(β1 , β2 ) : l’une en forme de rectangle en utilisant les intervalles de confiance
précédents et l’autre en forme d’ellipse.
Un résultat utile pour discuter de la normalité asymptotique d’estimateurs est ce
que l’on appelle la méthode delta :

Lemme 4.3.2 Soit (θbn )n une suite de variables aléatoires telle que pour tout θ ∈ Θ,
L
an (θbn −θ) → Zθ où (an )n est une suite qui croı̂t vers +∞ et Zθ une variable aléatoire
dont la loi dépend de θ. Soit g une fonction à valeurs dans Rq , différentiable sur un
L
ouvert contenant Θ, de différentielle notée Dg. On a an g(θbn ) − g(θ) → Dg(θ) Zθ .

Autrement dit, en général, si (θbn )n est de vitesse (an )n , alors (g(θn ))n aussi.
L’ exercice suivant utilise la simulation pour estimer le niveau réel d’un intervalle
de confiance, c’est-à-dire la valeur de la probabilité P g(θ) ∈ I . Il utilise l’inégalité
de Hoeffding :

Proposition 4.3.3 (Inégalité de Hoeffding) Soient X1 , . . . , Xn des variables aléatoires

telles que P(Xi ∈ [ai , bi ]) = 1 pour tout i. Alors pour tout t ≥ 0 on a
−2n2 t2
P X n − E(X n ) ≥ t ≤ 2 exp Pn 2
.
i=1 (bi − ai )

Exercice 54 Soit B1 , . . . , Bn un n-échantillon de loi de Bernoulli B(p).

1. On propose l’estimateur B̄n de p. Sur la base de cet estimateur, donnez deux
intervalles de confiance (non asymptotiques) pour p, d’abord en utilisant une
majoration simple de p(1 − p), l’autre par l’inégalité de Hoeffding.
2. Quelle convergence en loi a-t-on pour B̄n − p ? Déduire de cette propriété et du
lemme de Slutsky un intervalle de confiance asymptotique pour p.
√
3. Montrer grâce que pour g(x) = 2 arcsin x on a la conver-
√ à la méthode delta
gence en loi n g(B̄n ) − g(p) → N (0, 1). En déduire un nouvel intervalle de
confiance asymptotique pour p.
4. Pour n = 10, 50, 100 et différentes valeurs de p, répéter N = 10000 fois
l’opération suivante : simuler B1 , . . . , Bn , calculer les quatre intervalles ci-
dessus et la proportion, sur les N réalisations, de fois où p est bien dans l’in-
tervalle. On est en train d’estimer la probabilité P(p ∈ I) à partir d’un N -
échantillon de loi binomiale. Quelle précision donne l’expérience ci-dessus ?
5. Estimer le niveau réel des quatre intervalles.

43
MAO Probas-Stats

4.4 Tests d’hypothèses : définitions générales

Nous partons d’un modèle paramétrique P = {Pθ , θ ∈ Θ}, et nous donnons deux
sous-ensembles disjoints Θ0 et Θ1 de Θ. Nous ne supposons pas que Θ0 ∪ Θ1 = Θ.
Nous allons considérer les deux hypothèses suivantes :
H0 : θ ∈ Θ0 H1 : θ ∈ Θ 1 .
On verra toujours H0 comme l’hypothèse a priori, et H1 comme l’hypothèse alterna-
tive. Autrement dit, le test vise “à ne rejeter H0 que si l’on a de bonnes raisons de le
faire”, et le choix des critères de rejet va dépendre de la forme de H1 .

Exemple 5 Dupond et Dupont jouent à pile ou face : pile fait gagner Dupond, face fait
gagner Dupont. A priori, la pile est équilibrée (la probabilité p de faire pile vaut 1/2)
mais les deux policiers se soupçonnent de tricher. Si Dupond veut faire le test, il va
naturellement considérer Hd0 : p = 1/2 contre Hd1 : p < 1/2 (puisque si Dupont
triche, c’est pour gagner). Inversement, si Dupont veut faire le test, il va considérer
Ht0 : p = 1/2 contre Ht1 : p > 1/2. On voit bien que les ensembles Θ0 et Θ1 ne
sont pas complémentaires, ce qui correspond à des hypothèses faites sur le modèle,
hypothèses qu’il va s’agir d’exploiter.

Définition 4.4.1 Un test de H0 contre H1 est une fonction φ(X) à valeurs dans {0, 1},
à laquelle on associe la règle de décision : si φ(X) = 0, on conserve H0 et si
φ(X) = 1, on rejette H0 . On définit les erreurs de première espèce et de seconde
espèce associées :
α: Θ0 → [0, 1] β: Θ1 → [0, 1]
θ 7→ Pθ φ(X) = 1 θ 7 → Pθ φ(X) = 0 .
On dit qu’un test est de niveau α si supΘ0 α ≤ α.
Les erreurs de première et seconde espèce caractérisent les probabilités des deux manières
de se tromper : respectivement, rejeter H0 à tort (donc observer φ(X) = 1 alors que
θ ∈ Θ0 ), ou conserver H0 à tort (donc observer φ(X) = 0 alors que θ ∈ Θ1 ). On
appelle puissance du test la fonction 1 − β.

Exercice 55
1. Soit X1 , . . . , Xn un n-échantillon de loi N (m, σ 2 ) avec m et σ inconnus. Don-
ner un estimateur de m, et déterminer sa loi. Définissez un test de H0 : m = m0
contre H1 : m > m0 .
2. Définir une fonction qui, si on lui donne un n-échantillon X1 , . . . , Xn en entrée,
donne le résultat du test.
3. On se place dans le cas m = m0 = 2, α = 5%, et, pour conserver notre
ignorance de σ, on tirera au hasard une valeur dans [1, 2] ; on veut estimer le
niveau réel α(m0 ). On va donc faire N fois l’expérience qui consiste à simuler
n variables de loi N (m, σ 2 ), à appliquer le test à ce n-échantillon et à compter
combien de fois, sur les N , on rejette (à tort) l’hypothèse H0 . Sachant que la
vraie valeur de p = α(m0 ) est de l’ordre de 0, 05, quelle valeur de N choisir
pour avoir un estimation (de niveau de confiance 95%) de p à 0, 01 près ?

44
Tests et estimateurs classiques

4. Implémenter l’expérience ci-dessus, et estimer le niveau réel du test pour différentes

valeurs de la taille n par exemple (5, 10, 50, 100).
5. On veut maintenant estimer la puissance du test. Estimer cette quantité pour
n = 5, 10, 50, 100 et m variant de 2, 1 à 3 par pas de 0, 1. Représenter les
résultats.

4.5 Tests du chi-deux

Le test du χ2 est sans doute l’un des tests les plus connus et les plus courants. Il
permet de tester si un échantillon suit bien une loi donnée (test d’ajustement à une loi),
ou si elle appartient à une famille de lois (test d’ajustement à une famille), ou encore si
des variables sont indépendantes, suivent la même loi inconnue a priori, etc.
4.5.1 Ajustement à une loi
On dispose d’un n-échantillon (X1 , . . . , Xn ) i.i.d. dont les variables sont à valeurs
dans un ensemble fini E = {u1 , . . . , ud }. On formule l’hypothèse H0 que ces variables
suivent une loi fixée pref = (pref
j )1≤j≤d . Ainsi

H0 :Xi ∼ pref ,
H1 :Xi 6∼ pref .

Pour cela, on compare la loi empirique des (Xi )1≤i≤n avec la loi de référence, en
utilisant la méthode des moments. Notons la fréquence empirique
Pn
1lX =u
p̂j,n = i=1 i j .
n
Alors on considère la pseudo-distance suivante, appelée statistique de Pearson :
d 2
X (p̂j,n − pref
j )
Dn2 = n .
j=1
pref
j

On rappelle que la loi du χ2 à k degrés de liberté, notée χ2 (k), est la loi de N12 +
· · · + Nk2 où les Ni suivent des lois normales centrées réduites indépendantes. Sa den-
1
sité est 2k/2 Γ(k/2) xk/2−1 e−x/2 1lx≥0 . Une preuve du résultat suivant est donnée dans
Statistique mathématique en action de Rivoirard et Stoltz ; elle repose sur un théorème
central limite multi-dimensionnel, et sur l’étude des vecteurs gaussiens.

L p.s.
Théorème 4.5.1 Sous H0 , Dn2 → χ2 (d − 1). Sous H1 , Dn2 → +∞.

Par conséquent on définit le test

φ(X1 , . . . , Xn ) = 1lDn2 >cd−1,1−α

où cd−1,1−α est le quantile d’ordre 1 − α de la loi χ2 (d − 1). Ce test est donc de niveau
asymptotique α.

45
MAO Probas-Stats

Exercice 56 Test du chi-deux d’ajustement. Un ordinateur possède un générateur

pseudo-aléatoire de nombres choisis au hasard dans l’ensemble des entiers de 0 à
9. On dispose d’un échantillon de taille N = 1000 de chiffres tirés par ce générateur.
Les résultats sont répartis dans le tableau suivant.

Chiffres 0 1 2 3 4 5 6 7 8 9
Observations 120 87 115 103 91 109 92 112 94 77

1. On veut tester l’hypothèse d’équiprobabilité pour chaque chiffre. Mettre en œuvre

le test du χ2 . Choisissez vous d’accepter l’hypothèse d’équiprobabilité pour
l’échantillon précédent, et si oui pour quel niveau α ?
Le plus grand α pour lequel on conserve H0 est parfois appelé p-valeur ; c’est
une variable aléatoire.
2. Faires de même en remplaçant la table précédente par une table générée via la
fonction random de Python.

4.5.2 Ajustement à une famille de lois

On reprend la même situation, mais cette fois-ci on fixe une famille de lois de
probabilités sur E, notée P = {p(θ), θ ∈ Θ} où Θ est un ouvert de Rk , avec k < d−1.
On teste donc H0 : L(Xi ) ∈ P contre H1 : L(Xi ) 6∈ P.
Pour ce faire, on commence par construire un estimateur θ̂n deθ par la méthode du
maximum de vraisemblance. On en déduit la loi p(θ̂n ) = pj (θ̂n ) . On construit
1≤j≤d
alors la statistique de Pearson associée à cette loi p(θ̂n ) :

d
X (p̂j,n − pj (θ̂n ))2
D̂n2 = n .
j=1 pj (θ̂n )

Théorème 4.5.2 Si l’application p : θ 7→ p(θ) = (pj (θ))1≤j≤d est injective, de classe

C 2 , qu’aucune de ses composantes ne s’annulent sur Θ, et que ses k dérivées partielles
sont linéairement indépendantes en tout point de Θ, alors sous H0 ,

L
D̂n2 → χ2 (d − 1 − k).

p.s.
De plus, sous H1 , si en plus d(L(Xi ), P) > 0, alors D̂n2 → +∞.

Exercice 57 On considère n couples d’observations (X1 , Y1 ), . . . , (Xn , Yn ), où les

Xi et Yi sont toutes à valeurs dans E = {u1 , . . . , ud }. On suppose de plus qu’elles
chargent tous les points de E. On veut tester l’hypothèse H0 : les Xi sont indépendantes
des Yi , contre H1 l’hypothèse contraire.
Écrire ce problème comme un problème d’ajustement à une famille de lois sur E 2 .
Exprimer l’estimateur du maximum de vraisemblance, puis la statistique de Pearson

46
Tests et estimateurs classiques

associée, en fonction des fréquences empiriques :

n
1X
p̂j1 ,n = 1lX =u ,
n i=1 i j1
n
1X
q̂j2 ,n = 1lY =u ,
n i=1 i j2
n
1X
r̂j1 ,j2 ,n = 1l(Xi ,Yi )=(uj1 ,uj2 ) .
n i=1

En déduire un test de niveau asymptotique α. C’est le test du χ2 d’indépendance.

Exercice 58 Cette fois-ci on dispose de deux échantillons, (A1 , . . . , An ) et (B1 , . . . , Bm ),

toujours à valeurs dans E. Notons α la loi des Ai et β la loi des Bi . On cherche à tester
l’hypothèse H0 : α = β contre H1 : α 6= β.
Montrer que cela revient à un test d’indépendance sur une permutation aléatoire
des n + m couples d’observations (A1 , 1), . . . , (An , 1), (B1 , 2), . . . , (Bm , 2), et donc
qu’on peut se ramener à l’exercice précédent.
C’est le test du χ2 d’homogénéité.

4.6 Texst de Kolmogorov et dérivés

Une autre manière de construire des tests d’ajustement à une loi donnée est d’ex-
ploiter les Théorèmes 2.3.3 et 2.3.4 sur les fonctions de répartition. On explore cette
idée par un exercice.

Exercice 59 Tests de Kolmogorov et de Lilliefors. Soit X1 , X2 , . . . une suite de v.a.

i.i.d, de fonction de répartition F . On suppose que F est continue. Pour tout n, on
définit la fonction de répartition empirique de l’échantillon (X1 , . . . , Xn ) par
n
1X
F̂n (x) = 1lX ≤x .
n i=1 i

On définit la distance de Kolmogorov-Smirnov

Dn = sup |F̂n (x) − F (x)|.

x∈R
√
On rappelle le Théorème 2.3.4 : n Dn converge en loi vers une loi dite de Kolmogorov-
Smirnov, qui ne dépend pas de la loi des Xk .
1. Soient (X (1) , . . . , X (n) ) les valeurs de l’échantillon dans l’ordre croissant. Mon-
trer que

(k) (k)
Dn = max max {k/n − F (X )}, max {F (X ) − (k − 1)/n} .
k=1,...,n k=1,...,n

Ecrire une fonction Dn qui calcule cette quantité pour un échantillon et une
fonction F données.

47
MAO Probas-Stats

2. Illustrer la convergence presque sûre vers 0 de Dn .

√
3. Illustrer la convergence en loi de nDn vers une limite K. La loi de K est
implémentée dans scipy.stats sous le nom scs.kstwobign.
4. En s’inspirant de cette convergence en loi et du test du χ2 , proposer un test
d’ajustement de la loi de l’échantillon à une loi F0 donnée : quelles sont les
hypothèses H0 et H1 du test, quand rejetez-vous H0 ?
Ce test est appelé test de Kolmogorov.
5. Mettez en oeuvre le test, au niveau asymptotique α = 5%, dans les cas suivants :
• échantillon de loi normale standard avec F0 une loi normale standard,
• échantillon de loi exponentielle avec F0 une loi exponentielle,
• échantillon de loi normale standard avec F0 une loi de Laplace.
6. Le test de Lilliefors est un test de normalité basé sur le test de Kolmogorov-
Smirnov. On considère la statistique
√
Ln = n sup |F̂n (x) − Φ̂n (x)|,
x∈R

où Φ̂n est la fonction de répartition de la loi N (X̄, S 2 ), avec

n n
1X 1X 2
X̄ = Xk , S2 = Xk − X̄ .
n n
k=1 k=1

Illustrer le fait que Ln converge en loi quand n → ∞ si les Xi suivent une loi
normale, et comparer la limite L avec K. Prouver que Ln tend presque-sûrement
vers l’infini si les Xi ne suivent pas une loi normale.
7. Estimez le 95%-quantile de L et utilisez-le pour proposer un test de normalité
de niveau asymptotique 5%.
Le test de Kolmogorov peut également être modifié en un test d’homogénéité appelé
test de Kolmogorov-Smirnov : on dispose de deux échantillons, X = (X1 , . . . , Xn ) et
Y = (Y1 , . . . , Ym ), et on veut savoir s’ils ont la même loi, sans chercher à connaı̂tre
cette loi. Pour cela, on note F̂n (resp. Ĝm ) leur fonction de répartition empirique
respective, et on calcule Dn,mq= supx∈R |F̂n (x) − Ĝm (x)|. Un résultat analogue
nm
au Théorème 2.3.4 assure que n+m Dn,m converge en loi vers une loi universelle
lorsque n, m → ∞. Il s’agit ensuite d’adapter le test précédent à cette loi.
4.7 Exercice supplémentaire
Exercice 60 Etude de la robustesse 2 d’un test. Soit une suite d’observations X1 , X2 , . . . , Xn
i.i.d. de loi µ. On note X̄ la moyenne empirique et S 2 la variance empirique (version
biaisée) :
n n
1X 1X 2
X̄ = Xt , S2 = Xt − X̄ .
n t=1 n t=1
2. La robustesse d’un test est définie comme la non-sensibilité de la procédure de test à la loi des ob-
servations. Le test asymptotique sur la moyenne fondé sur le TCL est ainsi robuste sur l’ensemble des lois
admettant un moment d’ordre deux.

48
Tests et estimateurs classiques

1. On suppose que µ est une loi gaussienne, de moyenne m et de variance σ 2 .

Quelle est la loi de S 2 ?
2. On pose H0 : σ 2 ≤ 1. Déduire du résultat précédent un test de niveau (exacte-
ment) α.
On se demande maintenant si le test construit précédemment s’étend à des lois non-
gaussiennes, c’est-à-dire, si lorsque µ n’est plus gaussienne, le test précédent (avec la
même statistique de test, avec le même choix pour la zone de rejet) est toujours, au
moins asymptotiquement, de niveau α. On admet pour l’instant les résultats suivants :
• si cn−1,α désigne le α-quantile de la loi du χ2 à n − 1 degrés de liberté, alors
cn−1,α − n
√ √ −→ uα ,
2 n
où uα désigne le α-quantile de la loi gaussienne standard ;
• on a la convergence en loi suivante :
2
√

S
n − 1 ; N (0, κ − 1) ,
σ2
où κ désigne la kurtosis de µ, définie par
µ4
κ = 2,
µ2
h i
k
avec, pour k ∈ N, µk = E (X − E[X]) (notez qu’en particulier, µ2 = σ 2 est
la variance de µ.)
3. On note Φ la fonction de répartition de la loi gaussienne.
√ √Prouver qu’asympto-
tiquement, le test précédent est de niveau 1 − Φ(uα 2/ κ − 1) , c’est-à-dire
que
√ !
uα 2
lim sup sup Pσ2 (rejet du test) ≤ 1 − Φ √ .
n σ 2 ≤1 κ−1
On a donc prouvé la non-robustesse contre une modification de la valeur de la
kurtosis.
4. Mettons en évidence cette non-robustesse par voie de simulations. Pour n =
20, estimer par méthode de Monte–Carlo le niveau réel du test proposé à la
question (2), pour α = 5% et µ donné, d’une part par une loi de Laplace, et
d’autre part par un mélange de gaussiennes 0, 95 N (0, 1) + 0, 05 N (0, 9) (il
faut renormaliser ces deux lois pour être dans l’hypothèse nulle).
5. Il faut encore prouver les deux résultats que nous avions admis. Ils découlent
tous deux de la convergence en loi suivante, à démontrer (on note m l’espérance
de µ) :
n
!
√ √ 1 X 2 √ 2
n S 2 − σ2 = n (Xt − m) − σ 2 − n X̄n − m

n t=1

converge en loi vers une N (0, µ4 − µ22 ) .

49
MAO Probas-Stats

50
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 5

Chaı̂nes de Markov

Les chaı̂nes de Markov sont des objets couramment utilisés en simulation, parce
qu’elles apparaissent dans de nombreux R problèmes de modélisation. Un autre intérêt
est l’estimation de quantités du type f dπ, où π est une mesure de probabilité que l’on
ne sait pas bien simuler. Si l’on arrive à construire une chaı̂ne de Markov de probabilité
invariante π, pour lesquels les théorèmes classiques de convergence s’appliquent, alors
la distribution au temps long de la chaı̂ne sera proche de µ.
Il est recommandé de revoir au préalable vos cours sur la théorie générale des
chaı̂nes de Markov, même si nous nous concentrerons sur le cas plus simple des chaı̂nes
à espace d’états finis.

5.1 Simulation et résultats classiques

Les notations utilisées dans l’ensemble du texte seront les suivantes : (Xn )n sera
toujours une chaı̂ne de Markov de matrice de transition (ou noyau de transition) P (x, y) x,y∈E
sur un ensemble E de cardinal fini d, avec la convention P (x, y) = P(Xn+1 = y|Xn =
x).
Si µ0 = (µ0 (x))x∈E (vu comme un vecteur ligne) est la loi de X0 alors µn = µ0 P n
est la loi de Xn . De même, si f est une fonction sur E (vue comme un vecteur colonne)
alors P f sera la fonction
X
P f (x) = P (x, y)f (y) = Ex f (X1 ) .
y∈E

On notera Px (resp. Pµ ) les probabilités conditionnelles à X0 = x p.s. (resp. sous

l’hypothèse que X0 suit la loi µ), de même pour Ex (resp. Eµ ).
5.1.1 Trajectoire
Supposons que la matrice de transition est donnée sous la forme d’une liste de listes,
par exemple P=[[1/2,1/3,1/6],[1/3,1/3,1/3],[1/2,0,1/2]]
1/2 1/3 1/6 pour la
matrice P = 1/3 1/3 1/3 ; notons que c’est bien la forme qu’aura P si on la code
1/2 0 1/2
par une variable np.array, avec par exemple

P=np.array([[1/2,1/3,1/6],[1/3,1/3,1/3],[1/2,0,1/2]]).

51
MAO Probas-Stats

Dans ce cas, et si l’on indexe (suivant l’habitude de Python) les trois sommets comme 0,
1 et 2 alors conditionnellement à Xn = i la variable Xn+1 vaut 0, 1 ou 2 avec des pro-
babilités données par P[i]. On peut alors utiliser la commande rnd.choice(d,p=P[i])
où d est le cardinal de l’espace d’état (ici d = 3).

Exercice 61 Écrivez une fonction Python qui prend en entrée X0 , n et P et simule une
trajectoire (X0 , . . . , Xn ).
Il ressort de l’exercice précédent qu’une chaı̂ne de Markov peut également être
donnée sous la forme Xn+1 = fn (Xn , Un+1 ) où (Un )n est une suite i.i.d. de loi
U([0, 1]) indépendante de X0 .
5.1.2 Irréductibilité
Pour une chaı̂ne de Markov à espace d’états finis, il n’y a pas d’état récurrent nul.
La chaı̂ne de Markov est dite irréductible si pour tous x, y ∈ E, il existe n ∈ N tel
que P n (x, y) > 0. Si ce n’est pas le cas, on peut partitionner E en une union disjointe
de classes, telles que la restriction de P à chacune de ces classes est irréductible ; on
parle de classes irréductibles ; chacune de ces classes est soit entièrement récurrente
soit entièrement transitoire. De plus, la chaı̂ne est presque sûrement capturée par une
classe récurrente. La plupart du temps, en étudiant un peu la chaı̂ne a priori, on pourra
se restreindre à une classe récurrente. Ainsi, les hypothèses de “chaı̂nes de Markov
irréductibles récurrentes” ci-après ne coûtent pas très cher dans ce cas.
5.1.3 Période
Supposons la chaı̂ne irréductible. Sa période est alors

d = pgcd{n > 0 | P n (x, x) > 0}

et ne dépend pas de l’état x ∈ E. La chaı̂ne est dite apériodique si d = 1. C’est par

exemple le cas si P (x, x) > 0 pour un certain x ∈ E.

Remarque 5.1.1 (Apériodicité par perturbation) Soit p ∈]0, 1[, alors la matrice

Pp = (1 − p)P + pI

est apériodique, reste irréductible si P l’était, et possède les mêmes mesures inva-
riantes. Pour la trajectoire de la chaı̂ne, cela revient à choisir avec probabilité p de ne
pas bouger, et ce à chaque étape.
5.1.4 Mesure invariante et théorème ergodique
Si la chaı̂ne est irréductible avec un espace d’états finis, elle est nécessairement
récurrente positive et on sait que dans ce cas il existe une unique mesure de probabilitié
invariante π.

Exercice 62 Écrire une fonction Python qui prend en entrée P que l’on suppose irréductible,
et donne la mesure invariante π de cette chaı̂ne. On utilisera np.linalg.eig, dont
on pourra consulter le fichier d’aide, et np.where. Ne pas oublier que la probabilité
invariante est vecteur propre de la transposée de P et pas de P même, et que la sortie

52
Chaı̂nes de Markov

doit être une probabilité, donc un vecteur à coefficients positifs et dont la somme vaut
1.

Il existe un résultat de type “loi des grands nombres” pour les chaı̂nes de Markov :
c’est le théorème ergodique.

Théorème 5.1.2 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable E.
Si cette chaı̂ne est irréductible et admet une probabilité invariante π, alors pour toute
fonction f sur E intégrable par rapport à π, on a
n Z
1X p.s.
f (Xk ) → f dπ.
n
k=1

Notons que l’irréductibilité assure que la probabilité invariante est unique si elle existe,
et qu’elle existe toujours si E est fini. Ce résultat est démontré par exemple dans Pro-
menade aléatoire de Benaı̈m et El Karoui, ou dans Modélisation stochastique de Bercu
et Chafaı̈.
Notons également que ce théorème ne requiert pas d’apériodicité. Comme on ef-
fectue une moyenne temporelle, les effets de périodicités sont “gommés”.
Il existe également un résultat de type “théorème central de la limite” pour les
chaı̂nes de Markov :

Théorème 5.1.3 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état fini E. Si
cette chaı̂ne est irréductible et qu’on note π sa probabilité invariante, alors pour toute
fonction f sur D, il existe σf2 tel que

n
!
√
Z
1X L
n f (Xk ) − f dπ → N (0, σf2 ).
n
k=1

Le gros défaut pratique de cet énoncé est que σf n’est défini que de manière implicite,
de sorte que ce résultat ne peut servir pour donner des intervalles de confiance.

Exercice 63 Illustrez les deux théorèmes ci-dessus dans le cas de la chaı̂ne de ma-
trice de transition P ci-dessus et pour f = 1l{0} . La variance σf étant inconnue, on
l’estimera par la variance empirique d’un N -échantillon de Xn pour n assez grand.

5.1.5 Convergence en loi vers l’équilibre

Le Théorème 5.1.2 ne nous dit pas si Xn converge effectivement en loi vers la
mesure invariante π. Et de fait ce n’est pas forcément le cas : imaginons que E est
l’union disjointe de deux sous-ensemble E1 et E2 , et que la chaı̂ne saute à chaque étape
d’un sous-ensemble à l’autre. Alors pour une mesure de départ µ0 = δx où x ∈ E1 , on
aura µn portée par E1 pour les n pairs et par E2 pour les n impairs ; elle ne peut donc
pas converger faiblement 1 . C’est pourquoi le théorème suivant a des hypothèses plus
fortes.
1. On a en fait une convergence de type Césaro.

53
MAO Probas-Stats

Théorème 5.1.4 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable
E. Si cette chaı̂ne est irréductible, récurrente positive et apériodique et qu’on note π
sa probabilité invariante, alors quelle que soit la loi de X0 ,
L
Xn → π.

Dans le cas d’un espace d’états fini, c’est une conséquence du théorème de Perron-
Frobenius.
5.2 Méthodes de Monte-Carlo
Le principe général de la méthode de Monte-Carlo est le suivant : pour toute fonc-
tion f sur E, le théorème ergodique donne (sous ses hypothèses) :
n Z
1X p.s.
f (Xk ) −→ f dπ. (5.1)
n n→∞
k=1
R
On peut donc espérer calculer f dπ en simulant une trajectoire d’une chaı̂ne de
Markov de probabilité invariante π. Notons que c’est différent, que ce soit concep-
tuellement ou numériquement, d’une estimation de cette intégrale E f (X) par une
PN
moyenne empirique n1 k=1 f (X (k) ) pour X (1) , . . . , X (N ) un N -échantillon de X :
• dans l’estimation par la moyenne empirique, on moyenne sur les valeurs de
plusieurs réalisations indépendantes au même temps (on a plusieurs ω, un seul
temps) et on a besoin de savoir simuler X de loi π ;
• dans l’estimation basée sur (5.1), on moyenne sur les valeurs à différents “temps”
d’une seule trajectoire (on a un seul ω, plusieurs temps) et on a besoin de savoir
simuler une chaı̂ne de Markov de probabilité invariante π.
Si l’on sait simuler simplement les transitions d’une chaı̂ne de Markov de probabi-
lité invariante π, alors la deuxième méthode est plus efficace. Notons qu’elle ne sera
intéressante, en particulier, que s’il est moins coûteux numériquement de simuler la
chaı̂ne que de calculer tous les π(x) et de sommer les f (x)π(x), donc plutôt quand on
a une description simple de la dynamique de la chaı̂ne, mais que cette chaı̂ne vit dans
un espace d’état de grande taille. Mais est-ce si simple de construire une chaı̂ne de Mar-
kov (irréductible) de probabilité invariante π ? Nous allons décrire dans la section 5.3
une méthode, dite de Metropolis–Hastings, de simulation d’une chaı̂ne de Markov de
probabilité invariante π.
On ne se pose pas ici la question de la vitesse de convergence, que l’on pourra
traiter par une étude du spectre de la matrice de transition P : puisque lorsque P est
irréductible les constantes sont son seul invariant, on peut (sous certaines hypothèses)
estimer P n f (x) − f dπ en fonction de la valeur propre de P qui a le module le plus
R

grand après 1 (1 est toujours valeur propre, et c’est la plus grande). Nous ne décrirons
pas en détail cette étude spectrale : de toute façon, la méthode se heurte à des calculs
pénibles dès que l’on s’intéresse à des problèmes concrets. Nous exploiterons cepen-
dant l’idée que l’on peut contrôler la vitesse de convergence pour obtenir un algorithme
stochastique de recherche de minima, algorithme appelé le recuit simulé, présenté dans
la section 5.5.

54
Chaı̂nes de Markov

5.3 Algorithme de Metropolis–Hastings

Dans cette section, nous allons donner une méthode permettant de construire une
matrice de transition P qui sera réversible pour une matrice donnée π.
Rappelons la définition de la réversibilité :

Définition 5.3.1 On dit que la matrice de transition P (x, y) x,y est réversible par
rapport à π si pour tous x, y de E on a

P (x, y) π(x) = P (y, x) π(y). (5.2)

Si P est réversible par rapport à π, alors π est invariante pour P . Plus précisément,
l’invariance de π est caractérisée par l’égalité
X X
P (x, y) π(x) = P (y, x) π(y),
y∈E y∈E

donc l’invariance de π par P correspond à l’égalité “en moyenne” de Px,y π(x) alors
que la réversibilité correspond à une égalité terme à terme. Ceci explique que (5.2) soit
aussi appelée la condition de bilan détaillé.
On part d’une probabilité π dont on suppose qu’elle charge tous les points, c’est-à-
dire que π(x) > 0 pour tout x ∈ E, et on suppose donnée une matrice de transition Q,
dite matrice de sélection, qui a la propriété Q(x, y) = 0 ⇒ Q(y, x) = 0. On pose

π(y)Q(y, x)
α(x, y) = min 1, (5.3)
π(x)Q(x, y)

avec la convention que α(x, y) = 0 si Q(x, y) = 0.

Lemme 5.3.2 On définit

α(x,
P y) Q(x, y) si x 6= y,
P (x, y) =
1 − y 1ly6=x P (x, y) sinon.

Alors P est un noyau de transition qui est réversible pour π, et irréductible si Q l’est.

La matrice de transition P donnée ci-dessus correspond à un algorithme d’évolution

très simple : si l’on a Xn = x, alors le choix de la valeur de Xn+1 se fait de la manière
suivante :

1. on choisit y suivant la loi Q(x, y) y∈E ,
2. on calcule α(x, y) ;
3. on tire un U de loi U([0, 1]) ;
• si U ≤ α(x, y) alors on accepte la sélection et on choisit Xn+1 = y ;
• sinon on refuse la sélection et on choisit Xn+1 = x.

Exercice 64 Prouvez le Lemme 5.3.2.

55
MAO Probas-Stats

Remarque 5.3.3 Il existe d’autres choix de fonctions α avec les mêmes propriétés, par
exemple
π(y)Q(y, x)
α(x, y) = (5.4)
π(y)Q(y, x) + π(x)Q(x, y)
et α(x, y) = 0 si Q(x, y) = 0. Ce choix a pour avantage d’être toujours apériodique,
mais cela est aussi très souvent le cas pour le choix (5.3) (par exemple dès que α(x, y) <
1 pour certains x, y).
Cet algorithme simple permet donc de simuler une chaı̂ne de Markov qui va être
réversible par rapport à π. On verra que l’estimation des vitesses de convergence est
plus simple pour les chaı̂nes réversibles.

Remarque 5.3.4 On n’a pas besoin d’expliciter la matrice Q : il suffit de savoir définir
un algorithme qui simule la chaı̂ne de transitions données par Q, et de connaı̂tre
les rapports Q(x, y)/Q(y, x). On n’a pas besoin non plus de connaı̂tre explicitement
π(x) : il suffit de connaı̂tre les rapports π(x)/π(y).

Exercice 65 Soit V = (Z/rZ)d un réseau d-dimensionnel. On appelle configuration

de sphères dures sur S une application x : V → {0, 1} telle que x(v) 6= x(v 0 ) si v et
v 0 sont voisins. La situation x(v) = 1 décrit la présence en v d’une “sphère” qui est
assez grosse pour empêcher la présence d’une autre sphère sur les sites voisins (mais
pas sur les sites plus lointains). On note M l’ensemble des configurations de sphères
dures sur V , et π la probabilité uniforme sur M . Le but est de simuler cette distribution
π, ce qui n’est pas évident a priori.
On considère la chaı̂ne de Markov suivante : si Xn = x ∈ M , alors
1. on choisit v uniformément dans V ,
2. si le site v est libre et que les sites voisins ne sont pas tous libres, on ne fait rien,
3. si le site v est occupé, ou qu’il est libre et que tous
les sites voisins de v sont
libres, on choisit x(v) = 0 ou 1 suivant une B 21 ;
ceci définit la configuration Xn+1 .
Montrez que c’est l’algorithme de Metropolis pour la fonction (5.4), et définit donc
une chaı̂ne de Markov irréductible apériodique de mesure invariante π. P
En déduire une estimation numérique du nombre moyen de sphères Eπ v∈V x(v)
(en prenant n = 10 000 pour r = 10, d = 2).

5.4 Mesures de Gibbs

Soit V une fonction de E dans R, et T > 0 un paramètre appelé la température.
On appelle mesure de Gibbs (ou de Boltzmann–Gibbs) associée à la fonction V , à la
température T , la probabilité définie par
1 −V (x)/T
πV,T (x) = e , (5.5)
Z
où Z est une constante de normalisation :
X
Z= e−V (x)/T .
x∈E

56
Chaı̂nes de Markov

Les mesures de Gibbs sont fondamentales en physique, et plus particulièrement en

physique statistique où E représente l’espace d’état d’un système physique, x ∈ E une
configuration donnée et V (x) l’énergie de cette configuration. Les mesures de Gibbs
sont alors les lois d’équilibre macroscopique du système 2 , et il est important de pouvoir
les simuler.
L’une des difficultés de la simulation directe des lois de Gibbs réside dans la cons-
tante Z, a prioriRinconnue et dont le calcul est long – ou en tout cas aussi compliqué
que le calcul de f dπV,T – dès que E est de grande taille. C’est là que la Remarque
5.3.4 prend tout son sens. L’algorithme est de plus simplifié par le fait que pour tous
x, y de E,
πV,T (y)
= e−(V (y)−V (x))/T
πV,T (x)
qui ne dépend que des différences V (y) − V (x), en général simples à calculer. Ex-
plicitons dans ce cadre l’algorithme de Metropolis : partant de x ∈ E, l’évolution est
donnée simplement par

1. on choisit y ∈ E suivant la loi Q(x, y) y∈E ;

2. on calcule α(x, y) = min 1, Q(y,x)
Q(x,y) e
−∆V (x,y)/T
où ∆V (x, y) = V (y) −
1
V (x) (ou bien, pour la fonction (5.4), α(x, y) = Q(x,y) );
1+ Q(y,x) e−∆V (x,y)/T

3. on tire U de loi U([0, 1]) ;

• si U ≤ α(x, y) alors on accepte la sélection et on choisit Xn+1 = y ;
• sinon on refuse la sélection et on choisit Xn+1 = x.
Le principe de cet algorithme sera plus naturel dans le cas où Q(x, y) = Q(y, x),
comme ce sera le cas dans l’exercice 66 ci-dessous.
Notre premier exercice de vraie simulation concerne l’utilisation
R de la méthode de
Metropolis–Hastings non plus pour estimer une intégrale f dπ mais pour simuler π
(on va donc utiliser le Théorème 5.1.4) dans un modèle simple d’aimant appelé modèle
d’Ising.

Exercice 66 On considère un réseau fini R = {1, . . . , r}2 , qui représente les positions
des atomes dans un bloc de métal. On note a ∼ b si deux sites a et b sont voisins.
Chaque atome a un moment magnétique (une “micro-aimantation”) qui est orienté
soit vers le haut, soit vers le bas : on note σ(a) ∈ {−1, +1} le moment magnétique
(que l’on appelle habituellement “spin”) en a = (i, j) ∈ R. La configuration du bloc
est donc décrite par σ = σ(a) a∈R et donc l’espace d’états est E = {−1, +1}R .
Pour des raisons physiques, les moments magnétiques différents ont tendance à se
repousser, de sorte que si deux atomes voisins ont des spins différents, l’énergie du
système est plus élevée que s’ils sont alignés — et pour la mesure de Gibbs (5.5), une
énergie plus élevée donne une probabilité plus faible. On suppose en revanche que
R
2. Au sens où les mesures πV,T sont R les mesures π qui maximisent l’entropie S(π) = − log π(x) dπ
sous la contrainte que l’énergie totale V dπ est fixée.

57
MAO Probas-Stats

deux atomes qui ne sont pas immédiatement voisins n’interagissent pas directement
l’un avec l’autre. On modélise ceci en posant
X
V (σ) = − σ(a) · σ(b)
(a,b) | a∼b

où la somme porte sur l’ensemble des couples a, b de R qui sont voisins.
1. On considère la chaı̂ne de Markov de matrice Q dont l’évolution est donnée
comme suit : partant de σ, on choisit a ∈ R uniformément et on renverse le
spin en ce site, sans toucher au reste : on passe en σ 0 vérifiant σ 0 (a) = −σ(a)
et σ 0 (b) = σ(b) pour b 6= a. Si l’on note Q la matrice de transition associée,
a-t-elle la propriété Q(σ, σ 0 ) > 0 ⇒ Q(σ 0, σ) > 0 ? A-t-on une relation plus
précise entre Q(σ, σ 0 ) et Q(σ 0, σ) ?
2. Supposons que dans l’évolution σ → σ 0 ci-dessus, on ait choisi de renverser le
site a. Montrez que
X
∆V (σ, σ 0 ) := V (σ 0 ) − V (σ) = 2σ(a) · σ(b). (5.6)
b | b∼a

Définir une fonction qui calcule la quantité donnée en (5.6) si on lui donne σ
(comme un array Numpy) et a.
3. Reprendre l’algorithme de Metropolis–Hastings, version (5.3), pour Q et πV,T .
Observer que l’évolution est définie simplement comme suit : partant de σ,
• on choisit un site a ∈ R uniformément, et on calcule ∆V (σ, σ 0 ) ;
• si ∆V < 0, on renverse le spin en a ;
• si ∆V ≥ 0, on renverse le spin en a avec probabilité e−∆V /T .
4. Montrer que la chaı̂ne de Markov définie par l’algorithme de Metropolis–Hastings
est irréductible apériodique. Ecrire une fonction qui exploite l’algorithme de
Metropolis pour tirer une configuration de distribution proche de l’état de Gibbs
du modèle ci-dessus.
5. Afficher de telles configuration pour différentes valeur de T , en utilisant la com-
mande matshow de Matplotlib. On pourra prendre les valeurs r = 20, n =
10000 et T = 9, 7, 5, 3, 1.
6. Pour une configuration σ donnée, on peut définir l’aimantation macroscopique
α(σ) = r12 a∈R σ(a). Pour différents tirages aux différentes valeurs de T
P
données, calculez |α(σ)|. La valeur observée indique-t-elle que les spins ont
tendance à s’aligner, ou bien peut-elle être simplement l’effet du hasard ? Pour
répondre à cette question, donnez un intervalle de fluctuation à 95% pour |α(σ)|
dans le cas où σ est obtenu en tirant uniformément, en chaque site, un spin ±1.

5.5 Méthode du recuit simulé

Nous allons maintenant voir un autre intérêt des méthodes de simulation par chaı̂nes
de Markov. Le problème consiste à trouver un minimum de la fonction d’énergie V sur
E. Dans certaines situations c’est très difficile : on traite dans l’exercice 67 un exemple
où ce problème est NP-complet, avec le problème du voyageur de commerce. Notons
Vmin = {x ∈ E | V (x) = inf V }.
E

58
Chaı̂nes de Markov

5.5.1 Algorithme du recuit

Lemme 5.5.1 On a la convergence

def. 1 X
πV,0 = lim πV,T = δx .
T →0 card Vmin
x∈Vmin

Preuve. Soient x, y deux points de E. On a

πV,T (y)
= e−(V (y)−V (x))/T .
πV,T (x)

V,T π (y)
Par conséquent, si V (y) > V (x) alors limT →0 πV,T (x) = 0 donc limT →0 πV,T (y) = 0.
Cela est nécessairement vrai pour tout y 6∈ Vmin . Pour x, y ∈ Vmin on a πV,T (x) =
πV,T (y) pour tout T . 2
On voudrait donc de simuler par l’algorithme de Metropolis-Hastings les mesures
πV,T pour des T de plus en plus petits. On note PT la matrice de transition associée.
Le problème est que le temps de convergence de la chaı̂ne vers sa mesure d’équilibre
est typiquement d’ordre exp C T (on donne quelques éléments de justification dans la
partie 5.5.2). L’idée est donc de diminuer T par paliers, en attedant à chaque fois un
peu plus longtemps.
Plus précisément (voir Théorème 3.3.11 et section 3.3.4 de Promenade aléatoire
de Benaı̈m et El Karoui),on considère une chaı̂ne de Markov obtenue par l’algorithme
de Metropolis à partir d’une mesure de Gibbs associée à un potentiel dont on suppose
qu’il vérifie
Q(x, y) > 0 ⇒ V (x) 6= V (y). (5.7)

Théorème 5.5.2 On suppose que V a la propriété (5.7) et que inf E V > 0. Il existe
une constante C ne dépendant que de V telle que si l’on choisit une suite de températures
(T (n))n données par

1
T (n) = pour eC(k−1) ≤ n < eCk ,
k
alors on a
1 X
lim PT (n) . . . PT (1) f = f (x).
n card Vmin
x∈Vmin

On obtient donc sous les hypothèses du Théorème, que partant de n’importe quel
x ∈ E on atteindra presque-sûrement un minimum de V . Cet algorithme s’appelle le
“recuit simulé”, par analogie avec la technique métallurgique où l’on obtient un métal
durci en le chauffant avant de le laisser refroidir lentement, et ce plusieurs fois.
Une description rapide de cet algorithme est la suivante : on teste des changements
de configuration en les sélectionnant au hasard suivant Q. Si le changement fait bais-
ser V (cas ∆V < 0) alors on accepte la nouvelle configuration. Si le changement fait
augmenter V (cas ∆V > 0), on peut l’accepter ou le refuser, suivant que U ≤ e−∆V /T
ou non. Le premier mécanisme tend à faire diminuer V ; le deuxième évite que l’on se

59
MAO Probas-Stats

retrouve coincé en un minimum local. Le paramètre modifiant la tendance à accepter

un changement défavorable est T (on l’accepte d’autant plus que T est grand) ; choi-
sir T décroissant vers 0 nous assure que l’on finira par se fixer en un minimum, la
décroissance lente doit nous assurer que l’on aura pris assez de risque pour explorer
“toutes” les possibilités avant de se fixer.
Les obstructions techniques sont de deux types :
• on doit choisir un schéma de décroissance par palier dépendant d’une constante
C, mais ce C est difficile à calculer en pratique),
• on a la convergence presque-sûre, mais expliciter la vitesse de convergence est
difficile.
En pratique, il sera facile de voir si l’algorithme converge vers un minimum de V .
En faisant tourner des simulations, on verra si l’algorithme se comporte bien, et en
particulier s’il semble avoir l’une des pathologies suivantes :
• une convergence trop lente, due à un algorithme qui continue trop longtemps à
acccepter les sélections obtenues par Q (ce qui se produit quand la température
décroı̂t trop lentement) ;
• une convergence trop rapide, en général vers un minimum local, due à un algo-
rithme qui se met trop rapidement à refuser les sélections obtenues par Q (ce qui
se produit quand la température décroı̂t trop rapidement).
On aura donc intérêt à jouer à varier la valeur de C. . . ou même à changer de schéma
de décroissance par palier.

Exercice 67 Un voyageur doit visiter r villes, que l’on représente par r points M1 , . . . , Mr
du plan. Sa ville de départ doit être la même que sa ville d’arrivée, mais on sup-
pose (cela simplifie les notations) qu’il peut choisir cette ville aussi. Puisqu’il passera
dans chaque ville une et une seule fois, son parcours est déterminé par une permu-
tation σ de {1, . . . , r}, donc E = Sr . Les villes visitées sont alors, dans l’ordre,
Mσ(1) , Mσ(2) . . . , Mσ(1) La distance entre les villes i et j sont données par d(i, j) ; le
voyageur parcourra donc une distance
r
X
V (σ) = d(Mσ(i) , Mσ(i+1) ) (5.8)
i=1

où l’on considère que r + 1 = 1. On souhaite trouver un itinéraire σ pour lequel

la distance parcourue totale est minimale. Il y a r! itinéraires ; tous les tester serait
beaucoup trop long. On va donc utiliser le recuit simulé.
1. Ecrire une fonction Python qui, pour des variables d’entrée M et sigma qui
sont respectivement une liste de paires de points représentant les coordonnées
(x1 , y1 ), . . . , (xr , yr ) de r points M1 , . . . , Mr du plan et une permutation de
{1, . . . , n}, calcule la distance totale V (σ) telle que définie par la relation (5.8).
2. On considère la transition Q dont l’évolution est la suivante : partant de σ, on
choisit au hasard et uniformément deux points distincts, qui s’écrivent donc σ(i)
et σ(j). Si par exemple on visitait σ(i) avant σ(j) (c’est-à-dire si i < j) alors
on échange σ(i) et σ(j) dans l’itinéraire (par exemple si le couple choisi est 3, 6

60
Chaı̂nes de Markov

alors [2, 3, 1, 4, 6, 5] devient [2, 6, 1, 4, 3, 5]). Montrez que l’évolution en ques-

tion a la propriété Q(σ, σ 0 ) = Q(σ 0 , σ), puis écrivez une fonction qui pour une
variable d’entrée sigma représentant une permutation σ, retourne sigmap
représentant σ 0 définie comme ci-dessus.
3. Pour un T > 0, reprenez l’algorithme de Metropolis–Hastings pour Q et πV,T .
Observez que l’évolution de matrice de transition PT est définie simplement
comme suit : partant de σ,
(a) on modifie l’itinéraire σ en σ 0 comme ci-dessus,
(b) on calcule ∆V = V (σ 0 ) − V (σ) et on simule une uniforme U ∼ U([0, 1]),
(c) si U < e−∆V /T , on sélectionne σ 0 , sinon on conserve σ.
4. Pour les points M1 , . . . , Mr , on tire r points au hasard 3 dans [0, 1]2 . Appliquer
l’évolution ci-dessus avec une température variable suivant le schéma donné
dans le Théorème 5.5.2, en faisant varier la valeur de C. On pourra essayer
aussi avec une variation plus rapide T (n) = C/n et comparer les résultats.
5.5.2 Vitesse de convergence : méthode spectrale
Donnons ici quelques éléments sur la vitesse de convergence de la chaı̂ne PT , qui
sont les résultats sous-jacents au Théorème 5.5.2. L’un des intérêts mathématiques de
l’hypothèse de réversibilité vient du résultat suivant :

Lemme 5.5.3 La matrice P est réversible par rapport à P π si et seulement si elle est
autoadjointe pour le produit scalaire défini par hf, giπ = x∈E f (x)g(x)π(x). Dans
ce cas, ses valeurs propres peuvent s’écrire

1 ≥ v1 ≥ v2 ≥ . . . ≥ vd ≥ −1.

Si de plus P est irréductible, alors 1 = v1 > v2 . Si de plus P est irréductible et

apériodique alors vd > −1.
Sous l’hypothèse que P est irréductible et apériodique alors P n f va tendre vers la
projection de f sur le vecteur propre de P associé à 1. Comme celui-ci est la fonction
R
constante égale à 1 et que la projection est par rapport à h , iπ on a → f dπ.
n→∞
On peut améliorer ce résultat et obtenir une vitesse de convergence en notant ρ =
max(|v2 |, |vd |). Pour toute fonction f sur E on a pour tout n :
Z Z
P n f − f dπ π ≤ ρn f − f dπ π .

En pratique, des calculs plus pénibles que réellement compliqués (voir encore Pro-
menade aléatoire de Benaı̈m et El Karoui) permettent de montrer, pour une chaı̂ne de
Markov obtenue par l’algorithme de Metropolis à partir d’une mesure de Gibbs as-
sociée à un potentiel qui vérifie (5.7), que l’on a une inégalité

ρ ≤ 1 − d−3 e−C(V )/T

3. Si l’on est un peu plus curieux de vraies données, on peut aller récupérer les positions des villes
françaises sur data.gouv.fr

61
MAO Probas-Stats

où d = card E et C(V ) est la fameuse constante qui ne dépend que de V (et en
particulier pas de T ).
Ainsi, partant de n’importe quelle distribution µ, la probabilité µn converge expo-
nentiellement vite vers πV,T – mais avec un taux

1 −C(V )/T
− log(1 − e ) ∼ d−3 e−C(V )/T
d3 T →0

donc qui s’approche rapidement de zéro lorsque T → 0.

5.6 Exercice supplémentaires
Exercice 68 On considère un sous-graphe (G, A) du réseau {1, . . . , 10}3 , donné par
un ensemble de points G et une matrice d’adjacence symétrique √ A. On veut “ranger”
dans cette boı̂te des boules de diamètre R vérifiant 1 < R < 2, de sorte que l’on ne
peut mettre deux boules sur des sites voisins mais qu’il n’y a pas d’autre contrainte.
On veut utiliser le recuit simulé pour trouver une configuration permettant de ranger
le plus grand nombre possible de boules dans la boı̂te. On décrit par x : Λ → {0, 1}
une configuration.
1. Montrez que l’algorithme suivant : partant de x,
(a) on choisit un site s au hasard dans G,
(b) si tous les sites voisins (au sens de l’adjacence dans S) sont libres, on
ajoute une boule en s,
définit une matrice de transition Q vérifiant Q(x, y) = 0 ⇔ Q(y, x) = 0.
2. Montrez que la fonction V définie par

V (x) = 1000 − card{s ∈ Λ | x(s) = 1}

(donc le nombre de sites libres dans la configuration x) vérifie bien pour x 6= y

la relation Q(x, y) > 0 ⇒ V (x) 6= V (y).
3. Appliquez l’algorithme du recuit simulé pour trouver une configuration avec un
nombre maximal de boules. On pourra faire varier le schéma de décroissance de
la température en fonction du comportement observé de l’algorithme. Comme
exemples de (G, A) on pourra partir du réseau cubique {1, . . . , 10}3 et lui en-
lever aléatoirement des arêtes et/ou sommets.

62
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 6

Martingales

Les martingales sont des processus qui apparaissent quasiment partout en probabi-
lités. Leur étude fournit des outils puissants, notamment pour prouver des résultats de
convergence. Dans ce chapitre nous allons voir qu’elles sont également très utiles en
simulation ; après avoir vu la théorie, on donnera des applications avec les processus
de Galton-Watson.
6.1 Définitions
Dans ce chapitre, on considère un espace de probabilité (Ω, F, P) muni d’une filtra-
tion (Fn )n∈N , c’est-à-dire une suite croissant de sous-tribus de F. Moralement, Fn est
la tribu des événements se produisant avant l’instant n (inclus). Une suite de variable
aléatoires (Xn )n∈N est dite adaptée si pour tout n, Xn est Fn -mesurable.

Définition 6.1.1 Soit (Xn )n∈N une suite adaptée de variables aléatoires réelles intégrables.
On dit que (Xn ) est
• une martingale si pour tout n,
E[Xn+1 | Fn ] = Xn ,

• une sous-martingale si pour tout n,

E[Xn+1 | Fn ] ≥ Xn ,

• une sur-martingale si pour tout n,

E[Xn+1 | Fn ] ≤ Xn .

Une conséquence directe est que la suite des espérances E[Xn ] est constante (resp.
croissante, décroissante) pour une martingale (resp. sous-martingale, sur-martingale).
Lorsqu’on ne précise pas la filtration, on sous-entend qu’on a choisi Fn = σ(X0 , . . . , Xn ).
Ainsi (Xn ) est automatiquement adaptée, et la définition d’une martingale par exemple
devient
E[Xn+1 | X0 , . . . , Xn ] = Xn .

Exemple 6 Si (Xn ) est une suite i.i.d réelle intégrable, alors la suite Sn = X1 + · · · +
Xn est une martingale lorsque E[X1 ] = 0, une sous-martingale lorsque E[X1 ] > 0,
une sur-martingale lorsque E[X1 ] < 0.

63
MAO Probas-Stats

Exercice 69 (Rapport de vraisemblance) Soient µ et ν deux mesures de probabilité

sur R, de densité respective f, g par rapport à la mesure de Lebesgue. On dispose
d’un n-échantillon (X1 , . . . , Xn ), et on cherche à tester l’hypothèse H0 : L(X1 ) = µ
contre H1 : L(X1 ) = ν. Montrer que sous l’hypothèse H0 , la suite des rapports de
vraisemblance
n
Y g(Xi )
Yn =
i=1
f (Xi )

est une martingale pour la filtration Fn = σ(X1 , . . . , Xn ).

Exercice 70 Soit (Xn )n∈N∗ une suite de variables i.i.d de loi normale centrée réduite.
On note Sn = X1 + · · · + Xn , et on fixe t ∈ R. Montrer que

nt2

Mn (t) = exp tSn −
2

est une martingale pour la filtration Fn = σ(X1 , . . . , Xn ).

6.2 Quelques résultats de convergence

L’intérêt majeur des (sur-, sous-)martingales est l’existence de nombreux résultats
de convergence. Ces résultats classique sont prouvés par exemple de livre de Bercu et
Chafaı̈, ou encore dans celui de Benaim et El Karoui ; on se contente ici d’en donner
quelques uns.

Théorème 6.2.1 Soit (Mn )n une martingale. Si cette martingale est bornée dans Lp
au sens où supn E(|Mn |p ) < ∞, alors :
• pour p = 1, le processus Mn converge presque-sûrement vers une variable
aléatoire intégrable,
• pour p > 1, le processus Mn converge p.s et dans Lp vers une variable Lp .

Attention à ne pas affirmer la convergence L1 dans le cas p = 1, qui n’est vraie que
sous l’hypothèse supplémentaire que (Xn )n est uniformément intégrable.

Exercice 71 Dans l’exercice 70 (toujours à t fixé), montrer que Mn (t) est bornée dans
L1 . Montrer qu’elle converge p.s. vers 0. Pourquoi cette convergence ne peut avoir lieu
dans L1 ?

Des résultats de convergence p.s. existent aussi pour les sur-martingales et sous-
martingales, sous des hypothèses de positivité.

Théorème 6.2.2 Soit (An )n une sur-martingale positive, alors elle converge presque-
sûrement vers une variable aléatoire A∞ intégrable.
Soit (Bn )n une sous-martingale telle que n E(Bn+ ) < ∞, alors elle converge
P
presque-sûrement vers une variable aléatoire B∞ intégrable.

64
Martingales

Il existe également des résultats de type “loi des grands nombres” et “central limite”
pour les martingales. Ces résultats dépendent de la quantité suivante, appelée processus
prévisible croissant 1 de la martingale (ou simplement processus croissant) :
n
X
E (Mk − Mk−1 )2 | Fk−1 .

hM in =
k=1

On a alors le résultat suivant :

Théorème 6.2.3 (Loi des grands nombres pour les martingales) Soit (Mn )n une mar-
tingale de carré intégrable. Alors :
Mn p.s.
• sur l’événement [limn hM in = ∞], on a hM in → 0,
• sur l’événement [limn hM in < ∞], la suite Mn converge presque-sûrement.

Exercice 72 Prouver la relation (3.1). On pourra appliquer les résultats ci-dessus à

associée à X̃k = Xk −E(X
une martingale P k
k)
, et utiliser
Pn le lemme de Kronecker : si la
n ak
limite limn→∞ k=1 k existe, alors limn→∞ n1 k=1 ak = 0.

Donner une vitesse de convergence en général est un peu pénible. On se contentera de

donner un théorème central limite, qui donne une condition pour avoir une convergence
L
en loi √a1 n Mn → N (0, σ 2 ). On va y retrouver des conditions dites “de Lindeberg”
(3.2) et “de Lyapounov” (3.3).

Théorème 6.2.4 Soit (Mn )n une martingale de carré intégrable, et soit (hM in )n son
processus croissant. On suppose que (an )n est une suite de réels positifs croissant vers
l’infini telle que
hM in P
→`
an
pour un ` ≥ 0 déterministe, et que pour tout > 0
an
1 X P
E |∆Mk |2 1l|∆Mk |≥√an | Fk−1 → 0 (6.1)
an
k=1

(où ∆Mk = Mk − Mk−1 ). Alors on a

1 L
√ Mn → N (0, `)
an

et si ` > 0
√ Mn L
an → N (0, `−1 ).
hM in
1. Le mot prévisible signifie que le processus au temps n est Fn−1 -mesurable ; on peut donc
prédire ce qu’il va être au temps suivant en ne connaissant que l’histoire jusqu’au temps présent. De
plus il est clairement croissant p.s.

65
MAO Probas-Stats

La condition (6.1) est appelée condition de Lindeberg (sur les accroissements ∆Mk de
la martingale). Elle est vraie s’il existe δ > 0 tel que
n
1 X P
1+δ/2
E |∆Mk |2+δ | Fk−1 → 0,
an k=1

condition dite de Lyapounov.

Un dernier résultat qui nous sera utile est le théorème de Robbins-Siegmund :

Théorème 6.2.5 (Robbins-Siegmund) Soient (Vn )n , (An )n , (Bn )n trois suites posi-
tives (Fn )-adaptées telles que presque-sûrement V0 est finie et

E(Vn+1 |Fn ) ≤ Vn + An − Bn .
P p.s.
Alors sur l’événement [ n An < ∞], on a Vn → V∞ où V∞ est une variable aléatoire
finie p.s, et de plus, p.s, X
Bn < ∞.
n

6.3 Processus de Galton-Watson

Les processus de Galton-Watson ont été introduits par Galton et Watson en 1874,
pour étudier la question de la disparition éventuelle d’un nom de famille en fonction de
la distribution du nombre d’enfants mâles qu’aura un homme de la famille 2 .
Une formulation générale est la suivante : si Z est une variable aléatoire à valeurs
dans N, on dit que (Xn )n est un processus de Galton-Watson de loi de reproduction Z
si X0 = 1 et
XXn
Xn+1 = Zk,n+1
k=1

où (Zi,j )i,j∈N est une suite de variables aléatoires i.i.d., indépendante de X0 , . . . , Xn
et de même loi que Z. On notera dans tout le texte µ et σ 2 les espérance P0et variance de
Z. Notons qu’en particulier on utilise la convention qu’une somme k=1 vaut zéro,
de sorte que si Xn = 0 alors Xn+1 = 0. On notera également
n
X n
X
Yn = Xk = 1 + Xk
k=0 k=1

la population totale jusqu’à la génération n. Les processus de Galton-Watson sont utiles

pour étudier la question de l’évolution d’une population, aussi bien que le nombre de
malades contaminés par un virus, ou de neutrons émis dans une masse d’atome d’ura-
nium 235. Dans un tel cadre, on s’intéresse naturellement aux questions suivantes :
quelle est la probabilité P(Xn → 0) que la population finisse par s’éteindre ? Si ce
n’est pas le cas, la population Xn va-t-elle rester bornée ou bien exploser ?
2. plus précisément, Galton a posé la question dans le Educational Times en 1873, Watson y a répondu
et ils ont écrit ensemble un article, On the probability of extinction of families en 1874.

66
Martingales

On s’intéresse d’abord à la probabilité d’extinction

q = P( lim Xn = 0) = P(∃n tel que Xn = 0).

n→∞

Cette probabilité s’exprime simplement :

Lemme 6.3.1 Si l’on note qn = P(Xn = 0), alors la suite (qn )n converge et q =
limn qn .

Preuve. Puisque par définition, Xn = 0 implique Xn+1 = 0, la suite d’événements

(Xn = 0)n est croissante, donc la suite (qn )n est croissante et majorée par 1, donc
elle converge. De plus, les valeurs de (Xn )n étant entières, Xn → 0 si et seulement si
Xn = 0 pour n assez grand. On a donc
[
(Xn = 0) = lim P(Xn = 0) = lim qn . 2

q = P( lim Xn = 0) = P
n→∞ n→∞ n
n

On va commencer par étudier une situation où la réponse est simple, en donnant au
passage une identité qui nous servira plus tard.

Exercice 73
1. Montrez l’identité E(Xn+1 |Xn ) = µXn .
2. Déduisez-en que E(Xn ) = µn , où µ = E(Z).
3. Prouvez que P(Xn 6= 0) ≤ µn . Déduisez-en que q = 1 si µ < 1.

Le cas µ < 1 est appelé le cas sous-critique ; on sait déjà que q = 1 si µ < 1.
Dans le cas sur-critique µ > 1, la théorie des martingales va nous donner quelques
informations. Le point 1 nous dit que le processus

Mn = Xn /µn

est une martingale (pourquoi ?).

Exercice 74
1. Montrez que Mn converge presque-sûrement vers une variable aléatoire intégrable
M∞ .
2. Montrez que dans le cas sous-critique, on a M∞ = 0 presque-sûrement. Est-ce
contradictoire avec le fait que E(Mn ) = 1 pour tout n ?
2 σ2
3. Montrez que E(Mn+1 ) = E(Mn2 ) + µn+2 . Montrez que supn E(Mn2 ) < ∞ si et
seulement si µ > 1.
4. Montrez alors que dans le cas sur-critique, Mn converge aussi vers M∞ au sens
L2 , et que M∞ a pour espérance 1 et pour variance σ 2 / µ(µ − 1) .
5. Pourquoi est-il difficile de vérifier la convergence ci-dessus avec un échantillon
de Mn pour n grand ?

67
MAO Probas-Stats

On a donc montré que dans le cas µ > 1 on avait Xn ∼ µn M∞ mais on ne sait pas
si M∞ peut s’annuler, et on n’a pas d’information dans le cas µ = 1. Pour régler ces
problèmes, on va utiliser la fonction génératrice Gn de Xn . Rappelons ce qu’est la
fonction génératrice :

Définition 6.3.2 Soit A une variable aléatoire à valeurs dans N. Sa fonction génératrice
est la fonction notée GA suivante :

GA : [0, 1] → [0, 1]
X
s 7→ E(sA ) = P(A = k) sk .
k

On rappelle quelques propriétés des fonctions génératrices :

Lemme 6.3.3 La fonction génératrice GA d’une variable aléatoire à valeurs dans N

est une fonction convexe. Elle est strictement convexe à moins que P(A ≤ 1) = 1. Elle
vérifie les relations
(k)
GA (1) = 1, G0A (1) = E(A), G00A (1) = E(A2 )−E(A), GA (0) = k! P(A = k).

On suppose à partir de maintenant que P(Z ≤ 1) 6= 1. On note

Gn = GXn et G = GZ .

On a immédiatement, par le Lemme 6.3.3, que qn = Gn (0). Le résultat central concer-

nant q est le suivant :

Lemme 6.3.4 Si µ ≤ 1, alors q = 1. Si µ > 1 alors q est l’unique solution dans [0, 1[
de q = G(q).
Remarquez que 1 est toujours solution de s = G(s).
Preuve. La première étape est prouvée dans l’exercice suivant :

Exercice 75 Montrer que E(sXn+1 |Xn ) = G(s)Xn . Déduisez-en que Gn = G◦n , où
G◦n = G ◦ . . . ◦ G (n fois), puis que qn+1 = G(qn ).
On peut alors utiliser un résultat d’analyse simple :

Lemme 6.3.5 Soit f une fonction convexe, dérivable, de [0, 1] dans [0, 1] avec f (1) =
1. Si f n’est pas la fonction identité, alors pour tout s ∈ [0, 1[, la suite f ◦n (s) n :
• converge vers 1 si f 0 (1) ≤ 1
• converge vers l’unique solution de s = f (s) sur [0, 1[ si f 0 (1) > 1.

Puisque G0 (1) = µ par le Lemme 6.3.3, la preuve est terminée. 2

Vous aimerez peut-être aussi

Ensait Stats
Pas encore d'évaluation
Ensait Stats
49 pages
Introduction au Calcul des Probabilités
Pas encore d'évaluation
Introduction au Calcul des Probabilités
237 pages
CMD 060902
Pas encore d'évaluation
CMD 060902
343 pages
Poly de Cours Proba
Pas encore d'évaluation
Poly de Cours Proba
82 pages
Initiation Aux Statistiques Et Aux Proba
100% (1)
Initiation Aux Statistiques Et Aux Proba
55 pages
Suquet Cours Deug Proba
100% (1)
Suquet Cours Deug Proba
225 pages
Cours de Probabilités et Combinatoire
Pas encore d'évaluation
Cours de Probabilités et Combinatoire
99 pages
Elements de La Theorie Des Probabilités
Pas encore d'évaluation
Elements de La Theorie Des Probabilités
225 pages
Polymap361 1 5
Pas encore d'évaluation
Polymap361 1 5
5 pages
Cours de Probabilités et Statistiques
60% (5)
Cours de Probabilités et Statistiques
128 pages
Cours de Probabilité MR LAKHAL Elhasan
0% (1)
Cours de Probabilité MR LAKHAL Elhasan
128 pages
Programme de Maths 1e ECS
Pas encore d'évaluation
Programme de Maths 1e ECS
33 pages
Introduction aux Phénomènes Aléatoires
Pas encore d'évaluation
Introduction aux Phénomènes Aléatoires
264 pages
Probas Stats1
100% (1)
Probas Stats1
70 pages
Simulation de Lois avec Scilab
Pas encore d'évaluation
Simulation de Lois avec Scilab
45 pages
Introduction aux Méthodes Numériques
Pas encore d'évaluation
Introduction aux Méthodes Numériques
121 pages
Probabilités et Variables Aléatoires
Pas encore d'évaluation
Probabilités et Variables Aléatoires
107 pages
Cours Proba ISAE
Pas encore d'évaluation
Cours Proba ISAE
120 pages
Monte Carlo
Pas encore d'évaluation
Monte Carlo
124 pages
Dra Probal3m1
100% (1)
Dra Probal3m1
333 pages
Cours de Probabilités Appliquées
Pas encore d'évaluation
Cours de Probabilités Appliquées
103 pages
2019 Cours Proba Stats 2 - Copie - Copie - Copie
Pas encore d'évaluation
2019 Cours Proba Stats 2 - Copie - Copie - Copie
90 pages
Poly Probas 14
Pas encore d'évaluation
Poly Probas 14
71 pages
Cours Monte Carlo Michel ROGER
Pas encore d'évaluation
Cours Monte Carlo Michel ROGER
134 pages
MQ 1
Pas encore d'évaluation
MQ 1
154 pages
Poly Stat Inf PDF
Pas encore d'évaluation
Poly Stat Inf PDF
62 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
Leçons de mathématiques CAPES 2013
100% (1)
Leçons de mathématiques CAPES 2013
765 pages
Les Leçons de Mathématiques À L'oral Du CAPES - Session 2013
100% (2)
Les Leçons de Mathématiques À L'oral Du CAPES - Session 2013
765 pages
Livre Math Pour INFO
100% (2)
Livre Math Pour INFO
433 pages
Polycopie Partie 2
Pas encore d'évaluation
Polycopie Partie 2
95 pages
Math Approf 2année
Pas encore d'évaluation
Math Approf 2année
31 pages
Probabilites, Statistique Et Applications-Presses Internationales Polytechnique (2011)
Pas encore d'évaluation
Probabilites, Statistique Et Applications-Presses Internationales Polytechnique (2011)
564 pages
Simulation des gains au loto
Pas encore d'évaluation
Simulation des gains au loto
127 pages
Poly Integration Probas
Pas encore d'évaluation
Poly Integration Probas
10 pages
LM 1002011 Cours
Pas encore d'évaluation
LM 1002011 Cours
84 pages
Programme Prépa ECG 1ère Année
Pas encore d'évaluation
Programme Prépa ECG 1ère Année
135 pages
Introduction à la Statistique et Probabilité
Pas encore d'évaluation
Introduction à la Statistique et Probabilité
74 pages
Cours de Statistique Mathématique 2023
Pas encore d'évaluation
Cours de Statistique Mathématique 2023
74 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
135 pages
Coursanume PDF
Pas encore d'évaluation
Coursanume PDF
135 pages
Analyse Numerique Saad
100% (1)
Analyse Numerique Saad
135 pages
COURS Analyse Numérique Nantes PDF
Pas encore d'évaluation
COURS Analyse Numérique Nantes PDF
135 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
STAT XPoly - Marchoffman
Pas encore d'évaluation
STAT XPoly - Marchoffman
225 pages
Mathématiques Pour L'informatique
100% (1)
Mathématiques Pour L'informatique
24 pages
Probabilités et Statistiques DEUG
Pas encore d'évaluation
Probabilités et Statistiques DEUG
335 pages
Microéconomie en Économie Ouverte
Pas encore d'évaluation
Microéconomie en Économie Ouverte
38 pages
Concours d'entrée en statistique
Pas encore d'évaluation
Concours d'entrée en statistique
1 page
Banques Centrales Les Nouveaux Outils de Politique Monétaire (Bastien Drut) (Z-Library)
Pas encore d'évaluation
Banques Centrales Les Nouveaux Outils de Politique Monétaire (Bastien Drut) (Z-Library)
330 pages
Introduction À La Politique Économique Jacques Généreux
Pas encore d'évaluation
Introduction À La Politique Économique Jacques Généreux
234 pages
Estimation Cas Multidimensionnel
Pas encore d'évaluation
Estimation Cas Multidimensionnel
8 pages
Introduction aux Probabilités
Pas encore d'évaluation
Introduction aux Probabilités
14 pages
Exercices sur le Lemme de Borel-Cantelli et Convergence
Pas encore d'évaluation
Exercices sur le Lemme de Borel-Cantelli et Convergence
7 pages
Espérance et Variance des Lois Discrètes
Pas encore d'évaluation
Espérance et Variance des Lois Discrètes
8 pages
Modes de Convergence et Théorèmes Limites
Pas encore d'évaluation
Modes de Convergence et Théorèmes Limites
3 pages
TD Godichon-Baggioni L3
Pas encore d'évaluation
TD Godichon-Baggioni L3
24 pages
Convergence des Variables Aléatoires
Pas encore d'évaluation
Convergence des Variables Aléatoires
18 pages
Valmont 2019
Pas encore d'évaluation
Valmont 2019
162 pages
Chapitre3 Probstati MezzoudjF
Pas encore d'évaluation
Chapitre3 Probstati MezzoudjF
5 pages
Edhec 09
Pas encore d'évaluation
Edhec 09
15 pages
Statistiques et R pour étudiants
Pas encore d'évaluation
Statistiques et R pour étudiants
27 pages
Convergence Stochastiques
Pas encore d'évaluation
Convergence Stochastiques
9 pages
Exercices Vecteurs Gaussiens 3
Pas encore d'évaluation
Exercices Vecteurs Gaussiens 3
4 pages
Modes de Convergence des Variables Aléatoires
Pas encore d'évaluation
Modes de Convergence des Variables Aléatoires
38 pages
Feuille de TD 1: Convergence de Suites de Variables Aléatoires
Pas encore d'évaluation
Feuille de TD 1: Convergence de Suites de Variables Aléatoires
9 pages
Convergence: Probabilités Appliquées & Statistiques
Pas encore d'évaluation
Convergence: Probabilités Appliquées & Statistiques
23 pages
Convergences 7
Pas encore d'évaluation
Convergences 7
9 pages
Convergence de Suites de Variables Aléatoires
Pas encore d'évaluation
Convergence de Suites de Variables Aléatoires
1 page
TD Proba
Pas encore d'évaluation
TD Proba
21 pages
4M011 Exos
Pas encore d'évaluation
4M011 Exos
39 pages
Théorèmes Limites et Convergence
Pas encore d'évaluation
Théorèmes Limites et Convergence
8 pages
Travaux dirigés de probabilités 2009
Pas encore d'évaluation
Travaux dirigés de probabilités 2009
42 pages
17 Probaexo
Pas encore d'évaluation
17 Probaexo
6 pages
Modes de convergence des variables aléatoires
Pas encore d'évaluation
Modes de convergence des variables aléatoires
3 pages
Convergence en Probabilités
Pas encore d'évaluation
Convergence en Probabilités
11 pages
td12 Corrige
Pas encore d'évaluation
td12 Corrige
10 pages
L3Proba2019 TD7
Pas encore d'évaluation
L3Proba2019 TD7
2 pages
TH Eor' Eme Limite Central
Pas encore d'évaluation
TH Eor' Eme Limite Central
62 pages
Introduction à la Probabilité
Pas encore d'évaluation
Introduction à la Probabilité
20 pages
UFRMI Miage L2 Examen Final 23 24 Corr
Pas encore d'évaluation
UFRMI Miage L2 Examen Final 23 24 Corr
4 pages

Notes

Transféré par

Notes

Transféré par

Mathématiques Assistées par Ordinateur -

Master 1 mathématiques et applications

version du 30 avril 2021

Table des matières

0 Rappels et commandes Python 5

1 Simulation de variables aléatoires 9

2 Convergence des variables aléatoires 17

3 Grands théorèmes de convergence 27

4 Tests et estimateurs classiques 37

4.2.1 Minoration du risque . . . . . . . . . . . . . . . . . . . . . . 40

Rappels et commandes Python

Commençons par donner les bases de la simulation en Python, et de la représentation

0.2 Illustration de données

Exercice 1 On se demande à présent comment tracer de manière la fonction de répartition

On note Y(1) , . . . , Y(N ) la statistique d’ordre associée à Y (1) , . . . , Y (N ) (autrement

0.3 Lois classiques

B(p) = pδ1 + (1 − p)δ0 .

Loi binomiale B(n, p) de paramètres n ∈ N∗ et p ∈ [0, 1] : elle est à support dans

Autrement dit, tous les éléments sont équiprobables de probabilité n1 .

Simulation de variables aléatoires

Dans ce chapitre, on se donne une suite de variables i.i.d. (U1 , U2 , . . . ) uniformément

Exercice 3 Prouver la Proposition 1.1.1.

Exercice 4 Écrire un programme qui prend en entrée un vecteur de probabilités probas

Proposition 1.1.2 (Simulation de la loi uniforme discrète) Soit n ∈ N∗ . Si U est une

N = inf{n ≥ 0 | U1 × . . . × Un+1 < e−λ }

est finie presque sûrement et suit la loi de Poisson P(λ).

1.2 Méthode par inversion

Théorème 1.2.1 Soit µ une mesure de probabilité sur R, F sa fonction de répartition

On a donc une méthode très générale et directement applicable de simulation de la

L’exercice suivant propose des applications pratiques.

Cette méthode très générale a cependant plusieurs défauts pratiques, comme on

Exercice 8 Prouvez la Proposition 1.3.1.

Eg = {(x, y) ∈ Rd × R+ | 0 < y < g(x)}.

On a également un résultat réciproque :

Exercice 10 Prouvez la Proposition 1.3.2 et le Lemme 1.3.3.

Une conséquence immédiate des Propositions 1.3.1 et 1.3.2 est la suivante :

Exercice 11 On cherche à simuler la loi normale centrée réduite N (0, 1).

Cette loi s’appelle la loi demi-normale.

1.4 Mélanges et conditionnement

Exercice 13 (*) En utilisant la notion de mélange et le Théorème 1.2.1, démonter le

Exercice 15 (Algorithme de Box-Müller) On donne ici la méthode classique de si-

Exercice 16 Montrez la réciproque partielle suivante de l’exercice 6 : si X une va-

1.6 Générateurs pseudo-aléatoires (facultatif)

pour un bon choix de a, b, m et d’une valeur initiale x0 , appelée graine ou seed 4 .

Exercice 18 Pour a = 6, b = 0, m = 25 et x0 = 1, quelle est la période du générateur

Il existe un moyen d’assurer que la période maximale est atteinte, grâce à un

Théorème 1.6.1 (Hull et Dobell) Soient a, b, m tels que

Exercice 20 On prend a = 9, b = 3, m = 256. Testez quelques termes de la suite

Convergence des variables aléatoires

Le but de ce chapitre est de rappeler les différents modes de convergence de suites

Définition 2.1.1 On dit que :

lim E(kXn − Xkp ) = 0.

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en probabilité

lim P(kXn − Xk > ) = 0.

F IGURE 2.1 – La Proposition 2.1.3 en image

6. la convergence en probabilité d’une suite (Xn )n vers X est équivalente à la

lim sup E(|Xn |1l|Xn |>c ) = 0

Proposition 2.1.4 Si f est une fonction continue, alors :

Un résultat particulièrement utile dans cette direction est le lemme de Slutsky :

2.2 Illustration de la convergence presque-sûre

Montrez que la suite Xn converge presque-sûrement. Supposons maintenant que pour

2.3 Illustration de la convergence en loi

Théorème 2.3.3 (Glivenko-Cantelli) Soit Y une variable aléatoire réelle et (Y (k) )N

Alors Fb(N ) converge presque-sûrement uniformément en t vers la fonction de répartition

Théorème 2.3.4 (Kolmogorov-Smirnov) Sous les mêmes hypothèses,

converge en loi quand N → ∞, vers une loi appelée loi de Kolmogorov-Smirnov 2 .

L’exercice suivant commence l’étude d’un classique appelé le “collectionneur de

2.4 Illustration de la convergence P

Exercice 28 (inspiré du texte d’agrégation public 2015-A7) On définit deux variables

Exercice 29 On reprend l’exercice 25 mais cette fois-ci le collectionneur ne cherche

Grands théorèmes de convergence

Le but de ce chapitre est de rappeler les grands théorèmes de convergence de va-

Exercice 30 On cherche à démontrer un sens du Théorème 3.1.1 dans le cas où X1 ∈

Un premier résultat affaiblissant l’hypothèse 2 est simple et classique (on pourra

Exercice 32 En s’inspirant de l’exercice 30, montrer le résultat suivant :

On rappelle qu’on a conjecturé la convergence en probabilité de Tn /n log n vers 1 ;

lim P(kXn − Xk > ) = 0.