0% ont trouvé ce document utile (0 vote)
47 vues68 pages

Notes

Ce document présente les bases de la simulation aléatoire et de la représentation de données en Python pour l'étude des probabilités et de la statistique. Il introduit les bibliothèques et commandes Python utiles pour générer des variables aléatoires, illustrer des concepts probabilistes et effectuer des analyses statistiques.

Transféré par

eaigle2
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues68 pages

Notes

Ce document présente les bases de la simulation aléatoire et de la représentation de données en Python pour l'étude des probabilités et de la statistique. Il introduit les bibliothèques et commandes Python utiles pour générer des variables aléatoires, illustrer des concepts probabilistes et effectuer des analyses statistiques.

Transféré par

eaigle2
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mathématiques Assistées par Ordinateur -

Probabilités et Statistiques

Paul Melotti
Basé sur des notes de cours de Yan Pautrat

Master 1 mathématiques et applications


2020-2021

version du 30 avril 2021


MAO Probas-Stats

2
Université Paris-Saclay Master 1 mathématiques et applications

Table des matières

0 Rappels et commandes Python 5


0.1 L’aléatoire en Python . . . . . . . . . . . . . . . . . . . . . . . . . . 5
0.2 Illustration de données . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3 Lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 6
0.3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . 7

1 Simulation de variables aléatoires 9


1.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Méthode par inversion . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Méthode de rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Mélanges et conditionnement . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 Générateurs pseudo-aléatoires (facultatif) . . . . . . . . . . . . . . . 15

2 Convergence des variables aléatoires 17


2.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Illustration de la convergence presque-sûre . . . . . . . . . . . . . . . 20
2.3 Illustration de la convergence en loi . . . . . . . . . . . . . . . . . . 21
2.4 Illustration de la convergence P . . . . . . . . . . . . . . . . . . . . . 23
2.5 Illustration des convergences Lp . . . . . . . . . . . . . . . . . . . . 23
2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3 Grands théorèmes de convergence 27


3.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Théorèmes centraux limite . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Valeurs extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Principes de grandes déviations . . . . . . . . . . . . . . . . . . . . . 33

4 Tests et estimateurs classiques 37


4.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . 38
4.1.3 Méthode par insertion . . . . . . . . . . . . . . . . . . . . . 39
4.1.4 Méthode du maximum de vraisemblance . . . . . . . . . . . 39
4.2 Borne de Cramér-Rao et modèles exponentiels . . . . . . . . . . . . . 40

3
MAO Probas-Stats

4.2.1 Minoration du risque . . . . . . . . . . . . . . . . . . . . . . 40


4.2.2 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4 Tests d’hypothèses : définitions générales . . . . . . . . . . . . . . . 44
4.5 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1 Ajustement à une loi . . . . . . . . . . . . . . . . . . . . . . 45
4.5.2 Ajustement à une famille de lois . . . . . . . . . . . . . . . . 46
4.6 Texst de Kolmogorov et dérivés . . . . . . . . . . . . . . . . . . . . 47
4.7 Exercice supplémentaire . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Chaı̂nes de Markov 51
5.1 Simulation et résultats classiques . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Trajectoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.2 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.3 Période . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.4 Mesure invariante et théorème ergodique . . . . . . . . . . . 52
5.1.5 Convergence en loi vers l’équilibre . . . . . . . . . . . . . . 53
5.2 Méthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Algorithme de Metropolis–Hastings . . . . . . . . . . . . . . . . . . 55
5.4 Mesures de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.5 Méthode du recuit simulé . . . . . . . . . . . . . . . . . . . . . . . . 58
5.5.1 Algorithme du recuit . . . . . . . . . . . . . . . . . . . . . . 59
5.5.2 Vitesse de convergence : méthode spectrale . . . . . . . . . . 61
5.6 Exercice supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . 62

6 Martingales 63
6.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Quelques résultats de convergence . . . . . . . . . . . . . . . . . . . 64
6.3 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . . . . 66

4
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 0

Rappels et commandes Python

Commençons par donner les bases de la simulation en Python, et de la représentation


de données.
0.1 L’aléatoire en Python
Pour des rappels généraux sur le fonctionnement de Python, vous pouvez consulter
en préambule le polycopié de Sophie Lemaire, que vous avez peut-être déjà pratiqué :
http://www.math.u-psud.fr/˜lemaire/polyl3python.pdf
Vous êtes également encouragé·e·s à vous servir de l’aide de Python, soit en ligne
soit directement depuis votre gestionnaire, quel qu’il soit. On commencera toujours par
invoquer les modules suivants :

import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import numpy.random as rnd
import scipy.stats as sts

Vous connaissez sans doute déjà les bibliothèques numpy et scipy, qui contiennent
un grand nombre de fonctions mathématiques et de structures de données utiles. Vous
connaissez certainement celle que l’on a nommée plt, qui permet de faire des gra-
phiques.
Le paquet random de numpy que nous avons abrégé en rnd, permet de réaliser des
simulations indépendantes de lois classiques. La syntaxe est particulièrement simple.
Allez voir la page en ligne pour quelques exemples.
Le paquet stats de scipy que nous avons abrégé en sts dans notre préambule,
permet de réaliser des simulations indépendantes de lois classiques, mais aussi d’avoir
accès aux densités, fonctions de répartition, quantiles. . . de ces lois. La philosophie est
un peu plus  orientée objet  : par exemple, si on travaille avec une variable aléatoire
X de loi N (1, 22 ), taper X=sts.norm(1,2) ne renvoie pas une réalisation mais un
ojet qui représente la variable aléatoire dans sa globablité. Pour avoir une simulation
aléatoire, on pourra taper X.rvs(). Pour connaı̂tre la densité de cette loi en x = 5
on peut faire appel directement à X.pdf(5) (ou à sts.norm.pdf(5,1,2) mais
il faut alors faire attention à l’ordre des variables).

5
MAO Probas-Stats

0.2 Illustration de données


Les principales commandes pour illustrer des données sont les suivantes ; elles
sont toutes issues du paquet matplotlib.pyplot, que nous avons abrégé en plt.
N’hésitez pas à consulter l’aide quand vous voulez les utiliser :
• plt.plot pour les tracés de courbes,
• plt.step pour les tracés de fonctions en escalier,
• plt.stem pour les diagrammes bâton,
• plt.scatter pour les nuages de points,
• plt.hist pour les histogrammes.
Pour les quatre premières, la syntaxe de base est plt.commande(X,Y) oùX et Y sont
des listes ou tableaux de réels et de même longueur. La syntaxe de plt.hist est,
forcément différente : plt.hist(X) trace un histogramme obtenu en regroupant les
valeurs contenues dans X dans des classes, la hauteur étant proportionnelle au nombre
de points tombant dans la classe. On peut/doit utiliser les options suivantes :
• bins=c (où c est un entier) imposera c classes, bins=’auto’ fait un choix
automatique ;
• density=True normalise les hauteurs pour avoir une surface totale égale à 1,
density=False conserve une hauteur égale au nombre de points.

Exercice 1 On se demande à présent comment tracer de manière la fonction de répartition


empirique FbN d’un N -échantillon Y (1) ,. . . ,Y (N ) . Celle-ci est définie par
n
1X
FbN (x) = 1lY ≤x .
n i=1 i

On note Y(1) , . . . , Y(N ) la statistique d’ordre associée à Y (1) , . . . , Y (N ) (autrement


dit, les Y(1) , . . . , Y(N ) sont les Y (1) , . . . , Y (N ) ordonnés par ordre croissant). Si Y est
un vecteur contenant les valeurs Y (1) , . . . , Y (N ) , comment obtenir un vecteur Yord
contenant les Y(i) (dans le bon ordre) ? Combien vaut FbN sur l’intervalle [Y(i) , Y(i+1) [ ?
Comment tracer une fonction en escalier ?

0.3 Lois classiques


On rappelle ici les lois les plus classiques, et leurs notations qui seront utilisées tout
au long de ces notes.
0.3.1 Lois discrètes
Mesure de Dirac δx : pour x ∈ Rd , c’est une loi qui vaut x avec probabilité 1.
Loi de Bernouilli B(p) de paramètre p ∈ [0, 1] : elle vaut 1 avec probabilité p et 0
avec probabilité 1 − p. Autrement dit

B(p) = pδ1 + (1 − p)δ0 .

6
Rappels et commandes Python

Loi binomiale B(n, p) de paramètres n ∈ N∗ et p ∈ [0, 1] : elle est à support dans


{0, . . . , n} et vaut k ∈ {0, . . . , n} avec probabilité
 
n k
p (1 − p)n−k .
k
Une variable aléatoire de loi B(n, p) est égale en loi à la somme de n variables aléatoires
indépendantes de loi B(p). Ainsi, dans le cas n = 1, c’est une généralisation du cas
précédent.
Loi uniforme discrète U({a1 , . . . , an }) : pour un ensemble fini {a1 , . . . , an }, la loi
uniforme discrète est définie comme
n
1X
U({a1 , . . . , an }) = δ ak .
n
k=1

Autrement dit, tous les éléments sont équiprobables de probabilité n1 .


Loi géométrique G(p) de paramètre p ∈]0, 1] : c’est la loi du moment du premièr
succès dans un jeu de pile ou face avec probabilité p de gagner et q = 1 − p de perdre.
Elle est portée par N∗ , et la probabilité de k ∈ N∗ est pq k−1 .
Loi de Poisson P(λ) de paramètre λ > 0 : elle est portée par N, et la probabilité de
k ∈ N est
λk
e−λ .
k!
0.3.2 Lois continues
Loi uniforme U([a, b]) sur l’intervalle [a, b] avec a < b : c’est la loi de densité
1
1l[a,b] (x).
b−a
Loi exponentielle E(λ) de paramètre λ > 0 : c’est la loi de densité
λ exp(−λx)1lR+ (x).
Loi normale (ou gaussienne) N (m, σ 2 ) de moyenne m ∈ R et de variance σ 2 > 0 :
c’est la loi de densité
(x − m)2
 
1
√ exp − .
2πσ 2 2σ 2
Loi de Cauchy C(λ) de paramètre λ > 0 : c’est la loi de densité
1 λ
.
π λ 2 + x2
Cette loi n’est pas dans L1 : une variable aléatoire de Cauchy n’admet pas d’espérance.
Loi Gamma Γ(a, λ) de paramètres a > 0 et λ > 0 : c’est la loi de densité
λa a−1
x exp(−λx)1lR+ (x)
Γ(a)
où dans cette formule, Γ(a) désigne la valeur en a de la fonction Gamma d’Euler.
Rappelons aussi qu’il existe des mesures de probabilité sur R qui ne sont ni discrètes,
ni à densité par rapport à la mesure de Lebesgue.

7
MAO Probas-Stats

8
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 1

Simulation de variables aléatoires

Dans ce chapitre, on se donne une suite de variables i.i.d. (U1 , U2 , . . . ) uniformément


distribuées dans [0, 1] (on peut penser à des appels successifs à la fonction random()
du paquet numpy.random par exemple). On veut l’utiliser pour simuler n’importe
quelle autre variable aléatoire de notre choix.
Dans la plupart des cas, on pourrait atteindre notre objectif en utilisant d’autres
fonctions des paquets numpy.random ou scipy.stats. Mais l’objectif est de
comprendre comment ces commandes fonctionnent, d’acquérir des bases théoriques,
et de savoir simuler des variables plus exotiques si on en rencontre un jour.
Bien sûr cela repousse le problème : comment l’ordinateur produit-il des nombres
aléatoires uniformes dans [0, 1] ? Pour les plus curieu·x·ses, on donne quelques éléments
de réponse à la fin de ce chapitre.
1.1 Lois discrètes
Commençons par un exercice instructif :

Exercice 2 Soit p ∈]0, 1[. Écrire une fonction qui simule une loi de Bernouilli B(p) à
l’aide de la fontion random.
Une loi discrète est à support dans un ensemble au plus dénombrable.Si on a com-
pris le cas de la variable de Bernouilli, le résultat suivant n’est qu’une généralisation.
P
Proposition 1.1.1 (Simulation canonique de lois discrètes) Soit µ = k∈N pk δxk
une loi sur un ensemble au plus dénombrable {x0 , x1 , . . .}. Soit s−1 = 0 et pour
tout k ∈ N, sk = sk−1 + pk . Soit U une variable aléatoire uniforme sur [0, 1]. Alors la
variable aléatoire X
X= xk 1l]sk−1 ,sk ] (U )
k∈N

suit la loi µ.

Exercice 3 Prouver la Proposition 1.1.1.

Exercice 4 Écrire un programme qui prend en entrée un vecteur de probabilités probas


et retourne une réalisation d’une variable aléatoire à valeurs dans {0, . . . , n − 1} et
de loi donnée par le vecteur de probabilités probas.

9
MAO Probas-Stats

Le programme suggéré par cet exercice ne permet pas a priori de simuler une loi
dont le support est infini dénombrable, comme une loi géométrique par exemple. De
plus, pour certaines lois spécifiques, il peut exister des méthodes plus efficaces. On va
en voir quelques unes.

Proposition 1.1.2 (Simulation de la loi uniforme discrète) Soit n ∈ N∗ . Si U est une


variable aléatoire uniforme sur [0, 1] alors la variable aléatoire bnU c + 1 suit la loi
uniforme discrète sur {1, . . . , n}.

Proposition 1.1.3 (Simulation de la loi géométrique) Soit p ∈]0, 1[. Si U est une va-
log U
riable aléatoire uniforme sur [0, 1] alors la variable aléatoire b log(1−p) c + 1 suit la loi
géométrique G(p).

Exercice 5 Prouver les Propositions 1.1.2 et 1.1.3. On pourra au choix montrer qu’il
s’agit en fait d’applications de la Proposition 1.1.1, ou utiliser une méthode directe.

Proposition 1.1.4 (Simulation de la loi de Poisson) Soit λ > 0. Si (Un )n∈N∗ est une
suite i.i.d. de variables aléatoires uniformes sur [0, 1] alors la variable aléatoire

N = inf{n ≥ 0 | U1 × . . . × Un+1 < e−λ }

est finie presque sûrement et suit la loi de Poisson P(λ).

1.2 Méthode par inversion


On va maintenant passer à des lois µ réelles quelconques. L’objet fondamental
de cette section est la fonction de répartition, définie par F (x) = µ(] − ∞, x]). On
rappelle que F est une fonction croissante, en tout point continue à droite avec une
limite à gauche, a une quantité au plus dénombrable de points de discontinuité, et que
limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1. On définit son pseudo-inverse F (−1)
comme la fonction
F (−1) : ]0, 1[ → R
q 7→ inf{x ∈ R | F (x) ≥ q}.

Le résultat suivant dit que si l’on sait simuler la loi uniforme sur [0, 1], alors on sait
simuler la loi µ :

Théorème 1.2.1 Soit µ une mesure de probabilité sur R, F sa fonction de répartition


et F (−1) son pseudo-inverse. Alors si U est une variable de loi uniforme sur [0, 1], la
variable F (−1) (U ) a pour loi µ.

Exercice 6
1. Montrer que q ≤ F (x) ⇔ F (−1) (q) ≤ x, et que F ◦ F (−1) (q) ≥ q avec égalité
si et seulement si q ∈ Im F .
2. Soit U ∼ U([0, 1]). Montrer que F (−1) (U ) est une variable aléatoire de fonction
de répartition F .

10
Simulations de variables aléatoires

On a donc une méthode très générale et directement applicable de simulation de la


loi µ sur R : on calcule (à la main) F (−1) , on simule une uniforme U et on choisit
X = F (−1) (U ).

Remarque 1.2.2 Dans le cas où µ est une loi discrète, le Théorème 1.2.1 se ramène
en fait à la Proposition 1.1.1.

L’exercice suivant propose des applications pratiques.

Exercice 7 Appliquez la méthode du Théorème 1.2.1 pour écrire des fonctions permet-
tant de simuler des échantillon de :
1. une loi µ discrète avec µ({xi } = pi (ici l’objectif est de s’apercevoir que le
travail est déjà fait),
2. exponentielle E(λ),
3. de Cauchy C(λ),
4. de Weibull 1 W(a, λ).
Tenter, et échouer, de calculer F (−1) dans le cas où µ est une loi normale.

Cette méthode très générale a cependant plusieurs défauts pratiques, comme on


le voit avec de cas le la loi normale. Dans les paragraphes qui suivent on va donner
d’autres méthodes, qui permettront notamment de simuler la loi normale.
1.3 Méthode de rejet
Une autre méthode générale est la méthode de rejet, qui permet de simuler une
loi µ conditionnée à prendre des valeurs dans une sous-partie B de Rd , dès que l’on
sait simuler la loi µ non conditionnée. Comme on va le voir, une application directe
mais particulièrement intéressante est la simulation d’une loi µ à densité f , dès que
l’on sait simuler une loi ν à densité g, avec f ≤ λg pour un certain λ > 0.

Proposition 1.3.1 Soit (Xn )n une suite de variables aléatoires indépendantes de loi
µ et B un borélien tel que µ(B) > 0. Soit T le plus petit entier n ≥ 1 tel que Xn ∈ B.
Alors
1. T est une variable aléatoire de loi géométrique de paramètre µ(B),
2. XT est une variable aléatoire indépendante de T ayant pour loi la loi condition-
nelle µ(.|B).

Exercice 8 Prouvez la Proposition 1.3.1.

Une application directe de la Proposition 1.3.1 est le tirage uniforme suivant la loi
uniforme sur un Borélien B de Rd , quand on sait effectuer un tirage uniforme sur un
autre Borélien C ⊃ B. En voici un exemple :
1. qui pour a > 0 et λ > 0 a pour densité f (x) = aλxa−1 exp(−λxa )1lR+ (x).

11
MAO Probas-Stats

Exercice 9 Écrire une fonction Python tirant un point uniformément dans le disque
unité D. On pourra utiliser une instruction while. En moyenne, combien de tirages
de l’uniforme sur [−1, +1]2 faut-il pour obtenir un tirage de l’uniforme sur D ?

Cette méthode permet également de simuler des lois à densité. On utilisera pour
cela les deux résultats suivants, parfois appelés théorèmes densité-surface.

Proposition 1.3.2 Soit ν une mesure de probabilité sur (Rd , B(Rd )) admettant une
densité g par rapport à la mesure de Lebesgue. Soit Xν une variable aléatoire de loi ν
et U une variable aléatoire indépendante de Xν , de loi U([0, 1]). Alors la variable
(Xν , U g(Xν )) suit une loi uniforme sur

Eg = {(x, y) ∈ Rd × R+ | 0 < y < g(x)}.

On a également un résultat réciproque :

Lemme 1.3.3 Soit (X, Y ) une variable aléatoire de loi uniforme sur Eg comme ci-
dessus. Alors X suit la loi de densité g par rapport à la mesure de Lebesgue.

Exercice 10 Prouvez la Proposition 1.3.2 et le Lemme 1.3.3.

Une conséquence immédiate des Propositions 1.3.1 et 1.3.2 est la suivante :

Proposition 1.3.4 Soient µ et ν deux mesures de probabilité sur (Rd , B(Rd )) de den-
sités f , g respectivement par rapport à la mesure de Lebesgue, et telles que f ≤ λg
Lebesgue-presque partout, pour un certain λ > 0. Soit (Xn )n une suite de variables
aléatoires indépendantes de loi ν, (Un )n une suite de variables aléatoires indépendantes
de loi uniforme U([0, 1]), et T le plus petit entier n ≥ 1 tel que λUn g(Xn ) ≤ f (Xn ).
Alors
1. T est une variable aléatoire de loi géométrique de paramètre 1/λ,
2. XT est une variable aléatoire de loi µ.

Preuve. La Proposition 1.3.2 montre que (Xn , Un λg(Xn )) est une suite i.i.d. de
loi uniforme sur Eλg . La RProposition 1.3.1 montre à son tour que T suit une loi
f (x) dx
géométrique de paramètre R λg(x) dx = 1/λ, et que (XT , UT λg(XT )) suit une loi uni-
forme sur Ef . Le Lemme 1.3.3 montre que XT suit une loi de densité f par rapport à
la mesure de Lebesgue. 2
La Proposition 1.3.4 donne à nouveau une méthode générale et facilement appli-
cable. Le cas le plus simple est celui d’une densité f sur un intervalle borné de R,
acceptant une borne uniforme, auquel cas on peut choisir g constante. Remarquez que
l’on a intérêt à choisir le λ le plus petit possible (mais respectant, bien sûr, la contrainte
f ≤ λg), puisque E[T ] = λ.

Exercice 11 On cherche à simuler la loi normale centrée réduite N (0, 1).

12
Simulations de variables aléatoires

1. Montrer que si X a pour loi N (0, 1), alors |X| suit la loi de densité
r  2
2 x
f (x) = exp − 1lR+ (x).
π 2

Cette loi s’appelle la loi demi-normale.


2. On considère une variable Y qui suit la loi E(1). Rappeler sa densité g et trouver
un λ > 0 tel que f ≤ λg.
3. En déduire un algorithme permettant de simuler la loi demi-normale par rejet.
4. Si on sait simuler une loi demi-normale, comment simuler une loi normale ?

Remarque 1.3.5 Une manière de choisir une loi ν facilement simulable et donnant
un λ petit est de polygonaliser le domaine Ef et d’utiliser l’algorithme décrit dans
l’exercice 17.

1.4 Mélanges et conditionnement


Nous allons formuler la notion de mélange dans un cadre relativement abstrait, qui
couvrira de nombreuses situations, et nous apprendra le principe suivant :
Si l’on sait simuler la loi de Y et toutes les lois conditionnelles de X
sachant Y = y, alors on sait simuler la loi de (X, Y ).
Soit (µy )y∈Rd une collection de mesures de probabilités sur Rd , et ν une autre me-
sure de probabilité sur Rd . On suppose que chaque σ-algèbre associée est soit la tribu
borélienne, soit la tribu engendrée par une famille dénombrable de points. On suppose
aussi que pour tout événement A, y 7→ µy (A) est mesurable. On dit alors qu’une me-
sure de probabilité µ est un mélange de (µy )y d’intensité ν si pour tout événement
A, Z
µ(A) = µy (A) dν(y). (1.1)

Ce formalisme correspond au cas où une variable aléatoire Y a pour loi ν, et qu’une
autre variable X a pour “loi conditionnelle à Y = Ry” 2 la loi µy . La loi de X est alors µ :
pour φ une fonction continue bornée, et ψ : y 7→ φ(x) dµy (x), on a :
Z ZZ
  
E φ(X) = E E(φ(X)|Y ) = E ψ(Y ) = ψ(y) dν(y) = φ(x) dµy (x)dν(y)

R
et cette dernière expression est φ(x) dµ(x), ce qui prouve bien que la loi de X est µ.
Par conséquent, si l’on sait simuler une famille de lois (µy )y sur Rd comme ci-
dessus, et que l’on sait simuler une autre loi ν sur Rd , alors on sait simuler la loi µ
définie par (1.1) : il suffit de simuler Y de loi ν puis, si l’on a obtenu un résultat y, de
simuler la loi µy .
R
2. Au sens où pour tout ϕ mesurable, la variable E(ϕ(X)|σ(Y )) est la fonction y 7→ ϕ(x) dµy (x)
évaluée en Y . Voir par exemple le polycopié de J.-F. Le Gall, “intégration, probabilités et processus
aléatoires”.

13
MAO Probas-Stats

Exercice 12 Cet exercice est lié à un texte d’agrégation écrit par Florent Malrieu.
On suppose qu’une falaise est habitée par quatre espèces de mouettes. Chaque espèce
fabrique un nid dont le diamètre suit une loi N (mi , σi2 ), et les espèces sont en pro-
portions pi , i = 1, . . . , 4. Ecrire une fonction qui simule le résultat d’une observation
aléatoire de nid.

Exercice 13 (*) En utilisant la notion de mélange et le Théorème 1.2.1, démonter le


résultat suivant :
Pour toute loi µ sur Rd , il existe une fonction borélienne fµ : Rd → Rd dont l’en-
semble des points de discontinuité est Lebesgue-négligeable et telle que, si U1 , . . . , Ud
sont des variables i.i.d uniformes sur [0, 1], la variable fµ (U1 , . . . , Ud ) suit la loi µ.
Ce résultat justifie qu’on puisse simuler  tout ce que l’on veut  à l’aide de va-
riables uniformes indépendantes, mais en pratique l’explicitation d’une fonction fµ
n’est pas forcément simple, ni même possible.

1.5 Exercices
Exercice 14 Si B1 , . . . , Bn sont des variables de Bernoulli indépendantes de loi B(p),
la variable B1 + . . . + Bn suit une loi binomiale B(n, p). Utiliser ce résultat pour
donner une fonction qui simule une loi binomiale de paramètres n et p.

Exercice 15 (Algorithme de Box-Müller) On donne ici la méthode classique de si-


mulation des lois normales. Soient U1 et U2 sont deux variables aléatoires indépendantes
de loi U([0, 1]). Montrer que les variables X1 et X2 définies par
p p
X1 = −2 log U1 cos(2πU2 ) X2 = −2 log U1 sin(2πU2 )

sont indépendantes et de même loi N (0, 1). En déduire une fonction qui simule un
échantillon (X1 , . . . , Xn ) de variables aléatoires i.i.d. de loi N (0, 1).

Exercice 16 Montrez la réciproque partielle suivante de l’exercice 6 : si X une va-


riable aléatoire de fonction de répartition F continue, montrez que F (X) ∼ U ([0, 1])
si F est continue, et que F continue équivaut à F (R) ⊃]0, 1[.

Exercice 17 Comment peut-on simuler une variable de loi uniforme dans un pavé
[0, r1 ] × . . . × [0, rd ] de Rd ? On poursuit avec le cas d = 2. Dans ce cas, com-
ment simuler une variable de loi uniforme dans un rectangle quelconque, de som-
mets A = (a1 , a2 ), B = (b1 , b2 ), C = (c1 , c2 ), D = (d1 , d2 ) ? Comment simuler
une variable de loi uniforme dans un triangle rectangle de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? et dans un triangle quelconque de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? Programmez une fonction qui, en fonction des variables
d’entrée A,B,C, effectue ce tirage.
À partir de cette méthode et d’un algorithme de découpage d’un polygone en tri-
angles, on peut construire une fonction permettant de tirer des lois uniformes sur un
polygone quelconque. Ceci peut être très utile pour accélérer des méthodes par rejet.

14
Simulations de variables aléatoires

1.6 Générateurs pseudo-aléatoires (facultatif)


L’objectif de cette section est de donner quelques éléments de réponse à la ques-
tion : comment l’ordinateur produit-il des nombres aléatoires ? Jusqu’ici on a vu qu’on
pouvait tout ramener à la fonction random, qui renvoie des nombres aléatoires uni-
formes dans [0, 1]. Mais comment fonctionne-t-elle ?
Première remarque : si on sait simuler une loi uniforme discrète dans {0, 1, . . . , m−
1} pour m assez grand, alors en divisant par m on aura une bonne approximation d’une
loi uniforme sur [0, 1].
On cherche donc à produire une suite de nombres (xn )n∈N appartenant à {0, 1, . . . , m−
1} dont les propriétés sont proches d’une suite aléatoire. Les méthodes dont on va parler
sont basées sur des algorithmes déterministes, construits pour que les résultats soient
suffisamment chaotiques pour être indistinguables d’une suite de nombres iid. C’est
pourquoi on parle de nombre pseudo-aléatoires 3
La plupart des générateurs sont construits sur une relation de récurrence xn+1 =
f (xn ). Ils sont donc nécessairement périodiques, de période maximale m. Si cette
période est trop petite, le générateur est assez mauvais. Le cas le plus classique consiste
à utiliser une méthode de congruence simple :

xn = (axn−1 + b) mod m

pour un bon choix de a, b, m et d’une valeur initiale x0 , appelée graine ou seed 4 .

Exercice 18 Pour a = 6, b = 0, m = 25 et x0 = 1, quelle est la période du générateur


précédent ? Que dire de la qualité de ces nombres pseudo-aléatoires ?

Il existe un moyen d’assurer que la période maximale est atteinte, grâce à un


théorème de Hull et Dobell (que l’on admettra) :

Théorème 1.6.1 (Hull et Dobell) Soient a, b, m tels que


(i) b et m sont premiers entre eux,
(ii) (a − 1) est un multiple de chaque nombre premier qui divise m,
(iii) si m est multiple de 4 alors a − 1 l’est aussi.
Alors pour tout x0 ∈ {0, . . . , m − 1}, la suite définie par la récurrence

xn = (axn−1 + b) mod m

a pour période m.

Exercice 19 Produire des triplets (a, b, m) vérifiant les hypothèses avec m arbitraire-
ment grand.
3. Il est aussi possible de générer de l’aléatoire par des processus physiques, en mesurant des fluctuations
de température ou de tension par exemple. On ne parlera pas de ces méthodes ici.
4. Ainsi, si on lance le même programme sur deux ordinateurs différents avec la même seed, on obtiendra
la même suite pseudo-aléatoire. Cela peut être pratique pour reproduire des résultats. Si au contraire on veut
que la suite soit toujours différente (ou presque), on peut choisir une seed différente à chaque fois, par
exemple l’heure du système en ms.

15
MAO Probas-Stats

C’est déjà un bon point : on peut produire des suites de période maximale, grâce à
une récurrence très simple à calculer. On a donc une certaine équirépartition, mais cela
n’empêche pas qu’il y ait des fortes corrélations, par exemple entre xi et xi+1 ...

Exercice 20 On prend a = 9, b = 3, m = 256. Testez quelques termes de la suite


à l’aide d’une fonction Python. Ces nombres vous semblent-ils satisfaisants comme
nombres aléatoires ?
Tracer les 256 points (xi , xi+1 ) dans un nuage de points et commenter.
L’exercice précédent montre que de fortes corrélations peuvent subsister. Une manière
d’y remédier est d’utiliser une méthode de congruence avec retard r ∈ N∗ :

xn = (axn−r + b) mod m

et l’on doit désormais choisir r valeurs initiales (ou bien les générer à partir d’une seule
graine x0 et d’une méthode de congruence simple).

Exercice 21 Tracer 256 points (xi , xi+1 ) pour la méthode de congruence avec retard
avec m = 256, a = 5, b = 1, r = 6. On calculera les termes x0 , . . . , x5 à l’aide d’une
congruence simple avec m = 8, x0 = 1, a = 5, b = 1.
Il existe bien d’autres méthodes de génération pseudo-aléatoire (méthode du carré
médian, de congruence avec mélanges, de l’inverse, de registre à décalage, ou même
basées sur des calculs rapides de décimales de nombres comme π...). Leur étude est
souvent assez délicate et il n’est pas évident de répérer leurs défauts potentiels au pre-
mier coup d’œil. Il est judicieux de les soumettre à des tests statistiques pour évaluer
leur qualité, comme le test du χ2 . On aura l’occasion d’effectuer de tels tests en TP.

16
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 2

Convergence des variables aléatoires

Le but de ce chapitre est de rappeler les différents modes de convergence de suites


(Xn )n variables aléatoires, leurs propriétés et relations, et de voir comment les illustrer.
L’illustration dont on parle ici ne joue pas forcément le rôle d’exemple qui suit un
théorème : c’est aussi un outil pour étudier un modèle et établir des conjectures sur
son comportement. Mais l’illustration n’est pas non plus une preuve et une fois la
conjecture établie, il restera à la démontrer. Dans toute la suite, on suppose à chaque
fois que l’on sait simuler les variables aléatoires (Xn )n mais pas forcément que
l’on sait simuler la limite X.

2.1 Rappels
Dans cette section, on rappelle sans preuve 1 les définitions et propriétés fondamen-
tales des modes de convergence pour des suites de variables aléatoires. Dans toute cette
section, (Xn )n , (Yn )n , etc. représenteront des suites de variables aléatoires. Suivant
les cas, les variables Xn correspondant à différentes valeurs de n vivront sur différents
espaces de probabilité (Ωn , Fn , Pn ), ou au contraire sur un même espace (Ω, F, P).
Toutes les variables considérées sont à valeurs dans un espace Rd muni d’une norme
k · k (dont le choix importe peu : toutes ces normes sont équivalentes). On rappelle
d’abord les définitions générales :

Définition 2.1.1 On dit que :


• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge presque-sûrement
vers une variable X, également sur (Ω, F, P), si

P( lim Xn = X) = 1.
n→∞

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en norme Lp (où
p ≥ 1) vers une variable X, également sur (Ω, F, P), si

lim E(kXn − Xkp ) = 0.


n→∞

1. Vous trouverez des preuves de ces résultats dans votre livre favori de probabilités, et des contre-
exemples à “toutes” les autres implications dans le livre Counterexamples in probability de Stoyanov.

17
MAO Probas-Stats

• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en probabilité


vers une variable X, également sur (Ω, F, P), si pour tout  > 0,

lim P(kXn − Xk > ) = 0.


n→∞

• une suite de variables aléatoires (Xn )n sur (Ωn , Fn , Pn ) converge en loi vers
une variable X sur (Ω, F, P), si pour toute fonction continue bornée ϕ sur Rp ,
 
lim E ϕ(Xn ) = E ϕ(X) .
n→∞

p.s. P Lp L
On note →, →, →, → respectivement ces quatre modes de convergence.

Remarque 2.1.2 La convergence en loi peut donc s’énoncer pour des variables vivant
sur des espaces de probabilité différents puisque la convergence concerne la loi des
variables et non les variables elles-mêmes.
On rappelle maintenant les relations générales entre ces différents modes de conver-
gence, qui sont résumées par la Figure 2.1.

Lq
q≥ p

p.s.
Lp
p≥ 1
suite extraite
(X np)n u.i.

limite constante

loi

F IGURE 2.1 – La Proposition 2.1.3 en image

Proposition 2.1.3
1. La convergence presque-sûre implique la convergence en probabilité,
2. la convergence Lq implique la convergence Lp si q ≥ p, et la convergence en
probabilité,
3. la convergence en probabilité implique la convergence en loi,
4. la convergence en loi d’une suite (Xn )n vers une constante c implique la conver-
gence en probabilité vers c
5. la convergence en probabilité implique la convergence presque-sûre d’une suite
extraite,

18
Convergence des variables aléatoires

6. la convergence en probabilité d’une suite (Xn )n vers X est équivalente à la


convergence L1 de inf(kXn − Xk, 1) vers 0,
7. on a équivalence entre les deux points suivants :
P
• (Xn )n est uniformément intégrable et Xn → X,
L1
• X est intégrable et Xn → X.

Rappelons qu’une suite (Xn )n est uniformément intégrable (ou u.i.) si et seulement
si elle vérifie l’une des deux conditions équivalentes suivantes :

lim sup E(|Xn |1l|Xn |>c ) = 0


c→∞
∀ > 0, ∃δ > 0 tel que P(A) < δ ⇒ sup E(|Xn |1lA ) < .
n

Il est immédiat que s’il existe Y intégrable telle que pour tout n, on a |Xn | ≤ Y p.s.
alors (Xn )n est u.i.

Proposition 2.1.4 Si f est une fonction continue, alors :


p.s. p.s.
• Si Xn → X, on a f (Xn ) → f (X),
P P
• si Xn → X, on a f (Xn ) → f (X),
L L
• Si Xn → X, on a f (Xn ) → f (X).

Ces résultats sont utiles si on les combine avec la proposition suivante, puisqu’ils per-
mettront de discuter par exemple la convergence de (Xn + Yn )n si l’on suppose la
convergence de (Xn )n et de (Yn )n :

Lemme 2.1.5
p.s. p.s. p.s.
• Si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ),
P P P
• si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ).

Remarque 2.1.6 Pour la convergence en loi, il n’y a pas de résultat aussi simple, et en
L L L L
particulier Xn → X et Yn → n’implique pas Xn +Yn → X+Y , ni Xn ×Yn → X×Y .
La raison en est que la loi de X + Y , par exemple, ne dépend pas que des lois de X et
de Y mais de la loi du couple (X, Y ). Considérez par exemple Xn ∼ 12 δ−1 + 12 δ+1
L L
et Yn = −Xn , auquel cas Xn → X1 , Yn → X1 mais Xn + Yn = 0 ne converge pas
en loi vers 2X1 .

Un résultat particulièrement utile dans cette direction est le lemme de Slutsky :

L L
Lemme 2.1.7 (lemme de Slutsky) Si Xn → X et Yn → c où c est une constante,
L
alors (Xn , Yn ) → (X, c).

19
MAO Probas-Stats

2.2 Illustration de la convergence presque-sûre


La convergence presque-sûre est la plus simple à illustrer. Pour cela, on répète
plusieurs fois l’opération suivante :
• on simule quelques réalisations de la suite (Xn )n pour n ≤ nmax ,
• pour chaque réalisation, on trace la suite des valeurs obtenues.
Si la convergence a lieu, les tracés doivent tous avoir une asymptote. Cependant :
• Il faut faire attention à ce que, pour une réalisation de la suite (Xn )n , chaque
Xn (ω) corresponde au même ω, et que l’on ne change pas l’aléa pour chaque n.
L’exercice 22 illustre la différence entre les deux situations.
• On a l’habitude d’illustrer la convergence presque-sûre dans des cas du type “loi
des grands nombres” auquel cas la limite est une constante et les trajectoires
p.s.
ont toutes la même asymptote. Il faut faire attention au fait que si Xn → X
mais que la variable limite X n’est pas presque-sûrement constante, la limite
peut dépendre du ω, donc l’asymptote n’est pas forcément la même pour toutes
les réalisations de suites (voir les exercices 22 et 28). En revanche il n’est pas
p.s.
nécessaire de savoir simuler X pour illustrer Xn → X, et l’on peut même esti-
mer la loi de X grâce à ces simulations.
Ce que l’on a écrit ci-dessus pose plusieurs questions :
combien de tracés ? On veut illustrer le fait que p := P ω | Xn (ω) converge) est
égale à 1. Si l’on fait M tracés indépendants, la probabilité de n’avoir “choisi” que des
ω pour lesquels on a convergence est pM . On peut formaliser la situation par un test
statistique, dans lequel on souhaite distinguer entre H0 : p = 1 et H1 : p < 1, et
on rejette H0 si on observe une réalisation sans convergence parmi les M réalisations
indépendantes. On peut connsidérer que l’erreur de première espèce est 0, car on ne re-
jettera jamais H0 à tort (pourvu que les trajectoires soient assez longues pour constater
la convergence, voir le point suivant), et la puissance du test est 1 − pM . On choisira
alors M en fonction de la puissance souhaitée.
Notons que dans de nombreuses situations (en particulier quand une loi du 0-1
s’applique) on pourra prouver que la probabilité de convergence est soit 0, soit 1 ; dans
ce cas il suffira d’observer la convergence dans une situation pour avoir une indication
de la convergence presque-sûre.
quelle longueur de trajectoire ? autrement dit, jusqu’à quelles valeurs de nmax pous-
ser ? Il n’y a pas de bonne réponse puisque cela dépend de la vitesse de convergence,
que l’on ne connaı̂t pas (sauf dans le cas où l’on cherche simplement à illustrer un
résultat). L’erreur que l’on risque de commettre par un mauvais choix de nmax est de
conclure à l’absence de convergence, alors que la convergence est seulement trop lente.
peut-on en tirer une estimation de la vitesse de convergence ? on pourra tenter
d’intuiter la vitesse de convergence en utilisant des tracés modifiés : si un tracé log-log
(c’est-à-dire un tracé de log(Xn − X) en fonction de log n) a une apparence affine,
alors la convergence semble être polynomiale (d’exposant égal à la pente négative), si
un tracé logarithmique a une apparence affine, la convergence semble être exponentielle
(de taux égal à la pente négative). . .

20
Convergence des variables aléatoires

Exercice 22 Soit (Rn )n∈N une suite i.i.d. de variables de Rademacher P(R0 = ±1) =
1/2. Pour un a ∈] − 1, +1[ fixé on pose

Xn = a0 R0 + . . . + an−1 Rn−1 .

Montrez que la suite Xn converge presque-sûrement. Supposons maintenant que pour


la simulation de chaque Xn , on tire à nouveau les R0 , . . . , Rn−1 , de sorte que ce qu’on
calcule est
Xn0 = a0 Rn,0 0 0
+ . . . + an−1 Rn,n−1
0
où les (Ri,j ) sont iid de même loi. A-t-on à nouveau convergence presque-sûre ? et
pour
Xn00 = a0 Rn−1 + . . . + an−1 R0 ?

2.3 Illustration de la convergence en loi


Il existe plusieurs méthodes pour illustrer la convergence en loi, dont les plus clas-
siques sont :
• dans le cas de variables aléatoires discrètes, le tracé de diagrammes en bâton,
• dans le cas de variables à densité, le tracé des densités,
• le tracé d’histogrammes,
• le tracé de fonctions de répartitions empiriques.
Les deux première méthodes sont basées sur les résultat suivant :

Proposition 2.3.1
• Si (Xn )n est une suite de variables aléatoires à valeurs dans un ensemble dis-
cret D, alors (Xn )n converge en loi si et seulement
P si pour tout d ∈ D, la limite
µd = limn→∞ P(Xn = d)n existe et que d µd = 1. Dans ce cas, la loi limite
est portée par D et décrite par les µd .
• (Lemme de Scheffé) Si (Xn )n est une suite de variables aléatoires de densités
(fn )n , et que la suite (fn )n converge en tout point vers f , alors (Xn )n converge
en loi, vers une loi de densité f .
Remarquons bien que le lemme de Scheffé ne donne qu’une condition suffisante. Au-
trement dit un tracé de densités ne permettra de conjecturer que la convergence en loi,
et pas la non-convergence en loi.
Dans la suite, nous parlerons principalement de la méthode par les fonctions de
répartition empiriques, qui a deux avantages notables : elle fonctionne dans tous les
cas où l’on travaille avec des variables réelles, et elle est simple à coder.

Proposition 2.3.2 Soit (Xn )n une suite de variables aléatoires réelles. Alors on a
L
Xn → X si et seulement si FXn (t) → FX (t) pour tout t point de continuité de
FX .
Utiliser le résultat ci-dessus suppose de connaı̂tre la loi de X. Si tout ce que l’on ob-
serve est une convergence ponctuelle de (FXn )n vers une fonction F , alors on n’a pas
forcément convergence en loi : il faut en plus que F tende vers 0 en −∞ et vers 1 en

21
MAO Probas-Stats

+∞, ce qui n’est pas forcément facile à identifier. Dans ce cas, F sera la fonction de
répartition d’une unique loi.
Remarquons que même si l’on arrive à simuler Xn , on n’a pas forcément immédiatement
accès à FXn . Pour approximer cette fonction, on utilisera le théorème de Glivenko-
Cantelli :

Théorème 2.3.3 (Glivenko-Cantelli) Soit Y une variable aléatoire réelle et (Y (k) )N


k=1
(N )
est un N -échantillon de même loi que Y . Soit FbY la fonction de répartition empi-
rique :
N
(N ) 1 X
FbY (t) = 1lY (k) ≤t .
N
k=1

Alors Fb(N ) converge presque-sûrement uniformément en t vers la fonction de répartition


FY de Y . Autrement dit,
(N ) 
P sup |FbY (t) − FY (t)| −→ 0 = 1.
t∈R N →∞

Ce théorème, s’il est un peu pénible à démontrer, est essentiellement une application de
la loi des grands nombres. Pour avoir une bonne estimation de FY , encore faut-il choi-
sir N assez grand. Une estimation peut être donnée par le théorème de Kolmogorov-
Smirnov :

Théorème 2.3.4 (Kolmogorov-Smirnov) Sous les mêmes hypothèses,


√ (N )
N sup |FbY (t) − FY (t)|
t∈R

converge en loi quand N → ∞, vers une loi appelée loi de Kolmogorov-Smirnov 2 .

On reconnaı̂t un théorème universel, comme le théorème central limite : la loi limite est
la même quel que soit Y . Comme la loi de Kolmogorov-Smirnov est intégrable √ (elle a
même des moments de tous ordres), le sup en question est de l’ordre de 1/ N . Ainsi,
si on veut approcher FY uniformément sur un segment avec précision , on prendra N
d’ordre 1/2 .
Par ailleurs, le théorème de Kolmogorov-Smirnov fournit des tests efficace pour
savoir si un échantillon suit bien une loi Y donnée, ou encore si deux échantillons
suivent la même loi (de loi possiblement inconnue).

Exercice 23 Soit (Xn )n une suite de variables i.i.d. suivant une loi qui admet deux
premiers moments, et que vous savez simuler. Illustrez le théorème de la limite centrale.

Exercice 24 Dans l’exercice 22 montrez que les trois suites (Xn )n , (Xn0 )n , (Xn00 )n
convergent en loi et illustrez cette convergence.
k−1 e−2k2 x2 .
P∞
2. Sa fonction de distribution est P(K ≤ x) = 1 − 2 k=1 (−1)

22
Convergence des variables aléatoires

L’exercice suivant commence l’étude d’un classique appelé le “collectionneur de


vignettes 3 ”.

Exercice 25 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :

Tn = inf k tel que #{Y1 , . . . , Yk } = n .

Écrire une fonction Python simulant Tn ; on pourra utiliser la structure de données ap-
pelée set (qui représente donc un ensemble). Expérimentez pour voir si Tn /(nα logβ n)
semble converger en loi, pour des valeurs simples de α, β.

2.4 Illustration de la convergence P


Compte tenu des points 3 et 4 de la Proposition 2.1.3, le plus simple pour illustrer
la convergence en probabilité de (Xn )n vers X est d’illustrer la convergence en loi de
Xn − X vers zéro. On peut également chercher à montrer la convergence L1 vers zéro
de inf(|Xn − X|, 1) avec les méthodes développées dans la section suivante. Dans les
deux cas il faut en général connaı̂tre X pour appliquer ces méthodes.
2.5 Illustration des convergences Lp
La méthode naturelle pour illustrer le fait E(|Xn − X|p ) → 0 est d’utiliser les
moyennes empiriques :
(k)
• on simule, pour différents n et N grand, N réalisations (Xn − X (k) )N
k=1 de
Xn − X,
PN (k)
• on calcule la moyenne empirique N1 k=1 |Xn − X (k) |p ,
• on trace la suite en n de ces quantités.
Si la convergence a lieu, on s’attend à avoir convergence vers zéro de cette suite. Encore
une fois, plusieurs questions se posent :
pour quels n ? on ne peut donner que la même réponse qu’en section 2.2 : ça dépend,
et on fait comme on peut.
pour quelle(s) taille(s) N d’échantillon ? ce choix ne peut se faire que compte tenu
d’un seuil de confiance choisi par ailleurs.
On a deux problèmes cependant :
• On veut ici des intervalles de confiance pour des quantités dont on cherche
à montrer qu’elles tendent vers zéro : il va donc falloir pouvoir faire tendre
le diamètre de l’intervalle de confiance vers zéro aussi, et pour que cela soit
réalisable en pratique, il faudra que le N ne croisse pas trop vite.
• En général, le N permettant une précision donnée dans l’estimation de E(|Xn −
X|p ) va dépendre de n. Puisque l’on veut illustrer la convergence des quantités
estimées, on voudrait idéalement pouvoir choisir N tel que les intervalles de
confiance donnés sont valables pour tout n “assez grand”.
3. le terme anglais étant “coupon collector”, on a tendance à parler de “collectionneur de coupons”

23
MAO Probas-Stats

Il n’y a pas de bonne réponse à ces problèmes ; nous verrons quelques outils plus tard
dans le cours. En pratique on pourra souvent illustrer une autre forme de convergence
plutôt qu’une convergence Lp : si par exemple on suppose les (Xn )n à valeurs dans
[a, b] alors l’inégalité de Hoeffding permet de répondre de manière satisfaisante aux
L1
deux points ci-dessous, mais alors (Xn )n est uniformément intégrable et, donc Xn →
p.s. P L
X équivaut à Xn → X ou à Xn → X, qui équivaut à Xn − X → 0. Remarquons par
ailleurs qu’il est nécessaire de savoir simuler X (ou en tout cas Xn −X) pour appliquer
ces méthodes.

Exercice 26 Soit (Sn )n une marche aléatoire symétrique sur Z et Xn = 1lSn =0 . Mon-
L1 p.s.
trer que Xn → 0, et rappeler pourquoi que Xn → 6 0. Essayez d’illustrer la conver-
gence L1 par la méthode décrite ci-dessus (avec un N fixé a priori pour toutes les
valeurs de n entre 1 et nmax ).

2.6 Exercices
Exercice 27 Dans les cas suivants, démontrer et illustrer les convergences ou absences
de convergence proposées.
L
1. Si Xn ∼ B(n, nλ ) avec λ ∈ R+ , alors Xn → P(λ).
Pn
2. Si les (Xn )n∈N sont i.i.d. avec X0 ∼ B 21 , et si Yn = k=0 Xk 2−k , alors

p.s.
Yn → U([0, 1]).
Que dire si X0 ∼ B(p) où p ∈ [0, 1] ?
P L1 p.s.
3. Si Xn ∼ B n1 , alors Xn → 0, Xn → 0, mais Xn 9 0. Et pour nXn ?


Exercice 28 (inspiré du texte d’agrégation public 2015-A7) On définit deux variables


aléatoires An par A0 = a, B0 = b et
 An
P (An+1 , Bn+1 = (An + 1, Bn ) | (An , Bn ) =
n+a+b
 Bn
P (An+1 , Bn+1 = (An , Bn + 1) | (An , Bn ) = ,
n+a+b
(le processus (An , Bn )n est donc une urne de Pólya).
• Simuler une réalisation de la suite (An )n . Semble-t-il y avoir convergence presque-
sûre de An /n ?
• On se place dans le cas a = b = 1. Quelle loi semble suivre la limite de An /n ?
On pourra tracer une approximation de la fonction de répartition de la loi de
An /n à partir d’un échantillon, pour n assez grand.
• On conjecture que la loi limite de An /n est une loi β(a, b) ; illustrer ce point.
An +a
On peut prouver la convergence presque-sûre en montrant que n+a+b est une martin-
gale.

Exercice 29 On reprend l’exercice 25 mais cette fois-ci le collectionneur ne cherche


(ρ)
qu’à obtenir une proportion ρ ∈]0, 1[ des vignettes disponibles, et on note Tn le

24
Convergence des variables aléatoires

temps correspondant. Montrer (par la simulation) que pour tout ρ ∈]0, 1[ il existe deux
T (ρ) −m n L
constantes mρ et σρ2 pour lesquelles n√ 2 ρ → N (0, 1).
σρ n
Pour cela, on commencera par observer que E(Tn ) et var(Tn ) sont approximati-
vement linéaires en n. On pourra alors estimer les coefficients mρ et σρ2 à partir de
(ρ)
moyenne et variance empiriques de Tn pour n assez grand.

25
MAO Probas-Stats

26
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 3

Grands théorèmes de convergence

Le but de ce chapitre est de rappeler les grands théorèmes de convergence de va-


riables aléatoires, et de donner des méthodes permettant de traiter au cas par cas les
situations où les hypothèses de ces théorèmes ne sont pas vérifiées. Les deux types de
résultats de convergence que nous discuterons sont les suivants (à chaque fois (an )n et
(bn )n sont des suites déterministes) :
Pn
• les lois des grands nombres ou théorèmes ergodiques, qui sont du type “ a1n k=1 Xk
converge vers une quantité déterministe”,
Pn
• les résultats du type “central limite” qui disent que “ b1n k=1 Xk − E(Xk )


converge en loi”,
Tous les livres classiques de probabilités discutent loi des grands nombres et théorème
central limite, mais tous ne discutent pas leurs variantes. Une lecture très intéressante
sur ces points se trouve sur le blog de Terence Tao https://terrytao.wordpress.
com (chercher “275A probability theory” ; il y a six chapitres au total, “Notes 0” à
“Notes 5”).
3.1 Lois des grands nombres
Dans toute la suite, on considère une suite de variables aléatoires (Xn )n∈N∗ . On
notera
Sn = X1 + . . . + Xn

Un résultat de loi des grands nombres concerne la convergence de Sn /an vers une
constante (en général an = n mais pas toujours, voir l’exercice 34). On parlera de loi
forte pour un résultat de convergence presque-sûre, et de loi faible pour un résultat de
convergence en probabilité.
Le résultat le plus classique est la loi forte des grands nombres :

Théorème 3.1.1 (Kolmogorov) Soit (Xn )n une suite i.i.d. de variables aléatoires.
Alors la suite (X̄n )n converge p.s. si et seulement si X1 ∈ L1 , et alors la limite est
E(X1 ).

La démonstration n’est pas évidente, mais il faut savoir traiter des cas où les hypthèses
sont plus fortes :

27
MAO Probas-Stats

Exercice 30 On cherche à démontrer un sens du Théorème 3.1.1 dans le cas où X1 ∈


L4 (c’est-à-dire E[X14 ] < ∞). On pourra supposer X1 centrée (pourquoi ?).
1. Calculer E[Sn4 ] en fonction de σ 2 = E[X12 ] et τ 4 = E[X14 ].
4
2. Montrer que E[X̄n4 ] ≤ 3τ2 .
P∞ n 4 
3. En déduire que E n=1 X̄n < ∞.
4. Conclure la convergence p.s. de X̄n vers 0.
On affaiblit les hypothèses en supposant seulement X1 ∈ L2 . Montrer la convergence
en probabilité, en utilisant l’inégalité de Bienaymé-Tchebychev.
Il existe d’autres résultats du type “loi des grands nombres” dans les cadres sui-
vants :
• pour les chaı̂nes de Markov : c’est le théorème
Pn ergodique, qui donne une conver-
gence presque-sûre de toute quantité n1 k=1 f (Xk ) dès que la chaı̂ne admet
une uniqueR mesure invariante π, dès que f est une fonction π-intégrable (la li-
mite étant f dπ) ;
• pour les martingales : si (Mn )n une martingale telle que chaque Mn est de carré
intégrable, alors il existe un processus croissant hM in tel que sur l’événement
Mn p.s.
[limn hM in = ∞], on a hM in → 0.
Revenons au Théorème 3.1.1. Il y a trois hypothèses que l’on aimerait affaiblir :
1. les (Xn )n ont même loi,
2. les (Xn )n sont indépendantes,
3. les (Xn )n sont intégrables.
Le Théorème 3.1.1 étant un “si et seulement si”, aucun espoir d’avoir une convergence
presque-sûre de Sn /n sans l’hypothèse 3 : l’exercice suivant illustre cela.

Exercice 31 Comment se comporte (au sens presque-sûr) Sn /n quand les (Xn )n suivent
des lois de Cauchy ? et au sens de la convergence en loi ? Conjecturer le résultat par si-
mulation, puis le prouver (indication : la fonction caractéristique de X1 est t 7→ e−|t| ).
Notons qu’il existe un analogue faible qui permet d’affaiblir l’hypothèse 3 :

Théorème 3.1.2 Soit (Xn )n une suite i.i.d. de variables aléatoires. Alors la suite
1
n (Sn −nE(X1 1l|X1 |≤n ) n converge en probabilité si et seulement si limt→∞ P(|X1 | ≥
t) = 0.
Pour ce qui est d’affaiblir l’hypothèse 1, le théorème des trois séries de Kolmo-
gorov (encore lui) montre que si les les (Xn )n sont indépendantes et toutes de carré
intégrable,
n
1X X var Xn p.s.
si E(Xk ) → µ et <∞ alors X̄n → µ. (3.1)
n n
n2
k=1

Ce résultat est une conséquence des lois des grands nombres pour les martingales, que
nous aborderons au chapitre 6.

28
Grands théorèmes de convergence

Un premier résultat affaiblissant l’hypothèse 2 est simple et classique (on pourra


le trouver dans les livers de Barbe et Ledoux ou de Bercu et Chafaı̈)

Théorème 3.1.3 (Etemadi) Soit (Xn )n une suite de variables aléatoires deux à deux
indépendantes. Alors la suite (X̄n )n converge presque-sûrement si et seulement si
X1 ∈ L1 , et alors la limite est E(X1 ).

Des méthodes “à la main” permettant d’affaiblir l’hypothèse 2 peuvent être obte-
nues — quitte à renforcer un peu les hypothèses — en utilisant la méthode des mo-
ments, comme on l’a fait dans l’exercice 30. En voici quelques exemples.

Exercice 32 En s’inspirant de l’exercice 30, montrer le résultat suivant :


Si (Xi,n )i≤n est une famille de variables aléatoires qui ont toutes la même espérance
E(X1,1 ) et telle que pour tout P n, X1,n , . . . , Xn,n est une famille indépendante et
p n
supi,n E(Xi,n ) < ∞, alors n1 k=1 Xk,n converge vers E(X1,1 ) en probabilité si
p = 2 et presque-sûrement si p = 4.

Exercice 33 On fabrique une suite (Vn , En )n∈N∗ de graphes aléatoires dits de Erdös–
Rényi de la manière suivante :
• l’ensemble des sommets Vn est {1, . . . , n},
• chaque {a, b} (où a 6= b) est une arête du graphe avec probabilité 1/2, et
indépendamment des autres arêtes.
Écrire une fonction Python simulant un tel graphe ; on pourra pour cela coder le
graphe par sa matrice d’adjacence.
Montrer que #En / ( n2 ) converge presque-sûrement vers 1/2.

Exercice 34 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :

Tn = inf k tel que #{Y1 , . . . , Yk } = k .

On rappelle qu’on a conjecturé la convergence en probabilité de Tn /n log n vers 1 ;


montrer que Tn = Xn,1 + . . . + Xn,n pour des variables aléatoires indépendantes de
loi géométrique, calculer l’espérance de Tn et majorer sa variance. Montrer alors que
P
Tn /n log n → 1.

Exercice 35 (*) On choisit une permutation σn aléatoirement et de manière uniforme


dans Sn et on s’intéresse au nombre Cn de cycles dans cette permutation. On codera
une permutation de la manière suivante :
 
1 2 3 4 5 6 7 8 9
σ=
3 9 6 8 2 1 5 4 7

est représenté par sigma=[3,9,6,8,2,1,5,4,7].


Écrire une fonction qui prend en entrée une permutation et rend une décomposition
en cycles.

29
MAO Probas-Stats

Observez empiriquement que l’espérance et la variance de Cn sont de l’ordre de


log n.
On peut prouver en fait que Cn a même loi que la somme de Xn,k indépendants,
1
pour k = 1, . . . , n où Xn,k ∼ B( n−k+1 ) ; voir Probability theory and examples de
Durrett. En acceptant ce résultat, prouvez les résultats observés.
Montrez ensuite que Cn / log n tend vers 1 en probabilité. L’illustrer est assez diffi-
cile à cause de la lenteur de la convergence.

3.2 Théorèmes centraux limite


Ici aussi, nous allons discuter l’énoncé standard et les extensions que l’on peut
obtenir en améliorant ses différentes méthodes de preuve. Nous allons aussi discuter la
vitesse de convergence.

Théorème 3.2.1 Si (Xn )n est une suite i.i.d. de carré intégrable, alors
Sn − nE(X1 ) L 
√ → N 0, var(X1 )
n
La preuve la plus courante et la plus courte utilise les fonctions caractéristiques
ΦZ : R → C
t 7 → E(eitZ )
et le théorème de Lévy-Cramér. Cette preuve est la plus courte mais elle n’est pas celle
qui s’étend le plus facilement. Une autre méthode de preuve du théorème de la limite
centrale passe par les moments. Elle utilise le résultat suivant : si une suite de variables
aléatoires (Yn )n vérifie E(Ynp ) → E(Z p ) pour tout p ∈ N, où Z ∼ N (0, 1) alors
L
Yn → Z (et on peut remplacer ici N (0, 1) par toute loi “déterminée par ses moments”,
i.e. qui est la seule avec les moments donnés — et c’est le cas de la loi normale).
Pour la culture, on donne une généralisation du Théorème Central Limite 3.2.1, qui
consiste à sommer des variables différentes pour chaque n, comme on l’a fait dans les
exercices 32,33,34.

Théorème 3.2.2 (Lindeberg-Feller) Soit Kn une suite d’entiers avec Kn → ∞ quand


n → ∞, et soit pour tout n une famille X̃n,1 , . . . , X̃n,Kn de variables aléatoires indépen-
PKn
dantes. On note σ̃n2 = k=1 var(X̃n,k ) ; alors la condition
Kn
1 X h 2 i
∀ > 0 E X̃n,k − E( X̃n,k ) 1
l |X̃ −E( X̃ )|>σ̃ −→ 0 (3.2)
σ̃n2 n,k n,k n n→∞
k=1

est vérifiée si et seulement si on a


1
max var(X̃n,k ) −→ 0 (3.3)
σ̃n2 1≤k≤Kn n→∞

et
Kn
1 X  L
X̃n,k − E(X̃n,k ) → N (0, 1).
σ̃n
k=1

30
Grands théorèmes de convergence

Remarque 3.2.3
• On retrouve le résultat standard donné par le Théorème 3.2.1 en prenant X̃n,k = Xk .
• La condition (3.2) est appelée “condition de Lindeberg”.
PKn Elle signifie qu’aucun

Xn,k ne joue un rôle prédominant dans la somme k=1 X̃n,k − E(X̃n,k ) .

Exercice 36 On utilise les notations de l’exercice 35. On pose X̃n,k = Xn,n−k ; en


n −log n
utilisant le Théorème 3.2.2, montrer que C√ log n
converge en loi vers une variable
normale centrée réduite puis illustrer ce résultat.

Remarque 3.2.4 Une condition suffisante pour (3.2) est qu’il existe δ > 0 tel que
Kn
1 X
lim E(|X̃n,k − E(X̃n,k )|2+δ ) = 0. (3.4)
n→∞ σ̃n2+δ k=1

Cette condition (3.4) est appelée “condition de Lyapounov”.

Exercice 37 On reprend l’exercice 34 mais cette fois-ci le collectionneur ne cherche


qu’à obtenir une proportion ρ ∈]0, 1[ des vignettes disponibles.
(ρ)
Montrer que le temps Tn peut s’écrire comme Xn,1 + . . . + Xn,rn avec rn ∼ ρn
rn
et les (Xn,k )k=1 indépendants avec Xn,k géométrique de paramètre 1 − k/n.
Utiliser le Théorème 3.2.2 pour montrer que pour tout ρ ∈]0, 1[ il existe deux
T (ρ) −m n L
constantes mρ et σρ2 pour lesquelles n√ 2 ρ → N (0, 1). On pourra prouver que
σρ n
la condition (3.4) est vérifiée avec δ = 2 en utilisant l’inégalité 1
!
4
1 K
E Gp − ≤ 4
p p

pour Gp suivant une loi géométrique de paramètre p, et K une certaine constante


(indépendante de p).
2
Et pour ρ = 1 ? On rappelle que E(Tn ) ∼ n log n et que var(Tn ) ∼ π6 n2 ; a-t-on
−n √
convergence en loi de Tnπn/ log n
6
?

Parlons maintenant de vitesse de convergence dans le théorème central limite. Le


résultat principal est le théorème suivant :

Théorème 3.2.5 (Berry-Esséen) Soit (Xn )n une suite de variables aléatoires i.i.d.
admettant des moments d’ordre 3. On note Fn la fonction de répartition de Zn =
Sn −nE(X1 )
√ et F la fonction de répartition de N (0, 1). Alors
n var(X1 )


sup Fn (x) − F (x) ≤ √
x∈R σ3 n

où C ' 0, 4748 est une constante universelle et ρ = E |X1 − E(X1 )|3 .
1. facile à montrer si l’on connaı̂t les moments d’ordre 3 et 4 de Gp .

31
MAO Probas-Stats

Ce résultat exprimé
 en termes
 de fonctions de répartition donne en fait une estimation
de E φ(Zn ) −E φ(Z) (où Z ∼ N (0, 1)) pour toute fonction suffisamment régulière,
via les identités
Z Z
E φ(Zn ) = φ0 (t) 1 − Fn (t) dt E φ(Z) = φ0 (t) 1 − F (t) dt
   

Ce résultat montre donc essentiellement que√la vitesse de convergence dans le théorème


central limite, Théorème 3.1.1, est en O(1/ n).

Exercice 38 Soit (X)n une suite de variables i.i.d. de Rademacher ; l’inégalité du


(N )
Théorème 3.2.5 est censée être atteinte pour ces variables. On note Fn la fonction
de répartition empirique approchant Fn associée au N -échantillon.
(N )
1. Montrer que supx∈R Fn (x)−F (x) est atteint en l’un des points de l’échantillon.
2. Donner une estimation de cette quantité pour différentes valeurs de n et la com-
parer au majorant donné dans le Théorème 3.2.5.

Un autre raffinement du Théorème Central Limite consiste à étudier les écarts re-
cords de Sn −nE(X

n
1)
. Le théorème suivant montre moralement qu’ils prennent des va-
leurs de l’ordre de log log n une infinité de fois.

Théorème 3.2.6 (Loi du log itéré) Soit (Xn )n une suite i.i.d. de carré intégrable, et

1 
Vn = √ Sn − nE(X1 ) .
2n log log n

Alors presque-sûrement
p p
lim sup Vn = + var(X1 ) lim inf Vn = − var(X1 ).
n→∞ n→∞

Exercice 39 A-t-on convergence presque-sûre ou même en proba dans le théorème de


la limite centrale ? Pour justifier théoriquement la réponse, on utilisera le Théorème 3.2.6.
Pourquoi ne peut-on pas en pratique illustrer ce résultat ?
On peut en revanche observer que Vn prend des valeurs “éloignées de zéro” pour
des temps arbitrairement grands. Simuler une trajectoire de Vn pour des Xn de loi de
Rademacher.

3.3 Valeurs extrêmes


Soit encore (Xn )n une famille i.i.d. de variables réelles. Nous nous intéressons ici
à la variable donnant les maxima de la suite :

Mn = max Xk
k=1,...,n

et à l’éventuelle convergence en loi de (Mn − an )/bn quand n → ∞.


On peut commencer par se demander quel est le comportement de Mn lui-même.

32
Grands théorèmes de convergence

Exercice 40 Soit xF = sup{x ∈ R | P(X1 ≤ x) < 1} ∈] − ∞, +∞]. Montrer que


P
Mn → x F .

La question de la convergence de (Mn − an )/bn consiste alors à étudier le comporte-


ment de xF − Mn (si xF < ∞) ou la vitesse de divergence de Mn (si xF = ∞). Le
résultat standard en la matière est le suivant :

Théorème 3.3.1 (Fisher-Fréchet-Gnedenko-Tippett) Soit (Xn )n une famille i.i.d.


de variables réelles. S’il existe deux suites, (an )n de réels quelconques et (bn )n de
réels strictement positifs, telles que (Mn − an )/bn converge en loi quand n → ∞,
alors cette loi limite est nécessairement, à translation et dilatation près, de l’un des
quatre types suivants :
• une masse de Dirac,
−x
• une loi de Gumbel, i.e. de fonction de répartition x 7→ e−e ,
a
• une loi de Weibull i.e. de fonction de répartition x 7→ e−(−x) 1lR− (x) + 1lR+ (x)
avec a > 0,
−a
• une loi de Fréchet, i.e. de fonction de répartition x 7→ e−x 1lR+ (x) avec a > 0.

Nous n’allons pas démontrer ce résultat mais l’illustrer dans des cas correspondant à
différentes situations.

Exercice 41 Dans les cas suivants, prouvez puis illustrez le résultat.


L
1. Si X1 ∼ B(p) avec p ∈]0, 1[, on a Mn → δ1 .
L
2. Si X1 ∼ U([0, θ]) pour θ > 0, on a (Mn − θ)/ nθ → une loi de Weibull avec
a = 1 (qui est la même chose que la loi de −E pour E ∼ E(1)).
log n 1 L
3. Si X1 ∼ E(λ) avec λ > 0, on a (Mn − λ )/ λ → une loi de Gumbel.
L
4. Si X1 ∼ C(1) alors Mn / nπ → une loi de Fréchet avec a = 1.

3.4 Principes de grandes déviations


Pour une suite (Xn ) de variables aléatoires i.i.d. réelles intégrables, le théorème
central limite implique que la moyenne empirique X̄n converge p.s. vers m = E[X1 ].
Les principes de grandes déviations ont pour objectif d’évaluer la probabilité d’événements
rares, du type {X̄n ∈ A} où A ⊂ R ne contient pas m.

Exercice 42 On considère la partie A = [x, +∞) où x > m.


1. Soit t > 0 Montrer en utilisant une inégalité de Markov sur exp(tSn )que

P(X̄n ≥ x) ≤ exp (−n(xt − φ(t)))

où φ : R →] − ∞, ∞] est la log-Laplace de X1 :

φ(t) = log E[exp(tX1 )].

33
MAO Probas-Stats

2. En déduire que
1
log P(X̄n ≥ x) ≤ − sup(xt − φ(t)).
n t>0

On note I(x) = supt>0 (xt − φ(t)).


3. Dans le cas suivants, expliciter la fonction φ puis la fonction I (attention aux
valeurs potentiellement infinies qu’elles peuvent prendre) :
(a) X1 ∼ B(p),
(b) X1 ∼ P(λ),
(c) X1 ∼ E(λ).
L’exercice précédent montre qu’on peut s’attendre à ce que ces probabilités d’événements
rares soient majorées par une exponentielle décroissante en n. Le théorème suivant 2 ,
très général et s’appliquant même quand X1 n’est pas intégrable, montre que c’est le
cas et fournit également une borne inférieure.

Théorème 3.4.1 (Cramér-Chernov) Soient (Xn ) des variables réelles i.i.d, et X̄n =
1
n (X1 + · · · + Xn ). Pour t ∈ R on note φ(t) = log E[exp(tX1 )], et pour x ∈ R,

I(x) = sup(xt − φ(t)).


t∈R

Alors pour tout fermé F de R,


1
lim sup log P(X̄n ∈ F ) ≤ − inf I(x)
n n x∈F

et pour tout ouvert G de R,


1
lim inf log P(X̄n ∈ G) ≥ − inf I(x)
n n x∈G

Remarque 3.4.2 La fonction I s’appelle fonction de taux ou transformée de Cramér


associée à X1 . Elle est positive, semi-continue inférieurement, convexe.

Exercice 43 Soient (Xn ) des variables i.i.d réelles intégrables, de moyenne m =


E[X1 ]. Déduire du Théorème 3.4.1 que pour tout x > m,
1
lim P(X̄n ≥ x) = −I(x).
n→∞ n
Autrement dit, P(X̄n ≥ x) = exp (−nI(x) + o(n))
On veut illustrer ce résultat dans le cas X1 ∼ B(p) où p ∈]0, 1[. On souhaite
estimer empiriquement n1 log P(X̄n ≥ x) avec n = 100 pour diverses valeurs de x
entre p et 1. Rappelons dans ce cas la fonction I(x) calculée dans l’exercice 42 :
   
x 1−x
I(x) = x log + (1 − x) log
p 1−p
2. Pour une preuve, voir par exemple le livre Large deviations techniques and applications de Dembo et
Zeitouni

34
Grands théorèmes de convergence

pour x ∈ [0, 1], et +∞ ailleurs. Combien d’essais faut-il effectuer pour estimer cor-
rectement la probabilité P(X̄n ≥ x) ? Tracer la fonction I et dire pourquoi cette pro-
babilité est difficile à estimer empiriquement, à part pour des x très proches de p.

35
MAO Probas-Stats

36
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 4

Tests et estimateurs classiques

4.1 Estimateurs
Nous commençons par rappeler les définitions générales. Tout au long du chapitre
on garde la notation X̄n pour la moyenne empirique X1 +···+X
n
n
d’une suite de variables
aléatoires.
4.1.1 Définitions
Définition 4.1.1 Un modèle paramétrique est une famille de probabilités indexées par
un paramètre θ ∈ Θ, où Θ ⊂ Rd : P = {Pθ , θ ∈ Θ}. Le modèle est dit identifiable si
θ 7→ Pθ est injective.
Si X est une variable aléatoire dont la loi appartient à un tel modèle paramétrique P,
une statistique Z est une variable X-mesurable (donc de la forme ϕ(X)) ; cette statis-
tique est un estimateur d’un paramètre g(θ) si presque-sûrement Z ∈ g(Θ).
Souvent, le modèle dépendra d’un paramètre n : il s’agira souvent d’un modèle de n
réalisations i.i.d. (il sera alors noté P ⊗n car ses élements sont de la forme P⊗n
θ ) mais
pas forcément, voir l’exemple ci-après.

Exemple 1
• Si X1 , . . . , Xn est un n-échantillon de loi normale N (m, σ 2 ) avec m, σ 2 incon-
nus, alors le modèle naturel associé est
P ⊗n = {P⊗n 2
m,σ 2 | (m, σ ) ∈ R × R+ }

où Pm,σ2 est la loi normale N (m, σ 2 ) sur R.


• On considère les n + 1 premiers pas (Xk )nk=0 d’une chaı̂ne de Markov sur un
espace d’état fini E, de loi initiale µ et de matrice de transition P . Le modèle
(n)
associé est l’ensemble des lois Pµ,P :
(n)
Pµ,P (x0 , . . . , xn ) = µ(x0 )Px0 ,x1 . . . Pxn−1 ,xn ,

qui n’est pas de la forme P ⊗n .


Être un estimateur n’est pas une propriété intéressante : par exemple, n’importe
quelle constante de Θ est un estimateur. On va donc définir plusieurs qualités possibles
pour un estimateur. On commence par définir le biais et le risque quadratique :

37
MAO Probas-Stats

Définition 4.1.2 Soit P un modèle paramétrique, et Z un estimateur de g(θ). On sup-


pose que pour tout θ ∈ Θ, Eθ (kZk) < ∞. On définit

r(θ) = Eθ (Z − g(θ))2

b(θ) = Eθ (Z) − g(θ)

(où, dans les deux cas, Eθ est l’espérance par rapport à Pθ ) qui sont appelés respecti-
vement le biais de Z et son risque quadratique.

Différentes qualités éventuelles d’un estimateur Z de g(θ), ou Zn (lorsque le modèle


dépend d’un paramètre n mais que Θ est fixe) seront les suivantes :
• être sans biais, c’est-à-dire avoir un biais b(θ) nul pour tout θ ;
• avoir un risque quadratique faible (mais toute comparaison du risque de deux
estimateurs n’a de sens que si elle est vraie pour tout θ) ;
• être asymptotiquement sans biais, c’est-à-dire vérifier, limn→∞ bn (θ) = 0,
p.s.
• être fortement consistant c’est-à-dire vérifier que pour tout θ on a Zn → g(θ),
P
• être (faiblement) consistant, c’est-à-dire vérifier que pour tout θ on a Zn → g(θ).
Une autre qualité recherchée d’une suite d’estimateurs est l’existence d’une loi
asymptotique,c’est-à-dire le fait qu’il existe une suite (an )n avec an → ∞, telle que
an Zn − g(θ) converge en loi, vers une loi non triviale. On √ dit dans ce cas que la suite
d’estimateurs (Zn )n est de vitesse (an )n . Lorsque an = n et que la loi limite est une
normale centrée, on parle de normalité asymptotique.

Exercice 44 Soit θ > 0. On considère U1 , . . . , Un un n-échantillon de loi U([0, θ]).


1. Montrez que Z1 = 2Ūn est un estimateur sans biais, consistant et asymptotique-
ment normal de θ.
2. Montrez que Z2 = max(U1 , . . . , Un ) est un estimateur consistant de θ et que n(Z2 −
θ) converge en loi vers une loi que l’on identifiera.
3. Pour un θ quelconque, simulez un 100-échantillon U1 , . . . , Un et définissez les
estimateurs Z1 et Z2 correspondant aux 100 valeurs de n. Tracez les trajectoires
de Z1 et Z2 . Lequel des deux estimateurs semble converger le plus vite vers θ ?

Exercice 45 Soit (X1 , . . . , Xn ) un échantillon de loi admettant un moment d’ordre


deux. On propose l’estimateur suivant pour la variance :

n n
!2 n
1X 2 X 1X 2
ŝ2n = X − Xi = Xi − X̄n .
n i=1 i i=1
n i=1

n 2
Montrer qu’il est fortement consistant mais biaisé. Montrer que n−1 ŝn est sans biais.

4.1.2 Méthode des moments


Une manière de construire des estimateurs est la méthode des moments. Si g(θ)
est une fonction des moments, on l’estime par la même fonction mais évaluée en les
moments empiriques.

38
Tests et estimateurs classiques

Exemple 2 Soit X1 , . . . , Xn un n-échantillon de loi β(a, b) (dont la densité est donnée


1
par B(α,β) xα−1 (1 − x)β−1 , où B(α, β) = Γ(α)Γ(β)
Γ(α+β) ). On a

a ab
E(X) = var X = .
a+b (a + b)2 (a + b + 1)
On en tire
   
E(X)(1 − E(X)) E(X)(1 − E(X))
a = E(X) −1 b = (1−E(X)) −1 .
E(X 2 ) − E(X)2 E(X 2 ) − E(X)2

La méthode des moments suggère donc comme estimateurs


! !
X n (1 − X n ) X n (1 − X n )
â = X n 2 −1 b̂ = (1 − X n ) 2 −1 .
X 2n − X n X 2n − X n

Ces estimateurs sont fortement consistants d’après la loi des grands nombres.

Exercice 46
• Montrez que Z1 dans l’exercice 44 ci-dessus aurait pu être trouvé par la méthode
des moments.
• Soit P1 , . . . , Pn un n-échantillon de loi de Poisson de paramètre λ. En utilisant
les formules pour l’espérance et la variance de cette loi, proposer deux esti-
mateurs de λ différents. Ces estimateurs sont-ils biaisés ? Sont-ils consistants ?
Tenter de les comparer par simulation (on pourra se limiter à λ ∈ Λ = [1, 3]).
4.1.3 Méthode par insertion
La méthode par insertion est similaire : si g(θ)
 s’écrit comme une fonction d’un
autre paramètre h(θ), par exemple g(θ) = ψ h(θ) , et que l’on connaı̂t un estimateur
Zh de h(θ), on propose ψ(Zh )pour estimateur de g(θ).

Exemple 3 Soit Z1 , . . . , Zn un n-échantillon de loi N (0, σ 2 ). Alors E(|Z1 |) = √σ ;



√  
on peut donc proposer 2π |Z1 |+···+|Z n
n|
comme estimateur de σ.

4.1.4 Méthode du maximum de vraisemblance


La méthode du maximum de vraisemblance est la plus complexe mathématiquement
mais aussi la plus universelle, et elle possède souvent de bonnes propriétés. On suppose
que toutes les lois Pθ sont absolument continues par rapport à une mesure commune
µ. On note alors fθ la densité de Pθ par rapport à µ ; une réalisation X de loi Pθ étant
donnée, on propose comme estimation de θ la valeur (si elle est unique) de θ qui maxi-
mise la vraisemblance V : θ 7→ fθ (X).
En général on travaillera avec un n-échantillon X1 , . . . , Xn , de sorte que la densité
à considérer sera
Vn : θ 7→ fθ (X1 ) . . . fθ (Xn ),

39
MAO Probas-Stats

Exemple 4 On considère le modèle {P⊗n 2 +


m,σ 2 | (m, σ ) ∈ R × R }. La fonction à maxi-
miser est
n
Y 1 (Xi −m)2
θ 7→ √ e− 2σ2 .
i=1 2πσ 2
En passant au log, on obtient
 X 2 − 2mX + m2 
log Vn (θ) = −n + log σ + constante.
2σ 2

Quel que soit σ 2 , le m maximiseur est X. En réinjectant ce résultat dans l’expression


2
on trouve que le σ 2 maximiseur est X 2 − X .

Exercice 47 Dans le modèle de l’exercice 44, quel est l’estimateur du maximum de


vraisemblance ?

4.2 Borne de Cramér-Rao et modèles exponentiels


On a vu qu’il était intéressant de minimiser le risque quadratique d’un estimateur.
La borne de Cramér-Rao donne une borne inférieure pour ce risque quadratique, mon-
trant que l’on ne peut espérer faire mieux qu’une certaine quantité.
4.2.1 Minoration du risque
Plaçons-nous dans le cadre d’un modèle régulier, c’est à dire que l’on suppose :
• que Θ est un ouvert de Rd ,
• que toutes les lois Pθ ont même support et sont absolument continues par rapport
à une mesure commune µ, et on note encore fθ = dP dµ ,
θ

• que θ 7→ log fθ est deux fois continûment dérivable en µ-presque tout point, et
de carré intégrable.

Définition 4.2.1 On suppose que le modèle {Pθ | θ ∈ Θ ⊂ R} est régulier. On appelle


information de Fisher du modèle la fonction
" 2 #

I(θ) = Eθ log fθ (X)
∂θ

Théorème 4.2.2 (borne de Cramér-Rao) Pour {Pθ | θ ∈ Θ} un modèle régulier, on


a (sous des hypothèses de régularité supplémentaires) que tout estimateur sans biais
de g(θ) a un risque quadratique qui vérifie
2
g 0 (θ)
r(θ) ≥ .
I(θ)

La preuve est donnée dans Statistique mathématique en action de Rivoirard et Stoltz,


ou dans votre cours de statistiques de M1.

40
Tests et estimateurs classiques

Exercice 48 Pour une observation X dont l’ensemble des lois possibles est formé par
les lois de Poisson de paramètre θ ∈ R∗+ , calculer la fonction d’information de Fisher.
On dispose maintenant d’un n-échantillon (X1 , . . . , Xn ) de loi P(θ). Que devient
la fonction I(θ) ?
On propose comme estimateur de θ la moyenne empirique X̄n . Pourquoi est-il sans
biais ? Calculer son risque quadratique et le comparer à la borne de Cramér-Rao.

Exercice 49 Dans le cas de l’exercice 44, le théorème précédent s’applique-t-il ? Cal-


culer l’information de Fisher du modèle, puis comparer le risque quadratique des es-
timateurs Z1 , Z2 à la borne de Cramér-Rao.

4.2.2 Modèles exponentiels


Si l’on se restreint encore quant au type de modèle considéré, on peut obtenir un
résultat général qui montre que la borne de Cramér-Rao est asymptotiquement atteinte.
Commençons par définir ces modèles : on dit qu’un modèle est exponentiel s’il est
régulier avec des densités fθ de la forme

fθ (x) = φ(x) exp a(θ)h(x) − b(θ)

où φ est une fonction mesurable à valeurs dans R+ et a, h, b des fonctions mesurables
à valeurs dans R.

Exercice 50 Montrer que le modèle de l’exercice 48 est exponentiel.

Théorème 4.2.3 Soit P = {Pθ | θ ∈ Θ} un modèle exponentiel (avec des hypothèses


de régularité supplémentaires). On considère P = P ⊗n le modèle associé à un n-
échantillon. L’estimateur du maximum de vraisemblance θ̂n de θ vérifie
√  L
n θ̂n − θ → N (0, I1 (θ)−1 )

où I1 (θ) est l’information de Fisher associée à P (donc à une seule variable X1 ).

Exercice 51 Soit X1 , . . . , Xn un échantillon de loi N (θ, θ2 ), où θ est un réel stricte-


ment positif. La densité correspondante est notée pθ (x).
1. Proposer des estimateurs pour estimer le paramètre θ ? Quelle est leur variance ?
2. Calculer la log-vraisemblance associée aux observations pour le paramètre θ et
en déduire que le maximum de vraisemblance θ̂n est défini par :
r
Xn 1 2
θ̂n = − + Xn2 + Xn .
2 4

3. Montrer que cet estimateur est consistant.


Pour illustrer ce résultat, on pourra poser θ = 1 et simuler N = 1000 réalisations
de l’estimateur θ̂n , pour n = 10, 100, 1000 et superposer les trois histogrammes.
4. Montrer que I(θ) = 3/θ2 .

41
MAO Probas-Stats

5. Comparer avec le risque quadratique de l’estimateur X̄n .


On pourra illustrer une fois de plus avec θ = 1 ; pour n = 23 , . . . , 210 , simuler
N = 1000 réalisations de θ̂n , puis estimer R(θ̂n , θ) par la moyenne empirique
de (θ̂n − θ)2 , on obtient alors une valeur estimée R̂n du risque de l’estimateur
θ̂n . Tracer nR̂n en fonction de n (on pourra mettre l’abscisse en échelle loga-
rithmique). Faire de même pour les estimateurs proposés au 1. et superposer les
tracés.

4.3 Intervalles de confiance


Définition 4.3.1 Un intervalle de confiance pour g(θ) est un intervalle aléatoire I(ω),
dont les bornes sont des fonctions mesurables de X. On dit que l’intervalle
 de confiance
est de niveau (de confiance) 1 − α pour α ∈]0, 1[, si P g(θ) ∈ I ≥ 1 − α.
Un intervalle de confiance asymptotique pour g(θ) est la donnée pour tout n d’un
intervalle de confiance In (ω). On dit qu’il est niveau (de confiance) asymptotique 1−α
pour α ∈]0, 1[, si lim inf n→∞ P(θ ∈ In ) ≥ 1 − α.
Un intervalle peut être bilatère, c’est-à-dire de la forme I(ω) = [A(ω), B(ω)], ou bien
unilatère, c’est-à-dire de la forme I(ω) = [A(ω), +∞[ ou bien I(ω) =] − ∞, B(ω)].
Plus on choisit α petit (donc plus on veut de certitude sur notre estimation), plus l’in-
tervalle devra être grand (et donc moins on aura d’information – mais avec plus de
certitude).

Exercice 52 Soit X1 , . . . , Xn un n-échantillon de loi normale de variance connue


N (m, σ02 ). On propose l’estimateur X̄n de m. Donner un intervalle de confiance pour
m en utilisant le fait que X̄n − m suit une loi connue.
Pour β ∈ [0, 1] et une variable aléatoire réelle X, on appelle quantile d’ordre β de
la loi de X la quantité

qβ = inf{x ∈ R | P(X ≤ x) ≥ β}.

Supposons qu’une suite d’estimateurs (Zn )n est de vitesse (an )n , c’est à dire que
L
an (Zn − θ) → loi limite.

Alors si l’on note qα/2 , q1−α/2 les quantiles de la loi limite que l’on suppose que ce ne
sont pas des atomes 1 , on a immédiatement un intervalle de confiance asymptotique de
niveau 1 − α :  
qα/2 q1−α/2
In = Zn + , Zn +
an an

Exercice 53 On considère le modèle de régression linéaire suivant :

Y = β1 f (x) + β2 + ε, ε ∼ N (0, σ 2 ),

où β1 , β2 et σ 2 sont des paramètres inconnus à estimer.


L
1. si Xn → X alors P(Xn ≤ x) → P(X ≤ x) n’est vrai a priori que si x n’est pas un atome de X.

42
Tests et estimateurs classiques

1. Donner des estimateurs des paramètres β1 , β2 , σ 2 pour un échantillon (x1 , Y1 ), . . . , (xn , Yn ).


Écrire une fonction qui simule le nuage de points correspondant à l’échantillon
précédent pour des points x1 , . . . , xn répartis uniformément sur [0, 1] et la fonc-
tion f définie par f (x) = (1 + x)2 .
2. Écrire un programme qui trace la courbe de régression et qui donne des inter-
valles de confiance de niveau 1 − α pour les paramètres à estimer.
3. Tracer deux régions de confiance de niveau (au moins) 95% pour le couple
(β1 , β2 ) : l’une en forme de rectangle en utilisant les intervalles de confiance
précédents et l’autre en forme d’ellipse.
Un résultat utile pour discuter de la normalité asymptotique d’estimateurs est ce
que l’on appelle la méthode delta :

Lemme 4.3.2 Soit (θbn )n une suite de variables aléatoires telle que pour tout θ ∈ Θ,
L
an (θbn −θ) → Zθ où (an )n est une suite qui croı̂t vers +∞ et Zθ une variable aléatoire
dont la loi dépend de θ. Soit g une fonction à valeurs dans Rq , différentiable sur un
 L 
ouvert contenant Θ, de différentielle notée Dg. On a an g(θbn ) − g(θ) → Dg(θ) Zθ .

Autrement dit, en général, si (θbn )n est de vitesse (an )n , alors (g(θn ))n aussi.
L’ exercice suivant utilise la simulation pour estimer le niveau  réel d’un intervalle
de confiance, c’est-à-dire la valeur de la probabilité P g(θ) ∈ I . Il utilise l’inégalité
de Hoeffding :

Proposition 4.3.3 (Inégalité de Hoeffding) Soient X1 , . . . , Xn des variables aléatoires


telles que P(Xi ∈ [ai , bi ]) = 1 pour tout i. Alors pour tout t ≥ 0 on a
 −2n2 t2
P X n − E(X n ) ≥ t ≤ 2 exp Pn 2
.
i=1 (bi − ai )

Exercice 54 Soit B1 , . . . , Bn un n-échantillon de loi de Bernoulli B(p).


1. On propose l’estimateur B̄n de p. Sur la base de cet estimateur, donnez deux
intervalles de confiance (non asymptotiques) pour p, d’abord en utilisant une
majoration simple de p(1 − p), l’autre par l’inégalité de Hoeffding.
2. Quelle convergence en loi a-t-on pour B̄n − p ? Déduire de cette propriété et du
lemme de Slutsky un intervalle de confiance asymptotique pour p.

3. Montrer grâce  que pour g(x) = 2 arcsin x on a la conver-
√ à la méthode delta
gence en loi n g(B̄n ) − g(p) → N (0, 1). En déduire un nouvel intervalle de
confiance asymptotique pour p.
4. Pour n = 10, 50, 100 et différentes valeurs de p, répéter N = 10000 fois
l’opération suivante : simuler B1 , . . . , Bn , calculer les quatre intervalles ci-
dessus et la proportion, sur les N réalisations, de fois où p est bien dans l’in-
tervalle. On est en train d’estimer la probabilité P(p ∈ I) à partir d’un N -
échantillon de loi binomiale. Quelle précision donne l’expérience ci-dessus ?
5. Estimer le niveau réel des quatre intervalles.

43
MAO Probas-Stats

4.4 Tests d’hypothèses : définitions générales


Nous partons d’un modèle paramétrique P = {Pθ , θ ∈ Θ}, et nous donnons deux
sous-ensembles disjoints Θ0 et Θ1 de Θ. Nous ne supposons pas que Θ0 ∪ Θ1 = Θ.
Nous allons considérer les deux hypothèses suivantes :
H0 : θ ∈ Θ0 H1 : θ ∈ Θ 1 .
On verra toujours H0 comme l’hypothèse a priori, et H1 comme l’hypothèse alterna-
tive. Autrement dit, le test vise “à ne rejeter H0 que si l’on a de bonnes raisons de le
faire”, et le choix des critères de rejet va dépendre de la forme de H1 .

Exemple 5 Dupond et Dupont jouent à pile ou face : pile fait gagner Dupond, face fait
gagner Dupont. A priori, la pile est équilibrée (la probabilité p de faire pile vaut 1/2)
mais les deux policiers se soupçonnent de tricher. Si Dupond veut faire le test, il va
naturellement considérer Hd0 : p = 1/2 contre Hd1 : p < 1/2 (puisque si Dupont
triche, c’est pour gagner). Inversement, si Dupont veut faire le test, il va considérer
Ht0 : p = 1/2 contre Ht1 : p > 1/2. On voit bien que les ensembles Θ0 et Θ1 ne
sont pas complémentaires, ce qui correspond à des hypothèses faites sur le modèle,
hypothèses qu’il va s’agir d’exploiter.

Définition 4.4.1 Un test de H0 contre H1 est une fonction φ(X) à valeurs dans {0, 1},
à laquelle on associe la règle de décision : si φ(X) = 0, on conserve H0 et si
φ(X) = 1, on rejette H0 . On définit les erreurs de première espèce et de seconde
espèce associées :
α: Θ0 → [0, 1]  β: Θ1 → [0, 1] 
θ 7→ Pθ φ(X) = 1 θ 7 → Pθ φ(X) = 0 .
On dit qu’un test est de niveau α si supΘ0 α ≤ α.
Les erreurs de première et seconde espèce caractérisent les probabilités des deux manières
de se tromper : respectivement, rejeter H0 à tort (donc observer φ(X) = 1 alors que
θ ∈ Θ0 ), ou conserver H0 à tort (donc observer φ(X) = 0 alors que θ ∈ Θ1 ). On
appelle puissance du test la fonction 1 − β.

Exercice 55
1. Soit X1 , . . . , Xn un n-échantillon de loi N (m, σ 2 ) avec m et σ inconnus. Don-
ner un estimateur de m, et déterminer sa loi. Définissez un test de H0 : m = m0
contre H1 : m > m0 .
2. Définir une fonction qui, si on lui donne un n-échantillon X1 , . . . , Xn en entrée,
donne le résultat du test.
3. On se place dans le cas m = m0 = 2, α = 5%, et, pour conserver notre
ignorance de σ, on tirera au hasard une valeur dans [1, 2] ; on veut estimer le
niveau réel α(m0 ). On va donc faire N fois l’expérience qui consiste à simuler
n variables de loi N (m, σ 2 ), à appliquer le test à ce n-échantillon et à compter
combien de fois, sur les N , on rejette (à tort) l’hypothèse H0 . Sachant que la
vraie valeur de p = α(m0 ) est de l’ordre de 0, 05, quelle valeur de N choisir
pour avoir un estimation (de niveau de confiance 95%) de p à 0, 01 près ?

44
Tests et estimateurs classiques

4. Implémenter l’expérience ci-dessus, et estimer le niveau réel du test pour différentes


valeurs de la taille n par exemple (5, 10, 50, 100).
5. On veut maintenant estimer la puissance du test. Estimer cette quantité pour
n = 5, 10, 50, 100 et m variant de 2, 1 à 3 par pas de 0, 1. Représenter les
résultats.

4.5 Tests du chi-deux


Le test du χ2 est sans doute l’un des tests les plus connus et les plus courants. Il
permet de tester si un échantillon suit bien une loi donnée (test d’ajustement à une loi),
ou si elle appartient à une famille de lois (test d’ajustement à une famille), ou encore si
des variables sont indépendantes, suivent la même loi inconnue a priori, etc.
4.5.1 Ajustement à une loi
On dispose d’un n-échantillon (X1 , . . . , Xn ) i.i.d. dont les variables sont à valeurs
dans un ensemble fini E = {u1 , . . . , ud }. On formule l’hypothèse H0 que ces variables
suivent une loi fixée pref = (pref
j )1≤j≤d . Ainsi

H0 :Xi ∼ pref ,
H1 :Xi 6∼ pref .

Pour cela, on compare la loi empirique des (Xi )1≤i≤n avec la loi de référence, en
utilisant la méthode des moments. Notons la fréquence empirique
Pn
1lX =u
p̂j,n = i=1 i j .
n
Alors on considère la pseudo-distance suivante, appelée statistique de Pearson :
d 2
X (p̂j,n − pref
j )
Dn2 = n .
j=1
pref
j

On rappelle que la loi du χ2 à k degrés de liberté, notée χ2 (k), est la loi de N12 +
· · · + Nk2 où les Ni suivent des lois normales centrées réduites indépendantes. Sa den-
1
sité est 2k/2 Γ(k/2) xk/2−1 e−x/2 1lx≥0 . Une preuve du résultat suivant est donnée dans
Statistique mathématique en action de Rivoirard et Stoltz ; elle repose sur un théorème
central limite multi-dimensionnel, et sur l’étude des vecteurs gaussiens.

L p.s.
Théorème 4.5.1 Sous H0 , Dn2 → χ2 (d − 1). Sous H1 , Dn2 → +∞.

Par conséquent on définit le test

φ(X1 , . . . , Xn ) = 1lDn2 >cd−1,1−α

où cd−1,1−α est le quantile d’ordre 1 − α de la loi χ2 (d − 1). Ce test est donc de niveau
asymptotique α.

45
MAO Probas-Stats

Exercice 56 Test du chi-deux d’ajustement. Un ordinateur possède un générateur


pseudo-aléatoire de nombres choisis au hasard dans l’ensemble des entiers de 0 à
9. On dispose d’un échantillon de taille N = 1000 de chiffres tirés par ce générateur.
Les résultats sont répartis dans le tableau suivant.

Chiffres 0 1 2 3 4 5 6 7 8 9
Observations 120 87 115 103 91 109 92 112 94 77

1. On veut tester l’hypothèse d’équiprobabilité pour chaque chiffre. Mettre en œuvre


le test du χ2 . Choisissez vous d’accepter l’hypothèse d’équiprobabilité pour
l’échantillon précédent, et si oui pour quel niveau α ?
Le plus grand α pour lequel on conserve H0 est parfois appelé p-valeur ; c’est
une variable aléatoire.
2. Faires de même en remplaçant la table précédente par une table générée via la
fonction random de Python.

4.5.2 Ajustement à une famille de lois


On reprend la même situation, mais cette fois-ci on fixe une famille de lois de
probabilités sur E, notée P = {p(θ), θ ∈ Θ} où Θ est un ouvert de Rk , avec k < d−1.
On teste donc H0 : L(Xi ) ∈ P contre H1 : L(Xi ) 6∈ P.
Pour ce faire, on commence par construire un estimateur  θ̂n deθ par la méthode du
maximum de vraisemblance. On en déduit la loi p(θ̂n ) = pj (θ̂n ) . On construit
1≤j≤d
alors la statistique de Pearson associée à cette loi p(θ̂n ) :

d
X (p̂j,n − pj (θ̂n ))2
D̂n2 = n .
j=1 pj (θ̂n )

Théorème 4.5.2 Si l’application p : θ 7→ p(θ) = (pj (θ))1≤j≤d est injective, de classe


C 2 , qu’aucune de ses composantes ne s’annulent sur Θ, et que ses k dérivées partielles
sont linéairement indépendantes en tout point de Θ, alors sous H0 ,

L
D̂n2 → χ2 (d − 1 − k).

p.s.
De plus, sous H1 , si en plus d(L(Xi ), P) > 0, alors D̂n2 → +∞.

Exercice 57 On considère n couples d’observations (X1 , Y1 ), . . . , (Xn , Yn ), où les


Xi et Yi sont toutes à valeurs dans E = {u1 , . . . , ud }. On suppose de plus qu’elles
chargent tous les points de E. On veut tester l’hypothèse H0 : les Xi sont indépendantes
des Yi , contre H1 l’hypothèse contraire.
Écrire ce problème comme un problème d’ajustement à une famille de lois sur E 2 .
Exprimer l’estimateur du maximum de vraisemblance, puis la statistique de Pearson

46
Tests et estimateurs classiques

associée, en fonction des fréquences empiriques :


n
1X
p̂j1 ,n = 1lX =u ,
n i=1 i j1
n
1X
q̂j2 ,n = 1lY =u ,
n i=1 i j2
n
1X
r̂j1 ,j2 ,n = 1l(Xi ,Yi )=(uj1 ,uj2 ) .
n i=1

En déduire un test de niveau asymptotique α. C’est le test du χ2 d’indépendance.

Exercice 58 Cette fois-ci on dispose de deux échantillons, (A1 , . . . , An ) et (B1 , . . . , Bm ),


toujours à valeurs dans E. Notons α la loi des Ai et β la loi des Bi . On cherche à tester
l’hypothèse H0 : α = β contre H1 : α 6= β.
Montrer que cela revient à un test d’indépendance sur une permutation aléatoire
des n + m couples d’observations (A1 , 1), . . . , (An , 1), (B1 , 2), . . . , (Bm , 2), et donc
qu’on peut se ramener à l’exercice précédent.
C’est le test du χ2 d’homogénéité.

4.6 Texst de Kolmogorov et dérivés


Une autre manière de construire des tests d’ajustement à une loi donnée est d’ex-
ploiter les Théorèmes 2.3.3 et 2.3.4 sur les fonctions de répartition. On explore cette
idée par un exercice.

Exercice 59 Tests de Kolmogorov et de Lilliefors. Soit X1 , X2 , . . . une suite de v.a.


i.i.d, de fonction de répartition F . On suppose que F est continue. Pour tout n, on
définit la fonction de répartition empirique de l’échantillon (X1 , . . . , Xn ) par
n
1X
F̂n (x) = 1lX ≤x .
n i=1 i

On définit la distance de Kolmogorov-Smirnov

Dn = sup |F̂n (x) − F (x)|.


x∈R

On rappelle le Théorème 2.3.4 : n Dn converge en loi vers une loi dite de Kolmogorov-
Smirnov, qui ne dépend pas de la loi des Xk .
1. Soient (X (1) , . . . , X (n) ) les valeurs de l’échantillon dans l’ordre croissant. Mon-
trer que
 
(k) (k)
Dn = max max {k/n − F (X )}, max {F (X ) − (k − 1)/n} .
k=1,...,n k=1,...,n

Ecrire une fonction Dn qui calcule cette quantité pour un échantillon et une
fonction F données.

47
MAO Probas-Stats

2. Illustrer la convergence presque sûre vers 0 de Dn .



3. Illustrer la convergence en loi de nDn vers une limite K. La loi de K est
implémentée dans scipy.stats sous le nom scs.kstwobign.
4. En s’inspirant de cette convergence en loi et du test du χ2 , proposer un test
d’ajustement de la loi de l’échantillon à une loi F0 donnée : quelles sont les
hypothèses H0 et H1 du test, quand rejetez-vous H0 ?
Ce test est appelé test de Kolmogorov.
5. Mettez en oeuvre le test, au niveau asymptotique α = 5%, dans les cas suivants :
• échantillon de loi normale standard avec F0 une loi normale standard,
• échantillon de loi exponentielle avec F0 une loi exponentielle,
• échantillon de loi normale standard avec F0 une loi de Laplace.
6. Le test de Lilliefors est un test de normalité basé sur le test de Kolmogorov-
Smirnov. On considère la statistique

Ln = n sup |F̂n (x) − Φ̂n (x)|,
x∈R

où Φ̂n est la fonction de répartition de la loi N (X̄, S 2 ), avec


n n
1X 1X 2
X̄ = Xk , S2 = Xk − X̄ .
n n
k=1 k=1

Illustrer le fait que Ln converge en loi quand n → ∞ si les Xi suivent une loi
normale, et comparer la limite L avec K. Prouver que Ln tend presque-sûrement
vers l’infini si les Xi ne suivent pas une loi normale.
7. Estimez le 95%-quantile de L et utilisez-le pour proposer un test de normalité
de niveau asymptotique 5%.
Le test de Kolmogorov peut également être modifié en un test d’homogénéité appelé
test de Kolmogorov-Smirnov : on dispose de deux échantillons, X = (X1 , . . . , Xn ) et
Y = (Y1 , . . . , Ym ), et on veut savoir s’ils ont la même loi, sans chercher à connaı̂tre
cette loi. Pour cela, on note F̂n (resp. Ĝm ) leur fonction de répartition empirique
respective, et on calcule Dn,mq= supx∈R |F̂n (x) − Ĝm (x)|. Un résultat analogue
nm
au Théorème 2.3.4 assure que n+m Dn,m converge en loi vers une loi universelle
lorsque n, m → ∞. Il s’agit ensuite d’adapter le test précédent à cette loi.
4.7 Exercice supplémentaire
Exercice 60 Etude de la robustesse 2 d’un test. Soit une suite d’observations X1 , X2 , . . . , Xn
i.i.d. de loi µ. On note X̄ la moyenne empirique et S 2 la variance empirique (version
biaisée) :
n n
1X 1X 2
X̄ = Xt , S2 = Xt − X̄ .
n t=1 n t=1
2. La robustesse d’un test est définie comme la non-sensibilité de la procédure de test à la loi des ob-
servations. Le test asymptotique sur la moyenne fondé sur le TCL est ainsi robuste sur l’ensemble des lois
admettant un moment d’ordre deux.

48
Tests et estimateurs classiques

1. On suppose que µ est une loi gaussienne, de moyenne m et de variance σ 2 .


Quelle est la loi de S 2 ?
2. On pose H0 : σ 2 ≤ 1. Déduire du résultat précédent un test de niveau (exacte-
ment) α.
On se demande maintenant si le test construit précédemment s’étend à des lois non-
gaussiennes, c’est-à-dire, si lorsque µ n’est plus gaussienne, le test précédent (avec la
même statistique de test, avec le même choix pour la zone de rejet) est toujours, au
moins asymptotiquement, de niveau α. On admet pour l’instant les résultats suivants :
• si cn−1,α désigne le α-quantile de la loi du χ2 à n − 1 degrés de liberté, alors
cn−1,α − n
√ √ −→ uα ,
2 n
où uα désigne le α-quantile de la loi gaussienne standard ;
• on a la convergence en loi suivante :
 2


S
n − 1 ; N (0, κ − 1) ,
σ2
où κ désigne la kurtosis de µ, définie par
µ4
κ = 2,
µ2
h i
k
avec, pour k ∈ N, µk = E (X − E[X]) (notez qu’en particulier, µ2 = σ 2 est
la variance de µ.)
3. On note Φ la fonction de répartition de la loi gaussienne.
√ √Prouver qu’asympto-
tiquement, le test précédent est de niveau 1 − Φ(uα 2/ κ − 1) , c’est-à-dire
que
√ !
uα 2
lim sup sup Pσ2 (rejet du test) ≤ 1 − Φ √ .
n σ 2 ≤1 κ−1
On a donc prouvé la non-robustesse contre une modification de la valeur de la
kurtosis.
4. Mettons en évidence cette non-robustesse par voie de simulations. Pour n =
20, estimer par méthode de Monte–Carlo le niveau réel du test proposé à la
question (2), pour α = 5% et µ donné, d’une part par une loi de Laplace, et
d’autre part par un mélange de gaussiennes 0, 95 N (0, 1) + 0, 05 N (0, 9) (il
faut renormaliser ces deux lois pour être dans l’hypothèse nulle).
5. Il faut encore prouver les deux résultats que nous avions admis. Ils découlent
tous deux de la convergence en loi suivante, à démontrer (on note m l’espérance
de µ) :
n
!
√ √ 1 X 2 √ 2
n S 2 − σ2 = n (Xt − m) − σ 2 − n X̄n − m

n t=1

converge en loi vers une N (0, µ4 − µ22 ) .

49
MAO Probas-Stats

50
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 5

Chaı̂nes de Markov

Les chaı̂nes de Markov sont des objets couramment utilisés en simulation, parce
qu’elles apparaissent dans de nombreux R problèmes de modélisation. Un autre intérêt
est l’estimation de quantités du type f dπ, où π est une mesure de probabilité que l’on
ne sait pas bien simuler. Si l’on arrive à construire une chaı̂ne de Markov de probabilité
invariante π, pour lesquels les théorèmes classiques de convergence s’appliquent, alors
la distribution au temps long de la chaı̂ne sera proche de µ.
Il est recommandé de revoir au préalable vos cours sur la théorie générale des
chaı̂nes de Markov, même si nous nous concentrerons sur le cas plus simple des chaı̂nes
à espace d’états finis.

5.1 Simulation et résultats classiques


Les notations utilisées dans l’ensemble du texte seront les suivantes : (Xn )n sera 
toujours une chaı̂ne de Markov de matrice de transition (ou noyau de transition) P (x, y) x,y∈E
sur un ensemble E de cardinal fini d, avec la convention P (x, y) = P(Xn+1 = y|Xn =
x).
Si µ0 = (µ0 (x))x∈E (vu comme un vecteur ligne) est la loi de X0 alors µn = µ0 P n
est la loi de Xn . De même, si f est une fonction sur E (vue comme un vecteur colonne)
alors P f sera la fonction
X 
P f (x) = P (x, y)f (y) = Ex f (X1 ) .
y∈E

On notera Px (resp. Pµ ) les probabilités conditionnelles à X0 = x p.s. (resp. sous


l’hypothèse que X0 suit la loi µ), de même pour Ex (resp. Eµ ).
5.1.1 Trajectoire
Supposons que la matrice de transition est donnée sous la forme d’une liste de listes,
par exemple P=[[1/2,1/3,1/6],[1/3,1/3,1/3],[1/2,0,1/2]]
 1/2 1/3 1/6  pour la
matrice P = 1/3 1/3 1/3 ; notons que c’est bien la forme qu’aura P si on la code
1/2 0 1/2
par une variable np.array, avec par exemple

P=np.array([[1/2,1/3,1/6],[1/3,1/3,1/3],[1/2,0,1/2]]).

51
MAO Probas-Stats

Dans ce cas, et si l’on indexe (suivant l’habitude de Python) les trois sommets comme 0,
1 et 2 alors conditionnellement à Xn = i la variable Xn+1 vaut 0, 1 ou 2 avec des pro-
babilités données par P[i]. On peut alors utiliser la commande rnd.choice(d,p=P[i])
où d est le cardinal de l’espace d’état (ici d = 3).

Exercice 61 Écrivez une fonction Python qui prend en entrée X0 , n et P et simule une
trajectoire (X0 , . . . , Xn ).
Il ressort de l’exercice précédent qu’une chaı̂ne de Markov peut également être
donnée sous la forme Xn+1 = fn (Xn , Un+1 ) où (Un )n est une suite i.i.d. de loi
U([0, 1]) indépendante de X0 .
5.1.2 Irréductibilité
Pour une chaı̂ne de Markov à espace d’états finis, il n’y a pas d’état récurrent nul.
La chaı̂ne de Markov est dite irréductible si pour tous x, y ∈ E, il existe n ∈ N tel
que P n (x, y) > 0. Si ce n’est pas le cas, on peut partitionner E en une union disjointe
de classes, telles que la restriction de P à chacune de ces classes est irréductible ; on
parle de classes irréductibles ; chacune de ces classes est soit entièrement récurrente
soit entièrement transitoire. De plus, la chaı̂ne est presque sûrement capturée par une
classe récurrente. La plupart du temps, en étudiant un peu la chaı̂ne a priori, on pourra
se restreindre à une classe récurrente. Ainsi, les hypothèses de “chaı̂nes de Markov
irréductibles récurrentes” ci-après ne coûtent pas très cher dans ce cas.
5.1.3 Période
Supposons la chaı̂ne irréductible. Sa période est alors

d = pgcd{n > 0 | P n (x, x) > 0}

et ne dépend pas de l’état x ∈ E. La chaı̂ne est dite apériodique si d = 1. C’est par


exemple le cas si P (x, x) > 0 pour un certain x ∈ E.

Remarque 5.1.1 (Apériodicité par perturbation) Soit p ∈]0, 1[, alors la matrice

Pp = (1 − p)P + pI

est apériodique, reste irréductible si P l’était, et possède les mêmes mesures inva-
riantes. Pour la trajectoire de la chaı̂ne, cela revient à choisir avec probabilité p de ne
pas bouger, et ce à chaque étape.
5.1.4 Mesure invariante et théorème ergodique
Si la chaı̂ne est irréductible avec un espace d’états finis, elle est nécessairement
récurrente positive et on sait que dans ce cas il existe une unique mesure de probabilitié
invariante π.

Exercice 62 Écrire une fonction Python qui prend en entrée P que l’on suppose irréductible,
et donne la mesure invariante π de cette chaı̂ne. On utilisera np.linalg.eig, dont
on pourra consulter le fichier d’aide, et np.where. Ne pas oublier que la probabilité
invariante est vecteur propre de la transposée de P et pas de P même, et que la sortie

52
Chaı̂nes de Markov

doit être une probabilité, donc un vecteur à coefficients positifs et dont la somme vaut
1.

Il existe un résultat de type “loi des grands nombres” pour les chaı̂nes de Markov :
c’est le théorème ergodique.

Théorème 5.1.2 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable E.
Si cette chaı̂ne est irréductible et admet une probabilité invariante π, alors pour toute
fonction f sur E intégrable par rapport à π, on a
n Z
1X p.s.
f (Xk ) → f dπ.
n
k=1

Notons que l’irréductibilité assure que la probabilité invariante est unique si elle existe,
et qu’elle existe toujours si E est fini. Ce résultat est démontré par exemple dans Pro-
menade aléatoire de Benaı̈m et El Karoui, ou dans Modélisation stochastique de Bercu
et Chafaı̈.
Notons également que ce théorème ne requiert pas d’apériodicité. Comme on ef-
fectue une moyenne temporelle, les effets de périodicités sont “gommés”.
Il existe également un résultat de type “théorème central de la limite” pour les
chaı̂nes de Markov :

Théorème 5.1.3 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état fini E. Si
cette chaı̂ne est irréductible et qu’on note π sa probabilité invariante, alors pour toute
fonction f sur D, il existe σf2 tel que

n
!

Z
1X L
n f (Xk ) − f dπ → N (0, σf2 ).
n
k=1

Le gros défaut pratique de cet énoncé est que σf n’est défini que de manière implicite,
de sorte que ce résultat ne peut servir pour donner des intervalles de confiance.

Exercice 63 Illustrez les deux théorèmes ci-dessus dans le cas de la chaı̂ne de ma-
trice de transition P ci-dessus et pour f = 1l{0} . La variance σf étant inconnue, on
l’estimera par la variance empirique d’un N -échantillon de Xn pour n assez grand.

5.1.5 Convergence en loi vers l’équilibre


Le Théorème 5.1.2 ne nous dit pas si Xn converge effectivement en loi vers la
mesure invariante π. Et de fait ce n’est pas forcément le cas : imaginons que E est
l’union disjointe de deux sous-ensemble E1 et E2 , et que la chaı̂ne saute à chaque étape
d’un sous-ensemble à l’autre. Alors pour une mesure de départ µ0 = δx où x ∈ E1 , on
aura µn portée par E1 pour les n pairs et par E2 pour les n impairs ; elle ne peut donc
pas converger faiblement 1 . C’est pourquoi le théorème suivant a des hypothèses plus
fortes.
1. On a en fait une convergence de type Césaro.

53
MAO Probas-Stats

Théorème 5.1.4 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable
E. Si cette chaı̂ne est irréductible, récurrente positive et apériodique et qu’on note π
sa probabilité invariante, alors quelle que soit la loi de X0 ,
L
Xn → π.

Dans le cas d’un espace d’états fini, c’est une conséquence du théorème de Perron-
Frobenius.
5.2 Méthodes de Monte-Carlo
Le principe général de la méthode de Monte-Carlo est le suivant : pour toute fonc-
tion f sur E, le théorème ergodique donne (sous ses hypothèses) :
n Z
1X p.s.
f (Xk ) −→ f dπ. (5.1)
n n→∞
k=1
R
On peut donc espérer calculer f dπ en simulant une trajectoire d’une chaı̂ne de
Markov de probabilité invariante π. Notons que c’est différent, que ce soit concep-
tuellement ou numériquement, d’une estimation de cette intégrale E f (X) par une
PN
moyenne empirique n1 k=1 f (X (k) ) pour X (1) , . . . , X (N ) un N -échantillon de X :
• dans l’estimation par la moyenne empirique, on moyenne sur les valeurs de
plusieurs réalisations indépendantes au même temps (on a plusieurs ω, un seul
temps) et on a besoin de savoir simuler X de loi π ;
• dans l’estimation basée sur (5.1), on moyenne sur les valeurs à différents “temps”
d’une seule trajectoire (on a un seul ω, plusieurs temps) et on a besoin de savoir
simuler une chaı̂ne de Markov de probabilité invariante π.
Si l’on sait simuler simplement les transitions d’une chaı̂ne de Markov de probabi-
lité invariante π, alors la deuxième méthode est plus efficace. Notons qu’elle ne sera
intéressante, en particulier, que s’il est moins coûteux numériquement de simuler la
chaı̂ne que de calculer tous les π(x) et de sommer les f (x)π(x), donc plutôt quand on
a une description simple de la dynamique de la chaı̂ne, mais que cette chaı̂ne vit dans
un espace d’état de grande taille. Mais est-ce si simple de construire une chaı̂ne de Mar-
kov (irréductible) de probabilité invariante π ? Nous allons décrire dans la section 5.3
une méthode, dite de Metropolis–Hastings, de simulation d’une chaı̂ne de Markov de
probabilité invariante π.
On ne se pose pas ici la question de la vitesse de convergence, que l’on pourra
traiter par une étude du spectre de la matrice de transition P : puisque lorsque P est
irréductible les constantes sont son seul invariant, on peut (sous certaines hypothèses)
estimer P n f (x) − f dπ en fonction de la valeur propre de P qui a le module le plus
R

grand après 1 (1 est toujours valeur propre, et c’est la plus grande). Nous ne décrirons
pas en détail cette étude spectrale : de toute façon, la méthode se heurte à des calculs
pénibles dès que l’on s’intéresse à des problèmes concrets. Nous exploiterons cepen-
dant l’idée que l’on peut contrôler la vitesse de convergence pour obtenir un algorithme
stochastique de recherche de minima, algorithme appelé le recuit simulé, présenté dans
la section 5.5.

54
Chaı̂nes de Markov

5.3 Algorithme de Metropolis–Hastings


Dans cette section, nous allons donner une méthode permettant de construire une
matrice de transition P qui sera réversible pour une matrice donnée π.
Rappelons la définition de la réversibilité :

Définition 5.3.1 On dit que la matrice de transition P (x, y) x,y est réversible par
rapport à π si pour tous x, y de E on a

P (x, y) π(x) = P (y, x) π(y). (5.2)

Si P est réversible par rapport à π, alors π est invariante pour P . Plus précisément,
l’invariance de π est caractérisée par l’égalité
X X
P (x, y) π(x) = P (y, x) π(y),
y∈E y∈E

donc l’invariance de π par P correspond à l’égalité “en moyenne” de Px,y π(x) alors
que la réversibilité correspond à une égalité terme à terme. Ceci explique que (5.2) soit
aussi appelée la condition de bilan détaillé.
On part d’une probabilité π dont on suppose qu’elle charge tous les points, c’est-à-
dire que π(x) > 0 pour tout x ∈ E, et on suppose donnée une matrice de transition Q,
dite matrice de sélection, qui a la propriété Q(x, y) = 0 ⇒ Q(y, x) = 0. On pose
 
π(y)Q(y, x)
α(x, y) = min 1, (5.3)
π(x)Q(x, y)

avec la convention que α(x, y) = 0 si Q(x, y) = 0.

Lemme 5.3.2 On définit



α(x,
P y) Q(x, y) si x 6= y,
P (x, y) =
1 − y 1ly6=x P (x, y) sinon.

Alors P est un noyau de transition qui est réversible pour π, et irréductible si Q l’est.

La matrice de transition P donnée ci-dessus correspond à un algorithme d’évolution


très simple : si l’on a Xn = x, alors le choix de la valeur de Xn+1 se fait de la manière
suivante :

1. on choisit y suivant la loi Q(x, y) y∈E ,
2. on calcule α(x, y) ;
3. on tire un U de loi U([0, 1]) ;
• si U ≤ α(x, y) alors on accepte la sélection et on choisit Xn+1 = y ;
• sinon on refuse la sélection et on choisit Xn+1 = x.

Exercice 64 Prouvez le Lemme 5.3.2.

55
MAO Probas-Stats

Remarque 5.3.3 Il existe d’autres choix de fonctions α avec les mêmes propriétés, par
exemple
π(y)Q(y, x)
α(x, y) = (5.4)
π(y)Q(y, x) + π(x)Q(x, y)
et α(x, y) = 0 si Q(x, y) = 0. Ce choix a pour avantage d’être toujours apériodique,
mais cela est aussi très souvent le cas pour le choix (5.3) (par exemple dès que α(x, y) <
1 pour certains x, y).
Cet algorithme simple permet donc de simuler une chaı̂ne de Markov qui va être
réversible par rapport à π. On verra que l’estimation des vitesses de convergence est
plus simple pour les chaı̂nes réversibles.

Remarque 5.3.4 On n’a pas besoin d’expliciter la matrice Q : il suffit de savoir définir
un algorithme qui simule la chaı̂ne de transitions données par Q, et de connaı̂tre
les rapports Q(x, y)/Q(y, x). On n’a pas besoin non plus de connaı̂tre explicitement
π(x) : il suffit de connaı̂tre les rapports π(x)/π(y).

Exercice 65 Soit V = (Z/rZ)d un réseau d-dimensionnel. On appelle configuration


de sphères dures sur S une application x : V → {0, 1} telle que x(v) 6= x(v 0 ) si v et
v 0 sont voisins. La situation x(v) = 1 décrit la présence en v d’une “sphère” qui est
assez grosse pour empêcher la présence d’une autre sphère sur les sites voisins (mais
pas sur les sites plus lointains). On note M l’ensemble des configurations de sphères
dures sur V , et π la probabilité uniforme sur M . Le but est de simuler cette distribution
π, ce qui n’est pas évident a priori.
On considère la chaı̂ne de Markov suivante : si Xn = x ∈ M , alors
1. on choisit v uniformément dans V ,
2. si le site v est libre et que les sites voisins ne sont pas tous libres, on ne fait rien,
3. si le site v est occupé, ou qu’il est libre et que tous
 les sites voisins de v sont
libres, on choisit x(v) = 0 ou 1 suivant une B 21 ;
ceci définit la configuration Xn+1 .
Montrez que c’est l’algorithme de Metropolis pour la fonction (5.4), et définit donc
une chaı̂ne de Markov irréductible apériodique de mesure invariante π. P 
En déduire une estimation numérique du nombre moyen de sphères Eπ v∈V x(v)
(en prenant n = 10 000 pour r = 10, d = 2).

5.4 Mesures de Gibbs


Soit V une fonction de E dans R, et T > 0 un paramètre appelé la température.
On appelle mesure de Gibbs (ou de Boltzmann–Gibbs) associée à la fonction V , à la
température T , la probabilité définie par
1 −V (x)/T
πV,T (x) = e , (5.5)
Z
où Z est une constante de normalisation :
X
Z= e−V (x)/T .
x∈E

56
Chaı̂nes de Markov

Les mesures de Gibbs sont fondamentales en physique, et plus particulièrement en


physique statistique où E représente l’espace d’état d’un système physique, x ∈ E une
configuration donnée et V (x) l’énergie de cette configuration. Les mesures de Gibbs
sont alors les lois d’équilibre macroscopique du système 2 , et il est important de pouvoir
les simuler.
L’une des difficultés de la simulation directe des lois de Gibbs réside dans la cons-
tante Z, a prioriRinconnue et dont le calcul est long – ou en tout cas aussi compliqué
que le calcul de f dπV,T – dès que E est de grande taille. C’est là que la Remarque
5.3.4 prend tout son sens. L’algorithme est de plus simplifié par le fait que pour tous
x, y de E,
πV,T (y)
= e−(V (y)−V (x))/T
πV,T (x)
qui ne dépend que des différences V (y) − V (x), en général simples à calculer. Ex-
plicitons dans ce cadre l’algorithme de Metropolis : partant de x ∈ E, l’évolution est
donnée simplement par

1. on choisit y ∈ E suivant la loi Q(x, y) y∈E ;
 
2. on calcule α(x, y) = min 1, Q(y,x)
Q(x,y) e
−∆V (x,y)/T
où ∆V (x, y) = V (y) −
1
V (x) (ou bien, pour la fonction (5.4), α(x, y) = Q(x,y) );
1+ Q(y,x) e−∆V (x,y)/T

3. on tire U de loi U([0, 1]) ;


• si U ≤ α(x, y) alors on accepte la sélection et on choisit Xn+1 = y ;
• sinon on refuse la sélection et on choisit Xn+1 = x.
Le principe de cet algorithme sera plus naturel dans le cas où Q(x, y) = Q(y, x),
comme ce sera le cas dans l’exercice 66 ci-dessous.
Notre premier exercice de vraie simulation concerne l’utilisation
R de la méthode de
Metropolis–Hastings non plus pour estimer une intégrale f dπ mais pour simuler π
(on va donc utiliser le Théorème 5.1.4) dans un modèle simple d’aimant appelé modèle
d’Ising.

Exercice 66 On considère un réseau fini R = {1, . . . , r}2 , qui représente les positions
des atomes dans un bloc de métal. On note a ∼ b si deux sites a et b sont voisins.
Chaque atome a un moment magnétique (une “micro-aimantation”) qui est orienté
soit vers le haut, soit vers le bas : on note σ(a) ∈ {−1, +1} le moment magnétique
(que l’on appelle habituellement  “spin”) en a = (i, j) ∈ R. La configuration du bloc
est donc décrite par σ = σ(a) a∈R et donc l’espace d’états est E = {−1, +1}R .
Pour des raisons physiques, les moments magnétiques différents ont tendance à se
repousser, de sorte que si deux atomes voisins ont des spins différents, l’énergie du
système est plus élevée que s’ils sont alignés — et pour la mesure de Gibbs (5.5), une
énergie plus élevée donne une probabilité plus faible. On suppose en revanche que
R
2. Au sens où les mesures πV,T sont R les mesures π qui maximisent l’entropie S(π) = − log π(x) dπ
sous la contrainte que l’énergie totale V dπ est fixée.

57
MAO Probas-Stats

deux atomes qui ne sont pas immédiatement voisins n’interagissent pas directement
l’un avec l’autre. On modélise ceci en posant
X
V (σ) = − σ(a) · σ(b)
(a,b) | a∼b

où la somme porte sur l’ensemble des couples a, b de R qui sont voisins.
1. On considère la chaı̂ne de Markov de matrice Q dont l’évolution est donnée
comme suit : partant de σ, on choisit a ∈ R uniformément et on renverse le
spin en ce site, sans toucher au reste : on passe en σ 0 vérifiant σ 0 (a) = −σ(a)
et σ 0 (b) = σ(b) pour b 6= a. Si l’on note Q la matrice de transition associée,
a-t-elle la propriété Q(σ, σ 0 ) > 0 ⇒ Q(σ 0, σ) > 0 ? A-t-on une relation plus
précise entre Q(σ, σ 0 ) et Q(σ 0, σ) ?
2. Supposons que dans l’évolution σ → σ 0 ci-dessus, on ait choisi de renverser le
site a. Montrez que
X
∆V (σ, σ 0 ) := V (σ 0 ) − V (σ) = 2σ(a) · σ(b). (5.6)
b | b∼a

Définir une fonction qui calcule la quantité donnée en (5.6) si on lui donne σ
(comme un array Numpy) et a.
3. Reprendre l’algorithme de Metropolis–Hastings, version (5.3), pour Q et πV,T .
Observer que l’évolution est définie simplement comme suit : partant de σ,
• on choisit un site a ∈ R uniformément, et on calcule ∆V (σ, σ 0 ) ;
• si ∆V < 0, on renverse le spin en a ;
• si ∆V ≥ 0, on renverse le spin en a avec probabilité e−∆V /T .
4. Montrer que la chaı̂ne de Markov définie par l’algorithme de Metropolis–Hastings
est irréductible apériodique. Ecrire une fonction qui exploite l’algorithme de
Metropolis pour tirer une configuration de distribution proche de l’état de Gibbs
du modèle ci-dessus.
5. Afficher de telles configuration pour différentes valeur de T , en utilisant la com-
mande matshow de Matplotlib. On pourra prendre les valeurs r = 20, n =
10000 et T = 9, 7, 5, 3, 1.
6. Pour une configuration σ donnée, on peut définir l’aimantation macroscopique
α(σ) = r12 a∈R σ(a). Pour différents tirages aux différentes valeurs de T
P
données, calculez |α(σ)|. La valeur observée indique-t-elle que les spins ont
tendance à s’aligner, ou bien peut-elle être simplement l’effet du hasard ? Pour
répondre à cette question, donnez un intervalle de fluctuation à 95% pour |α(σ)|
dans le cas où σ est obtenu en tirant uniformément, en chaque site, un spin ±1.

5.5 Méthode du recuit simulé


Nous allons maintenant voir un autre intérêt des méthodes de simulation par chaı̂nes
de Markov. Le problème consiste à trouver un minimum de la fonction d’énergie V sur
E. Dans certaines situations c’est très difficile : on traite dans l’exercice 67 un exemple
où ce problème est NP-complet, avec le problème du voyageur de commerce. Notons
Vmin = {x ∈ E | V (x) = inf V }.
E

58
Chaı̂nes de Markov

5.5.1 Algorithme du recuit


Lemme 5.5.1 On a la convergence

def. 1 X
πV,0 = lim πV,T = δx .
T →0 card Vmin
x∈Vmin

Preuve. Soient x, y deux points de E. On a

πV,T (y)
= e−(V (y)−V (x))/T .
πV,T (x)

V,T π (y)
Par conséquent, si V (y) > V (x) alors limT →0 πV,T (x) = 0 donc limT →0 πV,T (y) = 0.
Cela est nécessairement vrai pour tout y 6∈ Vmin . Pour x, y ∈ Vmin on a πV,T (x) =
πV,T (y) pour tout T . 2
On voudrait donc de simuler par l’algorithme de Metropolis-Hastings les mesures
πV,T pour des T de plus en plus petits. On note PT la matrice de transition associée.
Le problème est que le temps de convergence de la chaı̂ne vers sa mesure d’équilibre
est typiquement d’ordre exp C T (on donne quelques éléments de justification dans la
partie 5.5.2). L’idée est donc de diminuer T par paliers, en attedant à chaque fois un
peu plus longtemps.
Plus précisément (voir Théorème 3.3.11 et section 3.3.4 de Promenade aléatoire
de Benaı̈m et El Karoui),on considère une chaı̂ne de Markov obtenue par l’algorithme
de Metropolis à partir d’une mesure de Gibbs associée à un potentiel dont on suppose
qu’il vérifie
Q(x, y) > 0 ⇒ V (x) 6= V (y). (5.7)

Théorème 5.5.2 On suppose que V a la propriété (5.7) et que inf E V > 0. Il existe
une constante C ne dépendant que de V telle que si l’on choisit une suite de températures
(T (n))n données par

1
T (n) = pour eC(k−1) ≤ n < eCk ,
k
alors on a
1 X
lim PT (n) . . . PT (1) f = f (x).
n card Vmin
x∈Vmin

On obtient donc sous les hypothèses du Théorème, que partant de n’importe quel
x ∈ E on atteindra presque-sûrement un minimum de V . Cet algorithme s’appelle le
“recuit simulé”, par analogie avec la technique métallurgique où l’on obtient un métal
durci en le chauffant avant de le laisser refroidir lentement, et ce plusieurs fois.
Une description rapide de cet algorithme est la suivante : on teste des changements
de configuration en les sélectionnant au hasard suivant Q. Si le changement fait bais-
ser V (cas ∆V < 0) alors on accepte la nouvelle configuration. Si le changement fait
augmenter V (cas ∆V > 0), on peut l’accepter ou le refuser, suivant que U ≤ e−∆V /T
ou non. Le premier mécanisme tend à faire diminuer V ; le deuxième évite que l’on se

59
MAO Probas-Stats

retrouve coincé en un minimum local. Le paramètre modifiant la tendance à accepter


un changement défavorable est T (on l’accepte d’autant plus que T est grand) ; choi-
sir T décroissant vers 0 nous assure que l’on finira par se fixer en un minimum, la
décroissance lente doit nous assurer que l’on aura pris assez de risque pour explorer
“toutes” les possibilités avant de se fixer.
Les obstructions techniques sont de deux types :
• on doit choisir un schéma de décroissance par palier dépendant d’une constante
C, mais ce C est difficile à calculer en pratique),
• on a la convergence presque-sûre, mais expliciter la vitesse de convergence est
difficile.
En pratique, il sera facile de voir si l’algorithme converge vers un minimum de V .
En faisant tourner des simulations, on verra si l’algorithme se comporte bien, et en
particulier s’il semble avoir l’une des pathologies suivantes :
• une convergence trop lente, due à un algorithme qui continue trop longtemps à
acccepter les sélections obtenues par Q (ce qui se produit quand la température
décroı̂t trop lentement) ;
• une convergence trop rapide, en général vers un minimum local, due à un algo-
rithme qui se met trop rapidement à refuser les sélections obtenues par Q (ce qui
se produit quand la température décroı̂t trop rapidement).
On aura donc intérêt à jouer à varier la valeur de C. . . ou même à changer de schéma
de décroissance par palier.

Exercice 67 Un voyageur doit visiter r villes, que l’on représente par r points M1 , . . . , Mr
du plan. Sa ville de départ doit être la même que sa ville d’arrivée, mais on sup-
pose (cela simplifie les notations) qu’il peut choisir cette ville aussi. Puisqu’il passera
dans chaque ville une et une seule fois, son parcours est déterminé par une permu-
tation σ de {1, . . . , r}, donc E = Sr . Les villes visitées sont alors, dans l’ordre,
Mσ(1) , Mσ(2) . . . , Mσ(1) La distance entre les villes i et j sont données par d(i, j) ; le
voyageur parcourra donc une distance
r
X
V (σ) = d(Mσ(i) , Mσ(i+1) ) (5.8)
i=1

où l’on considère que r + 1 = 1. On souhaite trouver un itinéraire σ pour lequel


la distance parcourue totale est minimale. Il y a r! itinéraires ; tous les tester serait
beaucoup trop long. On va donc utiliser le recuit simulé.
1. Ecrire une fonction Python qui, pour des variables d’entrée M et sigma qui
sont respectivement une liste de paires de points représentant les coordonnées
(x1 , y1 ), . . . , (xr , yr ) de r points M1 , . . . , Mr du plan et une permutation de
{1, . . . , n}, calcule la distance totale V (σ) telle que définie par la relation (5.8).
2. On considère la transition Q dont l’évolution est la suivante : partant de σ, on
choisit au hasard et uniformément deux points distincts, qui s’écrivent donc σ(i)
et σ(j). Si par exemple on visitait σ(i) avant σ(j) (c’est-à-dire si i < j) alors
on échange σ(i) et σ(j) dans l’itinéraire (par exemple si le couple choisi est 3, 6

60
Chaı̂nes de Markov

alors [2, 3, 1, 4, 6, 5] devient [2, 6, 1, 4, 3, 5]). Montrez que l’évolution en ques-


tion a la propriété Q(σ, σ 0 ) = Q(σ 0 , σ), puis écrivez une fonction qui pour une
variable d’entrée sigma représentant une permutation σ, retourne sigmap
représentant σ 0 définie comme ci-dessus.
3. Pour un T > 0, reprenez l’algorithme de Metropolis–Hastings pour Q et πV,T .
Observez que l’évolution de matrice de transition PT est définie simplement
comme suit : partant de σ,
(a) on modifie l’itinéraire σ en σ 0 comme ci-dessus,
(b) on calcule ∆V = V (σ 0 ) − V (σ) et on simule une uniforme U ∼ U([0, 1]),
(c) si U < e−∆V /T , on sélectionne σ 0 , sinon on conserve σ.
4. Pour les points M1 , . . . , Mr , on tire r points au hasard 3 dans [0, 1]2 . Appliquer
l’évolution ci-dessus avec une température variable suivant le schéma donné
dans le Théorème 5.5.2, en faisant varier la valeur de C. On pourra essayer
aussi avec une variation plus rapide T (n) = C/n et comparer les résultats.
5.5.2 Vitesse de convergence : méthode spectrale
Donnons ici quelques éléments sur la vitesse de convergence de la chaı̂ne PT , qui
sont les résultats sous-jacents au Théorème 5.5.2. L’un des intérêts mathématiques de
l’hypothèse de réversibilité vient du résultat suivant :

Lemme 5.5.3 La matrice P est réversible par rapport à P π si et seulement si elle est
autoadjointe pour le produit scalaire défini par hf, giπ = x∈E f (x)g(x)π(x). Dans
ce cas, ses valeurs propres peuvent s’écrire

1 ≥ v1 ≥ v2 ≥ . . . ≥ vd ≥ −1.

Si de plus P est irréductible, alors 1 = v1 > v2 . Si de plus P est irréductible et


apériodique alors vd > −1.
Sous l’hypothèse que P est irréductible et apériodique alors P n f va tendre vers la
projection de f sur le vecteur propre de P associé à 1. Comme celui-ci est la fonction
R
constante égale à 1 et que la projection est par rapport à h , iπ on a → f dπ.
n→∞
On peut améliorer ce résultat et obtenir une vitesse de convergence en notant ρ =
max(|v2 |, |vd |). Pour toute fonction f sur E on a pour tout n :
Z Z
P n f − f dπ π ≤ ρn f − f dπ π .

En pratique, des calculs plus pénibles que réellement compliqués (voir encore Pro-
menade aléatoire de Benaı̈m et El Karoui) permettent de montrer, pour une chaı̂ne de
Markov obtenue par l’algorithme de Metropolis à partir d’une mesure de Gibbs as-
sociée à un potentiel qui vérifie (5.7), que l’on a une inégalité

ρ ≤ 1 − d−3 e−C(V )/T


3. Si l’on est un peu plus curieux de vraies données, on peut aller récupérer les positions des villes
françaises sur data.gouv.fr

61
MAO Probas-Stats

où d = card E et C(V ) est la fameuse constante qui ne dépend que de V (et en
particulier pas de T ).
Ainsi, partant de n’importe quelle distribution µ, la probabilité µn converge expo-
nentiellement vite vers πV,T – mais avec un taux

1 −C(V )/T
− log(1 − e ) ∼ d−3 e−C(V )/T
d3 T →0

donc qui s’approche rapidement de zéro lorsque T → 0.


5.6 Exercice supplémentaires
Exercice 68 On considère un sous-graphe (G, A) du réseau {1, . . . , 10}3 , donné par
un ensemble de points G et une matrice d’adjacence symétrique √ A. On veut “ranger”
dans cette boı̂te des boules de diamètre R vérifiant 1 < R < 2, de sorte que l’on ne
peut mettre deux boules sur des sites voisins mais qu’il n’y a pas d’autre contrainte.
On veut utiliser le recuit simulé pour trouver une configuration permettant de ranger
le plus grand nombre possible de boules dans la boı̂te. On décrit par x : Λ → {0, 1}
une configuration.
1. Montrez que l’algorithme suivant : partant de x,
(a) on choisit un site s au hasard dans G,
(b) si tous les sites voisins (au sens de l’adjacence dans S) sont libres, on
ajoute une boule en s,
définit une matrice de transition Q vérifiant Q(x, y) = 0 ⇔ Q(y, x) = 0.
2. Montrez que la fonction V définie par

V (x) = 1000 − card{s ∈ Λ | x(s) = 1}

(donc le nombre de sites libres dans la configuration x) vérifie bien pour x 6= y


la relation Q(x, y) > 0 ⇒ V (x) 6= V (y).
3. Appliquez l’algorithme du recuit simulé pour trouver une configuration avec un
nombre maximal de boules. On pourra faire varier le schéma de décroissance de
la température en fonction du comportement observé de l’algorithme. Comme
exemples de (G, A) on pourra partir du réseau cubique {1, . . . , 10}3 et lui en-
lever aléatoirement des arêtes et/ou sommets.

62
Université Paris-Saclay Master 1 mathématiques et applications

Chapitre 6

Martingales

Les martingales sont des processus qui apparaissent quasiment partout en probabi-
lités. Leur étude fournit des outils puissants, notamment pour prouver des résultats de
convergence. Dans ce chapitre nous allons voir qu’elles sont également très utiles en
simulation ; après avoir vu la théorie, on donnera des applications avec les processus
de Galton-Watson.
6.1 Définitions
Dans ce chapitre, on considère un espace de probabilité (Ω, F, P) muni d’une filtra-
tion (Fn )n∈N , c’est-à-dire une suite croissant de sous-tribus de F. Moralement, Fn est
la tribu des événements se produisant avant l’instant n (inclus). Une suite de variable
aléatoires (Xn )n∈N est dite adaptée si pour tout n, Xn est Fn -mesurable.

Définition 6.1.1 Soit (Xn )n∈N une suite adaptée de variables aléatoires réelles intégrables.
On dit que (Xn ) est
• une martingale si pour tout n,
E[Xn+1 | Fn ] = Xn ,

• une sous-martingale si pour tout n,


E[Xn+1 | Fn ] ≥ Xn ,

• une sur-martingale si pour tout n,


E[Xn+1 | Fn ] ≤ Xn .

Une conséquence directe est que la suite des espérances E[Xn ] est constante (resp.
croissante, décroissante) pour une martingale (resp. sous-martingale, sur-martingale).
Lorsqu’on ne précise pas la filtration, on sous-entend qu’on a choisi Fn = σ(X0 , . . . , Xn ).
Ainsi (Xn ) est automatiquement adaptée, et la définition d’une martingale par exemple
devient
E[Xn+1 | X0 , . . . , Xn ] = Xn .

Exemple 6 Si (Xn ) est une suite i.i.d réelle intégrable, alors la suite Sn = X1 + · · · +
Xn est une martingale lorsque E[X1 ] = 0, une sous-martingale lorsque E[X1 ] > 0,
une sur-martingale lorsque E[X1 ] < 0.

63
MAO Probas-Stats

Exercice 69 (Rapport de vraisemblance) Soient µ et ν deux mesures de probabilité


sur R, de densité respective f, g par rapport à la mesure de Lebesgue. On dispose
d’un n-échantillon (X1 , . . . , Xn ), et on cherche à tester l’hypothèse H0 : L(X1 ) = µ
contre H1 : L(X1 ) = ν. Montrer que sous l’hypothèse H0 , la suite des rapports de
vraisemblance
n
Y g(Xi )
Yn =
i=1
f (Xi )

est une martingale pour la filtration Fn = σ(X1 , . . . , Xn ).

Exercice 70 Soit (Xn )n∈N∗ une suite de variables i.i.d de loi normale centrée réduite.
On note Sn = X1 + · · · + Xn , et on fixe t ∈ R. Montrer que

nt2
 
Mn (t) = exp tSn −
2

est une martingale pour la filtration Fn = σ(X1 , . . . , Xn ).

6.2 Quelques résultats de convergence


L’intérêt majeur des (sur-, sous-)martingales est l’existence de nombreux résultats
de convergence. Ces résultats classique sont prouvés par exemple de livre de Bercu et
Chafaı̈, ou encore dans celui de Benaim et El Karoui ; on se contente ici d’en donner
quelques uns.

Théorème 6.2.1 Soit (Mn )n une martingale. Si cette martingale est bornée dans Lp
au sens où supn E(|Mn |p ) < ∞, alors :
• pour p = 1, le processus Mn converge presque-sûrement vers une variable
aléatoire intégrable,
• pour p > 1, le processus Mn converge p.s et dans Lp vers une variable Lp .

Attention à ne pas affirmer la convergence L1 dans le cas p = 1, qui n’est vraie que
sous l’hypothèse supplémentaire que (Xn )n est uniformément intégrable.

Exercice 71 Dans l’exercice 70 (toujours à t fixé), montrer que Mn (t) est bornée dans
L1 . Montrer qu’elle converge p.s. vers 0. Pourquoi cette convergence ne peut avoir lieu
dans L1 ?

Des résultats de convergence p.s. existent aussi pour les sur-martingales et sous-
martingales, sous des hypothèses de positivité.

Théorème 6.2.2 Soit (An )n une sur-martingale positive, alors elle converge presque-
sûrement vers une variable aléatoire A∞ intégrable.
Soit (Bn )n une sous-martingale telle que n E(Bn+ ) < ∞, alors elle converge
P
presque-sûrement vers une variable aléatoire B∞ intégrable.

64
Martingales

Il existe également des résultats de type “loi des grands nombres” et “central limite”
pour les martingales. Ces résultats dépendent de la quantité suivante, appelée processus
prévisible croissant 1 de la martingale (ou simplement processus croissant) :
n
X
E (Mk − Mk−1 )2 | Fk−1 .

hM in =
k=1

On a alors le résultat suivant :

Théorème 6.2.3 (Loi des grands nombres pour les martingales) Soit (Mn )n une mar-
tingale de carré intégrable. Alors :
Mn p.s.
• sur l’événement [limn hM in = ∞], on a hM in → 0,
• sur l’événement [limn hM in < ∞], la suite Mn converge presque-sûrement.

Exercice 72 Prouver la relation (3.1). On pourra appliquer les résultats ci-dessus à


associée à X̃k = Xk −E(X
une martingale P k
k)
, et utiliser
Pn le lemme de Kronecker : si la
n ak
limite limn→∞ k=1 k existe, alors limn→∞ n1 k=1 ak = 0.

Donner une vitesse de convergence en général est un peu pénible. On se contentera de


donner un théorème central limite, qui donne une condition pour avoir une convergence
L
en loi √a1 n Mn → N (0, σ 2 ). On va y retrouver des conditions dites “de Lindeberg”
(3.2) et “de Lyapounov” (3.3).

Théorème 6.2.4 Soit (Mn )n une martingale de carré intégrable, et soit (hM in )n son
processus croissant. On suppose que (an )n est une suite de réels positifs croissant vers
l’infini telle que
hM in P
→`
an
pour un ` ≥ 0 déterministe, et que pour tout  > 0
an
1 X  P
E |∆Mk |2 1l|∆Mk |≥√an | Fk−1 → 0 (6.1)
an
k=1

(où ∆Mk = Mk − Mk−1 ). Alors on a

1 L
√ Mn → N (0, `)
an

et si ` > 0
√ Mn L
an → N (0, `−1 ).
hM in
1. Le mot prévisible signifie que le processus au temps n est Fn−1 -mesurable ; on peut donc
 prédire  ce qu’il va être au temps suivant en ne connaissant que l’histoire jusqu’au temps présent. De
plus il est clairement croissant p.s.

65
MAO Probas-Stats

La condition (6.1) est appelée condition de Lindeberg (sur les accroissements ∆Mk de
la martingale). Elle est vraie s’il existe δ > 0 tel que
n
1 X  P
1+δ/2
E |∆Mk |2+δ | Fk−1 → 0,
an k=1

condition dite de Lyapounov.


Un dernier résultat qui nous sera utile est le théorème de Robbins-Siegmund :

Théorème 6.2.5 (Robbins-Siegmund) Soient (Vn )n , (An )n , (Bn )n trois suites posi-
tives (Fn )-adaptées telles que presque-sûrement V0 est finie et

E(Vn+1 |Fn ) ≤ Vn + An − Bn .
P p.s.
Alors sur l’événement [ n An < ∞], on a Vn → V∞ où V∞ est une variable aléatoire
finie p.s, et de plus, p.s, X
Bn < ∞.
n

6.3 Processus de Galton-Watson


Les processus de Galton-Watson ont été introduits par Galton et Watson en 1874,
pour étudier la question de la disparition éventuelle d’un nom de famille en fonction de
la distribution du nombre d’enfants mâles qu’aura un homme de la famille 2 .
Une formulation générale est la suivante : si Z est une variable aléatoire à valeurs
dans N, on dit que (Xn )n est un processus de Galton-Watson de loi de reproduction Z
si X0 = 1 et
XXn
Xn+1 = Zk,n+1
k=1

où (Zi,j )i,j∈N est une suite de variables aléatoires i.i.d., indépendante de X0 , . . . , Xn
et de même loi que Z. On notera dans tout le texte µ et σ 2 les espérance P0et variance de
Z. Notons qu’en particulier on utilise la convention qu’une somme k=1 vaut zéro,
de sorte que si Xn = 0 alors Xn+1 = 0. On notera également
n
X n
X
Yn = Xk = 1 + Xk
k=0 k=1

la population totale jusqu’à la génération n. Les processus de Galton-Watson sont utiles


pour étudier la question de l’évolution d’une population, aussi bien que le nombre de
malades contaminés par un virus, ou de neutrons émis dans une masse d’atome d’ura-
nium 235. Dans un tel cadre, on s’intéresse naturellement aux questions suivantes :
quelle est la probabilité P(Xn → 0) que la population finisse par s’éteindre ? Si ce
n’est pas le cas, la population Xn va-t-elle rester bornée ou bien exploser ?
2. plus précisément, Galton a posé la question dans le Educational Times en 1873, Watson y a répondu
et ils ont écrit ensemble un article, On the probability of extinction of families en 1874.

66
Martingales

On s’intéresse d’abord à la probabilité d’extinction

q = P( lim Xn = 0) = P(∃n tel que Xn = 0).


n→∞

Cette probabilité s’exprime simplement :

Lemme 6.3.1 Si l’on note qn = P(Xn = 0), alors la suite (qn )n converge et q =
limn qn .

Preuve. Puisque par définition, Xn = 0 implique Xn+1 = 0, la suite d’événements


(Xn = 0)n est croissante, donc la suite (qn )n est croissante et majorée par 1, donc
elle converge. De plus, les valeurs de (Xn )n étant entières, Xn → 0 si et seulement si
Xn = 0 pour n assez grand. On a donc
[
(Xn = 0) = lim P(Xn = 0) = lim qn . 2

q = P( lim Xn = 0) = P
n→∞ n→∞ n
n

On va commencer par étudier une situation où la réponse est simple, en donnant au
passage une identité qui nous servira plus tard.

Exercice 73
1. Montrez l’identité E(Xn+1 |Xn ) = µXn .
2. Déduisez-en que E(Xn ) = µn , où µ = E(Z).
3. Prouvez que P(Xn 6= 0) ≤ µn . Déduisez-en que q = 1 si µ < 1.

Le cas µ < 1 est appelé le cas sous-critique ; on sait déjà que q = 1 si µ < 1.
Dans le cas sur-critique µ > 1, la théorie des martingales va nous donner quelques
informations. Le point 1 nous dit que le processus

Mn = Xn /µn

est une martingale (pourquoi ?).

Exercice 74
1. Montrez que Mn converge presque-sûrement vers une variable aléatoire intégrable
M∞ .
2. Montrez que dans le cas sous-critique, on a M∞ = 0 presque-sûrement. Est-ce
contradictoire avec le fait que E(Mn ) = 1 pour tout n ?
2 σ2
3. Montrez que E(Mn+1 ) = E(Mn2 ) + µn+2 . Montrez que supn E(Mn2 ) < ∞ si et
seulement si µ > 1.
4. Montrez alors que dans le cas sur-critique, Mn converge aussi vers M∞ au sens
L2 , et que M∞ a pour espérance 1 et pour variance σ 2 / µ(µ − 1) .
5. Pourquoi est-il difficile de vérifier la convergence ci-dessus avec un échantillon
de Mn pour n grand ?

67
MAO Probas-Stats

On a donc montré que dans le cas µ > 1 on avait Xn ∼ µn M∞ mais on ne sait pas
si M∞ peut s’annuler, et on n’a pas d’information dans le cas µ = 1. Pour régler ces
problèmes, on va utiliser la fonction génératrice Gn de Xn . Rappelons ce qu’est la
fonction génératrice :

Définition 6.3.2 Soit A une variable aléatoire à valeurs dans N. Sa fonction génératrice
est la fonction notée GA suivante :

GA : [0, 1] → [0, 1]
X
s 7→ E(sA ) = P(A = k) sk .
k

On rappelle quelques propriétés des fonctions génératrices :

Lemme 6.3.3 La fonction génératrice GA d’une variable aléatoire à valeurs dans N


est une fonction convexe. Elle est strictement convexe à moins que P(A ≤ 1) = 1. Elle
vérifie les relations
(k)
GA (1) = 1, G0A (1) = E(A), G00A (1) = E(A2 )−E(A), GA (0) = k! P(A = k).

On suppose à partir de maintenant que P(Z ≤ 1) 6= 1. On note

Gn = GXn et G = GZ .

On a immédiatement, par le Lemme 6.3.3, que qn = Gn (0). Le résultat central concer-


nant q est le suivant :

Lemme 6.3.4 Si µ ≤ 1, alors q = 1. Si µ > 1 alors q est l’unique solution dans [0, 1[
de q = G(q).
Remarquez que 1 est toujours solution de s = G(s).
Preuve. La première étape est prouvée dans l’exercice suivant :

Exercice 75 Montrer que E(sXn+1 |Xn ) = G(s)Xn . Déduisez-en que Gn = G◦n , où
G◦n = G ◦ . . . ◦ G (n fois), puis que qn+1 = G(qn ).
On peut alors utiliser un résultat d’analyse simple :

Lemme 6.3.5 Soit f une fonction convexe, dérivable, de [0, 1] dans [0, 1] avec f (1) =
1. Si f n’est pas la fonction identité, alors pour tout s ∈ [0, 1[, la suite f ◦n (s) n :
• converge vers 1 si f 0 (1) ≤ 1
• converge vers l’unique solution de s = f (s) sur [0, 1[ si f 0 (1) > 1.

Puisque G0 (1) = µ par le Lemme 6.3.3, la preuve est terminée. 2

68

Vous aimerez peut-être aussi