Notes
Notes
Probabilités et Statistiques
Paul Melotti
Basé sur des notes de cours de Yan Pautrat
2
Université Paris-Saclay Master 1 mathématiques et applications
3
MAO Probas-Stats
5 Chaı̂nes de Markov 51
5.1 Simulation et résultats classiques . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Trajectoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.2 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.3 Période . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1.4 Mesure invariante et théorème ergodique . . . . . . . . . . . 52
5.1.5 Convergence en loi vers l’équilibre . . . . . . . . . . . . . . 53
5.2 Méthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Algorithme de Metropolis–Hastings . . . . . . . . . . . . . . . . . . 55
5.4 Mesures de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.5 Méthode du recuit simulé . . . . . . . . . . . . . . . . . . . . . . . . 58
5.5.1 Algorithme du recuit . . . . . . . . . . . . . . . . . . . . . . 59
5.5.2 Vitesse de convergence : méthode spectrale . . . . . . . . . . 61
5.6 Exercice supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . 62
6 Martingales 63
6.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Quelques résultats de convergence . . . . . . . . . . . . . . . . . . . 64
6.3 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . . . . 66
4
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 0
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
import numpy.random as rnd
import scipy.stats as sts
Vous connaissez sans doute déjà les bibliothèques numpy et scipy, qui contiennent
un grand nombre de fonctions mathématiques et de structures de données utiles. Vous
connaissez certainement celle que l’on a nommée plt, qui permet de faire des gra-
phiques.
Le paquet random de numpy que nous avons abrégé en rnd, permet de réaliser des
simulations indépendantes de lois classiques. La syntaxe est particulièrement simple.
Allez voir la page en ligne pour quelques exemples.
Le paquet stats de scipy que nous avons abrégé en sts dans notre préambule,
permet de réaliser des simulations indépendantes de lois classiques, mais aussi d’avoir
accès aux densités, fonctions de répartition, quantiles. . . de ces lois. La philosophie est
un peu plus orientée objet : par exemple, si on travaille avec une variable aléatoire
X de loi N (1, 22 ), taper X=sts.norm(1,2) ne renvoie pas une réalisation mais un
ojet qui représente la variable aléatoire dans sa globablité. Pour avoir une simulation
aléatoire, on pourra taper X.rvs(). Pour connaı̂tre la densité de cette loi en x = 5
on peut faire appel directement à X.pdf(5) (ou à sts.norm.pdf(5,1,2) mais
il faut alors faire attention à l’ordre des variables).
5
MAO Probas-Stats
6
Rappels et commandes Python
7
MAO Probas-Stats
8
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 1
Exercice 2 Soit p ∈]0, 1[. Écrire une fonction qui simule une loi de Bernouilli B(p) à
l’aide de la fontion random.
Une loi discrète est à support dans un ensemble au plus dénombrable.Si on a com-
pris le cas de la variable de Bernouilli, le résultat suivant n’est qu’une généralisation.
P
Proposition 1.1.1 (Simulation canonique de lois discrètes) Soit µ = k∈N pk δxk
une loi sur un ensemble au plus dénombrable {x0 , x1 , . . .}. Soit s−1 = 0 et pour
tout k ∈ N, sk = sk−1 + pk . Soit U une variable aléatoire uniforme sur [0, 1]. Alors la
variable aléatoire X
X= xk 1l]sk−1 ,sk ] (U )
k∈N
suit la loi µ.
9
MAO Probas-Stats
Le programme suggéré par cet exercice ne permet pas a priori de simuler une loi
dont le support est infini dénombrable, comme une loi géométrique par exemple. De
plus, pour certaines lois spécifiques, il peut exister des méthodes plus efficaces. On va
en voir quelques unes.
Proposition 1.1.3 (Simulation de la loi géométrique) Soit p ∈]0, 1[. Si U est une va-
log U
riable aléatoire uniforme sur [0, 1] alors la variable aléatoire b log(1−p) c + 1 suit la loi
géométrique G(p).
Exercice 5 Prouver les Propositions 1.1.2 et 1.1.3. On pourra au choix montrer qu’il
s’agit en fait d’applications de la Proposition 1.1.1, ou utiliser une méthode directe.
Proposition 1.1.4 (Simulation de la loi de Poisson) Soit λ > 0. Si (Un )n∈N∗ est une
suite i.i.d. de variables aléatoires uniformes sur [0, 1] alors la variable aléatoire
Le résultat suivant dit que si l’on sait simuler la loi uniforme sur [0, 1], alors on sait
simuler la loi µ :
Exercice 6
1. Montrer que q ≤ F (x) ⇔ F (−1) (q) ≤ x, et que F ◦ F (−1) (q) ≥ q avec égalité
si et seulement si q ∈ Im F .
2. Soit U ∼ U([0, 1]). Montrer que F (−1) (U ) est une variable aléatoire de fonction
de répartition F .
10
Simulations de variables aléatoires
Remarque 1.2.2 Dans le cas où µ est une loi discrète, le Théorème 1.2.1 se ramène
en fait à la Proposition 1.1.1.
Exercice 7 Appliquez la méthode du Théorème 1.2.1 pour écrire des fonctions permet-
tant de simuler des échantillon de :
1. une loi µ discrète avec µ({xi } = pi (ici l’objectif est de s’apercevoir que le
travail est déjà fait),
2. exponentielle E(λ),
3. de Cauchy C(λ),
4. de Weibull 1 W(a, λ).
Tenter, et échouer, de calculer F (−1) dans le cas où µ est une loi normale.
Proposition 1.3.1 Soit (Xn )n une suite de variables aléatoires indépendantes de loi
µ et B un borélien tel que µ(B) > 0. Soit T le plus petit entier n ≥ 1 tel que Xn ∈ B.
Alors
1. T est une variable aléatoire de loi géométrique de paramètre µ(B),
2. XT est une variable aléatoire indépendante de T ayant pour loi la loi condition-
nelle µ(.|B).
Une application directe de la Proposition 1.3.1 est le tirage uniforme suivant la loi
uniforme sur un Borélien B de Rd , quand on sait effectuer un tirage uniforme sur un
autre Borélien C ⊃ B. En voici un exemple :
1. qui pour a > 0 et λ > 0 a pour densité f (x) = aλxa−1 exp(−λxa )1lR+ (x).
11
MAO Probas-Stats
Exercice 9 Écrire une fonction Python tirant un point uniformément dans le disque
unité D. On pourra utiliser une instruction while. En moyenne, combien de tirages
de l’uniforme sur [−1, +1]2 faut-il pour obtenir un tirage de l’uniforme sur D ?
Cette méthode permet également de simuler des lois à densité. On utilisera pour
cela les deux résultats suivants, parfois appelés théorèmes densité-surface.
Proposition 1.3.2 Soit ν une mesure de probabilité sur (Rd , B(Rd )) admettant une
densité g par rapport à la mesure de Lebesgue. Soit Xν une variable aléatoire de loi ν
et U une variable aléatoire indépendante de Xν , de loi U([0, 1]). Alors la variable
(Xν , U g(Xν )) suit une loi uniforme sur
Lemme 1.3.3 Soit (X, Y ) une variable aléatoire de loi uniforme sur Eg comme ci-
dessus. Alors X suit la loi de densité g par rapport à la mesure de Lebesgue.
Proposition 1.3.4 Soient µ et ν deux mesures de probabilité sur (Rd , B(Rd )) de den-
sités f , g respectivement par rapport à la mesure de Lebesgue, et telles que f ≤ λg
Lebesgue-presque partout, pour un certain λ > 0. Soit (Xn )n une suite de variables
aléatoires indépendantes de loi ν, (Un )n une suite de variables aléatoires indépendantes
de loi uniforme U([0, 1]), et T le plus petit entier n ≥ 1 tel que λUn g(Xn ) ≤ f (Xn ).
Alors
1. T est une variable aléatoire de loi géométrique de paramètre 1/λ,
2. XT est une variable aléatoire de loi µ.
Preuve. La Proposition 1.3.2 montre que (Xn , Un λg(Xn )) est une suite i.i.d. de
loi uniforme sur Eλg . La RProposition 1.3.1 montre à son tour que T suit une loi
f (x) dx
géométrique de paramètre R λg(x) dx = 1/λ, et que (XT , UT λg(XT )) suit une loi uni-
forme sur Ef . Le Lemme 1.3.3 montre que XT suit une loi de densité f par rapport à
la mesure de Lebesgue. 2
La Proposition 1.3.4 donne à nouveau une méthode générale et facilement appli-
cable. Le cas le plus simple est celui d’une densité f sur un intervalle borné de R,
acceptant une borne uniforme, auquel cas on peut choisir g constante. Remarquez que
l’on a intérêt à choisir le λ le plus petit possible (mais respectant, bien sûr, la contrainte
f ≤ λg), puisque E[T ] = λ.
12
Simulations de variables aléatoires
1. Montrer que si X a pour loi N (0, 1), alors |X| suit la loi de densité
r 2
2 x
f (x) = exp − 1lR+ (x).
π 2
Remarque 1.3.5 Une manière de choisir une loi ν facilement simulable et donnant
un λ petit est de polygonaliser le domaine Ef et d’utiliser l’algorithme décrit dans
l’exercice 17.
Ce formalisme correspond au cas où une variable aléatoire Y a pour loi ν, et qu’une
autre variable X a pour “loi conditionnelle à Y = Ry” 2 la loi µy . La loi de X est alors µ :
pour φ une fonction continue bornée, et ψ : y 7→ φ(x) dµy (x), on a :
Z ZZ
E φ(X) = E E(φ(X)|Y ) = E ψ(Y ) = ψ(y) dν(y) = φ(x) dµy (x)dν(y)
R
et cette dernière expression est φ(x) dµ(x), ce qui prouve bien que la loi de X est µ.
Par conséquent, si l’on sait simuler une famille de lois (µy )y sur Rd comme ci-
dessus, et que l’on sait simuler une autre loi ν sur Rd , alors on sait simuler la loi µ
définie par (1.1) : il suffit de simuler Y de loi ν puis, si l’on a obtenu un résultat y, de
simuler la loi µy .
R
2. Au sens où pour tout ϕ mesurable, la variable E(ϕ(X)|σ(Y )) est la fonction y 7→ ϕ(x) dµy (x)
évaluée en Y . Voir par exemple le polycopié de J.-F. Le Gall, “intégration, probabilités et processus
aléatoires”.
13
MAO Probas-Stats
Exercice 12 Cet exercice est lié à un texte d’agrégation écrit par Florent Malrieu.
On suppose qu’une falaise est habitée par quatre espèces de mouettes. Chaque espèce
fabrique un nid dont le diamètre suit une loi N (mi , σi2 ), et les espèces sont en pro-
portions pi , i = 1, . . . , 4. Ecrire une fonction qui simule le résultat d’une observation
aléatoire de nid.
1.5 Exercices
Exercice 14 Si B1 , . . . , Bn sont des variables de Bernoulli indépendantes de loi B(p),
la variable B1 + . . . + Bn suit une loi binomiale B(n, p). Utiliser ce résultat pour
donner une fonction qui simule une loi binomiale de paramètres n et p.
sont indépendantes et de même loi N (0, 1). En déduire une fonction qui simule un
échantillon (X1 , . . . , Xn ) de variables aléatoires i.i.d. de loi N (0, 1).
Exercice 17 Comment peut-on simuler une variable de loi uniforme dans un pavé
[0, r1 ] × . . . × [0, rd ] de Rd ? On poursuit avec le cas d = 2. Dans ce cas, com-
ment simuler une variable de loi uniforme dans un rectangle quelconque, de som-
mets A = (a1 , a2 ), B = (b1 , b2 ), C = (c1 , c2 ), D = (d1 , d2 ) ? Comment simuler
une variable de loi uniforme dans un triangle rectangle de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? et dans un triangle quelconque de sommets A = (a1 , a2 ),
B = (b1 , b2 ), C = (c1 , c2 ) ? Programmez une fonction qui, en fonction des variables
d’entrée A,B,C, effectue ce tirage.
À partir de cette méthode et d’un algorithme de découpage d’un polygone en tri-
angles, on peut construire une fonction permettant de tirer des lois uniformes sur un
polygone quelconque. Ceci peut être très utile pour accélérer des méthodes par rejet.
14
Simulations de variables aléatoires
xn = (axn−1 + b) mod m
xn = (axn−1 + b) mod m
a pour période m.
Exercice 19 Produire des triplets (a, b, m) vérifiant les hypothèses avec m arbitraire-
ment grand.
3. Il est aussi possible de générer de l’aléatoire par des processus physiques, en mesurant des fluctuations
de température ou de tension par exemple. On ne parlera pas de ces méthodes ici.
4. Ainsi, si on lance le même programme sur deux ordinateurs différents avec la même seed, on obtiendra
la même suite pseudo-aléatoire. Cela peut être pratique pour reproduire des résultats. Si au contraire on veut
que la suite soit toujours différente (ou presque), on peut choisir une seed différente à chaque fois, par
exemple l’heure du système en ms.
15
MAO Probas-Stats
C’est déjà un bon point : on peut produire des suites de période maximale, grâce à
une récurrence très simple à calculer. On a donc une certaine équirépartition, mais cela
n’empêche pas qu’il y ait des fortes corrélations, par exemple entre xi et xi+1 ...
xn = (axn−r + b) mod m
et l’on doit désormais choisir r valeurs initiales (ou bien les générer à partir d’une seule
graine x0 et d’une méthode de congruence simple).
Exercice 21 Tracer 256 points (xi , xi+1 ) pour la méthode de congruence avec retard
avec m = 256, a = 5, b = 1, r = 6. On calculera les termes x0 , . . . , x5 à l’aide d’une
congruence simple avec m = 8, x0 = 1, a = 5, b = 1.
Il existe bien d’autres méthodes de génération pseudo-aléatoire (méthode du carré
médian, de congruence avec mélanges, de l’inverse, de registre à décalage, ou même
basées sur des calculs rapides de décimales de nombres comme π...). Leur étude est
souvent assez délicate et il n’est pas évident de répérer leurs défauts potentiels au pre-
mier coup d’œil. Il est judicieux de les soumettre à des tests statistiques pour évaluer
leur qualité, comme le test du χ2 . On aura l’occasion d’effectuer de tels tests en TP.
16
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 2
2.1 Rappels
Dans cette section, on rappelle sans preuve 1 les définitions et propriétés fondamen-
tales des modes de convergence pour des suites de variables aléatoires. Dans toute cette
section, (Xn )n , (Yn )n , etc. représenteront des suites de variables aléatoires. Suivant
les cas, les variables Xn correspondant à différentes valeurs de n vivront sur différents
espaces de probabilité (Ωn , Fn , Pn ), ou au contraire sur un même espace (Ω, F, P).
Toutes les variables considérées sont à valeurs dans un espace Rd muni d’une norme
k · k (dont le choix importe peu : toutes ces normes sont équivalentes). On rappelle
d’abord les définitions générales :
P( lim Xn = X) = 1.
n→∞
• une suite (Xn )n de variables aléatoires sur (Ω, F, P) converge en norme Lp (où
p ≥ 1) vers une variable X, également sur (Ω, F, P), si
1. Vous trouverez des preuves de ces résultats dans votre livre favori de probabilités, et des contre-
exemples à “toutes” les autres implications dans le livre Counterexamples in probability de Stoyanov.
17
MAO Probas-Stats
• une suite de variables aléatoires (Xn )n sur (Ωn , Fn , Pn ) converge en loi vers
une variable X sur (Ω, F, P), si pour toute fonction continue bornée ϕ sur Rp ,
lim E ϕ(Xn ) = E ϕ(X) .
n→∞
p.s. P Lp L
On note →, →, →, → respectivement ces quatre modes de convergence.
Remarque 2.1.2 La convergence en loi peut donc s’énoncer pour des variables vivant
sur des espaces de probabilité différents puisque la convergence concerne la loi des
variables et non les variables elles-mêmes.
On rappelle maintenant les relations générales entre ces différents modes de conver-
gence, qui sont résumées par la Figure 2.1.
Lq
q≥ p
p.s.
Lp
p≥ 1
suite extraite
(X np)n u.i.
limite constante
loi
Proposition 2.1.3
1. La convergence presque-sûre implique la convergence en probabilité,
2. la convergence Lq implique la convergence Lp si q ≥ p, et la convergence en
probabilité,
3. la convergence en probabilité implique la convergence en loi,
4. la convergence en loi d’une suite (Xn )n vers une constante c implique la conver-
gence en probabilité vers c
5. la convergence en probabilité implique la convergence presque-sûre d’une suite
extraite,
18
Convergence des variables aléatoires
Rappelons qu’une suite (Xn )n est uniformément intégrable (ou u.i.) si et seulement
si elle vérifie l’une des deux conditions équivalentes suivantes :
Il est immédiat que s’il existe Y intégrable telle que pour tout n, on a |Xn | ≤ Y p.s.
alors (Xn )n est u.i.
Ces résultats sont utiles si on les combine avec la proposition suivante, puisqu’ils per-
mettront de discuter par exemple la convergence de (Xn + Yn )n si l’on suppose la
convergence de (Xn )n et de (Yn )n :
Lemme 2.1.5
p.s. p.s. p.s.
• Si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ),
P P P
• si Xn → X et Yn → Y alors (Xn , Yn ) → (X, Y ).
Remarque 2.1.6 Pour la convergence en loi, il n’y a pas de résultat aussi simple, et en
L L L L
particulier Xn → X et Yn → n’implique pas Xn +Yn → X+Y , ni Xn ×Yn → X×Y .
La raison en est que la loi de X + Y , par exemple, ne dépend pas que des lois de X et
de Y mais de la loi du couple (X, Y ). Considérez par exemple Xn ∼ 12 δ−1 + 12 δ+1
L L
et Yn = −Xn , auquel cas Xn → X1 , Yn → X1 mais Xn + Yn = 0 ne converge pas
en loi vers 2X1 .
L L
Lemme 2.1.7 (lemme de Slutsky) Si Xn → X et Yn → c où c est une constante,
L
alors (Xn , Yn ) → (X, c).
19
MAO Probas-Stats
20
Convergence des variables aléatoires
Exercice 22 Soit (Rn )n∈N une suite i.i.d. de variables de Rademacher P(R0 = ±1) =
1/2. Pour un a ∈] − 1, +1[ fixé on pose
Xn = a0 R0 + . . . + an−1 Rn−1 .
Proposition 2.3.1
• Si (Xn )n est une suite de variables aléatoires à valeurs dans un ensemble dis-
cret D, alors (Xn )n converge en loi si et seulement
P si pour tout d ∈ D, la limite
µd = limn→∞ P(Xn = d)n existe et que d µd = 1. Dans ce cas, la loi limite
est portée par D et décrite par les µd .
• (Lemme de Scheffé) Si (Xn )n est une suite de variables aléatoires de densités
(fn )n , et que la suite (fn )n converge en tout point vers f , alors (Xn )n converge
en loi, vers une loi de densité f .
Remarquons bien que le lemme de Scheffé ne donne qu’une condition suffisante. Au-
trement dit un tracé de densités ne permettra de conjecturer que la convergence en loi,
et pas la non-convergence en loi.
Dans la suite, nous parlerons principalement de la méthode par les fonctions de
répartition empiriques, qui a deux avantages notables : elle fonctionne dans tous les
cas où l’on travaille avec des variables réelles, et elle est simple à coder.
Proposition 2.3.2 Soit (Xn )n une suite de variables aléatoires réelles. Alors on a
L
Xn → X si et seulement si FXn (t) → FX (t) pour tout t point de continuité de
FX .
Utiliser le résultat ci-dessus suppose de connaı̂tre la loi de X. Si tout ce que l’on ob-
serve est une convergence ponctuelle de (FXn )n vers une fonction F , alors on n’a pas
forcément convergence en loi : il faut en plus que F tende vers 0 en −∞ et vers 1 en
21
MAO Probas-Stats
+∞, ce qui n’est pas forcément facile à identifier. Dans ce cas, F sera la fonction de
répartition d’une unique loi.
Remarquons que même si l’on arrive à simuler Xn , on n’a pas forcément immédiatement
accès à FXn . Pour approximer cette fonction, on utilisera le théorème de Glivenko-
Cantelli :
Ce théorème, s’il est un peu pénible à démontrer, est essentiellement une application de
la loi des grands nombres. Pour avoir une bonne estimation de FY , encore faut-il choi-
sir N assez grand. Une estimation peut être donnée par le théorème de Kolmogorov-
Smirnov :
On reconnaı̂t un théorème universel, comme le théorème central limite : la loi limite est
la même quel que soit Y . Comme la loi de Kolmogorov-Smirnov est intégrable √ (elle a
même des moments de tous ordres), le sup en question est de l’ordre de 1/ N . Ainsi,
si on veut approcher FY uniformément sur un segment avec précision , on prendra N
d’ordre 1/2 .
Par ailleurs, le théorème de Kolmogorov-Smirnov fournit des tests efficace pour
savoir si un échantillon suit bien une loi Y donnée, ou encore si deux échantillons
suivent la même loi (de loi possiblement inconnue).
Exercice 23 Soit (Xn )n une suite de variables i.i.d. suivant une loi qui admet deux
premiers moments, et que vous savez simuler. Illustrez le théorème de la limite centrale.
Exercice 24 Dans l’exercice 22 montrez que les trois suites (Xn )n , (Xn0 )n , (Xn00 )n
convergent en loi et illustrez cette convergence.
k−1 e−2k2 x2 .
P∞
2. Sa fonction de distribution est P(K ≤ x) = 1 − 2 k=1 (−1)
22
Convergence des variables aléatoires
Exercice 25 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :
Tn = inf k tel que #{Y1 , . . . , Yk } = n .
Écrire une fonction Python simulant Tn ; on pourra utiliser la structure de données ap-
pelée set (qui représente donc un ensemble). Expérimentez pour voir si Tn /(nα logβ n)
semble converger en loi, pour des valeurs simples de α, β.
23
MAO Probas-Stats
Il n’y a pas de bonne réponse à ces problèmes ; nous verrons quelques outils plus tard
dans le cours. En pratique on pourra souvent illustrer une autre forme de convergence
plutôt qu’une convergence Lp : si par exemple on suppose les (Xn )n à valeurs dans
[a, b] alors l’inégalité de Hoeffding permet de répondre de manière satisfaisante aux
L1
deux points ci-dessous, mais alors (Xn )n est uniformément intégrable et, donc Xn →
p.s. P L
X équivaut à Xn → X ou à Xn → X, qui équivaut à Xn − X → 0. Remarquons par
ailleurs qu’il est nécessaire de savoir simuler X (ou en tout cas Xn −X) pour appliquer
ces méthodes.
Exercice 26 Soit (Sn )n une marche aléatoire symétrique sur Z et Xn = 1lSn =0 . Mon-
L1 p.s.
trer que Xn → 0, et rappeler pourquoi que Xn → 6 0. Essayez d’illustrer la conver-
gence L1 par la méthode décrite ci-dessus (avec un N fixé a priori pour toutes les
valeurs de n entre 1 et nmax ).
2.6 Exercices
Exercice 27 Dans les cas suivants, démontrer et illustrer les convergences ou absences
de convergence proposées.
L
1. Si Xn ∼ B(n, nλ ) avec λ ∈ R+ , alors Xn → P(λ).
Pn
2. Si les (Xn )n∈N sont i.i.d. avec X0 ∼ B 21 , et si Yn = k=0 Xk 2−k , alors
p.s.
Yn → U([0, 1]).
Que dire si X0 ∼ B(p) où p ∈ [0, 1] ?
P L1 p.s.
3. Si Xn ∼ B n1 , alors Xn → 0, Xn → 0, mais Xn 9 0. Et pour nXn ?
24
Convergence des variables aléatoires
temps correspondant. Montrer (par la simulation) que pour tout ρ ∈]0, 1[ il existe deux
T (ρ) −m n L
constantes mρ et σρ2 pour lesquelles n√ 2 ρ → N (0, 1).
σρ n
Pour cela, on commencera par observer que E(Tn ) et var(Tn ) sont approximati-
vement linéaires en n. On pourra alors estimer les coefficients mρ et σρ2 à partir de
(ρ)
moyenne et variance empiriques de Tn pour n assez grand.
25
MAO Probas-Stats
26
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 3
converge en loi”,
Tous les livres classiques de probabilités discutent loi des grands nombres et théorème
central limite, mais tous ne discutent pas leurs variantes. Une lecture très intéressante
sur ces points se trouve sur le blog de Terence Tao https://terrytao.wordpress.
com (chercher “275A probability theory” ; il y a six chapitres au total, “Notes 0” à
“Notes 5”).
3.1 Lois des grands nombres
Dans toute la suite, on considère une suite de variables aléatoires (Xn )n∈N∗ . On
notera
Sn = X1 + . . . + Xn
Un résultat de loi des grands nombres concerne la convergence de Sn /an vers une
constante (en général an = n mais pas toujours, voir l’exercice 34). On parlera de loi
forte pour un résultat de convergence presque-sûre, et de loi faible pour un résultat de
convergence en probabilité.
Le résultat le plus classique est la loi forte des grands nombres :
Théorème 3.1.1 (Kolmogorov) Soit (Xn )n une suite i.i.d. de variables aléatoires.
Alors la suite (X̄n )n converge p.s. si et seulement si X1 ∈ L1 , et alors la limite est
E(X1 ).
La démonstration n’est pas évidente, mais il faut savoir traiter des cas où les hypthèses
sont plus fortes :
27
MAO Probas-Stats
Exercice 31 Comment se comporte (au sens presque-sûr) Sn /n quand les (Xn )n suivent
des lois de Cauchy ? et au sens de la convergence en loi ? Conjecturer le résultat par si-
mulation, puis le prouver (indication : la fonction caractéristique de X1 est t 7→ e−|t| ).
Notons qu’il existe un analogue faible qui permet d’affaiblir l’hypothèse 3 :
Théorème 3.1.2 Soit (Xn )n une suite i.i.d. de variables aléatoires. Alors la suite
1
n (Sn −nE(X1 1l|X1 |≤n ) n converge en probabilité si et seulement si limt→∞ P(|X1 | ≥
t) = 0.
Pour ce qui est d’affaiblir l’hypothèse 1, le théorème des trois séries de Kolmo-
gorov (encore lui) montre que si les les (Xn )n sont indépendantes et toutes de carré
intégrable,
n
1X X var Xn p.s.
si E(Xk ) → µ et <∞ alors X̄n → µ. (3.1)
n n
n2
k=1
Ce résultat est une conséquence des lois des grands nombres pour les martingales, que
nous aborderons au chapitre 6.
28
Grands théorèmes de convergence
Théorème 3.1.3 (Etemadi) Soit (Xn )n une suite de variables aléatoires deux à deux
indépendantes. Alors la suite (X̄n )n converge presque-sûrement si et seulement si
X1 ∈ L1 , et alors la limite est E(X1 ).
Des méthodes “à la main” permettant d’affaiblir l’hypothèse 2 peuvent être obte-
nues — quitte à renforcer un peu les hypothèses — en utilisant la méthode des mo-
ments, comme on l’a fait dans l’exercice 30. En voici quelques exemples.
Exercice 33 On fabrique une suite (Vn , En )n∈N∗ de graphes aléatoires dits de Erdös–
Rényi de la manière suivante :
• l’ensemble des sommets Vn est {1, . . . , n},
• chaque {a, b} (où a 6= b) est une arête du graphe avec probabilité 1/2, et
indépendamment des autres arêtes.
Écrire une fonction Python simulant un tel graphe ; on pourra pour cela coder le
graphe par sa matrice d’adjacence.
Montrer que #En / ( n2 ) converge presque-sûrement vers 1/2.
Exercice 34 Soit (Yk )k une famille i.i.d. de variables de loi uniforme sur {1, . . . , n}.
On note Tn le premier instant où les Y ont pris toutes les valeurs possibles :
Tn = inf k tel que #{Y1 , . . . , Yk } = k .
29
MAO Probas-Stats
Théorème 3.2.1 Si (Xn )n est une suite i.i.d. de carré intégrable, alors
Sn − nE(X1 ) L
√ → N 0, var(X1 )
n
La preuve la plus courante et la plus courte utilise les fonctions caractéristiques
ΦZ : R → C
t 7 → E(eitZ )
et le théorème de Lévy-Cramér. Cette preuve est la plus courte mais elle n’est pas celle
qui s’étend le plus facilement. Une autre méthode de preuve du théorème de la limite
centrale passe par les moments. Elle utilise le résultat suivant : si une suite de variables
aléatoires (Yn )n vérifie E(Ynp ) → E(Z p ) pour tout p ∈ N, où Z ∼ N (0, 1) alors
L
Yn → Z (et on peut remplacer ici N (0, 1) par toute loi “déterminée par ses moments”,
i.e. qui est la seule avec les moments donnés — et c’est le cas de la loi normale).
Pour la culture, on donne une généralisation du Théorème Central Limite 3.2.1, qui
consiste à sommer des variables différentes pour chaque n, comme on l’a fait dans les
exercices 32,33,34.
et
Kn
1 X L
X̃n,k − E(X̃n,k ) → N (0, 1).
σ̃n
k=1
30
Grands théorèmes de convergence
Remarque 3.2.3
• On retrouve le résultat standard donné par le Théorème 3.2.1 en prenant X̃n,k = Xk .
• La condition (3.2) est appelée “condition de Lindeberg”.
PKn Elle signifie qu’aucun
Xn,k ne joue un rôle prédominant dans la somme k=1 X̃n,k − E(X̃n,k ) .
Remarque 3.2.4 Une condition suffisante pour (3.2) est qu’il existe δ > 0 tel que
Kn
1 X
lim E(|X̃n,k − E(X̃n,k )|2+δ ) = 0. (3.4)
n→∞ σ̃n2+δ k=1
Théorème 3.2.5 (Berry-Esséen) Soit (Xn )n une suite de variables aléatoires i.i.d.
admettant des moments d’ordre 3. On note Fn la fonction de répartition de Zn =
Sn −nE(X1 )
√ et F la fonction de répartition de N (0, 1). Alors
n var(X1 )
Cρ
sup Fn (x) − F (x) ≤ √
x∈R σ3 n
où C ' 0, 4748 est une constante universelle et ρ = E |X1 − E(X1 )|3 .
1. facile à montrer si l’on connaı̂t les moments d’ordre 3 et 4 de Gp .
31
MAO Probas-Stats
Ce résultat exprimé
en termes
de fonctions de répartition donne en fait une estimation
de E φ(Zn ) −E φ(Z) (où Z ∼ N (0, 1)) pour toute fonction suffisamment régulière,
via les identités
Z Z
E φ(Zn ) = φ0 (t) 1 − Fn (t) dt E φ(Z) = φ0 (t) 1 − F (t) dt
Un autre raffinement du Théorème Central Limite consiste à étudier les écarts re-
cords de Sn −nE(X
√
n
1)
. Le théorème suivant montre moralement qu’ils prennent des va-
leurs de l’ordre de log log n une infinité de fois.
Théorème 3.2.6 (Loi du log itéré) Soit (Xn )n une suite i.i.d. de carré intégrable, et
1
Vn = √ Sn − nE(X1 ) .
2n log log n
Alors presque-sûrement
p p
lim sup Vn = + var(X1 ) lim inf Vn = − var(X1 ).
n→∞ n→∞
Mn = max Xk
k=1,...,n
32
Grands théorèmes de convergence
Nous n’allons pas démontrer ce résultat mais l’illustrer dans des cas correspondant à
différentes situations.
33
MAO Probas-Stats
2. En déduire que
1
log P(X̄n ≥ x) ≤ − sup(xt − φ(t)).
n t>0
Théorème 3.4.1 (Cramér-Chernov) Soient (Xn ) des variables réelles i.i.d, et X̄n =
1
n (X1 + · · · + Xn ). Pour t ∈ R on note φ(t) = log E[exp(tX1 )], et pour x ∈ R,
34
Grands théorèmes de convergence
pour x ∈ [0, 1], et +∞ ailleurs. Combien d’essais faut-il effectuer pour estimer cor-
rectement la probabilité P(X̄n ≥ x) ? Tracer la fonction I et dire pourquoi cette pro-
babilité est difficile à estimer empiriquement, à part pour des x très proches de p.
35
MAO Probas-Stats
36
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 4
4.1 Estimateurs
Nous commençons par rappeler les définitions générales. Tout au long du chapitre
on garde la notation X̄n pour la moyenne empirique X1 +···+X
n
n
d’une suite de variables
aléatoires.
4.1.1 Définitions
Définition 4.1.1 Un modèle paramétrique est une famille de probabilités indexées par
un paramètre θ ∈ Θ, où Θ ⊂ Rd : P = {Pθ , θ ∈ Θ}. Le modèle est dit identifiable si
θ 7→ Pθ est injective.
Si X est une variable aléatoire dont la loi appartient à un tel modèle paramétrique P,
une statistique Z est une variable X-mesurable (donc de la forme ϕ(X)) ; cette statis-
tique est un estimateur d’un paramètre g(θ) si presque-sûrement Z ∈ g(Θ).
Souvent, le modèle dépendra d’un paramètre n : il s’agira souvent d’un modèle de n
réalisations i.i.d. (il sera alors noté P ⊗n car ses élements sont de la forme P⊗n
θ ) mais
pas forcément, voir l’exemple ci-après.
Exemple 1
• Si X1 , . . . , Xn est un n-échantillon de loi normale N (m, σ 2 ) avec m, σ 2 incon-
nus, alors le modèle naturel associé est
P ⊗n = {P⊗n 2
m,σ 2 | (m, σ ) ∈ R × R+ }
37
MAO Probas-Stats
r(θ) = Eθ (Z − g(θ))2
b(θ) = Eθ (Z) − g(θ)
(où, dans les deux cas, Eθ est l’espérance par rapport à Pθ ) qui sont appelés respecti-
vement le biais de Z et son risque quadratique.
n n
!2 n
1X 2 X 1X 2
ŝ2n = X − Xi = Xi − X̄n .
n i=1 i i=1
n i=1
n 2
Montrer qu’il est fortement consistant mais biaisé. Montrer que n−1 ŝn est sans biais.
38
Tests et estimateurs classiques
a ab
E(X) = var X = .
a+b (a + b)2 (a + b + 1)
On en tire
E(X)(1 − E(X)) E(X)(1 − E(X))
a = E(X) −1 b = (1−E(X)) −1 .
E(X 2 ) − E(X)2 E(X 2 ) − E(X)2
Ces estimateurs sont fortement consistants d’après la loi des grands nombres.
Exercice 46
• Montrez que Z1 dans l’exercice 44 ci-dessus aurait pu être trouvé par la méthode
des moments.
• Soit P1 , . . . , Pn un n-échantillon de loi de Poisson de paramètre λ. En utilisant
les formules pour l’espérance et la variance de cette loi, proposer deux esti-
mateurs de λ différents. Ces estimateurs sont-ils biaisés ? Sont-ils consistants ?
Tenter de les comparer par simulation (on pourra se limiter à λ ∈ Λ = [1, 3]).
4.1.3 Méthode par insertion
La méthode par insertion est similaire : si g(θ)
s’écrit comme une fonction d’un
autre paramètre h(θ), par exemple g(θ) = ψ h(θ) , et que l’on connaı̂t un estimateur
Zh de h(θ), on propose ψ(Zh )pour estimateur de g(θ).
39
MAO Probas-Stats
• que θ 7→ log fθ est deux fois continûment dérivable en µ-presque tout point, et
de carré intégrable.
40
Tests et estimateurs classiques
Exercice 48 Pour une observation X dont l’ensemble des lois possibles est formé par
les lois de Poisson de paramètre θ ∈ R∗+ , calculer la fonction d’information de Fisher.
On dispose maintenant d’un n-échantillon (X1 , . . . , Xn ) de loi P(θ). Que devient
la fonction I(θ) ?
On propose comme estimateur de θ la moyenne empirique X̄n . Pourquoi est-il sans
biais ? Calculer son risque quadratique et le comparer à la borne de Cramér-Rao.
où φ est une fonction mesurable à valeurs dans R+ et a, h, b des fonctions mesurables
à valeurs dans R.
où I1 (θ) est l’information de Fisher associée à P (donc à une seule variable X1 ).
41
MAO Probas-Stats
Supposons qu’une suite d’estimateurs (Zn )n est de vitesse (an )n , c’est à dire que
L
an (Zn − θ) → loi limite.
Alors si l’on note qα/2 , q1−α/2 les quantiles de la loi limite que l’on suppose que ce ne
sont pas des atomes 1 , on a immédiatement un intervalle de confiance asymptotique de
niveau 1 − α :
qα/2 q1−α/2
In = Zn + , Zn +
an an
Y = β1 f (x) + β2 + ε, ε ∼ N (0, σ 2 ),
42
Tests et estimateurs classiques
Lemme 4.3.2 Soit (θbn )n une suite de variables aléatoires telle que pour tout θ ∈ Θ,
L
an (θbn −θ) → Zθ où (an )n est une suite qui croı̂t vers +∞ et Zθ une variable aléatoire
dont la loi dépend de θ. Soit g une fonction à valeurs dans Rq , différentiable sur un
L
ouvert contenant Θ, de différentielle notée Dg. On a an g(θbn ) − g(θ) → Dg(θ) Zθ .
Autrement dit, en général, si (θbn )n est de vitesse (an )n , alors (g(θn ))n aussi.
L’ exercice suivant utilise la simulation pour estimer le niveau réel d’un intervalle
de confiance, c’est-à-dire la valeur de la probabilité P g(θ) ∈ I . Il utilise l’inégalité
de Hoeffding :
43
MAO Probas-Stats
Exemple 5 Dupond et Dupont jouent à pile ou face : pile fait gagner Dupond, face fait
gagner Dupont. A priori, la pile est équilibrée (la probabilité p de faire pile vaut 1/2)
mais les deux policiers se soupçonnent de tricher. Si Dupond veut faire le test, il va
naturellement considérer Hd0 : p = 1/2 contre Hd1 : p < 1/2 (puisque si Dupont
triche, c’est pour gagner). Inversement, si Dupont veut faire le test, il va considérer
Ht0 : p = 1/2 contre Ht1 : p > 1/2. On voit bien que les ensembles Θ0 et Θ1 ne
sont pas complémentaires, ce qui correspond à des hypothèses faites sur le modèle,
hypothèses qu’il va s’agir d’exploiter.
Définition 4.4.1 Un test de H0 contre H1 est une fonction φ(X) à valeurs dans {0, 1},
à laquelle on associe la règle de décision : si φ(X) = 0, on conserve H0 et si
φ(X) = 1, on rejette H0 . On définit les erreurs de première espèce et de seconde
espèce associées :
α: Θ0 → [0, 1] β: Θ1 → [0, 1]
θ 7→ Pθ φ(X) = 1 θ 7 → Pθ φ(X) = 0 .
On dit qu’un test est de niveau α si supΘ0 α ≤ α.
Les erreurs de première et seconde espèce caractérisent les probabilités des deux manières
de se tromper : respectivement, rejeter H0 à tort (donc observer φ(X) = 1 alors que
θ ∈ Θ0 ), ou conserver H0 à tort (donc observer φ(X) = 0 alors que θ ∈ Θ1 ). On
appelle puissance du test la fonction 1 − β.
Exercice 55
1. Soit X1 , . . . , Xn un n-échantillon de loi N (m, σ 2 ) avec m et σ inconnus. Don-
ner un estimateur de m, et déterminer sa loi. Définissez un test de H0 : m = m0
contre H1 : m > m0 .
2. Définir une fonction qui, si on lui donne un n-échantillon X1 , . . . , Xn en entrée,
donne le résultat du test.
3. On se place dans le cas m = m0 = 2, α = 5%, et, pour conserver notre
ignorance de σ, on tirera au hasard une valeur dans [1, 2] ; on veut estimer le
niveau réel α(m0 ). On va donc faire N fois l’expérience qui consiste à simuler
n variables de loi N (m, σ 2 ), à appliquer le test à ce n-échantillon et à compter
combien de fois, sur les N , on rejette (à tort) l’hypothèse H0 . Sachant que la
vraie valeur de p = α(m0 ) est de l’ordre de 0, 05, quelle valeur de N choisir
pour avoir un estimation (de niveau de confiance 95%) de p à 0, 01 près ?
44
Tests et estimateurs classiques
H0 :Xi ∼ pref ,
H1 :Xi 6∼ pref .
Pour cela, on compare la loi empirique des (Xi )1≤i≤n avec la loi de référence, en
utilisant la méthode des moments. Notons la fréquence empirique
Pn
1lX =u
p̂j,n = i=1 i j .
n
Alors on considère la pseudo-distance suivante, appelée statistique de Pearson :
d 2
X (p̂j,n − pref
j )
Dn2 = n .
j=1
pref
j
On rappelle que la loi du χ2 à k degrés de liberté, notée χ2 (k), est la loi de N12 +
· · · + Nk2 où les Ni suivent des lois normales centrées réduites indépendantes. Sa den-
1
sité est 2k/2 Γ(k/2) xk/2−1 e−x/2 1lx≥0 . Une preuve du résultat suivant est donnée dans
Statistique mathématique en action de Rivoirard et Stoltz ; elle repose sur un théorème
central limite multi-dimensionnel, et sur l’étude des vecteurs gaussiens.
L p.s.
Théorème 4.5.1 Sous H0 , Dn2 → χ2 (d − 1). Sous H1 , Dn2 → +∞.
où cd−1,1−α est le quantile d’ordre 1 − α de la loi χ2 (d − 1). Ce test est donc de niveau
asymptotique α.
45
MAO Probas-Stats
Chiffres 0 1 2 3 4 5 6 7 8 9
Observations 120 87 115 103 91 109 92 112 94 77
d
X (p̂j,n − pj (θ̂n ))2
D̂n2 = n .
j=1 pj (θ̂n )
L
D̂n2 → χ2 (d − 1 − k).
p.s.
De plus, sous H1 , si en plus d(L(Xi ), P) > 0, alors D̂n2 → +∞.
46
Tests et estimateurs classiques
Ecrire une fonction Dn qui calcule cette quantité pour un échantillon et une
fonction F données.
47
MAO Probas-Stats
Illustrer le fait que Ln converge en loi quand n → ∞ si les Xi suivent une loi
normale, et comparer la limite L avec K. Prouver que Ln tend presque-sûrement
vers l’infini si les Xi ne suivent pas une loi normale.
7. Estimez le 95%-quantile de L et utilisez-le pour proposer un test de normalité
de niveau asymptotique 5%.
Le test de Kolmogorov peut également être modifié en un test d’homogénéité appelé
test de Kolmogorov-Smirnov : on dispose de deux échantillons, X = (X1 , . . . , Xn ) et
Y = (Y1 , . . . , Ym ), et on veut savoir s’ils ont la même loi, sans chercher à connaı̂tre
cette loi. Pour cela, on note F̂n (resp. Ĝm ) leur fonction de répartition empirique
respective, et on calcule Dn,mq= supx∈R |F̂n (x) − Ĝm (x)|. Un résultat analogue
nm
au Théorème 2.3.4 assure que n+m Dn,m converge en loi vers une loi universelle
lorsque n, m → ∞. Il s’agit ensuite d’adapter le test précédent à cette loi.
4.7 Exercice supplémentaire
Exercice 60 Etude de la robustesse 2 d’un test. Soit une suite d’observations X1 , X2 , . . . , Xn
i.i.d. de loi µ. On note X̄ la moyenne empirique et S 2 la variance empirique (version
biaisée) :
n n
1X 1X 2
X̄ = Xt , S2 = Xt − X̄ .
n t=1 n t=1
2. La robustesse d’un test est définie comme la non-sensibilité de la procédure de test à la loi des ob-
servations. Le test asymptotique sur la moyenne fondé sur le TCL est ainsi robuste sur l’ensemble des lois
admettant un moment d’ordre deux.
48
Tests et estimateurs classiques
49
MAO Probas-Stats
50
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 5
Chaı̂nes de Markov
Les chaı̂nes de Markov sont des objets couramment utilisés en simulation, parce
qu’elles apparaissent dans de nombreux R problèmes de modélisation. Un autre intérêt
est l’estimation de quantités du type f dπ, où π est une mesure de probabilité que l’on
ne sait pas bien simuler. Si l’on arrive à construire une chaı̂ne de Markov de probabilité
invariante π, pour lesquels les théorèmes classiques de convergence s’appliquent, alors
la distribution au temps long de la chaı̂ne sera proche de µ.
Il est recommandé de revoir au préalable vos cours sur la théorie générale des
chaı̂nes de Markov, même si nous nous concentrerons sur le cas plus simple des chaı̂nes
à espace d’états finis.
P=np.array([[1/2,1/3,1/6],[1/3,1/3,1/3],[1/2,0,1/2]]).
51
MAO Probas-Stats
Dans ce cas, et si l’on indexe (suivant l’habitude de Python) les trois sommets comme 0,
1 et 2 alors conditionnellement à Xn = i la variable Xn+1 vaut 0, 1 ou 2 avec des pro-
babilités données par P[i]. On peut alors utiliser la commande rnd.choice(d,p=P[i])
où d est le cardinal de l’espace d’état (ici d = 3).
Exercice 61 Écrivez une fonction Python qui prend en entrée X0 , n et P et simule une
trajectoire (X0 , . . . , Xn ).
Il ressort de l’exercice précédent qu’une chaı̂ne de Markov peut également être
donnée sous la forme Xn+1 = fn (Xn , Un+1 ) où (Un )n est une suite i.i.d. de loi
U([0, 1]) indépendante de X0 .
5.1.2 Irréductibilité
Pour une chaı̂ne de Markov à espace d’états finis, il n’y a pas d’état récurrent nul.
La chaı̂ne de Markov est dite irréductible si pour tous x, y ∈ E, il existe n ∈ N tel
que P n (x, y) > 0. Si ce n’est pas le cas, on peut partitionner E en une union disjointe
de classes, telles que la restriction de P à chacune de ces classes est irréductible ; on
parle de classes irréductibles ; chacune de ces classes est soit entièrement récurrente
soit entièrement transitoire. De plus, la chaı̂ne est presque sûrement capturée par une
classe récurrente. La plupart du temps, en étudiant un peu la chaı̂ne a priori, on pourra
se restreindre à une classe récurrente. Ainsi, les hypothèses de “chaı̂nes de Markov
irréductibles récurrentes” ci-après ne coûtent pas très cher dans ce cas.
5.1.3 Période
Supposons la chaı̂ne irréductible. Sa période est alors
Remarque 5.1.1 (Apériodicité par perturbation) Soit p ∈]0, 1[, alors la matrice
Pp = (1 − p)P + pI
est apériodique, reste irréductible si P l’était, et possède les mêmes mesures inva-
riantes. Pour la trajectoire de la chaı̂ne, cela revient à choisir avec probabilité p de ne
pas bouger, et ce à chaque étape.
5.1.4 Mesure invariante et théorème ergodique
Si la chaı̂ne est irréductible avec un espace d’états finis, elle est nécessairement
récurrente positive et on sait que dans ce cas il existe une unique mesure de probabilitié
invariante π.
Exercice 62 Écrire une fonction Python qui prend en entrée P que l’on suppose irréductible,
et donne la mesure invariante π de cette chaı̂ne. On utilisera np.linalg.eig, dont
on pourra consulter le fichier d’aide, et np.where. Ne pas oublier que la probabilité
invariante est vecteur propre de la transposée de P et pas de P même, et que la sortie
52
Chaı̂nes de Markov
doit être une probabilité, donc un vecteur à coefficients positifs et dont la somme vaut
1.
Il existe un résultat de type “loi des grands nombres” pour les chaı̂nes de Markov :
c’est le théorème ergodique.
Théorème 5.1.2 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable E.
Si cette chaı̂ne est irréductible et admet une probabilité invariante π, alors pour toute
fonction f sur E intégrable par rapport à π, on a
n Z
1X p.s.
f (Xk ) → f dπ.
n
k=1
Notons que l’irréductibilité assure que la probabilité invariante est unique si elle existe,
et qu’elle existe toujours si E est fini. Ce résultat est démontré par exemple dans Pro-
menade aléatoire de Benaı̈m et El Karoui, ou dans Modélisation stochastique de Bercu
et Chafaı̈.
Notons également que ce théorème ne requiert pas d’apériodicité. Comme on ef-
fectue une moyenne temporelle, les effets de périodicités sont “gommés”.
Il existe également un résultat de type “théorème central de la limite” pour les
chaı̂nes de Markov :
Théorème 5.1.3 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état fini E. Si
cette chaı̂ne est irréductible et qu’on note π sa probabilité invariante, alors pour toute
fonction f sur D, il existe σf2 tel que
n
!
√
Z
1X L
n f (Xk ) − f dπ → N (0, σf2 ).
n
k=1
Le gros défaut pratique de cet énoncé est que σf n’est défini que de manière implicite,
de sorte que ce résultat ne peut servir pour donner des intervalles de confiance.
Exercice 63 Illustrez les deux théorèmes ci-dessus dans le cas de la chaı̂ne de ma-
trice de transition P ci-dessus et pour f = 1l{0} . La variance σf étant inconnue, on
l’estimera par la variance empirique d’un N -échantillon de Xn pour n assez grand.
53
MAO Probas-Stats
Théorème 5.1.4 Soit (Xn )n une chaı̂ne de Markov sur un espace d’état dénombrable
E. Si cette chaı̂ne est irréductible, récurrente positive et apériodique et qu’on note π
sa probabilité invariante, alors quelle que soit la loi de X0 ,
L
Xn → π.
Dans le cas d’un espace d’états fini, c’est une conséquence du théorème de Perron-
Frobenius.
5.2 Méthodes de Monte-Carlo
Le principe général de la méthode de Monte-Carlo est le suivant : pour toute fonc-
tion f sur E, le théorème ergodique donne (sous ses hypothèses) :
n Z
1X p.s.
f (Xk ) −→ f dπ. (5.1)
n n→∞
k=1
R
On peut donc espérer calculer f dπ en simulant une trajectoire d’une chaı̂ne de
Markov de probabilité invariante π. Notons que c’est différent, que ce soit concep-
tuellement ou numériquement, d’une estimation de cette intégrale E f (X) par une
PN
moyenne empirique n1 k=1 f (X (k) ) pour X (1) , . . . , X (N ) un N -échantillon de X :
• dans l’estimation par la moyenne empirique, on moyenne sur les valeurs de
plusieurs réalisations indépendantes au même temps (on a plusieurs ω, un seul
temps) et on a besoin de savoir simuler X de loi π ;
• dans l’estimation basée sur (5.1), on moyenne sur les valeurs à différents “temps”
d’une seule trajectoire (on a un seul ω, plusieurs temps) et on a besoin de savoir
simuler une chaı̂ne de Markov de probabilité invariante π.
Si l’on sait simuler simplement les transitions d’une chaı̂ne de Markov de probabi-
lité invariante π, alors la deuxième méthode est plus efficace. Notons qu’elle ne sera
intéressante, en particulier, que s’il est moins coûteux numériquement de simuler la
chaı̂ne que de calculer tous les π(x) et de sommer les f (x)π(x), donc plutôt quand on
a une description simple de la dynamique de la chaı̂ne, mais que cette chaı̂ne vit dans
un espace d’état de grande taille. Mais est-ce si simple de construire une chaı̂ne de Mar-
kov (irréductible) de probabilité invariante π ? Nous allons décrire dans la section 5.3
une méthode, dite de Metropolis–Hastings, de simulation d’une chaı̂ne de Markov de
probabilité invariante π.
On ne se pose pas ici la question de la vitesse de convergence, que l’on pourra
traiter par une étude du spectre de la matrice de transition P : puisque lorsque P est
irréductible les constantes sont son seul invariant, on peut (sous certaines hypothèses)
estimer P n f (x) − f dπ en fonction de la valeur propre de P qui a le module le plus
R
grand après 1 (1 est toujours valeur propre, et c’est la plus grande). Nous ne décrirons
pas en détail cette étude spectrale : de toute façon, la méthode se heurte à des calculs
pénibles dès que l’on s’intéresse à des problèmes concrets. Nous exploiterons cepen-
dant l’idée que l’on peut contrôler la vitesse de convergence pour obtenir un algorithme
stochastique de recherche de minima, algorithme appelé le recuit simulé, présenté dans
la section 5.5.
54
Chaı̂nes de Markov
Si P est réversible par rapport à π, alors π est invariante pour P . Plus précisément,
l’invariance de π est caractérisée par l’égalité
X X
P (x, y) π(x) = P (y, x) π(y),
y∈E y∈E
donc l’invariance de π par P correspond à l’égalité “en moyenne” de Px,y π(x) alors
que la réversibilité correspond à une égalité terme à terme. Ceci explique que (5.2) soit
aussi appelée la condition de bilan détaillé.
On part d’une probabilité π dont on suppose qu’elle charge tous les points, c’est-à-
dire que π(x) > 0 pour tout x ∈ E, et on suppose donnée une matrice de transition Q,
dite matrice de sélection, qui a la propriété Q(x, y) = 0 ⇒ Q(y, x) = 0. On pose
π(y)Q(y, x)
α(x, y) = min 1, (5.3)
π(x)Q(x, y)
Alors P est un noyau de transition qui est réversible pour π, et irréductible si Q l’est.
55
MAO Probas-Stats
Remarque 5.3.3 Il existe d’autres choix de fonctions α avec les mêmes propriétés, par
exemple
π(y)Q(y, x)
α(x, y) = (5.4)
π(y)Q(y, x) + π(x)Q(x, y)
et α(x, y) = 0 si Q(x, y) = 0. Ce choix a pour avantage d’être toujours apériodique,
mais cela est aussi très souvent le cas pour le choix (5.3) (par exemple dès que α(x, y) <
1 pour certains x, y).
Cet algorithme simple permet donc de simuler une chaı̂ne de Markov qui va être
réversible par rapport à π. On verra que l’estimation des vitesses de convergence est
plus simple pour les chaı̂nes réversibles.
Remarque 5.3.4 On n’a pas besoin d’expliciter la matrice Q : il suffit de savoir définir
un algorithme qui simule la chaı̂ne de transitions données par Q, et de connaı̂tre
les rapports Q(x, y)/Q(y, x). On n’a pas besoin non plus de connaı̂tre explicitement
π(x) : il suffit de connaı̂tre les rapports π(x)/π(y).
56
Chaı̂nes de Markov
Exercice 66 On considère un réseau fini R = {1, . . . , r}2 , qui représente les positions
des atomes dans un bloc de métal. On note a ∼ b si deux sites a et b sont voisins.
Chaque atome a un moment magnétique (une “micro-aimantation”) qui est orienté
soit vers le haut, soit vers le bas : on note σ(a) ∈ {−1, +1} le moment magnétique
(que l’on appelle habituellement “spin”) en a = (i, j) ∈ R. La configuration du bloc
est donc décrite par σ = σ(a) a∈R et donc l’espace d’états est E = {−1, +1}R .
Pour des raisons physiques, les moments magnétiques différents ont tendance à se
repousser, de sorte que si deux atomes voisins ont des spins différents, l’énergie du
système est plus élevée que s’ils sont alignés — et pour la mesure de Gibbs (5.5), une
énergie plus élevée donne une probabilité plus faible. On suppose en revanche que
R
2. Au sens où les mesures πV,T sont R les mesures π qui maximisent l’entropie S(π) = − log π(x) dπ
sous la contrainte que l’énergie totale V dπ est fixée.
57
MAO Probas-Stats
deux atomes qui ne sont pas immédiatement voisins n’interagissent pas directement
l’un avec l’autre. On modélise ceci en posant
X
V (σ) = − σ(a) · σ(b)
(a,b) | a∼b
où la somme porte sur l’ensemble des couples a, b de R qui sont voisins.
1. On considère la chaı̂ne de Markov de matrice Q dont l’évolution est donnée
comme suit : partant de σ, on choisit a ∈ R uniformément et on renverse le
spin en ce site, sans toucher au reste : on passe en σ 0 vérifiant σ 0 (a) = −σ(a)
et σ 0 (b) = σ(b) pour b 6= a. Si l’on note Q la matrice de transition associée,
a-t-elle la propriété Q(σ, σ 0 ) > 0 ⇒ Q(σ 0, σ) > 0 ? A-t-on une relation plus
précise entre Q(σ, σ 0 ) et Q(σ 0, σ) ?
2. Supposons que dans l’évolution σ → σ 0 ci-dessus, on ait choisi de renverser le
site a. Montrez que
X
∆V (σ, σ 0 ) := V (σ 0 ) − V (σ) = 2σ(a) · σ(b). (5.6)
b | b∼a
Définir une fonction qui calcule la quantité donnée en (5.6) si on lui donne σ
(comme un array Numpy) et a.
3. Reprendre l’algorithme de Metropolis–Hastings, version (5.3), pour Q et πV,T .
Observer que l’évolution est définie simplement comme suit : partant de σ,
• on choisit un site a ∈ R uniformément, et on calcule ∆V (σ, σ 0 ) ;
• si ∆V < 0, on renverse le spin en a ;
• si ∆V ≥ 0, on renverse le spin en a avec probabilité e−∆V /T .
4. Montrer que la chaı̂ne de Markov définie par l’algorithme de Metropolis–Hastings
est irréductible apériodique. Ecrire une fonction qui exploite l’algorithme de
Metropolis pour tirer une configuration de distribution proche de l’état de Gibbs
du modèle ci-dessus.
5. Afficher de telles configuration pour différentes valeur de T , en utilisant la com-
mande matshow de Matplotlib. On pourra prendre les valeurs r = 20, n =
10000 et T = 9, 7, 5, 3, 1.
6. Pour une configuration σ donnée, on peut définir l’aimantation macroscopique
α(σ) = r12 a∈R σ(a). Pour différents tirages aux différentes valeurs de T
P
données, calculez |α(σ)|. La valeur observée indique-t-elle que les spins ont
tendance à s’aligner, ou bien peut-elle être simplement l’effet du hasard ? Pour
répondre à cette question, donnez un intervalle de fluctuation à 95% pour |α(σ)|
dans le cas où σ est obtenu en tirant uniformément, en chaque site, un spin ±1.
58
Chaı̂nes de Markov
def. 1 X
πV,0 = lim πV,T = δx .
T →0 card Vmin
x∈Vmin
πV,T (y)
= e−(V (y)−V (x))/T .
πV,T (x)
V,T π (y)
Par conséquent, si V (y) > V (x) alors limT →0 πV,T (x) = 0 donc limT →0 πV,T (y) = 0.
Cela est nécessairement vrai pour tout y 6∈ Vmin . Pour x, y ∈ Vmin on a πV,T (x) =
πV,T (y) pour tout T . 2
On voudrait donc de simuler par l’algorithme de Metropolis-Hastings les mesures
πV,T pour des T de plus en plus petits. On note PT la matrice de transition associée.
Le problème est que le temps de convergence de la chaı̂ne vers sa mesure d’équilibre
est typiquement d’ordre exp C T (on donne quelques éléments de justification dans la
partie 5.5.2). L’idée est donc de diminuer T par paliers, en attedant à chaque fois un
peu plus longtemps.
Plus précisément (voir Théorème 3.3.11 et section 3.3.4 de Promenade aléatoire
de Benaı̈m et El Karoui),on considère une chaı̂ne de Markov obtenue par l’algorithme
de Metropolis à partir d’une mesure de Gibbs associée à un potentiel dont on suppose
qu’il vérifie
Q(x, y) > 0 ⇒ V (x) 6= V (y). (5.7)
Théorème 5.5.2 On suppose que V a la propriété (5.7) et que inf E V > 0. Il existe
une constante C ne dépendant que de V telle que si l’on choisit une suite de températures
(T (n))n données par
1
T (n) = pour eC(k−1) ≤ n < eCk ,
k
alors on a
1 X
lim PT (n) . . . PT (1) f = f (x).
n card Vmin
x∈Vmin
On obtient donc sous les hypothèses du Théorème, que partant de n’importe quel
x ∈ E on atteindra presque-sûrement un minimum de V . Cet algorithme s’appelle le
“recuit simulé”, par analogie avec la technique métallurgique où l’on obtient un métal
durci en le chauffant avant de le laisser refroidir lentement, et ce plusieurs fois.
Une description rapide de cet algorithme est la suivante : on teste des changements
de configuration en les sélectionnant au hasard suivant Q. Si le changement fait bais-
ser V (cas ∆V < 0) alors on accepte la nouvelle configuration. Si le changement fait
augmenter V (cas ∆V > 0), on peut l’accepter ou le refuser, suivant que U ≤ e−∆V /T
ou non. Le premier mécanisme tend à faire diminuer V ; le deuxième évite que l’on se
59
MAO Probas-Stats
Exercice 67 Un voyageur doit visiter r villes, que l’on représente par r points M1 , . . . , Mr
du plan. Sa ville de départ doit être la même que sa ville d’arrivée, mais on sup-
pose (cela simplifie les notations) qu’il peut choisir cette ville aussi. Puisqu’il passera
dans chaque ville une et une seule fois, son parcours est déterminé par une permu-
tation σ de {1, . . . , r}, donc E = Sr . Les villes visitées sont alors, dans l’ordre,
Mσ(1) , Mσ(2) . . . , Mσ(1) La distance entre les villes i et j sont données par d(i, j) ; le
voyageur parcourra donc une distance
r
X
V (σ) = d(Mσ(i) , Mσ(i+1) ) (5.8)
i=1
60
Chaı̂nes de Markov
Lemme 5.5.3 La matrice P est réversible par rapport à P π si et seulement si elle est
autoadjointe pour le produit scalaire défini par hf, giπ = x∈E f (x)g(x)π(x). Dans
ce cas, ses valeurs propres peuvent s’écrire
1 ≥ v1 ≥ v2 ≥ . . . ≥ vd ≥ −1.
En pratique, des calculs plus pénibles que réellement compliqués (voir encore Pro-
menade aléatoire de Benaı̈m et El Karoui) permettent de montrer, pour une chaı̂ne de
Markov obtenue par l’algorithme de Metropolis à partir d’une mesure de Gibbs as-
sociée à un potentiel qui vérifie (5.7), que l’on a une inégalité
61
MAO Probas-Stats
où d = card E et C(V ) est la fameuse constante qui ne dépend que de V (et en
particulier pas de T ).
Ainsi, partant de n’importe quelle distribution µ, la probabilité µn converge expo-
nentiellement vite vers πV,T – mais avec un taux
1 −C(V )/T
− log(1 − e ) ∼ d−3 e−C(V )/T
d3 T →0
62
Université Paris-Saclay Master 1 mathématiques et applications
Chapitre 6
Martingales
Les martingales sont des processus qui apparaissent quasiment partout en probabi-
lités. Leur étude fournit des outils puissants, notamment pour prouver des résultats de
convergence. Dans ce chapitre nous allons voir qu’elles sont également très utiles en
simulation ; après avoir vu la théorie, on donnera des applications avec les processus
de Galton-Watson.
6.1 Définitions
Dans ce chapitre, on considère un espace de probabilité (Ω, F, P) muni d’une filtra-
tion (Fn )n∈N , c’est-à-dire une suite croissant de sous-tribus de F. Moralement, Fn est
la tribu des événements se produisant avant l’instant n (inclus). Une suite de variable
aléatoires (Xn )n∈N est dite adaptée si pour tout n, Xn est Fn -mesurable.
Définition 6.1.1 Soit (Xn )n∈N une suite adaptée de variables aléatoires réelles intégrables.
On dit que (Xn ) est
• une martingale si pour tout n,
E[Xn+1 | Fn ] = Xn ,
Une conséquence directe est que la suite des espérances E[Xn ] est constante (resp.
croissante, décroissante) pour une martingale (resp. sous-martingale, sur-martingale).
Lorsqu’on ne précise pas la filtration, on sous-entend qu’on a choisi Fn = σ(X0 , . . . , Xn ).
Ainsi (Xn ) est automatiquement adaptée, et la définition d’une martingale par exemple
devient
E[Xn+1 | X0 , . . . , Xn ] = Xn .
Exemple 6 Si (Xn ) est une suite i.i.d réelle intégrable, alors la suite Sn = X1 + · · · +
Xn est une martingale lorsque E[X1 ] = 0, une sous-martingale lorsque E[X1 ] > 0,
une sur-martingale lorsque E[X1 ] < 0.
63
MAO Probas-Stats
Exercice 70 Soit (Xn )n∈N∗ une suite de variables i.i.d de loi normale centrée réduite.
On note Sn = X1 + · · · + Xn , et on fixe t ∈ R. Montrer que
nt2
Mn (t) = exp tSn −
2
Théorème 6.2.1 Soit (Mn )n une martingale. Si cette martingale est bornée dans Lp
au sens où supn E(|Mn |p ) < ∞, alors :
• pour p = 1, le processus Mn converge presque-sûrement vers une variable
aléatoire intégrable,
• pour p > 1, le processus Mn converge p.s et dans Lp vers une variable Lp .
Attention à ne pas affirmer la convergence L1 dans le cas p = 1, qui n’est vraie que
sous l’hypothèse supplémentaire que (Xn )n est uniformément intégrable.
Exercice 71 Dans l’exercice 70 (toujours à t fixé), montrer que Mn (t) est bornée dans
L1 . Montrer qu’elle converge p.s. vers 0. Pourquoi cette convergence ne peut avoir lieu
dans L1 ?
Des résultats de convergence p.s. existent aussi pour les sur-martingales et sous-
martingales, sous des hypothèses de positivité.
Théorème 6.2.2 Soit (An )n une sur-martingale positive, alors elle converge presque-
sûrement vers une variable aléatoire A∞ intégrable.
Soit (Bn )n une sous-martingale telle que n E(Bn+ ) < ∞, alors elle converge
P
presque-sûrement vers une variable aléatoire B∞ intégrable.
64
Martingales
Il existe également des résultats de type “loi des grands nombres” et “central limite”
pour les martingales. Ces résultats dépendent de la quantité suivante, appelée processus
prévisible croissant 1 de la martingale (ou simplement processus croissant) :
n
X
E (Mk − Mk−1 )2 | Fk−1 .
hM in =
k=1
Théorème 6.2.3 (Loi des grands nombres pour les martingales) Soit (Mn )n une mar-
tingale de carré intégrable. Alors :
Mn p.s.
• sur l’événement [limn hM in = ∞], on a hM in → 0,
• sur l’événement [limn hM in < ∞], la suite Mn converge presque-sûrement.
Théorème 6.2.4 Soit (Mn )n une martingale de carré intégrable, et soit (hM in )n son
processus croissant. On suppose que (an )n est une suite de réels positifs croissant vers
l’infini telle que
hM in P
→`
an
pour un ` ≥ 0 déterministe, et que pour tout > 0
an
1 X P
E |∆Mk |2 1l|∆Mk |≥√an | Fk−1 → 0 (6.1)
an
k=1
1 L
√ Mn → N (0, `)
an
et si ` > 0
√ Mn L
an → N (0, `−1 ).
hM in
1. Le mot prévisible signifie que le processus au temps n est Fn−1 -mesurable ; on peut donc
prédire ce qu’il va être au temps suivant en ne connaissant que l’histoire jusqu’au temps présent. De
plus il est clairement croissant p.s.
65
MAO Probas-Stats
La condition (6.1) est appelée condition de Lindeberg (sur les accroissements ∆Mk de
la martingale). Elle est vraie s’il existe δ > 0 tel que
n
1 X P
1+δ/2
E |∆Mk |2+δ | Fk−1 → 0,
an k=1
Théorème 6.2.5 (Robbins-Siegmund) Soient (Vn )n , (An )n , (Bn )n trois suites posi-
tives (Fn )-adaptées telles que presque-sûrement V0 est finie et
E(Vn+1 |Fn ) ≤ Vn + An − Bn .
P p.s.
Alors sur l’événement [ n An < ∞], on a Vn → V∞ où V∞ est une variable aléatoire
finie p.s, et de plus, p.s, X
Bn < ∞.
n
où (Zi,j )i,j∈N est une suite de variables aléatoires i.i.d., indépendante de X0 , . . . , Xn
et de même loi que Z. On notera dans tout le texte µ et σ 2 les espérance P0et variance de
Z. Notons qu’en particulier on utilise la convention qu’une somme k=1 vaut zéro,
de sorte que si Xn = 0 alors Xn+1 = 0. On notera également
n
X n
X
Yn = Xk = 1 + Xk
k=0 k=1
66
Martingales
Lemme 6.3.1 Si l’on note qn = P(Xn = 0), alors la suite (qn )n converge et q =
limn qn .
On va commencer par étudier une situation où la réponse est simple, en donnant au
passage une identité qui nous servira plus tard.
Exercice 73
1. Montrez l’identité E(Xn+1 |Xn ) = µXn .
2. Déduisez-en que E(Xn ) = µn , où µ = E(Z).
3. Prouvez que P(Xn 6= 0) ≤ µn . Déduisez-en que q = 1 si µ < 1.
Le cas µ < 1 est appelé le cas sous-critique ; on sait déjà que q = 1 si µ < 1.
Dans le cas sur-critique µ > 1, la théorie des martingales va nous donner quelques
informations. Le point 1 nous dit que le processus
Mn = Xn /µn
Exercice 74
1. Montrez que Mn converge presque-sûrement vers une variable aléatoire intégrable
M∞ .
2. Montrez que dans le cas sous-critique, on a M∞ = 0 presque-sûrement. Est-ce
contradictoire avec le fait que E(Mn ) = 1 pour tout n ?
2 σ2
3. Montrez que E(Mn+1 ) = E(Mn2 ) + µn+2 . Montrez que supn E(Mn2 ) < ∞ si et
seulement si µ > 1.
4. Montrez alors que dans le cas sur-critique, Mn converge aussi vers M∞ au sens
L2 , et que M∞ a pour espérance 1 et pour variance σ 2 / µ(µ − 1) .
5. Pourquoi est-il difficile de vérifier la convergence ci-dessus avec un échantillon
de Mn pour n grand ?
67
MAO Probas-Stats
On a donc montré que dans le cas µ > 1 on avait Xn ∼ µn M∞ mais on ne sait pas
si M∞ peut s’annuler, et on n’a pas d’information dans le cas µ = 1. Pour régler ces
problèmes, on va utiliser la fonction génératrice Gn de Xn . Rappelons ce qu’est la
fonction génératrice :
Définition 6.3.2 Soit A une variable aléatoire à valeurs dans N. Sa fonction génératrice
est la fonction notée GA suivante :
GA : [0, 1] → [0, 1]
X
s 7→ E(sA ) = P(A = k) sk .
k
Gn = GXn et G = GZ .
Lemme 6.3.4 Si µ ≤ 1, alors q = 1. Si µ > 1 alors q est l’unique solution dans [0, 1[
de q = G(q).
Remarquez que 1 est toujours solution de s = G(s).
Preuve. La première étape est prouvée dans l’exercice suivant :
Exercice 75 Montrer que E(sXn+1 |Xn ) = G(s)Xn . Déduisez-en que Gn = G◦n , où
G◦n = G ◦ . . . ◦ G (n fois), puis que qn+1 = G(qn ).
On peut alors utiliser un résultat d’analyse simple :
Lemme 6.3.5 Soit f une fonction convexe, dérivable, de [0, 1] dans [0, 1] avec f (1) =
1. Si f n’est pas la fonction identité, alors pour tout s ∈ [0, 1[, la suite f ◦n (s) n :
• converge vers 1 si f 0 (1) ≤ 1
• converge vers l’unique solution de s = f (s) sur [0, 1[ si f 0 (1) > 1.
68