Probabilistes L3 MA
Probabilistes L3 MA
13 mars 2020
Table des matières
2 Chaı̂nes de Markov 17
2.1 Définitions et propiétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Classification d’état et propriétés associées . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Cas récurrent et irréductible . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Cas apériodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 Chaı̂ne reversible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Vitesse de convergence et statistiques de la chaı̂ne . . . . . . . . . . . . . . . . . . 17
i
Chapitre 1
Dans ce chapitre nous rappelons quelques notions de probabilité jugées utiles pour la suite du
document.
Remarque 1.1.1 La condition (iii) dans la définition ci-avant peut être remplacée
T par la condi-
tion stabilité par intersection au plus dénombrable : ∀I ⊆ N, ∀ {Ai }i∈I ⊆ T , i∈I Ai ∈ T .
Exemple 1.1.1
1. Pour tout ensemble Ω, {∅, Ω} et P (Ω) sont des tribus (triviales) sur Ω. En termes d’inclu-
sion ensembliste, {∅, Ω} est la plus petite tribu sur Ω et P (Ω) est la plus grande.
2. Si Ω = {a, b} on a les tribus sur Ω sont : {∅, Ω}, P (Ω) = {∅, Ω, {a} , {b}}
3. Si Ω = {1, 4, 7} on a les tribus sur Ω sont : {∅, Ω}, {∅, {1, 4, 7} , {1} , {4, 7}},
P (Ω) = {∅, {1, 4, 7} , {1} , {4} , {7} , {1, 4} , {1, 7} , {4, 7}}, {∅, {1, 4, 7} , {4} , {1, 7}},
{∅, {1, 4, 7} , {7} , {1, 4}}.
Exemple 1.1.2
1. Pour tout ensemble Ω, la tribu engendrée par les singleton {{∅}} et {{Ω}} est {∅, Ω}. La
tribu P (Ω) engendrée par P (Ω) ou même par l’ensemble des singletons de Ω.
2. Si Ω = {1, 4, 7}, les ensembles {{1}}, {{4, 7}} et {{1} , {4, 7}} engendrent touts la tribu
{∅, {1, 4, 7} , {1} , {4, 7}} sur Ω.
1
2 CHAPITRE 1. VARIABLES ALÉATOIRES ET APPLICATIONS
3. Sur R, on définit la tribu borélienne comme la tribu engendrée par intervalles ouverts.
Definition 1.1.3 Soient (Ω, T ) un espace probabilisable et une application P : T → [0, 1]. On dit
que P est une probabilité sur (Ω, T ) si elle satisfait :
(i) P (∅) = 0 (événement impossible) et P (Ω) = 1 (événement certain).
(ii) ∀ {Ai }i∈I⊆N ⊆ T une famille d’éléments deux à deux disjoints (ie. ∀i, j ∈ I si i 6= j alors
S P
Ai ∩ Aj = ∅), on a nécessairement P i∈I Ai = i∈I P (Ai ).
Lorsque P est une probabilité sur (Ω, T ), on appelle le triplet (Ω, T , P) espace probabilisé.
Definition 1.1.5 Soient (Ω1 , T1 , P) un espace probabilisé et (Ω2 , T2 ) un espace probabilisable. Une
variable aléatoire à valeurs dans Ω2 est une application mesurable X : (Ω1 , T1 , P) → (Ω2 , T2 ) qui
vérifie ∀A ∈ T2 , X −1 (A) ≡ {ω1 ∈ Ω1 ; X (ω1 ) ∈ A} ∈ T1 . On définit la probabilité image sur
(Ω2 , T2 ) pour tout A ∈ T2 par P (A) ≡ P (X −1 (A)). P est appelée la loi de probabilité de X.
Par souci de simplicité on utilisera l’abus P (A) pour désigner P (X −1 (A)). La variable aléatoire
X est dite réelle si Ω2 ⊆ R. On distingue deux grandes classes de variables aléatoires : les discrètes
et les continues.
Une interprétation géométrique de la moyenne est celle du barycentre. Notons qu’en général
général E [g (X)] 6= g (E [X]).
On peut montrer aisément que l’opérateur E [.] est linéaire aussi bien dans le cas continu
que discontinu ; les propriétés des moments s’en déduisent. Il existe des moments particuliers à
2
l’instar du moment centré d’ordre 2 donnant la variance (V ar [X] ≡ σX ), ou du moment simple
d’ordre 1 qui est l’espérance mathématique. La racine carré de la variance lorsque cette dernière
existe est appelée écart-type (σX ). Grâce à la notion de moment on définit également le coefficient
d’asymétrie
E (X − E [X])3 E (X − µX )3
3/2 ≡ 3
σX
E (X − E [X])2
E (X − E [X])4 E (X − µX )4
2 − 3 ≡ 4
− 3.
E (X − E [X])2 σX
Le coefficient d’asymétrie est nul si la distribution est symétrique par rapport à la moyenne ;
c’est le cas pour la loi normale que nous présenterons dans la suite. S’il y a une tendance vers
la gauche de la moyenne, le coefficient d’asymétrie sera negatif ; il sera par contre positif s’il y
a une tendance à droite de la moyenne. Le coefficient d’aplatissement compare quant à lui, le
regroupement autour de la moyenne comparativement à la distribution normale pour laquelle il
vaut 0. Lorsqu’il y a une concentration relativement forte autour de la moyenne et la queue de
distribution est fine, le coefficient de curtose est négatif. Par contre, lorsqu’il y a une concentration
relativement faible autour de la moyenne et la queue de distribution est épaisse, le coefficient de
curtose est positif. La moyenne et le coefficient d’asymétrie sont des paramètres de position tandis
que la variance (de manière équivalente l’écart-type) et le coefficient d’aplatissement sont des
paramètres de dispersion.
Lak fonction
−k (k)
caractéristique permet d’exprimer les moments simple d’ordre k via la relation
E X = i ψX (0). L’intérêt de la fonction caractéristique parrapport
à la fonction génératrice
est que l’existance de E eitX est plus probable que celle de E etX . Cela est lié aux problèmes
de convergences des sommes ou intégrales.
Listons à présent quelques lois discrètes connues :
— Loi uniforme discrète
Cette loi modélise l’équi-probabilité dans un ensemble fini. Si card (Ω2 ) = N < +∞ et
x ∈ Ω2 , alors P (X = x) = N1 . On a en outre, les caractéristiques suivantes :
1X
E [X] = x
N x∈Ω2
2
= V ar [X] = E X 2 − E2 [X]
σX
Remarque 1.2.1 La variance est toujours positive. L’écart-type qui est sa racine carrée est donc
bien définie. On peut l’établir grâce à l’inégalité des Jensen.
b+a
E [X] =
2
(b − a)2
V ar [X] =
12
bx ax
e −e
gX (x) = , x 6= 0
(b − a) x
— Loi exponentielle E (λ) , λ > 0.
Ici, on s’intéresse au temps d’attente entre deux occurences d’un phénomène. La densité cor-
respondante est donnée ∀x ∈ R par f (x) = λe−λx 1|{x≥0} . On a en outre, les caractéristiques
suivantes :
1
E [X] =
λ
1
V ar [X] = 2
λ
λ
gX (x) =
λ−x
La loi exponentielle est souvent qualifiée d’être sans mémoire du fait que
E [X] = m
1
V ar [X] =
λ2
−λ2 emx
gX (x) = 2
x − λ2
La distribution est symétrique par rapport à la moyenne qui n’est pas liée à l’écart-type. La
fonction de densité f est continûment dérivable sauf en m où elle n’est que continue. Cette
irrégularité peut poser des problèmes lors d’une estimation par la méthode du maximum
de vraisemblance.
— Loi Gamma Γ (r, λ) ou loi d’Erlang lorsque r est un entier naturel non nul. La loi d’Er-
lang modélise le temps écoulé entre la première et la r + 1-ième occurence d’un évènement
régi par une loi de poisson. Lorsque r = 1, on retrouve la loi [Link] densité de
+∞
λr
probabilité est donnée ∀x ∈ R par f (x) = Γ(r)
xr−1 e−λx 1|{x≥0} , où Γ (x) = tx−1 e−t dt
0
est la fonction gamma d’Euler qui généralise la fonction factoriel. En effet, ∀x > −1,
Γ (x + 1) = xΓ (x). En particulier∀n ∈ N, Γ (n + 1) = n!. On a en outre, les caractéristiques
suivantes :
r
E [X] =
λ
r
V ar [X] = 2
λ
r
λ
gX (x) =
λ−x
— Loi de Weibull W (λ, α) , λ, α > 0.
Cette loi généralise la loi exponentielle en modélisant la survie. Si X suit une loi E (λ) alors
X 1/α suit la loi W (λ, α). La fonction de densité de la loi W (λ, α) est donnée ∀x ∈ R par
α
f (x) = αλxα−1 e−λx 1|{x>0} . On a en outre, les caractéristiques suivantes :
Γ 1 + α1
E [X] =
λ1/α
Γ 1 + α2 − Γ2 1 + α1
V ar [X] = .
λ2/α
— Loi de Gauss ou normale N (m, σ 2 ).
La loi de Gauss est l’une des loi les plus utilisées autant en probabilité qu’en statistique.
Elle a entre autres propriétés celle d’être une distribution sur tout l’ensemble R qui est
symétrique par rapport la moyenne. Elle h est en outre infiniment dérivable. Sa densité est
1 1 x−m
2 i
donnée ∀x ∈ R par f (x) = σ√2π exp − 2 σ . On a en outre, les caractéristiques
suivantes :
E [X] = m
V ar [X] = σ 2
où la matrice des covariances K satisfait pour tous i, j ∈ [1, n], Kij = Cov [Xi , Xj ] = Kji .
Grâce à la loi normale N (m, σ 2 ) on définit la loi lognormale LN (m, σ 2 ). Une variable
aléatoire suit la loi lognormale si son logarithme suit la loi normale. On a
σ2
E [X] = exp m +
2
2
σ2
V ar [X] = exp 2m + 2σ e −1
σ2 2
gX (x) = exp mx − x
2
— Loi de Pareto de paramètre a, θ > 0
La loi de Pareto permet d’étudier les événements dits rares ou extrêmes d’une variable
aléatoire à valeurs positives. Il s’agit des réalisations de la variable aléatoire qui sont très
éloignées de la moyenne, mais dont la survenue a une importance capitale. On peut l’utiliser
pour modéliser la probabilité que variable aléatoire dépasse un certain seuil. Sa densité est
donnée ∀x ∈ R par f (x) = θaθ x−θ−1 1|{x>a} . On a
θa
E [X] = (n’existe que si θ > 1)
θ−1
θa2
V ar [X] = (n’existe que si θ > 2)
(θ − 1)2 (θ − 2)
Sa fonction génératrice ne s’exprime pas par des fonctions usuelles.
— Loi de Gumbel de paramètre α, β avec β > 0 et α ∈ R
Cette loi modélise également les événements dits rares ou extrêmes d’une variable aléatoire
à valeurs réelles. Il peut s’agir par exemple de la loi du maximum ou du minimum d’une
très grande série de
réalisations
d’un phénomène aléatoire. Sa densité est donnée ∀x ∈ R
1 α−x α−x
par f (x) = β exp β − exp β . On montre que
E [X] = α + γβ
π2β 2
V ar [X] =
6
αx
gX (x) = e Γ (1 − βx)
où γ ' 0.577... est la constante Euler.
Exercice 1.3.2 Pour chacune des lois citées dans cette section déterminer la fonction de répartition,
la médiane et les autres quartiles.
1
Exercice 1.3.3 Montrer que la loi de Cauchy de densité donnée ∀x ∈ R par f (x) = π(1+x2 )
n’admet pas d’espérance mathématique.
Remarque 1.4.1 Il est également établi que le système {X1 , X2 , · · · , Xn } est indépendant si et
seulement si E [X1 X2 · · · Xn ] = E [X1 ] E [X2 ] · · · E [Xn ].
On remarque que Cov [X, X] = V ar [X] et si la paire {X, Y } est indépendante alors Cov [X, Y ] =
0. La covariance peut être vue géométriquement comme un produit scalaire et l’écart-type comme
une norme dans un espace vectoriel des variables aléatoires. S’il y a indépendance (orthogonalité),
la covariance est nulle et par conséquence le coefficient de correlation aussi. La covariance et le
coefficient de corrélation donnent une information sur la dépendance linéaire entre des variables
aléatoires. Pratiquement, si rXY est proche de 0 il n’y a pas de dépendance linéaire et si |rXY |
est proche de 1 il y en a une. Lorsque rXY > 0 on parle de corrélation positive, et si rXY < 0 on
parle de corrélation négative. La corrélation négative s’interprète comme un antagonisme des effets
des variables l’une sur l’autre. On établit grâce à l’inégalité de Cauchy-Schwarz et la linéarité de
l’espérance mathématique que le coefficient de correlation est toujours en valeur absolue inférieure
ou égal à 1.
Proposition 1.5.1 Soit (X1 , X2 , · · · , Xn ) un n-échantillon de loi mère N (0, 1). Alors
Xn
1. La statistique X n = n1 Xk suit la loi N 0, n1 . De façon plus générale, si la loi mère
k=1
est N (m, σ 2 ) alors la statistique
Xn − m
Zn = √
σ/ n
suit la loi N (0, 1).
suit la loi X 2 (n). La densité de probabilité correspondant à une variable aléatoire Z suivant
n −1 − x
la loi du Khi-carré est f (x) = x 2n2 en 2 1|{x>0} . La fonction caractéristique correspondant à
2 Γ( 2 )
1
cette loi est ψZ (z) = n . En outre E [Z] = n et V ar [Z] = 2n.
(1−2z)
2
Proposition 1.5.2 Soit (X1 , X2 , · · · , Xn ) un n-échantillon de loi mère N (m, σ 2 ). Alors la sta-
tistique
2 n−1 2 n−1 1 Xn 2
2 Xn = S = Xk − X n
σ2 2 σ2 n−1 k=1
Proposition 1.5.4 Soit (X1 , X2 , · · · , Xn ) un n-échantillon de loi mère N (m, σ 2 ). Alors les sta-
tistiques √ √
n Xn − m n Xn − m
1 Tn = et 2 Tn =
S1 S2
suivent respectivement une loi t (n) et une loi t (n − 1).
Proposition 1.5.5 Soient X et Y deux variables aléatoires suivant respectivement les lois X 2 (n)
et X 2 (m). Alors la variable aléatoire Fn,m = mX nY
suit la loi de Fisher-Snedecor F (n, m), à n dégrés
de liberté pour le numérateur et m dégrés
n n−2
de liberté pour le dénominateur. La fonction de densité
n+m n 2
Γ( ) ( ) t 2
de cette loi est f (t) = Γ n Γ2 m m n+m 1|{t>0} .
( 2 ) ( 2 ) (1+ n ) 2
m
2
Proposition 1.5.6 Soient (X1 , X2 , · · · , Xn ) un n-échantillon de loi mère N (mX , σX ) et (Y1 , Y2 , · · · , Ym )
2
un m-échantillon de loi mère N (mY , σY ), les deux étant indépendants. On distingue les cas sui-
vants :
(i) La statistique
X n − Y m − (mX − mY )
Zn,m = q
2 2
σX σY
n
+ m
(iii) La statistique
√
X n − Y m − (mX − mY ) m+n−2
2 Tn,m = q
2 2
q 2 2
σX σY X S2 Y S2
n
+ m
(n − 1) σ 2 + (m − 1) σ 2
X Y
suivent respectivement une loi t (n) et une loi une loi t (n − 1).
(iv) La statistique
σY2 X S12 σY2 X S22 σY2 X S12
1 Fn,m = 2 2 2
, F n,m = 2 2
, 1,2 Fn,m = 2 2
,
σX Y S1 σX Y S2 σX Y S2
Definition 1.6.1 Soient (fn )n∈N et f une famille d’applications toutes définies de A vers B ⊆ R.
On dit que
(i) La suite (fn )n∈N converge simplement vers f et on note fn → f si ∀ε > 0, ∀x ∈ A,
∃N (ε, x) ∈ N tel que ∀n ≥ N, |fn (x) − f (x)| < ε.
(ii) La suite (fn )n∈N converge uniformément vers f et on note fn ⇒ f si ∀ε > 0, ∃N (ε) ∈ N
tel que ∀x ∈ A, ∀n ≥ N, |fn (x) − f (x)| < ε.
Definition 1.6.2 On dit qu’une suite de variables aléatoires (Xn )n∈N converge en loi vers une
variable aléatoire X, si la suite des fonctions de répartition (Fn )n∈N correspondant à (Xn )n∈N ,
L
converge simplement vers la fonction de répartion F de X. On note Xn → X.
Proposition 1.6.1 Une suite de variables aléatoires (Xn )n∈N converge en loi vers une variable
aléatoire X si et seulement si la suite des fonctions génératrices (resp. caractéristiques) (gXn )n∈N
(resp. (ψXn )n∈N ) converge simplement vers gX (resp. ψX ).
Preuve. (Exercice)
Definition 1.6.3 On dit qu’une suite de variables aléatoires (Xn )n∈N converge en probabilité (ou
faiblement) vers une variable aléatoire X, si pour tout réel ε > 0 donné,
lim P (|Xn − X| < ε) = 1.
n→+∞
En d’autres termes, ∀ε > 0, ∀δ > 0, Il existe N (ε, δ) ∈ N tel que ∀n ≥ N , il existe un mesurable
p
Ωε,δ,n de mesure δ tel que ∀ω ∈
/ Ωε,δ,n , |Xn (ω) − X (ω)| < ε. On note Xn → X.
De même
F (x − ε) = P ({X ≤ x − ε})
≤ P ({Xn ≤ x} ∪ ({Xn > x} ∩ {X ≤ x − ε}))
≤ P ({Xn ≤ x} ∪ {X − Xn < −ε})
≤ P ({Xn ≤ x}) + P ({X − Xn < −ε})
≤ P ({Xn ≤ x}) + P ({|Xn − X| > ε})
= Fn (x) + +P ({|Xn − X| > ε}) .
Ainsi,
En utilisant la continuité de F avec ε aussi petit que nécessaire, la convergence en probabilité avec
aussi grand que nécessaire, on obtient la convergence en loi cherchée.
Definition 1.6.4 On dit qu’une suite de variables aléatoires (Xn )n∈N converge presque sûrement
(ou fortement) vers une variable aléatoire X, si pour tout réel ε > 0 donné,
lim P sup {|Xm − X|} < ε = 1
n→+∞ m≥n
En d’autres termes, ∀ε > 0, ∀δ > 0, Il existe N (ε, δ) ∈ N et un mesurable Ωε,δ,N de mesure δ tel
p.s.
que ∀n ≥ N , ∀ω ∈/ Ωε,δ,N , |Xn (ω) − X (ω)| < ε. On note Xn → X. Une autre formulation de la
convergence presque sûre est
P lim Xn = X = 1 ou P (∪n∈N ∩m≥n {|Xm − X| < ε}) = 1, ∀ε > 0.
n→+∞
En d’autres termes, il existe un négligeable N tel que ∀δ > 0, Il existe M (δ) tel que ∀m ≥ M ,
∀ω ∈
/ N , |Xm (ω) − X (ω)| < δ. L’expression lim Xn = X est prise ici au sens de la convergence
n→+∞
uniforme des fonctions.
Proposition 1.6.3 Soient (Xn )n∈N , une suite de variables aléatoires, et g une fonction continue.
p.s.
On suppose que Xn → X. Alors
Definition 1.6.5 On dit qu’une suite de variables aléatoires (Xn )n∈N converge en moyenne d’ordre
r ∈ N∗ (quadratique si r = 2) vers une variable aléatoire X, si lim E [|Xn − X|r ] = 0. On note
n→+∞
Lr m.q.
Xn → X (Xn → X si r = 2).
Lr Ls
Proposition 1.6.4 Soient r, s ∈ N∗ . Si r ≥ s alors Xn → X ⇒ Xn → X.
Ainsi,
h i rs
s s rs
E [|Xn − X| ] ≤ E (|Xn − X| )
s
= (E [|Xn − X|r ]) r .
Xn − m L
Zn = → N (0, 1)
√σ
n
Dans la pratique, on suppose que la limite est atteinte pour n > 30.
Chaı̂nes de Markov
17
Bibliographie
[1] COHEN C., Introduction aux plans d’expériences, Rev. Statistique Appliquée, XXXVII (2),
pp 17-46, 1989.
[2] DAGNELIE P., Principes d’expérimentation : Planification des expériences et analyse de leurs
résultats, Les Presses Agronomiques de Gembloux, A.S.B.L., 2012.
[3] EASTERLING R.G., Fundamentals of Statistical Experimental Design and Analysis, John
Wiley & Sons, Ltd, 2015.
[4] GOUPY J., CREIGHTON L., Introduction aux plans d’expériences, troisième édition, Dunod,
2006.
[5] Gut A., Probability : A Graduate Course, Springer Science+Business Media Inc., 2005.
[6] LEJEUNE M., Statistique : la Théorie et ses Applications, deuxième édition, Springer-Verlag
France, Paris, 2010.
[7] SAPORTA G., Probabilités ; Analyses de données et Statistique, deuxième édition, TECHNIP,
Paris 2006.
[8] STEPHENS L., Theory and Problems of Beginning Statistics, Schaum’s Outlines, McGraw-
Hill, 1998.
18