0% ont trouvé ce document utile (0 vote)
203 vues14 pages

Introduction aux Probabilités

Transféré par

layeSekou Kaba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
203 vues14 pages

Introduction aux Probabilités

Transféré par

layeSekou Kaba
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Fondements des probabilités

version du 10 octobre 2017

Thibaut Le Gouic

Nom de l’enseignement : Cours de probabilités

1ère année
2017-2018
Notations
— 1A désigne la fonction indicatrice
(
1 si x ∈ A,
1A (x) =
0 sinon.

— δa désigne la mesure de Dirac en a, i.e. pour tout ensemble B mesurable,


(
1 si a ∈ B,
δa (B) =
0 sinon.

— X ∼ PX signifie que PX est la loi de X.

1 Variable aléatoire et loi de probabilité

1.1 Formalisme

L’essentiel de cette partie est un rappel des notions de l’intégration de Lebesgue. La nouveauté vient
principalement des versions probabilistes des mots utilisés.
Rappelons d’abord ce que sont une tribu et une mesure.

Définition 1 (Tribu).
Soit Ω un espace. On note P(Ω) l’ensemble des parties de Ω. Un ensemble A ⊂ P(Ω) est appelé tribu
ou σ-algèbre, s’il vérifie les trois propriétés suivantes :
1. φ ∈ A (contient l’ensemble vide)
2. A ∈ A =⇒ Ac ∈ A (stable par complémentaire)
S
3. (An )n≥1 ⊂ A =⇒ n≥1 An ∈ A (stable par union dénombrable).
Le couple (Ω, A) est appelé un espace mesurable.
Les éléments d’une tribu sont appelés des événements ou des ensembles mesurables.
Cette notion de tribu est essentielle et correspond à une notion d’information comme nous le verrons.
Pour un espace (E, d) métrique (et séparable), la plus petite tribu qui contient les boules est appelée la
tribu borélienne. On la note B(E). La tribu que nous utiliserons est la tribu borélienne sur R : B(R).
Nous avons déjà vu ce qu’est une fonction mesurable. Dans le vocabulaire du probabiliste, il s’agit d’une
variable aléatoire.

Définition 2 (Variable aléatoire ou fonction mesurable).


Une variable aléatoire (ou fonction mesurable) est une fonction X : (Ω, A) −→ (E, E) telle que

X −1 (B) ∈ A, ∀B ∈ E.

De plus, si (E, E) = (R, B(R)), on dit que X est une variable aléatoire réelle.
De la même façon, X est dite A0 -mesurable si

X −1 (B) ∈ A0 , ∀B ∈ E.

Toutes les transformations usuelles de variables aléatoires sont des variables aléatoires (i.e. elles préservent
la mesurabilité).

Théorème 3 (Stabilité des variables aléatoires).


Soient X, Y deux variables aléatoires à valeurs dans (Rd , B(Rd )), f une fonction mesurable et un réel c.
Alors,
— X + c,
— X + cY ,
— < X, Y >,
— X/Y (si Y (ω) 6= 0, ∀ω ∈ Ω et d = 1),

2
— f (X),
sont des variables aléatoires.
Par ailleurs, une fonction continue est mesurable (pour la tribu borélienne).
L’intérêt des tribus en probabilité est qu’elles permettent de modéliser l’information. Pour modéliser
l’information apportée par une variable aléatoire, on définit sa tribu engendrée.
Définition 4 (Tribu engendrée par une variable aléatoire).
Soit X : (Ω, A) −→ (E, E) une variable aléatoire. On appelle tribu engendrée par X la tribu sur A définie
par
σ(X) = {X −1 (B)|B ∈ E}.

La tribu σ(X) est un sous-ensemble de A et correspond à l’information qu’apporte l’observation de X.


Théorème 5 (Lemme de Doob).
Soient X et Y deux variables aléatoires définies sur (Ω, A). Alors il y a équivalence entre
1. il existe f mesurable telle que Y = f ◦ X,
2. σ(Y ) ⊂ σ(X)
Pour modéliser l’aléa d’une observation ou d’une variable aléatoire, on définit les mesures de probabilité.
Rappelons d’abord ce qu’est une mesure positive.
Définition 6 (Mesure positive).
Soit (Ω, A) un espace mesurable. On appelle mesure positive sur (Ω, A) une application µ de A à valeurs
dans [0; +∞] telle que :
1. µ(φ) = 0,
2. pour tout A, B ∈ A tels que A ∩ B = φ, µ(A ∪ B) = µ(A) + µ(B),
3. pour toute suite croissante (An )n≥1 ⊂ A, limn→∞ µ(An ) = µ(∪n≥1 An ).
Le triplet (Ω, A, µ) est appelé un espace mesuré.
La mesure µ(Ω) de l’ensemble Ω est appelé la masse de µ.
Définition 7 (Loi de variable aléatoire ou mesure de probabilité).
Soit (Ω, A) un espace mesurable. Une mesure de probabilité P sur (Ω, A) est une mesure de masse
totale 1 (i.e. P(Ω) = 1).
L’espace (Ω, A, P) est appelé un espace de probabilité.
Soient (E, E) un espace mesurable et X : (Ω, A) −→ (E, E) une variable aléatoire, alors la mesure PX
définie par
PX (B) = P(X −1 (B)), ∀B ∈ E,
est appelée la loi de X. C’est une mesure de probabilité sur (E, E).
Remarque.
Il existe les deux notations suivantes pour la même notion
PX (B) = P(X ∈ B).

On parle aussi de distribution de X. La mesure de probabilité est un objet qui décrit le comportement
aléatoire d’une observation.
Définition 8 (Loi à densité).
Soit (Ω, A, P) un espace probabilité. La mesure P est dite à densité par rapport à une mesure µ s’il existe
une fonction f mesurable positive telle que pour tout A ∈ A,
Z
P(A) = f dµ.
A

Lorsque la mesure µ n’est pas précisée, la mesure de Lebesgue λ est sous-entendue.


Définition 9 (P-presque surement).
Une propriété définie pour un espace mesuré (Ω, A, P) est dite vraie P-presque sûrement si l’ensemble
des ω ∈ Ω pour lesquelles elle est fausse est de mesure nulle pour P. Par exemple, dire que f = g P-presque
sûrement signifie
P(f 6= g) = 0.

3
Définition 10 (Support d’une mesure positive).
Le support d’une mesure (de probabilité) est le plus petit (au sens de l’inclusion) fermé F tel que
P(F c ) = 0.

Dans la suite du cours, lorsque l’on parlera de variable aléatoire, il sera toujours sous-
entendu qu’elle est définie sur un espace mesuré (Ω, A, P)

1.2 Exemples de loi

Certaines lois apparaissent dans de nombreux problèmes et portent un nom.


Définition 11 (Principales mesures de probabilités).
Soient p ∈ [0, 1], n ∈ N, λ > 0, m ∈ R, σ > 0 et a, b ∈ R tels que a < b.
1. La loi
(1 − p)δ0 + pδ1
est appelée loi de Bernoulli de paramètre p. On la note B(p).
2. La loi
n  
X n i
p (1 − p)n−i δi
i=0
i
est appelée loi binomiale de paramètres n et p. On la note Bin(n, p).
3. La loi

X λi
e−λ δi
i=0
i!
est appelée loi de Poisson de paramètres λ. On la note P(λ).
4. La loi
X∞
p(1 − p)i δi
i=0
est appelée loi géométrique de paramètre p. On la note G(p).
5. La loi ayant pour densité par rapport à la mesure de Lebesgue
x 7→ λe−λx 1{x≥0}
est appelée loi exponentielle de paramètre λ. On la note E(λ).
6. La loi ayant pour densité par rapport à la mesure de Lebesgue
1 1 (x−m)
2

x 7→ √ e− 2 σ 2
σ 2π
est appelée loi gaussienne ou loi normale de paramètre m et σ. On la note N (m, σ 2 ).
7. La loi ayant pour densité par rapport à la mesure de Lebesgue
1
x 7→ 1[a,b] (x)
b−a
est appelée loi uniforme sur [a, b]. On la note U([a, b]).

1.3 Outils fondamentaux

Le premier outil indispensable pour étudier une probabilité est l’espérance.


Définition 12 (Espérance ou intégrale).
Soit X une variable aléatoire réelle. On définit alors l’espérance de X (ou son intégrale), lorsqu’elle existe,
par Z
EX = X(ω)dP(ω).

De la même façon, pour une fonction f mesurable, on peut définir l’espérance de f (X), lorsqu’elle existe,
par Z
Ef (X) = f (X(ω))dP(ω).

4
L’espérance est linéaire : pour deux variables aléatoires réelles X et Y , et une constante c,

E(X + cY ) = EX + cEY.

Étant données une variable aléatoire X sur un espace probabilisé (Ω, A, P), on s’interessera souvent à
déduire la loi PX de X. On utilisera pour ça les deux théorèmes suivants.

Théorème 13 (Théorème de transfert).


Soit X une variable aléatoire réelle de loi PX . Alors,
Z Z
EX = X(ω)dP(ω) = xdPX (x).

De la même façon, pour une fonction f mesurable,


Z Z
Ef (X) = f (X(ω))dP(ω) = f (x)dPX (x).

Théorème 14 (Caractérisation de loi).


Soit X une variable aléatoire et PX sa loi de probabilité. Alors, l’application suivante, définie sur l’espace
des fonctions mesurables bornées de Ω, caractérise la loi PX de X :

h 7→ Eh(X), ∀h mesurable bornée

Pour une loi à densité par rapport à la mesure de Lebesgue, la densité de la loi caractérise la loi.
Pour une loi à densité par rapport à la mesure de comptage, la donnée de P(X = k) pour tout k ∈ N
caractérise la loi.

1.4 Variables aléatoires réelles

Les variables aléatoires réelles profitent de quelques définitions qui permettent de décrire une mesure de
probabilité.

Définition 15 (Variance et moments).


La variance Var (X) d’une loi de probabilité PX est l’espérance de (X − EX)2 :

Var (X) = E(X − EX)2 = EX 2 − (EX)2 .

Le moment d’ordre p ∈ N de X est la valeur de EX p . Si EX p < ∞, on dit que X admet un moment


d’ordre p.
Il se peut que Var (X) = ∞. C’est en fait équivalent à EX 2 = ∞ (dès lors que EX existe). On peut ainsi
classer les variables aléatoires en fonction de leurs moments.

Théorème 16 (Comparaison des moments).


Soient p et q deux réels tels que 0 < p < q et X une variable aléatoire. Alors,
1/p 1/q
(E|X|p ) ≤ (E|X|q ) .

Il existe différentes façons de définir une loi de probabilité. Nous avons vu le théorème 14 qui affirme que

h 7→ Eh(X)

caractérise la loi de X. Cela signifie que si deux variables aléatoires X et Y vérifient

Eh(X) = Eh(Y )

pour toute fonction h mesurable bornée, alors elles sont égales (i.e. PX = PY ). Pour le cas des variables
aléatoires réelles, il existe d’autres fonctions qui caractérisent une loi de probabilité, qui sont parfois plus
simples à manipuler.

Théorème 17 (Caractérisation de loi).


Soit X une variable aléatoire réelle et PX sa loi de probabilité. Toutes les fonctions suivantes caractérisent
la loi PX de X.

5
1.
B 7→ PX (B), ∀B ∈ B(R)
2. la fonction de répartition
FX : t 7→ PX (] − ∞, t]), ∀t ∈ R
3. la fonction caractéristique
ϕX : t 7→ E(eitX ), ∀t ∈ R
4. la fonction génératrice des moments
t 7→ E(etX ), ∀t ∈ R
5. la fonction génératrice (si X à valeurs dans N),
s 7→ E(sX ), ∀s ∈ R+
Pour une loi à densité par rapport à la mesure de Lebesgue, la densité de la loi caractérise la loi.
Pour une loi à densité par rapport à la mesure de comptage, la donnée de P(X = k) pour tout k ∈ N
caractérise la loi.
Ces fonctions vérifient quelques propriétés utiles.
Proposition 18 (Propriétés de la fonction de répartition).
La fonction de répartition d’une variable aléatoire X est
— croissante,
— dérivable λ-p.p. si PX est absoluement continue par rapport à λ,
sa dérivée est alors la densité de PX par rapport à λ.
Proposition 19 (Propriétés de la fonction caractéristique).
La fonction caractéristique d’une variable aléatoire X est
— continue,
— dérivable p fois si E|X|p < ∞
Proposition 20 (Propriétés de la fonction génératrice des moments).
La fonction génératrice des moments d’une variable aléatoire X est dérivable n fois si E|X|n < ∞. Dans
ce cas, sa n-ème dérivée en 0 est EX n .
La fonction génératrice des moments n’existe pas toujours.
Proposition 21 (Propriétés de la fonction génératrice).
La fonction génératrice d’une variable aléatoire X est définie lorsque X est à valeurs dans N. Sa n-ème
dérivée en 0 vaut alors
(n)
GX (0) = n!PX ({n}).

2 Inégalités
On cherche souvent à connaître la probabilité de certains événements, à partir de connaissances limitées
sur la loi. Il existe pour cela des inégalités qui permettent de contrôler ces probabilités.
Théorème 22 (Jensen).
Soient X une variable aléatoire réelle et Φ une fonction convexe. Alors
Φ(EX) ≤ EΦ(X).
Théorème 23 (Markov).
Soient X une variable aléatoire réelle. Alors, pour tout a > 0,
E|X|
P(|X| > a) ≤ .
a
Théorème 24 (Bienaymé-Tchebychev).
Soient X une variable aléatoire réelle. Alors, pour tout a > 0,
V ar(X)
P(|X − EX| > a) ≤ .
a2
Théorème 25 (Cauchy-Schwarz).
Soient X, Y ∈ L2 deux variables aléatoires réelles. Alors,

E|XY | ≤ EX 2 EY 2 .

6
3 Suites et vecteurs aléatoires
Comme nous avons vu, une variable aléatoire est une fonction mesurable d’une espace mesuré (Ω, A, P) à
valeurs dans un espace mesuré (E, T ). Lorsque (E, T ) = (Rn , B(Rn )), X est appelé un vecteur aléatoire.
Dans ce cas, X = (X1 , ..., Xn ). C’est ce que nous avons fait implicitement dans l’inégalité de Cauchy-
Schwarz.
De la même façon, on peut définir une suite de variables aléatoires (Xn )n≥1 .
On peut donc maintenant parler de couple de variables aléatoires.

Définition 26 (Covariance).
Soient (X, Y ) un couple de variables aléatoires tels que X et Y admettent un moment d’ordre 2. On note

Cov(X, Y ) = E ((X − EX)(Y − EY )) ,

la covariance de (X, Y ).
D’une manière plus générale, pour un vecteur aléatoire (X1 , ..., Xn ), la matrice de variance-covariance
Σ du vecteur (X1 , ..., Xn ) est définie par

Σi,j = Cov (Xi , Xj ).

Remarquons que Cov(X, X)=Var(X).

Définition 27 (Indépendance).
Soit (X1 , ..., Xn ) un vecteur aléatoire. Les variables X1 , ... Xn sont dites indépendantes si pour tous
A1 , ..., An ∈ B(R),
P(X1 ∈ A1 , ..., Xn ∈ An ) = Πni=1 P(Xi ∈ Ai ).
De manière équivalente, pour toutes fonctions f1 , ..., fn mesurables bornées,

E(Πni=1 fi (Xi )) = Πni=1 Efi (Xi ).

La notation P(X ∈ A, Y ∈ B) correspond à la probabilité que les événements {X ∈ A} et {Y ∈ B}


soient réalisés. Autrement dit,

P(X ∈ A, Y ∈ B) = P(X −1 (A) ∩ Y −1 (B)).

Remarque.
La notion d’indépendance est en fait une notion relative aux tribus. Dire que les variables aléatoires X
et Y sont indépendantes, signifie en fait que les tribus σ(X) et σ(Y ) sont indépendantes.
Il existe un résultat liant la covariance et l’indépendance.

Théorème 28 (Indépendance et covariance).


Soit (X, Y ) un vecteur aléatoire. Si X et Y sont indépendants, alors

Cov (X, Y ) = 0.

La réciproque est fausse en général.


Les vecteurs aléatoires que l’on retrouvera le plus souvent sont les vecteurs gaussiens.

Définition 29 (Vecteur gaussien).


Soit n ∈ R. Un vecteur aléatoire (X1 , ..., Xn ) est dit gaussien si toute combinaison linéaire de X1 , ..., Xn
est une variable aléatoire gaussienne (ou une masse Dirac).
Autrement dit, (X1 , ..., Xn ) est un vecteur gaussien si pour tout λ1 , ..., λn ∈ R,
n
X
λi Xi
i=1

est une variable aléatoire gaussienne.


Si on note m = (EX1 , ..., EXn ) et Σ la matrice de variance-covariance de (X1 , ..., Xn ), la loi du vecteur
(X1 , ..., Xn ) se note N (m, Σ).

7
Attention, il ne suffit pas que chacun des X1 , ..., Xn soit gaussien pour que (X1 , ..., Xn ) soit un vecteur
gaussien !
Bien que la réciproque du théorème 28 soit fausse en général, elle est valide pour les vecteurs gaussiens.

Théorème 30 (Indépendance et vecteurs gaussiens).


Soit (X, Y ) un vecteur gaussien. Alors X et Y sont indépendants si et seulement si
Cov (X, Y ) = 0.

Attention, il s’agit du cas très particulier des vecteurs gaussiens. C’est très généralement faux si les
vecteurs ne sont pas gaussiens !

Théorème 31 (Vecteur gaussien à densité).


Soit (X1 , ..., Xn ) un vecteur gaussien. Si sa matrice de variance-covariance Σ est de plein rang (i.e.
det(Σ) 6= 0), alors la loi de X est à densité par rapport à la mesure de Lebesgue dans Rn et sa densité
est définie par p
det(Σ−1 ) − 1 <x−m,Σ−1 (x−m)>
f (x) = e 2 ,
(2π)n/2
où m est le vecteur des espérances de m = (EX1 , ..., EXn ).

4 Convergence de variables aléatoires


Une variable aléatoire étant une fonction, il existe plusieurs notions de convergence.

Définition 32 (Convergence de variables aléatoires).


Soient (Xn )n≥1 une suite de variables aléatoires et un X une variable aléatoire.
On dit que Xn converge vers X
1. en probabilité si pour tout ε > 0,
n→∞
P(|Xn − X| > ε) −→ 0.

2. presque sûrement (p.s.) si pour presque tout ω ∈ Ω,


n→∞
Xn (ω) −→ X(ω).
n→∞
(i.e. P({ω ∈ Ω; Xn (ω) −→ X(ω)}) = 1)

3. dans L1 si
n→∞
E|Xn − X| −→ 0.
4. dans Lp si
n→∞
E|Xn − X|p −→ 0.
5. en loi si pour toute fonction f continue bornée,
n→∞
Ef (Xn ) −→ Ef (X).

Remarque.
La convergence en loi est en fait une convergence de la loi de Xn vers la loi de X. Il s’agit d’une
convergence de mesures et non une convergence de variables aléatoires. On parle alors de la convergence
faible de PXn vers PX .
Comme le veut l’usage, nous parlerons aussi de convergence en loi des variables aléatoires pour désigner
la même convergence.
Toutes ces convergences sont liées par des implications.

Théorème 33 (Implications entre les convergences).


Les notions de convergences sont liées entre elles par le tableau d’implications suivant. Soit p > 1.
presque sûre =⇒ probablité ⇐= L1 ⇐= Lp

loi

8
La convergence en loi (la plus faible), est très pratique car elle est la plus simple à montrer et permet,
dans certains cas, d’affirmer que la probabilité d’un événement converge.
Théorème 34 (Caractérisation de la convergence faible).
Soient (Xn )n≥1 une suite de variables aléatoires définies sur un espace (Ω, A, P) à valeurs dans un espace
E et X une variable aléatoire définie sur le même espace. Alors, les assertions suivantes sont équivalentes.
1. Xn converge en loi vers X,
2. pour tout ouvert O de E, lim inf P(Xn ∈ O) ≥ P(X ∈ O),
3. pour tout fermé F de E, lim sup P(Xn ∈ F ) ≤ P(X ∈ F ),
4. pour tout borélien B de E tel que P(X ∈ ∂B) = 0, lim P(Xn ∈ B) = P(X ∈ B).
Si de plus, E = R (autrement dit, les variables aléatoires sont réelles), elles sont aussi équivalentes aux
assertions suivantes.
5. la fonction de répartition Fn de Xn converge vers la fonction de répartition F de X en tout point
où F est continue, i.e.
Fn (t) → F (t), pour tout t tel que F est continue en t,

6. la fonction caractéristique ϕn de Xn converge vers la fonction caractéristique ϕ de X en tout point,


i.e.
ϕn (t) → ϕ(t), ∀t ∈ R.
Il n’est pas vrai en général qu’un couple de variables aléatoires (Xn , Yn )n≥1 converge si les deux suites
(Xn )n≥1 et (Yn )n≥1 convergent. Cependant, il existe les deux résultats suivants.
Théorème 35 (Convergence d’un couple).
Soient (Xn )n≥1 et (Yn )n≥1 deux suites de variables aléatoires à valeurs dans un espace E, qui convergent
presque sûrement, en probabilité ou dans Lp , respectivement, vers deux variables aléatoires X et Y . Alors
la suite de couples (Xn , Yn )n≥1 converge vers (X, Y ) presque sûrement, en probabilité ou dans Lp .
Attention, ce n’est en général pas le cas pour la convergence en loi, cependant, il existe le résultat
suivant.
Théorème 36 (Slutsky).
Soient (Xn )n≥1 une suite de variables aléatoires qui converge en loi vers une variable aléatoire X et
(Yn )n≥1 une suite de variables aléatoires qui converge en loi vers une constante c. Alors, la suite de
couples (Xn , Yn )n≥1 converge vers (X, c) en loi.
Théorème 37 (Convergences et fonction continue).
Soient (Xn )n≥1 une suite de variables aléatoires, X une variable aléatoire définie sur le même espace et
g une fonction continue. Alors,
p.s. p.s.
Xn −→ X =⇒ g(Xn ) −→ g(X)
proba. proba.
Xn −→ X =⇒ g(Xn ) −→ g(X)
loi loi
Xn −→ X =⇒ g(Xn ) −→ g(X)

Attention, c’est très généralement faux pour les convergences Lp .


En combinant les deux précédents théorèmes, on obtient par exemple l’utile résultat suivant.
Soient Xn → X p.s., Yn → Y p.s. et f une fonction continue. Alors f (Xn , Yn ) converge vers f (X, Y ). En
particulier,
— Xn + Yn → X + Y p.s.,
— Xn Yn → XY p.s.,

5 Mesure empirique

Étant donnée une suite (Xi )i≥1 de variables aléatoires indépendantes et de même loi PX , toutes les
variables aléatoires Xi ontP
la même espérance EX1 qui correspond à la valeur moyenne sur l’aléa de X1 .
n
La moyenne empirique n1 i=1 Xi correspond à la valeur moyenne sur le "temps" n. La loi des grands
nombres indique que ces deux notions coïncident.

9
Théorème 38 (Loi des grands nombres).
Soit (Xi )i≥1 une suite de variables aléatoires indépendantes et de même loi PX . Alors si E|X1 | < ∞,
n
1X
Xi −→ EX1 p.s. et dans L1 .
n i=1

Remarque.
Des variables aléatoires indépendantes ayant toutes une même loi sont dites i.i.d. (pour indépendantes
et identiquement distribuées).
Il est possible d’avoir un théorème encore plus fort, qui justifie l’utilisation des statistiques.
Définition 39 (Mesure empirique).
Soit (Xi )1≤i≤n un vecteur de n variables aléatoires i.i.d.. On appelle mesure empirique, la mesure Pn
définie par
n
1X
ω 7→ δX (ω) .
n i=1 i

Théorème 40 (Théorème fondamental de la statistique).


Soit (Xn )n≥1 une suite de variables aléatoires i.i.d. de loi commune PX . Alors, presque sûrement,
Pn → PX faiblement.

Le théorème suivant justifie l’importance de la loi normale (ou loi gaussienne).


Théorème 41 (Théorème central limite).
Soit (Xi )i≥1 une suite de variables aléatoires i.i.d. telle que EX12 < ∞. Alors,
√ n1 ni=1 Xi − EX1 n→∞
P
n √ −→ N (0, 1) en loi.
VarX1

6 Espérance conditionnelle
Lors de la modélisation d’une expérience aléatoire par un couple de variables aléatoires (X, Y ), il est
possible que l’on observe la variable aléatoire X avant Y . Cette observation nous apporte de l’information
sur Y et modifie donc sa loi. Pour rendre compte de cette "mise à jour" de la loi de probabilité de X, on
définit la loi conditionnelle de X sachant Y . Pour y parvenir, nous allons dans un premier temps définir
l’espérance conditionnelle.
Pour pouvoir la définir, nous allons utiliser le lemme suivant.
Lemme 42 (Lemme de Doob).
Soient X et Y deux variables aléatoires définies sur un même espace, à valeurs dans (E, E) et (Rd , B(Rd ),
respectivement. Alors,
Y est σ(X)-mesurable ⇔ il existe une fonction f borélienne telle que Y = f (X).

6.1 Définition pour v.a. dans L2

Nous commençons par la définir pour les v.a. de carré intégrable.


Nous considérons l’espace L2 (Ω, A, P) muni du produit scalaire
< Y, Z >= EP (Y Z).
Cet espace est un espace de Hilbert. De plus, pour une v.a. X, le sous-espace L2 (Ω, σ(X), P) est un
sous-espace de Hilbert (il est même fermé) de l’espace L2 (Ω, A, P). Nous obtenons alors la définition
suivante
Définition 43 (Espérance conditionnelle à une v.a.).
Soit Y ∈ L2 (Ω, A, P). Alors l’espérance conditionnelle de Y sachant X est l’unique élément Ŷ de
L2 (Ω, σ(X), P) tel que
E(Ŷ Z) = E(Y Z), ∀Z ∈ L2 (Ω, σ(X), P).
Cette espérance conditionnelle est notée E(Y |X).

10
Maintenant nous pouvons étendre cette définition à n’importe quelle sous-tribu G ⊂ A.

Définition 44 (Espérance conditionnelle à une tribu).


Soit Y ∈ L2 (Ω, A, P). Alors l’espérance conditionnelle de Y sachant G est l’unique élément Ŷ de L2 (Ω, G, P)
tel que
E(Ŷ Z) = E(Y Z) ∀Z ∈ L2 (Ω, G, P).
Cette espérance conditionnelle est notée E(Y |G).
Ces définitions sont essentielles et on les utilisera très souvent dans les calculs.

6.2 Définition pour une v.a. dans L1

Nous souhaitons étendre la définition donnée dans le cadre L2 aux v.a. dans L1 (Ω, A, P). Cette extension
commence par l’extension aux v.a. dans L+ (Ω, A, P) puis aux v.a. dans L1 (Ω, A, P) en remarquant que
si X ∈ L1 (Ω, A, P) alors il existe X + et X − dans L+ (Ω, A, P) telles que X = X + − X − .

Théorème 45 (Espérance conditionnelle dans L1 ).


Soient Y ∈ L1 (Ω, A, P) et G une sous-tribu de A. Alors il existe un unique Ŷ ∈ L1 (Ω, A, P) tel que pour
toute v.a. Z bornée G-mesurable.
E(Y Z) = E(Ŷ Z).
Ŷ est appelé l’espérance conditionnelle de Y sachant la tribu G et se note

E(Y |G).

Remarque.
Lorsque Y ∈ L2 (Ω, A, P), cette définition correspond à celle donnée ci-dessus pour les v.a. dans L2 (Ω, A, P).

6.3 Premières propriétés

Voici quelques propriétés utiles de l’espérance conditionnelle.

Théorème 46.
Soient Y ∈ L1 (Ω, A, P) et G une sous-tribu de A. Alors
i. Si Y ≥ 0, alors E(Y |G) ≥ 0.
ii. L’application Y 7→ E(Y |G) est linéaire.
Les trois théorèmes suivants sont très importants car ils permettent une manipulation aisée des v.a. et
de leurs espérances conditionnelles.

Théorème 47.
Soient Y ∈ L1 (Ω, A, P) et G une sous-tribu de A. Alors

E(Y |G) = Y ssi Y est G-mesurable.

Le théorème suivant concerne le cas où on conditionne par rapport à une v.a. indépendante de la v.a. Y .

Théorème 48.
Soient Y ∈ L1 (Ω, A, P) et X une v.a.. Si X et Y sont indépendantes, alors

E(Y |X) = E(Y ).

Ce théorème signifie que la connaissance de la v.a. X ne nous est d’aucune utilité pour prédire la v.a. Y .

Théorème 49.
Soient X et Y deux v.a. sur (Ω, A, P) et G une sous-tribu de A. Supposons que la X est G-mesurable.
Alors dans les deux cas suivants :
— X, Y et XY sont intégrables,
— X et Y sont positives,
on a
E(XY |G) = XE(Y |G).

11
Enfin, à l’image des théorèmes de convergence pour l’espérance classique, nous avons le théorème suivant
présentant les convergences dans le cas de l’espérance conditionnelle.

Théorème 50.
Soient (Yn )n∈N? une suite de v.a. de (Ω, A, P) et G une sous-tribu de A.
Convergence monotone : Si Yn ≥ 0 pour tout n ∈ N? et Yn croît vers une v.a. Y presque sûrement,
alors
lim E(Yn |G) = E(Y |G) p.s.
n→+∞

Lemme de Fatou : Si Yn ≥ 0 pour tout n ∈ N? , alors

E(lim inf Yn |G) ≤ lim inf E(Yn |G) p.s.


n→+∞ n→+∞

Convergence dominée de Lebesgue : Si limn→+∞ Yn = Y p.s. et |Yn | ≤ Z pour tout n ∈ N? avec


Z ∈ L1 (Ω, A, P), alors
lim E(Yn |G) = E(Y |G) p.s.
n→+∞

6.4 Inégalité de Jensen

Théorème 51.
Soit φ : R 7→ R une fonction convexe et soit X une v.a. dans L1 (Ω, A, P). Supposons que φ(X) ∈
L1 (Ω, A, P). Pour toute sous-tribu G de A, on a

φ (E(X|G)) ≤ E (φ(X)|G) .

Cette inégalité est connue sous le nom d’Inégalité de Jensen.

6.5 Loi conditionnelle

Nous commençons par définir la probabilité de transition qui apparaît aussi dans l’étude des processus.

Définition 52.
Soient (Ω, A) et (F, F) deux espaces mesurables. On appelle probabilité de transition de Ω dans F une
application de Ω × F dans [0, 1] :
n : (ω, A) 7→ n(ω, A),
telle que
i. pour tout ω ∈ Ω, l’application A ∈ F 7→ n(ω, A) est une probabilité sur (F, F),
ii. pour tout A ∈ F, l’application ω 7→ n(ω, A) est A-mesurable.
Voici quelques propriétés de la probabilité de transition.

Théorème 53.
Soit n une probabilité de transition de (Ω, A) dans (F, F).
R
i. Si g est une fonction mesurable sur (F, F) positive ou bornée, alors φ(ω) = F g(t) n(ω, dt) est
une fonction mesurable sur (Ω, A) positive ou bornée.
R
ii. Si µ est une probabilité sur (Ω, A), alors ν(A) = Ω n(ω, A) µ(dω) est une probabilité sur (F, F).
De plus pour toute fonction positive ou bornée, on a
Z Z Z 
h(t)ν(dt) = h(t) n(ω, dt) µ(dω).
F Ω F

Définition 54.
Soient X et Y deux v.a. à valeurs respectivement dans (E, E) et (F, F). On appelle loi conditionnelle
de Y sachant X une probabilité de transition de E dans F , notée n(x, dy), telle que pour toute fonction
positive h F-mesurable, Z
E(h(Y )|X) = h(y) n(X, dy) p.s.
F

Ceci signifie que P(Y ∈ A|X = x) = n(x, A) presque sûrement.

12
Pour démontrer que n(x, dy) est la loi conditionnelle de Y sachant X = x, il est nécessaire et suffisant de
vérifier que pour toutes fonctions h, g ≥ 0 ou bornées,
 Z 
E (h(Y ) g(X)) = E g(X) h(y) n(X, dy) .
F

Remarque : il faut noter que la loi conditionnelle de Y sachant X n’est pas unique. En effet, elle est définie
presque sûrement.
Voici une proposition très utile pour calculer la loi conditionnelle.

Proposition 55.
Soient Y et X des v.a. dans Rq et Rp . On suppose que la loi du couple (Y, X) admet une densité f (y, x)
par rapport à la mesure ν ⊗ µ (mesures σ-finies sur Rq et Rp ). On pose
Z
φ(x) = f (y, x) µ(dy),
Rq
Γ = {x ∈ Rp : φ(x) = 0} ,
h(y, x) = f (y, x)/φ(x), ∀x 6∈ Γ.

Alors la loi conditionnelle de Y sachant X est donnée par la probabilité de transition n(x, dy) = h(y, x)ν(dy)
pour x 6∈ Γ et définie arbitrairement pour x ∈ Γ.
La fonction h(y, x) s’appelle la densité conditionnelle de Y sachant X.
La connaissance de la loi conditionnelle de Y sachant X et de la loi de X permet de calculer l’espérance
de toute fonction dans L1 (E × F ).

Proposition 56.
Soient Y et X des v.a. à valeurs dans Rq et Rp . Soit ρ la loi de X et n(x, dy) la loi conditionnelle de Y
sachant X. Alors pour toute fonction h dans L1 (Rp × Rq ), on a
Z Z 
E (h(X, Y )) = h(x, y) n(x, dy) ρ(dx).
Rp Rq

13

Vous aimerez peut-être aussi