0% ont trouvé ce document utile (0 vote)
33 vues30 pages

Lois et Espérances Conditionnelles

Transféré par

Nizar Sahid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues30 pages

Lois et Espérances Conditionnelles

Transféré par

Nizar Sahid
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités III

STEP, MINES ParisTech∗

8 décembre 2023 (#db2aa89)

Table des matières


Objectifs d’apprentissage 2

Lois conditionnelles 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Lois conditionnelles dans un couple . . . . . . . . . . . . . . . . . . . . 3
Cas où X est discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Image de la probabilité conditionnelle . . . . . . . . . . . . . . . 5
Densités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 6
Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Fubini conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 8
A noter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Formule de balayage conditionnel . . . . . . . . . . . . . . . . . . 9
Critère d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . 10

Espérance conditionnelle 11
Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 11
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Espérance conditionelle d’une fonction de variables aléatoires . . 12
Espérance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Transfert conditionnel . . . . . . . . . . . . . . . . . . . . . . . . 13
Exemple : vecteurs Gaussiens à densité . . . . . . . . . . . . . . . . . . 13
∗ Ce document est un des produits du projet ‡ paulinebernard/CDIS issu de la collaboration

de (P)auline Bernard (CAS) et (T)homas Romary (GEOSCIENCES). Il dérive du projet ‡


boisgera/CDIS, initié par la collaboration de (S)ébastien Boisgérault (CAOR), (T)homas
Romary et (E)milie Chautru (GEOSCIENCES), (P)auline Bernard (CAS), avec la contribution
de Gabriel Stoltz (Ecole des Ponts ParisTech, CERMICS). Il est mis à disposition selon les
termes de la licence Creative Commons “attribution – pas d’utilisation commerciale – partage
dans les mêmes conditions” 4.0 internationale.

1
Régression et espérance conditionnelle des variables de carré inté-
grable 15
Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Espace de Hilbert des variables aléatoires de carré intégrable . . . . . 16

Exercices 18
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 19
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Solutions 21
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 27
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Références 30

Objectifs d’apprentissage
Cette section s’efforce d’expliciter et de hiérarchiser les acquis d’apprentissages
associés au chapitre. Ces objectifs sont organisés en paliers :
(◦) Prérequis (•) Fondamental (••) Standard (•••) Avancé (••••) Expert
Sauf mention particulière, la connaissance des démonstrations du document n’est
pas exigible 1

Lois conditionnelles
— •• connaître le théorème de Fubini conditionnel
— •• connaître les formules de balayage conditionnel
— •• savoir appliquer ces résultats pour différents types de loi de probabilité
(à densité ou non)
— • connaître le critère d’indépendance qui résulte du théorème de Fubini
conditionnel
1. l’étude des démonstrations du cours peut toutefois contribuer à votre apprentissage, au
même titre que la résolution d’exercices.

2
Espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
d’une fonction de variables aléatoires
— • connaître et savoir utiliser la formule de l’espérance totale
— •• savoir calculer la densité conditionnelle d’un certain nombre de com-
posantes sachant les autres dans un vecteur gaussien à densité

Cas L2
— •• savoir que la régression linéaire est la meilleure approximation linéaire
(au sens des moindres carrés) d’une variable aléatoire par une autre
— ••• savoir retrouver ce résultat
— •••• connaître l’interprétation géométrique de l’espérance conditionnelle
dans le cas L2
— • connaître et savoir utiliser la formule de la variance totale

Lois conditionnelles
Introduction
On s’est consacré jusqu’à présent à l’étude de variables aléatoires indépendantes.
En pratique cependant, on rencontre souvent des variables dépendant les unes
des autres. Dans le cas de la météo, les variables température, vitesse du vent et
pression en fournissent un exemple. Dans les approches bayésiennes, on résume
l’information disponible sur l’état du système étudié par la loi a priori et
on met à jour notre connaissance du système en incorporant de l’information
supplémentaire (par exemple des observations). On cherche alors à caractériser
la loi a posteriori de l’état du système, qui est la loi de l’état sachant l’in-
formation supplémentaire. On va ainsi s’attacher dans ce chapitre à décrire les
lois conditionnelles qui vont permettre de résumer l’information apportée
par une variable (ou un vecteur) sur une autre et s’intéresser en particulier
à l’espérance conditionnelle qui indiquera le comportement moyen d’une
variable conditionnellement à une autre. Ce dernier cas pose le cadre probabiliste
d’un des problèmes fondamentaux en apprentissage statistique : l’apprentissage
supervisé, où on dispose d’un ensemble de réalisations d’une variable dont on
cherche à prédire le comportement à partir d’un ensemble de variables dites
explicatives (ou prédicteurs).

Lois conditionnelles dans un couple


Soient deux variables aléatoire X et Y définies sur le même espace probabilisé
(Ω, A, P). Dans le cas où X et Y sont indépendantes, on a vu que pour tous
boréliens B1 et B2 de B(R), on a
Z
P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 )P(Y ∈ B2 ) = PX (B1 )PY (B2 ) = PY (B2 )PX (dx),
B1

3
où on a utilisé le théorème de Fubini.
Du fait de l’indépendance, on a aussi PY (B2 ) = P(Y ∈ B2 ) = P(Y ∈ B2 |X ∈
B1 ) = PY (B2 |X ∈ B1 ) ce qui exprime que pour tout borélien B1 , la loi condi-
tionnelle de Y sachant X ∈ B1 est identique à la loi de Y .
Lorsque X et Y en sont pas indépendantes, on va chercher à établir une égalité
de la forme
Z
P(X ∈ B1 , Y ∈ B2 ) = PX (B1 )PY (B2 |X ∈ B1 ) = PY |X=x (B2 )PX (dx)
B1

et s’intéresser à caractériser la loi conditionnelle de Y sachant X = x, que l’on


notera donc PY |X=x .
De même, pour toute application g : R2 → R mesurable telle que g(X, Y )
admette une espérance (relativement à la loi du couple PX,Y ), on voudrait
écrire : Z Z 
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx)
R R

Pour bien fixer les idées, on va décrire spécifiquement les cas où X est discrète
puis où le couple (X, Y ) admet une densité avant d’aborder le cas général.

Cas où X est discrète


Dans ce paragraphe, on suppose que la variable aléatoire réelle X est discrète,
c’est-à-dire que l’ensemble X(Ω) ⊂ R des valeurs xk prises par X est au plus
dénombrable.
On peut imposer que ∀x ∈ X(Ω) on ait P(X = x) > 0, quitte à modifier X sur
un ensemble de probabilité nulle. On va ainsi pouvoir utiliser la définition de
la probabilité conditionnelle pour des événements de la forme {X = x}. Ceci
permet d’écrire pour tous boréliens B1 et B2 de R :
X
P(X ∈ B1 , Y ∈ B2 ) = P(X = x, Y ∈ B2 )
x∈X(Ω)∩B1
X
= P(X = x)P(Y ∈ B2 |X = x)
x∈X(Ω)∩B1
Z
= P(Y ∈ B2 |X = x)PX (dx)
B1
P
puisque PX = x∈X(Ω) P(X = x)δx . On obtient ainsi l’écriture souhaitée en
posant

PY |X=x (B2 ) = P(Y ∈ B2 |X = x), ∀x ∈ X(Ω), ∀B2 ∈ B(R).

4
Remarque – Image de la probabilité conditionnelle
PY |X=x ainsi définie est simplement la probabilité sur (R, B(R)) image par Y de
la probabilité conditionnelle P(·|X = x) définie sur (Ω, A), autrement dit, la loi
de Y relative à P(·|X = x) et non à P.
R
La formule ci-dessus s’écrit PX,Y (B1 × B2 ) = B1 P(Y ∈ B2 |X = x)PX (dx), où
PX,Y est la loi du couple. Elle se généralise à tout borélien B de R2 de la manière
suivante :

X
PX,Y (B) = P((X, Y ) ∈ B) = P(X = x, (x, Y ) ∈ B)
x∈X(Ω)
X
= P(X = x)P((x, Y ) ∈ B|X = x)
x∈X(Ω)
X
= P(X = x)PY |X=x (Bx ),
x∈X(Ω)

où Bx = {y ∈ R, (x, y) ∈ B}. Ainsi, pour tout B borélien de R2 ,

Z Z Z 
E(1B (X, Y )) = 1B (x, y)PX,Y (dxdy) = 1B (x, y)PY |X=x (dy) PX (dx)
R2 R R

Par linéarité de l’espérance, on peut ainsi exprimer l’espérance d’une fonction


étagée. Pour avoir le résultat pour une fonction mesurable positive, on exprime
celle-ci comme limite simple d’une suite croissante de fonctions étagées, et
on applique le théorème de convergence monotone. Enfin, on applique cette
construction à g+ et g− pour une fonction g de signe quelconque PX,Y -intégrable.
En d’autres termes, on reprend le procédé de construction de l’intégrale de
Lebesgue. On obtient ainsi la formule souhaitée :
Z Z 
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx).
R R

Exemple – Pour fixer les idées (1) Soit X ≥ 0 une variable aléatoire à
valeurs dans N et Y une variable aléatoire réelle positive telle que la loi du couple
PX,Y vérifie pour tout n ∈ N et tout borélien B2 de R :

tn
Z
PX,Y ({n} × B2 ) = (1 − α)α n
e−t dt, 0 < α < 1
B2 ∩R∗+
n!

5
PX,Y est bien une probabilité sur R2 puisque par convergence monotone :

PX,Y (R2 ) = PX,Y (N × R)


X
= PX,Y ({n} × R)
n∈N
tn
X Z
= (1 − α)αn e−t dt
R∗ n!
n∈N +
Z X (αt)n
= (1 − α) e−t dt
R∗ n!
+ n∈N
Z
= (1 − α) e−(1−α)t dt = 1
R∗
+

où on aura reconnu la loi exponentielle de paramètre (1 − α). ∀n ∈ N,

tn t(n−1)
Z Z Z
e−t dt = e−t dt = . . . = e−t dt = 1

R+ n! ∗
R+ (n − 1)! ∗
R+

par intégrations par parties itérées. La loi marginale de X s’écrit donc :

∀n ∈ N, P(X = n) = PX,Y ({n} × R∗+ ) = (1 − α)αn ,

loi géométrique de paramètre (1 − α). On en déduit la loi conditionnelle de Y


sachant X = n :
PX,Y ({n} × B2 ) tn
Z
PY |X=n (B2 ) = P(Y ∈ B2 |X = n) = = e−t dt
P(X = n) B2 ∩R∗
+
n!

et PY |X=n est la donc la loi gamma de paramètre (n + 1, 1).

Densités conditionnelles
On suppose maintenant que le couple (X, Y ) admet R une densité fX,Y (par rapport
à la mesure
R de Lebesgue). On note f X (x) = f
R X,Y
(x, y)dy (respectivement
fY (y) = R fX,Y (x, y)dx) la loi marginale de X (resp. de Y ). On s’intéresse à
caractériser la densité de la variable Y connaissant la valeur prise par la variable
X, c’est la densité conditionnelle de Y sachant {X = x} :

Proposition – Densité conditionnelle


La formule suivante définit une densité sur R, pour tout x ∈ R tel que fX (x) > 0.
fX,Y (x, y)
fY |X=x (y) = .
fX (x)
Cette fonction s’appelle la densité conditionnelle de Y sachant {X = x}. La
probabilité conditionnelle de Y sachant {X = x} s’écrit ainsi PY |X=x = fY |X=x λ,
où λ représente la mesure de Lebesgue.

6
Démonstration La preuve est immédiate puisque fY |X=x est une fonction
positive d’intégrale 1. ■

Exercice – Dans un triangle (1) (•) Soient X et Y de densité jointe


fX,Y (x, y) = x1 1T (x, y) où T est le triangle T = {0 < y < x < 1}.

1. Calculer la densité marginale de X


2. Calculer la densité conditionnelle de Y sachant X = x.

(Solution p. 21.)
L’interprétation de cette définition est la suivante : la fonction fY |X=x est la
densité de la “loi conditionnelle de Y sachant que X = x”. Bien sûr, nous avons
P(X = x) = 0 puisque X admet une densité, donc la phrase ci-dessus n’a pas
réellement de sens, mais elle se justifie heuristiquement ainsi : dx et dy étant de
“petits” accroissements des variables x et y et lorsque f et fX sont continues et
strictement positives respectivement en (x, y) et x :

fX (x)dx ≈ P(X ∈ [x, x + dx])


fX,Y (x, y)dxdy ≈ P(X ∈ [x, x + dx], Y ∈ [y, y + dy])

Par suite
P(X ∈ [x, x + dx], Y ∈ [y, y + dy])
fY |X=x (y)dy ≈
P(X ∈ [x, x + dx])
≈ P(Y ∈ [y, y + dy]|X ∈ [x, x + dx])

On a alors le résultat suivant qui résout le problème posé en introduction :

Proposition – Proposition
Pour toute fonction g : R2 → R telle que g(X, Y ) admette une espérance, on a :
Z Z 
E(g(X, Y )) = g(x, y)fY |X=x (y)dy fX (x)dx,
R R

dont on déduit, en prenant g = 1B1 ×B2 , que :


Z Z 
P(X ∈ B1 , Y ∈ B2 ) = fY |X=x (y)dy fX (x)dx.
B1 B2

7
Démonstration On a
Z
E(g(X, Y )) = g(x, y)fX,Y (x, y)dydx
R2
Z
= g(x, y)fY |X=x (y)fX (x)dydx
2
ZR Z 
= g(x, y)fY |X=x (y)dy fX (x)dx,
R R

les calculs étant licites


R par application du théorème de Fubini et du fait que
l’application x 7→ R g(x, y)fY |X=x (y)dy est définie pour fX (x) > 0, soit presque
partout relativement à la mesure PX = fX λ. ■

Cas général
On peut établir le résultat suivant, qui complète le théorème de Fubini et le
résultat d’existence et d’unicité des mesures produits, et que l’on admettra.

Théorème – Fubini conditionnel


Soit un couple (X, Y ) de variables aléatoires réelles de loi jointe PX,Y , il existe
une famille PY |X=x x∈R de probabilités sur (R, B(R)), unique à une égalité
PX -presque partout près 2 , qui vérifie pour tous B1 , B2 boréliens de R :
Z Z 
PX,Y (B1 × B2 ) = PY |X=x (dy) PX (dx).
B1 B2

Ces probabilités sont appelées lois conditionnelles de Y sachant X = x. On


a de plus pour toute application g : R2 → R telle que g(X, Y ) admette une
espérance :
Z Z 
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx).
R R

Remarque – A noter
— Ce résultat peut être interprété comme un théorème de Fubini condi-
tionnel, dans le sens où il permet une intégration séquentielle, mais ici
la mesure de probabilité du couple (X, Y ) s’exprime comme un produit
de mesures dont l’un des termes dépend de la variable d’intégration de
l’autre. En particulier, si on change l’ordre d’intégration, on change les
mesures qui interviennent.
— Fréquemment, dans les applications, la famille des lois conditionnelles est
une donnée du modèle considéré, et leur existence ne pose donc pas de
problème !
2. c’est-à-dire qu’on peut définir ces probabilités de la manière qu’on souhaite pour les
boréliens B tels que PX (B) = 0.

8
— On retrouve les cas vus précédemment
R en notant
P que pour tout borélien
B1 de R on a PX (B1 ) = B1 PX (dx) = x∈B1 P(X = x) lorsque X
est
R discrète, et que pour tous boréliens
R B 1 et B2 de R on a PX (B1 ) =
f
B1 X
(x)dx et PX,Y (B1 × B 2 ) = f
B1 ×B2 X,Y
(x, y)dxdy.
— Dans tout ce qui précède, les rôles de X et Y peuvent évidemment être
inversés.

Conséquences
Le théorème précédent (p. 8) a deux conséquences majeures. Il fournit d’une part
un moyen efficace d’identifier la loi marginale de Y connaissant la loi marginale
de X et la loi de Y sachant X = x. En effet, en notant que pour tout borélien B
de R, PY (B) = PX,Y (R × B) et en appliquant ce théorème, on a la proposition
suivante :

Proposition – Formule de balayage conditionnel


— La loi marginale PY de Y s’exprime comme la moyenne des lois condi-
tionnelles PY |X=x pondérée par la loi de X. Pour tout B borélien de
R
Z Z  Z
PY (B) = PY |X=x (dy) PX (dx) = PY |X=x (B)PX (dx)
R B R

— Dans le cas où X est discrète (à valeurs dans I dénombrable), on retrouve


une expression de la formule des probabilités totales et composées :
X
PY (B) = P(Y ∈ B) = P(Y ∈ B|X = x)P(X = x)
x∈I

— Dans le cas où le couple (X, Y ) admet une densité, puisqu’on a


fX,Y (x, y) = fY |X=x (y)fX (x), on obtient l’expression suivante pour la
densité marginale :
Z Z
fY (y) = fX,Y (x, y)dx = fY |X=x (y)fX (x)dx.
R R

On a en particulier la formule de Bayes pour les densités : pour tout x


tel que fX (x) > 0 et tout y tel que fY (y) > 0 :

fX,Y (x, y) fY |X=x (y)fX (x)


fX|Y =y (x) = = .
fY (y) fY (y)

Exemple – Pour fixer les idées (2) Poursuivons l’exemple vu plus haut
(p. 5). On rappelle qu’on a déjà identifié la loi marginale de X ainsi que la loi
conditionnelle de Y sachant X = n pour n ∈ N que l’on rappelle ici :
tn
Z
n
P(X = n) = (1 − α)α , n ∈ N et ∀B ∈ B(R), PY |X=n (B) = e−t dt
B∩R∗+
n!

9
On peut en déduire la loi marginale de Y en utilisant la formule de balayage
conditionnel (p. 9) et le théorème de convergence monotone :

tn
X Z
PY (B) = (1 − α)αn e−t dt
B∩R∗ n!
n∈N +
Z X (αt)n
= (1 − α) e−t dt
B∩R∗ n!
+ n∈N
Z
= 1R+ (t)(1 − α)e−(1−α)t dt,
B

de sorte que Y suit une loi exponentielle de paramètre (1 − α).


En inversant les rôles, on va pouvoir identifier la loi de X sachant Y ∈ B en
notant que

PX,Y ({n} × B) = PX ({n})PY |X=n (B)


(αt)n −αt
Z
= e PY (dt)
n!
ZB
= PX|Y =t ({n})PY (dt)
B
n
où l’on reconnaît que PX=n|Y =t ({n}) = (αt)
n! e
−αt
, c’est-à-dire que X sachant
Y = t suit une loi de Poisson de paramètre αt pour PY -presque tout t.
En utilisant, le théorème de Fubini conditionnel (p. 8), on obtient également une
nouvelle caractérisation de l’indépendance de deux variables aléatoires faisant
intervenir les lois conditionnelles.

Proposition – Critère d’indépendance


1. X et Y sont indépendantes si et seulement si, pour PX -presque tout x,
PY |X=x ne dépend pas de x et dans ce cas, on a PY |X=x = PY , c’est-à-dire
que la loi conditionnelle est identique à la loi marginale.
2. Dans le cas où (X, Y ) admet une densité, X et Y sont indépendantes si
et seulement si la densité conditionnelle de Y sachant {X = x} ne dépend
pas de x.

Démonstration
1. Si X et Y sont indépendantes,
R pour tous B1 , B2 boréliens
R de R, PX,Y (B1 ×
B2 ) = PX (B1 )PY (B2 ) = B1 PY (B2 )PX (dx) = B2 PX (B1 )PY (dy). Le
résultat d’unicité du théorème de Fubini conditionnel (p. 8) (à une égalité
PX -presque sûre près), nous indique alors que PY |X=x (B2 ) = PY (B2 ).
R
Inversement, si PY |X=x = PY , alors PX,Y (B1 ×B2 ) = B1 PY |X=x (B2 )PX (dx) =
R
P (B2 )PX (dx) = PX (B1 )PY (B2 ).
B1 Y

10
2. Si X et Y sont indépendantes, fX,Y (x, y) = fX (x)fY (y), d’où
fY |X=x (y) = fY (y).
Inversement, si fY |X=x (y) = fY (y) alors fX,Y (x, y) = fY |X=x (y)fX (x) =
fY (y)fX (x) et X et Y sont indépendantes.

Espérance conditionnelle
Puisque PY |X=x est la loi d’une variable aléatoire, on peut définir l’espérance
qui lui est associée et introduire la notion d’espérance conditionnelle dans le cas
où Y est intégrable.

Définition – Espérance conditionnelle


Soit Y ∈ L1 .

1. L’espérance conditionnelle de Y sachant {X = x} est définie par


Z
E(Y |X = x) = yPY |X=x (dy).
R

2. L’espérance conditionnelle de Y sachant X est la variable aléatoire


définie par :

E(Y |X) = ψ(X), avec ψ(x) = E(Y |X = x).

Exercice – Dans un triangle (2) (•) Soient X et Y de densité jointe


fX,Y (x, y) = x1 1T (x, y) où T est le triangle T = {0 < y < x < 1}. Calculer
l’espérance conditionnelle de Y sachant X. (Solution p. 21.)

Remarque – Conséquences
1. ψ(x) n’est définie que pour x ∈/ N , avec P(X ∈ N ) = 0. Par conséquent, la
définition (p. 11) définit bien l’espérance conditionnelle ψ(X) = E(Y |X)
PX -presque partout, autrement dit avec probabilité 1, ou encore presque
sûrement.
2. E(E(|Y ||X)) = E(|Y |) comme conséquence directe du théorème de Fubini
conditionnel (p. 8). L’espérance conditionnelle de Y sachant X est bien
définie dès que Y est intégrable.
3. Lorsque (X, Y ) admet une densité, l’espérance conditionnelle de Y sachant
{X = x} s’écrit
Z
E(Y |X = x) = yfY |X=x (y)dy.
R

11
Exercice – Auto-conditionnement (•) Montrer que E(Y |Y ) = Y . (Solution
p. 21.)
On peut étendre cette définition aux variables de la forme g(X, Y ).

Définition – Espérance conditionelle d’une fonction de variables aléa-


toires
Soit (X, Y ) un couple de variables aléatoires réelles et g une fonction mesurable
positive ou PX,Y -intégrable sur R2 .

1. L’espérance conditionnelle de g(X, Y ) sachant {X = x} est définie par


Z
E(g(X, Y )|X = x) = g(x, y)PY |X=x (dy).
R

2. L’espérance conditionnelle de g(X, Y ) sachant X est la variable aléa-


toire définie par :

E(g(X, Y )|X) = ψ(X), avec ψ(x) = E(g(X, Y )|X = x).

Théorème – Espérance totale


Si Y est intégrable, alors ψ(X) = E(Y |X) est intégrable, et

E(ψ(X)) = E(Y ).

Démonstration C’est une conséquence directe du théorème de Fubini condi-


tionnel (p. 8). ■
Ce résultat permet de calculer E(Y ) en conditionnant par une variable auxiliaire
X : Z
E(Y ) = E(Y |X = x)PX (dx)
R

Il généralise la formule des probabilités totales, qui correspond ici à Y = 1A , et


Bx = {X = x} où les Bx forment cette fois une partition non dénombrable de R.
On l’écrit souvent sous la forme

E (E(Y |X)) = E(Y )

et on l’appelle la formule de l’espérance totale.


L’espérance conditionnelle étant définie comme l’espérance selon la loi condition-
nelle, elle hérite des propriétés usuelles de l’espérance :

1. si Y et Z sont intégrables, E(aY + bZ|X) = aE(Y |X) + bE(Z|X),


2. E(Y |X) ≥ 0 si Y ≥ 0,
3. E(1|X) = 1.

12
De plus, si g est mesurable positive ou PX -intégrable,

E(Y g(X)|X) = g(X)E(Y |X)

est une généralisation de l’égalité 1. ci-dessus, au cas où a = g(X), qui doit être
considéré “comme une constante” dans le calcul de l’espérance conditionnelle
sachant X (X est fixée comme une donnée connue a priori). En effet, on a alors
E(g(x)Y |X = x) = g(x)ψ(x). Enfin, on déduit directement du théorème de
Fubini conditionnel (p. 8) la proposition suivante.

Proposition – Transfert conditionnel


Soient un couple (X, Y ) de variables aléatoires réelles de loi jointe PX,Y et g une
fonction mesurable positive ou PX,Y -intégrable sur R2 . On a pour PX -presque
tout x dans R
Z
E(g(X, Y )|X = x) = E(g(x, Y )|X = x) = g(x, y)PY |X=x (dy)
R

Si de plus X et Y sont indépendantes, on a :


Z
E(g(X, Y )|X = x) = E(g(x, Y )|X = x) = g(x, y)PY (dy).
R

Autrement dit, lorsqu’on conditionne par l’événement {X = x}, cela revient à


fixer la valeur de la variable aléatoire X à la constante x.

Exercice – Espérance conditionnelle d’un produit de variables (•)


Calculer E(XY |X = x) puis E(XY |X). (Solution p. 21.)

Exemple : vecteurs Gaussiens à densité


Dans ce qui précède, on a décrit les lois et les espérances conditionnelles dans
le cas d’un couple de variables aléatoires à valeurs dans R2 . Ces résultats sont
aussi valables pour des couples de vecteurs, dont on décrit ici un cas particulier.
Dans le cas des vecteurs gaussiens à densité, c’est-à-dire dont la matrice de
covariance est définie positive et donc inversible, le calcul des lois conditionnelles
de certaines composantes par rapport aux autres est particulièrement aisé. On
va voir en particulier que les lois conditionnelles ont le bon goût d’être elles-
mêmes gaussiennes, ce qui explique (en partie) le succès de ces modèles dans les
applications.
On considère un vecteur gaussien X = (X1 , . . . , Xn ) à valeurs dans Rn d’espé-
rance m et de matrice de covariance C définie positive. On a vu au chapitre 2
que la densité du vecteur X s’écrit pour x ∈ Rd :
 
1 1
fX (x) = p exp − (x − m)t C −1 (x − m)
(2π)n/2 det(C) 2

13
Soit 1 ≤ k < n un entier. On souhaite exprimer fY |Z=z , la densité conditionnelle
de Y = (X1 , . . . , Xk ) sachant Z = (Xk+1 , . . . , Xn ) = (xk , . . . , xn ) = z (si
k + 1 = n, ce vecteur se réduit à une seul valeur). On a vu que

fX = fY |Z=z fZ ,

où fZ est la densité marginale de Z. On cherche donc à décomposer fX de la


sorte. On note m = (mY , mZ ) et on remarque que C peut se décomposer en
blocs :  
CY CY,Z
C=
CZ,Y CZ
où CY = Cov(Y, Y ), CZ = Cov(Z, Z) et CY,Z = Cov(Y, Z). Le complément de
Schur 3 du bloc CY est la matrice

CSY = CY − CY,Z CZ−1 CZ,Y

et permet d’exprimer l’inverse de C comme :

CSY−1 −CSY−1 CY,Z CZ−1


 
−1
C =
−CZ−1 CZ,Y CSY−1 CZ−1 + CZ−1 CZ,Y CSY−1 CY,Z CZ−1

On peut alors réarranger les termes de la forme quadratique dans fX et on


obtient :
t
(x − m)t C −1 (x − m) = y − (mY + CY,Z CZ−1 (z − mZ )) CSY−1
. y − (mY + CY,Z CZ−1 (z − mZ ))


+ (z − mZ )t CZ−1 (z − mZ )

Pour la constante, on peut remarquer que :

det(C) = det(CSY ) det(CZ ).

On en déduit ainsi que


 
1 1 t −1
fY |Z=z (y) = p exp − (y − ψ(z)) CSY (y − ψ(z)))
(2π)k/2 det(CSY ) 2

C’est-à-dire que la variable aléatoire Y |Z = z est gaussienne d’espérance


mY |Z=z = ψ(z) = mY + CY,Z CZ−1 (z − mZ ) et de matrice de covariance CSY =
CY − CY,Z CZ−1 CZ,Y . Autrement dit, l’espérance conditionnelle de Y sachant Z
est la variable aléatoire E(Y |Z) = ψ(Z) = (mY + CY,Z CZ−1 (Z − mZ )). On notera
que la covariance conditionnelle donnée par CSY ne dépend pas de la valeur
prise par Z.
3. voir par exemple l’excellent matrix cookbook.

14
Régression et espérance conditionnelle des va-
riables de carré intégrable
La régression est un ensemble de méthodes (d’apprentissage) statistiques très
utilisées pour analyser la relation d’une variable par rapport à une ou plusieurs
autres. Ces méthodes visent notamment à décrire les liens de dépendance entre
variables mais aussi de prédire au mieux la valeur d’une quantité non observée
en fonction d’une ou plusieurs autres variables. On va en décrire ici le prin-
cipe du point de vue probabiliste dans le cas particulier des variables de carré
intégrable (ou dans L2 ). On verra dans ce cadre, que l’on rencontre très fréquem-
ment en pratique, une interprétation géométrique très éclairante de l’espérance
conditionnelle.

Régression linéaire
On considère deux variables aléatoires réelles, de carré intégrable, définies sur le
même espace de probabilité (Ω, A, P), et dont on suppose connues les variances et
la covariance. Nous souhaitons trouver la meilleure approximation de Y par une
fonction affine de X de la forme aX + b, au sens des moindres carrés, c’est-à-dire
qui minimise la quantité E((Y −(aX +b))2 ). Il s’agit de déterminer les constantes
a et b telles que E((Y − (aX + b))2 ) soit minimale. Or, par linéarité,

E((Y − (aX + b))2 ) = E(Y 2 ) − 2aE(XY ) − 2bE(Y ) + a2 E(X 2 ) + 2abE(X) + b2 .

L’annulation de ses dérivées partielles en à a et b entraîne que les solutions sont

Cov(X, Y ) σY
a= = ρ(X, Y )
V(X) σX
b = E(Y ) − aE(X)

Exercice – En détail (•) Détailler le calcul de a et b. (Solution p. 22.)


On vérifie aisément que ces valeurs donnent bien un minimum pour E((Y −
(aX + b))2 ) qui est convexe, et déterminent ainsi la meilleure approximation
linéaire de Y basée sur X au sens de l’erreur quadratique moyenne.
Cette approximation linéaire vaut
σY
E(Y ) + ρ(X, Y ) (X − E(X))
σX
et l’erreur quadratique moyenne vaut alors
 2 !
σY
E Y − E(Y ) − ρ(X, Y ) (X − E(X)) = σY2 + ρ2 (X, Y )σY2 − 2ρ2 (X, Y )σY2
σX
= σY2 (1 − ρ2 (X, Y )).

15
On voit ainsi que cette erreur est proche de 0 lorsque |ρ(X, Y )| ≈ 1 tandis qu’elle
est proche de V(Y ) = σY2 lorsque ρ(X, Y ) ≈ 0. On notera au passage qu’on
obtient que la meilleure approximation de Y par une constante est son espérance.

Remarque – Remarque
L’hypothèse d’une relation linéaire est très forte et pas nécessairement toujours
adaptée pour expliquer des relations de dépendances entre variables. Soit en
effet une variable aléatoire réelle X de L3 (i.e. X 3 est PX intégrable) symétrique,
c’est-à-dire telle que X et −X sont de même loi. On a alors E(X) = −E(X) = 0.
Les variables X et X 2 ne sont clairement pas indépendantes. Pour autant, on a
Cov(X, X 2 ) = E(X 3 ) = −E(X 3 ) = 0 et le coefficient de régression a ci-dessus
est nul.

Espace de Hilbert des variables aléatoires de carré intégrable


Dans le paragraphe précédent, on s’est intéressé à approximer linéairement une
variable aléatoire Y de carré intégrable par une autre variable X également de
carré intégrable. On va montrer ici que la meilleure approximation, au sens de
l’erreur quadratique moyenne, de Y par une fonction de X est précisément donnée
par ψ(X) = E(Y |X). Ce paragraphe fait appel à des notions hors programme
et est par conséquent non exigible. Il fournit néanmoins une interprétation
géométrique particulièrement frappante de l’espérance conditionnelle.
On a besoin en pratique de travailler sur un espace un peu plus petit que L2
tout entier. En effet, les outils que nous allons utiliser ne nous permettent pas
de distinguer entre deux variables X et Y égales presque sûrement, c’est-à-dire
telles que ∃N ∈ A, tel que P(N ) = 0 et ∀ω ∈ N c , X(ω) = Y (ω). Cette notion
d’égalité presque sûre est une relation d’équivalence. On va ainsi travailler avec
l’espace L2 des classes de variables pour l’égalité presque sûre, c’est-à-dire que
L2 contiendra un unique représentant de chacune de ces classes. Dans ce cadre,
au lieu d’écrire X = 0 p.s., on écrit simplement X = 0.
On peut d’abord montrer que l’espace vectoriel L2 des variables aléatoires de
carré intégrable forme un espace de Hilbert si on le munit du produit scalaire :

< X, Y >= E(XY ) et de la norme associée ∥X∥ = E(X 2 )1/2 .

L’écart-type est ainsi la norme des variables centrées et la covariance le produit


scalaire des variables centrées.
Ce produit scalaire est bien défini pour tout couple (X, Y ) de variables de L2
puisque par l’inégalité de Cauchy-Schwartz :

E(XY )2 ≤ E(X 2 )E(Y 2 )

et on a bien ∥X∥ = 0 si et seulement si X = 0. On peut enfin montrer que L2


est complet pour la norme définie ci-dessus (voir Jacod and Protter (2003) pour
la démonstration).

16
Soient maintenant X et Y ∈ L2 (Ω, A, P). On onsidère L2X le sous-espace de L2
constitué des (classes d’équivalence) des variables aléatoires fonctions seulement
de X du type ϕ(X) (avec ϕ telle que ϕ(X) ∈ L2 ). On peut montrer que L2X est
convexe et fermé.
Alors, l’espérance conditionnelle de Y sachant X, E(Y |X) s’interprète comme
la projection orthogonale de Y sur L2X .
Soit en effet l’opérateur qui à Y ∈ L2 associe E(Y |X) ∈ L2X . On a vu que c’est
un opérateur linéaire. Pour montrer qu’il s’agit d’un projecteur orthogonal, on
peut vérifier qu’il est idempotent et auto-adjoint :
— on a bien E(E(Y |X)|X) = E(Y |X)
— et pour Z ∈ L2 , < Z, E(Y |X) >= E(ZE(Y |X)) = E(E(Z|X)E(Y |X)) =
E(E(Z|X)E(Y )) =< E(Z|X), Y >.
Le théorème de projection sur un convexe fermé dans les espaces de Hilbert 4
assure alors que

arg min ∥Y − ϕ(X)∥2 = arg min E((Y − ϕ(X))2 ) = E(Y |X) = ψ(X)
ϕ(X)∈L2X ϕ(X)∈L2X

Ainsi, E(Y |X) est la meilleure approximation (au sens des moindres carrés) de
Y par une fonction de X.
Il est alors immédiat que le “résidu” Y − E(Y |X) est non corrélé avec X du fait
de l’orthogonalité. On en déduit la formule de la variance totale :

V(Y ) = ∥Y − E(Y )∥2 = ∥Y − E(Y |X) + E(Y |X) − E(Y )∥2


= ∥Y − E(Y |X)∥2 + ∥E(Y |X) − E(Y )∥2
= E((Y − E(Y |X))2 ) + E((E(Y |X) − E(Y ))2 )
= E(E((Y − E(Y |X))2 |X)) + V(E(Y |X))
= E(V(Y |X)) + V(E(Y |X)).

où on a utilisé la formule de l’espérance totale et introduit la variable aléatoire


variance conditionnelle V(Y |X) = E((Y − E(Y |X))2 |X) comme cas particulier
de la définition vue plus haut (p. 12).

Exercice – Variance totale (•) Redémontrer ce résultat sans utiliser la


notion d’orthogonalité. (Solution p. 22.)
4. voir par exemple les Rappels mathématiques pour la mécanique quantique de Bruno
Figliuzzi

17
Exercices
Couple de variables
Soient X et Y deux v.a. réelles. On suppose que la densité conditionnelle de X
sachant Y = y est la densité 1R+ (x)y 2 xe−xy et que la loi de Y est de densité
1
y 2 1[1,+∞[ (y). On pose T = XY .

Question 1 Trouver la loi du couple (T, Y ). Qu’en déduit-on ? (Solution p.


22.)

Question 2 Trouver la loi conditionnelle de Y sachant X = x. (Solution p.


23.)

Question 3 Calculer E(Y |X). (Solution p. 23.)

Mélanges de lois
Adapté du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Pour modéliser un phénomène multimodal, on utilise souvent des mélanges de
gaussiennes. C’est le cas notamment en classification non-supervisée, où on fait
l’hypothèse que chacune des classes suit une loi gaussienne. Soient n ∈ N∗ et K
une variable aléatoire P prenant les valeurs 1, . . . , n avec les probabilités non nulles
n
p1 , . . . , pn telles que i=1 pi = 1. Soient X1 , . . . , Xn des variables aléatoires
gaussiennes mutuellement indépendantes, d’espérances respectives m1 , . . . , mn ∈
R et de variances respectives σ12 , . . . , σn2 ∈ R∗+ , toutes indépendantes de K. On
appelle mélange de gaussiennes la loi de la variable aléatoire X = XK . Pour tout
i ∈ {1, . . . , n}, on notera fi la densité de la variable aléatoire Xi .

Question 1 Soit i ∈ {1, . . . , n}. Quelle est la densité fX|K=i de X condition-


nellement à l’événement {K = i} ? (Solution p. 23.)

Question 2 Calculer la densité de probabilité de la variable X. (Solution p.


23.)
Pn
Question 3 Calculer E(X). Montrer que V(X) = i=1 pi σi2 + σ̄ 2 , où ce dernier
terme peut être interprété comme la dispersion des espérances. (Solution p. 23.)

Question 4 Comment approximeriez-vous le mélange par une unique gaus-


sienne ? Faire un schéma dans le cas m = 2. (Solution p. 24.)

18
Lois conjuguées
Soit un vecteur aléatoire (X, Y ) de loi jointe PX,Y . Expliciter la loi conditionnelle
de Y sachant {X = x} dans les situations suivantes, en prenant soin d’expliciter
pour quelles valeurs de x ces dernières ont du sens.

Question 1 Y suit une loi Exponentielle de paramètre λ ∈ R∗+ et pour tout


y ∈ R∗+ , la variable aléatoire X sachant {Y = y} suit une loi Exponentielle de
paramètre y. (Solution p. 24.)

Question 2 Y suit une loi Gamma de paramètres α, θ ∈ R∗+ et pour tout


y ∈ R∗+ , la variable aléatoire X sachant {Y = y} suit une loi de Poisson de
paramètre y. (Solution p. 26.)

Randomisation
Extrait du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Des clients arrivent à la boutique SNCF du boulevard Saint-Michel à des instants
aléatoires. On note T0 l’heure d’ouverture puis T1 , T2 , . . . les temps successifs
d’arrivée des clients jusqu’à l’heure de fermeture. Les études statistiques montrent
qu’on peut, dans une tranche horaire donnée, supposer que les temps d’attente
X1 = T1 −T0 , X2 = T2 −T1 , . . . peuvent être modélisés par des variables aléatoires
indépendantes et de même loi qu’une variable aléatoire positive X. Par ailleurs,
une loterie interne décide que chaque jour dans la tranche horaire considérée, le
N ème client sera l’heureux gagnant d’un trajet gratuit Paris-La Ciotat, où N est
une variable aléatoire bornée dont la loi dépend du processus de loterie (e.g. tous
les clients entre le premier et le 30ème ont une chance 1/30 d’être tirés au sort,
en supposant qu’on est sûr d’avoir au moins 30 clients dans la tranche horaire).
On se demande alors : quel est le temps d’attente moyen avant d’obtenir un
gagnant ? (Solution p. 27.)

Etats cachés — indépendance conditionnelle


Soucieux de l’évolution du potager de l’école, des élèves à la main verte s’in-
téressent à l’évolution de la température dans le jardin côté Luxembourg. Ils
récupèrent pour cela un thermomètre dans un laboratoire, l’installent près du
potager, et en relèvent les mesures à intervalles de temps réguliers. Les résultats
les surprennent rapidement : les températures affichées ne correspondent pas à
celles prévues par météo-France. Leur thermomètre est sans doute déréglé.
On se propose de les aider à comprendre le phénomène dont ils sont témoins
à l’aide d’un modèle probabiliste particulier, nommé modèle de Markov caché.
Précisément, on considère la suite des vraies températures que l’on aurait souhaité
relever comme une suite de v.a.r. non indépendantes (Xn )n∈N∗ , dite d’états cachés
(on ne les observe pas directement). Les erreurs commises par le thermomètre sont

19
quant à elles modélisées par une suite de v.a.r. (ϵn )n∈N∗ , toutes indépendantes
et de même loi admettant une densité fϵ . Elles sont supposées indépendantes de
la suite (Xn )n∈N∗ (l’erreur du thermomètre lui est propre et ne dépend pas de
la température réelle). A chaque instant n ∈ N∗ , on suppose que la mesure du
thermomètre est la variable aléatoire

Yn = Xn + ϵn ,

et que le vecteur aléatoire (X1 , . . . , Xn ) possède une densité jointe notée f1:n .

Question 1 Montrer que pour tout n ∈ N∗ et tout x ∈ R, la loi de Yn sachant


{Xn = x} admet une densité, que l’on explicitera. (Solution p. 27.)

Question 2 Montrer que les n ∈ N∗ relevés de température Y1 , . . . , Yn sont


indépendants conditionnellement aux états cachés X1 , . . . , Xn . (Solution p.
28.)

Covariance totale
Soient X, Y et Z trois variables aléatoires réelles de carré intégrable. La co-
variance conditionnelle de X et Y sachant Z est définie comme la variable
aléatoire
   
Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z .

Etablir la formule de la covariance totale :


 
Cov(X, Y ) = E Cov(X, Y | Z) + Cov E(X | Z), E(Y | Z) .

(Solution p. 28.)

Non-réponse
Inspiré du cours de probabilité de M. Christine (ENSAE ParisTech).
Un questionnaire est diffusé aux n ∈ N∗ étudiants de l’école pour savoir combien
de temps ils ont consacré à l’étude des probabilités ce semestre. On note Yi le
temps de travail de l’étudiant i ∈ {1, . . . , n} et Xi la variable valant 1 s’il a
répondu au questionnaire et 0 sinon. On suppose que les (X1 , Y1 ), . . . , (Xn , Yn )
sont des vecteurs aléatoires indépendants de même distribution qu’un vecteur
générique (X, Y ) tel que
— X est une variable de Bernoulli de paramètre p ∈ ]0, 1[ indiquant la
probabilité de réponse,
— Y est positive, de carré intégrable, d’espérance m ∈ R+ et de variance
σ 2 ∈ R∗+ . Le coefficient de corrélation entre X et Y est enfin noté ρ ∈
[−1, 1].

20
Question 1 En reprenant la définition de l’espérance conditionnelle E(Y | X)
comme meilleure approximation au sens des moindres carrés de Y par une
fonction de X, montrer qu’elle coïncide ici avec l’approximation affine de Y par
X puis l’écrire en fonction de m, ρ, σ et p. (Solution p. 29.)

Question 2 On pose m0 := E(Y | X = 0) et m1 = E(Y | X = 1). Calculer m0


et m1 en fonction de m, ρ, σ et p. (Solution p. 29.)

Question 3 On pose σ02 := V (Y | X = 0) et σ12 := V (Y | X = 1). Vérifier


l’égalité
(1 − p) σ02 + p σ12
σ2 = .
1 − ρ2

(Solution p. 30.)

Question 4 Que dire des résultats obtenus aux questions 2 et 3 lorsque :


— X et Y sont non corrélées,
— X et Y sont indépendantes ?

(Solution p. 30.)

Solutions
Dans
R un triangle (1) La densité marginale de X est donnée par fX (x) =
fX,Y (x, y)dy = 1]0,1[ (x) et pour x ∈]0, 1[,

1
fY |X=x (y) = 1]0,x[ (y)
x
Ainsi X est uniformément distribué sur ]0, 1[, et la loi de Y sachant X = x est
uniforme sur ]0, x[ pour (0 < x < 1).

Dans un triangle (2) Pour un tel x, l’espérance conditionnelle E(Y |X = x)


vaut ainsi x/2 et nous obtenons E(Y |X) = X
2.

Auto-conditionnement On a ψ(y) = E(Y |Y = y) = y et donc E(Y |Y ) =


ψ(Y ) = Y p.s.

Espérance conditionnelle d’un produit de variables On a E(XY |X =


x) = xE(Y |X = x), d’où E(XY |X) = XE(Y |X) p.s.

21
En détail Notons J(a, b) = E((Y − (aX + b))2 )

∂J(a, b)
= −2E(Y 2 ) + 2aE(X) + 2b
∂b
d’où b = E(Y ) − aE(X)
Par ailleurs,

∂J(a, b)
= −2E(XY ) + 2aE(X 2 ) + 2bE(X)
∂a
= −2E(XY ) + 2aE(X 2 ) + 2E(X)E(Y ) − 2aE(X 2 )
= −2Cov(X, Y ) + aV(X)

Cov(X,Y )
d’où a = V(X) = ρ(X, Y ) σσX
Y

Variance totale

V(Y ) =E((Y − E(Y ))2 ) = E(E((Y − E(Y ))2 |X)) par la formule de l’espérance totale
=E(E((Y − E(Y |X) + E(Y |X) − E(Y ))2 |X))
=E(E((Y − E(Y |X))2 |X)) + E(E((E(Y |X) − E(Y ))2 |X))
+ 2E(E((Y − E(Y |X))(E(Y |X) − E(Y ))|X))
=E(V(Y |X)) + E((E(Y |X) − E(Y ))2 ) + 2E((E(Y |X) − E(Y ))E((Y − E(Y |X))|X))
=E(V(Y |X)) + V(E(Y |X)) car E((Y − E(Y |X))|X) = 0

Couple de variables
Question 1 On voit d’abord que la densité du couple (X, Y ) vaut :

fX,Y (x, y) = fX|Y =y (x)fY (y) = xe−xy 1R+ (x)1[1,+∞[ (y)

Soit h une fonction continue bornée sur R2+ . Le changement de variable (x, y) 7→
(t = xy, y) de jacobien y, donne alors que
Z +∞ Z +∞
t
E(h(T, Y )) = E(h(XY, Y )) = h(t, y)e−t dtdy
1 0 y2

et donc la densité du couple (T, Y ) vaut


t
fT,Y = e−t 1[1,+∞[ (y)1R+ (t)
y2
Elle s’écrit comme produit d’une fonction de t et d’une fonction de y. On en
déduit que T et Y sont indépendantes et que T a pour densité te−t 1R+ (t).

22
R +∞
Question 2 La loi marginale de X a pour densité fX (x) = 1 xe−xy dy = e−x .
Ainsi X suit une loi exponentielle de paramètre 1 et la loi conditionnelle de Y
sachant X = x admet la densité :
fX,Y (x, y)
fY |X=x (y) = = xe−x(y−1) 1[1,+∞[ (y)
fX (x)
pour x > 0.

Question 3 On en déduit que


Z +∞
x+1
E(Y |X = x) = yxe−x(y−1) dy = 1R+ (x)
1 x
X+1
par intégration par parties. Ainsi E(Y |X) = X .

Mélanges de lois
Question 1 Soit B un borélien. Par indépendance de K avec Xi , on a

P(X ∈ B | K = i) = P(Xi ∈ B | K = i) = P(Xi ∈ B).

La loi de X sachant {K = i} est donc la même que celle de Xi , d’où

(x − mi )2
 
1
fX|K=i : x ∈ R 7→ fi (x) = √ exp − .
2πσi 2σi2

Question 2 Soit B un borélien. D’après la formule des probabilités totales et


la question précédente, on a
n
X n
X
P(X ∈ B) = pi P(X ∈ B | K = i) = pi P(Xi ∈ B).
i=1 i=1

La variable aléatoire X admet donc une densité, qui vaut


n
X
fX : x ∈ R 7→ pi fi (x).
i=1

Question 3 D’après la question précédente, X a pour espérance


Z Z n
X n
X Z
E(X) = x fX (x) dx = x pi fi (x) dx = pi x fi (x) dx
R R i=1 i=1 R
n
X
= pi mi .
i=1

23
Pn
Quant à la variance de X, en utilisant l’égalité
pi = 1, elle vaut i=1

Z n
!2
X
2 2 2

V(X) = E X − E(X) = x fX (x) dx − pi mi
R i=1
 2
n
X n
X Xn
= pi (σi2 + m2i ) − pi  pj mj 
i=1 i=1 j=1
 2
n
X n
X n
X
= pi σi2 + pi mi − pj mj  .
i=1 i=1 j=1

On retrouve bien la forme désirée, avec la dispersion des espérances


 2
n
X Xn
σ̄ 2 := pi mi − pj mj  .
i=1 j=1

Question 4 Si l’on souhaite approcher la loi de X avec une unique Gaus-


sienne, et non
Pun mélange, les questions
Pprécédentes suggèrent de prendre celle
n n
d’espérance i=1 pi mi et de variance i=1 pi σi2 + σ̄ 2 . Voir figure ci-dessous.

Lois conjuguées
On considère dans tout cet exercice B1 et B2 des Boréliens.

Question 1 D’après les hypothèses on a


Z Z 
PX,Y (B1 × B2 ) = PX|Y =y (dx) PY (dy) par Fubini conditionnel,
B B
Z 2 Z 1 
= y e−yx 1R∗+ (x) dx λ e−λy 1R∗+ (y) dy
ZB2 Z B1
= λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y) dy dx par Fubini.
B1 B2

Le vecteur aléatoire (X, Y ) possède donc une densité jointe

fX,Y : (x, y) ∈ R2 7→ λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y).

La variable aléatoire X a donc aussi une densité : pour tout x ∈ R


Z Z
fX (x) = fX,Y (x, y) dy = λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y) dy
R R
Z +∞
λ
y (x + λ) e−(x+λ) y dy si x > 0,
= x+λ 0
0 sinon.

24
Mélange équiprobable de deux Gaussiennes N (−2, 1) et N (2, 2)
0.22
densité du mélange
0.2
densité de N (0, 4)
0.18

0.16

0.14

0.12
f (x)

0.1

8 · 10−2

6 · 10−2

4 · 10−2

2 · 10−2
0

−2 · 10−2
−6 −4 −2 0 2 4 6 8 10
x

Figure 1 – Illustration

25
On reconnaît dans cette dernière intégrale la formule de l’espérance d’une loi
Exponentielle de paramètre x + λ, et on en déduit que pour tout x ∈ R
λ
fX (x) = 1R∗ (x).
(x + λ)2 +

Pour tout x ∈ R∗+ la variable Y sachant {X = x} admet donc aussi une densité,
que l’on explicite avec la formule de Bayes : pour tout y ∈ R

fX,Y (x, y) λ y e−(x+λ) y 1R∗+ (y)


fY |X=x (y) = =
fX (x) λ
(x + λ)2
= (x + λ)2 y e−(x+λ) y 1R+ ∗ (y).

Comme Γ(2) = 1, on reconnaît ici la densité d’une loi Gamma d’indice 2 et de


paramètre d’échelle x + λ.

Question 2 D’après les hypothèses, en procédant comme précédemment, on a


Z Z 
PX,Y (B1 × B2 ) = PX|Y =y (dx) PY (dy)
B2 B1
!
Z X yx θα α−1 −θy
−y
= e 1N (x) y e 1R+ (y) dy
B2 x! Γ(α)
x∈B1
!
θα x+α−1 −(θ+1)y
Z
X 1
= y e dy
x! B2 ∩R+ Γ(α)
x∈B1 ∩N
X  Γ(x + α) θα
=
x! Γ(α) (θ + 1)x+α
x∈B1 ∩N
(θ + 1)x+α x+α−1 −(θ+1)y
Z 
× y e dy .
B2 ∩R+ Γ(x + α)

On reconnaît dans cette dernière intégrale la densité d’une loi Gamma d’indice
x + α et de paramètre d’échelle θ + 1, qui correspond exactement à la loi
conditionnelle de Y sachant {X = x} pour x ∈ N. En effet, on a d’une part
X θα Γ(x + α)
PX (B1 ) = PX,Y (B1 × R) = ,
Γ(α) x! (θ + 1)x+α
x∈B1 ∩N

ce qui donne bien pour tout x ∈ N :

PX,Y ({x} × B2 )
PY |X=x (B2 ) = P (Y ∈ B2 | X = x) =
PX ({x})
Z x+α
(θ + 1)
= y x+α−1 e−(θ+1)y dy.
B2 ∩R+ Γ(x + α)

26
Randomisation
En termes probabilistes et selon les notations de l’exercice, il s’agit de calculer
E(TN − T0 ), où la variable aléatoire TN peut s’écrire en fonction d’une somme
aléatoire de variables aléatoires indépendantes :
N
X
TN = Xi + T0 .
i=1

Comme la boutique ferme au bout d’un certain temps, toutes les variables
aléatoires figurant dans l’équation précédente sont bornées, donc intégrables. On
peut ainsi calculer E(TN − T0 ) à l’aide de la formule de l’espérance totale :

E (TN − T0 ) = E (E (TN | N )) − T0 .

Pour tout n ∈ N∗ l’énoncé suggère que N est indépendante de X1 , . . . , Xn ,


elles-mêmes indépendantes et de même loi que X, d’où :
n
X n
X
E (Tn | N = n) = E(Xi | N = n) = E(Xi ) = nE(X).
i=1 i=1

Ainsi, en posant ψ : n ∈ N∗ 7→ nE(X), on obtient

E (TN − T0 ) = E (ψ(N )) − T0 = E(N )E(X) − T0 .

C’était prévisible : en posant arbitrairement T0 = 0, le temps d’attente moyen


est le temps d’attente moyen entre deux arrivées, multiplié par le rang moyen
du gagnant. Si la loterie dépendait des temps d’arrivées, par exemple en faisant
gagner le premier client qui arrive au moins 10 minutes après le client précédent,
ψ, et donc le résultat, seraient différents.

Etats cachés — indépendance conditionnelle


Question 1 Soit n ∈ N∗ . Quels que soient x ∈ R et B borélien on a

PYn |Xn =x (B) = E (1B (Xn + ϵn ) | Xn = x)


Z
= 1B (x + y) Pϵn |Xn =x (dy)
R
Z
= 1B (x + y) fϵ (y) dy par indépendance de Xn et ϵn
ZR
= fϵ (y − x) dy.
B

Ainsi, PYn |Xn =x admet bien une densité :

fYn |Xn =x : y ∈ R 7→ fϵ (y − x).

27
Question 2 Soient n ∈ N∗ , (x1 , . . . , xn ) ∈ Rn et B1 , . . . , Bn des boréliens.
Pour simplifier les écritures, on note x1:n tout vecteur (x1 , . . . , xn ) de Rn . Alors
n
!
Y
PY1:n |X1:n =x1:n (B1 × · · · × Bn ) = E 1Bi (Xi + ϵi ) X1:n = x1:n
i=1
Z n
Y
= 1Bi (xi + yi ) Pϵ1:n |X1:n =x1:n (dy1:n )
Rn i=1
Z Y n
= 1Bi (xi + yi ) Pϵ1:n (dy1:n ) par indépendance des ϵi et Xj ,
Rn i=1
n Z
Y
= 1Bi (xi + yi ) fϵ (xi ) dyi par Fubini et indépendance et même loi des ϵi ,
i=1 R
Yn Z
= 1Bi (yi ) fϵ (yi − xi ) dyi
i=1 R
Yn Z
= 1Bi (yi ) fYi |Xi =xi (yi ) dyi par la question 1,
i=1 R

Yn
= PYi |Xi =xi (Bi ).
i=1

Les n relevés de température sont donc bien indépendants conditionnellement


aux états cachés.

Covariance totale
Tout d’abord, par linéarité de l’espérance conditionnelle on a :
   
Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z
 
= E XY − XE(Y | Z) − Y E(X | Z) + E(X | Z)E(Y | Z) Z
= E(XY | Z) − E(X | Z)E(Y | Z).

En utilisant la formule de l’espérance totale et la linéarité de l’espérance, on


obtient alors

Cov(X, Y ) = E(XY ) − E(X)E(Y )


  
= E E(XY | Z) − E E(X | Z) E E(Y | Z)

= E E(XY | Z) − E(X | Z)E(Y | Z)
  
+ E E(X | Z)E(Y | Z) − E E(X | Z) E E(Y | Z)
 
= E Cov(X, Y | Z) + Cov E(X | Z), E(Y | Z) .

28
Non-réponse
Question 1 L’espérance conditionnelle de Y sachant X peut s’écrire comme
la solution au problème de minimisation
 
2
min 2 E (Y − ϕ(X)) .
ϕ(X)∈LX

Or pour ϕ(X) ∈ L2X on a ici


     
2 2 2
E (Y − ϕ(X)) = E (Y − ϕ(1)) 1{1} (X) + E (Y − ϕ(0)) 1{0} (X) ,

il suffit donc de résoudre pour tout x ∈ {0, 1}


 
2
min E (Y − λ) 1{x} (X) .
λ∈R
 
2
Soit x ∈ {0, 1} et posons Jx : λ ∈ R 7→ E (Y − λ) 1{x} (X) . Alors pour tout
λ∈R
Jx (λ) = E Y 2 1{x} (X) + λ2 P(X = x) − 2λ E Y 1{x} (X)
 

et sa dérivée
Jx′ (λ) = 2λ P(X = x) − 2 E Y 1{x} (X)


s’annule en 
E Y 1{x} (X)
λx := = E(Y | X = x).
P(X = x)
On en conclut que

E(Y | X) = E(Y | X = 1)1{1} (X) + E(Y | X = 0)1{0} (X).

Or on remarque que 1{1} (X) = X et 1{0} (X) = 1 − X, ce qui fait de E(Y | X)


une fonction affine de X. Elle est par définition la meilleure approximation de Y
par une fonction de X, elle coïncide donc avec l’approximation affine de Y par
X:
ρσ
E(Y | X) = m + p (X − p).
p(1 − p)

Question 2 D’après la question précédente, on a E(Y | X) = m0 +(m1 −m0 )X,


la meilleure approximation affine de Y par X. Ainsi, m0 et m1 satisfont
r
ρσ 1−p
m1 − m0 = p , m1 = m + ρσ ,
p
p(1 − p) ⇔
p
r
m0 = m − (m1 − m0 )p, m0 = m − ρσ .
1−p

29
Question 3 Par la formule de la variance totale et d’après la question 1, on a

σ 2 = V (Y ) = E V (Y | X) + V E(Y | X)
 

ρ2 σ 2
= p σ12 + (1 − p) σ02 + V(X)
p (1 − p)
= p σ12 + (1 − p) σ02 + ρ2 σ 2 .

Cette égalité se simplifie et donne bien

(1 − p) σ02 + p σ12
σ2 = .
1 − ρ2

Question 4 Lorsque X et Y sont non corrélées, i.e. ρ = 0, on obtient m0 =


m1 = m puis σ 2 = (1 − p) σ02 + p σ12 . En d’autres
 termes, E(Y | X) = m est une
variable aléatoire constante, et E V(Y | X) = σ 2 . Dans ce cas, la non-réponse
n’affecte pas l’espérance, mais potentiellement la variance (la dispersion du
temps de travail peut être différente chez les répondants et les non-répondants).
Ces deux propriétés sont encore vraies en cas d’indépendance entre X et Y ,
puisque l’indépendance implique la non corrélation, mais nous avons de plus
V(Y | X) = σ 2 = σ12 = σ02 ; la variable aléatoire V(Y | X) est elle aussi constante.
Cette fois-ci, la dispersion est la même chez les répondants et les non-répondants :
la non-réponse n’affecte pas la variance.

Références
Jacod, J., and P. Protter. 2003. L’essentiel En Théorie Des Probabilités. Cassini.
[Link]

30

Vous aimerez peut-être aussi