Lois et Espérances Conditionnelles
Lois et Espérances Conditionnelles
Lois conditionnelles 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Lois conditionnelles dans un couple . . . . . . . . . . . . . . . . . . . . 3
Cas où X est discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Image de la probabilité conditionnelle . . . . . . . . . . . . . . . 5
Densités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 6
Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Fubini conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 8
A noter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Formule de balayage conditionnel . . . . . . . . . . . . . . . . . . 9
Critère d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . 10
Espérance conditionnelle 11
Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 11
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Espérance conditionelle d’une fonction de variables aléatoires . . 12
Espérance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Transfert conditionnel . . . . . . . . . . . . . . . . . . . . . . . . 13
Exemple : vecteurs Gaussiens à densité . . . . . . . . . . . . . . . . . . 13
∗ Ce document est un des produits du projet paulinebernard/CDIS issu de la collaboration
1
Régression et espérance conditionnelle des variables de carré inté-
grable 15
Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Espace de Hilbert des variables aléatoires de carré intégrable . . . . . 16
Exercices 18
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 19
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Solutions 21
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 27
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Références 30
Objectifs d’apprentissage
Cette section s’efforce d’expliciter et de hiérarchiser les acquis d’apprentissages
associés au chapitre. Ces objectifs sont organisés en paliers :
(◦) Prérequis (•) Fondamental (••) Standard (•••) Avancé (••••) Expert
Sauf mention particulière, la connaissance des démonstrations du document n’est
pas exigible 1
Lois conditionnelles
— •• connaître le théorème de Fubini conditionnel
— •• connaître les formules de balayage conditionnel
— •• savoir appliquer ces résultats pour différents types de loi de probabilité
(à densité ou non)
— • connaître le critère d’indépendance qui résulte du théorème de Fubini
conditionnel
1. l’étude des démonstrations du cours peut toutefois contribuer à votre apprentissage, au
même titre que la résolution d’exercices.
2
Espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
d’une fonction de variables aléatoires
— • connaître et savoir utiliser la formule de l’espérance totale
— •• savoir calculer la densité conditionnelle d’un certain nombre de com-
posantes sachant les autres dans un vecteur gaussien à densité
Cas L2
— •• savoir que la régression linéaire est la meilleure approximation linéaire
(au sens des moindres carrés) d’une variable aléatoire par une autre
— ••• savoir retrouver ce résultat
— •••• connaître l’interprétation géométrique de l’espérance conditionnelle
dans le cas L2
— • connaître et savoir utiliser la formule de la variance totale
Lois conditionnelles
Introduction
On s’est consacré jusqu’à présent à l’étude de variables aléatoires indépendantes.
En pratique cependant, on rencontre souvent des variables dépendant les unes
des autres. Dans le cas de la météo, les variables température, vitesse du vent et
pression en fournissent un exemple. Dans les approches bayésiennes, on résume
l’information disponible sur l’état du système étudié par la loi a priori et
on met à jour notre connaissance du système en incorporant de l’information
supplémentaire (par exemple des observations). On cherche alors à caractériser
la loi a posteriori de l’état du système, qui est la loi de l’état sachant l’in-
formation supplémentaire. On va ainsi s’attacher dans ce chapitre à décrire les
lois conditionnelles qui vont permettre de résumer l’information apportée
par une variable (ou un vecteur) sur une autre et s’intéresser en particulier
à l’espérance conditionnelle qui indiquera le comportement moyen d’une
variable conditionnellement à une autre. Ce dernier cas pose le cadre probabiliste
d’un des problèmes fondamentaux en apprentissage statistique : l’apprentissage
supervisé, où on dispose d’un ensemble de réalisations d’une variable dont on
cherche à prédire le comportement à partir d’un ensemble de variables dites
explicatives (ou prédicteurs).
3
où on a utilisé le théorème de Fubini.
Du fait de l’indépendance, on a aussi PY (B2 ) = P(Y ∈ B2 ) = P(Y ∈ B2 |X ∈
B1 ) = PY (B2 |X ∈ B1 ) ce qui exprime que pour tout borélien B1 , la loi condi-
tionnelle de Y sachant X ∈ B1 est identique à la loi de Y .
Lorsque X et Y en sont pas indépendantes, on va chercher à établir une égalité
de la forme
Z
P(X ∈ B1 , Y ∈ B2 ) = PX (B1 )PY (B2 |X ∈ B1 ) = PY |X=x (B2 )PX (dx)
B1
Pour bien fixer les idées, on va décrire spécifiquement les cas où X est discrète
puis où le couple (X, Y ) admet une densité avant d’aborder le cas général.
4
Remarque – Image de la probabilité conditionnelle
PY |X=x ainsi définie est simplement la probabilité sur (R, B(R)) image par Y de
la probabilité conditionnelle P(·|X = x) définie sur (Ω, A), autrement dit, la loi
de Y relative à P(·|X = x) et non à P.
R
La formule ci-dessus s’écrit PX,Y (B1 × B2 ) = B1 P(Y ∈ B2 |X = x)PX (dx), où
PX,Y est la loi du couple. Elle se généralise à tout borélien B de R2 de la manière
suivante :
X
PX,Y (B) = P((X, Y ) ∈ B) = P(X = x, (x, Y ) ∈ B)
x∈X(Ω)
X
= P(X = x)P((x, Y ) ∈ B|X = x)
x∈X(Ω)
X
= P(X = x)PY |X=x (Bx ),
x∈X(Ω)
Z Z Z
E(1B (X, Y )) = 1B (x, y)PX,Y (dxdy) = 1B (x, y)PY |X=x (dy) PX (dx)
R2 R R
Exemple – Pour fixer les idées (1) Soit X ≥ 0 une variable aléatoire à
valeurs dans N et Y une variable aléatoire réelle positive telle que la loi du couple
PX,Y vérifie pour tout n ∈ N et tout borélien B2 de R :
tn
Z
PX,Y ({n} × B2 ) = (1 − α)α n
e−t dt, 0 < α < 1
B2 ∩R∗+
n!
5
PX,Y est bien une probabilité sur R2 puisque par convergence monotone :
tn t(n−1)
Z Z Z
e−t dt = e−t dt = . . . = e−t dt = 1
∗
R+ n! ∗
R+ (n − 1)! ∗
R+
Densités conditionnelles
On suppose maintenant que le couple (X, Y ) admet R une densité fX,Y (par rapport
à la mesure
R de Lebesgue). On note f X (x) = f
R X,Y
(x, y)dy (respectivement
fY (y) = R fX,Y (x, y)dx) la loi marginale de X (resp. de Y ). On s’intéresse à
caractériser la densité de la variable Y connaissant la valeur prise par la variable
X, c’est la densité conditionnelle de Y sachant {X = x} :
6
Démonstration La preuve est immédiate puisque fY |X=x est une fonction
positive d’intégrale 1. ■
(Solution p. 21.)
L’interprétation de cette définition est la suivante : la fonction fY |X=x est la
densité de la “loi conditionnelle de Y sachant que X = x”. Bien sûr, nous avons
P(X = x) = 0 puisque X admet une densité, donc la phrase ci-dessus n’a pas
réellement de sens, mais elle se justifie heuristiquement ainsi : dx et dy étant de
“petits” accroissements des variables x et y et lorsque f et fX sont continues et
strictement positives respectivement en (x, y) et x :
Par suite
P(X ∈ [x, x + dx], Y ∈ [y, y + dy])
fY |X=x (y)dy ≈
P(X ∈ [x, x + dx])
≈ P(Y ∈ [y, y + dy]|X ∈ [x, x + dx])
Proposition – Proposition
Pour toute fonction g : R2 → R telle que g(X, Y ) admette une espérance, on a :
Z Z
E(g(X, Y )) = g(x, y)fY |X=x (y)dy fX (x)dx,
R R
7
Démonstration On a
Z
E(g(X, Y )) = g(x, y)fX,Y (x, y)dydx
R2
Z
= g(x, y)fY |X=x (y)fX (x)dydx
2
ZR Z
= g(x, y)fY |X=x (y)dy fX (x)dx,
R R
Cas général
On peut établir le résultat suivant, qui complète le théorème de Fubini et le
résultat d’existence et d’unicité des mesures produits, et que l’on admettra.
Remarque – A noter
— Ce résultat peut être interprété comme un théorème de Fubini condi-
tionnel, dans le sens où il permet une intégration séquentielle, mais ici
la mesure de probabilité du couple (X, Y ) s’exprime comme un produit
de mesures dont l’un des termes dépend de la variable d’intégration de
l’autre. En particulier, si on change l’ordre d’intégration, on change les
mesures qui interviennent.
— Fréquemment, dans les applications, la famille des lois conditionnelles est
une donnée du modèle considéré, et leur existence ne pose donc pas de
problème !
2. c’est-à-dire qu’on peut définir ces probabilités de la manière qu’on souhaite pour les
boréliens B tels que PX (B) = 0.
8
— On retrouve les cas vus précédemment
R en notant
P que pour tout borélien
B1 de R on a PX (B1 ) = B1 PX (dx) = x∈B1 P(X = x) lorsque X
est
R discrète, et que pour tous boréliens
R B 1 et B2 de R on a PX (B1 ) =
f
B1 X
(x)dx et PX,Y (B1 × B 2 ) = f
B1 ×B2 X,Y
(x, y)dxdy.
— Dans tout ce qui précède, les rôles de X et Y peuvent évidemment être
inversés.
Conséquences
Le théorème précédent (p. 8) a deux conséquences majeures. Il fournit d’une part
un moyen efficace d’identifier la loi marginale de Y connaissant la loi marginale
de X et la loi de Y sachant X = x. En effet, en notant que pour tout borélien B
de R, PY (B) = PX,Y (R × B) et en appliquant ce théorème, on a la proposition
suivante :
Exemple – Pour fixer les idées (2) Poursuivons l’exemple vu plus haut
(p. 5). On rappelle qu’on a déjà identifié la loi marginale de X ainsi que la loi
conditionnelle de Y sachant X = n pour n ∈ N que l’on rappelle ici :
tn
Z
n
P(X = n) = (1 − α)α , n ∈ N et ∀B ∈ B(R), PY |X=n (B) = e−t dt
B∩R∗+
n!
9
On peut en déduire la loi marginale de Y en utilisant la formule de balayage
conditionnel (p. 9) et le théorème de convergence monotone :
tn
X Z
PY (B) = (1 − α)αn e−t dt
B∩R∗ n!
n∈N +
Z X (αt)n
= (1 − α) e−t dt
B∩R∗ n!
+ n∈N
Z
= 1R+ (t)(1 − α)e−(1−α)t dt,
B
Démonstration
1. Si X et Y sont indépendantes,
R pour tous B1 , B2 boréliens
R de R, PX,Y (B1 ×
B2 ) = PX (B1 )PY (B2 ) = B1 PY (B2 )PX (dx) = B2 PX (B1 )PY (dy). Le
résultat d’unicité du théorème de Fubini conditionnel (p. 8) (à une égalité
PX -presque sûre près), nous indique alors que PY |X=x (B2 ) = PY (B2 ).
R
Inversement, si PY |X=x = PY , alors PX,Y (B1 ×B2 ) = B1 PY |X=x (B2 )PX (dx) =
R
P (B2 )PX (dx) = PX (B1 )PY (B2 ).
B1 Y
10
2. Si X et Y sont indépendantes, fX,Y (x, y) = fX (x)fY (y), d’où
fY |X=x (y) = fY (y).
Inversement, si fY |X=x (y) = fY (y) alors fX,Y (x, y) = fY |X=x (y)fX (x) =
fY (y)fX (x) et X et Y sont indépendantes.
■
Espérance conditionnelle
Puisque PY |X=x est la loi d’une variable aléatoire, on peut définir l’espérance
qui lui est associée et introduire la notion d’espérance conditionnelle dans le cas
où Y est intégrable.
Remarque – Conséquences
1. ψ(x) n’est définie que pour x ∈/ N , avec P(X ∈ N ) = 0. Par conséquent, la
définition (p. 11) définit bien l’espérance conditionnelle ψ(X) = E(Y |X)
PX -presque partout, autrement dit avec probabilité 1, ou encore presque
sûrement.
2. E(E(|Y ||X)) = E(|Y |) comme conséquence directe du théorème de Fubini
conditionnel (p. 8). L’espérance conditionnelle de Y sachant X est bien
définie dès que Y est intégrable.
3. Lorsque (X, Y ) admet une densité, l’espérance conditionnelle de Y sachant
{X = x} s’écrit
Z
E(Y |X = x) = yfY |X=x (y)dy.
R
11
Exercice – Auto-conditionnement (•) Montrer que E(Y |Y ) = Y . (Solution
p. 21.)
On peut étendre cette définition aux variables de la forme g(X, Y ).
E(ψ(X)) = E(Y ).
12
De plus, si g est mesurable positive ou PX -intégrable,
est une généralisation de l’égalité 1. ci-dessus, au cas où a = g(X), qui doit être
considéré “comme une constante” dans le calcul de l’espérance conditionnelle
sachant X (X est fixée comme une donnée connue a priori). En effet, on a alors
E(g(x)Y |X = x) = g(x)ψ(x). Enfin, on déduit directement du théorème de
Fubini conditionnel (p. 8) la proposition suivante.
13
Soit 1 ≤ k < n un entier. On souhaite exprimer fY |Z=z , la densité conditionnelle
de Y = (X1 , . . . , Xk ) sachant Z = (Xk+1 , . . . , Xn ) = (xk , . . . , xn ) = z (si
k + 1 = n, ce vecteur se réduit à une seul valeur). On a vu que
fX = fY |Z=z fZ ,
+ (z − mZ )t CZ−1 (z − mZ )
14
Régression et espérance conditionnelle des va-
riables de carré intégrable
La régression est un ensemble de méthodes (d’apprentissage) statistiques très
utilisées pour analyser la relation d’une variable par rapport à une ou plusieurs
autres. Ces méthodes visent notamment à décrire les liens de dépendance entre
variables mais aussi de prédire au mieux la valeur d’une quantité non observée
en fonction d’une ou plusieurs autres variables. On va en décrire ici le prin-
cipe du point de vue probabiliste dans le cas particulier des variables de carré
intégrable (ou dans L2 ). On verra dans ce cadre, que l’on rencontre très fréquem-
ment en pratique, une interprétation géométrique très éclairante de l’espérance
conditionnelle.
Régression linéaire
On considère deux variables aléatoires réelles, de carré intégrable, définies sur le
même espace de probabilité (Ω, A, P), et dont on suppose connues les variances et
la covariance. Nous souhaitons trouver la meilleure approximation de Y par une
fonction affine de X de la forme aX + b, au sens des moindres carrés, c’est-à-dire
qui minimise la quantité E((Y −(aX +b))2 ). Il s’agit de déterminer les constantes
a et b telles que E((Y − (aX + b))2 ) soit minimale. Or, par linéarité,
Cov(X, Y ) σY
a= = ρ(X, Y )
V(X) σX
b = E(Y ) − aE(X)
15
On voit ainsi que cette erreur est proche de 0 lorsque |ρ(X, Y )| ≈ 1 tandis qu’elle
est proche de V(Y ) = σY2 lorsque ρ(X, Y ) ≈ 0. On notera au passage qu’on
obtient que la meilleure approximation de Y par une constante est son espérance.
Remarque – Remarque
L’hypothèse d’une relation linéaire est très forte et pas nécessairement toujours
adaptée pour expliquer des relations de dépendances entre variables. Soit en
effet une variable aléatoire réelle X de L3 (i.e. X 3 est PX intégrable) symétrique,
c’est-à-dire telle que X et −X sont de même loi. On a alors E(X) = −E(X) = 0.
Les variables X et X 2 ne sont clairement pas indépendantes. Pour autant, on a
Cov(X, X 2 ) = E(X 3 ) = −E(X 3 ) = 0 et le coefficient de régression a ci-dessus
est nul.
16
Soient maintenant X et Y ∈ L2 (Ω, A, P). On onsidère L2X le sous-espace de L2
constitué des (classes d’équivalence) des variables aléatoires fonctions seulement
de X du type ϕ(X) (avec ϕ telle que ϕ(X) ∈ L2 ). On peut montrer que L2X est
convexe et fermé.
Alors, l’espérance conditionnelle de Y sachant X, E(Y |X) s’interprète comme
la projection orthogonale de Y sur L2X .
Soit en effet l’opérateur qui à Y ∈ L2 associe E(Y |X) ∈ L2X . On a vu que c’est
un opérateur linéaire. Pour montrer qu’il s’agit d’un projecteur orthogonal, on
peut vérifier qu’il est idempotent et auto-adjoint :
— on a bien E(E(Y |X)|X) = E(Y |X)
— et pour Z ∈ L2 , < Z, E(Y |X) >= E(ZE(Y |X)) = E(E(Z|X)E(Y |X)) =
E(E(Z|X)E(Y )) =< E(Z|X), Y >.
Le théorème de projection sur un convexe fermé dans les espaces de Hilbert 4
assure alors que
arg min ∥Y − ϕ(X)∥2 = arg min E((Y − ϕ(X))2 ) = E(Y |X) = ψ(X)
ϕ(X)∈L2X ϕ(X)∈L2X
Ainsi, E(Y |X) est la meilleure approximation (au sens des moindres carrés) de
Y par une fonction de X.
Il est alors immédiat que le “résidu” Y − E(Y |X) est non corrélé avec X du fait
de l’orthogonalité. On en déduit la formule de la variance totale :
17
Exercices
Couple de variables
Soient X et Y deux v.a. réelles. On suppose que la densité conditionnelle de X
sachant Y = y est la densité 1R+ (x)y 2 xe−xy et que la loi de Y est de densité
1
y 2 1[1,+∞[ (y). On pose T = XY .
Mélanges de lois
Adapté du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Pour modéliser un phénomène multimodal, on utilise souvent des mélanges de
gaussiennes. C’est le cas notamment en classification non-supervisée, où on fait
l’hypothèse que chacune des classes suit une loi gaussienne. Soient n ∈ N∗ et K
une variable aléatoire P prenant les valeurs 1, . . . , n avec les probabilités non nulles
n
p1 , . . . , pn telles que i=1 pi = 1. Soient X1 , . . . , Xn des variables aléatoires
gaussiennes mutuellement indépendantes, d’espérances respectives m1 , . . . , mn ∈
R et de variances respectives σ12 , . . . , σn2 ∈ R∗+ , toutes indépendantes de K. On
appelle mélange de gaussiennes la loi de la variable aléatoire X = XK . Pour tout
i ∈ {1, . . . , n}, on notera fi la densité de la variable aléatoire Xi .
18
Lois conjuguées
Soit un vecteur aléatoire (X, Y ) de loi jointe PX,Y . Expliciter la loi conditionnelle
de Y sachant {X = x} dans les situations suivantes, en prenant soin d’expliciter
pour quelles valeurs de x ces dernières ont du sens.
Randomisation
Extrait du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Des clients arrivent à la boutique SNCF du boulevard Saint-Michel à des instants
aléatoires. On note T0 l’heure d’ouverture puis T1 , T2 , . . . les temps successifs
d’arrivée des clients jusqu’à l’heure de fermeture. Les études statistiques montrent
qu’on peut, dans une tranche horaire donnée, supposer que les temps d’attente
X1 = T1 −T0 , X2 = T2 −T1 , . . . peuvent être modélisés par des variables aléatoires
indépendantes et de même loi qu’une variable aléatoire positive X. Par ailleurs,
une loterie interne décide que chaque jour dans la tranche horaire considérée, le
N ème client sera l’heureux gagnant d’un trajet gratuit Paris-La Ciotat, où N est
une variable aléatoire bornée dont la loi dépend du processus de loterie (e.g. tous
les clients entre le premier et le 30ème ont une chance 1/30 d’être tirés au sort,
en supposant qu’on est sûr d’avoir au moins 30 clients dans la tranche horaire).
On se demande alors : quel est le temps d’attente moyen avant d’obtenir un
gagnant ? (Solution p. 27.)
19
quant à elles modélisées par une suite de v.a.r. (ϵn )n∈N∗ , toutes indépendantes
et de même loi admettant une densité fϵ . Elles sont supposées indépendantes de
la suite (Xn )n∈N∗ (l’erreur du thermomètre lui est propre et ne dépend pas de
la température réelle). A chaque instant n ∈ N∗ , on suppose que la mesure du
thermomètre est la variable aléatoire
Yn = Xn + ϵn ,
et que le vecteur aléatoire (X1 , . . . , Xn ) possède une densité jointe notée f1:n .
Covariance totale
Soient X, Y et Z trois variables aléatoires réelles de carré intégrable. La co-
variance conditionnelle de X et Y sachant Z est définie comme la variable
aléatoire
Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z .
(Solution p. 28.)
Non-réponse
Inspiré du cours de probabilité de M. Christine (ENSAE ParisTech).
Un questionnaire est diffusé aux n ∈ N∗ étudiants de l’école pour savoir combien
de temps ils ont consacré à l’étude des probabilités ce semestre. On note Yi le
temps de travail de l’étudiant i ∈ {1, . . . , n} et Xi la variable valant 1 s’il a
répondu au questionnaire et 0 sinon. On suppose que les (X1 , Y1 ), . . . , (Xn , Yn )
sont des vecteurs aléatoires indépendants de même distribution qu’un vecteur
générique (X, Y ) tel que
— X est une variable de Bernoulli de paramètre p ∈ ]0, 1[ indiquant la
probabilité de réponse,
— Y est positive, de carré intégrable, d’espérance m ∈ R+ et de variance
σ 2 ∈ R∗+ . Le coefficient de corrélation entre X et Y est enfin noté ρ ∈
[−1, 1].
20
Question 1 En reprenant la définition de l’espérance conditionnelle E(Y | X)
comme meilleure approximation au sens des moindres carrés de Y par une
fonction de X, montrer qu’elle coïncide ici avec l’approximation affine de Y par
X puis l’écrire en fonction de m, ρ, σ et p. (Solution p. 29.)
(Solution p. 30.)
(Solution p. 30.)
Solutions
Dans
R un triangle (1) La densité marginale de X est donnée par fX (x) =
fX,Y (x, y)dy = 1]0,1[ (x) et pour x ∈]0, 1[,
1
fY |X=x (y) = 1]0,x[ (y)
x
Ainsi X est uniformément distribué sur ]0, 1[, et la loi de Y sachant X = x est
uniforme sur ]0, x[ pour (0 < x < 1).
21
En détail Notons J(a, b) = E((Y − (aX + b))2 )
∂J(a, b)
= −2E(Y 2 ) + 2aE(X) + 2b
∂b
d’où b = E(Y ) − aE(X)
Par ailleurs,
∂J(a, b)
= −2E(XY ) + 2aE(X 2 ) + 2bE(X)
∂a
= −2E(XY ) + 2aE(X 2 ) + 2E(X)E(Y ) − 2aE(X 2 )
= −2Cov(X, Y ) + aV(X)
Cov(X,Y )
d’où a = V(X) = ρ(X, Y ) σσX
Y
Variance totale
V(Y ) =E((Y − E(Y ))2 ) = E(E((Y − E(Y ))2 |X)) par la formule de l’espérance totale
=E(E((Y − E(Y |X) + E(Y |X) − E(Y ))2 |X))
=E(E((Y − E(Y |X))2 |X)) + E(E((E(Y |X) − E(Y ))2 |X))
+ 2E(E((Y − E(Y |X))(E(Y |X) − E(Y ))|X))
=E(V(Y |X)) + E((E(Y |X) − E(Y ))2 ) + 2E((E(Y |X) − E(Y ))E((Y − E(Y |X))|X))
=E(V(Y |X)) + V(E(Y |X)) car E((Y − E(Y |X))|X) = 0
Couple de variables
Question 1 On voit d’abord que la densité du couple (X, Y ) vaut :
Soit h une fonction continue bornée sur R2+ . Le changement de variable (x, y) 7→
(t = xy, y) de jacobien y, donne alors que
Z +∞ Z +∞
t
E(h(T, Y )) = E(h(XY, Y )) = h(t, y)e−t dtdy
1 0 y2
22
R +∞
Question 2 La loi marginale de X a pour densité fX (x) = 1 xe−xy dy = e−x .
Ainsi X suit une loi exponentielle de paramètre 1 et la loi conditionnelle de Y
sachant X = x admet la densité :
fX,Y (x, y)
fY |X=x (y) = = xe−x(y−1) 1[1,+∞[ (y)
fX (x)
pour x > 0.
Mélanges de lois
Question 1 Soit B un borélien. Par indépendance de K avec Xi , on a
(x − mi )2
1
fX|K=i : x ∈ R 7→ fi (x) = √ exp − .
2πσi 2σi2
23
Pn
Quant à la variance de X, en utilisant l’égalité
pi = 1, elle vaut i=1
Z n
!2
X
2 2 2
V(X) = E X − E(X) = x fX (x) dx − pi mi
R i=1
2
n
X n
X Xn
= pi (σi2 + m2i ) − pi pj mj
i=1 i=1 j=1
2
n
X n
X n
X
= pi σi2 + pi mi − pj mj .
i=1 i=1 j=1
Lois conjuguées
On considère dans tout cet exercice B1 et B2 des Boréliens.
24
Mélange équiprobable de deux Gaussiennes N (−2, 1) et N (2, 2)
0.22
densité du mélange
0.2
densité de N (0, 4)
0.18
0.16
0.14
0.12
f (x)
0.1
8 · 10−2
6 · 10−2
4 · 10−2
2 · 10−2
0
−2 · 10−2
−6 −4 −2 0 2 4 6 8 10
x
Figure 1 – Illustration
25
On reconnaît dans cette dernière intégrale la formule de l’espérance d’une loi
Exponentielle de paramètre x + λ, et on en déduit que pour tout x ∈ R
λ
fX (x) = 1R∗ (x).
(x + λ)2 +
Pour tout x ∈ R∗+ la variable Y sachant {X = x} admet donc aussi une densité,
que l’on explicite avec la formule de Bayes : pour tout y ∈ R
On reconnaît dans cette dernière intégrale la densité d’une loi Gamma d’indice
x + α et de paramètre d’échelle θ + 1, qui correspond exactement à la loi
conditionnelle de Y sachant {X = x} pour x ∈ N. En effet, on a d’une part
X θα Γ(x + α)
PX (B1 ) = PX,Y (B1 × R) = ,
Γ(α) x! (θ + 1)x+α
x∈B1 ∩N
PX,Y ({x} × B2 )
PY |X=x (B2 ) = P (Y ∈ B2 | X = x) =
PX ({x})
Z x+α
(θ + 1)
= y x+α−1 e−(θ+1)y dy.
B2 ∩R+ Γ(x + α)
26
Randomisation
En termes probabilistes et selon les notations de l’exercice, il s’agit de calculer
E(TN − T0 ), où la variable aléatoire TN peut s’écrire en fonction d’une somme
aléatoire de variables aléatoires indépendantes :
N
X
TN = Xi + T0 .
i=1
Comme la boutique ferme au bout d’un certain temps, toutes les variables
aléatoires figurant dans l’équation précédente sont bornées, donc intégrables. On
peut ainsi calculer E(TN − T0 ) à l’aide de la formule de l’espérance totale :
E (TN − T0 ) = E (E (TN | N )) − T0 .
27
Question 2 Soient n ∈ N∗ , (x1 , . . . , xn ) ∈ Rn et B1 , . . . , Bn des boréliens.
Pour simplifier les écritures, on note x1:n tout vecteur (x1 , . . . , xn ) de Rn . Alors
n
!
Y
PY1:n |X1:n =x1:n (B1 × · · · × Bn ) = E 1Bi (Xi + ϵi ) X1:n = x1:n
i=1
Z n
Y
= 1Bi (xi + yi ) Pϵ1:n |X1:n =x1:n (dy1:n )
Rn i=1
Z Y n
= 1Bi (xi + yi ) Pϵ1:n (dy1:n ) par indépendance des ϵi et Xj ,
Rn i=1
n Z
Y
= 1Bi (xi + yi ) fϵ (xi ) dyi par Fubini et indépendance et même loi des ϵi ,
i=1 R
Yn Z
= 1Bi (yi ) fϵ (yi − xi ) dyi
i=1 R
Yn Z
= 1Bi (yi ) fYi |Xi =xi (yi ) dyi par la question 1,
i=1 R
Yn
= PYi |Xi =xi (Bi ).
i=1
Covariance totale
Tout d’abord, par linéarité de l’espérance conditionnelle on a :
Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z
= E XY − XE(Y | Z) − Y E(X | Z) + E(X | Z)E(Y | Z) Z
= E(XY | Z) − E(X | Z)E(Y | Z).
28
Non-réponse
Question 1 L’espérance conditionnelle de Y sachant X peut s’écrire comme
la solution au problème de minimisation
2
min 2 E (Y − ϕ(X)) .
ϕ(X)∈LX
et sa dérivée
Jx′ (λ) = 2λ P(X = x) − 2 E Y 1{x} (X)
s’annule en
E Y 1{x} (X)
λx := = E(Y | X = x).
P(X = x)
On en conclut que
29
Question 3 Par la formule de la variance totale et d’après la question 1, on a
σ 2 = V (Y ) = E V (Y | X) + V E(Y | X)
ρ2 σ 2
= p σ12 + (1 − p) σ02 + V(X)
p (1 − p)
= p σ12 + (1 − p) σ02 + ρ2 σ 2 .
(1 − p) σ02 + p σ12
σ2 = .
1 − ρ2
Références
Jacod, J., and P. Protter. 2003. L’essentiel En Théorie Des Probabilités. Cassini.
[Link]
30