0% ont trouvé ce document utile (0 vote)

33 vues30 pages

Lois et Espérances Conditionnelles

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

33 vues30 pages

Lois et Espérances Conditionnelles

Transféré par

Nizar Sahid

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités III

STEP, MINES ParisTech∗

8 décembre 2023 (#db2aa89)

Table des matières

Objectifs d’apprentissage 2

Lois conditionnelles 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Lois conditionnelles dans un couple . . . . . . . . . . . . . . . . . . . . 3
Cas où X est discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Image de la probabilité conditionnelle . . . . . . . . . . . . . . . 5
Densités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 6
Proposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Fubini conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . . 8
A noter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Formule de balayage conditionnel . . . . . . . . . . . . . . . . . . 9
Critère d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . 10

Espérance conditionnelle 11
Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 11
Conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Espérance conditionelle d’une fonction de variables aléatoires . . 12
Espérance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Transfert conditionnel . . . . . . . . . . . . . . . . . . . . . . . . 13
Exemple : vecteurs Gaussiens à densité . . . . . . . . . . . . . . . . . . 13
∗ Ce document est un des produits du projet paulinebernard/CDIS issu de la collaboration

de (P)auline Bernard (CAS) et (T)homas Romary (GEOSCIENCES). Il dérive du projet

boisgera/CDIS, initié par la collaboration de (S)ébastien Boisgérault (CAOR), (T)homas
Romary et (E)milie Chautru (GEOSCIENCES), (P)auline Bernard (CAS), avec la contribution
de Gabriel Stoltz (Ecole des Ponts ParisTech, CERMICS). Il est mis à disposition selon les
termes de la licence Creative Commons “attribution – pas d’utilisation commerciale – partage
dans les mêmes conditions” 4.0 internationale.

1
Régression et espérance conditionnelle des variables de carré inté-
grable 15
Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Espace de Hilbert des variables aléatoires de carré intégrable . . . . . 16

Exercices 18
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 19
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Solutions 21
Couple de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Mélanges de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Randomisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Etats cachés — indépendance conditionnelle . . . . . . . . . . . . . . . 27
Covariance totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Non-réponse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Références 30

Objectifs d’apprentissage
Cette section s’efforce d’expliciter et de hiérarchiser les acquis d’apprentissages
associés au chapitre. Ces objectifs sont organisés en paliers :
(◦) Prérequis (•) Fondamental (••) Standard (•••) Avancé (••••) Expert
Sauf mention particulière, la connaissance des démonstrations du document n’est
pas exigible 1

Lois conditionnelles
— •• connaître le théorème de Fubini conditionnel
— •• connaître les formules de balayage conditionnel
— •• savoir appliquer ces résultats pour différents types de loi de probabilité
(à densité ou non)
— • connaître le critère d’indépendance qui résulte du théorème de Fubini
conditionnel
1. l’étude des démonstrations du cours peut toutefois contribuer à votre apprentissage, au
même titre que la résolution d’exercices.

2
Espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
— • connaître les deux points de la définition de l’espérance conditionnelle
d’une fonction de variables aléatoires
— • connaître et savoir utiliser la formule de l’espérance totale
— •• savoir calculer la densité conditionnelle d’un certain nombre de com-
posantes sachant les autres dans un vecteur gaussien à densité

Cas L2
— •• savoir que la régression linéaire est la meilleure approximation linéaire
(au sens des moindres carrés) d’une variable aléatoire par une autre
— ••• savoir retrouver ce résultat
— •••• connaître l’interprétation géométrique de l’espérance conditionnelle
dans le cas L2
— • connaître et savoir utiliser la formule de la variance totale

Lois conditionnelles
Introduction
On s’est consacré jusqu’à présent à l’étude de variables aléatoires indépendantes.
En pratique cependant, on rencontre souvent des variables dépendant les unes
des autres. Dans le cas de la météo, les variables température, vitesse du vent et
pression en fournissent un exemple. Dans les approches bayésiennes, on résume
l’information disponible sur l’état du système étudié par la loi a priori et
on met à jour notre connaissance du système en incorporant de l’information
supplémentaire (par exemple des observations). On cherche alors à caractériser
la loi a posteriori de l’état du système, qui est la loi de l’état sachant l’in-
formation supplémentaire. On va ainsi s’attacher dans ce chapitre à décrire les
lois conditionnelles qui vont permettre de résumer l’information apportée
par une variable (ou un vecteur) sur une autre et s’intéresser en particulier
à l’espérance conditionnelle qui indiquera le comportement moyen d’une
variable conditionnellement à une autre. Ce dernier cas pose le cadre probabiliste
d’un des problèmes fondamentaux en apprentissage statistique : l’apprentissage
supervisé, où on dispose d’un ensemble de réalisations d’une variable dont on
cherche à prédire le comportement à partir d’un ensemble de variables dites
explicatives (ou prédicteurs).

Lois conditionnelles dans un couple

Soient deux variables aléatoire X et Y définies sur le même espace probabilisé
(Ω, A, P). Dans le cas où X et Y sont indépendantes, on a vu que pour tous
boréliens B1 et B2 de B(R), on a
Z
P(X ∈ B1 , Y ∈ B2 ) = P(X ∈ B1 )P(Y ∈ B2 ) = PX (B1 )PY (B2 ) = PY (B2 )PX (dx),
B1

3
où on a utilisé le théorème de Fubini.
Du fait de l’indépendance, on a aussi PY (B2 ) = P(Y ∈ B2 ) = P(Y ∈ B2 |X ∈
B1 ) = PY (B2 |X ∈ B1 ) ce qui exprime que pour tout borélien B1 , la loi condi-
tionnelle de Y sachant X ∈ B1 est identique à la loi de Y .
Lorsque X et Y en sont pas indépendantes, on va chercher à établir une égalité
de la forme
Z
P(X ∈ B1 , Y ∈ B2 ) = PX (B1 )PY (B2 |X ∈ B1 ) = PY |X=x (B2 )PX (dx)
B1

et s’intéresser à caractériser la loi conditionnelle de Y sachant X = x, que l’on

notera donc PY |X=x .
De même, pour toute application g : R2 → R mesurable telle que g(X, Y )
admette une espérance (relativement à la loi du couple PX,Y ), on voudrait
écrire : Z Z
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx)
R R

Pour bien fixer les idées, on va décrire spécifiquement les cas où X est discrète
puis où le couple (X, Y ) admet une densité avant d’aborder le cas général.

Cas où X est discrète

Dans ce paragraphe, on suppose que la variable aléatoire réelle X est discrète,
c’est-à-dire que l’ensemble X(Ω) ⊂ R des valeurs xk prises par X est au plus
dénombrable.
On peut imposer que ∀x ∈ X(Ω) on ait P(X = x) > 0, quitte à modifier X sur
un ensemble de probabilité nulle. On va ainsi pouvoir utiliser la définition de
la probabilité conditionnelle pour des événements de la forme {X = x}. Ceci
permet d’écrire pour tous boréliens B1 et B2 de R :
X
P(X ∈ B1 , Y ∈ B2 ) = P(X = x, Y ∈ B2 )
x∈X(Ω)∩B1
X
= P(X = x)P(Y ∈ B2 |X = x)
x∈X(Ω)∩B1
Z
= P(Y ∈ B2 |X = x)PX (dx)
B1
P
puisque PX = x∈X(Ω) P(X = x)δx . On obtient ainsi l’écriture souhaitée en
posant

PY |X=x (B2 ) = P(Y ∈ B2 |X = x), ∀x ∈ X(Ω), ∀B2 ∈ B(R).

4
Remarque – Image de la probabilité conditionnelle
PY |X=x ainsi définie est simplement la probabilité sur (R, B(R)) image par Y de
la probabilité conditionnelle P(·|X = x) définie sur (Ω, A), autrement dit, la loi
de Y relative à P(·|X = x) et non à P.
R
La formule ci-dessus s’écrit PX,Y (B1 × B2 ) = B1 P(Y ∈ B2 |X = x)PX (dx), où
PX,Y est la loi du couple. Elle se généralise à tout borélien B de R2 de la manière
suivante :

X
PX,Y (B) = P((X, Y ) ∈ B) = P(X = x, (x, Y ) ∈ B)
x∈X(Ω)
X
= P(X = x)P((x, Y ) ∈ B|X = x)
x∈X(Ω)
X
= P(X = x)PY |X=x (Bx ),
x∈X(Ω)

où Bx = {y ∈ R, (x, y) ∈ B}. Ainsi, pour tout B borélien de R2 ,

Z Z Z
E(1B (X, Y )) = 1B (x, y)PX,Y (dxdy) = 1B (x, y)PY |X=x (dy) PX (dx)
R2 R R

Par linéarité de l’espérance, on peut ainsi exprimer l’espérance d’une fonction

étagée. Pour avoir le résultat pour une fonction mesurable positive, on exprime
celle-ci comme limite simple d’une suite croissante de fonctions étagées, et
on applique le théorème de convergence monotone. Enfin, on applique cette
construction à g+ et g− pour une fonction g de signe quelconque PX,Y -intégrable.
En d’autres termes, on reprend le procédé de construction de l’intégrale de
Lebesgue. On obtient ainsi la formule souhaitée :
Z Z
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx).
R R

Exemple – Pour fixer les idées (1) Soit X ≥ 0 une variable aléatoire à
valeurs dans N et Y une variable aléatoire réelle positive telle que la loi du couple
PX,Y vérifie pour tout n ∈ N et tout borélien B2 de R :

tn
Z
PX,Y ({n} × B2 ) = (1 − α)α n
e−t dt, 0 < α < 1
B2 ∩R∗+
n!

5
PX,Y est bien une probabilité sur R2 puisque par convergence monotone :

PX,Y (R2 ) = PX,Y (N × R)

X
= PX,Y ({n} × R)
n∈N
tn
X Z
= (1 − α)αn e−t dt
R∗ n!
n∈N +
Z X (αt)n
= (1 − α) e−t dt
R∗ n!
+ n∈N
Z
= (1 − α) e−(1−α)t dt = 1
R∗
+

où on aura reconnu la loi exponentielle de paramètre (1 − α). ∀n ∈ N,

tn t(n−1)
Z Z Z
e−t dt = e−t dt = . . . = e−t dt = 1
∗
R+ n! ∗
R+ (n − 1)! ∗
R+

par intégrations par parties itérées. La loi marginale de X s’écrit donc :

∀n ∈ N, P(X = n) = PX,Y ({n} × R∗+ ) = (1 − α)αn ,

loi géométrique de paramètre (1 − α). On en déduit la loi conditionnelle de Y

sachant X = n :
PX,Y ({n} × B2 ) tn
Z
PY |X=n (B2 ) = P(Y ∈ B2 |X = n) = = e−t dt
P(X = n) B2 ∩R∗
+
n!

et PY |X=n est la donc la loi gamma de paramètre (n + 1, 1).

Densités conditionnelles
On suppose maintenant que le couple (X, Y ) admet R une densité fX,Y (par rapport
à la mesure
R de Lebesgue). On note f X (x) = f
R X,Y
(x, y)dy (respectivement
fY (y) = R fX,Y (x, y)dx) la loi marginale de X (resp. de Y ). On s’intéresse à
caractériser la densité de la variable Y connaissant la valeur prise par la variable
X, c’est la densité conditionnelle de Y sachant {X = x} :

Proposition – Densité conditionnelle

La formule suivante définit une densité sur R, pour tout x ∈ R tel que fX (x) > 0.
fX,Y (x, y)
fY |X=x (y) = .
fX (x)
Cette fonction s’appelle la densité conditionnelle de Y sachant {X = x}. La
probabilité conditionnelle de Y sachant {X = x} s’écrit ainsi PY |X=x = fY |X=x λ,
où λ représente la mesure de Lebesgue.

6
Démonstration La preuve est immédiate puisque fY |X=x est une fonction
positive d’intégrale 1. ■

Exercice – Dans un triangle (1) (•) Soient X et Y de densité jointe

fX,Y (x, y) = x1 1T (x, y) où T est le triangle T = {0 < y < x < 1}.

1. Calculer la densité marginale de X

2. Calculer la densité conditionnelle de Y sachant X = x.

(Solution p. 21.)
L’interprétation de cette définition est la suivante : la fonction fY |X=x est la
densité de la “loi conditionnelle de Y sachant que X = x”. Bien sûr, nous avons
P(X = x) = 0 puisque X admet une densité, donc la phrase ci-dessus n’a pas
réellement de sens, mais elle se justifie heuristiquement ainsi : dx et dy étant de
“petits” accroissements des variables x et y et lorsque f et fX sont continues et
strictement positives respectivement en (x, y) et x :

fX (x)dx ≈ P(X ∈ [x, x + dx])

fX,Y (x, y)dxdy ≈ P(X ∈ [x, x + dx], Y ∈ [y, y + dy])

Par suite
P(X ∈ [x, x + dx], Y ∈ [y, y + dy])
fY |X=x (y)dy ≈
P(X ∈ [x, x + dx])
≈ P(Y ∈ [y, y + dy]|X ∈ [x, x + dx])

On a alors le résultat suivant qui résout le problème posé en introduction :

Proposition – Proposition
Pour toute fonction g : R2 → R telle que g(X, Y ) admette une espérance, on a :
Z Z
E(g(X, Y )) = g(x, y)fY |X=x (y)dy fX (x)dx,
R R

dont on déduit, en prenant g = 1B1 ×B2 , que :

Z Z
P(X ∈ B1 , Y ∈ B2 ) = fY |X=x (y)dy fX (x)dx.
B1 B2

7
Démonstration On a
Z
E(g(X, Y )) = g(x, y)fX,Y (x, y)dydx
R2
Z
= g(x, y)fY |X=x (y)fX (x)dydx
2
ZR Z
= g(x, y)fY |X=x (y)dy fX (x)dx,
R R

les calculs étant licites

R par application du théorème de Fubini et du fait que
l’application x 7→ R g(x, y)fY |X=x (y)dy est définie pour fX (x) > 0, soit presque
partout relativement à la mesure PX = fX λ. ■

Cas général
On peut établir le résultat suivant, qui complète le théorème de Fubini et le
résultat d’existence et d’unicité des mesures produits, et que l’on admettra.

Théorème – Fubini conditionnel

Soit un couple (X, Y ) de variables aléatoires réelles de loi jointe PX,Y , il existe
une famille PY |X=x x∈R de probabilités sur (R, B(R)), unique à une égalité
PX -presque partout près 2 , qui vérifie pour tous B1 , B2 boréliens de R :
Z Z
PX,Y (B1 × B2 ) = PY |X=x (dy) PX (dx).
B1 B2

Ces probabilités sont appelées lois conditionnelles de Y sachant X = x. On

a de plus pour toute application g : R2 → R telle que g(X, Y ) admette une
espérance :
Z Z
E(g(X, Y )) = g(x, y)PY |X=x (dy) PX (dx).
R R

Remarque – A noter
— Ce résultat peut être interprété comme un théorème de Fubini condi-
tionnel, dans le sens où il permet une intégration séquentielle, mais ici
la mesure de probabilité du couple (X, Y ) s’exprime comme un produit
de mesures dont l’un des termes dépend de la variable d’intégration de
l’autre. En particulier, si on change l’ordre d’intégration, on change les
mesures qui interviennent.
— Fréquemment, dans les applications, la famille des lois conditionnelles est
une donnée du modèle considéré, et leur existence ne pose donc pas de
problème !
2. c’est-à-dire qu’on peut définir ces probabilités de la manière qu’on souhaite pour les
boréliens B tels que PX (B) = 0.

8
— On retrouve les cas vus précédemment
R en notant
P que pour tout borélien
B1 de R on a PX (B1 ) = B1 PX (dx) = x∈B1 P(X = x) lorsque X
est
R discrète, et que pour tous boréliens
R B 1 et B2 de R on a PX (B1 ) =
f
B1 X
(x)dx et PX,Y (B1 × B 2 ) = f
B1 ×B2 X,Y
(x, y)dxdy.
— Dans tout ce qui précède, les rôles de X et Y peuvent évidemment être
inversés.

Conséquences
Le théorème précédent (p. 8) a deux conséquences majeures. Il fournit d’une part
un moyen efficace d’identifier la loi marginale de Y connaissant la loi marginale
de X et la loi de Y sachant X = x. En effet, en notant que pour tout borélien B
de R, PY (B) = PX,Y (R × B) et en appliquant ce théorème, on a la proposition
suivante :

Proposition – Formule de balayage conditionnel

— La loi marginale PY de Y s’exprime comme la moyenne des lois condi-
tionnelles PY |X=x pondérée par la loi de X. Pour tout B borélien de
R
Z Z Z
PY (B) = PY |X=x (dy) PX (dx) = PY |X=x (B)PX (dx)
R B R

— Dans le cas où X est discrète (à valeurs dans I dénombrable), on retrouve

une expression de la formule des probabilités totales et composées :
X
PY (B) = P(Y ∈ B) = P(Y ∈ B|X = x)P(X = x)
x∈I

— Dans le cas où le couple (X, Y ) admet une densité, puisqu’on a

fX,Y (x, y) = fY |X=x (y)fX (x), on obtient l’expression suivante pour la
densité marginale :
Z Z
fY (y) = fX,Y (x, y)dx = fY |X=x (y)fX (x)dx.
R R

On a en particulier la formule de Bayes pour les densités : pour tout x

tel que fX (x) > 0 et tout y tel que fY (y) > 0 :

fX,Y (x, y) fY |X=x (y)fX (x)

fX|Y =y (x) = = .
fY (y) fY (y)

Exemple – Pour fixer les idées (2) Poursuivons l’exemple vu plus haut
(p. 5). On rappelle qu’on a déjà identifié la loi marginale de X ainsi que la loi
conditionnelle de Y sachant X = n pour n ∈ N que l’on rappelle ici :
tn
Z
n
P(X = n) = (1 − α)α , n ∈ N et ∀B ∈ B(R), PY |X=n (B) = e−t dt
B∩R∗+
n!

9
On peut en déduire la loi marginale de Y en utilisant la formule de balayage
conditionnel (p. 9) et le théorème de convergence monotone :

tn
X Z
PY (B) = (1 − α)αn e−t dt
B∩R∗ n!
n∈N +
Z X (αt)n
= (1 − α) e−t dt
B∩R∗ n!
+ n∈N
Z
= 1R+ (t)(1 − α)e−(1−α)t dt,
B

de sorte que Y suit une loi exponentielle de paramètre (1 − α).

En inversant les rôles, on va pouvoir identifier la loi de X sachant Y ∈ B en
notant que

PX,Y ({n} × B) = PX ({n})PY |X=n (B)

(αt)n −αt
Z
= e PY (dt)
n!
ZB
= PX|Y =t ({n})PY (dt)
B
n
où l’on reconnaît que PX=n|Y =t ({n}) = (αt)
n! e
−αt
, c’est-à-dire que X sachant
Y = t suit une loi de Poisson de paramètre αt pour PY -presque tout t.
En utilisant, le théorème de Fubini conditionnel (p. 8), on obtient également une
nouvelle caractérisation de l’indépendance de deux variables aléatoires faisant
intervenir les lois conditionnelles.

Proposition – Critère d’indépendance

1. X et Y sont indépendantes si et seulement si, pour PX -presque tout x,
PY |X=x ne dépend pas de x et dans ce cas, on a PY |X=x = PY , c’est-à-dire
que la loi conditionnelle est identique à la loi marginale.
2. Dans le cas où (X, Y ) admet une densité, X et Y sont indépendantes si
et seulement si la densité conditionnelle de Y sachant {X = x} ne dépend
pas de x.

Démonstration
1. Si X et Y sont indépendantes,
R pour tous B1 , B2 boréliens
R de R, PX,Y (B1 ×
B2 ) = PX (B1 )PY (B2 ) = B1 PY (B2 )PX (dx) = B2 PX (B1 )PY (dy). Le
résultat d’unicité du théorème de Fubini conditionnel (p. 8) (à une égalité
PX -presque sûre près), nous indique alors que PY |X=x (B2 ) = PY (B2 ).
R
Inversement, si PY |X=x = PY , alors PX,Y (B1 ×B2 ) = B1 PY |X=x (B2 )PX (dx) =
R
P (B2 )PX (dx) = PX (B1 )PY (B2 ).
B1 Y

10
2. Si X et Y sont indépendantes, fX,Y (x, y) = fX (x)fY (y), d’où
fY |X=x (y) = fY (y).
Inversement, si fY |X=x (y) = fY (y) alors fX,Y (x, y) = fY |X=x (y)fX (x) =
fY (y)fX (x) et X et Y sont indépendantes.
■

Espérance conditionnelle
Puisque PY |X=x est la loi d’une variable aléatoire, on peut définir l’espérance
qui lui est associée et introduire la notion d’espérance conditionnelle dans le cas
où Y est intégrable.

Définition – Espérance conditionnelle

Soit Y ∈ L1 .

1. L’espérance conditionnelle de Y sachant {X = x} est définie par

Z
E(Y |X = x) = yPY |X=x (dy).
R

2. L’espérance conditionnelle de Y sachant X est la variable aléatoire

définie par :

E(Y |X) = ψ(X), avec ψ(x) = E(Y |X = x).

Exercice – Dans un triangle (2) (•) Soient X et Y de densité jointe

fX,Y (x, y) = x1 1T (x, y) où T est le triangle T = {0 < y < x < 1}. Calculer
l’espérance conditionnelle de Y sachant X. (Solution p. 21.)

Remarque – Conséquences
1. ψ(x) n’est définie que pour x ∈/ N , avec P(X ∈ N ) = 0. Par conséquent, la
définition (p. 11) définit bien l’espérance conditionnelle ψ(X) = E(Y |X)
PX -presque partout, autrement dit avec probabilité 1, ou encore presque
sûrement.
2. E(E(|Y ||X)) = E(|Y |) comme conséquence directe du théorème de Fubini
conditionnel (p. 8). L’espérance conditionnelle de Y sachant X est bien
définie dès que Y est intégrable.
3. Lorsque (X, Y ) admet une densité, l’espérance conditionnelle de Y sachant
{X = x} s’écrit
Z
E(Y |X = x) = yfY |X=x (y)dy.
R

11
Exercice – Auto-conditionnement (•) Montrer que E(Y |Y ) = Y . (Solution
p. 21.)
On peut étendre cette définition aux variables de la forme g(X, Y ).

Définition – Espérance conditionelle d’une fonction de variables aléa-

toires
Soit (X, Y ) un couple de variables aléatoires réelles et g une fonction mesurable
positive ou PX,Y -intégrable sur R2 .

1. L’espérance conditionnelle de g(X, Y ) sachant {X = x} est définie par

Z
E(g(X, Y )|X = x) = g(x, y)PY |X=x (dy).
R

2. L’espérance conditionnelle de g(X, Y ) sachant X est la variable aléa-

toire définie par :

E(g(X, Y )|X) = ψ(X), avec ψ(x) = E(g(X, Y )|X = x).

Théorème – Espérance totale

Si Y est intégrable, alors ψ(X) = E(Y |X) est intégrable, et

E(ψ(X)) = E(Y ).

Démonstration C’est une conséquence directe du théorème de Fubini condi-

tionnel (p. 8). ■
Ce résultat permet de calculer E(Y ) en conditionnant par une variable auxiliaire
X : Z
E(Y ) = E(Y |X = x)PX (dx)
R

Il généralise la formule des probabilités totales, qui correspond ici à Y = 1A , et

Bx = {X = x} où les Bx forment cette fois une partition non dénombrable de R.
On l’écrit souvent sous la forme

E (E(Y |X)) = E(Y )

et on l’appelle la formule de l’espérance totale.

L’espérance conditionnelle étant définie comme l’espérance selon la loi condition-
nelle, elle hérite des propriétés usuelles de l’espérance :

1. si Y et Z sont intégrables, E(aY + bZ|X) = aE(Y |X) + bE(Z|X),

2. E(Y |X) ≥ 0 si Y ≥ 0,
3. E(1|X) = 1.

12
De plus, si g est mesurable positive ou PX -intégrable,

E(Y g(X)|X) = g(X)E(Y |X)

est une généralisation de l’égalité 1. ci-dessus, au cas où a = g(X), qui doit être
considéré “comme une constante” dans le calcul de l’espérance conditionnelle
sachant X (X est fixée comme une donnée connue a priori). En effet, on a alors
E(g(x)Y |X = x) = g(x)ψ(x). Enfin, on déduit directement du théorème de
Fubini conditionnel (p. 8) la proposition suivante.

Proposition – Transfert conditionnel

Soient un couple (X, Y ) de variables aléatoires réelles de loi jointe PX,Y et g une
fonction mesurable positive ou PX,Y -intégrable sur R2 . On a pour PX -presque
tout x dans R
Z
E(g(X, Y )|X = x) = E(g(x, Y )|X = x) = g(x, y)PY |X=x (dy)
R

Si de plus X et Y sont indépendantes, on a :

Z
E(g(X, Y )|X = x) = E(g(x, Y )|X = x) = g(x, y)PY (dy).
R

Autrement dit, lorsqu’on conditionne par l’événement {X = x}, cela revient à

fixer la valeur de la variable aléatoire X à la constante x.

Exercice – Espérance conditionnelle d’un produit de variables (•)

Calculer E(XY |X = x) puis E(XY |X). (Solution p. 21.)

Exemple : vecteurs Gaussiens à densité

Dans ce qui précède, on a décrit les lois et les espérances conditionnelles dans
le cas d’un couple de variables aléatoires à valeurs dans R2 . Ces résultats sont
aussi valables pour des couples de vecteurs, dont on décrit ici un cas particulier.
Dans le cas des vecteurs gaussiens à densité, c’est-à-dire dont la matrice de
covariance est définie positive et donc inversible, le calcul des lois conditionnelles
de certaines composantes par rapport aux autres est particulièrement aisé. On
va voir en particulier que les lois conditionnelles ont le bon goût d’être elles-
mêmes gaussiennes, ce qui explique (en partie) le succès de ces modèles dans les
applications.
On considère un vecteur gaussien X = (X1 , . . . , Xn ) à valeurs dans Rn d’espé-
rance m et de matrice de covariance C définie positive. On a vu au chapitre 2
que la densité du vecteur X s’écrit pour x ∈ Rd :

1 1
fX (x) = p exp − (x − m)t C −1 (x − m)
(2π)n/2 det(C) 2

13
Soit 1 ≤ k < n un entier. On souhaite exprimer fY |Z=z , la densité conditionnelle
de Y = (X1 , . . . , Xk ) sachant Z = (Xk+1 , . . . , Xn ) = (xk , . . . , xn ) = z (si
k + 1 = n, ce vecteur se réduit à une seul valeur). On a vu que

fX = fY |Z=z fZ ,

où fZ est la densité marginale de Z. On cherche donc à décomposer fX de la

sorte. On note m = (mY , mZ ) et on remarque que C peut se décomposer en
blocs :
CY CY,Z
C=
CZ,Y CZ
où CY = Cov(Y, Y ), CZ = Cov(Z, Z) et CY,Z = Cov(Y, Z). Le complément de
Schur 3 du bloc CY est la matrice

CSY = CY − CY,Z CZ−1 CZ,Y

et permet d’exprimer l’inverse de C comme :

CSY−1 −CSY−1 CY,Z CZ−1

−1
C =
−CZ−1 CZ,Y CSY−1 CZ−1 + CZ−1 CZ,Y CSY−1 CY,Z CZ−1

On peut alors réarranger les termes de la forme quadratique dans fX et on

obtient :
t
(x − m)t C −1 (x − m) = y − (mY + CY,Z CZ−1 (z − mZ )) CSY−1
. y − (mY + CY,Z CZ−1 (z − mZ ))

+ (z − mZ )t CZ−1 (z − mZ )

Pour la constante, on peut remarquer que :

det(C) = det(CSY ) det(CZ ).

On en déduit ainsi que

1 1 t −1
fY |Z=z (y) = p exp − (y − ψ(z)) CSY (y − ψ(z)))
(2π)k/2 det(CSY ) 2

C’est-à-dire que la variable aléatoire Y |Z = z est gaussienne d’espérance

mY |Z=z = ψ(z) = mY + CY,Z CZ−1 (z − mZ ) et de matrice de covariance CSY =
CY − CY,Z CZ−1 CZ,Y . Autrement dit, l’espérance conditionnelle de Y sachant Z
est la variable aléatoire E(Y |Z) = ψ(Z) = (mY + CY,Z CZ−1 (Z − mZ )). On notera
que la covariance conditionnelle donnée par CSY ne dépend pas de la valeur
prise par Z.
3. voir par exemple l’excellent matrix cookbook.

14
Régression et espérance conditionnelle des va-
riables de carré intégrable
La régression est un ensemble de méthodes (d’apprentissage) statistiques très
utilisées pour analyser la relation d’une variable par rapport à une ou plusieurs
autres. Ces méthodes visent notamment à décrire les liens de dépendance entre
variables mais aussi de prédire au mieux la valeur d’une quantité non observée
en fonction d’une ou plusieurs autres variables. On va en décrire ici le prin-
cipe du point de vue probabiliste dans le cas particulier des variables de carré
intégrable (ou dans L2 ). On verra dans ce cadre, que l’on rencontre très fréquem-
ment en pratique, une interprétation géométrique très éclairante de l’espérance
conditionnelle.

Régression linéaire
On considère deux variables aléatoires réelles, de carré intégrable, définies sur le
même espace de probabilité (Ω, A, P), et dont on suppose connues les variances et
la covariance. Nous souhaitons trouver la meilleure approximation de Y par une
fonction affine de X de la forme aX + b, au sens des moindres carrés, c’est-à-dire
qui minimise la quantité E((Y −(aX +b))2 ). Il s’agit de déterminer les constantes
a et b telles que E((Y − (aX + b))2 ) soit minimale. Or, par linéarité,

E((Y − (aX + b))2 ) = E(Y 2 ) − 2aE(XY ) − 2bE(Y ) + a2 E(X 2 ) + 2abE(X) + b2 .

L’annulation de ses dérivées partielles en à a et b entraîne que les solutions sont

Cov(X, Y ) σY
a= = ρ(X, Y )
V(X) σX
b = E(Y ) − aE(X)

Exercice – En détail (•) Détailler le calcul de a et b. (Solution p. 22.)

On vérifie aisément que ces valeurs donnent bien un minimum pour E((Y −
(aX + b))2 ) qui est convexe, et déterminent ainsi la meilleure approximation
linéaire de Y basée sur X au sens de l’erreur quadratique moyenne.
Cette approximation linéaire vaut
σY
E(Y ) + ρ(X, Y ) (X − E(X))
σX
et l’erreur quadratique moyenne vaut alors
2 !
σY
E Y − E(Y ) − ρ(X, Y ) (X − E(X)) = σY2 + ρ2 (X, Y )σY2 − 2ρ2 (X, Y )σY2
σX
= σY2 (1 − ρ2 (X, Y )).

15
On voit ainsi que cette erreur est proche de 0 lorsque |ρ(X, Y )| ≈ 1 tandis qu’elle
est proche de V(Y ) = σY2 lorsque ρ(X, Y ) ≈ 0. On notera au passage qu’on
obtient que la meilleure approximation de Y par une constante est son espérance.

Remarque – Remarque
L’hypothèse d’une relation linéaire est très forte et pas nécessairement toujours
adaptée pour expliquer des relations de dépendances entre variables. Soit en
effet une variable aléatoire réelle X de L3 (i.e. X 3 est PX intégrable) symétrique,
c’est-à-dire telle que X et −X sont de même loi. On a alors E(X) = −E(X) = 0.
Les variables X et X 2 ne sont clairement pas indépendantes. Pour autant, on a
Cov(X, X 2 ) = E(X 3 ) = −E(X 3 ) = 0 et le coefficient de régression a ci-dessus
est nul.

Espace de Hilbert des variables aléatoires de carré intégrable

Dans le paragraphe précédent, on s’est intéressé à approximer linéairement une
variable aléatoire Y de carré intégrable par une autre variable X également de
carré intégrable. On va montrer ici que la meilleure approximation, au sens de
l’erreur quadratique moyenne, de Y par une fonction de X est précisément donnée
par ψ(X) = E(Y |X). Ce paragraphe fait appel à des notions hors programme
et est par conséquent non exigible. Il fournit néanmoins une interprétation
géométrique particulièrement frappante de l’espérance conditionnelle.
On a besoin en pratique de travailler sur un espace un peu plus petit que L2
tout entier. En effet, les outils que nous allons utiliser ne nous permettent pas
de distinguer entre deux variables X et Y égales presque sûrement, c’est-à-dire
telles que ∃N ∈ A, tel que P(N ) = 0 et ∀ω ∈ N c , X(ω) = Y (ω). Cette notion
d’égalité presque sûre est une relation d’équivalence. On va ainsi travailler avec
l’espace L2 des classes de variables pour l’égalité presque sûre, c’est-à-dire que
L2 contiendra un unique représentant de chacune de ces classes. Dans ce cadre,
au lieu d’écrire X = 0 p.s., on écrit simplement X = 0.
On peut d’abord montrer que l’espace vectoriel L2 des variables aléatoires de
carré intégrable forme un espace de Hilbert si on le munit du produit scalaire :

< X, Y >= E(XY ) et de la norme associée ∥X∥ = E(X 2 )1/2 .

L’écart-type est ainsi la norme des variables centrées et la covariance le produit

scalaire des variables centrées.
Ce produit scalaire est bien défini pour tout couple (X, Y ) de variables de L2
puisque par l’inégalité de Cauchy-Schwartz :

E(XY )2 ≤ E(X 2 )E(Y 2 )

et on a bien ∥X∥ = 0 si et seulement si X = 0. On peut enfin montrer que L2

est complet pour la norme définie ci-dessus (voir Jacod and Protter (2003) pour
la démonstration).

16
Soient maintenant X et Y ∈ L2 (Ω, A, P). On onsidère L2X le sous-espace de L2
constitué des (classes d’équivalence) des variables aléatoires fonctions seulement
de X du type ϕ(X) (avec ϕ telle que ϕ(X) ∈ L2 ). On peut montrer que L2X est
convexe et fermé.
Alors, l’espérance conditionnelle de Y sachant X, E(Y |X) s’interprète comme
la projection orthogonale de Y sur L2X .
Soit en effet l’opérateur qui à Y ∈ L2 associe E(Y |X) ∈ L2X . On a vu que c’est
un opérateur linéaire. Pour montrer qu’il s’agit d’un projecteur orthogonal, on
peut vérifier qu’il est idempotent et auto-adjoint :
— on a bien E(E(Y |X)|X) = E(Y |X)
— et pour Z ∈ L2 , < Z, E(Y |X) >= E(ZE(Y |X)) = E(E(Z|X)E(Y |X)) =
E(E(Z|X)E(Y )) =< E(Z|X), Y >.
Le théorème de projection sur un convexe fermé dans les espaces de Hilbert 4
assure alors que

arg min ∥Y − ϕ(X)∥2 = arg min E((Y − ϕ(X))2 ) = E(Y |X) = ψ(X)
ϕ(X)∈L2X ϕ(X)∈L2X

Ainsi, E(Y |X) est la meilleure approximation (au sens des moindres carrés) de
Y par une fonction de X.
Il est alors immédiat que le “résidu” Y − E(Y |X) est non corrélé avec X du fait
de l’orthogonalité. On en déduit la formule de la variance totale :

V(Y ) = ∥Y − E(Y )∥2 = ∥Y − E(Y |X) + E(Y |X) − E(Y )∥2

où on a utilisé la formule de l’espérance totale et introduit la variable aléatoire

variance conditionnelle V(Y |X) = E((Y − E(Y |X))2 |X) comme cas particulier
de la définition vue plus haut (p. 12).

Exercice – Variance totale (•) Redémontrer ce résultat sans utiliser la

notion d’orthogonalité. (Solution p. 22.)
4. voir par exemple les Rappels mathématiques pour la mécanique quantique de Bruno
Figliuzzi

17
Exercices
Couple de variables
Soient X et Y deux v.a. réelles. On suppose que la densité conditionnelle de X
sachant Y = y est la densité 1R+ (x)y 2 xe−xy et que la loi de Y est de densité
1
y 2 1[1,+∞[ (y). On pose T = XY .

Question 1 Trouver la loi du couple (T, Y ). Qu’en déduit-on ? (Solution p.

22.)

Question 2 Trouver la loi conditionnelle de Y sachant X = x. (Solution p.

23.)

Question 3 Calculer E(Y |X). (Solution p. 23.)

Mélanges de lois
Adapté du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Pour modéliser un phénomène multimodal, on utilise souvent des mélanges de
gaussiennes. C’est le cas notamment en classification non-supervisée, où on fait
l’hypothèse que chacune des classes suit une loi gaussienne. Soient n ∈ N∗ et K
une variable aléatoire P prenant les valeurs 1, . . . , n avec les probabilités non nulles
n
p1 , . . . , pn telles que i=1 pi = 1. Soient X1 , . . . , Xn des variables aléatoires
gaussiennes mutuellement indépendantes, d’espérances respectives m1 , . . . , mn ∈
R et de variances respectives σ12 , . . . , σn2 ∈ R∗+ , toutes indépendantes de K. On
appelle mélange de gaussiennes la loi de la variable aléatoire X = XK . Pour tout
i ∈ {1, . . . , n}, on notera fi la densité de la variable aléatoire Xi .

Question 1 Soit i ∈ {1, . . . , n}. Quelle est la densité fX|K=i de X condition-

nellement à l’événement {K = i} ? (Solution p. 23.)

Question 2 Calculer la densité de probabilité de la variable X. (Solution p.

23.)
Pn
Question 3 Calculer E(X). Montrer que V(X) = i=1 pi σi2 + σ̄ 2 , où ce dernier
terme peut être interprété comme la dispersion des espérances. (Solution p. 23.)

Question 4 Comment approximeriez-vous le mélange par une unique gaus-

sienne ? Faire un schéma dans le cas m = 2. (Solution p. 24.)

18
Lois conjuguées
Soit un vecteur aléatoire (X, Y ) de loi jointe PX,Y . Expliciter la loi conditionnelle
de Y sachant {X = x} dans les situations suivantes, en prenant soin d’expliciter
pour quelles valeurs de x ces dernières ont du sens.

Question 1 Y suit une loi Exponentielle de paramètre λ ∈ R∗+ et pour tout

y ∈ R∗+ , la variable aléatoire X sachant {Y = y} suit une loi Exponentielle de
paramètre y. (Solution p. 24.)

Question 2 Y suit une loi Gamma de paramètres α, θ ∈ R∗+ et pour tout

y ∈ R∗+ , la variable aléatoire X sachant {Y = y} suit une loi de Poisson de
paramètre y. (Solution p. 26.)

Randomisation
Extrait du cours de probabilités de S. Bonnabel et M. Schmidt (MINES Paris-
Tech).
Des clients arrivent à la boutique SNCF du boulevard Saint-Michel à des instants
aléatoires. On note T0 l’heure d’ouverture puis T1 , T2 , . . . les temps successifs
d’arrivée des clients jusqu’à l’heure de fermeture. Les études statistiques montrent
qu’on peut, dans une tranche horaire donnée, supposer que les temps d’attente
X1 = T1 −T0 , X2 = T2 −T1 , . . . peuvent être modélisés par des variables aléatoires
indépendantes et de même loi qu’une variable aléatoire positive X. Par ailleurs,
une loterie interne décide que chaque jour dans la tranche horaire considérée, le
N ème client sera l’heureux gagnant d’un trajet gratuit Paris-La Ciotat, où N est
une variable aléatoire bornée dont la loi dépend du processus de loterie (e.g. tous
les clients entre le premier et le 30ème ont une chance 1/30 d’être tirés au sort,
en supposant qu’on est sûr d’avoir au moins 30 clients dans la tranche horaire).
On se demande alors : quel est le temps d’attente moyen avant d’obtenir un
gagnant ? (Solution p. 27.)

Etats cachés — indépendance conditionnelle

Soucieux de l’évolution du potager de l’école, des élèves à la main verte s’in-
téressent à l’évolution de la température dans le jardin côté Luxembourg. Ils
récupèrent pour cela un thermomètre dans un laboratoire, l’installent près du
potager, et en relèvent les mesures à intervalles de temps réguliers. Les résultats
les surprennent rapidement : les températures affichées ne correspondent pas à
celles prévues par météo-France. Leur thermomètre est sans doute déréglé.
On se propose de les aider à comprendre le phénomène dont ils sont témoins
à l’aide d’un modèle probabiliste particulier, nommé modèle de Markov caché.
Précisément, on considère la suite des vraies températures que l’on aurait souhaité
relever comme une suite de v.a.r. non indépendantes (Xn )n∈N∗ , dite d’états cachés
(on ne les observe pas directement). Les erreurs commises par le thermomètre sont

19
quant à elles modélisées par une suite de v.a.r. (ϵn )n∈N∗ , toutes indépendantes
et de même loi admettant une densité fϵ . Elles sont supposées indépendantes de
la suite (Xn )n∈N∗ (l’erreur du thermomètre lui est propre et ne dépend pas de
la température réelle). A chaque instant n ∈ N∗ , on suppose que la mesure du
thermomètre est la variable aléatoire

Yn = Xn + ϵn ,

et que le vecteur aléatoire (X1 , . . . , Xn ) possède une densité jointe notée f1:n .

Question 1 Montrer que pour tout n ∈ N∗ et tout x ∈ R, la loi de Yn sachant

{Xn = x} admet une densité, que l’on explicitera. (Solution p. 27.)

Question 2 Montrer que les n ∈ N∗ relevés de température Y1 , . . . , Yn sont

indépendants conditionnellement aux états cachés X1 , . . . , Xn . (Solution p.
28.)

Covariance totale
Soient X, Y et Z trois variables aléatoires réelles de carré intégrable. La co-
variance conditionnelle de X et Y sachant Z est définie comme la variable
aléatoire

Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z .

Etablir la formule de la covariance totale :

Cov(X, Y ) = E Cov(X, Y | Z) + Cov E(X | Z), E(Y | Z) .

(Solution p. 28.)

Non-réponse
Inspiré du cours de probabilité de M. Christine (ENSAE ParisTech).
Un questionnaire est diffusé aux n ∈ N∗ étudiants de l’école pour savoir combien
de temps ils ont consacré à l’étude des probabilités ce semestre. On note Yi le
temps de travail de l’étudiant i ∈ {1, . . . , n} et Xi la variable valant 1 s’il a
répondu au questionnaire et 0 sinon. On suppose que les (X1 , Y1 ), . . . , (Xn , Yn )
sont des vecteurs aléatoires indépendants de même distribution qu’un vecteur
générique (X, Y ) tel que
— X est une variable de Bernoulli de paramètre p ∈ ]0, 1[ indiquant la
probabilité de réponse,
— Y est positive, de carré intégrable, d’espérance m ∈ R+ et de variance
σ 2 ∈ R∗+ . Le coefficient de corrélation entre X et Y est enfin noté ρ ∈
[−1, 1].

20
Question 1 En reprenant la définition de l’espérance conditionnelle E(Y | X)
comme meilleure approximation au sens des moindres carrés de Y par une
fonction de X, montrer qu’elle coïncide ici avec l’approximation affine de Y par
X puis l’écrire en fonction de m, ρ, σ et p. (Solution p. 29.)

Question 2 On pose m0 := E(Y | X = 0) et m1 = E(Y | X = 1). Calculer m0

et m1 en fonction de m, ρ, σ et p. (Solution p. 29.)

Question 3 On pose σ02 := V (Y | X = 0) et σ12 := V (Y | X = 1). Vérifier

l’égalité
(1 − p) σ02 + p σ12
σ2 = .
1 − ρ2

(Solution p. 30.)

Question 4 Que dire des résultats obtenus aux questions 2 et 3 lorsque :

— X et Y sont non corrélées,
— X et Y sont indépendantes ?

(Solution p. 30.)

Solutions
Dans
R un triangle (1) La densité marginale de X est donnée par fX (x) =
fX,Y (x, y)dy = 1]0,1[ (x) et pour x ∈]0, 1[,

1
fY |X=x (y) = 1]0,x[ (y)
x
Ainsi X est uniformément distribué sur ]0, 1[, et la loi de Y sachant X = x est
uniforme sur ]0, x[ pour (0 < x < 1).

Dans un triangle (2) Pour un tel x, l’espérance conditionnelle E(Y |X = x)

vaut ainsi x/2 et nous obtenons E(Y |X) = X
2.

Auto-conditionnement On a ψ(y) = E(Y |Y = y) = y et donc E(Y |Y ) =

ψ(Y ) = Y p.s.

Espérance conditionnelle d’un produit de variables On a E(XY |X =

x) = xE(Y |X = x), d’où E(XY |X) = XE(Y |X) p.s.

21
En détail Notons J(a, b) = E((Y − (aX + b))2 )

∂J(a, b)
= −2E(Y 2 ) + 2aE(X) + 2b
∂b
d’où b = E(Y ) − aE(X)
Par ailleurs,

∂J(a, b)
= −2E(XY ) + 2aE(X 2 ) + 2bE(X)
∂a
= −2E(XY ) + 2aE(X 2 ) + 2E(X)E(Y ) − 2aE(X 2 )
= −2Cov(X, Y ) + aV(X)

Cov(X,Y )
d’où a = V(X) = ρ(X, Y ) σσX
Y

Variance totale

V(Y ) =E((Y − E(Y ))2 ) = E(E((Y − E(Y ))2 |X)) par la formule de l’espérance totale
=E(E((Y − E(Y |X) + E(Y |X) − E(Y ))2 |X))
=E(E((Y − E(Y |X))2 |X)) + E(E((E(Y |X) − E(Y ))2 |X))
+ 2E(E((Y − E(Y |X))(E(Y |X) − E(Y ))|X))
=E(V(Y |X)) + E((E(Y |X) − E(Y ))2 ) + 2E((E(Y |X) − E(Y ))E((Y − E(Y |X))|X))
=E(V(Y |X)) + V(E(Y |X)) car E((Y − E(Y |X))|X) = 0

Couple de variables
Question 1 On voit d’abord que la densité du couple (X, Y ) vaut :

fX,Y (x, y) = fX|Y =y (x)fY (y) = xe−xy 1R+ (x)1[1,+∞[ (y)

Soit h une fonction continue bornée sur R2+ . Le changement de variable (x, y) 7→
(t = xy, y) de jacobien y, donne alors que
Z +∞ Z +∞
t
E(h(T, Y )) = E(h(XY, Y )) = h(t, y)e−t dtdy
1 0 y2

et donc la densité du couple (T, Y ) vaut

t
fT,Y = e−t 1[1,+∞[ (y)1R+ (t)
y2
Elle s’écrit comme produit d’une fonction de t et d’une fonction de y. On en
déduit que T et Y sont indépendantes et que T a pour densité te−t 1R+ (t).

22
R +∞
Question 2 La loi marginale de X a pour densité fX (x) = 1 xe−xy dy = e−x .
Ainsi X suit une loi exponentielle de paramètre 1 et la loi conditionnelle de Y
sachant X = x admet la densité :
fX,Y (x, y)
fY |X=x (y) = = xe−x(y−1) 1[1,+∞[ (y)
fX (x)
pour x > 0.

Question 3 On en déduit que

Z +∞
x+1
E(Y |X = x) = yxe−x(y−1) dy = 1R+ (x)
1 x
X+1
par intégration par parties. Ainsi E(Y |X) = X .

Mélanges de lois
Question 1 Soit B un borélien. Par indépendance de K avec Xi , on a

P(X ∈ B | K = i) = P(Xi ∈ B | K = i) = P(Xi ∈ B).

La loi de X sachant {K = i} est donc la même que celle de Xi , d’où

(x − mi )2

1
fX|K=i : x ∈ R 7→ fi (x) = √ exp − .
2πσi 2σi2

Question 2 Soit B un borélien. D’après la formule des probabilités totales et

la question précédente, on a
n
X n
X
P(X ∈ B) = pi P(X ∈ B | K = i) = pi P(Xi ∈ B).
i=1 i=1

La variable aléatoire X admet donc une densité, qui vaut

n
X
fX : x ∈ R 7→ pi fi (x).
i=1

Question 3 D’après la question précédente, X a pour espérance

Z Z n
X n
X Z
E(X) = x fX (x) dx = x pi fi (x) dx = pi x fi (x) dx
R R i=1 i=1 R
n
X
= pi mi .
i=1

23
Pn
Quant à la variance de X, en utilisant l’égalité
pi = 1, elle vaut i=1

Z n
!2
X
2 2 2

V(X) = E X − E(X) = x fX (x) dx − pi mi
R i=1
 2
n
X n
X Xn
= pi (σi2 + m2i ) − pi  pj mj 
i=1 i=1 j=1
 2
n
X n
X n
X
= pi σi2 + pi mi − pj mj  .
i=1 i=1 j=1

On retrouve bien la forme désirée, avec la dispersion des espérances

 2
n
X Xn
σ̄ 2 := pi mi − pj mj  .
i=1 j=1

Question 4 Si l’on souhaite approcher la loi de X avec une unique Gaus-

sienne, et non
Pun mélange, les questions
Pprécédentes suggèrent de prendre celle
n n
d’espérance i=1 pi mi et de variance i=1 pi σi2 + σ̄ 2 . Voir figure ci-dessous.

Lois conjuguées
On considère dans tout cet exercice B1 et B2 des Boréliens.

Question 1 D’après les hypothèses on a

Z Z
PX,Y (B1 × B2 ) = PX|Y =y (dx) PY (dy) par Fubini conditionnel,
B B
Z 2 Z 1
= y e−yx 1R∗+ (x) dx λ e−λy 1R∗+ (y) dy
ZB2 Z B1
= λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y) dy dx par Fubini.
B1 B2

Le vecteur aléatoire (X, Y ) possède donc une densité jointe

fX,Y : (x, y) ∈ R2 7→ λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y).

La variable aléatoire X a donc aussi une densité : pour tout x ∈ R

Z Z
fX (x) = fX,Y (x, y) dy = λ y e−(x+λ) y 1R∗+ (x) 1R∗+ (y) dy
R R
Z +∞
λ
y (x + λ) e−(x+λ) y dy si x > 0,
= x+λ 0
0 sinon.

24
Mélange équiprobable de deux Gaussiennes N (−2, 1) et N (2, 2)
0.22
densité du mélange
0.2
densité de N (0, 4)
0.18

0.16

0.14

0.12
f (x)

0.1

8 · 10−2

6 · 10−2

4 · 10−2

2 · 10−2
0

−2 · 10−2
−6 −4 −2 0 2 4 6 8 10
x

Figure 1 – Illustration

25
On reconnaît dans cette dernière intégrale la formule de l’espérance d’une loi
Exponentielle de paramètre x + λ, et on en déduit que pour tout x ∈ R
λ
fX (x) = 1R∗ (x).
(x + λ)2 +

Pour tout x ∈ R∗+ la variable Y sachant {X = x} admet donc aussi une densité,
que l’on explicite avec la formule de Bayes : pour tout y ∈ R

fX,Y (x, y) λ y e−(x+λ) y 1R∗+ (y)

fY |X=x (y) = =
fX (x) λ
(x + λ)2
= (x + λ)2 y e−(x+λ) y 1R+ ∗ (y).

Comme Γ(2) = 1, on reconnaît ici la densité d’une loi Gamma d’indice 2 et de

paramètre d’échelle x + λ.

Question 2 D’après les hypothèses, en procédant comme précédemment, on a

Z Z
PX,Y (B1 × B2 ) = PX|Y =y (dx) PY (dy)
B2 B1
!
Z X yx θα α−1 −θy
−y
= e 1N (x) y e 1R+ (y) dy
B2 x! Γ(α)
x∈B1
!
θα x+α−1 −(θ+1)y
Z
X 1
= y e dy
x! B2 ∩R+ Γ(α)
x∈B1 ∩N
X Γ(x + α) θα
=
x! Γ(α) (θ + 1)x+α
x∈B1 ∩N
(θ + 1)x+α x+α−1 −(θ+1)y
Z
× y e dy .
B2 ∩R+ Γ(x + α)

On reconnaît dans cette dernière intégrale la densité d’une loi Gamma d’indice
x + α et de paramètre d’échelle θ + 1, qui correspond exactement à la loi
conditionnelle de Y sachant {X = x} pour x ∈ N. En effet, on a d’une part
X θα Γ(x + α)
PX (B1 ) = PX,Y (B1 × R) = ,
Γ(α) x! (θ + 1)x+α
x∈B1 ∩N

ce qui donne bien pour tout x ∈ N :

PX,Y ({x} × B2 )
PY |X=x (B2 ) = P (Y ∈ B2 | X = x) =
PX ({x})
Z x+α
(θ + 1)
= y x+α−1 e−(θ+1)y dy.
B2 ∩R+ Γ(x + α)

26
Randomisation
En termes probabilistes et selon les notations de l’exercice, il s’agit de calculer
E(TN − T0 ), où la variable aléatoire TN peut s’écrire en fonction d’une somme
aléatoire de variables aléatoires indépendantes :
N
X
TN = Xi + T0 .
i=1

Comme la boutique ferme au bout d’un certain temps, toutes les variables
aléatoires figurant dans l’équation précédente sont bornées, donc intégrables. On
peut ainsi calculer E(TN − T0 ) à l’aide de la formule de l’espérance totale :

E (TN − T0 ) = E (E (TN | N )) − T0 .

Pour tout n ∈ N∗ l’énoncé suggère que N est indépendante de X1 , . . . , Xn ,

elles-mêmes indépendantes et de même loi que X, d’où :
n
X n
X
E (Tn | N = n) = E(Xi | N = n) = E(Xi ) = nE(X).
i=1 i=1

Ainsi, en posant ψ : n ∈ N∗ 7→ nE(X), on obtient

E (TN − T0 ) = E (ψ(N )) − T0 = E(N )E(X) − T0 .

C’était prévisible : en posant arbitrairement T0 = 0, le temps d’attente moyen

est le temps d’attente moyen entre deux arrivées, multiplié par le rang moyen
du gagnant. Si la loterie dépendait des temps d’arrivées, par exemple en faisant
gagner le premier client qui arrive au moins 10 minutes après le client précédent,
ψ, et donc le résultat, seraient différents.

Etats cachés — indépendance conditionnelle

Question 1 Soit n ∈ N∗ . Quels que soient x ∈ R et B borélien on a

PYn |Xn =x (B) = E (1B (Xn + ϵn ) | Xn = x)

Z
= 1B (x + y) Pϵn |Xn =x (dy)
R
Z
= 1B (x + y) fϵ (y) dy par indépendance de Xn et ϵn
ZR
= fϵ (y − x) dy.
B

Ainsi, PYn |Xn =x admet bien une densité :

fYn |Xn =x : y ∈ R 7→ fϵ (y − x).

27
Question 2 Soient n ∈ N∗ , (x1 , . . . , xn ) ∈ Rn et B1 , . . . , Bn des boréliens.
Pour simplifier les écritures, on note x1:n tout vecteur (x1 , . . . , xn ) de Rn . Alors
n
!
Y
PY1:n |X1:n =x1:n (B1 × · · · × Bn ) = E 1Bi (Xi + ϵi ) X1:n = x1:n
i=1
Z n
Y
= 1Bi (xi + yi ) Pϵ1:n |X1:n =x1:n (dy1:n )
Rn i=1
Z Y n
= 1Bi (xi + yi ) Pϵ1:n (dy1:n ) par indépendance des ϵi et Xj ,
Rn i=1
n Z
Y
= 1Bi (xi + yi ) fϵ (xi ) dyi par Fubini et indépendance et même loi des ϵi ,
i=1 R
Yn Z
= 1Bi (yi ) fϵ (yi − xi ) dyi
i=1 R
Yn Z
= 1Bi (yi ) fYi |Xi =xi (yi ) dyi par la question 1,
i=1 R

Yn
= PYi |Xi =xi (Bi ).
i=1

Les n relevés de température sont donc bien indépendants conditionnellement

aux états cachés.

Covariance totale
Tout d’abord, par linéarité de l’espérance conditionnelle on a :

Cov(X, Y | Z) = E X − E(X | Z) Y − E(Y | Z) Z

= E XY − XE(Y | Z) − Y E(X | Z) + E(X | Z)E(Y | Z) Z
= E(XY | Z) − E(X | Z)E(Y | Z).

En utilisant la formule de l’espérance totale et la linéarité de l’espérance, on

obtient alors

Cov(X, Y ) = E(XY ) − E(X)E(Y )

28
Non-réponse
Question 1 L’espérance conditionnelle de Y sachant X peut s’écrire comme
la solution au problème de minimisation

2
min 2 E (Y − ϕ(X)) .
ϕ(X)∈LX

Or pour ϕ(X) ∈ L2X on a ici

2 2 2
E (Y − ϕ(X)) = E (Y − ϕ(1)) 1{1} (X) + E (Y − ϕ(0)) 1{0} (X) ,

il suffit donc de résoudre pour tout x ∈ {0, 1}

2
min E (Y − λ) 1{x} (X) .
λ∈R

2
Soit x ∈ {0, 1} et posons Jx : λ ∈ R 7→ E (Y − λ) 1{x} (X) . Alors pour tout
λ∈R
Jx (λ) = E Y 2 1{x} (X) + λ2 P(X = x) − 2λ E Y 1{x} (X)

et sa dérivée
Jx′ (λ) = 2λ P(X = x) − 2 E Y 1{x} (X)

s’annule en
E Y 1{x} (X)
λx := = E(Y | X = x).
P(X = x)
On en conclut que

E(Y | X) = E(Y | X = 1)1{1} (X) + E(Y | X = 0)1{0} (X).

Or on remarque que 1{1} (X) = X et 1{0} (X) = 1 − X, ce qui fait de E(Y | X)

une fonction affine de X. Elle est par définition la meilleure approximation de Y
par une fonction de X, elle coïncide donc avec l’approximation affine de Y par
X:
ρσ
E(Y | X) = m + p (X − p).
p(1 − p)

Question 2 D’après la question précédente, on a E(Y | X) = m0 +(m1 −m0 )X,

la meilleure approximation affine de Y par X. Ainsi, m0 et m1 satisfont
r
ρσ 1−p
m1 − m0 = p , m1 = m + ρσ ,
p
p(1 − p) ⇔
p
r
m0 = m − (m1 − m0 )p, m0 = m − ρσ .
1−p

29
Question 3 Par la formule de la variance totale et d’après la question 1, on a

σ 2 = V (Y ) = E V (Y | X) + V E(Y | X)

ρ2 σ 2
= p σ12 + (1 − p) σ02 + V(X)
p (1 − p)
= p σ12 + (1 − p) σ02 + ρ2 σ 2 .

Cette égalité se simplifie et donne bien

(1 − p) σ02 + p σ12
σ2 = .
1 − ρ2

Question 4 Lorsque X et Y sont non corrélées, i.e. ρ = 0, on obtient m0 =

m1 = m puis σ 2 = (1 − p) σ02 + p σ12 . En d’autres
termes, E(Y | X) = m est une
variable aléatoire constante, et E V(Y | X) = σ 2 . Dans ce cas, la non-réponse
n’affecte pas l’espérance, mais potentiellement la variance (la dispersion du
temps de travail peut être différente chez les répondants et les non-répondants).
Ces deux propriétés sont encore vraies en cas d’indépendance entre X et Y ,
puisque l’indépendance implique la non corrélation, mais nous avons de plus
V(Y | X) = σ 2 = σ12 = σ02 ; la variable aléatoire V(Y | X) est elle aussi constante.
Cette fois-ci, la dispersion est la même chez les répondants et les non-répondants :
la non-réponse n’affecte pas la variance.

Références
Jacod, J., and P. Protter. 2003. L’essentiel En Théorie Des Probabilités. Cassini.
[Link]

Vous aimerez peut-être aussi

Chînes MRKV Mgs
Pas encore d'évaluation
Chînes MRKV Mgs
66 pages
Martingales et processus de Lévy expliqués
Pas encore d'évaluation
Martingales et processus de Lévy expliqués
50 pages
Espérance Conditionnelle et Chaînes de Markov
100% (1)
Espérance Conditionnelle et Chaînes de Markov
169 pages
Espérance conditionnelle et Markov
Pas encore d'évaluation
Espérance conditionnelle et Markov
182 pages
Guyader
Pas encore d'évaluation
Guyader
182 pages
Concepts de Probabilités Avancés
Pas encore d'évaluation
Concepts de Probabilités Avancés
11 pages
Cours de Probabilités : Modèles et Applications
Pas encore d'évaluation
Cours de Probabilités : Modèles et Applications
56 pages
Probabilités et lois conditionnelles
Pas encore d'évaluation
Probabilités et lois conditionnelles
5 pages
PD 1
Pas encore d'évaluation
PD 1
5 pages
Processus Markoviens
Pas encore d'évaluation
Processus Markoviens
38 pages
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
Pas encore d'évaluation
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
51 pages
Polycop CCM
Pas encore d'évaluation
Polycop CCM
46 pages
332 Proba2222888
Pas encore d'évaluation
332 Proba2222888
62 pages
Chaînes de Markov et Martingales en Mathématiques
Pas encore d'évaluation
Chaînes de Markov et Martingales en Mathématiques
133 pages
Résumé des probabilités finies
Pas encore d'évaluation
Résumé des probabilités finies
5 pages
Annales Des Examens Corrigés
100% (1)
Annales Des Examens Corrigés
268 pages
Cours de Probabilités Licence 2
Pas encore d'évaluation
Cours de Probabilités Licence 2
41 pages
Espérance conditionnelle et martingales L2
Pas encore d'évaluation
Espérance conditionnelle et martingales L2
6 pages
Cours Agreg Interne
Pas encore d'évaluation
Cours Agreg Interne
53 pages
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
Pas encore d'évaluation
Master: AMA: Polycopié de Cours: Equations Différentielles Stochastiques, Approximations Et Estimation
44 pages
Espérance conditionnelle et théorème de Jirina
Pas encore d'évaluation
Espérance conditionnelle et théorème de Jirina
14 pages
Espérance Conditionnelle et Martingales
Pas encore d'évaluation
Espérance Conditionnelle et Martingales
25 pages
Probabilités de Base Polycop Gneyou
Pas encore d'évaluation
Probabilités de Base Polycop Gneyou
90 pages
Markov - Polycopié Du Cours
Pas encore d'évaluation
Markov - Polycopié Du Cours
51 pages
Introduction aux probabilités 2019-2020
Pas encore d'évaluation
Introduction aux probabilités 2019-2020
104 pages
Introduction au calcul des probabilités
Pas encore d'évaluation
Introduction au calcul des probabilités
118 pages
CMMA
Pas encore d'évaluation
CMMA
105 pages
Théorie des martingales discrètes
Pas encore d'évaluation
Théorie des martingales discrètes
32 pages
Cours et Exercices sur Processus Stochastiques
Pas encore d'évaluation
Cours et Exercices sur Processus Stochastiques
46 pages
Cours Michel Pain
Pas encore d'évaluation
Cours Michel Pain
74 pages
Introduction aux Probabilités et Modélisation
Pas encore d'évaluation
Introduction aux Probabilités et Modélisation
46 pages
Introdution À La Théorie Des Probabilités PDF
Pas encore d'évaluation
Introdution À La Théorie Des Probabilités PDF
279 pages
Probabilités et Statistiques Avancées
Pas encore d'évaluation
Probabilités et Statistiques Avancées
69 pages
Variables Aléatoire MPSI 2022 2023
Pas encore d'évaluation
Variables Aléatoire MPSI 2022 2023
25 pages
Cours de Processus Discrets à Dauphine
Pas encore d'évaluation
Cours de Processus Discrets à Dauphine
43 pages
Espérance des variables aléatoires discrètes
Pas encore d'évaluation
Espérance des variables aléatoires discrètes
24 pages
Cours de Proba 2 2 1
Pas encore d'évaluation
Cours de Proba 2 2 1
16 pages
TD Probabilités Master 1 2009-2010
Pas encore d'évaluation
TD Probabilités Master 1 2009-2010
16 pages
Concepts avancés en probabilités
Pas encore d'évaluation
Concepts avancés en probabilités
45 pages
Cours Proba5
Pas encore d'évaluation
Cours Proba5
114 pages
Cours sur les processus stochastiques
Pas encore d'évaluation
Cours sur les processus stochastiques
85 pages
Introduction à la théorie des probabilités
Pas encore d'évaluation
Introduction à la théorie des probabilités
24 pages
Cours Proba Stat L2
Pas encore d'évaluation
Cours Proba Stat L2
61 pages
Polycopié
Pas encore d'évaluation
Polycopié
61 pages
Nouveau Document 2020-03-13 10.00.11
Pas encore d'évaluation
Nouveau Document 2020-03-13 10.00.11
119 pages
Exos Corr
Pas encore d'évaluation
Exos Corr
20 pages
Cours Bio Stat+L3
Pas encore d'évaluation
Cours Bio Stat+L3
13 pages
Variables Aléatoires et Densité en MP*
100% (1)
Variables Aléatoires et Densité en MP*
45 pages
Introduction aux probabilités et statistiques
Pas encore d'évaluation
Introduction aux probabilités et statistiques
442 pages
Espérance Conditionnelle et Propriétés
Pas encore d'évaluation
Espérance Conditionnelle et Propriétés
13 pages
Cours de Probabilités et Statistiques S3
Pas encore d'évaluation
Cours de Probabilités et Statistiques S3
53 pages
Table Des Matières: 9782340-023703 - 001 - 336.indd 7 9782340-023703 - 001 - 336.indd 7 27/02/2018 16:03 27/02/2018 16:03
Pas encore d'évaluation
Table Des Matières: 9782340-023703 - 001 - 336.indd 7 9782340-023703 - 001 - 336.indd 7 27/02/2018 16:03 27/02/2018 16:03
7 pages
Espérance et variance des variables aléatoires
Pas encore d'évaluation
Espérance et variance des variables aléatoires
4 pages
Cours de probabilités pour ECS 2ème année
Pas encore d'évaluation
Cours de probabilités pour ECS 2ème année
70 pages
Calcul de Probabilités à l'ULiège
Pas encore d'évaluation
Calcul de Probabilités à l'ULiège
21 pages
Lois de probabilités et moments conditionnels
100% (1)
Lois de probabilités et moments conditionnels
71 pages
Cours de Probabilité et Statistique II
Pas encore d'évaluation
Cours de Probabilité et Statistique II
49 pages
07 Poly EPDetails
Pas encore d'évaluation
07 Poly EPDetails
30 pages
09 Series F CT Details
Pas encore d'évaluation
09 Series F CT Details
26 pages
04 Esp Pre Hilb Details
Pas encore d'évaluation
04 Esp Pre Hilb Details
31 pages
Catalogue Mobilité Double Diplome 2024-25
Pas encore d'évaluation
Catalogue Mobilité Double Diplome 2024-25
57 pages
Cours 1A ch2 Moodle
Pas encore d'évaluation
Cours 1A ch2 Moodle
18 pages
Cours Mathématiques: Topologie et Espaces Fonctionnels
100% (1)
Cours Mathématiques: Topologie et Espaces Fonctionnels
245 pages
Correction Physique Quantique
Pas encore d'évaluation
Correction Physique Quantique
2 pages
Final
Pas encore d'évaluation
Final
11 pages
On Des Electromagnet I Ques
Pas encore d'évaluation
On Des Electromagnet I Ques
174 pages
SL Part 2 Approche Fréquentielle
Pas encore d'évaluation
SL Part 2 Approche Fréquentielle
41 pages
Guideepreuvesorales2024 666063454bfcd
Pas encore d'évaluation
Guideepreuvesorales2024 666063454bfcd
17 pages
Sommes Produits corrigei-AVL36OQ958HZV60g
Pas encore d'évaluation
Sommes Produits corrigei-AVL36OQ958HZV60g
11 pages
Modélisation Tsunami : Rapport Concours INP
Pas encore d'évaluation
Modélisation Tsunami : Rapport Concours INP
4 pages
Sommes et Produits en Mathématiques
Pas encore d'évaluation
Sommes et Produits en Mathématiques
2 pages
Questionnaire de mathématiques avancées
Pas encore d'évaluation
Questionnaire de mathématiques avancées
7 pages
Épreuve PSI 2021 : Bassin de Traction
Pas encore d'évaluation
Épreuve PSI 2021 : Bassin de Traction
36 pages
Tu Ne Seras Pas Stérile
100% (5)
Tu Ne Seras Pas Stérile
81 pages
Cahier de Rotations Journali RES
Pas encore d'évaluation
Cahier de Rotations Journali RES
29 pages
SONA
Pas encore d'évaluation
SONA
1 page
Comprendre l'Élasticité Économique
Pas encore d'évaluation
Comprendre l'Élasticité Économique
2 pages
L'Homme, un Être Social et Relationnel
Pas encore d'évaluation
L'Homme, un Être Social et Relationnel
2 pages
Comment Faire L'élevage Des Poulets
Pas encore d'évaluation
Comment Faire L'élevage Des Poulets
4 pages
Systèmes de freinage : fonctionnement et composants
100% (3)
Systèmes de freinage : fonctionnement et composants
37 pages
Riz Oignon Chou
Pas encore d'évaluation
Riz Oignon Chou
32 pages
Cinétique et Équilibres Chimiques Q1
Pas encore d'évaluation
Cinétique et Équilibres Chimiques Q1
7 pages
Duo de L'avent - Tuto Couture - Buttinette - Loisirs Créatifs
Pas encore d'évaluation
Duo de L'avent - Tuto Couture - Buttinette - Loisirs Créatifs
16 pages
Conversion et Foi : Un Itinéraire Spirituel
Pas encore d'évaluation
Conversion et Foi : Un Itinéraire Spirituel
10 pages
Hygiène Médicale : Désinfection et Stérilisation
Pas encore d'évaluation
Hygiène Médicale : Désinfection et Stérilisation
43 pages
Anatomie de la Ceinture Pelvienne
Pas encore d'évaluation
Anatomie de la Ceinture Pelvienne
18 pages
Poesies PDF
Pas encore d'évaluation
Poesies PDF
26 pages
Photodiodes et Cellules Photovoltaïques : Fonctionnement et Caractéristiques
Pas encore d'évaluation
Photodiodes et Cellules Photovoltaïques : Fonctionnement et Caractéristiques
19 pages
Automatisme
Pas encore d'évaluation
Automatisme
89 pages
Collège Michel de Montaigne: Évaluation Du Troisième Contrôle
Pas encore d'évaluation
Collège Michel de Montaigne: Évaluation Du Troisième Contrôle
2 pages
Équations Différentielles MPSI2
Pas encore d'évaluation
Équations Différentielles MPSI2
2 pages
Analyse Des Solvants Résiduels Dans Les Produits Pharmaceutiques
Pas encore d'évaluation
Analyse Des Solvants Résiduels Dans Les Produits Pharmaceutiques
23 pages
Processus Markoviens de Sauts : Concepts et Applications
Pas encore d'évaluation
Processus Markoviens de Sauts : Concepts et Applications
9 pages
Tabrima Sahraouiya Au Nila en Poudre - Harmonical Flavors
Pas encore d'évaluation
Tabrima Sahraouiya Au Nila en Poudre - Harmonical Flavors
1 page
Pniasp 2021-2025 VF Adopté
Pas encore d'évaluation
Pniasp 2021-2025 VF Adopté
140 pages
Hotel Everest Kinshasa Adresse Commune - Recherche Google
Pas encore d'évaluation
Hotel Everest Kinshasa Adresse Commune - Recherche Google
1 page
Étude de Cas POEM
Pas encore d'évaluation
Étude de Cas POEM
2 pages
Présentation ESTIMA
Pas encore d'évaluation
Présentation ESTIMA
25 pages
Lois Discrètes : Bernoulli, Binomiale, Uniforme
Pas encore d'évaluation
Lois Discrètes : Bernoulli, Binomiale, Uniforme
2 pages
Antigone
100% (1)
Antigone
73 pages
Notice Technique - SR Zouada - Grundfos - NK - 65-315 - 320 AA1F2AESBQQEVW1
Pas encore d'évaluation
Notice Technique - SR Zouada - Grundfos - NK - 65-315 - 320 AA1F2AESBQQEVW1
11 pages
1-Types de PTG
Pas encore d'évaluation
1-Types de PTG
138 pages
Philosophie 22023
100% (2)
Philosophie 22023
44 pages

Lois et Espérances Conditionnelles

Transféré par

Lois et Espérances Conditionnelles

Transféré par

Probabilités III

STEP, MINES ParisTech∗

8 décembre 2023 (#db2aa89)

Table des matières

de (P)auline Bernard (CAS) et (T)homas Romary (GEOSCIENCES). Il dérive du projet 

Lois conditionnelles dans un couple

et s’intéresser à caractériser la loi conditionnelle de Y sachant X = x, que l’on

Cas où X est discrète

PY |X=x (B2 ) = P(Y ∈ B2 |X = x), ∀x ∈ X(Ω), ∀B2 ∈ B(R).

où Bx = {y ∈ R, (x, y) ∈ B}. Ainsi, pour tout B borélien de R2 ,

Par linéarité de l’espérance, on peut ainsi exprimer l’espérance d’une fonction

PX,Y (R2 ) = PX,Y (N × R)

où on aura reconnu la loi exponentielle de paramètre (1 − α). ∀n ∈ N,

par intégrations par parties itérées. La loi marginale de X s’écrit donc :

∀n ∈ N, P(X = n) = PX,Y ({n} × R∗+ ) = (1 − α)αn ,

loi géométrique de paramètre (1 − α). On en déduit la loi conditionnelle de Y

et PY |X=n est la donc la loi gamma de paramètre (n + 1, 1).

Proposition – Densité conditionnelle

Exercice – Dans un triangle (1) (•) Soient X et Y de densité jointe

1. Calculer la densité marginale de X

fX (x)dx ≈ P(X ∈ [x, x + dx])

On a alors le résultat suivant qui résout le problème posé en introduction :

dont on déduit, en prenant g = 1B1 ×B2 , que :

les calculs étant licites

Théorème – Fubini conditionnel

Ces probabilités sont appelées lois conditionnelles de Y sachant X = x. On

Proposition – Formule de balayage conditionnel

— Dans le cas où X est discrète (à valeurs dans I dénombrable), on retrouve

— Dans le cas où le couple (X, Y ) admet une densité, puisqu’on a

On a en particulier la formule de Bayes pour les densités : pour tout x

fX,Y (x, y) fY |X=x (y)fX (x)

de sorte que Y suit une loi exponentielle de paramètre (1 − α).

PX,Y ({n} × B) = PX ({n})PY |X=n (B)

Proposition – Critère d’indépendance

Définition – Espérance conditionnelle

1. L’espérance conditionnelle de Y sachant {X = x} est définie par

2. L’espérance conditionnelle de Y sachant X est la variable aléatoire

E(Y |X) = ψ(X), avec ψ(x) = E(Y |X = x).

Exercice – Dans un triangle (2) (•) Soient X et Y de densité jointe

Définition – Espérance conditionelle d’une fonction de variables aléa-

1. L’espérance conditionnelle de g(X, Y ) sachant {X = x} est définie par

2. L’espérance conditionnelle de g(X, Y ) sachant X est la variable aléa-

E(g(X, Y )|X) = ψ(X), avec ψ(x) = E(g(X, Y )|X = x).

Théorème – Espérance totale

Démonstration C’est une conséquence directe du théorème de Fubini condi-

Il généralise la formule des probabilités totales, qui correspond ici à Y = 1A , et

E (E(Y |X)) = E(Y )

et on l’appelle la formule de l’espérance totale.

1. si Y et Z sont intégrables, E(aY + bZ|X) = aE(Y |X) + bE(Z|X),

E(Y g(X)|X) = g(X)E(Y |X)

Proposition – Transfert conditionnel

Si de plus X et Y sont indépendantes, on a :

Autrement dit, lorsqu’on conditionne par l’événement {X = x}, cela revient à

Exercice – Espérance conditionnelle d’un produit de variables (•)

Exemple : vecteurs Gaussiens à densité

où fZ est la densité marginale de Z. On cherche donc à décomposer fX de la

CSY = CY − CY,Z CZ−1 CZ,Y

et permet d’exprimer l’inverse de C comme :

CSY−1 −CSY−1 CY,Z CZ−1

On peut alors réarranger les termes de la forme quadratique dans fX et on

Pour la constante, on peut remarquer que :

det(C) = det(CSY ) det(CZ ).

On en déduit ainsi que

C’est-à-dire que la variable aléatoire Y |Z = z est gaussienne d’espérance

E((Y − (aX + b))2 ) = E(Y 2 ) − 2aE(XY ) − 2bE(Y ) + a2 E(X 2 ) + 2abE(X) + b2 .

L’annulation de ses dérivées partielles en à a et b entraîne que les solutions sont

Exercice – En détail (•) Détailler le calcul de a et b. (Solution p. 22.)

Espace de Hilbert des variables aléatoires de carré intégrable

< X, Y >= E(XY ) et de la norme associée ∥X∥ = E(X 2 )1/2 .

L’écart-type est ainsi la norme des variables centrées et la covariance le produit

E(XY )2 ≤ E(X 2 )E(Y 2 )

et on a bien ∥X∥ = 0 si et seulement si X = 0. On peut enfin montrer que L2

V(Y ) = ∥Y − E(Y )∥2 = ∥Y − E(Y |X) + E(Y |X) − E(Y )∥2

où on a utilisé la formule de l’espérance totale et introduit la variable aléatoire

Exercice – Variance totale (•) Redémontrer ce résultat sans utiliser la

Question 1 Trouver la loi du couple (T, Y ). Qu’en déduit-on ? (Solution p.

de (P)auline Bernard (CAS) et (T)homas Romary (GEOSCIENCES). Il dérive du projet