1/9
Résumé de cours en calcul des probabilités (JJ bellanger)
III ESPERANCE MATHEMATIQUE
I.Définition et calcul de l’espérance mathématique d’une VA
· La définition la plus générale de l’espérance d’un VA X : W ® R + (donc à valeurs
positives ou nulles) est obtenue en introduisant une suite de partitions P n de R + :
kn
R + = [0, x1[È[ x1 , x2 [È... È [ x2 n -1 , x2 n [È[ x2 n , ¥[ où xk = n , k = 0,1,..,2 n et xk +1 = ¥
2
L’espérance de X est alors définie comme la limite de la somme des valeurs xk pondérées par
les probabilités des intervalles [ xk , xk +1[ auxquels ils appartiennent
2n
E ( X ) = lim n ® ¥ å xin PX ([ xin , xin+1[) et on note E ( X ) = ò xdP ( x)
X
i =0 R+
2n
(Remarquer que "n, å P ([ x , x
i =0
X
n
i
n
[) = P( X Î R + ) = 1 )
i +1
· Pour une VA X : W ® R pouvant prendre des valeurs négatives aussi bien que positives
on introduit la décomposition X = max( X ,0) - max(- X ,0) = X + - X - et on définit E ( X )
par E ( X ) = def E ( X + ) - E ( X - ) = ò xdP ( x) + ò xdP ( x) si E ( X
+
X X ) et E ( X - ) ne sont pas
R+ R-
simultanément infinis..
· De cette définition on peut déduire, cas particulier par cas particulier des formules de
calcul1 .
Si la fonction de répartition FX présente des sauts (discontinuités) aux points a i , i Î I (I
dénombrable) d’amplitude FX (a i+ ) - FX (a i ) = P ( X = a i ) = qi , i Î I et qu’elle est dérivable
ailleurs au sens ordinaire avec des valeurs de dérivée non nulles on a :
E ( X ) = åa i qi + ò F }( x) x dx
X
'
(1)
iÎ I {
R - a i , iÎ I
(où la somme continue se calcule à l’extérieur des points a i de discontinuité)
Si la VA est de loi discrète, on a åq i = 1 et FX' ( x) = 0"x Î R - {a i , i Î I } si bien que
iÎ I
l’espérance devient :
E ( X ) = åa i qi = åa i P( X = a i ) (2)
iÎ I iÎ I
Si la VA X admet une densité de probabilité p X ( cad si elle est de loi continue) on a
"xP( X = x) = 0 (il n’y a pas de saut dans FX ) et FX' ( x) = p X . La somme discrète dans (1)
devient alors nulle et l’espérance s’écrit :
1
Il n’est pas nécessaire de connaître parfaitement la définition générale de l’espérance donnée si dessus pour
appliquer ces formules et calculer des valeurs moyennes
2/9
Résumé de cours en calcul des probabilités (JJ bellanger)
E ( X ) = ò p X ( x) x dx (3)
R
Vocabulaire et notation : on dit couramment valeur moyenne pour espérance mathématique
et on note m X = def E (X ) .
Interprétation : si on réalise n fois la même expérience aléatoire pour obtenir n réalisations
1 n
X (w i ) = xi , i = 1.., n et que l’on considère la moyenne arithmétique de ces résultats, å1 xi ,
n
cette dernière pour n très grand tendra vers une limite égale à E ( X ) (on le montre
théoriquement sous certaines hypothèses et on peut le ‘constater’ expérimentalement).
[Link]érance d’une VA fonction d’autres VA(formule de transfert)
Soit une VA Y définie à partir de N VA X 1 ,.., X N et d’une fonction
f : R N ® R : Y = f ( X 1 ,.., X N ) ). La formule de transfert permet de calculer E (Y ) sans
exhiber préalablement sa loi PY . Elle s’écrit dans son expression la plus générale
E (Y ) = ò f ( x ,.., x
N
1 N ) dPX 1 ,.. X N ( x1 ,.., xN ) . Les formules de calcul à a utiliser en pratique
R
dépendent de la nature de la loi conjointe des X i .
· Si la loi conjointe PX 1 ,.. X N admet une densité p X 1 ,.. X N (loi de type continu) alors on aura :
E (Y ) = ò f ( x ,.., x
1 N ) p X 1 ,.. X N ( x1 ,.., xN )dx1..dxN
RN
· Si la loi conjointe est discrète, cad si il existe un ensemble dénombrable de points de R N
a i = ( x1i ,.., xNi ), i Î I tel que : "i P ( X 1 = x1i ,.., X N = xNi ) = qi avec å qi = 1 alors E (Y ) se
iÎ I
calcule par :
E (Y ) = å qi f ( x1i ,.., xNi ) = å qi f (a i )
iÎI iÎI
· Le cas plus général d’une loi qui n’est ni de type continu ni de type discret n’est simple à
écrire que pour N = 1 auquel cas on a :
E (Y ) = å f (a i )qi + ò FX' ( x) f ( x) dx
iÎ I R - {a i , iÎ I }
(avec les mêmes notations que pour (1))
Pour N > 1 des termes complémentaires du type intégrale curviligne ou intégrale de
surface peuvent intervenir (on ne donne pas ici de formule générale correspondante).
[Link]étés de l’espérance mathématique utiles dans les calculs courants (autres que la
formule de transfert).
· Positivité : si P ( X ³ 0) = 1 alors E ( X ) ³ 0
· Espérance d’une constante K : si P ( X = K ) = 1, K = cte alors E ( X ) = K
N N
· Linéarité : si, pour N VA X 1 ,.., X N , Y = å lk X k alors E (Y ) = å lk E ( X k )
1 1
3/9
Résumé de cours en calcul des probabilités (JJ bellanger)
· Indépendance et factorisation : soient N VA X 1 ,.., X N indépendantes dans l’ensemble et
soient N VA Y1 = f1 ( X 1 ),.., YN = f N ( X N ) construites à partir de N fonctions
N N
f k : R ® R, k = 1,.., N . L’espérance de la VA Y = Õ Yk est alors E (Y ) = Õ E (Yk )
k =1 k =1
¨ Remarque : les N VA X 1 ,.., X N étant indépendantes, les N VA
Y1 = f1 ( X 1 ),.., YN 1 = f N ( X N ) le sont aussi.
N N
¨ Corollaire : X 1 ,.., X N indépendantes Þ E (Õ X k )) = Õ E ( X k )
k =1 k =1
Cette propriété reste vraie si X 1 ,.., X N sont N VA à valeurs respectivement dans R d1 ,.., R d N
'
et les f k de la forme R d k ® R d k
[Link] d’une VA, variance d’une VA
1.Définition : on appelle moment d’ordre N d’une VA X l’espérance E ( X N ) (si elle existe) .
2.Définition : A une VA X de valeur moyenne mX on associe la VA notée X c , appelée ‘X
centrée’ que l’on définit par X c = X - mX . On dira également qu’une VA X est centrée si sa
valeur moyenne est nulle, auquel cas X = X c .
On a toujours E ( X c ) = E ( X - mX ) = E ( X ) - mX = mX - mX = 0
3.Définition : on appelle moment centré d’ordre N d’une VA X la quantité E ( X cN ) (si elle
existe) .
n
E( X )
[Link]été (inégalité de Markov) : "e > 0 "n ³ 0 : P( X ³ e ) £ n
e
5.Définition : la variance d’une VA X est son moment centré d’ordre 2, VAR( X ) = E ( X c2 )
[Link]étés de la variance :
· E ( X 2 ) = VAR( X ) + mX2
· VAR(aX + b ) = a 2VAR( X ) " a , b réels
· Si X 1 ,.., X N indépendantes et Y = X 1 + .. + X N alors VAR(Y ) = VAR( X 1 ) + .. + VAR( X N )
N
· De manière plus générale VAR(å li X i ) = åå li l j E ( X ic X jc )
1 1£ i , j £ N
N N
qui devient VAR (å li X i ) = å li2 E ( X ic2 ) si i ¹ j Þ E ( X ic X jc ) = 0 (condition qui sera
1 i =1
réalisée en particulier si les N VA sont indépendantes 2 à 2).
· Inégalité de Bienaymé Tchebychef (faire n = 1, remplacer X par X c dans Markov) :
VAR ( X )
"e > 0 : P ( X ³ e ) £
e2
4/9
Résumé de cours en calcul des probabilités (JJ bellanger)
[Link] caractéristique et calculs de moments
[Link] aléatoires à valeurs complexes
1.Définition :une VA sur (W,t , P ) à valeur dans C (corps des complexes) est une application
X : w Î W ® X (w ) = U (w ) + iV (w ) où (U ,V ) est une paire de VA sur (W,t , P ) , chacune à
valeurs dans R.
Remarque : la définition se généralise sans problème au cas de VA Ndimensionnelles à
valeur dans C N .
[Link] de probabilité.
La loi de Z correspond à la loi conjointe du couple (U ,V ) . En notant z = u + iv on écriera :
FZ ( z ) = FU ,V (u, v), (u, v) Î R 2
pZ ( z ) = pU ,V (u, v), (u , v) Î R 2 si (U ,V ) est de loi conjointe continue
Ceci se généralise pour une VA à valeurs dans C N par
FZ1 ,.., Z n ( z1 ,.., z N ) = FU1 ,..,U N ,V1 ,..,V N (u1 ,..u N , v1 ,.., vN ), (u1 ,..u N , v1 ,.., vN ) Î R 2 N
pZ1 ,.., Z n ( z1 ,.., z N ) = pU 1 ,..,U N ,V1 ,..,V N (u1 ,..u N , v1 ,.., vN ), (u1 ,..u N , v1 ,.., vN ) Î R 2 N
3.Définitions de la moyenne et de la variance :
E ( X ) = def ( E (U ) + iE (V )) Î C , ‘X centrée’ : X c = U c + iVc
2
VAR ( X ) = def E ( X c ) = E (U c2 ) + E (Vc2 ) = VAR (U ) + VAR (V )
[Link] caractéristique et moments
1.Définition :
· La fonction caractéristique d’une VA X à valeurs dans R est
l’application j X : u Î R ® j X (u ) = E (eiuX ) = E (cos uX ) + iE (sin uX ) Î C
· La fonction caractéristique d’une VA N-dimensionnelle ( X 1 ,.., X N ) à valeurs dans R N est
l’application
j X 1 ,.., X N : (u1 ,.., u N ) Î R N ® j X 1 ,.., X N (u1 ,.., u N ) = E (exp( å iuk X k ) Î C
k =1.., N
[Link]été (relations avec les moments)
Pour X VA à valeurs dans R :
1 ¶n
· Si le moment E ( X n ) est défini alors on a E ( X n ) = j X (0) et la fonction
i n ¶u n
caractéristique admet le développement de Taylor à l’ordre n autour de l’origine :
j X (u ) = å E ( X n )i nu n + e (u n +1 )u n +1
k = 0.. n
· Si le moment E ( X n ) existe pour tout n on a le développement infini
j X (u ) = å E ( X n )i nu n
k = 0..¥
On retiendra que :
les moments d’une VA peuvent donc être calculés en dérivant la fonction caractéristique où
en la développant en série de Taylor autour de l’origine.
[Link] caractéristique et transformée de Fourier (TF)
Si la VA X est de loi continue on a
5/9
Résumé de cours en calcul des probabilités (JJ bellanger)
j X : u Î R ® j X (u ) = E (eiuX ) = ò eiux p X ( x)dx
R
u
ce qui montre, en notant p̂ X la TF de p X , que j X (u ) = pˆ X (- ), u Î R
2p
et donc, qu’au changement de variable près, la fonction caractéristique est la transformée de
Fourier de la densité de probabilité. La transformée de Fourier étant une bijection ( la
transformation de Fourier inverse permet de retrouver la fonction d’origine2) ceci montre qu’il
est possible de retrouver la densité de probabilité à partir de la fonction caractéristique et qu’il
y a donc correspondance biunivoque entre une loi de probabilité continue et la fonction
caractéristique . On montre que ceci reste vrai pour des lois quelconques, la fonction
caractéristique s’avérant ainsi être toujours une spécification exacte de la loi de probabilité
correspondante.
[Link] de corrélation entre 2 VA réelles
[Link] approximation affine d’une VA à partir d’une autre VA.
Soit 2 variables aléatoires X et Y . Supposons que l’on observe X (w ) = x . Peut on alors
calculer une approximation de la réalisation Y (w ) = y au moyen d’une fonction y = f (x) .
Plus précisément existe-il une fonction f : R ® R telle que, pour toute autre fonction
g : R ® R on ait E ((Y - f ( X )) 2 ) £ E ((Y - g ( X )) 2 ) , ce qui revient à rechercher :
f = arg min E ((Y - g ( X )) 2 )
f
2
L’espérance E ((Y - g ( X )) ) est appelée erreur quadratique moyenne (EQM) entre la variable
‘cible’ et son approximation g (X ) . Elle ne peut être que positive ou nulle. Pour être nulle il y
a nécessité que P(Y = g ( X )) = 1 (on peut le montrer en utilisant l’inégalité de B.T.). Cette
erreur permet d’évaluer l’erreur d’approximation sur l’ensemble des cas rencontrés
( X (w ),Y (w )) en tenant compte de leurs fréquences relatives d’apparition.
On peut contraindre le problème en imposant à f d’appartenir à une certaine classe Y de
fonctions :
f = arg min E ((Y - g ( X )) 2 )
f ÎY
Cherchons la solution du problème dans le cas Y où est la classe des fonctions affines. Il faut
alors trouver 2 constantes réelles a et b telles que (a, b) = arg min E ((Y - AX - B)) 2 ) . On a :
( A, B )Î R 2
E ((Y - AX - B ) 2 ) = E ((YC + mY - AX C - AmX - B) 2 ) =
E ((YC - AX C ) 2 ) + (mY - AmX - B) 2 - 2 E (YC - AX C )(mY - AmX - B) =
E ((YC - AX C ) 2 ) + (mY - AmX - B) 2
Cette dernière quantité est minimale pour B = m Y - Am X et pour A qui minimise
2
En toute rigueur à quelques détails ‘négligeables’ près (notion mathématique de fonction presque partout
égales)
6/9
Résumé de cours en calcul des probabilités (JJ bellanger)
E (YC2 ) - 2 AE ( X CYC ) + A2 E ( X C2 ) qui est un trinôme du second degré en A. Ce trinôme admet
E ( X CYC )
un seul minimum (en supposant E ( X C2 ) ¹ 0 ) en A = . On a donc :
E ( X C2 )
E ( X CYC ) E ( X CYC )
( 2
, mY - 2
mX ) = arg min E ((Y - AX - B))2 )
E( X C ) E( X C ) ( A, B )Î R 2
et si on développe les calculs, pour ces valeurs optimales des coefficients A et B on trouve
que la valeur minimale de E ((Y - AX - B) 2 ) est égale à :
E ( X cYc ) E ( X cYc )
min E ((Y - AX - B) 2 ) = E (Yc2 )(1 - r X2 ,Y ) où r X ,Y = def =
A, B VAR( X )VAR(Y ) s Xs Y
Exercice : vérifier la première égalité ci-dessus
2.Définition du coefficient de corrélation entre 2 VA
E ( X cYc )
On appelle coefficient de corrélation r X ,Y entre les VA X et Y la quantité
s Xs Y
( rappelons que E ( X cYc ) = E ( X Y ) - mX mY )
Calcul de r X ,Y :
Il suffit de calculer mX , mY ,s X ,s Y et E ( XY )
à partir d’une densité conjointe p X ,Y on calculera :
E ( XY ) = òò p X ,Y ( x, y ) xydxdy
R2
dans le cas d’une loi discrète à 2 dimensions on calculera:
E ( XY ) = å xi y j P( X = xi , Y = y j )
xi , y j
[Link]étés du coefficient de corrélation
· Si X et Y sont indépendantes alors r X ,Y = 0 (attention : réciproque fausse)
· r X ,Y £ 1
· r X ,Y = +1 Þ X c = lYc pour un certain l > 0
· r X ,Y = -1 Þ X c = lYc pour un certain l < 0
[Link] par le produit scalaire entre VA
Introduisons l’ensemble de toutes les VA d’ordre 2 (correspondant à une même expérience
aléatoire ( W,t , P ), cad celui de toutes les VA Z telles que E ( Z 2 ) est bien définie (certaines
lois de probabilité n’admettent pas de moment d’ordre 2 comme la loi de Cauchy par exemple
qui n’en admet aucun). Pour 2VA quelconques Z1 , Z 2 de cet ensemble on montre qu’il est
toujours possible de calculer l’espérance du produit Z1Z 2 . Du fait des propriétés de
l’espérance mathématique cette opération a toutes les propriétés d’un produit scalaire :
· symétrie : E ( Z1Z 2 ) = E ( Z 2 Z1 )
· linéarité : E (( aZ1 + bZ 2 ) Z 3 ) = aE ( Z1Z 3 ) + bE ( Z 2 Z 3 )
· positivité : E ( Z 2 ) ³ 0 , caractère défini : ( E ( Z 2 ) = 0) Þ P( Z = 0) = 1
2
A ce produit scalaire peut être associé une norme : V =1
7/9
Résumé de cours en calcul des probabilités (JJ bellanger)
Une propriété de tout produit scalaire (V1 ,V2 ) est l’inégalité de Schwartz : (V1 ,V2 ) £ V1 V2
(avec égalité ssi $ réel l ¹ 0 : V1 = lV2 )
Z Z
Avec V1 = 1c ,V2 = 2c , V1 = V2 = 1 et en appliquant l’inégalité on arrive à :
s X1 s X2
2
Z Z Z Z
E ( 1c 2 c ) £ E ([ 1c ]2 ) E ([ 2 c ]2 ) = 1
s X1 s X 2 s X1 sX2
ce qui correspond à r X ,Y £ 1 en tenant compte des définitions de la variance et du coefficient
de corrélation .
[Link] sur le problème d’approximation
L’erreur d’approximation dans le problème introduit plus haut valait
e 2 = min E ((Y - AX - B) 2 ) = E (Yc2 )(1 - r X2 ,Y )
A, B
On voit donc que cette erreur est comprise entre une valeur minimale nulle quand le
coefficient de corrélation atteint une valeur maximale en valeur absolue égale à 1 (et on sait
alors que cela correspond à l’existence d’une relation linéaire exacte entre les variables
centrées, du moins avec probabilité 1) et une valeur maximale égale à VAR(Y) lorsque le
coefficient est nul. Dans ce dernier cas la valeur optimale de A est nulle et on peut dire que si
les variables sont décorrélées (cad r X ,Y = 0 ) alors la meilleure approximation affine de Y se
ramène à la valeur constante mY = E (Y ) : il ne sert à rien d’utiliser X (w ) pour évaluer
Y (w ) .
Conclusion :Il y a une correspondance entre la valeur plus ou moins élevée de
r X ,Y et la possibilité de prédire linéairement Yc à partir de X c .
8/9
Résumé de cours en calcul des probabilités (JJ bellanger)
VII Espérances conditionnelles.
1.Définition de l’espérance conditionnelle.
Soit un couple ( X , Y ) de VA, chacune à valeurs dans R. La définition la plus directe de
l’espérance de Y si X = x est :
E (Y / X = x) = ò ydPY / X = x ( y )dy
yÎ R
Autrement dit E (Y / X = x) est la moyenne pour la loi conditionnelle PY / X = x . En toute rigueur
cette loi n’est définie que PX presque sûrement (cad pour un ensemble de valeurs de x
contenant un borélien A tel que P( X Î A) = 1 ). Pour chacune de ces valeurs de x la loi
conditionnelle PY / X = x peut être discrète, continue ou mixte. La variable aléatoire
conditionnante X peut être à valeurs dans R où dans R N .
[Link] pratiques de calcul.
Le calcul de l’espérance conditionnelle s’effectue suivant les mêmes méthodes que pour une
espérance ordinaire (non conditionnelle). Les formules qui suivent permettent de calculer
l’espérance conditionnelle de f (Y ) conditionnellement à X = x . Elles correspondent à la
formule de transfert dans le cas conditionnel. Pour obtenir l’espérance conditionnelle de Y
conditionnellement à X = x il suffit d’y remplacer f (.) par l’application identité. Les V.A. Y
et X peuvent être à valeurs respectivement dans R M et R N , M ³ 1 et N ³ 1 . On considère ici
f de la forme f : R N ® R . Si f (.) est l’application identité on considère M = 1 .
· Si PY / X = x admet une densité pY / X = x (loi de type continu) alors :
E ( f (Y ) / X = x) = ò f ( y) p
Y / X =x ( y )dy
RM
· Si la loi conditionnelle est discrète, cad si il existe un ensemble dénombrable de points de
R M , y j , j Î I tel que å PY / X = x ({y j }) = å P (Y = y j / X = x) = 1 alors E ( f (Y ) / X = x)
jÎ J jÎ J
se calcule par :
å f ( y )P j Y / X =x ({y j }) = å f ( y j ) P (Y = y j / X = x)
jÎ J jÎ J
· Si Y est à valeurs dans R et que la loi conditionnelle est mixte avec une fonction de
répartition conditionnelle FY / X = x :
E ( f (Y ) / X = x) = å f (a i )[ FY' / X = x (a i+ ) - FY' / X = x (a i )] + ò f ( y)F '
Y / X =x ( x) dy
iÎ I { }
R - a i , iÎ I
où les a i sont les points de discontinuité de FY / X = x .
[Link]étés de l’espérance conditionnelle.
· Positivité :
P (Y ³ 0) = 1 Þ E (Y / X = x) ³ 0 et ceci PX ps (cad presque sûrement dans la loi PX )
· Linéarité :
E (aY1 + bY2 / X = x) = E (aY1 / X = x) + E (1 bY2 / X = x) ,a et b ctes ( PX ps)
9/9
Résumé de cours en calcul des probabilités (JJ bellanger)
· Formule de déconditionnement .
Cette formule est fondamentale dans les applications. Elle utilise le fait que l’application
x ® h( x) = E (Y / X = x) est mesurable (on le montre) et que h o X = h(X ) correspond donc à
une variable aléatoire dont on peut chercher à calculer l’espérance. Elle s’écrit :
E (Y ) = E (h( X )) = ò h( X ) dPX ( x) = ò E (Y / X = x) dPX ( x)
xÎ R N xÎ R N
où ò (.) dPX ( x) se calcule en utilisant les formules appropriées suivant que la loi de X est
xÎ R N
absolument continue, discrète ou encore mixte.
Remarque : l’utilisation de la variable aléatoire auxiliaire X et la chaîne de calculs
conditionnement + déconditionnement pour calculer E(Y) sont recommandés lorsque le
calcul de E (Y / X = x) s’avère facile et ‘naturel’, voire évident, dans le contexte de l’étude
(généralement parce que la loi conditionnelle est elle même évidente) . Le passage par ces
deux étapes de calcul peut s’avérer alors économique par rapport à un calcul plus direct de
E(Y) dans la loi PY si cette dernière n’est pas connue a priori et qu’elle est difficile à calculer.