Licence Math et MASS, MATH504 : probabilités et statistiques
Espérance d’une variable aléatoire
L’objectif de ce paragraphe est de définir ce qu’est la valeur moyenne d’une variable aléatoire. Par
exemple, quel est le gain moyen d’un joueur au Loto ? En d’autres termes, quelle somme un jour
de Loto peut-il espérer gagner en moyenne ?
1. Définitions.
Soit X une variable aléatoire réelle définie sur (Ω, F, P). La définition générale de l’espérance
de X, que l’on note E[X], fait appel à la théorie abstraite de l’intégration : pour mémoire,
Z Z
E[X] = X(ω) dP(ω) = x dF (x), F fonction de répartition de X.
Ω R
Pour éviter cette théorie, nous allons définir l’espérance d’une variable aléatoire seulement dans
deux cas particuliers : pour les variables discrètes d’une part et pour les variables absolument
continues d’autre part.
1.1. X v.a.r. discrète.
X(ω) est un ensemble fini ou dénombrable. Considérons d’autre part f une fonction réelle
borélienne.
Définition. La variable aléatoire f (X) est intégrable quand
X
|f (x)| P({X = x}) < +∞
x∈X(Ω)
P
Dans ce cas, la série – parfois une somme finie – x≥X(ω) f (x) P({X = x}) converge et on appelle
cette quantité espérance ou moyenne de f (X) soit
X
E[f (X)] = f (x) P({X = x}).
x∈X(Ω)
Un cas particulier important de cette définition est celui de la fonction f (x) = x : la moyenne
d’une v.a. discrète X est donnée par
X
E[X] = x P({X = x})
x∈X(Ω)
x∈X(Ω) |x| P({X
P
lorsque = x}) < +∞.
Remarque(s). Le cas E fini est comme à l’habitude inclus dans ce formalisme et dans ce cas les
séries sont simplement des sommes finies.
Exemple. Calculs d’espérances de variables aléatoires discrètes.
1o Commençons par une v.a. X de loi uniforme sur {x1 , . . . , xN } ; pour tout i = 1, . . . , N ,
P(X = xi ) = 1/N et par suite
N N
X 1 X
E[X] = xi P(X = xi ) = xi .
i=1
N i=1
1 Université de Savoie, 2010/2011
C’est la moyenne arithmétique des nombres x1 , . . . , xN .
2o Si X est une v.a.r. de Poisson de paramètre λ > 0, on a comme X(Ω) = N,
i e−λ λi /i! = λe−λ
X X
E[X] = λi−1 /(i − 1)! = λ.
i≥0 i≥1
3o Prenons pour fonction f la fonction 1{y} pour y ∈ R. On obtient dans ce cas
X
E[1{y} (X)] = 1{y} (x) P({X = x}).
x∈X(Ω)
Lorsque y ∈ 6 X(Ω), 1{y} (x) = 0 pour tout x ∈ X(Ω) et E[1{y} (X)] = 0. Si y ∈ X(Ω), 1{y} (x) vaut
0 si y 6= x et 1 si y = x ; par suite
E[1{y} (X)] = P(X = y).
4o Soit X une v.a.r. suivant la loi de Poisson de paramètre λ > 0. Calculons l’espérance de la
v.a. 1/(1 + X) qui est bien définie puisque X est à valeurs dans N. On a
1 X 1 λk e−λ X λk+1 e−λ X λi
P(X = k) = e−λ
X
E = = = .
X +1 k≥0
k+1 k≥0
(k + 1)! λ k≥0 (k + 1)! λ i≥1 i!
On obtient finalement
1 e−λ X λi e−λ λ
E = −1 = e − 1 = 1 − e−λ /λ.
X +1 λ i≥0 i! λ
1.2. X absolument continue.
Soit p une densité de la variable X et f : R −→ R une fonction continue par morceaux (ou
borélienne).
R
Définition.
R
La variable f (X) est intégrable si l’intégrale R |f (x)| p(x)dx est finie. Dans ce cas,
R f (x) p(x)dx est convergente et, la valeur de cette intégrale est appelée espérance de f (X) ; on
la note E[f (X)] soit Z
E[f (X)] = f (x) p(x) dx.
R
Exemple. Comme dans le cas discret l’espérance ou la moyenne d’une variable aléatoire X cor-
respond au cas f (x) = x. Voici quelques exemples de calculs.
1o Si X suit la loi uniforme sur [a, b] alors X est intégrable et
Z b
1
E[X] = x dx = (b + a)/2.
b−a a
2o Si X suit la loi de Cauchy, X n’est pas intégrable car
Z n Z
2 2
ln(1 + n ) = |x|/(1 + x ) dx ≤ |x|/(1 + x2 ) dx.
−n R
3o Dans le cas où f (x) = 1I (x) avec I intervalle, on a
Z Z
E[f (X)] = E[1I (X)] = 1I (x) p(x) dx = p(x) dx = PX (I) = P(X ∈ I).
R I
Le calcul précédent demeure vrai si on remplace l’intervalle I par un borélien.
4o Soit X une v.a. de loi Exp(λ), λ > 1. On a
Z ∞
E[exp(X)] = exp(x) λ exp(−λx) dx = λ/(λ − 1).
0
2
Calcul de loi. Reprenons le problème du calcul de lois image à l’aide de cette nouvelle notion.
Supposons que X soit une v.a.r. absolument continue de densité pX (x) = 1S (x) p(x) où S est le
support de pX disons un intervalle fermé pour simplifier. D est l’intérieur de S c’est à dire l’intervalle
ouvert associé à S (si S = [0, 1], D =]0, 1[, si S = R+ , D = R+∗ ). On cherche la loi de Y = u(X) et
on a l’intuition que Y est une v.a.r. absolument continue. Pour caractériser sa loi on cherche donc
à déterminer une densité pY . Pour cela, on prend f une fonction continue par morceaux et bornée
et on calcule E[f (Y )] (qui existe car f bornée) de deux façons différentes : tout d’abord, si Y a
pour densité la fonction pY , on a
Z
E[f (Y )] = f (y) pY (y) dy.
R
D’autre part, Y = u(X) et comme X a pour densité pX (x) = 1S (x) p(x),
Z Z Z
E[f (Y )] = E [f (u(X))] = f (u(x)) pX (x) dx = f (u(x)) p(x) dx = f (u(x)) p(x) dx.
R S D
Si u est un C 1 –difféomorphisme de D dans u(D), il vient via le changement de variables y = u(x),
Z Z
−1 −1 0
E[f (Y )] = f (y) p u (y) (u ) (y) dy = f (y) 1u(D) (y) p u−1 (y) (u−1 )0 (y) dy.
u(D) R
Par identification,
pY (y) = 1u(D) (y) p u−1 (y) (u−1 )0 (y) .
Exemple. Calculons la loi de la v.a. Y = − ln(X)/λ où X suit la loi uniforme sur [0, 1] et λ > 0.
Remarquons tout d’abord que Y est bien définie puisque P(X > 0) = 1.
Soit donc f une fonction continue par morceaux et bornée ; comme X a pour densité 1[0,1] (x),
on a Z 1
E[f (Y )] = E [f (− ln(X)/λ)] = f (− ln(x)/λ) dx.
0
Effectuons le changement de variables y = − ln(x)/λ soit x = exp(−λy) ; il vient
Z 0 Z +∞
E[f (Y )] = f (y) (−λ) exp(−λy) dy = f (y) λ exp(−λy) dy,
+∞ 0
soit encore Z
E[f (Y )] = f (y) λ exp(−λy)1y≥0 dy.
R
On en déduit que Y a pour densité la fonction y 7−→ λ exp(−λy)1y≥0 c’est à dire que Y suit la loi
exponentielle de paramètre λ.
Dans cet exemple, u(x) = − ln(x)/λ et D = (0, 1). u est un C ∞ –difféomorphisme strictement
décroissant de ]0, 1[ dans u(D) =]0, ∞[. On −1
−1 0
a−1u0 (y)
= exp(−λy) et donc, pour tout y > 0,
(u ) (y) = −λ exp(−λy). C’est donc bien (u ) (y) qui apparaît dans la formule de pY : « on
prend le − pour remettre les bornes dans le bon sens ».
1.3. Vocabulaire.
On dit aussi qu’une variable aléatoire X possède un moment d’ordre un pour dire que X est
une variable aléatoire intégrable. Si tel est le cas l’espérance de X, E[X], est aussi appelée moyenne
de X. Lorsque X est intégrable et de moyenne nulle i.e. E[X] = 0 on dit que X est centrée.
Plus généralement, une variable aléatoire X, réelle ou complexe, possède un moment d’ordre
n ∈ N∗ si la variable aléatoire |X|n est intégrable. Dans ce cas, E [X n ] s’appelle le moment d’ordre
n et E [(X − E[X])n ] le moment centré d’ordre n.
3
2. Propriétés de l’espérance.
Passons aux propriétés de l’espérance. Comme déjà dit, les deux définitions de l’espérance
données précédemment ne sont que deux cas particuliers d’une définition plus générale. Aussi, il
n’est pas surprenant que l’on obtiennent les mêmes propriétés dans les deux cas.
Proposition 1. Soient X et Y deux v.a.r. intégrables, a et b deux réels. Alors, les v.a.r. X + Y et
aX + b sont intégrables et
E[X + Y ] = E[X] + E[Y ], E[a X + b] = a E[X] + b.
L’espérance est croissante : si P(X ≤ Y ) = 1 alors E[X] ≤ E[Y ] et, dans ce cas, E[X] = E[Y ]
si et seulement si P(X = Y ) = 1.
On déduit de cette proposition que si X est une v.a.r. positive, P(X ≥ 0) = 1, alors E[X] ≥ 0.
Signalons que si, pour tout ω ∈ Ω, X(ω) ≤ Y (ω) alors P(X ≤ Y ) = 1. C’est pourquoi on retient
souvent la croissance de l’espérance sous la forme : X ≤ Y =⇒ E[X] ≤ E[Y ].
Notons aussi que l’espérance d’une constante est égale à cette constante.
2.1. Espérance et indépendance.
On considère X et Y deux variables aléatoires réelles et on aimerait par exemple calculer
l’espérance du produit XY ; lorsque X et Y sont indépendantes, le résultat est facile à obtenir. En
effet,
Théorème 2. Soient X et Y deux v.a.r. indépendantes et g, h deux fonctions boréliennes.
Si g(X) et h(Y ) sont intégrables, alors g(X) h(Y ) est intégrable et
E[g(X) h(Y )] = E[g(X)] E[h(Y )].
On déduit de ce résulat que si X et Y sont deux v.a. indépendantes alors les v.a. u(X) et v(Y )
sont encore indépendantes quelque soit les fonctions boréliennes u et v.
Remarque(s). Les résultats précédents se généralisent au cas de n v.a. indépendantes.
Définition. Deux v.a. réelles X et Y – telles que X 2 et Y 2 sont intégrables – sont dites non-
corrélées si elles vérifient E[XY ] = E[X] E[Y ].
Il faut noter que deux variables indépendantes sont non-corrélées mais la réciproque est fausse
comme le montre l’exemple suivant : X et ε deux v.a. indépendantes ; X de loi gaussienne N (0, 1)
et ε de loi donnée par P(ε = 1) = P(ε = −1) = 1/2. X et ε X sont non-corrélées mais ne sont pas
indépendantes.
2.2. Variance d’une variable aléatoire.
Si X est une variable aléatoire réelle, la première information que l’on cherche est la valeur
moyenne, E[X]. Ensuite, on s’intéresse à la dispersion de X autour de cette valeur moyenne : c’est
la notion de variance.
Définition. Soit X une v.a.r. de carré intégrable i.e. X 2 est intégrable. Alors, X est intégrable et
on définit la variance de X, notée V[X], comme le moment centré d’ordre deux, à savoir,
h i h i
V[X] = E (X − E[X])2 = E X 2 − E[X]2 .
La racine carrée de V[X] s’appelle l’écart type de X.
4
Il faut d’abord remarquer que si X 2 est intégrable alors X l’est ; cela résulte de l’inégalité
|X| ≤ 1 + X 2 et de la croissance de l’espérance. Ensuite, V[X] est une quantité positive puisque
c’est l’espérance d’un carré et pour se convaincre de la dernière égalité de la définition, calculons,
2
pour c constante arbitraire réelle, E (X − c) . On a (X − c)2 = X 2 − 2cX + c2 , et donc d’après
les propriétés de l’espérance,
h i h i
E (X − c)2 = E X 2 + c2 − 2cE[X],
si on prend c = E[X] on obtient la formule annoncée. Ce petit calcul permet aussi de montrer le
dernier point de la proposition suivante :
Proposition 3. Soient X une variable aléatoire réelle de carré intégrable, a et b deux réels. On a :
V[aX + b] = a2 V[X]. De plus, V[X] = 0 si et seulement si X est constante.
Enfin, la fonction c 7−→ E (X − c)2 possède un minimum au point c = E[X] et ce minimum
vaut V[X].
Finissons, par une dernière propriété :
Proposition 4. Soient X et Y deux v.a.r. de carré intégrable, indépendantes ou non-corrélées.
Alors V[X + Y ] = V[X] + V[Y ].
Exemple. Calculons tout d’abord la variance d’une v.a. X suivant
2
la loi de Poisson de paramètre
λ. Nous avons déjà vu que E[X] = λ. Il reste à déterminer E X . Pour cela, notons que
h i
i(i − 1) e−λ λi /i! + λ = λ2 e−λ
X X
E X 2 = E [X(X − 1)] + E[X] = λi−2 /(i − 2)! + λ.
i≥0 i≥2
Le changement d’indices k = i − 2, donne
h i
E X 2 = λ2 + λ, et donc, par suite, V[X] = λ.
Calculons à présent la variance de X lorsque X suit la loi uniforme sur [a, b]. La moyenne de
X est (b + a)/2. On a de plus
1 b3 − a3
Z b
h i 1 1
E X2 = x2 dx = = (a2 + ab + b2 ).
b−a a 3 b−a 3
Il vient alors
1 1 1 (b − a)2
V[X] = (a2 + ab + b2 ) − (a2 + 2ab + b2 ) = (a2 − 2ab + b2 ) = .
3 4 12 12
3. Fonction caractéristique.
3.1. Généralités.
Nous avons déjà dit que la loi d’une v.a.r. X était caractérisée par sa fonction de répartition.
On peut aussi déterminer PX en utilisant une fonction de R −→ C : la fonction caractéristique.
Définition. Soit X un v.a.r. On appelle fonction caractéristique de X, notée ϕ (ou ϕX si besoin),
la fonction suivante : h i
ϕ : R −→ C, t 7−→ ϕ(t) = E eitX .
5
Rappelons, tout d’abord que eitX = cos(tX) + i sin(tX) est une v.a. de module un (donc
intégrable) et que ϕ(t) = E[cos(tX)] + i E[sin(tX)]. On a ϕ(0) = 1 et la fonction ϕ est bornée par
un. On peut montrer le résultat suivant :
Proposition 5. Soit X une v.a.r. Alors ϕ est uniformément continue et bornée par un. Si de plus
X possède un moment d’ordre n ∈ N∗ alors ϕ est de classe C n et
ϕ(n) (0) = in E [X n ] .
Mais la fonction caractéristique n’a vraiment d’intérêt que dans la mesure où elle détermine la
loi de la v.a.r. X. C’est l’objet du théorème suivant :
Théorème 6. Soient X et Y deux v.a.r. de fonction caractéristique ϕX et ϕY . PX et PY sont
égales si et seulement si ϕX (t) = ϕY (t) pour tout réel t.
Exemple. La fonction caractéristique d’une v.a. de Poisson de paramètre λ est :
ϕ(t) = e−λ
X
∀t ∈ R, eitk λk /k! = exp λ(eit − 1) .
k≥0
Une conséquence du Théorème 2 pour les fonctions caractéristiques est la suivante : la fonction
caractéristique de la somme de deux v.a. indépendantes est égale au produit de leur fonction
caractéristique ; plus précisément
Proposition 7. Soient X et Y deux v.a. réelles indépendantes. Alors,
∀t ∈ R, ϕX+Y (t) = ϕX (t) ϕY (t).
Exemple. Soient X et Y deux v.a. indépendantes suivant respectivement une loi de Poisson de
paramètre λ et une loi de Poisson de paramètre µ. Déterminons la loi de la v.a. X + Y en calculant
sa fonction caractéristique. Comme X et Y sont indépendantes, on a, pour t ∈ R,
ϕX+Y (t) = ϕX (t) ϕY (t) = exp λ(eit − 1) exp µ(eit − 1) = exp (λ + µ)(eit − 1) .
On reconnaît la fonction caractéristique d’une loi de Poisson de paramètre λ + µ. D’après le Théo-
rème 6, X + Y suit la loi de Poisson de paramètre λ + µ.
3.2. Variables gaussiennes.
Commençons par quelques rappels concernant les variables aléatoires gaussiennes.
Définition. Une v.a.r. X est dite normale (ou gaussienne) centrée réduite si elle admet pour densité
la fonction !
1 x2
∀x ∈ R, p(x) = √ exp − .
2π 2
Si X est une v.a.r. normale centrée réduite, on a E[X] = 0, V[X] = 1, et de plus la fonction
caractéristique de X est donnée par
2 /2
∀t ∈ R, ϕX (t) = e−t .
Définition. Une v.a.r. Y est dite gaussienne si Y = σX + µ où σ et µ sont deux réels et X est
une v.a.r. normale centrée réduite. On dit que Y suit la loi N (µ, σ 2 ).
6
Les paramètres µ et σ 2 corespondent respectivement à la moyenne et à la variance de Y puisque
E[Y ] = σE[X] + µ = µ et V[Y ] = σ 2 V[X] = σ 2 .
On montre sans peine que Y est une variable aléatoire gaussienne si et seulement si sa fonction
caractéristique est donnée par
!
σ 2 t2
∀t ∈ R, ϕY (t) = exp itµ − .
2
Cette formule montre entre autre que la loi d’une variable aléatoire gaussienne est entièrement
caractérisée par sa moyenne et sa variance.
Dans le cas où σ 6= 0, Y possède pour densité
!
1 (y − µ)2
7 →√
y− exp − .
2πσ 2 2σ 2
En effet, si f est borélienne et bornée, on a, via le changement de variables y = σx + µ (séparez les
cas σ > 0 et σ < 0)
1
Z +∞ 2
E[f (Y )] = E[f (σX + µ)] = √ f (σx + µ) e−x /2 dx
2π −∞
!
1 y − µ 2 dy
Z +∞
1
= √ f (y) exp − .
2π −∞ 2 σ |σ|
Finissons ces rappels par la propriété suivante :
Proposition 8. Soient X et Y deux gaussiennes indépendantes. Alors S = X + Y est une v.a.r.
gaussienne de moyenne E[X] + E[Y ] et de variance V[X] + V[Y ].
Notons µ et σ 2 la moyenne et la variance de X, ν et τ 2 la moyenne et la variance de Y . Comme
X et Y sont indépendantes, on a, pour tout réel t,
! !
σ 2 t2 τ 2 t2
ϕS (t) = ϕX (t) ϕY (t) = exp itµ − exp itν − ,
2 2
et donc !
σ 2 + τ 2 t2
ϕS (t) = exp it(µ + ν) − ,
2
qui est la fonction caractéristique d’une gaussienne de moyenne µ + ν et de variance σ 2 + τ 2 .
3.3. Table des lois connues.
Les exemples précédents font apparaître une nouvelle manière de déterminer la loi d’une v.a. : on
calcule sa fonction caractéristique et on l’identifie avec la fonction caractéristique d’une loi connue.
Rappelons d’abord, les définitions des lois que nous utilisons. Tout d’abord pour celles qui sont
absolument continues, précisons les densités p et les fonctions de répartition F lorsqu’elles sont
calculables.
Loi uniforme U(a, b) : p(x) = (b − a)−1 1[a,b] (x), F (x) = (b − a)−1 (x − a) si a ≤ x ≤ b,
F (x) = 0 si x < a, F (x) = 1 si x > b ;
Loi de Cauchy : p(x) = 1/(π(1 + x2 )), F (x) = 1/2 + arctan(x)/π ;
7
Loi de Laplace : p(x) = e−|x| /2, F (x) = ex /2 si x < 0, F (x) = 1 − e−x /2 si x ≥ 0 ;
Loi exponentielle, Exp(λ), λ > 0 : p(x) = λ exp(−λx) 1R+ (x), si x < 0 F (x) = 0, si x ≥ 0
F (x) = 1 − exp(−λx) ;
Loi gaussienne N (µ, σ 2 ) : p(x) = (2πσ 2 )−1/2 exp −(x − µ)2 /(2σ 2 ) .
Dans le cas discret, rappelons les définitions ; si p ∈ [0, 1], q = 1 − p.
Loi de Bernoulli, B(p), 0 ≤ p ≤ 1 : P(X = 1) = p, P(X = 0) = q ;
Loi binomiale, B(n, p), n ≥ 1, 0 ≤ p ≤ 1 : pour k = 0, . . . , n, P(X = k) = Ckn pk q n−k ;
Loi géométrique, G(p), 0 < p < 1 : pour k ∈ N∗ , P(X = k) = pq k−1 ;
Loi binomiale négative, B− (n, p), n ≥ 1, 0 < p < 1 : ∀k ≥ n, P(X = k) = Cn−1 n k−n ;
k−1 p q
Loi de Poisson, P(λ), λ > 0 : pour k ∈ N, P(X = k) = e−λ λk /k!
Le tableau ci-dessous rappelle la moyenne, la variance, la fonction caractéristique des lois les
plus courantes.
h i
Loi / v.a. Notation Espérance Variance ϕ(t) = E eitX
Bernoulli B(p) p pq q + peit
n
Binomiale B(n, p) np npq q + peit
Géométrique G(p) 1/p q/p2 peit /(1 − qeit )
n
Binomiale négative B− (n, p) n/p nq/p2 peit /(1 − qeit )
exp λ(eit − 1)
Poisson P(λ) λ λ
Uniforme U(a, b) (a + b)/2 (b − a)2 /12 eitb − eita / (it(b − a))
Cauchy non non e−|t|
−1
Laplace 0 2 1 + t2
Exponentielle Exp(λ) 1/λ 1/λ2 λ/(λ − it)
N (µ, σ 2 ) σ2 exp itµ − σ 2 t2 /2
Gaussienne µ