Leçon 260 : Espérance, variance et moments d’une va- 2. La v.a.
2. La v.a. g (X ) est dans L1 (Ω, A , P) ssi g est dans L1 (Rd , B(Rd ), µ X ) et
riable aléatoire. dans ce cas, l’égalité précédente est vérifiée.
Remarque 6. En particulier, l’espérance ne dépend que de la loi de X .
On se donne un espace probabilisé (Ω, A , P). On appelle variable aléa-
toire tout application mesurable définie sur (Ω, A , P). Dans cette leçon Corollaire 7.
on s’intéressera aux variables aléatoires réelles, c’est-à-dire à valeurs dans 1. Soit X une v.a. discrète et D ⊆ R fini ou dénombrable tel que
(R, B(R)), et aux vecteurs aléatoires, à valeurs dans (Rd , B(Rd )). X (Ω) = D. Soit g : D → R mesurable, alors g (X ) est intégrable ssi
P
x∈D |g (x)|P(X = x) est fini et alors :
1 Espérance d’une v.a. E[g (X )] =
X
g (x)P(X = x)
x∈D
Définition 1.
1. Soit X une v.a.r. intégrable. On appelle espérance de X le nombre 2. Soit X une v.a. dans Rd admettant une densité f par rapport à la
R
réel E(X ) = Ω X dP. On dit que X est centrée si E(X ) est nulle. mesure de Lebesgue. Soit g : X (Ω) → R mesurable, alors g (X ) est inté-
R
grable ssi Rd |g (x)| f (x) dx est fini et alors :
2. Soit X une v.a.r. dans Lp , on appelle moment d’ordre p le nombre
E(X p ). On appelle moment centré d’ordre p le nombre E[(X −EX )p ].
Z
E[g (X )] = g (x) f (x) dx
3. Soit X une v.a. dans Rd . On dit que X est de puissance p–ième inté- Rd
grable si chacune de ses composantes est dans Lp . C’est équivalent à Exemple 8.
dire que E(kX kp ) < ∞ où k·k est une norme quelconque sur Rd . Si X
1. Si X ∼ B(n, p), alors E(X ) = np.
est intégrable, son espérance est le vecteur E(X ) = (E(X 1 ), . . . , E(X d )).
2. Si X ∼ P (λ), alors E(X ) = λ.
Exemple 2. Soit A ∈ A , alors 1 A est intégrable et E(1 A ) = P(A).
3. Si X ∼ GN∗ (p), alors E(X ) = p1 .
Proposition 3 (Hölder). Soient p, q ∈ [1, ∞] des exposants conjugués, 4. Si X ∼ E (λ), alors E(X ) = λ1 .
et soient X ∈ Lp et Y ∈ Lq . Alors X Y est intégrable et E(|X Y |) 6
1 1 5. Si X ∼ N (m, σ2 ), alors E(X ) = m.
p q
E(|X | ) E(|Y | ) .
p q
6. Si X suit une loi de Cauchy, X n’admet pas d’espérance.
∞ q p 1
Corollaire 4. Si 1 6 p 6 q 6 +∞, alors L ⊆L ⊆L ⊆L .
Proposition 9 (Markov). Soit X une v.a.r. positive. Alors pour tout t > 0,
E(X )
Théorème 5 (transfert). Soit X une v.a. dans R de loi µ X et soit g : R → R P(X > t ) 6 t .
d d
mesurable. Corollaire 10 (Bienaymé–Tchebytchev). Soit X une v.a.r. de carré inté-
grable, alors pour tout t > 0, P(|X − E(X )| > t ) 6 Var(X )
R
1. Si g est positive, alors E[g (X )] = Rd g dµ X . t2
.
1
Application 11 (polynômes de Bernstein). Soit f ∈ C([0, 1]), on lui associe 2. Cov(X , Y ) = E(X Y ) − E(X )E(Y ).
le n–ième polynôme de Bernstein : 3. ∀a, b ∈ R, Cov(X − a, Y − b) = Cov(X , Y ).
µ ¶Ã !
n k n k 4. Var(X ) = 0 ssi X est constante p.s.
x (1 − x)n−k
X
B n [ f ](x) = f
k=0 n k 5. | Cov(X , Y )| 6 σ X σY .
Alors B n [ f ] converge uniformément vers f . L’ensemble des fonctions po- 6. Si X et Y sont indépendantes, Cov(X , Y ) = 0 et Var(X + Y ) = Var(X ) +
lynomiales est donc dense dans C([0, 1]). Var(Y ).
Proposition 12 (Jensen). Soit X une v.a.r. intégrable et soit ϕ : R → R Exemple 16.
convexe avec ϕ(X ) intégrable. Alors ϕ E(X ) 6 E ϕ(X ) .
¡ ¢ ¡ ¢
1. Si X ∼ B(n, p), alors Var(X ) = np(1 − p).
Proposition 13. Deux variables aléatoires X et Y sont indépendantes 2. Si X ∼ P (λ), alors Var(X ) = λ.
ssi pour toutes fonctions mesurables bornées f et g , E[ f (X )g (Y )] = 1−p
3. Si X ∼ GN∗ (p), alors Var(X ) = p2
.
E[ f (X )]E[g (Y )].
1
4. Si X ∼ E (λ), alors Var(X ) = λ2
.
5. Si X ∼ N (m, σ2 ), alors Var(X ) = σ2 .
2 Variance et covariance
6. Si X ∼ N (0, 1) et ε ∼ δ1 +δ
2
−1
sont indépendantes, alors X et εX sont
Définition 14. non corrélées mais ne sont pas indépendantes.
1. Soit X une v.a.r. dans L2 . On appelle variance de X le moment cen-
Exemple 17 (loi multinomiale). On considère une urne contenant k
tré d’ordre 2 : Var(X ) = E[(X − EX )2 ]. On appelle écart-type de X la
sortes de boules. On va précéder au tirage de n boules avec remise (les
racine carré de la variance de X , on le note σ X .
tirages sont indépendants). On note p i la probabilité de tirer une boule
2. Soient X et Y des v.a.r. dans L2 , on appelle covariance de X et Y la de type i et on note Z le nombre de boules de type i que l’on a tirées. La
£ ¤ i
quantité Cov(X , Y ) = E (X − EX )(Y − E(Y ) . Si Cov(X , Y ) = 0, on dit loi de Z = (Z , . . . , Z ) est appelée la loi multinomiale de paramètres n et
1 k
que X et Y sont non corrélées. p = (p 1 , . . . , p k ). Alors Z a pour espérance le vecteur np et pour matrice de
3. Soit X une v.a. dans Rd de carré intégrable. On appelle matrice de covariance Γ.
covariance de X la matrice Γ X = Cov(X i , X j ) .
¡ ¢
np 1 (1 − p 1 ) −np 1 p 2 ··· −p 1 p n
Proposition 15. −np 1 p 2 np 2 (1 − p 2 ) −p 2 p k
Γ=
.. ..
1. L’application Cov est une forme bilinéaire symétrique positive sur L2 , ··· . .
sa forme quadratique associée est Var. −p 1 p k −p 2 p k ··· np k (1 − p k )
2
3 Fonction caractéristique et moments supn Var(X n ) < ∞. Posons S n = X 1 + · · · + X n , alors :
Définition 18. Soit X une v.a.r. On définit la fonction caractéristique de X S n − E[S n ] p.s.
−−−−→ 0
comme ϕ X (t ) = E(eit X ). n n→∞
t 2 σ2 Corollaire 25. Soit (X n )n >1 une suite de v.a.r. i.i.d. de carré intégrable. No-
Exemple 19. Si X ∼ N (m, σ2 ) alors ϕ X (t ) = eimt − 2 .
tons X n = n1 ni=1 X i et m = E(X 1 ). Alors X n converge vers m p.s.
P
Théorème 20. Soit X une v.a.r. et soit ϕ sa fonction caractéristique.
Remarque 26. Ce dernier résultat est vrai sous l’hypothèse que les v.a. sont
1. Si X admet un moment d’ordre n ∈ N∗ , alors ϕ est de classe Cn et simplement L1 . (admis)
pour tout 1 6 k 6 n, ϕ(k) (t ) = ik E(X k eit X ). En particulier, ϕ(k) (0) =
ik E(X k ). Théorème 27 (théorème central limite). Soit (X n )n >1 une suite de v.a.r.
i.i.d. de carré intégrable. Notons m leur espérance et σ2 leur variance. No-
2. Si ϕ est k fois dérivable en 0 (avec k > 2), alors X admet des moments
tons X n = n1 ni=1 X i . Alors :
P
jusqu’à l’ordre 2b k2 c.
p ¡ ¢ L
Application 21. Soit X de loi N (0, 1). Alors X admet des moments de tout n X n − m −−−−→ N (0, σ2 )
n→∞
ordre et ceux-ci sont donnés par :
Application 28 (intervalle de confiance asymptotique). Soit (X n )n >1 une
E(X 2k+1 ) = 0, E(X 2k ) = 1 × 3 × 5 × · · · × (2k − 1) suite de v.a.r. i.i.d. de carré intégrable. Notons m leur espérance et σ2 leur
variance. Soient X n = n1 ni=1 X i et σ̂2n = n1 ni=1 (X i − X n )2 . On se donne
P P
Remarque 22. Les moments ne suffisent pas à caractériser une loi en
α ∈ ]0, 1[. Alors :
général : par exemple, si Z suit la loi log-normale (c’est-à-dire log(Z )
suit une loi N (0, 1)), notons Z a la v.a. admettant pour densité f a (x) = 1. X n et σ̂2n convergent p.s. vers m et σ2 . On dit que ce sont des esti-
f (x)(1 + a sin(2π log x)) sur R∗+ où a ∈ [−1, 1] et f est la densité de Z . Alors mateurs consistants de m et σ2 .
σ̂n σ̂n ¤
2. Soit Iˆn = X n − q α p où q α vérifie P(Z 6 q α ) = 1 − α
£
Z et Z a ont les mêmes moments. ; X n + qα p 2
n n
pour Z de loi N (0, 1). Alors :
Théorème 23 (des moments). Si X et Y sont deux v.a.r. à valeurs dans un
intervalle borné [a, b]. Si E(X k ) = E(Y k ) pour tout k ∈ N∗ , alors X et Y ont lim P(m ∈ Iˆn ) = 1 − α
même loi. n→∞
Développements
4 Théorèmes limites
1. Fonction caractéristique et moments. [20]
Théorème 24 (loi forte des grands nombres L2 ). Soit (X n )n >1 une
2. Loi des grands nombres L2 . [24]
suite de v.a.r. de carré intégrable, deux à deux non corrélées, telles que
3
Références
— B ARBE et L EDOUX, Probabilités.
— C ARRIEU, Probabilité – Exercices corrigés.
— G ARET et K URTZMAN, De l’intégration aux probabilités.
— O UVRARD, Probabilités 2.