0% ont trouvé ce document utile (0 vote)
14 vues30 pages

Resume - Cours Probabilite

Ce document est un résumé de cours sur les probabilités, contenant des définitions, théorèmes et propositions essentielles, sans démonstrations complètes. Il aborde les concepts de base des espaces de probabilités, des variables aléatoires, et des lois de probabilité, ainsi que des outils pour calculer des moments. Il sert de référence pour les étudiants lors des examens, leur permettant de consulter les définitions et résultats clés.

Transféré par

gagnonzondogaaime
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
14 vues30 pages

Resume - Cours Probabilite

Ce document est un résumé de cours sur les probabilités, contenant des définitions, théorèmes et propositions essentielles, sans démonstrations complètes. Il aborde les concepts de base des espaces de probabilités, des variables aléatoires, et des lois de probabilité, ainsi que des outils pour calculer des moments. Il sert de référence pour les étudiants lors des examens, leur permettant de consulter les définitions et résultats clés.

Transféré par

gagnonzondogaaime
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Probabilités

Résumé de cours

Préambule : Comme son titre l’indique, ce document ne constitue pas un polycopié de cours qui se suffit à lui-même
mais un résumé de cours. Ainsi, il contient les définitions de tous les objets qui ont été introduits dans le cours mais
pas tous les exemples qui ont été développés pendant les séances; il contient un ensemble de théorèmes et
propositions qui ont été vus (en cours ou en TD) mais pas leur démonstration. Il constitue pour vous un bilan de ce
qu’il faut savoir en probabilités à l’issue de ce cours de tronc commun.
Pour le partiel comme pour l’examen, vous aurez le droit de consulter librement votre exemplaire non annoté de ce
document à l’exclusion de tout autre document personnel. A l’exception des énoncés ou paragraphes précédés de la
mention (Admis), je considère que vous devez savoir démontrer l’ensemble des résultats de ce document, même si la
démonstration n’a pas été faite en cours parce qu’elle est considérée comme un prérequis (par exemple de théorie
de la mesure).

Ce document est inspiré du cours de Mylène Maida


Partie 1. Concepts et outils probabilistes de base

Plan de la première partie :

I. Généralités sur les espaces de probabilités


II. Outils pour déterminer la loi d’une variable aléatoire réelle
(suivi d’un complément sur les vecteurs aléatoires)
Appendice 1 : Algèbre, tribu, classe monotone : un bref rappel
Appendice 2 : Vade-mecum sur les lois usuelles pour des va-
riables aléatoires réelles

I. Généralités sur les espaces de probabilités


[Barbe-Ledoux (chap. 3), Ouvrard 1]

1. Triplet probabiliste

L’un de nos objectifs est de modéliser des expériences aléatoires.

Ici, modéliser signifie associer à une expérience aléatoire (qui n’est pas un objet mathématique) un
espace de probabilité (ou triplet probabiliste), c’est-à-dire un triplet (Ω, F , P), où
• Ω est un ensemble (qui code l’ensemble des résultats possibles de l’expérience)
• F est une tribu (ou σ-algèbre)
• et P est une mesure de probabilité.

On rappelle qu’une algèbre sur Ω est un ensemble de parties de Ω qui contient Ω, stable par
complémentaire et réunion finie ; une tribu (ou σ-algèbre) sur Ω est un ensemble de parties de Ω qui
contient Ω, stable par complémentaire et réunion dénombrable.

Une mesure (ou mesure positive) µ sur (Ω, F ) est une application de F dans R+ ∪ {+∞} telle que
µ(∅) = 0 et µ est σ-additive (c’est-à-dire que si ( An )n∈N est ue famille dénombrable d’événements
disjoints, P(∪n∈N An ) = ∑n∈N P( An )).
Une (mesure de) probabilité P est une mesure telle que P(Ω) = 1.

On appelle événement tout ensemble mesurable, c’est-à-dire tout élément de F .

Proposition 1 (Propriétés utiles d’une probabilité)

Si P est une probabilité sur (Ω, F ), A, B et ( An )n∈N des ensembles mesurables,


1. A ⊂ B ⇒ P( A) ≤ P( B)
2. P( Ac ) = 1 − P( A)

1
3. (Continuité par limite monotone) Si ( An )n∈N est une suite croissante ou décroissante d’événements,

P(lim An ) = lim P( An ),

avec la convention que lim An = ∪n∈N An si la suite est croissante et lim An = ∩n∈N An si la suite est
décroissante.
4. P(∪n∈N An ) ≤ ∑n∈N P( An )
5. P( A ∪ B) = P( A) + P( B) − P( A ∪ B)
6. (Formule du crible ou de Poincaré)
!  
[
n n \
k
P Ai = ∑ (−1)k−1 ∑ P Ai j  .
i =1 k =1 1≤i1 <...<in ≤n j =1

Aparté 1 : dénombrabilité

En probabilité, la notion de dénombrabilité est très importante.

On dit qu’un ensemble E est dénombrable s’il existe une injection de E dans l’ensemble N des entiers
naturels 1 .
Exemples d’ensembles dénombrables : N, Z, Q, l’ensemble des suites finies de 0 et de 1, les ensembles
finis.
Une union dénombrable d’ensembles dénombrable est encore dénombrable.
L’ensemble R des nombres réels n’est pas dénombrable. Plus généralement, un produit dénombrable
d’ensembles finis n’est pas dénombrable.
En pratique, les cas les plus courants que vous rencontrerez seront de l’un des types suivants :

• Ω dénombrable, F est l’ensemble des parties de Ω, notée P (Ω), P donnée par son germe

Aparté 2 : Germe de probabilité

Un germe de probabilité est une famille dénombrable de réels positifs ou nuls ( pi )i≥1 avec
∑i≥1 pi = 1.
Si Ω est dénombrable, ( P({ xi }))i≥1 est un germe de probabilité qui détermine P de manière unique.

Cas particulier : Ω fini, P uniforme. Dans ce cas, la probabilité d’un événement se calcule en divisant
le “nombre de cas favorables” par le “nombre de cas possibles”, c’est-à-dire en divisant la cardinal de
l’événement par le cardinal de Ω). Il faut donc savoir dénombrer.

Aparté 3 : Dénombrements usuels

Soit E un ensemble de cardinal n et F un ensemble de cardinal p. Soit q ∈ N∗ . Alors


? le nombre de q-listes d’éléments de E est nq
n!
? le nombre d’arrangements de q éléments de E est (n− q)!
? le nombre de combinaisons de q éléments de E est (nq) = n!
q!(n−q)!
? le nombre de parties de E est 2n
? le cardinal de E × F est np
? le nombre d’applications de E dans F est pn
p!
? le nombre d’injections de E dans F est ( p−n)!
? le nombre de permutations de E est n!

2
• Ω = Rn , F tribu borélienne, P absolument continue par rapport à Lebesgue (cas particulier :
probabilité uniforme sur un intervalle)

Rappel : on dit qu’une mesure de probabilité Q est absolument continue par rapport à une autre P ssi
∀ A ∈ F , P( A) = 0 ⇒ Q( A) = 0.

Théorème 2 (Radon-Nikodym (Admis))

Si P et Q sont deux mesures de probabilité telles Rque Q est absolument continue par rapport à P, il existe
une fonction h ∈ L1 ( P) telle que ∀ A ∈ F , Q( A) = A f dP. On appelle h la densité de Q par rapport à P.

Aparté 4 : Rappel sur la mesure de Lebesgue (Admis)

Sur Rd muni de sa tribu borélienne, on peut définir une mesure λd , appelée mesure de Lebesgue sur
Rd , ayant les propriété suivantes :
• sur les pavés, elle coı̈ncide avec la mesure du volume
• elle est invariante par toute isométrie euclidienne
• elle ne charge pas les points ni aucun sous-espace affine strict de Rd
• elle est homogène de degré d (c’est-à-dire que pour tout borélien B de Rd et a ∈ R, on a
λd ( aB) = | a|d λd ( B).

2. Variable aléatoire réelle


2.1. Définition
On donne d’abord une définition générale d’une variable aléatoire.
Soit (Ω, F , P) un espace de probabilités et ( E, G) un ensemble muni d’une tribu donnés. Une variable
aléatoire (v.a.) est une fonction mesurable de (Ω, F ) dans ( E, G).

Dans le cas particulier où ( E, G) = (R, B(R)), on parle de v.a. réelle.


Si ( E, G) = (R p , B(R p )), on parle de vecteur aléatoire.

Si X est une variable aléatoire de (Ω, F ) dans ( E, G), la loi de X, notée PX est la mesure-image de P par
X, c’est-à-dire la mesure de probabilité sur ( E, G) définie par :
def
∀ B ∈ G , PX ( B) = P( X ∈ B)
= P({ω ∈ Ω | X (ω ) ∈ B})

Notation : si PX = Q, on notera souvent X ∼ Q.

En pratique, les lois des v.a. réelles que vous rencontrerez, seront pour la plupart discrètes ou à densité.

2.2. Lois discrètes


La masse de Dirac en x, notée δx , est la mesure de probabilité donnée par :

1 si x ∈ A
∀ A ⊂ Ω, δx ( A) =
0 si x 6∈ A

Une probabilité Q est dite discrète si elle s’écrit comme combinaison linéaire dénombrable de masses
de Dirac :
Q = ∑ pi δxi , où I est dénombrable, pi ≥ 0 et ∑i∈ I pi = 1.
i∈ I

Une v.a. est dite discrète si sa loi est une mesure de probabilité discrète. Autrement dit, ssi X prend
(p.s.) ses valeurs dans un ensemble dénombrable.

3
2.3. Lois à densité (par rapport à Lebesque)
Une probabilité Q définie sur R munie de sa tribu borélienne, est dite à densité si et seulement si
elle est absolument continue par rapport à la mesure de Lebesgue.

De manière équivalente (grâce au théorème 2 (Radon-Nikodym)), une probabilité Q définie sur R


Z s’il existeZune fonction mesurable f : R → R positive
munie de sa tribu borélienne est dite à densité
def
telle que, pour tout B ∈ B(R), on a Q( B) = f ( x ) dx = 1B ( x ) f ( x ) dx.
B Ω

f est alors la densité de Q. On note dQ = f ( x )dx.


Z
NB : on a nécessairement f ( x ) dx = 1.
R

Si X est une v.a. à densité, alors P( X = a) = 0 pour tout a ∈ R (X n’a pas d’atome).

2.4. Décomposition de Lebesgue d’une probabilité sur (R, B(R))

Théorème 3 (Admis).

Toute mesure de probabilité P sur R se décompose de manière unique comme P = αP1 + βP2 + γP3 , avec
P1 probabilité discrète, P2 à densité par rapport à la mesure de Lebesque λ et P3 singulière sans atome.

2.5. Moments d’une v.a.


Si X est une v.a. réelle P-intégrable ou positive, on définit son espérance par :
Z
def
E( X ) = X (ω ) dP(ω ).

L’espérance est un cas particulier d’intégrale par rapport à une mesure positive. Par conséquent :

Proposition 4

• (linéarité) E(aX+bY) = a E(X) + b E(Y)


• (convergence monotone) Si Xn ≥ 0 et Xn ↑ X, alors E( Xn ) ↑ E( X )
• (convergence dominée) Si | Xn | ≤ Z avec E( Z ) < ∞ et Xn → X, alors E( Xn ) → E( X ).
• (lemme de Fatou) Si Xn ≥ 0, E(lim inf Xn ) ≤ lim inf E( Xn ).

De même, si X est dans L2 (Ω, F , P), sa variance est donnée par :


 
def
Var( X ) = E ( X − E( X ))2 = E( X 2 ) − E( X )2 .
p
σ(X ) = Var( X ) est appelé l’écart-type de X.

Propriétés :

• Si VarX = 0, X est p.s. constante


• Var( aX ) = a2 VarX
• VarX = infa∈R E(( X − a)2 ).

De même, si X n est P-intégrable ou positive, E( X n ) est appelé moment d’ordre n.

4
On utilise très souvent la formule de transfert pour le calcul des moments.

Proposition 5

Soit X : Ω → E une v.a. et ϕ : E → Rn une fonction mesurable bornée. Alors


Z Z
def
E( ϕ( X )) = ϕ( X (ω )) dP(ω ) = ϕ( x ) dPX ( x ).
Ω Rn

Si PX = ∑i≥1 pi δxi , E( ϕ( X )) = ∑i≥R1 pi ϕ( xi ).


Si X est de densité f , E( ϕ( X )) = R ϕ( x ) f ( x )dx.

On peut ensuite étendre la formule à toute fonction ϕ mesurable PX -intégrable.


En particulier, Z
E( X ) = xdPX ( x ).
R
2.6. Quelques inégalités très utiles

Proposition 6 (Inégalités classiques)

• (Inégalité de Jensen) Si ϕ est une fonction convexe sur R et X et ϕ( X ) sont dans L1 ,


alors ϕ( E( X )) ≤ E( ϕ( X )).
• (Inégalité de Hölder) Si X ∈ L p , Y ∈ Lq , p, q ≥ 1 et 1p + 1q = 1 alors XY ∈ L1 et

E(| XY |) ≤ ( E(| X | p )1/p ( E(| X |q )1/q

(p = q = 2 : Cauchy-Schwarz)
• p 7→ ( E(| X | p )1/p croissante
• Pour p ≥ 1, ( E(| · | p )1/p est une norme [l’inégalité triangulaire donne Minkowski].

On énonce maintenant quelques inégalités plus spécifiquement probabilistes :

Proposition 7

• (Inégalité de Markov) Si X intégrable ou positive, pour tout t > 0,

E( X + ) E(| X |)
P( X > t) ≤ ≤ .
t t
• (Inégalité de Bienaymé-Tchebichev) Si X ∈ L2 , pour tout t > 0,

Var( X )
P(| X − E( X )| ≥ t) ≤ .
t2

• (Inégalité de Tchebichev exponentielle) Si ∃λ > 0 tel que E(eλX ) < ∞,

P ( X ≥ t ) ≤ e− I (t) ,

où I (t) = supλ (λt − ln E(eλX )).

5
II. Des outils pour déterminer la loi d’une v.a. réelle
L’idée générale est que si on connaı̂t E( ϕ( X )) pour un ensemble suffisant T de fonctions-tests, cela va
caractériser la loi de X.

1. Fonction de répartition
[Foata-Fuchs p 48 sq]
Dans ce cas, T est l’ensemble des fonctions de la forme 1]−∞,t] pour t ∈ R.

Soit X une v.a. réelle. La fonction de répartition de X est la fonction FX : R → [0, 1] définie par
def
∀t ∈ R, FX (t) = P( X ≤ t).

Propriétés immédiates.

• P( a < X ≤ b) = FX (b) − FX ( a) si a < b.


• P( X > a) = 1 − FX ( a).

Théorème 8

Soient X et Y des v.a. réelles de lois respectives PX et PY . Alors PX = PY si et seulement si FX = FY .

Proposition 9

Soit X une v.a. réelle.

• FX est une fonction croissante à valeurs dans [0, 1].

• lim FX (t) = 0 et lim FX (t) = 1.


t→−∞ t→+∞

• ∀ a ∈ R, FX est continue à droite de a et FX ( a−) := lim FX (t) existe et vaut P( X < a). Elle est donc
t↑ a
càdlàg.

On a donc aussi P( X = a) = FX ( a) − FX ( a−).


Z t
Si X est une v.a. continue de densité f ( x ), alors FX (t) = f ( x ) dx. La fonction FX est continue sur
−∞
R, et si f est continue au point t alors FX est dérivable au point t avec FX0 (t) = f (t).

Exemple.
Z t
Si PX = E (λ), alors FX (t) = 0 si t ≤ 0 et FX (t) = λe−λx dx = 1 − e−λt si t ≥ 0.
0

Aparté 7 : Lois sans mémoire

Les seules variables aléatoires à valeurs dans R+ qui ont la propriété d’être sans mémoire, c’est-à-dire
qui vérifient
∀s, t > 0, P( X > t + s) = P( X > s) P( X > t),
sont les v.a. de lois exponentielles (de paramètre λ > 0).

Les seules variables aléatoires à valeurs dans N∗ qui ont la propriété d’être sans mémoire, c’est-à-dire
qui vérifient
∀n, m ∈ N∗ , P( X > n + m) = P( X > m) P( X > n),
sont les v.a. de lois géométriques (de paramètre p ∈]0, 1[).

6
Si X est une v.a. discrète, la fonction de répartition est en escaliers, les marches sont aux valeurs prises
par X, la hauteur de la marche en xi est P( xi ).

La méthode de la transformée inverse a des applications importantes pour la simulation de variables


aléatoires.
Proposition 10
Soit F une fonction de répartition. On définit sa fonction quantile par

F − (u) = inf{ x; F ( x ) > u}, ∀u ∈]0, 1[.

Si U est de loi uniforme sur [0, 1], F − (U ) a pour fonction de répartition F.

2. Théorème de transfert
Dans ce cas, T est l’ensemble des fonctions continues bornées.
Théorème 11
Soient X et Y des v.a. réelles de lois respectives PX et PY .
On a PX = PY ssi pour toute fonction ϕ continue bornée, E( ϕ( X )) = E( ϕ(Y )).

3. Fonction caractéristique
Dans ce cas, T est l’ensemble des fonctions de la forme x 7→ eitx pour t ∈ R.

Soit X une v.a. réelle. La fonction caractéristique de X est la fonction ϕ X : R → C telle que ∀t ∈ R,
Z Z
eitX (ω ) dP(ω ) =
def
ϕ X (t) = E(eitX ) = eitx dPX ( x ).
Ω R

Exemple. La fonction caractéristique de la loi N (0, 1) est donnée par ϕ(t) = e−t
2 /2
, ∀t ∈ R.
Théorème 12 (Théorème de Lévy)
Soit X et Y des v.a. réelles de lois respectives PX et PY . Alors PX = PY si et seulement si ϕ X = ϕY .

On peut retrouver les moments d’une v.a. à partir des dérivées en zéro de sa fonction caractéristique.
Proposition 13
Soit X une v.a. réelle. Si X ∈ Ln alors ϕ X est n fois dérivable et
(k )
∀1 ≤ k ≤ n, ϕ X (0) = ik E( X k ).

Réciproquement, si ϕ X est k fois dérivable en 0 et 2n ≤ k alors X ∈ L2n .

4. Fonction génératrice
[Ouvrard 1 p138, Foata-Fuchs chap 9]
Dans ce cas, T est l’ensemble des fonctions de la forme x 7→ t x pour t ∈ [−1, 1].

NB : un peu moins usitée que les précédentes et restreinte aux v.a. à valeurs dans N.

Soit X une v.a. à valeurs dans N et pn = P( X = n). La fonction génératrice de X est définie par
+∞

def
GX ( x ) = p n x n = E ( t X ).
n =0

7
Proposition 14
Soit X une v.a. à valeurs dans N. Sa fonction génératrice GX est bien définie et continue sur [−1, 1],
C ∞ sur ] − 1, 1[.
De plus, pour tout r ∈ N∗ , X ∈ Lr si et seulement si GX (1− ) := lims↑1 GX (s) existe et dans ce cas, on a
(r ) (r )

E( X ( X − 1) . . . ( X − r + 1)) = GX (1− ).
(r )

La fonction génératrice caractérise la loi de la variable aléatoire.

Théorème 15
Soit X et Y deux v.a. à valeurs dans N. Alors
PX = PY ⇐⇒ GX = GY sur un voisinage de 0.

Exemple.
Soit X une v.a. de loi de Poisson P (λ).
On a GX ( x ) = eλ( x−1) . GX
0 ( x ) = λeλ( x −1) et G 0 (1) = λ. Donc E ( X ) = λ.
X

5. Résumé des méthodes

Théorème 16
Soient X et Y deux v.a. réelles de loi respectives PX et PY . Alors si l’une des conditions suivantes est vérifiée

• (Théorème de transfert) pour toute fonction ϕ continue bornée,


Z Z
ϕ(t)dPX (t) = ϕ(t)dPY (t)
R R

• FX = FY

• (Théorème de Lévy) ϕ X = ϕY

• X et Y sont à valeurs dans N et GX = GY sur un voisinage de zéro,

on a PX = PY , autrement dit X et Y ont même loi.

6. Compléments sur les vecteurs aléatoires


6.1. Définitions et vocabulaire spécifique aux vecteurs aléatoires
Un vecteur aléatoire est une v.a. à valeurs dans (Rn , B(Rn )). On le note X = ( X1 , . . . , Xn ). Les
projections sur les coordonnées étant mesurables, les ( Xi )1≤i≤n sont des v.a. réelles.

La loi PX de X est une mesure sur Rn , on l’appelle parfois loi jointe de ( X1 , . . . , Xn ). La loi de la v.a.
Xi est appelée ième marginale de la loi de X.

Si la loi PX s’écrit comme une somme dénombrable de masses de Dirac, on dit encore que PX est
discrète.
S’il existe une fonction f : Rn → R mesurable positive telle que pour tout B borélien de Rn , on a
Z
PX ( B) = f ( x1 , . . . , xn )dx1 . . . dxn ,
Rn

on dit que X est un vecteur aléatoire de densité f .


Si PX est de densité f , sa ième marginale est aussi à densité, de densité
ZZ
fi (x) = f ( x1 , . . . , xi−1 , x, xi+1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn .
Rn −1

La réciproque est fausse.

8
Si chacune des coordonnées Xi est dans L2 (Ω, F , P), on peut définir la matrice D, de taille n × n,
telle que Dii = Var ( Xi ) pour tout 1 ≤ i ≤ n et Dij = cov( Xi , X j ), pour tout i 6= j. Cette matrice est
appelée matrice de variance-covariance ou simplement matrice de covariance de X. Elle est positive 2
et symétrique.

6.2. Extension des outils déjà connus pour déterminer la loi d’un vecteur aléatoire
On peut définir la fonction de répartition de X : pour tout t = (t1 , . . . , tn ) ∈ Rn ,

FX (t1 , . . . , tn ) := P( X1 ≤ t1 , . . . , Xn ≤ tn ).

Elle caractérise la loi PX mais est beaucoup moins usitée que dans le cas réel.

On utilise plutôt l’extension du théorème de transfert suivante : soient X et Y deux vecteurs aléatoires
de Rn . Si pour toute fonction continue bornée ϕ de Rn dans R, E( ϕ( X )) = E( ϕ(Y )) alors PX = PY .

On peut aussi définir la fonction caractéristique, qui est une fonction à n variables donnée par

∀t = (t1 , . . . , tn ) ∈ Rn , ϕ X (t) = E(eiht,X i ) = E(ei(t1 X1 +...+tn Xn ) ),

qui caractérise encore la loi de X.

6.3. Changement de variables

Théorème 17 (Admis)

Soient A et B deux ouverts de Rn et h : A → B un C 1 -difféomorphisme de A dans B. Alors pour toute f


mesurable positive ou intégrable sur B, on a
Z Z
f (h( x1 , . . . , xn ))|Jac h( x1 , . . . , xn )|dx1 . . . dxn = f (y1 , . . . ,n )dy1 , . . . , dyn ,
A B

et pour toute g mesurable positive ou telle que g ◦ h intégrable sur A, on a


Z Z
g(h( x1 , . . . , xn ))dx1 . . . dxn = g(y1 , . . . , yn )|Jac h−1 (y1 , . . . , yn )|dy1 , . . . , dyn ,
A B

avec  ∂h 
1 ∂h1
∂x1 ... ∂xn
 . .. 
Jac h( x1 , . . . , xn ) := det 
 ..
..
. 
. .
∂hn ∂hn
∂x1 ... ∂xn

Remarque. On peut vérifier que

1
|Jac h−1 (y1 , . . . , yn )| = .
|Jac h(h−1 (y1 , . . . , yn ))|

2. Une matrice M est dite positive (on dit aussi semi-définie positive) ssi pour tout vecteur x, on a x t Mx ≥ 0.

9
Appendice 1 : Algèbre, tribu, classe monotone, un bref rappel

[appendice de Ouvrard 2, Barbe-Ledoux, Foata-Fuchs chap 1 et 2]

Ω donné

On rappelle que : un ensemble de parties de Ω


• C est une algèbre ssi Ω ∈ C et C est stable par complémentaire et réunion finie.
• F est une tribu (ou σ-algèbre) ssi Ω ∈ F et F est stable par complémentaire et par union
dénombrable.
• M est une classe monotone ssi Ω ∈ M et M est stable par différence et réunion croissante.

On sait que

• Une intersection quelconque d’algèbres est une algèbre. Une intersection quelconque de tribus
est une tribu. Une intersection quelconque de classes monotones est une classe monotone.
On peut donc définir la notion d’algèbre (respectivement tribu, classe monotone) engendrée.
• Une union croissante de tribus est une algèbre.
• Une tribu est une classe monotone.
• Une classe monotone stable par intersection finie est une tribu.

Théorème 18 (dit de la classe monotone)

Si E est une partie de P (Ω) stable par intersection finie, alors la classe monotone engendrée par E , notée
M(E ) coı̈ncide avec σ(E ) la tribu engendrée par E .

Remarque. On utilise souvent ce résultat sous la forme suivante : Si M est une classe monotone contenant E , elle contient
σ (E ).

Théorème 19 (dit de prolongement de Carathéodory)(Admis)

Si µ est une fonction additive, positive, définie sur une algèbre C de parties de Ω avec µ(Ω) < ∞, elle se
prolonge de façon unique en une mesure sur (Ω, σ(C)).

10
Appendice 2 : Vade-mecum sur les lois usuelles pour des variables
aléatoires réelles

Lois discrètes usuelles


• Loi uniforme sur un ensemble fini { x1 , . . . , x N }, avec N ∈ N∗ .
X prend ses valeurs (p.s.) dans { x1 , . . . , x N }, avec P( X = xi ) = 1/N pour tout i ∈ {1, . . . , N }. On a

N
1
PX =
N ∑ δxi , ce que l’on peut noter X ∼ U ({ x1 , . . . , x N }).
i =1

Exemple : résultat d’un lancer de dé non pipé.

• Loi de Bernoulli de paramètre p, avec 0 < p < 1.


X prend ses valeurs (p.s.) dans {0, 1}, avec P( X = 1) = p et P( X = 0) = 1 − p. On a

PX = (1 − p)δ0 + pδ1 , ce que l’on peut noter X ∼ B(1, p).

E( X ) = p, Var( X ) = p(1 − p), ∀t ∈ R, GX (t) = pt + 1 − p.


Exemple : nombre de “face” obtenu lors du lancer d’une pièce.

• Loi binomiale de paramètres n et p, avec n ∈ N∗ et 0 < p < 1.


X prend ses valeurs dans {0, 1, . . . , n} et P( X = k ) = (nk) pk (1 − p)n−k pour 0 ≤ k ≤ n. On a
n  
n k
PX = ∑ p (1 − p)n−k δk , ce que l’on peut noter X ∼ B(n, p).
k =0
k

E( X ) = np, Var( X ) = np(1 − p), ∀t ∈ R, GX (t) = ( pt + 1 − p)n .

Exemple : nombre de 6 obtenus au bout de n lancers d’un dé.

• Loi hypergéométrique de paramètres n, N, p, avec n ∈ N∗ , N ∈ N∗ , n ≤ N, 0 < p < 1, N p ∈ N∗ .


( Nkp)( N (n1−−kp))
X prend ses valeurs dans {0, . . . , n} et P( X = k) = pour 0 ≤ k ≤ n. On a
( Nn )

n ( Nkp)( N (n1−−kp))
PX = ∑ ( Nn )
δk , ce que l’on peut noter X ∼ H(n, N, p).
k =0

N−n
E( X ) = np, Var( X ) = np(1 − p) .
N−1

Exemple : nombre de boules rouges obtenues au bout de 5 tirages sans remise dans une urne contenant
10 boules rouges et 20 boules blanches.

11
• Loi géométrique de paramètre p, avec 0 < p < 1.
X prend ses valeurs dans N∗ et P( X = k) = p(1 − p)k−1 pour k ≥ 1. On a

PX = ∑ p(1 − p)k−1 δk , ce que l’on peut noter X ∼ G( p).
k =1

1 pt
E( X ) = 1/p, Var( X ) = (1 − p)/p2 , ∀t ∈ R, tel que |t| < , GX ( t ) = .
1− p 1 − (1 − p ) t

Exemple : nombre de lancers nécessaires pour obtenir le premier 6.

• Loi de Poisson de paramètre λ, avec λ > 0


X prend ses valeurs dans N et P( X = k ) = e−λ λk! pour tout entier k ∈ N. On a
k

λk
PX = ∑ e−λ δ , ce que l’on peut noter X ∼ P (λ).
k ∈N
k! k

E( X ) = Var( X ) = λ, ∀t ∈ R, GX (t) = eλ(t−1) .

Lois à densité usuelles


• Loi uniforme sur un intervalle [ a, b], avec a < b.
La densité de PX est b−1 a 1[a,b] , ce que l’on peut noter X ∼ U ([ a, b]).

(b− a)t
a+b sin( 2 )
E( X ) = ( a + b)/2, Var( X ) = (b − a)2 /12, ∀t ∈ R, ϕ X (t) = eit 2
(b− a)t
.
2

• Loi exponentielle de paramètre λ, avec λ > 0.


La densité de PX est x 7→ 1R+ ( x )λe−λx , ce que l’on peut noter X ∼ E (λ).

λ
E( X ) = 1/λ, Var( X ) = 1/λ2 , ∀t ∈ R, ϕ X (t) = .
it − λ

• Loi de Gauss, loi normale de pramètres m et σ,avec m ∈ R  et σ2 > 0.


1 ( x − m) 2
La densité de la loi N (m, σ2 ) est x 7→ √ exp − 2
, ce que l’on peut noter X ∼ N (m, σ2 ).
2πσ 2 2σ
∀t ∈ R, ϕ X (t) = eitm e− 2 σ t .
1 2 2
E( X ) = m, Var( X ) = σ2 ,

• Loi de Cauchy standard.


1 1
La densité de PX est x 7→ , ce que l’on peut noter X ∼ C(0, 1).
π 1 + x2
Cette loi n’a ni espérance, ni variance.

12
Partie 2. Indépendance et conditionnement

Plan de la deuxième partie :

III. Indépendance et applications


IV. Conditionnement

III. Indépendance et applications


[Barbe-Ledoux]

1. Indépendance d’événements
Soit (Ω, F , P) un espace de probabilités.
Deux événements A, B sont dits indépendants si P( A ∩ B) = P( A) P( B). On note A⊥ B.

Remarque. Si A et B sont indépendants, A et Bc le sont aussi.

La famille d’événements ( Ai )i∈ I est dite indépendante (on dit parfois mutuellement indépendante) si
pour tout sous-ensemble fini {i1 , . . . , in } de I,
!
\
n n
P Aik = ∏ P ( A i k ).
k =1 k =1

Contre-exemple.
Soit Ω = {1, . . . , 4} et P la probabilité uniforme.
Soit A = {1, 2}, B = {1, 3}, C = {1, 4}.
On a P( A) = P( B) = P(C ) = 1/2. P( A ∩ B) = P({1}) = 1/4 = P( A) P( B) donc A⊥ B. De même, A⊥C et B⊥C,
autrement dit A, B, C sont 2 à 2 indépendants. P( A ∩ B ∩ C ) = P({1}) = 1/4 6= P( A) P( B) P(C )
donc A, B, C ne sont pas indépendants.

2. Indépendance de sous-tribus
Une famille de sous-tribus (ou d’algèbres) (Fi )i∈ I (avec Fi ⊂ F ) est dite indépendante si toute
famille d’événements ( Ai ∈ Fi )i∈ I est indépendante.

Remarque. Si la famille d’événements ( Ai )i∈ I est dite indépendante, la famille de sous-tribus


(σ({ Ai }))i∈ I l’est aussi.

Proposition 20

Si C1 et C2 sont deux sous-algèbres indépendantes, alors σ (C1 ) et σ (C2 ) sont deux sous-tribus indépendantes.

Proposition 21 (Regroupement par paquets)

Soit (Fi )i∈ I une famille indépendante de sous-tribus d’une tribu F . Soit ( J` )`∈ L une partition arbitraire de I.
La famille de tribus (σ (Fi , i ∈ J` ))`∈ L est une famille indépendante.

13
3. Notion de mesure-produit
3.1. Définition
Théorème 22 (Admis)
Soit µ une mesure de probabilité sur (Ω, F ) et ν une mesure de probabilité sur (Ω0 , F 0 ). F ⊗ F 0 est la tribu
de Ω × Ω0 engendrée par les pavés, c’est-à-dire les ensembles A × B avec A ∈ F , B ∈ F 0 .
Pour tous A ∈ F , B ∈ F 0 , on définit

π ( A × B ) = µ ( A ) ν ( B ).

Alors π s’étend de façon unique en une mesure de probabilité sur (Ω × Ω0 , F ⊗ F 0 ). On note cette mesure
µ ⊗ ν et on l’appelle mesure-produit de µ par ν.

3.2. Fubini
Soient (Ω, F , µ) et (Ω0 , F 0 , ν) deux espaces de probabilités. On munit Ω × Ω0 de la tribu produit
F ⊗ F 0.
Théorème 23 (Fubini-Tonelli, Fubini)
Soit f une fonction à valeurs réelles, définie sur Ω × Ω0 , F ⊗ F 0 -mesurable et µ ⊗ ν-intégrable ou positive.
Alors on a
Z Z Z  Z Z 
f d(µ ⊗ ν) = f (ω, ω 0 )dν(ω 0 ) dµ(ω ) = f (ω, ω 0 )dµ(ω ) dν(ω 0 ).
Ω Ω0 Ω0 Ω

4. Indépendance de variables aléatoires


4.1. Définition et conséquences
On considère des v.a. Xi : Ω → ( Ei , Gi ).

La famille de v.a. ( Xi )i∈ I est indépendante si et seulement si la famille de tribus ( Xi−1 (Gi ))i∈ I est
indépendante ; autrement dit, si pour tout sous-ensemble fini {i1 , . . . , in } de I et A j ∈ Gi j ,

 n
P Xi k ∈ A k , 1 ≤ k ≤ n = ∏ P ( Xi k ∈ A k ) .
k =1

Remarque. Les Xi doivent être définis sur le même espace Ω sinon l’expression de gauche n’a pas de
sens.

Si X1 , X2 , . . . , Xn des v.a. indépendantes et ϕ1 , ϕ2 , . . . , ϕn des fonctions mesurables, alors les v.a.


ϕ1 ( X1 ), . . . , ϕn ( Xn ) sont indépendantes. (ϕi doit être définie sur Ei (à valeurs dans un certain Fi )) et les v.a.
Y = ( X1 , . . . , Xk ) et Y 0 = ( Xk+1 , . . . , Xn ) sont indépendantes (théorème des coalitions).

4.2. Indépendance et loi produit


Proposition 24
Soit ( Xi )1≤i≤n des v.a. définies sur Ω. Les v.a. X1 , . . . , Xn sont indépendantes si et seulement si la loi de la v.a.
Y = ( X1 , . . . , Xn ) est égale à PX1 ⊗ PX2 ⊗ · · · ⊗ PXn .

Autrement dit, on peut appliquer le critère suivant :


Proposition 25
Une famille de v.a. réelles ( Xi )i∈ I sur Ω est indépendante si et seulement si pour toute famille finie J ⊂ I et
( ϕi )i∈ J des fonctions mesurables telles que ( ϕi ( Xi ))i∈ J intégrables, on a
!
E ∏ ϕ i ( Xi ) = ∏ E ( ϕi ( Xi )) .
i∈ J i∈ J

14
4.3. Indépendance et corrélation
Deux v.a. réelles X, Y sont dites non corrélées si Cov( X, Y ) := E( XY ) − E( X ) E(Y ) = 0.

Conséquence : Si X et Y sont deux v.a. réelles non corrélées, alors Var( X + Y ) = Var( X ) + Var(Y ).

Proposition 26

Soit X, Y des v.a. réelles intégrables indépendantes. Alors XY est intégrable et E( XY ) = E( X ) E(Y ). Autre-
ment dit, deux variables indépendantes sont non-corrélées.

La réciproque est fausse. Exemple. X ∼ N (0, 1) et Y = X 2 .

4.4. Somme de v.a. indépendantes et convolution


Soit µ et ν deux mesures de probabilité sur R. Le produit de convolution µ ∗ ν est la mesure de
probabilité sur R définie par : ∀φ : R → R fonction borélienne bornée,
Z Z Z 
def
φ d(µ ∗ ν) = φ( x + y) dν(y) dµ( x ).
R R R

On vérifie facilement que l’opération ∗ est commutative, associative, distributive par rapport à l’ad-
dition.

Proposition 27

Soit X et Y deux v.a. réelles indépendantes. La loi de X + Y est égale à PX ∗ PY .

Lois continues. Soit X de densité f et Y R de densité g. Si X et Y sont indépendantes, alors X + Y est


continue de densité f ∗ g, où f ∗ g( x ) = R f ( x − y) g(y) dy.

Lois discrètes. Pour le calcul des convolutions discrètes, le point crucial est

δa ∗ δb = δa+b

On utilise ensuite la distributivité.

Les fonctions caractéristiques sont souvent d’une grande aide pour le calcul de produit de convolu-
tion, pour la raison suivante :

Proposition 28

Si X et Y sont deux v.a. indépendantes, alors pour tout t ∈ R,

ϕ X +Y ( t ) = ϕ X ( t ) ϕ Y ( t ) .

Stabilité par convolution

On a les égalités en loi suivantes :

• B(n, p) ∗ B(m, p) = B(n + m, p)


• N (m1 , σ12 ) ∗ N (m2 , σ22 ) = N (m1 + m2 , σ12 + σ22 )
• P ( λ1 ) ∗ P ( λ2 ) = P ( λ1 + λ2 )
• Γ(α, ν) ∗ Γ(α, ν0 ) = Γ(α, ν + ν0 )
• Si X et Y sont des C(0, 1) indépendantes, X + 2 est aussi C(0, 1).
Y

15
5. Lemme de Borel-Cantelli
Notation. Soit ( An )n≥1 une suite d’événements. On note
\
+ ∞ [
def
lim sup An = An . = {ω ∈ Ω | ω ∈ An pour une infinité de n}
n→+∞ k =1 n ≥ k

[
+ ∞ \
def
lim inf An = An = {ω ∈ Ω | ω ∈ An à partir d’un certain rang}
n→+∞
k =1 n ≥ k

On a (lim sup An )c = lim inf( Acn ).


Théorème 29 (lemme de Borel-Cantelli)
Soit ( An )n≥1 une suite d’événements.

• Si ∑ P( An ) < +∞ alors P(lim sup An ) = 0.


n ≥1 n→+∞
• Si ∑ P( An ) = +∞ et si la famille ( An )n≥1 est indépendante alors P(lim sup An ) = 1.
n ≥1 n→+∞

Exemple. (le singe dactylographe de Borel) Soit m une suite de lettres de longueur L. Soit ( Xn )n≥1 une suite de v.a.
indépendantes de loi uniforme sur les caractères {c1 , . . . , c p }. Existe-t-il n ≥ 0 tel que Xn+1 · · · Xn+ L forment le mot m ?
Autrement dit, un singe qui tape au hasard sur une machine à écrire finira-t-il par écrire Hamlet ?

6. Loi du 0-1
Soit (Ω, F , P) un espace de probabilités et (Fn )n≥1 des sous-tribus de F .

On note σ (Fn , Fn+1 , . . .) la tribu engendrée par les tribus (Fk )k≥n , et on pose
\
F∞ = σ (Fn , Fn+1 , . . .) .
n ≥1

F ∞ est appelée tribu asymptotique.

Exemple. Soit ( Xn )n≥1 des v.a. réelles sur (Ω, F , P), et Fn = σ ( Xn ) = { X −1 ( B) ∈ F | B ∈ B(R)}.
L’idée est que les événements qui ne dépendent pas d’un nombre fini de Xi sont dans la tribu asymptotique. Si
A = {ω ∈ Ω | Xn (ω ) = 0 pour une infinité de n}, alors A ∈ F ∞ , car ω ∈ A ⇔ ∀ N, ∃n ≥ N, Xn (ω ) = 0 donc
\ [
A= Xn−1 ({0})
n≥ N n≥ N
| {z }
∈σ(F N ,F N +1 ,...)
| {z }
∈F ∞
 
X1 ( ω ) + · · · + X n ( ω )
B= ω ∈ Ω | lim existe ∈ F ∞.
n→+∞ n

Théorème 30 (loi du 0-1 de Kolmogorov)

Soit (Fn )n≥1 une famille de sous-tribus indépendantes. Alors pour tout événement A ∈ F ∞ , P( A) = 0 ou 1.

16
IV. Conditionnement

Dans tout le chapitre, on se place dans un espace de probabilités (Ω, F , P).


Dans tous les énoncés, l’unicité s’entend “à un ensemble de mesure nulle près”. Toutes les égalités ou
inégalités faisant intervenir des espérances conditionnelles sont à comprendre au sens presque sûr.

1. Définition de l’espérance conditionnelle


1.1. Pour des variables dans L1 (Ω, F , P)

Théorème-Définition 31

Soit G une sous tribu de F et X ∈ L1 (Ω, F , P). Il existe une unique variable aléatoire dans L1 (Ω, G , P)
(donc G -mesurable), notée EG ( X ) et appelée espérance conditionnelle de X sachant G , telle que

∀B ∈ G , E( X1 B ) = E( EG ( X )1 B ).

La relation ci-dessus est appelée propriété caractéristique de l’espérance conditionnelle.


On a plus généralement que pour toute v.a. Z G -mesurable bornée,

E( XZ ) = E( EG ( X ) Z ).

Si X ≥ 0, on a aussi EG ( X ) ≥ 0.

Dans le cas où la sous-tribu G est la tribu engendrée par une v.a. Y, notée σ (Y ), on notera l’espérance
conditionnelle correspondante Eσ(Y ) ( X ) ou EY ( X ).

Aparté 10 : tribu engendrée par une v.a.

Soit Y une variable aléatoire réelle définie sur (Ω, F , P). On note σ (Y ) la plus petite sous-tribu de F
qui rend Y mesurable.
On a alors
σ (Y ) = {Y −1 ( B); B ∈ B(Rd )}.
Soit Z est une variable aléatoire réelle définie (Ω, F , P). Z est σ (Y )-mesurable si et seulement si il
existe une fonction mesurable h : R → R telle que Z = h(Y ) (lemme de Doob).

La démonstration du Théorème-Définition ci-dessus utilise le résultat important de théorie de la


mesure suivant :

Théorème 32 (Radon-Nikodym)(Admis)

Soient µ et ν deux mesures de masse finie sur (Ω, F , P). On suppose que ν est absolument continue par
rapport à µ. Alors il existe une unique fonction h positive dans L1 (Ω, F , P) telle que
Z
∀A ∈ F , ν( A) = hdµ.
A

La fonction h est appelée dérivée de Radon-Nikodym (ou encore densité) de ν par rapport à µ.

17
1.2. Pour des variables positives

Théorème 33

Soit X une v.a. à valeurs dans [0, ∞].


La formule EG ( X ) := lim EG (inf( X, n)) (où la limite est croissante) définit une v.a. à valeurs dans [0, ∞] qui
n→∞
est caractérisée par la propriété suivante :

∀ Z G -mesurable positive, E( XZ ) = E( EG ( X ) Z ).

2. Propriétés de l’espérance conditionnelle

Proposition 34

On suppose que X et X 0 sont positives ou dans L1 (Ω, F , P).


1. (linéarité) Pour tout a, b ∈ R, EG ( aX + bX 0 ) = aEG ( X ) + bEG ( X 0 ).
2. Si X est G -mesurable, EG ( X ) = X.
3. (convergence monotone) Si ( Xn )n∈N est une suite croissante de v.a. positives et X la limite croissante
des Xn , alors
EG ( X ) = lim EG ( Xn ),
n→∞

où la limite est croissante.


4. (Fatou) Si ( Xn )n∈N est une suite de v.a. positives, alors

EG (lim inf Xn ) ≤ lim inf EG ( Xn ).


n→∞ n→∞

5. (convergence dominée) Soit ( Xn )n∈N une suite de v.a. intégrables qui converge p.s. vers X. Suppposons
qu’il existe une v.a. Z telle que ∀n, | Xn | ≤ Z p.s. et E( Z ) < ∞. Alors

EG ( X ) = lim EG ( Xn ), p.s. et dans L1 .


n→∞

6. Si X ∈ L1 (Ω, F , P), E( EG ( X )) = E( X ).
7. Si X ∈ L1 (Ω, F , P), | EG ( X )| ≤ EG (| X |) et donc E(| EG ( X )|) ≤ E(| X |).
8. (Jensen) Si f est une fonction convexe positive ou telle que f ( X ) ∈ L1 , alors

EG ( f ( X )) ≥ f ( EG ( X )).

9. Si Y est G -mesurable, avec X et Y positives ou bien X et XY dans L1 , alors

EG ( XY ) = YEG ( X ).

10. Si G1 et G2 sont deux sous-tribus de F telles que G1 ⊂ G2 , EG1 ( EG2 ( X )) = EG1 ( X ) = EG2 ( EG1 ( X )).

3. Espérance conditionnelle dans quelques cas particuliers


3.1. Cas particulier des variables de carré intégrable
On appelle L2 (Ω, G , P) le sous-espace fermé des éléments de L2 (Ω, F , P) dont au moins un
représentant est G -mesurable.

Théorème 35

Si X ∈ L2 (Ω, F , P), alors EG ( X ) est la projection orthogonale de X sur L2 (Ω, G , P), pour le produit
scalaire ( X, Y ) 7→ E( XY ).

18
3.2. Retour sur le conditionnement discret
Soit B un événement tel que P( B) > 0. On peut alors définir une nouvelle probabilité PB telle que

P( A ∩ B)
∀ A ∈ F , PB ( A) = .
P( B)

Pour toute variable aléatoire X positive ou dans L1 (Ω, F , P), on peut donc définir son espérance sous
PB , donnée par Z
EB ( X ) : = X (ω )dPB (ω ).

On peut vérifier que
E( X1 B )
EB ( X ) = .
P( B)
La plus petite tribu qui contient B est G = {∅, B, Bc , Ω}. On peut vérifier que EB ( X ) = EG ( X ).

De même, si Y est une v.a. discrète à valeurs dans E et E0 = {y ∈ E; P(Y = y) > 0}, alors on peut
E( X1Y =y )
vérifier que EY ( X ) = ϕ(Y ) où la fonction ϕ : E 7→ R vaut 0 sur E \ E0 et ϕ(y) = P (Y = y )
si y ∈ E0 .

3.3. Conditionnement gaussien

Aparté 11 : Vecteurs gaussiens

Soit C une matrice de taille d × d symétrique positive, à coefficients dans R. Un vecteur gaussien
centré de matrice de covariance C est un vecteur aléatoire X à valeurs dans Rd , dans L2 , dont la
fonction caractéristique est donnée par
!
i ht,X i 1 d
ϕ X ( t1 , . . . , t d ) = E ( e ) = exp − ∑ Cjk t j tk , ∀t = (t1 , . . . , td ) ∈ Rd .
2 j,k=1

On dit alors que X suit une loi N (0, C ). Cette notation est justifiée par le fait que son espérance est
nulle et sa matrice de covariance est C.

Pour toute matrice réelle symétrique, positive, il existe un vecteur gaussien centré de matrice de
covariance C, obtenu comme AY, où Y = (Y 1 , . . . , Y d ) un vecteur aléatoire dont
√ les coordonnées sont
des variables aléatoires réelles indépendantes, toutes de loi N (0, 1) et A = C.

Un vecteur aléatoire X à valeurs dans Rd est un vecteur gaussien centré si et seulement si toute
combinaison linéaire de ses coordonnées est une variable aléatoire (réelle) gaussienne centrée.

Soit X un vecteur aléatoire à valeurs dans Rd , de loi N (0, C ). Si C n’est pas inversible, la loi de X n’a
pas de densité par rapport à la mesure de Lebesgue sur Rd . Si C est inversible, la densité de la loi de
X est donnée par, ∀ x ∈ Rd
 
1 1 −
f X (x) = p exp − h x, C x i .1
(2π )d/2 det(C ) 2

Proposition 36

Soit ( X1 , . . . , Xm , Y1 , . . . , Yn ) un vecteur gaussien centré. Alors les vecteurs ( X1 , . . . , Xm ) et (Y1 , . . . , Yn )


sont indépendants si et seulement si, pour tout couple (i, j) avec i ∈ {1, . . . , m} et j ∈ {1, . . . , n},
cov( Xi , Yj ) = 0.

Pour les vecteurs gaussiens, les calculs d’espérance conditionnelle se ramènent à une projection ortho-
gonale, pour le produit scalaire ( X, Y ) 7→ E( XY )

19
Proposition 37

Soit (Y1 , . . . , Yn , X ) un vecteur gaussien centré. Alors l’espérance conditionnelle de X sachant (Y1 , . . . , Yn )
est donnée par
E[ X |Y1 , . . . , Yn ] = X̂,
où X̂ est la projection orthogonale de X sur l’espace vectoriel {∑nk=1 αk Yk ; αk ∈ R}.

4. Espérance conditionnelle et indépendance

Théorème 38

Deux sous-tribus G1 et G2 sont indépendantes si et seulement si pour toute v.a. G2 -mesurable positive ou
dans L1 (Ω, G2 , P), EG1 ( X ) = E( X ).

En particulier, si X et Y sont deux v.a. réelles, X et Y sont indépendantes si et seulement si pour toute
fonction h borélienne telle que E(|h( X )|) < ∞, EY (h( X )) = E(h( X )).

Théorème 39

Soient X et Y sont deux v.a. réelles. Supposons que X est indépendante de B et Y B -mesurable. Alors, pour
tout g : R × R → R+ , mesurable,
Z
EB ( g( X, Y )) = g( x, Y ) PX (dx ).

20
Partie 2. Les principaux théorèmes limites

Plan de la deuxième partie :

V. Les différents types de convergence pour les variables


aléatoires
VI. Lois des grands nombres
VII. Théorème central limite

V. Les différentes notions de convergence pour des v.a. réelles


[Barbe-Ledoux, Foata-Fuchs chap 16, Ouvrard 2]

Dans tout ce qui suit, ( Xn )n≥1 et X sont des v.a. définies sur un même espace de probabilités (Ω, F , P)
et à valeurs dans R.

1. Convergence presque sûre


On dit que la suite de v.a. ( Xn )n≥1 converge presque sûrement (p.s.) vers la v.a. X si
 
P lim Xn = X = 1.
n→+∞

Autrement dit, il existe un sous-ensemble Ω0 tel que P(Ω0 ) = 1 et ∀ω ∈ Ω0 , lim Xn (ω ) existe et vaut
n→+∞
X ( ω ).
p.s.
On note Xn −→ X.

Proposition 40 (un critère pour la convergence p.s.)


p.s.
1. Si ∀e > 0, ∑n≥1 P(| Xn − X | > e) < ∞, alors Xn −→ X.
p.s.
2. On suppose que les ( Xn )n≥1 sont indépendants. Alors Xn −→ 0 ssi ∀e > 0, ∑n≥1 P(| Xn | > e) < ∞.

Proposition 41 (une autre caractérisation de la convergence p.s.)

La suite ( Xn )n≥1 converge p.s. vers X ssi


!
∀e > 0, lim P sup | Xk − X | ≥ e = 0.
n→∞
k≥n

2. Convergence en probabilité
On dit que la suite ( Xn )n≥1 converge en probabilité vers la v.a. X si

∀ε > 0, lim P(| Xn − X | > ε) = 0.


n→+∞

P
On note Xn −→ X.

21
Proposition 42 (lien entre convergence p.s. et convergence en probabilité)
p.s. P
Si Xn −→ X alors Xn −→ X.

La réciproque est fausse en général.

Contre-exemple : convergence en proba mais pas p.s.

On définit ( An )n≥1 des sous-intervalles de [0, 1] de la façon suivante : pour k ≥ 0 et 0 ≤ j ≤ 2k − 1,


 
j j+1
A 2k + j = k , k .
2 2

Chacun des intervalles ( Ai )2k ≤i<2k+1 est de longueur 1/2k , et leur union vaut [0, 1].
On prend P la mesure de Lebesgue sur Ω = [0, 1] et on pose Xn = 1 An .
P
On peut vérifier que Xn −→ 0 mais ( Xn )n≥1 ne converge pas p.s. vers 0.

On a tout de même la réciproque partielle suivante :

Proposition 43
P
Si Xn −→ X alors il existe une sous-suite extraite ( Xnk )k≥1 qui converge p.s. vers X.

On a même un résultat plus fort :

Proposition 44
p.s.
Xn −→ X si et seulement si de toute sous-suite extraite ( Xnk )k≥1 on peut extraire une sous-suite qui converge
p.s. vers X.

On en déduit que la convergence en probabilité est stable par les opérations usuelles :

Proposition 45
P P P
On suppose Xn −→ X, Yn −→ Y et ϕ continue de R2 dans R alors ϕ( Xn , Yn ) −→ ϕ( X, Y ).
P P P
En particulier, si Xn −→ X, Yn −→ Y, alors pour touts réels α et β, αXn + βYn −→ αX + βY, ou encore
P
Xn Yn −→ XY, etc.

Soit L0 (Ω, F , P) l’ensemble des v.a. réelles sur (Ω, F , P), quotienté par la relation d’équivalence X ∼ Y
ssi X = Y p.s. Pour tous X, Y ∈ L0 (Ω, F , P), on définit d( X, Y ) = E(min(| X − Y |, 1)).

Proposition 46 (métrisabilité de la convergence en probabilité)

d est une distance sur L0 (Ω, F , P) et ( Xn )n≥1 converge en probabilité vers X ssi d( Xn , X ) converge vers 0.
On dit que d métrise la convergence en probabilité.

On peut même montrer que L0 (Ω, F , P) muni de la distance d est un espace métrique complet :

Proposition 47 (complétude de L0 (Ω, F , P))


Supposons que ( Xn )n≥1 vérifie le critère de Cauchy pour la distance d, i.e. ∀e > 0, ∃n0 , ∀n ≥ n0 ,
d( Xn , Xn0 ) ≤ e. Alors ( Xn )n≥1 converge en probabilité.

22
3. Convergences L p , p > 0
La suite de v.a. ( Xn )n≥1 converge dans L p vers la v.a. X si lim k Xn − X k p = 0, autrement dit
n→+∞

lim E(| Xn − X | p ) = 0.
n→+∞

Lp
On note Xn −→ X.

Les plus usitées sont les convergences L1 ou L2 .


0
Il est facile de vérifier par Jensen que s’il y a convergence L p , il y a convergence L p pour tout 0 < p0 < p.

Proposition 48 (lien avec la convergence en probabilité)

Lp P
Si Xn −→ X alors Xn −→ X.

La réciproque est fausse en général.

Pour établir une réciproque partielle, on rappelle la notion d’uniforme intégrabilité :

Une famille ( Xi )i∈ I de v.a. réelles, intégrables, est dite équiintégrable ou uniformément intégrable si
Z
lim sup | Xi |dP = 0.
c→∞ {| Xi |>c}
i∈ I

On rappelle quelques critères d’uniforme intégrabilité :


• une famille finie de v.a. intégrables est uniformément intégrable,
• si il existe une v.a. Y intégrable telle que, p.s. ∀i ∈ I, | Xi | ≤ Y, alors la famille ( Xi )i∈ I est uni-
formément intégrable,
• la famille ( Xi )i∈ I Rest uniformément intégrable ssi (supi∈ I E(| Xi |) < ∞ et ∀e > 0, ∃η > 0, ∀ A with
P( A) ≤ η, ∀i ∈ I, A | Xi |dP ≤ e.
aussi que si alors la famille ( Xi )i∈ I est uniformément intégrable.

Proposition 49 (lien entre les convergences L1 et en probabilité)

Soit ( Xn )n≥1 une suite de v.a. intégrables. Les deux propositions suivantes sont équivalentes :
P
1. Xn −→ X et la famille ( Xn )n≥1 est équiintégrable.
2. X est intégrable et limn→∞ k Xn − X k1 = 0.

Remarque : La convergence L p n’implique pas la convergence p.s., ni l’inverse.

Contre-exemple : convergence dans tous les L p , 0 < p < ∞ mais pas p.s.
Dans l’exemple donné aprés la Proposition 42, la suite ( Xn )n≥1 converge dans tous les L p , 0 < p < ∞
mais pas p.s.

Contre-exemple : convergence p.s. mais dans aucun L p , p > 0.


Soit (Yn )n≥1 une suite de v.a. indépendantes, telles que P(Yn = en ) = 1
n2
et P(Yn = 0) = 1 − 1
n2
. On
p.s.
peut vérifier que Yn −→ 0 mais il n’y a convergence dans aucun L p , p > 0.

23
4. Convergence en loi
On ne suppose plus nécessairement que les v.a. ( Xn )n≥1 sont définies sur le même espace de
probabilités. Ce mode de convergence correspond à la convergence étroite des lois des v.a. ( Xn )n≥1 .

4.1. Définition, caractérisation

Théorème 50 (définition et caractérisation de la convergence en loi)

Soient ( Xn )n≥1 et X des v.a. réelles. On dit que ( Xn )n≥1 converge en loi vers X si l’une de ces trois
conditions équivalentes est vérifiée :
1. ∀ ϕ : R → R continue bornée,
lim E( ϕ( Xn )) = E( ϕ( X )).
n→∞

2. En tout point de continuité t de FX , on a

lim FXn (t) = FX (t)


n→∞

3. Il existe un espace de probabilité (Ω0 , F 0 , P0 ) sur lequel sont définies des v.a. ( Xn0 )n≥1 et X 0 de même loi
p.s.
respectivement que ( Xn )n≥1 et X telles que Xn0 −→ X 0 .

L
On note alors Xn −→ X.

Aparté 8 : Convergences vague, faible, étroite de mesures

Soient (µn )n≥1 une suite de mesures sur R et µ une mesure sur R.
R R
1. Si pour toute fonction ϕ : R → R continue à support compact, ϕdµn → ϕdµ, on dit que la
suite (µn )n≥1 converge vaguement vers µ.
R R
2. Si pour toute fonction ϕ : R → R continue tendant vers zéro à l’infini, ϕdµn → ϕdµ, on dit
que la suite (µn )n≥1 converge faiblement vers µ.
R R
3. Si pour toute fonction ϕ : R → R continue bornée, ϕdµn → ϕdµ, on dit que la suite (µn )n≥1
converge étroitement vers µ.
Si (µn )n≥1 et µ sont des mesures de probabilités sur R, les trois notions coı̈ncident (mais attention
(δn )n≥1 converge faiblement mais pas étroitement vers la mesure nulle).

On a aussi la caract érisation suivante :

Théorème 51 (dit de Porte-Manteau)(Admis)

Soient ( Xn )n≥1 et X des v.a. réelles. Les assertions suivantes sont équivalentes :
L
1. Xn −→ X.
2. Pour tout ouvert G de R, lim infn→∞ PXn ( G ) ≥ PX ( G )
3. Pour tout fermé F de Rd , lim supn→∞ PXn ( F ) ≤ PX ( F )
4. Pour tout borélien B de Rd tel que PX (∂B) = 0, limn→∞ PXn ( B) = PX ( B).

Attention, pas d’opérations usuelles sur la convergence en loi.

24
4.2. Lien avec les autres modes de convergence

Proposition 52
p.s. L
Si Xn −→ X alors Xn −→ X.
P L
Si Xn −→ X alors Xn −→ X.

Les réciproques sont fausses


Exemple. Xn = (−1)n X avec X de loi N (0, 1) converge en loi mais ne converge pas en probabilité,
donc ne converge pas p.s.

On a cependant une réciproque partielle importante (très utilisée en statistiques) :

Proposition 53 (lemme de Slutsky)

Si Xn converge en loi vers une constante c alors Xn converge en probabilité vers c.


Par conséquent, si Xn converge en loi vers X et Yn vers c, alors ( Xn , Yn ) converge en loi vers ( X, c).

4.3. Convergence en loi pour des v.a. discrètes

Proposition 54
L
Soit ( Xn )n≥0 et X des v.a. à valeurs dans N. Alors Xn −→ X si et seulement si pour tout entier k ∈ N,

lim P( Xn = k) = P( X = k).
n→+∞

Une application importante est le résultat suivant :

Proposition 55
Soit ( Xn )n≥1 des v.a. de loi binomiale B(n, pn ).
Si lim npn = λ > 0 alors Xn converge en loi vers une v.a. de loi de Poisson P (λ).
n→+∞

Conséquence : approximation d’une binomiale par une loi de Poisson.


Il est d’usage de remplacer B(n, p) par P (np) quand p < 0, 1 et n est grand (par exemple n ≥ 100).

4.4. Une caractérisation très importante de la convergence en loi

Théorème 56 (Lévy)

Soient ( Xn )n≥1 et X des v.a. réelles.


L
1. Si Xn −→ X, alors lim ϕ Xn (t) = ϕ X (t) pour tout t ∈ R.
n→+∞
2. Si lim ϕ Xn (t) = ϕ(t) pour tout t ∈ R et ϕ est la fonction caractéristique d’une v.a. X, alors
n→+∞
L
Xn −→ X.

Il ne suffit pas d’avoir la convergence des fonctions ϕ Xn , il faut s’assurer que la limite est la fonction
caractéristique d’une certaine loi.
Une condition (admise) pour que ϕ soit la fonction caractéristique d’une v.a. est que ϕ soit une limite
de fonctions caractéristiques, continue en 0.

25
5. Résumé des liens entre les différents types de convergence
Sur le schéma ci-dessous, les flèches pleines indiquent les liens qui ont toujours lieu et les flèches en
pointillés indiquent les réciproquent partielles.

Lp , p>1 L1 Lp , 0<p<1

equiintegrabilite P loi

on
Slutsky

cti
tra
p.s.

ex
VI. Loi des grands nombres

On considère ( Xn )n≥1 une suite de v.a. toutes définies sur le même (Ω, F , P). On note
Sn = X1 + · · · + Xn , et on s’intéresse à la convergence de la suite Snn .

On dit que les v.a. ( Xn )n≥1 sont iid si elles sont indépendantes et de même loi.

1. Loi faible des grands nombres


On parle de loi faible lorsqu’il y a convergence en probabilité.

Théorème 57 (loi faible - v.a. L2 non corrélées)

Soit ( Xn )n≥1 une suite de v.a. réelles dans L2 , centrées, non corrélées deux à deux (c’est-à-dire Cov( Xi , X j ) = 0
si i 6= j).
S’il existe C tel que ∀n ≥ 1, Var( Xn ) ≤ C, alors Snn converge vers 0 en probabilité et dans L2 .

2. Lois fortes des grands nombres


[Ouvrard 2 chap 10]

On parle de loi forte des grands nombres lorsqu’il y a convergence p.s.

On peut renforcer le théorème précédent de la façon suivante :

Théorème 58 (loi forte - v.a. iid intégrables)

Soit ( Xn )n≥1 une suite de v.a. réelles, iid. Les deux conditions suivantes sont équivalentes :
1. E(| X1 |) < ∞
Sn p.s.
2. −→ E( X1 ).
n

26
On a l’interprétation suivante en termes de fréquence empirique (cf l’énoncé de la loi des grands
nombres dans les programmes de lycée) :

Proposition 59
Si ( An )n≥1 sont des événements indépendants de même probabilité, on a
n
1 p.s.
n ∑ 1 An −→ P( A1 ).
i =1

Pour montrer la loi forte ci-dessus, on a besoin de la version plus facile suivante :

Proposition 60 (loi forte - v.a. indépendantes, L4 )

Soit ( Xn )n≥1 une suite de v.a. réelles L4 , centrées, indépendantes. On suppose qu’il existe C tel que
∀n ≥ 1, E(( Xn )4 ) ≤ C. Alors Snn converge vers 0 p.s. et dans L4 .

On a aussi une version plus forte de la proposition précédente :

Théorème 61 (loi forte - indépendantes, L2 )(Admis)

Var( Xn )
Soit ( Xn )n≥1 une suite de v.a. réelles L2 , centrées, indépendantes. Supposons que ∑ n2
< +∞. Alors
n ≥1
Sn
n converge vers 0 p.s. et dans L2 .

3. Convergence de la fonction de répartition empirique


On énonce maintenant un prolongement important de la loi des grands nombres, particulièrement
utile en statistiques.

Soit ( Xn )n≥1 des v.a. réelles. La fonction de répartition empirique de X1 , . . . , Xn est :


n
1
Fn ( x, ω ) =
n ∑ 1]−∞,x] (Xk (ω )).
k =1

Théorème 62 (de Glivenko-Cantelli)

Si ( Xn )n≥1 est une suite de v.a. réelles iid et F la fonction de répartition commune des Xn , on a que pour
presque tout ω,
p.s.
sup | Fn ( x, ω ) − F ( x )| −→ 0
x ∈R

27
VII. Théorème Central Limite (TCL)

1. Enoncés
Soit ( Xn )n≥1 des v.a. L2 , indépendantes, de même loi, et Sn = X1 + · · · + Xn . Par la loi des grands
Sn ( ω )
nombres, Snn converge p.s. vers E( X1 ). Autrement dit, p.s. = E( X1 ) + o (1). Le théorème central
n
limite précise le o (1)

Théorème 63 (central limite (TCL))

Soit ( Xn )n≥1 des v.a. L2 , indépendantes, de même loi, et Sn = X1 + · · · + Xn . Alors

Sn − nE( X1 ) L
p −→ N (0, 1) quand n → +∞.
nVar( X1 )

Il est équivalent de dire que


 
√ Sn Sn − nE( X1 ) L
n − E ( X1 ) = √ −→ N (0, Var( X1 )).
n n

Une conséquence du théorème central limite est la suivante : pour tout a < b,
! Z b
Sn − nE( X1 ) 1
e−t /2 dt.
2
P a≤ p ≤ b −→ √
nVar( X1 ) 2π a

Le théorème de de Moivre (historiquement plus ancien) est le TCL pour des lois de Bernoulli.

Théorème 64 (de de Moivre)

Si Sn suit une loi B(n, p) alors


! Z b
Sn − np 1
e−t
2 /2
P a≤ p ≤b −→ √ dt.
np(1 − p) 2π a

S −np
Il est d’usage d’approcher √ n par N (0, 1) dès que np(1 − p) > 10. La convergence est plus
np(1− p)
rapide si p est proche de 1/2. Attention à la correction de continuité !

On a aussi le résultat suivant :

Théorème 65 (TCL poissonien)

Pour tout λ > 0, soit Xλ une v.a. de loi de Poisson P (λ). Alors

Xλ − λ loi
√ −→ N (0, 1) quand λ → +∞.
λ

28

Vous aimerez peut-être aussi