Resume - Cours Probabilite
Resume - Cours Probabilite
Résumé de cours
Préambule : Comme son titre l’indique, ce document ne constitue pas un polycopié de cours qui se suffit à lui-même
mais un résumé de cours. Ainsi, il contient les définitions de tous les objets qui ont été introduits dans le cours mais
pas tous les exemples qui ont été développés pendant les séances; il contient un ensemble de théorèmes et
propositions qui ont été vus (en cours ou en TD) mais pas leur démonstration. Il constitue pour vous un bilan de ce
qu’il faut savoir en probabilités à l’issue de ce cours de tronc commun.
Pour le partiel comme pour l’examen, vous aurez le droit de consulter librement votre exemplaire non annoté de ce
document à l’exclusion de tout autre document personnel. A l’exception des énoncés ou paragraphes précédés de la
mention (Admis), je considère que vous devez savoir démontrer l’ensemble des résultats de ce document, même si la
démonstration n’a pas été faite en cours parce qu’elle est considérée comme un prérequis (par exemple de théorie
de la mesure).
1. Triplet probabiliste
Ici, modéliser signifie associer à une expérience aléatoire (qui n’est pas un objet mathématique) un
espace de probabilité (ou triplet probabiliste), c’est-à-dire un triplet (Ω, F , P), où
• Ω est un ensemble (qui code l’ensemble des résultats possibles de l’expérience)
• F est une tribu (ou σ-algèbre)
• et P est une mesure de probabilité.
On rappelle qu’une algèbre sur Ω est un ensemble de parties de Ω qui contient Ω, stable par
complémentaire et réunion finie ; une tribu (ou σ-algèbre) sur Ω est un ensemble de parties de Ω qui
contient Ω, stable par complémentaire et réunion dénombrable.
Une mesure (ou mesure positive) µ sur (Ω, F ) est une application de F dans R+ ∪ {+∞} telle que
µ(∅) = 0 et µ est σ-additive (c’est-à-dire que si ( An )n∈N est ue famille dénombrable d’événements
disjoints, P(∪n∈N An ) = ∑n∈N P( An )).
Une (mesure de) probabilité P est une mesure telle que P(Ω) = 1.
1
3. (Continuité par limite monotone) Si ( An )n∈N est une suite croissante ou décroissante d’événements,
P(lim An ) = lim P( An ),
avec la convention que lim An = ∪n∈N An si la suite est croissante et lim An = ∩n∈N An si la suite est
décroissante.
4. P(∪n∈N An ) ≤ ∑n∈N P( An )
5. P( A ∪ B) = P( A) + P( B) − P( A ∪ B)
6. (Formule du crible ou de Poincaré)
!
[
n n \
k
P Ai = ∑ (−1)k−1 ∑ P Ai j .
i =1 k =1 1≤i1 <...<in ≤n j =1
Aparté 1 : dénombrabilité
On dit qu’un ensemble E est dénombrable s’il existe une injection de E dans l’ensemble N des entiers
naturels 1 .
Exemples d’ensembles dénombrables : N, Z, Q, l’ensemble des suites finies de 0 et de 1, les ensembles
finis.
Une union dénombrable d’ensembles dénombrable est encore dénombrable.
L’ensemble R des nombres réels n’est pas dénombrable. Plus généralement, un produit dénombrable
d’ensembles finis n’est pas dénombrable.
En pratique, les cas les plus courants que vous rencontrerez seront de l’un des types suivants :
• Ω dénombrable, F est l’ensemble des parties de Ω, notée P (Ω), P donnée par son germe
Un germe de probabilité est une famille dénombrable de réels positifs ou nuls ( pi )i≥1 avec
∑i≥1 pi = 1.
Si Ω est dénombrable, ( P({ xi }))i≥1 est un germe de probabilité qui détermine P de manière unique.
Cas particulier : Ω fini, P uniforme. Dans ce cas, la probabilité d’un événement se calcule en divisant
le “nombre de cas favorables” par le “nombre de cas possibles”, c’est-à-dire en divisant la cardinal de
l’événement par le cardinal de Ω). Il faut donc savoir dénombrer.
2
• Ω = Rn , F tribu borélienne, P absolument continue par rapport à Lebesgue (cas particulier :
probabilité uniforme sur un intervalle)
Rappel : on dit qu’une mesure de probabilité Q est absolument continue par rapport à une autre P ssi
∀ A ∈ F , P( A) = 0 ⇒ Q( A) = 0.
Si P et Q sont deux mesures de probabilité telles Rque Q est absolument continue par rapport à P, il existe
une fonction h ∈ L1 ( P) telle que ∀ A ∈ F , Q( A) = A f dP. On appelle h la densité de Q par rapport à P.
Sur Rd muni de sa tribu borélienne, on peut définir une mesure λd , appelée mesure de Lebesgue sur
Rd , ayant les propriété suivantes :
• sur les pavés, elle coı̈ncide avec la mesure du volume
• elle est invariante par toute isométrie euclidienne
• elle ne charge pas les points ni aucun sous-espace affine strict de Rd
• elle est homogène de degré d (c’est-à-dire que pour tout borélien B de Rd et a ∈ R, on a
λd ( aB) = | a|d λd ( B).
Si X est une variable aléatoire de (Ω, F ) dans ( E, G), la loi de X, notée PX est la mesure-image de P par
X, c’est-à-dire la mesure de probabilité sur ( E, G) définie par :
def
∀ B ∈ G , PX ( B) = P( X ∈ B)
= P({ω ∈ Ω | X (ω ) ∈ B})
En pratique, les lois des v.a. réelles que vous rencontrerez, seront pour la plupart discrètes ou à densité.
Une probabilité Q est dite discrète si elle s’écrit comme combinaison linéaire dénombrable de masses
de Dirac :
Q = ∑ pi δxi , où I est dénombrable, pi ≥ 0 et ∑i∈ I pi = 1.
i∈ I
Une v.a. est dite discrète si sa loi est une mesure de probabilité discrète. Autrement dit, ssi X prend
(p.s.) ses valeurs dans un ensemble dénombrable.
3
2.3. Lois à densité (par rapport à Lebesque)
Une probabilité Q définie sur R munie de sa tribu borélienne, est dite à densité si et seulement si
elle est absolument continue par rapport à la mesure de Lebesgue.
Si X est une v.a. à densité, alors P( X = a) = 0 pour tout a ∈ R (X n’a pas d’atome).
Théorème 3 (Admis).
Toute mesure de probabilité P sur R se décompose de manière unique comme P = αP1 + βP2 + γP3 , avec
P1 probabilité discrète, P2 à densité par rapport à la mesure de Lebesque λ et P3 singulière sans atome.
L’espérance est un cas particulier d’intégrale par rapport à une mesure positive. Par conséquent :
Proposition 4
Propriétés :
4
On utilise très souvent la formule de transfert pour le calcul des moments.
Proposition 5
(p = q = 2 : Cauchy-Schwarz)
• p 7→ ( E(| X | p )1/p croissante
• Pour p ≥ 1, ( E(| · | p )1/p est une norme [l’inégalité triangulaire donne Minkowski].
Proposition 7
E( X + ) E(| X |)
P( X > t) ≤ ≤ .
t t
• (Inégalité de Bienaymé-Tchebichev) Si X ∈ L2 , pour tout t > 0,
Var( X )
P(| X − E( X )| ≥ t) ≤ .
t2
P ( X ≥ t ) ≤ e− I (t) ,
5
II. Des outils pour déterminer la loi d’une v.a. réelle
L’idée générale est que si on connaı̂t E( ϕ( X )) pour un ensemble suffisant T de fonctions-tests, cela va
caractériser la loi de X.
1. Fonction de répartition
[Foata-Fuchs p 48 sq]
Dans ce cas, T est l’ensemble des fonctions de la forme 1]−∞,t] pour t ∈ R.
Soit X une v.a. réelle. La fonction de répartition de X est la fonction FX : R → [0, 1] définie par
def
∀t ∈ R, FX (t) = P( X ≤ t).
Propriétés immédiates.
Théorème 8
Proposition 9
• ∀ a ∈ R, FX est continue à droite de a et FX ( a−) := lim FX (t) existe et vaut P( X < a). Elle est donc
t↑ a
càdlàg.
Exemple.
Z t
Si PX = E (λ), alors FX (t) = 0 si t ≤ 0 et FX (t) = λe−λx dx = 1 − e−λt si t ≥ 0.
0
Les seules variables aléatoires à valeurs dans R+ qui ont la propriété d’être sans mémoire, c’est-à-dire
qui vérifient
∀s, t > 0, P( X > t + s) = P( X > s) P( X > t),
sont les v.a. de lois exponentielles (de paramètre λ > 0).
Les seules variables aléatoires à valeurs dans N∗ qui ont la propriété d’être sans mémoire, c’est-à-dire
qui vérifient
∀n, m ∈ N∗ , P( X > n + m) = P( X > m) P( X > n),
sont les v.a. de lois géométriques (de paramètre p ∈]0, 1[).
6
Si X est une v.a. discrète, la fonction de répartition est en escaliers, les marches sont aux valeurs prises
par X, la hauteur de la marche en xi est P( xi ).
2. Théorème de transfert
Dans ce cas, T est l’ensemble des fonctions continues bornées.
Théorème 11
Soient X et Y des v.a. réelles de lois respectives PX et PY .
On a PX = PY ssi pour toute fonction ϕ continue bornée, E( ϕ( X )) = E( ϕ(Y )).
3. Fonction caractéristique
Dans ce cas, T est l’ensemble des fonctions de la forme x 7→ eitx pour t ∈ R.
Soit X une v.a. réelle. La fonction caractéristique de X est la fonction ϕ X : R → C telle que ∀t ∈ R,
Z Z
eitX (ω ) dP(ω ) =
def
ϕ X (t) = E(eitX ) = eitx dPX ( x ).
Ω R
Exemple. La fonction caractéristique de la loi N (0, 1) est donnée par ϕ(t) = e−t
2 /2
, ∀t ∈ R.
Théorème 12 (Théorème de Lévy)
Soit X et Y des v.a. réelles de lois respectives PX et PY . Alors PX = PY si et seulement si ϕ X = ϕY .
On peut retrouver les moments d’une v.a. à partir des dérivées en zéro de sa fonction caractéristique.
Proposition 13
Soit X une v.a. réelle. Si X ∈ Ln alors ϕ X est n fois dérivable et
(k )
∀1 ≤ k ≤ n, ϕ X (0) = ik E( X k ).
4. Fonction génératrice
[Ouvrard 1 p138, Foata-Fuchs chap 9]
Dans ce cas, T est l’ensemble des fonctions de la forme x 7→ t x pour t ∈ [−1, 1].
NB : un peu moins usitée que les précédentes et restreinte aux v.a. à valeurs dans N.
Soit X une v.a. à valeurs dans N et pn = P( X = n). La fonction génératrice de X est définie par
+∞
∑
def
GX ( x ) = p n x n = E ( t X ).
n =0
7
Proposition 14
Soit X une v.a. à valeurs dans N. Sa fonction génératrice GX est bien définie et continue sur [−1, 1],
C ∞ sur ] − 1, 1[.
De plus, pour tout r ∈ N∗ , X ∈ Lr si et seulement si GX (1− ) := lims↑1 GX (s) existe et dans ce cas, on a
(r ) (r )
E( X ( X − 1) . . . ( X − r + 1)) = GX (1− ).
(r )
Théorème 15
Soit X et Y deux v.a. à valeurs dans N. Alors
PX = PY ⇐⇒ GX = GY sur un voisinage de 0.
Exemple.
Soit X une v.a. de loi de Poisson P (λ).
On a GX ( x ) = eλ( x−1) . GX
0 ( x ) = λeλ( x −1) et G 0 (1) = λ. Donc E ( X ) = λ.
X
Théorème 16
Soient X et Y deux v.a. réelles de loi respectives PX et PY . Alors si l’une des conditions suivantes est vérifiée
• FX = FY
• (Théorème de Lévy) ϕ X = ϕY
La loi PX de X est une mesure sur Rn , on l’appelle parfois loi jointe de ( X1 , . . . , Xn ). La loi de la v.a.
Xi est appelée ième marginale de la loi de X.
Si la loi PX s’écrit comme une somme dénombrable de masses de Dirac, on dit encore que PX est
discrète.
S’il existe une fonction f : Rn → R mesurable positive telle que pour tout B borélien de Rn , on a
Z
PX ( B) = f ( x1 , . . . , xn )dx1 . . . dxn ,
Rn
8
Si chacune des coordonnées Xi est dans L2 (Ω, F , P), on peut définir la matrice D, de taille n × n,
telle que Dii = Var ( Xi ) pour tout 1 ≤ i ≤ n et Dij = cov( Xi , X j ), pour tout i 6= j. Cette matrice est
appelée matrice de variance-covariance ou simplement matrice de covariance de X. Elle est positive 2
et symétrique.
6.2. Extension des outils déjà connus pour déterminer la loi d’un vecteur aléatoire
On peut définir la fonction de répartition de X : pour tout t = (t1 , . . . , tn ) ∈ Rn ,
FX (t1 , . . . , tn ) := P( X1 ≤ t1 , . . . , Xn ≤ tn ).
Elle caractérise la loi PX mais est beaucoup moins usitée que dans le cas réel.
On utilise plutôt l’extension du théorème de transfert suivante : soient X et Y deux vecteurs aléatoires
de Rn . Si pour toute fonction continue bornée ϕ de Rn dans R, E( ϕ( X )) = E( ϕ(Y )) alors PX = PY .
On peut aussi définir la fonction caractéristique, qui est une fonction à n variables donnée par
Théorème 17 (Admis)
avec ∂h
1 ∂h1
∂x1 ... ∂xn
. ..
Jac h( x1 , . . . , xn ) := det
..
..
.
. .
∂hn ∂hn
∂x1 ... ∂xn
1
|Jac h−1 (y1 , . . . , yn )| = .
|Jac h(h−1 (y1 , . . . , yn ))|
2. Une matrice M est dite positive (on dit aussi semi-définie positive) ssi pour tout vecteur x, on a x t Mx ≥ 0.
9
Appendice 1 : Algèbre, tribu, classe monotone, un bref rappel
Ω donné
On sait que
• Une intersection quelconque d’algèbres est une algèbre. Une intersection quelconque de tribus
est une tribu. Une intersection quelconque de classes monotones est une classe monotone.
On peut donc définir la notion d’algèbre (respectivement tribu, classe monotone) engendrée.
• Une union croissante de tribus est une algèbre.
• Une tribu est une classe monotone.
• Une classe monotone stable par intersection finie est une tribu.
Si E est une partie de P (Ω) stable par intersection finie, alors la classe monotone engendrée par E , notée
M(E ) coı̈ncide avec σ(E ) la tribu engendrée par E .
Remarque. On utilise souvent ce résultat sous la forme suivante : Si M est une classe monotone contenant E , elle contient
σ (E ).
Si µ est une fonction additive, positive, définie sur une algèbre C de parties de Ω avec µ(Ω) < ∞, elle se
prolonge de façon unique en une mesure sur (Ω, σ(C)).
10
Appendice 2 : Vade-mecum sur les lois usuelles pour des variables
aléatoires réelles
N
1
PX =
N ∑ δxi , ce que l’on peut noter X ∼ U ({ x1 , . . . , x N }).
i =1
n ( Nkp)( N (n1−−kp))
PX = ∑ ( Nn )
δk , ce que l’on peut noter X ∼ H(n, N, p).
k =0
N−n
E( X ) = np, Var( X ) = np(1 − p) .
N−1
Exemple : nombre de boules rouges obtenues au bout de 5 tirages sans remise dans une urne contenant
10 boules rouges et 20 boules blanches.
11
• Loi géométrique de paramètre p, avec 0 < p < 1.
X prend ses valeurs dans N∗ et P( X = k) = p(1 − p)k−1 pour k ≥ 1. On a
∞
PX = ∑ p(1 − p)k−1 δk , ce que l’on peut noter X ∼ G( p).
k =1
1 pt
E( X ) = 1/p, Var( X ) = (1 − p)/p2 , ∀t ∈ R, tel que |t| < , GX ( t ) = .
1− p 1 − (1 − p ) t
λk
PX = ∑ e−λ δ , ce que l’on peut noter X ∼ P (λ).
k ∈N
k! k
(b− a)t
a+b sin( 2 )
E( X ) = ( a + b)/2, Var( X ) = (b − a)2 /12, ∀t ∈ R, ϕ X (t) = eit 2
(b− a)t
.
2
λ
E( X ) = 1/λ, Var( X ) = 1/λ2 , ∀t ∈ R, ϕ X (t) = .
it − λ
12
Partie 2. Indépendance et conditionnement
1. Indépendance d’événements
Soit (Ω, F , P) un espace de probabilités.
Deux événements A, B sont dits indépendants si P( A ∩ B) = P( A) P( B). On note A⊥ B.
La famille d’événements ( Ai )i∈ I est dite indépendante (on dit parfois mutuellement indépendante) si
pour tout sous-ensemble fini {i1 , . . . , in } de I,
!
\
n n
P Aik = ∏ P ( A i k ).
k =1 k =1
Contre-exemple.
Soit Ω = {1, . . . , 4} et P la probabilité uniforme.
Soit A = {1, 2}, B = {1, 3}, C = {1, 4}.
On a P( A) = P( B) = P(C ) = 1/2. P( A ∩ B) = P({1}) = 1/4 = P( A) P( B) donc A⊥ B. De même, A⊥C et B⊥C,
autrement dit A, B, C sont 2 à 2 indépendants. P( A ∩ B ∩ C ) = P({1}) = 1/4 6= P( A) P( B) P(C )
donc A, B, C ne sont pas indépendants.
2. Indépendance de sous-tribus
Une famille de sous-tribus (ou d’algèbres) (Fi )i∈ I (avec Fi ⊂ F ) est dite indépendante si toute
famille d’événements ( Ai ∈ Fi )i∈ I est indépendante.
Proposition 20
Si C1 et C2 sont deux sous-algèbres indépendantes, alors σ (C1 ) et σ (C2 ) sont deux sous-tribus indépendantes.
Soit (Fi )i∈ I une famille indépendante de sous-tribus d’une tribu F . Soit ( J` )`∈ L une partition arbitraire de I.
La famille de tribus (σ (Fi , i ∈ J` ))`∈ L est une famille indépendante.
13
3. Notion de mesure-produit
3.1. Définition
Théorème 22 (Admis)
Soit µ une mesure de probabilité sur (Ω, F ) et ν une mesure de probabilité sur (Ω0 , F 0 ). F ⊗ F 0 est la tribu
de Ω × Ω0 engendrée par les pavés, c’est-à-dire les ensembles A × B avec A ∈ F , B ∈ F 0 .
Pour tous A ∈ F , B ∈ F 0 , on définit
π ( A × B ) = µ ( A ) ν ( B ).
Alors π s’étend de façon unique en une mesure de probabilité sur (Ω × Ω0 , F ⊗ F 0 ). On note cette mesure
µ ⊗ ν et on l’appelle mesure-produit de µ par ν.
3.2. Fubini
Soient (Ω, F , µ) et (Ω0 , F 0 , ν) deux espaces de probabilités. On munit Ω × Ω0 de la tribu produit
F ⊗ F 0.
Théorème 23 (Fubini-Tonelli, Fubini)
Soit f une fonction à valeurs réelles, définie sur Ω × Ω0 , F ⊗ F 0 -mesurable et µ ⊗ ν-intégrable ou positive.
Alors on a
Z Z Z Z Z
f d(µ ⊗ ν) = f (ω, ω 0 )dν(ω 0 ) dµ(ω ) = f (ω, ω 0 )dµ(ω ) dν(ω 0 ).
Ω Ω0 Ω0 Ω
La famille de v.a. ( Xi )i∈ I est indépendante si et seulement si la famille de tribus ( Xi−1 (Gi ))i∈ I est
indépendante ; autrement dit, si pour tout sous-ensemble fini {i1 , . . . , in } de I et A j ∈ Gi j ,
n
P Xi k ∈ A k , 1 ≤ k ≤ n = ∏ P ( Xi k ∈ A k ) .
k =1
Remarque. Les Xi doivent être définis sur le même espace Ω sinon l’expression de gauche n’a pas de
sens.
14
4.3. Indépendance et corrélation
Deux v.a. réelles X, Y sont dites non corrélées si Cov( X, Y ) := E( XY ) − E( X ) E(Y ) = 0.
Conséquence : Si X et Y sont deux v.a. réelles non corrélées, alors Var( X + Y ) = Var( X ) + Var(Y ).
Proposition 26
Soit X, Y des v.a. réelles intégrables indépendantes. Alors XY est intégrable et E( XY ) = E( X ) E(Y ). Autre-
ment dit, deux variables indépendantes sont non-corrélées.
On vérifie facilement que l’opération ∗ est commutative, associative, distributive par rapport à l’ad-
dition.
Proposition 27
Lois discrètes. Pour le calcul des convolutions discrètes, le point crucial est
δa ∗ δb = δa+b
Les fonctions caractéristiques sont souvent d’une grande aide pour le calcul de produit de convolu-
tion, pour la raison suivante :
Proposition 28
ϕ X +Y ( t ) = ϕ X ( t ) ϕ Y ( t ) .
15
5. Lemme de Borel-Cantelli
Notation. Soit ( An )n≥1 une suite d’événements. On note
\
+ ∞ [
def
lim sup An = An . = {ω ∈ Ω | ω ∈ An pour une infinité de n}
n→+∞ k =1 n ≥ k
[
+ ∞ \
def
lim inf An = An = {ω ∈ Ω | ω ∈ An à partir d’un certain rang}
n→+∞
k =1 n ≥ k
Exemple. (le singe dactylographe de Borel) Soit m une suite de lettres de longueur L. Soit ( Xn )n≥1 une suite de v.a.
indépendantes de loi uniforme sur les caractères {c1 , . . . , c p }. Existe-t-il n ≥ 0 tel que Xn+1 · · · Xn+ L forment le mot m ?
Autrement dit, un singe qui tape au hasard sur une machine à écrire finira-t-il par écrire Hamlet ?
6. Loi du 0-1
Soit (Ω, F , P) un espace de probabilités et (Fn )n≥1 des sous-tribus de F .
On note σ (Fn , Fn+1 , . . .) la tribu engendrée par les tribus (Fk )k≥n , et on pose
\
F∞ = σ (Fn , Fn+1 , . . .) .
n ≥1
Exemple. Soit ( Xn )n≥1 des v.a. réelles sur (Ω, F , P), et Fn = σ ( Xn ) = { X −1 ( B) ∈ F | B ∈ B(R)}.
L’idée est que les événements qui ne dépendent pas d’un nombre fini de Xi sont dans la tribu asymptotique. Si
A = {ω ∈ Ω | Xn (ω ) = 0 pour une infinité de n}, alors A ∈ F ∞ , car ω ∈ A ⇔ ∀ N, ∃n ≥ N, Xn (ω ) = 0 donc
\ [
A= Xn−1 ({0})
n≥ N n≥ N
| {z }
∈σ(F N ,F N +1 ,...)
| {z }
∈F ∞
X1 ( ω ) + · · · + X n ( ω )
B= ω ∈ Ω | lim existe ∈ F ∞.
n→+∞ n
Soit (Fn )n≥1 une famille de sous-tribus indépendantes. Alors pour tout événement A ∈ F ∞ , P( A) = 0 ou 1.
16
IV. Conditionnement
Théorème-Définition 31
Soit G une sous tribu de F et X ∈ L1 (Ω, F , P). Il existe une unique variable aléatoire dans L1 (Ω, G , P)
(donc G -mesurable), notée EG ( X ) et appelée espérance conditionnelle de X sachant G , telle que
∀B ∈ G , E( X1 B ) = E( EG ( X )1 B ).
E( XZ ) = E( EG ( X ) Z ).
Si X ≥ 0, on a aussi EG ( X ) ≥ 0.
Dans le cas où la sous-tribu G est la tribu engendrée par une v.a. Y, notée σ (Y ), on notera l’espérance
conditionnelle correspondante Eσ(Y ) ( X ) ou EY ( X ).
Soit Y une variable aléatoire réelle définie sur (Ω, F , P). On note σ (Y ) la plus petite sous-tribu de F
qui rend Y mesurable.
On a alors
σ (Y ) = {Y −1 ( B); B ∈ B(Rd )}.
Soit Z est une variable aléatoire réelle définie (Ω, F , P). Z est σ (Y )-mesurable si et seulement si il
existe une fonction mesurable h : R → R telle que Z = h(Y ) (lemme de Doob).
Théorème 32 (Radon-Nikodym)(Admis)
Soient µ et ν deux mesures de masse finie sur (Ω, F , P). On suppose que ν est absolument continue par
rapport à µ. Alors il existe une unique fonction h positive dans L1 (Ω, F , P) telle que
Z
∀A ∈ F , ν( A) = hdµ.
A
La fonction h est appelée dérivée de Radon-Nikodym (ou encore densité) de ν par rapport à µ.
17
1.2. Pour des variables positives
Théorème 33
∀ Z G -mesurable positive, E( XZ ) = E( EG ( X ) Z ).
Proposition 34
5. (convergence dominée) Soit ( Xn )n∈N une suite de v.a. intégrables qui converge p.s. vers X. Suppposons
qu’il existe une v.a. Z telle que ∀n, | Xn | ≤ Z p.s. et E( Z ) < ∞. Alors
6. Si X ∈ L1 (Ω, F , P), E( EG ( X )) = E( X ).
7. Si X ∈ L1 (Ω, F , P), | EG ( X )| ≤ EG (| X |) et donc E(| EG ( X )|) ≤ E(| X |).
8. (Jensen) Si f est une fonction convexe positive ou telle que f ( X ) ∈ L1 , alors
EG ( f ( X )) ≥ f ( EG ( X )).
EG ( XY ) = YEG ( X ).
10. Si G1 et G2 sont deux sous-tribus de F telles que G1 ⊂ G2 , EG1 ( EG2 ( X )) = EG1 ( X ) = EG2 ( EG1 ( X )).
Théorème 35
Si X ∈ L2 (Ω, F , P), alors EG ( X ) est la projection orthogonale de X sur L2 (Ω, G , P), pour le produit
scalaire ( X, Y ) 7→ E( XY ).
18
3.2. Retour sur le conditionnement discret
Soit B un événement tel que P( B) > 0. On peut alors définir une nouvelle probabilité PB telle que
P( A ∩ B)
∀ A ∈ F , PB ( A) = .
P( B)
Pour toute variable aléatoire X positive ou dans L1 (Ω, F , P), on peut donc définir son espérance sous
PB , donnée par Z
EB ( X ) : = X (ω )dPB (ω ).
Ω
On peut vérifier que
E( X1 B )
EB ( X ) = .
P( B)
La plus petite tribu qui contient B est G = {∅, B, Bc , Ω}. On peut vérifier que EB ( X ) = EG ( X ).
De même, si Y est une v.a. discrète à valeurs dans E et E0 = {y ∈ E; P(Y = y) > 0}, alors on peut
E( X1Y =y )
vérifier que EY ( X ) = ϕ(Y ) où la fonction ϕ : E 7→ R vaut 0 sur E \ E0 et ϕ(y) = P (Y = y )
si y ∈ E0 .
Soit C une matrice de taille d × d symétrique positive, à coefficients dans R. Un vecteur gaussien
centré de matrice de covariance C est un vecteur aléatoire X à valeurs dans Rd , dans L2 , dont la
fonction caractéristique est donnée par
!
i ht,X i 1 d
ϕ X ( t1 , . . . , t d ) = E ( e ) = exp − ∑ Cjk t j tk , ∀t = (t1 , . . . , td ) ∈ Rd .
2 j,k=1
On dit alors que X suit une loi N (0, C ). Cette notation est justifiée par le fait que son espérance est
nulle et sa matrice de covariance est C.
Pour toute matrice réelle symétrique, positive, il existe un vecteur gaussien centré de matrice de
covariance C, obtenu comme AY, où Y = (Y 1 , . . . , Y d ) un vecteur aléatoire dont
√ les coordonnées sont
des variables aléatoires réelles indépendantes, toutes de loi N (0, 1) et A = C.
Un vecteur aléatoire X à valeurs dans Rd est un vecteur gaussien centré si et seulement si toute
combinaison linéaire de ses coordonnées est une variable aléatoire (réelle) gaussienne centrée.
Soit X un vecteur aléatoire à valeurs dans Rd , de loi N (0, C ). Si C n’est pas inversible, la loi de X n’a
pas de densité par rapport à la mesure de Lebesgue sur Rd . Si C est inversible, la densité de la loi de
X est donnée par, ∀ x ∈ Rd
1 1 −
f X (x) = p exp − h x, C x i .1
(2π )d/2 det(C ) 2
Proposition 36
Pour les vecteurs gaussiens, les calculs d’espérance conditionnelle se ramènent à une projection ortho-
gonale, pour le produit scalaire ( X, Y ) 7→ E( XY )
19
Proposition 37
Soit (Y1 , . . . , Yn , X ) un vecteur gaussien centré. Alors l’espérance conditionnelle de X sachant (Y1 , . . . , Yn )
est donnée par
E[ X |Y1 , . . . , Yn ] = X̂,
où X̂ est la projection orthogonale de X sur l’espace vectoriel {∑nk=1 αk Yk ; αk ∈ R}.
Théorème 38
Deux sous-tribus G1 et G2 sont indépendantes si et seulement si pour toute v.a. G2 -mesurable positive ou
dans L1 (Ω, G2 , P), EG1 ( X ) = E( X ).
En particulier, si X et Y sont deux v.a. réelles, X et Y sont indépendantes si et seulement si pour toute
fonction h borélienne telle que E(|h( X )|) < ∞, EY (h( X )) = E(h( X )).
Théorème 39
Soient X et Y sont deux v.a. réelles. Supposons que X est indépendante de B et Y B -mesurable. Alors, pour
tout g : R × R → R+ , mesurable,
Z
EB ( g( X, Y )) = g( x, Y ) PX (dx ).
20
Partie 2. Les principaux théorèmes limites
Dans tout ce qui suit, ( Xn )n≥1 et X sont des v.a. définies sur un même espace de probabilités (Ω, F , P)
et à valeurs dans R.
Autrement dit, il existe un sous-ensemble Ω0 tel que P(Ω0 ) = 1 et ∀ω ∈ Ω0 , lim Xn (ω ) existe et vaut
n→+∞
X ( ω ).
p.s.
On note Xn −→ X.
2. Convergence en probabilité
On dit que la suite ( Xn )n≥1 converge en probabilité vers la v.a. X si
P
On note Xn −→ X.
21
Proposition 42 (lien entre convergence p.s. et convergence en probabilité)
p.s. P
Si Xn −→ X alors Xn −→ X.
Chacun des intervalles ( Ai )2k ≤i<2k+1 est de longueur 1/2k , et leur union vaut [0, 1].
On prend P la mesure de Lebesgue sur Ω = [0, 1] et on pose Xn = 1 An .
P
On peut vérifier que Xn −→ 0 mais ( Xn )n≥1 ne converge pas p.s. vers 0.
Proposition 43
P
Si Xn −→ X alors il existe une sous-suite extraite ( Xnk )k≥1 qui converge p.s. vers X.
Proposition 44
p.s.
Xn −→ X si et seulement si de toute sous-suite extraite ( Xnk )k≥1 on peut extraire une sous-suite qui converge
p.s. vers X.
On en déduit que la convergence en probabilité est stable par les opérations usuelles :
Proposition 45
P P P
On suppose Xn −→ X, Yn −→ Y et ϕ continue de R2 dans R alors ϕ( Xn , Yn ) −→ ϕ( X, Y ).
P P P
En particulier, si Xn −→ X, Yn −→ Y, alors pour touts réels α et β, αXn + βYn −→ αX + βY, ou encore
P
Xn Yn −→ XY, etc.
Soit L0 (Ω, F , P) l’ensemble des v.a. réelles sur (Ω, F , P), quotienté par la relation d’équivalence X ∼ Y
ssi X = Y p.s. Pour tous X, Y ∈ L0 (Ω, F , P), on définit d( X, Y ) = E(min(| X − Y |, 1)).
d est une distance sur L0 (Ω, F , P) et ( Xn )n≥1 converge en probabilité vers X ssi d( Xn , X ) converge vers 0.
On dit que d métrise la convergence en probabilité.
On peut même montrer que L0 (Ω, F , P) muni de la distance d est un espace métrique complet :
22
3. Convergences L p , p > 0
La suite de v.a. ( Xn )n≥1 converge dans L p vers la v.a. X si lim k Xn − X k p = 0, autrement dit
n→+∞
lim E(| Xn − X | p ) = 0.
n→+∞
Lp
On note Xn −→ X.
Lp P
Si Xn −→ X alors Xn −→ X.
Une famille ( Xi )i∈ I de v.a. réelles, intégrables, est dite équiintégrable ou uniformément intégrable si
Z
lim sup | Xi |dP = 0.
c→∞ {| Xi |>c}
i∈ I
Soit ( Xn )n≥1 une suite de v.a. intégrables. Les deux propositions suivantes sont équivalentes :
P
1. Xn −→ X et la famille ( Xn )n≥1 est équiintégrable.
2. X est intégrable et limn→∞ k Xn − X k1 = 0.
Contre-exemple : convergence dans tous les L p , 0 < p < ∞ mais pas p.s.
Dans l’exemple donné aprés la Proposition 42, la suite ( Xn )n≥1 converge dans tous les L p , 0 < p < ∞
mais pas p.s.
23
4. Convergence en loi
On ne suppose plus nécessairement que les v.a. ( Xn )n≥1 sont définies sur le même espace de
probabilités. Ce mode de convergence correspond à la convergence étroite des lois des v.a. ( Xn )n≥1 .
Soient ( Xn )n≥1 et X des v.a. réelles. On dit que ( Xn )n≥1 converge en loi vers X si l’une de ces trois
conditions équivalentes est vérifiée :
1. ∀ ϕ : R → R continue bornée,
lim E( ϕ( Xn )) = E( ϕ( X )).
n→∞
3. Il existe un espace de probabilité (Ω0 , F 0 , P0 ) sur lequel sont définies des v.a. ( Xn0 )n≥1 et X 0 de même loi
p.s.
respectivement que ( Xn )n≥1 et X telles que Xn0 −→ X 0 .
L
On note alors Xn −→ X.
Soient (µn )n≥1 une suite de mesures sur R et µ une mesure sur R.
R R
1. Si pour toute fonction ϕ : R → R continue à support compact, ϕdµn → ϕdµ, on dit que la
suite (µn )n≥1 converge vaguement vers µ.
R R
2. Si pour toute fonction ϕ : R → R continue tendant vers zéro à l’infini, ϕdµn → ϕdµ, on dit
que la suite (µn )n≥1 converge faiblement vers µ.
R R
3. Si pour toute fonction ϕ : R → R continue bornée, ϕdµn → ϕdµ, on dit que la suite (µn )n≥1
converge étroitement vers µ.
Si (µn )n≥1 et µ sont des mesures de probabilités sur R, les trois notions coı̈ncident (mais attention
(δn )n≥1 converge faiblement mais pas étroitement vers la mesure nulle).
Soient ( Xn )n≥1 et X des v.a. réelles. Les assertions suivantes sont équivalentes :
L
1. Xn −→ X.
2. Pour tout ouvert G de R, lim infn→∞ PXn ( G ) ≥ PX ( G )
3. Pour tout fermé F de Rd , lim supn→∞ PXn ( F ) ≤ PX ( F )
4. Pour tout borélien B de Rd tel que PX (∂B) = 0, limn→∞ PXn ( B) = PX ( B).
24
4.2. Lien avec les autres modes de convergence
Proposition 52
p.s. L
Si Xn −→ X alors Xn −→ X.
P L
Si Xn −→ X alors Xn −→ X.
Proposition 54
L
Soit ( Xn )n≥0 et X des v.a. à valeurs dans N. Alors Xn −→ X si et seulement si pour tout entier k ∈ N,
lim P( Xn = k) = P( X = k).
n→+∞
Proposition 55
Soit ( Xn )n≥1 des v.a. de loi binomiale B(n, pn ).
Si lim npn = λ > 0 alors Xn converge en loi vers une v.a. de loi de Poisson P (λ).
n→+∞
Théorème 56 (Lévy)
Il ne suffit pas d’avoir la convergence des fonctions ϕ Xn , il faut s’assurer que la limite est la fonction
caractéristique d’une certaine loi.
Une condition (admise) pour que ϕ soit la fonction caractéristique d’une v.a. est que ϕ soit une limite
de fonctions caractéristiques, continue en 0.
25
5. Résumé des liens entre les différents types de convergence
Sur le schéma ci-dessous, les flèches pleines indiquent les liens qui ont toujours lieu et les flèches en
pointillés indiquent les réciproquent partielles.
Lp , p>1 L1 Lp , 0<p<1
equiintegrabilite P loi
on
Slutsky
cti
tra
p.s.
ex
VI. Loi des grands nombres
On considère ( Xn )n≥1 une suite de v.a. toutes définies sur le même (Ω, F , P). On note
Sn = X1 + · · · + Xn , et on s’intéresse à la convergence de la suite Snn .
On dit que les v.a. ( Xn )n≥1 sont iid si elles sont indépendantes et de même loi.
Soit ( Xn )n≥1 une suite de v.a. réelles dans L2 , centrées, non corrélées deux à deux (c’est-à-dire Cov( Xi , X j ) = 0
si i 6= j).
S’il existe C tel que ∀n ≥ 1, Var( Xn ) ≤ C, alors Snn converge vers 0 en probabilité et dans L2 .
Soit ( Xn )n≥1 une suite de v.a. réelles, iid. Les deux conditions suivantes sont équivalentes :
1. E(| X1 |) < ∞
Sn p.s.
2. −→ E( X1 ).
n
26
On a l’interprétation suivante en termes de fréquence empirique (cf l’énoncé de la loi des grands
nombres dans les programmes de lycée) :
Proposition 59
Si ( An )n≥1 sont des événements indépendants de même probabilité, on a
n
1 p.s.
n ∑ 1 An −→ P( A1 ).
i =1
Pour montrer la loi forte ci-dessus, on a besoin de la version plus facile suivante :
Soit ( Xn )n≥1 une suite de v.a. réelles L4 , centrées, indépendantes. On suppose qu’il existe C tel que
∀n ≥ 1, E(( Xn )4 ) ≤ C. Alors Snn converge vers 0 p.s. et dans L4 .
Var( Xn )
Soit ( Xn )n≥1 une suite de v.a. réelles L2 , centrées, indépendantes. Supposons que ∑ n2
< +∞. Alors
n ≥1
Sn
n converge vers 0 p.s. et dans L2 .
Si ( Xn )n≥1 est une suite de v.a. réelles iid et F la fonction de répartition commune des Xn , on a que pour
presque tout ω,
p.s.
sup | Fn ( x, ω ) − F ( x )| −→ 0
x ∈R
27
VII. Théorème Central Limite (TCL)
1. Enoncés
Soit ( Xn )n≥1 des v.a. L2 , indépendantes, de même loi, et Sn = X1 + · · · + Xn . Par la loi des grands
Sn ( ω )
nombres, Snn converge p.s. vers E( X1 ). Autrement dit, p.s. = E( X1 ) + o (1). Le théorème central
n
limite précise le o (1)
Sn − nE( X1 ) L
p −→ N (0, 1) quand n → +∞.
nVar( X1 )
Une conséquence du théorème central limite est la suivante : pour tout a < b,
! Z b
Sn − nE( X1 ) 1
e−t /2 dt.
2
P a≤ p ≤ b −→ √
nVar( X1 ) 2π a
Le théorème de de Moivre (historiquement plus ancien) est le TCL pour des lois de Bernoulli.
S −np
Il est d’usage d’approcher √ n par N (0, 1) dès que np(1 − p) > 10. La convergence est plus
np(1− p)
rapide si p est proche de 1/2. Attention à la correction de continuité !
Pour tout λ > 0, soit Xλ une v.a. de loi de Poisson P (λ). Alors
Xλ − λ loi
√ −→ N (0, 1) quand λ → +∞.
λ
28