100% ont trouvé ce document utile (1 vote)
55 vues58 pages

FPR L3

Transféré par

raph
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
55 vues58 pages

FPR L3

Transféré par

raph
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Rennes 1

FPR

FONDEMENTS
DES
PROBABILITÉS

Auteur Notes de cours


Jürgen Angst Victor Lecerf

2020–2021
2 FPR
Table des matières

1 Espaces de probabilité, vocabulaire probabiliste 5


1.1 Espaces probabilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Propriétés élémentaires des mesures de probabilités . . . . . . . . . . . . . . . . . . . 6
1.3 Limites supérieures et inférieures d’ensembles . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Complétion et prolongement de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Ensembles négligeables, tribu complété . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Classes monotones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Variables aléatoires 11
2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Variables et vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Fonction de répartitions et densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Variables aléatoires usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Variables aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3 Espérance et moments 21
3.1 Espérance et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1 Espérance : définitions et premières propriétés . . . . . . . . . . . . . . . . . . 21
3.1.2 Moments d’ordre supérieurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Moments de variables usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Espérance et identification de loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Identification et fonctions tests . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Espérance et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3 Le problème de moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Transformées exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Autres transformées exponentielles . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Probabilités, lois et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Loi et espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 35
TABLE DES MATIÈRES

4 Convergence de variables aléatoires 37


4.1 Différents modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3 Convergence Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Articulation des modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Convergence presque sûre en probabilité . . . . . . . . . . . . . . . . . . . . . 42
4.2.2 Convergences Lp , p.s, P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.3 Convergence en loi et autres modes . . . . . . . . . . . . . . . . . . . . . . . . 43

5 Théorèmes limites 45
5.1 Loi des grands nombres (LGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Théorème limite central (TLC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.1 Théorème limite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Retour sur les applications de la loi des grands nombres . . . . . . . . . . . . 48

6 Vecteurs gaussiens 49
6.1 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.1.1 Définitions et propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . 49
6.1.2 Théorème limite central multidimensionnel . . . . . . . . . . . . . . . . . . . 53
6.2 Projections orthogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2.1 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2.2 Test d’adéquation du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.2.3 Espérances conditionnelles gausiennes . . . . . . . . . . . . . . . . . . . . . . 57

4 FPR
Chapitre 1

Espaces de probabilité, vocabulaire


probabiliste

La théorie des probabilités remonte au XVIIième siècle et a été au début du XXième. Il s’agit à
l’origine de modéliser mathématiquement des phénomènes complexes dont le résultat ne peut être
prédit, ou dont la modélisation déterministe est trop complexe pour être mise en œuvre effectivement,
comme par exemple un lancer de dé, d’une pièce, ou la trajectoire d’une particule dans un fluide.
Au lieu de se focaliser sur une issue précise de l’expérience, on considère l’ensemble des résultats
possibles et on leur alloue un “poids” selon qu’ils sont plus ou moins probables.

1.1 Espaces probabilisés


Soit Ω un ensemble, et P(Ω) l’ensemble de ses parties. On rappelle la définition d’une tribu ainsi
que de quelques concepts.

Définition 1.1.1 (tribu). Une tribu F sur Ω est une classe de parties de Ω (F ⊂ P(Ω)) telle
que
1. Ω ∈ F.
2. Si A ∈ F, alors Ac ∈ F.
S
3. Si (An )n ∈ F N , alors n∈N An ∈ F.

Exemples. {∅, Ω} (tribu grossière), P(Ω) (tribu pleine), {∅, A, Ac , Ω} pour A ⊂ Ω quelconque.

Remarques.
— (Ω, F) est dit être un espace mesurable (ou espace probabilisable), et les éléments de F
sont appelés les évènements.
— Une tribu contient toujours l’ensemble vide (on peut remplacer d’ailleurs le premier axiome
par “∅ ∈ F”).
— Une tribu est stable par intersection au plus dénombrable.
— Une intersection de tribus est encore une tribu. On peut alors construire pour tout A ⊂ P(Ω)
la plus petite tribu contenant A (comme l’intersection de toutes les tribus contenant A),
généralement notée σ(A).
1.2. Propriétés élémentaires des mesures de probabilités

— Lorsque Ω est dénombrable, on le munit généralement de la tribu pleine P(Ω).


— Lorsque Ω est muni d’une topologie τ , on le munit de la tribu borélienne B(Ω) = σ(τ ).

Définition 1.1.2. Soit (Ω, F) un espace mesurable. Une mesure de probabilité (ou probabilité)
est une mesure sur F à valeurs dans [0, 1] vérifiant P(Ω) = 1. On dit que (Ω, F, P) est un
espace probabilisé (ou espace de probabilité).

Exemples.
— ([0, 1], B([0, 1]), λ) où λ est la mesure de Lebesgue.
— (Mesure de Dirac) Soit (Ω, P(Ω)) avec Ω un ensemble, et soit a ∈ Ω. On note δa := 1{a} la
mesure de Dirac en a. (Ω, P(Ω), δa ) est un espace probabilisé.
— Soit (pn )n ∈ R+ une famille de réels de somme 1. Alors,
X
P= pn δn
n∈N

est bien définie, et est une probabilité sur (N, P(N)). On a alors
X
P(A) = 1A (n).
n∈N

1.2 Propriétés élémentaires des mesures de probabilités

Proposition 1.2.1. Une mesure de probabilité possède les mêmes propriétés élémentaires
qu’une mesure quelconque. En autre, elle vérifie l’additivité sur deux évènements disjoints,
la croissance, la formule de la mesure de la différence symétrique, la σ-sous-additivité, la
continuité à gauche et à droite (en termes d’ensembles).

Remarque. Sur (Ω, F, P) un espace probabilisé, et pour tout A, B ∈ F, on P(A ∪ B) = P(A) +


P(B) − P(A ∩ B). La proposition suivante généralise cette formule.

Proposition 1.2.2. Soit (Ω, F, P) un espace probabilisé, et A1 , . . . , An des évènements de F.


Alors,
  
n n k
!
[ X X \
P Ai = (−1)k+1 P Aij 
i=1 k=1 1≤i1 <i2 <...<ik ≤n j=1

Exemple. Pour n = 3,

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(B ∩ C) − P(C ∩ A) + P(A ∩ B ∩ C).

6 FPR
Chapitre 1. ESPACES DE PROBABILITÉ, VOCABULAIRE PROBABILISTE

1.3 Limites supérieures et inférieures d’ensembles


Soient (Ω, F, P) un espace de probabilité et (An )n∈N une suite d’évènements. Deux évènements
complexes, mais très utiles, sont la limite inférieure et la limite supérieure.

Définition 1.3.1. On appelle limite inférieur (resp. supérieure) de la famille d’évènements


(An )n ∈ F N l’ensemble
[ \
lim inf Ak
n→∞
n≥1 k>n
 
\ [
resp. lim sup Ak  .
n→∞
n≥1 k>n

On retrouve sur ces ensembles de propriétés analogues aux limites inférieures et supérieures sur
les suites numériques.

Proposition 1.3.1. Soit (An )n ∈ F N . On a


(i) lim inf n→∞ An ⊂ lim supn→∞ An .
(ii) (lim supn→∞ An )c = lim inf n→∞ Acn , et (lim inf n→∞ An )c = lim supn→∞ Acn .

T T S
Démonstration. (i) Soit n ∈ N. T Pour toutTp > S n, on a k>n Ak ⊂ Ap . Ainsi, k>n Ak ⊂ p>m
pour tout m ∈ N, et alors k>n Ak ⊂ m≥1 p>m Ap = lim supn→∞ An . Cette inclusion étant
vraie pour tout n ∈ N, elle reste vrai après passage à l’union sur n ∈ N à gauche.

Proposition 1.3.2. Soit (An )n ∈ F N une suite d’évènements. Alors,

lim inf 1An = 1lim inf n→∞ An et lim sup 1An = 1lim supn→∞ An
n→∞ n→∞

Définition 1.3.2. Une suite d’évènements (An )n ∈ F N est dite convergente si les limites
inférieures et supérieures coïncident. Si elle existe, on la note limn→∞ An .

Proposition 1.3.3. Soit (An )n ∈ F N une suite d’évènements. Alors,


   
P lim inf An ≤ lim inf P(An ) ≤ lim sup P(An ) ≤ P lim sup An .
n→∞ n→∞ n→∞ n→∞

En particulier si (An )n converge,


 
P lim An = lim P(An ).
n→∞ n→∞

FPR 7
1.4. Complétion et prolongement de mesure

1.4 Complétion et prolongement de mesure


1.4.1 Ensembles négligeables, tribu complété
On fixe dans cette sous-section un espace de probabilité (Ω, F, P).

Définition 1.4.1 (négligeabilité). Soit N ∈ P(Ω). L’ensemble N est dit négligeable s’il est
inclus dans un ensemble de mesure nulle. Deux A, B ∈ P(E) ensembles sont dits être égaux
presque sûrement si A4B = A\B ∪ B\A est négligeable.

Proposition 1.4.1. Soit N l’ensemble des parties négligeables de Ω. Alors,


(i) ∅ ∈ N ,
(ii) Si A ∈ N et B ∈ P(Ω) sont tels que B ⊂ A, alors B ∈ N ,
(iii) N est stable par union au plus dénombrable,
(iv) N est stable par intersection quelconque.

Définition 1.4.2 (tribu complétée). On appelle la tribu complétée de F par rapport à P la


tribu

F = σ(F ∪ N )
où N désigne l’ensemble des parties négligeables de Ω.

Proposition 1.4.2. Soit A ∈ F. Sont équivalents :


(i) A ∈ F.
(ii) Il existe B, C ∈ F, tels que B ⊂ A ⊂ C et P(C\B) = 0.
(iii) Il existe B ∈ F et N ∈ N tels que A = B ∪ N .
(iv) Il existe B ∈ F tel que A = B presque sûrement, i.e que A4B ∈ N .

Proposition 1.4.3. Soient (Ω, F, P) un espace de probabilité et F la tribu complétée par


rapport à F. Alors, l’application

P: F −→ [0, 1]
A=B∪N 7−→ P(B)
est bien définie, est une probabilité et l’unique prolongement de P à F tel que P|F = P.

Proposition 1.4.4. L’ensemble des négligeables pour P coïncident avec ceux de P.

1.4.2 Classes monotones


On rappelle ici un procédé d’extension des définitions de certains objets sur les tribus après les
avoir définis sur une classe restreinte d’ensemble.

8 FPR
Chapitre 1. ESPACES DE PROBABILITÉ, VOCABULAIRE PROBABILISTE

Définition 1.4.3. Une famille M de parties de Ω est appelée classe monotone (ou λ-
système) si
(i) Ω ∈ M,
(ii) M est stable par différence :

∀A, B ∈ M, (B ⊂ A) =⇒ (A\B) ∈ M,

(iii) M est stable par union croissante :


!
[
∀(An )n ∈ MN , (∀n ∈ N, An ⊂ An+1 ) =⇒ An ∈ M .
n∈N

Remarques.
— Une intersection quelconque de classes monotones est encore une classe monotone.
— Une tribu est une classe monotone, car A\B = A ∩ B c .
— Une classe monotone stable par intersection finie est une tribu.
— Comme pour les tribus, on peut définir pour toute famille de partie E ⊂ P(Ω) la plus petite
classe monotone contenant E comme l’intersection de toutes les classes monotones contenant
E, notée M(E).

Théorème 1.4.1 (des classes monotone (Dynkin)). Soit A une famille de parties de Ω stable
par intersection finie (appelée π-système). Alors, M(A) = σ(A).

Démonstration. Probablement quelque part dans le cours d’intégration.

Théorème 1.4.2. Soit (Ω, F) un espace mesurable Si deux probabilités P1 et P2 sur F coïn-
cident sur une partie A ⊂ Ω stable par intersections finies, alors elles coïncident sur σ(A).

Démonstration. Soit M = {B ∈ F | P1 (B) = P2 (B)}. Alors Ω ∈ M, et si B, C ∈ MSavec B ⊂ C,


alors C\B ∈ M (calcul simple). De plus, si (Bn )n ∈ MN est une suite croissante, alors n∈N Bn ∈ M
car
! !
[ [
P1 Bn = lim P1 (Bn ) = lim P2 (Bn ) = P2 Bn .
n→∞ n→∞
n∈N n∈N

On en déduit que M est une classe monotone telle que A ⊂ M. Ainsi, M(A) ⊂ M. Mais A
étant un π-système, le théorème des classes monotones affirme que M(A) = σ(A), d’où σ(A) ⊂ M.

FPR 9
1.4. Complétion et prolongement de mesure

10 FPR
Chapitre 2

Variables aléatoires

2.1 Définition et premières propriétés


2.1.1 Variables et vecteurs aléatoires

Définition 2.1.1. Soit (Ω, F, P) un espace de probabilité, et (E, E) un espace mesurable. On


appelle variable aléatoire à valeurs dans E toute application mesurable de (Ω, F) dans (E, E).

Remarques.
— On notera souvent “v.a” pour variable aléatoire.
— Si (E, E) = (R, B(R)), on parle de variable aléatoire réelle (v.a.r).
— Si (E, E) = (Rn , B(R)n ), on parle de vecteur aléatoire. Si X = (X1 , . . . , Xn ) est un vecteur
aléatoire, la composante Xi : (Ω, F) −→ (R, B(R)) est appelé la i-ième marginale du vecteur
X (pour i ∈ [[1, n]]).

Proposition 2.1.1. Soit X : (Ω, F, P) −→ (E, E) une application et C ⊂ P(E). Alors,

X −1 (σ(C)) = σ(X −1 (C)).


En particulier, si σ(C) = E, pour vérifier que X est mesurable, il suffit de vérifier que
X −1 (C) ⊂ F.

Remarque. La somme, le produit, le quotient, le minimum, le maximum, la limite supérieure, la


limite inférieure, de variables aléatoires est une variable aléatoire (résultat général sur les fonctions
mesurables).

Proposition 2.1.2. Soit (E, d) un espace métrique, et soit (Xn )n une suite de variables
aléatoires de (Ω, F) dans (E, B(E)). Si (Xn )n converge simplement vers une fonction X,
alors X est une variable aléatoire.

En bref, la limite simple de fonctions mesurables est mesurable.


2.1. Définition et premières propriétés

Proposition 2.1.3. Toute variable aléatoire réelle est limite simple de variables aléatoires
étagées. De plus, si X est à valeurs positives, on peut choisir la suite croissante.

2.1.2 Loi d’une variable aléatoire

Définition 2.1.2. Soit X : (Ω, F, P) −→ (E, E) une variable aléatoire. On appelle loi de X
la mesure de probabilité sur (E, E) la mesure image PX de P par X, définie pour tout A ∈ E
par

PX (A) = P(X −1 (A)) = P(X ∈ A).

Remarque. Si X = (X1 , . . . , Xn ) un vecteur aléatoire à valeurs dans E = ( ni=1 Ei , ⊗ni=1 Ei ), alors


Q
la loi PX est appelée loi jointe des Xi . Les lois PXi sont appelées les lois marginales. Pour i ∈ [[1, n]],
si A ⊂ Ei , on a

PXi (A) = PX (E1 × · · · × Ei−1 × A × Ei+1 × · · · × En ).

Définition 2.1.3. On dit que deux variables aléatoires X, Y : (Ω, F, P) −→ (E, E) ont même
loi si PX = PY . On note alors L (X) = L (Y ).

Remarque. Cette définition n’interdit pas particulièrement que X et Y soient définies sur des
espaces de probabilités différents.

2.1.3 Variables aléatoires indépendantes

Définition 2.1.4. Sur un espace de probabilité (Ω, F, P), deux évènements A et B ∈ F sont
dits indépendants si

P(A ∩ B) = P(A) · P(B).


Plus généralement, les évènements d’une famille (Ai )i∈I sont dits :
— mutuellement indépendants si pour tout J ⊂ I fini,
!
Y Y
P Ai = P(Ai ).
i∈J i∈J

— deux à deux indépendants si,



∀i, j ∈ I, (i 6= j) =⇒ P(Ai ∩ Aj ) = P(Ai ) · P(Aj ) .

Notation. On note parfois A ⊥


⊥ B.

12 FPR
Chapitre 2. VARIABLES ALÉATOIRES

Définition 2.1.5. Deux familles d’évènements G , H ⊂ F sont dites indépendantes si pour


tout (A, B) ∈ G × H , A et B sont indépendants. Plus généralement, Les éléments d’une
famille (Gi )i∈I de familles d’évènements sont dits :
— mutuellement indépendants, si pour J ⊂ I fini :
 
Y \ Y
∀(Aj )j∈J ∈ Gj , P  Aj  = P(Aj ).
j∈J j∈J j∈J

— deux à deux indépendants, si Gi et Gj sont indépendants pour tout i 6= j.

Proposition 2.1.4. Si (Ai )i∈I est une famille de π-systèmes. Alors, les (Ai )i sont mutuel-
lement indépendants (resp. deux à deux indépendants) si, et seulement si, les (σ(Ai ))i sont
mutuellement indépendants (resp. deux à deux indépendants).

Démonstration. Application du théorème des classes monotones.

Définition 2.1.6. Soit X : (Ω, F, P) −→ (E, E). On note

σ(X) = X −1 (E).
C’est la plus petite tribu sur Ω rendant X mesurable.

Définition 2.1.7. Deux variables aléatoires X : (Ω, F, P) −→ (E1 , E1 ) et Y : (Ω, F, P) −→


(E2 , E2 ) sont dites être deux à deux indépendantes si les tribus σ(X) et σ(Y ) sont deux à deux
indépendantes, i.e :

∀A ∈ E1 , ∀B ∈ E2 , P((X ∈ A) ∧ (Y ∈ B)) = P(X ∈ A) · P(Y ∈ B).


De même, elles sont dites mutuellements indépendantes

Remarques.
— Il n’est pas nécessaire que X et Y soient à valeurs dans le même espace mesurable pour que
la définition fasse sens.
— On définit de même l’indépendance d’une famille de variables aléatoires (Xi )i∈I comme l’in-
dépendance deux à deux des variables aléatoires de la famille.

PropositionN 2.1.5. Si X = (X1 , . . . , Xn ) est un vecteur aléatoire à valeurs dans


( ni=1 Ei , ni=1 Ei ), alors les variables indépendantes
Q
Xi sont mutuellements indépendantes
si, et seulement si, pour tout (A1 , . . . , An ) ∈ ni=1 Ei ,
Q

PX (A1 × · · · × An ) = PX1 (A1 ) · · · PXn (An ).


Ce qui est équivalent à dire que

FPR 13
2.2. Fonction de répartitions et densité

PX = PX1 ⊗ · · · ⊗ PXn .

Démonstration. Par définition,

PX (A1 × · · · × An ) = P(X ∈ (A1 , . . . , An ))


= P(X1 ∈ A1 , X2 ∈ A2 , . . . , Xn ∈ An )
= P(X1 ∈ A1 ) · · · P(Xn ∈ An )
= PX1 (A1 ) · · · PXn (An ).

2.2 Fonction de répartitions et densité


2.2.1 Fonction de répartition
On étudie dans cette sous-section les fonctions de répartitions 1 qui sont un ensemble de fonctions
qui nous permettront de caractériser les lois des variables aléatoires réelles.

Définition 2.2.1. On appelle fonction de répartition d’une variable aléatoire réelle la fonction
FX : [0, 1] −→ R vérifiant pour tout x ∈ R,

FX (x) = PX ] − ∞, x] = P(X ≤ x).

Proposition 2.2.1. La fonction de répartition caractérise la loi d’une variable aléatoire réelle,
au sens où (FX = FY ) ⇐⇒ (PX = PY ).


Démonstration. La famille ] − ∞, x] x ∈ R engendre les boréliens de R, et est stable par inter-
section finie. On conclue par le théorème des classes monotones.

Proposition 2.2.2. Soit FX fa fonction de répartition d’une variable aléatoire réelle X. On


a les résultats suivants.
(i) FX est croissante.
(ii) La limite de FX en −∞ est 0.
(iii) La limite de FX en ∞ est 1.
(iv) La fonction FX est CÀDLÀG (continue à droite avec limite à gauche), i.e

FX (x− ) = lim FX (y) = P(X < x), et est continue à droite.


y→x−

(v) Pour tout a, b ∈ R avec a < b,

P X ∈ [a, b] = FX (b) − FX (a− ).




1. Distribution function en anglais.

14 FPR
Chapitre 2. VARIABLES ALÉATOIRES

(vi) Si x0 ∈ R n’est pas un atome de X, i.e P(X = x0 ) 6= 0, alors FX est continue en x0 .

Démonstration. (i) .

Corollaire 2.2.1. Une variable aléatoire réelle possède un nombre au plus dénombrable
d’atomes.

Démonstration. Une fonction monotone possède un nombre au plus dénombrable de points de dis-
continuité.

Proposition 2.2.3. Soit F : R −→ [0, 1] une fonction CÀDLÀG croissante, avec

lim F (x) = 0 et lim F (x) = 1.


x→−∞ x→∞

Alors, F est la fonction de répartition d’une certaine variable aléatoire réelle.

2.2.2 Densité

Définition 2.2.2. Soient µ et ν deux mesures σ-finies sur un espace mesurable (Ω, F). La
mesure µ est dite absolument continue par rapport à ν, si :

∀A ∈ F, (ν(A) = 0) =⇒ (µ(A) = 0).


On note dans ce cas, µ  ν.

Théorème 2.2.1 (Radon-Nikodym). En conservant la même quantification, si µ  ν,


alors il existe une fonction mesurable f telle que pour tout A ∈ F,
Z
µ(A) = f dν.
A
Dans ce cas, et si µ et ν sont positives, et que µ est finie, alors f est positive et élément
L1 (Ω, ν).

Remarque. Cette fonction f est appelée densité (ou dérivée de Radon-Nikodym) de µ par rap-
port à ν.

Définition 2.2.3 (v.a.r à densité). Une variable aléatoire réelle X est dite être à densité
si PX est absolument continue par rapport à la mesure de Lebesgue sur R. Dans ce cas
la dérivée de Radon-Nikodym fX est appelée densité de la loi de X (ou de X). Cette
fonction est positive et intégrable pour la mesure de Lebesgue.

FPR 15
2.2. Fonction de répartitions et densité

Remarques.
— On a immédiatement pour tout A ∈ F,
Z
PX (A) = P(X ∈ A) = fX (x) dx.
A
En particulier, pour tout a, b ∈ R avec a < b,
Z b
PX ([a, b]) = fX (x) dx.
a
— Réciproquement, si f est une fonction mesurable positive d’intégrale 1 par rapport à la mesure
de Lebesgue, la formule Z
P(A) = f dλ
A
définit une mesure de probabilité.

Exemple. Si (Ω, F, P) = ([0, 1], B([0, 1]), λ1 ), et si l’on pose

Y : ([0, 1], B([0, 1])) −→ ([−1, 0], B([−1, 0]))


ω 7−→ ω 2 − 1,
alors, pour tout a, b ∈ R, avec a < b,

PY ([a, b]) = P(Y ∈ [a, b])


= P {ω ∈ [0, 1] | ω 2 − 1 ∈ [a, b]}

√ √ 
= P {ω ∈ [0, 1] | ω ∈ [ a + 1, b + 1]}
√ √
= b+1− a+1
Z b
1
= √ dx.
a 2 x+1

On trouve donc la densité fY : x 7−→ √1 .


2 x+1

Proposition 2.2.4. Soit X une variable aléatoire réelle de densité fX , et de fonction de


répartition FX . Alors, on a les résultats suivants.
(i) Pour tout x ∈ R,
Z x
FX (x) = fX (t) dt,
−∞

(ii) FX est continue sur R.


(iii) Si fX est continue en un point x0 ∈ R, alors FX y est dérivable, et FX0 (x0 ) = fX (x0 ).
(iv) Inversement, si X a pour fonction de répartition FX définie pour tout x ∈ R par
Z x
FX (x) = f (t) dt
−∞

avec f une fonction mesurable positive, alors X a pour densité f .

16 FPR
Chapitre 2. VARIABLES ALÉATOIRES

Remarque. Si X est une variable aléatoire réelle telle que FX soit continue, alors X est nécessai-
R b le si FX est absolument continue, i.e si il une fonction f intégrable telle que
rement à densité. C’est
FX (b) − FX (a) = a f (t) dt. Une fonction continue, de dérivée L1 n’est pas forcément l’intégrale de
sa dérivée (comme l’escalier de Cantor).

Définition 2.2.4. Une fonction f : Rd −→ R mesurable est appelée densité si elle est positive
et si
Z
f dλd = 1.
Rd
Un vecteur aléatoire X = (X1 , . . . , Xd ) a pour loi la loi densité f si pour tout (ai )1≤in et
(bi )1≤in ∈ Rd tels que ai ≤ bi pour tout i ∈ [[1, d]],
d
! Z
Y
P X ∈ [ai , bi ] = Q f dλd ,
d
i=1 i=1 [ai ,bi ]

où λd désigne la mesure de Lebesgue sur Rd .

Proposition 2.2.5. Soit X un vecteur aléatoire à valeurs dans Rd , de densité fX . Soit ϕ un


difféomorphisme de Rd . Alors, Y = ϕ ◦ X est un vecteur aléatoire de densité fY définie par

fY (u) = fX (ϕ−1 )(u)Jϕ−1 (u),


pour tout u ∈ Rd , où Jϕ−1 (u) est la valeur absolue du déterminant de la jacobienne de ϕ−1
en u.

Démonstration. Soit B un évènement. Alors,

PY (B) = P(Y ∈ B)

= P(ϕ(X) ∈ B)

= P(X ∈ ϕ−1 (B))


Z
= fX (x) dx
ϕ−1 (B)
Z
= fX (ϕ−1 (u))Jϕ−1 (u) du,
B

et ce par le changement de variable x = ϕ−1 (u). On peut alors trouver la densité fY dans la dernière
intégrale.

Proposition 2.2.6. Soit (X, Y ) un couple de variables aléatoires réelles, de densité f(X,Y )
sur R2 . Alors, X et Y sont aussi à densité, données par
Z Z
fX (x) = f(X,Y ) (x, y) dy et fY (y) = f(X,Y ) (x, y) dx,
R R

FPR 17
2.3. Variables aléatoires usuelles

pour tout x et y ∈ R. Ce sont les densités marginales.

Démonstration. Soit A ∈ B(R). Alors,

PX (A) = P(X ∈ A)
= P(X
Z ∈ A, Y ∈ R)
= f(X,Y ) dλ2
ZA×R
Z 
= f(X,Y ) (x, y) dy dx,
A R

tous ces calculs et inversions étant autorisées par le théorème d’inversion de Fubini-Lebesgue. La
démonstration pour Y est identique.

Proposition 2.2.7. Soit (X, Y ) un couple de variables aléatoires réelles de densité f(X,Y ) .
Alors, X et Y sont indépendantes si, et seulement si, , pour tout (x, y) ∈ R2 ,

f(X,Y ) (x, y) = fX (x)fY (y).

Remarque. Cette propriété se généralise aux vecteurs aléatoires avec une indépendance mutuelle.

2.3 Variables aléatoires usuelles


Soit X une variable aléatoire réelle.

2.3.1 Variables aléatoires discrètes


Loi de Bernoulli

On dit que X suit une loi de Bernoulli de paramètre p ∈ [0, 1] si X(Ω) = {0, 1}, et

P(X = 1) = p.

On note X ∼ B(p).

Loi binomiale

On dit que X suit la loi binomiale de paramètre p ∈ [0, 1] et n ∈ N∗ si X(Ω) = [[0, n]], et
 
n k
P(X = k) = p (1 − p)n−k ,
k

pour tout k ∈ [[0, n]]. On note X ∼ B(n, p).

18 FPR
Chapitre 2. VARIABLES ALÉATOIRES

Loi géométrique

On dit que X suit une loi géométrique de paramètre p ∈ [0, 1] si X(Ω) = N∗ et

P(X = k) = (1 − p)k−1 p,

pour tout k ∈ N∗ . On note X ∼ G(p).

Loi de Poisson

On dit que X suit une loi de Poisson de paramètre λ > 0 si X(Ω) = N et

λk −λ
P(X = k) = e ,
k!
pour tout k ∈ N. On note X ∼ P(λ).

Loi uniforme sur un univers fini

On dit que X suit une loi uniforme sur X(Ω) = {x1 , . . . , xn } si

1
P(X = xi ) = ,
n
pour tout i ∈ [[1, n]]. On a alors

card A
P(X ∈ A) = ,
card Ω

2.3.2 Variables aléatoires à densité


Loi uniforme sur un segment de R

Soit a, b ∈ R avec a < b. On dit que X est uniforme sur le segment [a, b] si PX si admet comme
densité

1
x 7−→ fX (x) = 1 (x).
b − a [a,b]
On note X ∼ U[a,b] .

Loi exponentielle

On dit que X suit une loi exponentielle de paramètre λ > 0 si X(Ω) = R+ et X admet pour
densité

x 7−→ fX (x) = λe−λx 1R+ .

On note X ∼ E(λ).

FPR 19
2.3. Variables aléatoires usuelles

Loi normale
On dit que X suit la loi normale (ou gaussienne) de paramètre m ∈ R et σ ≥ 0, si X(Ω) ⊂ R et
X admet pour densité
(x−m)2
e− 2σ 2
x 7−→ fX (x) = √ .
2πσ 2
On note X ∼ N (m, σ 2 ).

Loi Gamma
Soit n ∈ N∗ , et λ > 0. On dit que X suit une loi Γ(n, λ) si X(Ω) ⊂ R+ , et si X admet pour
densité

λn −λx n−1
x 7−→ fX (x) = e x 1R+ .
Γ(n)

Loi de Cauchy
On dit que X suit la loi de Cauchy de paramètre λ > 0 si X(Ω) = R et admet pour densité

1 λ
x 7−→ fX (x) = .
π λ + x2
2

On note X ∼ C (λ).

20 FPR
Chapitre 3

Espérance et moments

3.1 Espérance et moments


Commençons par rappeler la formule de transfert.

Définition 3.1.1 (mesure image). Soient (X, F) et (Y, G) des espaces mesurables, ϕ :
(X, F) −→ (Y, G) une application mesurable, et µ une mesure sur (X, F). Alors, la mesure
image par ϕ est définie par

ν(B) = µ(ϕ−1 (B)),


pour tout B ∈ G.

Proposition 3.1.1 (formule de transfert). Avec la même quantification, et si h : (Y, G) −→


(R, B(R)) est une fonction mesurable, alors, h est ν-intégrable si, et seulement si, h ◦ ϕ est
µ-intégrable. Dans ce cas,
Z Z
h ◦ ϕ dµ = h dν.
X Y

3.1.1 Espérance : définitions et premières propriétés

Définition 3.1.2. Soit X : (Ω, F, P) −→ (R, B(R)) une variable aléatoire réelle. On dit que
X est intégrable (ou P-intégrable) si
Z Z
|X| dP = |x| dPX (x) < ∞.
Ω R

Définition 3.1.3 (espérance). Soit X : (Ω, F, P) −→ (R, B(R)) une variable aléatoire réelle
positive ou P-intégrable. On appelle espérance de X, notée E(X), la quantité
Z Z
E(X) = X dP = x dPX (x).
Ω R
3.1. Espérance et moments

Plus généralement, si h est une fonction mesurable, telle que h(X) est positive ou P-intégrable,
on a
Z Z
E(h(X)) = h(X(ω)) dP(ω) = h(x) dPX (x).
Ω R
Enfin, si X = (X1 , . . . , Xn ) est un vecteur aléatoire, et h : Rn −→ R est une fonction
mesurable, on note lorsque cela est bien défini,
Z
E(h(X1 , . . . , Xn )) = h(x) dPX (x).
R

Remarque. Les intégrales ci-dessus sont à considérer au sens de Lebesgue 1 . Par exemples,
— Si X = 1A , E(X) = P(A).
— Si X = ni=1 ai 1Ai , alors E[X] = ni=1 ai P(Ai ), où les Ai sont des ensembles mesurables, et
P P
les ai des éléments de R.
— Si X ≥ 0,

E[X] = sup{E(Y ) | Y une fonction étagée bornée.}.


— Si E[|X|] < ∞, alors

E[X] = E[X + ] − E[X − ].


— Concrètement, si X est discrète, et en notant X(Ω) = {x1 , . . . , xn , . . .} (au plus dénombrable),
alors

X
E[X] = xi P(X = xi ).
i=1

De même, pour une fonction h : R −→ R mesurable,



X
E[h(X)] = h(xi )P(X = xi ).
i=1

— Si X est à densité fX , alors,


Z Z
E[X] = xfX (x) dx et E[h(X)] = h(x)fX (x) dx.
R R

Définition 3.1.4 (espérance de vecteur aléatoire et variable aléatoire centrée). Si X =


(X1 , . . . , Xn ) est un vecteur aléatoire, avec E[|Xi |] < ∞ pour tout i ∈ [[1, n]], alors, on définit

E[X] = (E[X1 ], . . . , E[Xn ]).


On dit que X est centré si E[X] = 0Rn .

1. Sinon c’est complexe.

22 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Proposition 3.1.2. Soient X et Y sont deux variables aléatoires réelles, positives ou P-


intégrables. On a les résultats suivants.
(i) Si X ≤ Y presque sûrement, alors E[X] ≤ E[Y ].
(ii) Pour tout λ ∈ R, E[X + λY ] = E[X] + λE[Y ].
(iii) |E[X]| ≤ E[|X|].
(iv) Si X est positive presque sûrement, et est d’espérance nulle, alors X = 0 presque partout.

Démonstration. Ces propriétés sont des redites de cours d’intégration de Lebesgue. Voir le cours
d’INTL.

Remarque. L’espérance n’est autre qu’une intégrale par rapport à la mesure P. Il va donc de soit
que les théorèmes classiques de la théorie de l’intégrale de Lebesgue. En voici quelques exemples.
— Convergence monotone. Si (Xn )n est une suite croissante de variables aléatoires positives,
convergeant vers une variable aléatoire X, alors
h i
E lim Xn = lim E[Xn ].
n→∞ n→∞

— Lemme de Fatou. Si
Si (Xn )n est une suite de variables aléatoires positives, alors,
h i
E lim inf Xn ≤ lim inf E[Xn ].
n→∞ n→∞

— Théorème de convergence dominée. Si (Xn )n est une suite de variables aléatoires convergeant
vers une variable aléatoire X, et qu’il existe une fonction Y mesurable et intégrable telle que

|Xn (ω)| ≤ |Y (ω)|

pour tout n ∈ N et tout ω ∈ Ω, alors,

lim E[Xn ] = E[X].


n→∞

Proposition 3.1.3 (inégalité de Markov). Soit X une variable aléatoire. Alors, pour tout
t > 0,
E[|X|]
P(|X| > t) ≤ .
t

Démonstration. On a
   
E[|X|] = E |X|1|X|>t + E |X|1|X|≤t .
| {z } | {z }
tE[1|X|>t ] ≥0
= t P(|X|>t)

FPR 23
3.1. Espérance et moments

Variante. Il a en fait plusieurs inégalités de Markov, mais dont l’idée reste semblable. Soit λ > 0
tel que E eλ|X| < ∞. Alors,
  E eλ|X| 
λ|X| t
P(|X| > t) = P e >e ≤ ,
eλt
pour tout t ∈ R.

Proposition 3.1.4 (inégalité de Jensen). Soit X une variable aléatoire réelle, et ϕ une
fonction convexe, et tels que X et ϕ(X) soient intégrables. Alors,

E[ϕ(X)] ≥ ϕ (E[X]) .

Démonstration. On observe que ϕ(x) = sup{f (x) | f affine, f ≤ ϕ}. On conclut alors par positivité
et linéarité de l’espérance.

Exemple. E X 2 ≤ E[X]2 .
 

Proposition 3.1.5. Soit X une variable aléatoire positive. Alors,


Z ∞ Z ∞
E[X] = P(X > t) dt = (1 − FX (t)) dt.
0 0
En particulier, si X(Ω) ⊂ N, alors

X
E[X] = P(X > k).
k=0

Démonstration. D’après Fubini-Tonelli,


Z ∞ Z ∞
P(X > t) dt = E [1X>t ] dt
0 0
∞ Z 
= E 1X>t dt
0
Z X 
= E dt = E[X].
0

3.1.2 Moments d’ordre supérieurs

Définition 3.1.5 (moment). Soit p ∈ N∗ . On dit qu’une variable aléatoire réelle admet un
moment d’ordre p si
Z Z
E [|X|p ] = |X|p dP = |x|p dPX (x) < ∞.
Ω R

24 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Dans ce cas, on note kXkp = E[|X|p ]1/p .

Notation. On note Lp (Ω, F, P) l’espace des variables aléatoires réelles admettant un moment
d’ordre p, quotienté par la relation d’équivalence ∼ “être égales presque partout”. Enfin, on note
L∞ (Ω, F, P) = {X v.a.r | ∃c > 0, P(|X| > c) = 0}/ ∼ .
Les inégalités classiques de la théorie de l’intégration s’étendent dans ce cadre probabiliste.

Proposition 3.1.6 (Hölder, Cauchy-Schwartz). Soient p, q ≥ 1 des réels conjugués. Si


X ∈ Lp (Ω, F, P) et Y ∈ Lq (Ω, F, P), alors

kXY k1 = E[|XY |] ≤ E[|X|p ]1/p · E[|Y |q ]1/q .


En particulier, pour p = q = 2,

E[|XY |]2 ≤ E |X|2 · E |Y |2 .


   

Proposition 3.1.7 (Minkowski). Soit p ≥ 1, et X, Y ∈ Lp (Ω, F, P). Alors,

kX + Y kp ≤ kXkp + kY kp .

Définition 3.1.6 (variance, écart-type). Soit X ∈ L2 (Ω, F, P). On appelle variance de X


la quantité

var(X) = E |X − E[X]|2 = E X 2 − E[X]2 ≥ 0.


   

C’est l’écart quadratique à la moyenne. On appelle écart-type la quantité


p
var(X) = kX − E[X]k2 .

Enfin, si X et Y ∈ L2 (Ω, F, P), on définit la covariance de X et Y par

cov(X, Y ) = E [(X − E[X])(Y − E(Y ))] ∈ R.


C’est la version polarisée de la variance.

Proposition 3.1.8. Pour tout X ∈ L2 (Ω, F, P), on a les propriétés suivantes.


(i) var(X) ≥ 0.
(ii) Pour tout λ ∈ R, var(λX) = λ2 var(X).
(iii) Pour tout α ∈ R, var(X + α) = var(X).
(iv) Si var(X) = 0, alors X est constante presque partout. En particulier, X est constante
à E[X] presque partout.
(v) Si Y ∈ L2 (Ω, F, P), alors

FPR 25
3.1. Espérance et moments

var(X + Y ) = var(X) + var(Y ) + 2 cov(X, Y ).

Proposition 3.1.9 (inégalité de Bienaymé-Tchebytchev). Soit X ∈ L2 (Ω, F, P), et t > 0.


Alors,

var(X)
P(|X − E[X]| > t) ≤ .
t2

Démonstration. On se ramène à l’inégalité de Markov :

E[|X − E[X]|2 ] var(X)


P(|X − E[X]| > t) = P(|X − E[X]|2 > t2 ) ≤ = .
t2 t2

3.1.3 Moments de variables usuelles


Loi de Bernoulli
Si X ∼ B(p), alors,
— E[X] = p,
— E[X 2 ] = p,
— var(X) = p(1 − p).

Loi uniforme sur un univers fini


Si X ∼ U{x1 ,...,xn } , alors,
n
1X
E(X) = xi .
n
i=1

Loi binomiale
Si X ∼ B(n, p), alors,

E[X] = np et var(X) = np(1 − p).

Loi géométrique
Si X ∼ G(p), alors,
1 1−p
E[X] = et var(X) = .
p p2

Loi de Poisson
Si X ∼ P(λ), alors,

E[X] = var(X) = λ.

26 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Loi uniforme sur un segment de R


Si X ∼ E(λ).

Loi exponentielle
Loi normale
Loi de Cauchy

3.2 Espérance et identification de loi


3.2.1 Identification et fonctions tests

Théorème 3.2.1. Soit X un vecteur aléatoire à valeurs dans Rd et µ une mesure de probabilité
sur Rd . Alors, X suit la loi µ (X ∼ µ) si, et seulement si, pour toute fonction h : Rd −→ R
continue à support compact (ou de classe C ∞ ),
Z
E[h(X)] = h(x) dµ(x).
Rd

Exemple. Soit X une v.a.r suivant une loi de Cauchy de paramètre 1. On a


1
fX (x) = ,
π(1 + x2 )
pour tout x ∈ R. Soit Y = X + = X1X≥0 . On pose de même x+ = x1R+ (x) pour tout x ∈ R. Pour
toute fonction h continue à support compact,

Z
E[h(Y )] = h(x+ ) dPX (x)
R+
Z
= h(x+ )fX (x) dx
R+
Z
h(x)
= h(0)P(X ≤ 0) + dx.
R+ π(1 + x2 )
1 1
On en déduit que dPY (x) = 2 δ0 (x) + 1
π(1+x2 ) x>0
dx.

3.2.2 Espérance et indépendance

Proposition 3.2.1. Soit X = (X1 , . . . , Xn ) un vecteur aléatoire à valeurs dans Rn . Sont


équivalents.
(i) Les variables aléatoires sont mutuellement indépendantes.
(ii) Pour toutes fonctions mesurables bornées (ou positives) hi : R −→ R (i ∈ [[1, n]]),
n
Y
E[h1 (X1 ), . . . , hn (Xn )] = E[hi (Xi )]]
i=1

FPR 27
3.2. Espérance et identification de loi

Corollaire 3.2.1. Soient X, Y des variables aléatoires réelles indépendantes admettant des
moments d’ordre 2. Alors, cov(X, Y ) = 0 et var(X + Y ) = var(X) + var(Y ).

Attention. La réciproque est fausse. Si par exemple U est une variable aléatoire de loi uniforme
sur ] − 1, 1[ et V = U 2 , alors un calcul montre que cov(U, V ) = 0. Pourtant, U et V ne sont pas
indépendantes. En effet,

P(|U | < 1/2, V > 1/2) = 0 mais P(|U | > 1/2)P(V > 1/2) > 0.

Démonstration. Si X ⊥
⊥ Y , alors

cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[X − E[X]] · E[Y − E[Y ]] = 0.

3.2.3 Le problème de moments


Le problème de moments consiste à se demander si la donnée des E[X p ] pour p parcourant N
permet d’identifier PX . En fait, on sous-entend par là deux questions :
— Existence. Étant donné une suite (mp )p∈N , existe-t-il une variable aléatoire réelle X telle que
E[X p ] = mp pour tout p ≥ 0 ?
— Si X et Y sont deux variables aléatoires telles que E[X p ] = E[Y p ], a-t-on PX = PY .
Nous verrons que la réponse à ces questions dépend de du support de la loi cible.

Définition 3.2.1. Soit (mp )p ∈ RN . On dit que (mp )p est complètement monotone si :

∀k ≥ 0, ∀p ≥ 0, (−1)k (∆k m)p ≥ 0.


Ici, (∆m)p = mp+1 − mp , (∆2 m)p = (mp+2 − mp+1 ) − (mp+1 − mp ) = mp+2 − 2mp+1 + mp .

Théorème 3.2.2 (des moments de Hausdorff). Soit (mp )p ∈ RN . Cette suite est une suite
des moments d’une mesure µ à support dans [0, 1], i.e
Z 1
mp = xp dµ(x)
0
pour tout p ∈ N si, et seulement si, la suite (mp )p est complètement monotone.

Démonstration. Le caractère nécessaire de la complète monotonie est clair si l’on remarque que
Z 1
k k
(−1) (∆ m)p = xp (1 − x)k dµ(x) ≥ 0.
0
On admettra l’autre implication.

28 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Théorème 3.2.3. Une suite (mp )p ∈ RN est la suite des moments d’une mesure à support
non borné dans R si, et seulement si, pour toute suite non nulle (aj )j ∈ CN à support fini,
X
mj+k aj ak > 0
j,k∈N

Démonstration. On admet que la condition est suffisante. Pour la réciproque, on a


2
X Z ∞
X
j
mj+k aj ak = aj x dµ(x) ≥ 0.
j,k∈N R j=0

Remarque. Le support d’une mesure borélienne est l’intersection des fermés dont le complémen-
taire est de mesure nulle.

Proposition 3.2.2. Si µ est une mesure borélienne sur [0, 1] à support compact, alors µ est
caractérisé par la suite de ses moments,
Z 1 
p
x dµ(x) .
0 p∈N

Remarque. Sans l’hypothèse de compacité du support, on perd l’unicité. Voir par exemple l’exer-
cice 7 de la feuille du TD 5.

Démonstration. On considère deux mesures µ et ν telles que pour tout p ∈ N,


Z 1 Z 1
p
x dµ(x) = xp dν(x).
0 0
On a donc par linéarité que pour tout Q ∈ R[X],
Z 1 Z 1
Q(x) dµ(x) = Q(x) dν(x).
0 0
Maintenant, soit f : [0, 1] −→ R continue. Par le théorème de Stone-Weierstrass, pour tout
ε > 0, il existe Qε ∈ R[X] tel que kf − Qε k∞,[0,1] ≤ ε. On a alors

Z 1 Z 1 Z 1
f (x) dµ(x) − f (x) dν(x) = (f (x) − Qε (x)) dµ(x)
0 0 0
Z 1
− (f (x) − Qε (x)) dν(x)
0
Z 1 Z 1
+ Qε (x) dµ(x) − Qε (x) dν(x) .
0 0
| {z }
=0

FPR 29
3.3. Transformées exponentielles

Enfin,

Z 1 Z 1 Z 1
f (x) dµ(x) − f (x) dν(x) ≤ (f (x) − Qε (x)) dµ(x)
0 0 0
Z 1
+ (f (x) − Qε (x)) dν(x)
0
Z 1 Z 1
≤ kf − Qε k∞,[0,1] dµ(x) + kf − Qε k∞,[0,1] dν(x).
0 0

≤ ε µ([0, 1]) + ν([0, 1]) ≤ 2ε.
R1 R1
Ainsi, 0 f (x) dµ(x) = 0 f (x) dν(x) pour tout f ∈ C([0, 1], R). On en déduit que µ = ν.

3.3 Transformées exponentielles


3.3.1 Fonction caractéristique

Définition 3.3.1. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire. On définit sa fonction carac-


téristique ϕX : Rd −→ C par
h Pd i
ϕX (t) = E eitX = E ei k=1 tk Xk ,
 

pour tout t = (t1 , . . . , tk ) ∈ Rd .

Remarques.
— ϕX est toujours bien définie car eitX ≤ 1 et eitX ∈ L1 (Ω, F, P).
— Pour tout t ∈ Rd , on a
Z
ϕX (t) = eitx dPX (x).
R
C’est la transformée de Fourier de PX .

Exemple. Soit λ > 0 et U une variable aléatoire suivant une loi de Laplace de paramètre λ, i.e
que U a pour densité fU (x) = λ2 e−λ|x| . Pour tout t ∈ R, on a

λ2
Z
λ
itU
E[e ] = eitx e−λ|x| dx = 2 .
R 2 λ + t2
1
On a alors ϕU (λt) = 1+t2
.

Théorème 3.3.1. La fonction caractérise la loi : si X et Y sont deux variables aléatoires


réelles telles que ϕX = ϕY , alors PX = PY .

30 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Proposition 3.3.1. Soit X un vecteur aléatoire et ϕX sa fonction caractéristique. On a les


propriétés suivantes.
(i) Pour tout t ∈ Rd , |ϕX (t)| ≤ 1.
(ii) Pour tout t ∈ Rd , ϕX (−t) = ϕX (t).
(iii) ϕX (0) = 1.
(iv) ϕX est uniformément continue.
(v) ϕX est de type positif.

Théorème 3.3.2 (Bochner-Herglotz). Soit ϕ : Rd −→ C continue en 0 avec ϕ(0) = 1


et de type positif. Alors, ϕ est la fonction caractéristique d’une vecteur aléatoire.

Théorème 3.3.3 (inversion de Fourier). Soit X un vecteur aléatoire à valeurs dans Rd de


fonction caractéristique ϕX . On suppose que ϕX est intégrable sur Rd . Alors, X admet une
densité fX continue et bornée définie par
Z
1
fX (x) = e−itx ϕX (t) dt,
(2π)d Rd
pour tout x ∈ R.

Théorème 3.3.4. Soit X = (X1 , . . . , Xn ) un vecteur aléatoire. Alors, les Xi sont mutuelle-
ment indépendantes si, et seulement si, pour tout t = (t1 , . . . , tn ) ∈ Rn ,
n
Y
ϕX (t) = ϕXk (tk ).
k=1

Proposition 3.3.2. Si X et Y sont des variables aléatoires indépendantes réelles, alors pour
tout t ∈ R,

ϕX+Y (t) = ϕX (t)ϕY (t).

Remarque. On généralise bien évidemment le résultat à une somme de n variables aléatoires in-
dépendantes de même loi.

Proposition 3.3.3. Soit X est une variable aléatoire réelle de fonction caractéristique ϕX et
p ∈ N∗ . On a les résultats suivants.
(i) Si E[|X|p ] < ∞, alors ϕX est de classe C p , et

ϕ(k) (0) = ik E[X k eitX ]


pour tout k ∈ [[1, p]].

FPR 31
3.3. Transformées exponentielles

(ii) Réciproquement, si ϕX est p-fois dérivable en zéro, alors E[|X|k ] < ∞ pour tout k ∈
[[1, 2bp/2c]].

Exemple. Si X ∼ E(λ), fX (x) = λe−λx pour tout x ∈ R+ . On a pour tout t ∈ R,


Z ∞
λ
ϕX (t) = eitx λe−λx dx = .
0 λ − it
−2λ
Ainsi, ϕ0X (t) = λi
(λ−it)2
, donc E[X] = λ1 . De même, ϕ00X (t) = (λ−it)3
, donc E[X 2 ] = 1
λ2
. On retrouve
1
que var(X) = λ2
.

3.3.2 Autres transformées exponentielles

Définition 3.3.2 (fonction génératrice). Soit X une variable aléatoire à valeurs dans N. On
appelle fonction génératrice de X la fonction GX : [0, 1] → R, s 7→ E[sX ]. Elle est telle que
pour tout s ∈ [0, 1],

X
GX (s) = P(X = k)sk .
k=0

Plus généralement, si X = (X1 , . . . , Xd ) est un vecteur aléatoire à valeurs dans Nd . On pose


h i
Xk
GX (s1 , . . . , sd ) = E sX1
1
· · · s d .

Remarques.
— On a le lien “formel” GX (eit ) = ϕX (t).
— Le rayon de convergence de la série dont GX est la somme a un rayon de convergence d’au
moins 1 puisque GX (1) = 1. On en déduit alors que GX est de classe C ∞ sur [0, 1[, et pour
tout n ∈ N,

(n)
GX (0) = n!P(X = n).
La fonction génératrice caractérise la loi.
— Soit n ∈ N∗ . Par le théorème de dérivation sous le signe somme, GX est n-fois dérivable en 1
si, et seulement si, E[X n ] < ∞ et

(n)
GX (1) = E[X(X − 1) · · · (X − n + 1)].
C’est le moment factoriel.

Exemples.
— Si X ∼ B(p), alors GX (s) = 1 − p + ps pour tout s ∈ [0, 1].
ps
— Si X ∼ G (p), GX (s) = 1−(1−p)s pour tout s ∈ [0, 1].
— Si X ∼ P(λ), GX (s) = eλ(s−1) pour tout s ∈ [0, 1].

32 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Proposition 3.3.4. Soient X et Y des variables aléatoires à valeurs dans N. Alors,


(i) X et Y sont indépendantes si, et seulement si, pour tout s, t ∈ [0, 1], G(X,Y ) (s, t) =
GX (s)GY (t).
(ii) Si X et Y sont indépendantes, alors GX+Y = GX GY .

Exemples.
— Si X ∼ B(n, p), alors GX (s) = (1 − p + ps)n pour tout s ∈ [0, 1].
— Si X ∼ P(λ) et Y ∼ P(µ) sont des v.a.r indépendantes, alors on voit que GX+Y (s) =
e(λ+µ)(s−1) pour tout s ∈ [0, 1]. Puisque la fonction génératrice de X + Y caractérise sa loi, on
voit que X + Y ∼ P(λ + µ)

Définition 3.3.3. Soit X un vecteur aléatoire à valeurs dans Rd . On définit la transformée


de Laplace de X par

LX : Rd −→ [0,∞] 
t 7−→ E eht,Xi

Remarque.
— On a “ϕX (t) = LX (it)”.
— Contrairement à la fonction caractéristique ou la fonction génératrice, LX peut prendre ∞
comme valeur.

Proposition 3.3.5. Soit X une variable aléatoire.


(i) LX (0) = 1.
(ii) Si LX (t) < ∞ pour tout t dans un voisinage de zéro, alors LX y est analytique :
∞ n
X t (n)
LX (t) = E[X n ] et E[X n ] = LX (0) pour tout n ∈ N.
n!
n=0

En particulier, X ∈ Lp (Ω, F, P) pour tout p ≥ 1.

Remarque. Si X est une variable positive, on pourra considérer alternativement

L̃X (t) = E e−tX


 
pour tout t ≥ 0.

Proposition 3.3.6. Soient X et Y des variables aléatoires réelles.


(i) X et Y sont indépendantes si, et seulement si, L(X,Y ) (s, t) = LX (s)LY (t) pour tout

FPR 33
3.4. Probabilités, lois et espérances conditionnelles

s, t ∈ R.
(ii) Si X et Y sont indépendantes, alors LX+Y = LX LY .

Exemples.
— Si X ∼ E(λ), alors fX (x) = λe−λx 1x≥0 avec λ > 0. Alors,

λ
L̃X (t) = ,
λ+t
pour tout t ∈ R\{−λ}.
λn n−1 −λx
— Si Y ∼ Γ(n, λ), alors fY (x) = Γ(n) x e 1x≥0 avec λ > 0. On a alors,
 n
λ
L̃Y (t) = ,
λ+t
pour tout t ∈ R\{−λ}. Ainsi, si X1 , . . . , Xn ∼ E(λ) sont des variables mutuellement indépen-
dantes, alors X1 + · · · + Xn ∼ Γ(n, λ).

3.4 Probabilités, lois et espérances conditionnelles


3.4.1 Probabilités conditionnelles

Définition 3.4.1. Soit (Ω, F, P) un espace probabilisé. Soit A ∈ F, tel que P(A) > 0. On
définit la probabilité conditionnelle “sachant A” comme la probabilité définit pour B ∈ F par

P(A ∩ B)
P(B|A) = .
P(A)

Remarques.
— On doit bien évidemment vérifier que B 7−→ P(B|A) définit une probabilité.
— Si B ∈ F est un évènement indépendant de A, alors P(B|A) = P(B). Cela est cohérent avec
le sens que l’on veut donner à des probabilités conditionnelles.

F
Proposition 3.4.1 (formule des probabilités totales). Si Ω = i∈N Ai est une partition au
plus dénombrable d’évènements de Ω telle que P(Ai ) > 0 pour tout i ∈ I. Alors, pour tout
B ∈ F,
X
P(B) = P(B|Ai )P(Ai ).
i∈N

F
Démonstration. Écrire B = B ∩ Ω = i∈N (B ∩ Ai ) et utiliser la σ-additivité de la probabilité P.

34 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS

Exemple. Si l’on écrit Ω = A t Ac , alors pour tout B ∈ F,

P(B) = P(B|A)P(A) + P(B|Ac )P(Ac ).

F
Proposition 3.4.2 (formule de Bayes). Si Ω = i∈N Ai est une partition dénombrable
d’évènements avec P(Ai ) > 0 pour tout i ∈ N. Soit B ∈ F tel que P(B) > 0. Alors, pour tout
i ∈ N,

P(B|Ai )P(Ai )
P(Ai |B) = P .
j∈N P(B|Aj )P(Aj )

C’est une inversion de conditionnement.

Démonstration. On écrit

P(Ai ∩ B) P(B|Ai )P(Ai )


P(Ai |B) = = ,
P(B) P(B)
formule à laquelle on applique la formule des probabilités totales (au dénominateur).

3.4.2 Loi et espérance conditionnelle

Définition 3.4.2. Soit X une variable aléatoire discrète et x0 ∈ X(Ω) tel que P(X = x) > 0.
On appelle loi conditionnelle sachant {X = x0 } la loi définie par

PX=x0 = P(B|X = x0 ) pour tout B ∈ F.


On appelle espérance conditionnelle sachant {X = x0 }, noté E[ · |X = x0 ], l’espérance sous la
loi PX=x0 .

Exemple. On lance deux dés équilibrés à six faces. On note X et Y les résultats. Alors,

6
X
E[X | X + Y = 8] = kP(X = k | X + Y = 8)
k=1
6
X P(X = k)P(Y = 8 − k)
= k
P(X + Y = 8)
k=1
6
X P(X = k, X + Y = 8)
= k
P(X + Y = 8)
k=1
6
X P(X = k, X + Y = 8)
= k
P(X + Y = 8)
k=2
6
X 1/36
= k =4
5/36
k=2

FPR 35
3.4. Probabilités, lois et espérances conditionnelles

En moyenne, un dé vaut 4. On aurait pu faire le calculer en écrivant que E[X | X + Y = 8] =


E[Y | X + Y = 8] et E[X + Y | X + Y = 8] = 8.

Définition 3.4.3. Soit (X, Y ) un couple de variables aléatoires, de densité f(X,Y ) . On définit
la densité conditionnelle de Y sachant {X = x0 } par

f(X,Y ) (x, y) f(X,Y ) (x, y)


fY |X=x0 (y) = =R ,
fX (x) R f(X,Y ) (x, y) dy
pour tout y ∈ R. C’est une densité de probabilité. L’espérance associée est l’espérance condi-
tionnelle sachant {X = x0 }, i.e que si h : R −→ R est une fonction mesurable bornée, alors,
Z
E[h(Y ) | X = x0 ] = h(y)fY |X=x0 (y) dy.
R

36 FPR
Chapitre 4

Convergence de variables aléatoires

4.1 Différents modes de convergence


On commence par rappeler l’énoncé du lemme de Borel-Cantelli.

Lemme 4.1.1. Soit (Ω, F, P) un espace de probabilités, et (An )n∈N une suite d’évènements.
Alors,
(i) Si ∞
P
n=0 P(An ) < ∞, alors,
 
P lim sup An = 0.
n→∞

Les évènements se produisent un nombre fini de fois.


P∞
(ii) Si les éléments de (An )n sont mutuellement indépendants, et si n=0 P(An ) = ∞, alors,
 
P lim sup An = 1.
n→∞

Les évènements se produisent une infinité de fois.

T S
Démonstration. On rappelle que lim supn→∞ An = n∈N k≥n Ak (intersection d’union décrois-
sante). Ainsi,
 
  [
P lim sup An = lim P  An  .
n→∞ n→∞
k≥n
P∞
(i) Si n=0 P(An ) < ∞, alors par sous-additivité,
 
[ ∞
X
P Ak  ≤ P(Ak ) −−−→ 0,
n→∞
k≥n k=n

d’où le résultat.
P∞
(ii) Si les éléments de (An )n sont mutuellement indépendants, et si n=0 P(An ) = ∞, on a
4.1. Différents modes de convergence

 c   
P lim sup An = P lim inf Acn
n→∞ n→∞

 
[ \
= P Ack 
n→∞ k≥n

 
\
= lim P  Ack  .
n→∞
k≥n

Par indépendance mutuelle, on a pour tout n ∈ N que


 
\ Y Y
P Ack  = P(Ack ) = (1 − P(Ak )).
k≥n k≥n k≥n

En passant au logarithme et en utilisant l’inégalité de concavité “ln(1 − x) ≤ −x”, on a


  
\ X
ln P  Ack  = ln(1 − P(Ak )) ≤
k≥n k≥n

4.1.1 Convergence presque sûre

Définition 4.1.1. On dit qu’une suite (Xn )n∈N de variables aléatoires converge presque sû-
rement vers une variable aléatoire X si
n o
P ω ∈ Ω | lim Xn (ω) = X(ω) = 1.
n→∞

p.s
Notation. Xn −−−→ X.
n→∞

Remarques.
— En d’autres termes, (Xn )n converge simplement vers X sur un ensemble de mesure pleine.
— Cet ensemble est mesurable comme ensemble de points d’égalités des lim inf et des lim sup des
Xn , qui sont des fonctions mesurables.
— On a
n o \ [ \  1

P ω ∈ Ω | lim Xn (ω) = X(ω) = |Xk (ω) − X(ω)| < .
n→∞ p
p≥1 n≥1 k≥n
| {z }
décroissante en p

Ce qui justifie aussi la mesurabilité.

38 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES

— Par monotonie,
p.s
S n o
T 1
Xn −−−→ X ⇐⇒ ∀p ≥ 1, P |Xk (ω) − X(ω)| < =1
n→∞ S n≥1 T k≥n p

⇐⇒ ∀ε > 0, P n≥1 k≥n {|Xk (ω) − X(ω)| < ε} = 1
⇐⇒ ∀ε > 0, P (lim inf n→∞ {|Xn − X| < ε}) = 1
⇐⇒ ∀ε > 0, P (lim supn→∞ {|Xn − X| > ε}) = 0.

Corollaire 4.1.1. Soit (Xn )n une suite de variables aléatoires, et X une variable aléatoire.
(i) Si l’on suppose que pour tout ε > 0, ∞
P
n=0 P(|Xn − X| > ε) < ∞. Alors, (Xn )n converge
presque sûrement vers X.
(ii) Si l’on suppose que les Xn sont mutuellement indépendantes, alors :

p.s X
Xn −−−→ 0 ⇐⇒ ∀ε > 0, P(|Xn | > ε) < ∞.
n→∞
n=0

Démonstration. Appliquer le lemme de Borel-Cantelli à la définition de convergence presque


sûre.

p.s
Proposition 4.1.1. Si Xn −−−→ X et si f est une fonction continue, alors
n→∞
p.s
f (Xn ) −−−→ f (X).
n→∞

Démonstration. Par continuité de f , f (Xn (ω)) −−−→ f (X(ω)). On en déduit que


n→∞
n o n o
P ω ∈ Ω | f (Xn (ω)) −−−→ f (X(ω)) ≥ P ω ∈ Ω | Xn (ω) −−−→ X(ω) = 1.
n→∞ n→∞

4.1.2 Convergence en probabilité

Définition 4.1.2. On dit qu’une suite (Xn )n de variables aléatoires convergence en probabilité
vers X si :

∀ε > 0, lim P(|Xn − X| > ε) = 0.


n→∞

P
Notation. Xn −−−→ X.
n→∞

P P
Proposition 4.1.2 (unicité de la limite). Si Xn −−−→ X et Xn −−−→ Y , alors X = Y
n→∞ n→∞
P-p.p.

FPR 39
4.1. Différents modes de convergence

P
Proposition 4.1.3. Si Xn −−−→ X et si f est une fonction continue, alors
n→∞
P
f (Xn ) −−−→ f (X).
n→∞

Remarque. On peut métriser la convergence en probabilité de la manière suivante : pour tout


X, Y ∈ L0 (Ω, F, P), on pose
dP (X, Y ) = E[min{[|X − Y ], 1}].
L’espace métrique (L0 (Ω, F, P), dP ) est un espace complet.

4.1.3 Convergence Lp

Définition 4.1.3. Soit p ≥ 1. On dit que qu’une suite (Xn )n de variables aléatoires converge
vers la variable aléatoire X dans Lp si

kXn − Xkp −−−→ 0,


n→∞

i.e E[|Xn − X|p ] −−−→ 0.


n→∞

Lp
Notation. Xn −−−→ X.
n→∞

Remarque. En vertu de l’inégalité de Hölder, si q ≤ p, alors une convergence Lp implique une


convergence Lq .

4.1.4 Convergence en loi

Définition 4.1.4. On dit que qu’une suite (Xn )n de variables aléatoires converge en loi vers
la variable aléatoire X si pour toute fonction f continue et bornée,

E[f (Xn )] −−−→ E[f (X)].


n→∞

L
Notation. Xn −−−→ X.
n→∞

Remarque. Une convergence en loi se réécrit de la manière suivante : pour toute fonction f
continue et bornée,
Z Z
f (x) dPXn (x) −−−→ f (x) dPX (x).
R n→∞ R
C’est la convergence “étroite” de PXn vers PX . La particularité de cette loi est qu’elle ne dépend que
des lois des Xn et de X.

40 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES

Lemme 4.1.2 (portemanteau). Soit (Xn )n une suite de variable aléatoire, et X une variable
aléatoire. Sont équivalents.
(i) (Xn )n converge en loi vers X.
(ii) Pour tout fermé F ,

lim sup P(Xn ∈ F ) ≤ P(X ∈ F ).


n→∞

(iii) Pour tout ouvert O,

lim inf P(Xn ∈ O) ≥ P(X ∈ O).


n→∞

(iv) Pour tout borélien B tel que P(X ∈ ∂B) = 0, on a

lim P(Xn ∈ B) = P(X ∈ B).


n→∞

Proposition 4.1.4. Soit (Xn )n une suite de variables aléatoires réelles. Alors, (Xn )n converge
en loi vers la variable aléatoire X si, et seulement si, FXn (t) −−−→ FX (t) pour tout point de
n→∞
continuité t ∈ R de FX .

Théorème 4.1.1. La suite (Xn )n∈N converge en loi vers X si, et seulement si, pour tout
t ∈ R, ϕXn (t) −−−→ ϕX (t).
n→∞

Théorème 4.1.2 (Levy). Soit (ϕXn )n une suite de fonctions caractéristiques qui converge
ponctuellement vers une fonction ϕ. Alors, si ϕ est continue en zéro, elle est une fonction
caractéristique d’une variable aléatoire X telle que
L
Xn −−−→ X.
n→∞

Théorème 4.1.3 (continuous mapping theorem). Soit (Xn )n une suite de variables aléatoires,
et X une variable aléatoire telle que
L
Xn −−−→ X.
n→∞

Si f est continue PX -p.p (presque sûrement), alors


L
f (Xn ) −−−→ f (X).
n→∞

FPR 41
4.2. Articulation des modes de convergence

4.2 Articulation des modes de convergence


4.2.1 Convergence presque sûre en probabilité

p.s P
Lemme 4.2.1. — Si Xn −−−→ X, alors Xn −−−→ X.
n→∞ n→∞
P p.s
— Si Xn −−−→ X, alors il existe une sous-suite (Xϕ(n) )n telle que Xϕ(n) −−−→ X.
n→∞ n→∞

4.2.2 Convergences Lp , p.s, P

p.s
Lemme 4.2.2. Si Xn −−−→ X, et qu’il existe une variable aléatoire Y ∈ L1 (Ω, F, P) telle
n→∞
que |Xn | ≤ Y pour tout n ∈ N, alors

L1
Xn −−−→ X.
n→∞

Démonstration. Appliquer le théorème de convergence dominée.

Lp P
Lemme 4.2.3. Si Xn −−−→ X, alors Xn −−−→ X.
n→∞ n→∞

Définition 4.2.1. Une famille de (Xi )i∈I de variables aléatoires est dite uniformément
intégrable (ou équi-intégrable) si

lim sup E[|Xi |1|Xi |>n ] = 0.


n→∞ i∈I

Proposition 4.2.1. La famille (Xi )i∈I est uniformément intégrable si, et seulement si,
— (Xi )i est bornée dans L1 , i.e

sup E[|Xi |] < ∞,


i∈I

— pour tout ε > 0, il existe δ > 0, tel que pour tout A ∈ F,


 
(P(A) < δ) =⇒ sup E[|Xi |1A ] < ε .
i∈I

Proposition 4.2.2. Soit (Xn )n une suite de variables aléatoires intégrables. Sont équivalents.
L1
(i) Xn −−−→ X.
n→∞
P
(ii) (Xn )n∈N est uniformément intégrable et Xn −−−→ X.
n→∞

42 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES

p.s

sous-suite
convergente

limite constante

Convergence
P L
dominée

uniforme
intégrabilité

Lp

Figure 4.1 – En résumé.

4.2.3 Convergence en loi et autres modes

P L
Lemme 4.2.4. Si Xn −−−→ X∞ , alors Xn −−−→ X∞ .
n→∞ n→∞

Démonstration. Soit t ∈ R, ε > 0, et n ∈ N. On a

|ϕXn (t) − ϕX∞ (t)| = |E[eitXn − eitX∞ ]|


≤ |t| · E[min(|Xn − X∞ |, 2)]
≤ |t|E[|Xn − X∞ |1|Xn −X∞ |<ε ] + |t|E[min(|Xn − X∞ |, 2))1|Xn −X∞ |≥ε ]
≤ |t|ε + 2|t|P(|Xn − X∞ | ≥ ε).

On en déduit que lim sup |ϕXn (t) − ϕX∞ (t)|...

p.s, L1 L
Corollaire 4.2.1. Si Xn −−−−→ X∞ , alors Xn −−−→ X∞ .
n→∞ n→∞

L P
Lemme 4.2.5. Si Xn −−−→ c ∈ R, alors Xn −−−→ c.
n→∞ n→∞

Démonstration. Soit ε > 0. On a P(|Xn − c| > ε) = P(Xn < c − ε) + P(Xn > c − ε). La variable
aléatoire constante à c a pour fonction de répartition la fonction Fc = 1[c,∞[ . On a alors

P(|Xn − c| > ε) = Fc ((c − ε)− ) +1 − Fc (c + ε) = 0 + 1 − 1 = 0.


| {z } | {z }
=0 =0

FPR 43
4.2. Articulation des modes de convergence

44 FPR
Chapitre 5

Théorèmes limites

Dans tout le chapitre, on se place dans un espace de probabilité (Ω, F, P). On suppose que dans
cette espace est définie une suite de variables (Xn )n∈N indépendantes (mutuellement) identiquement
distribuées (i.i.d).

5.1 Loi des grands nombres (LGN)


5.1.1 Loi faible des grands nombres


Lemme 5.1.1. Soit a, b ∈ CN , des suites telles que |ai | ≤ 1 et |bi | ≤ 1 pour tout i ∈ N∗ .
Alors pour tout n ∈ N∗ ,
n
Y n
Y n
X
ai − bi ≤ |ai bi |.
i=1 i=1 i=1

Démonstration. Par récurrence.

Théorème 5.1.1. Soit (Xn )n une suite de variables aléatoire i.i.d intégrables (i.e E[|X1 |] <
∞), alors
n
Sn 1X P
= Xi −−−→ E[X1 ].
n n n→∞
i=1

Remarque. Alors que la moyenne des n premiers Xi est une variable aléatoire, la limite elle est
purement déterministe.

Démonstration. — On suppose dans un premier temps les Xi sont éléments de L2 (Ω, F, P). Soit
ε > 0. On remarque que E[ Snn ] = E[X1 ]. Par l’inégalité de Tchebytchev, on a

var( Snn )
 
Sn 1 1 1
P − E[X1 ] > ε ≤ 2
= 2 2 var(Sn ) = 2 2 n var(X1 ) = 2 var(X1 ) −−−→ 0.
n ε n ε n ε nε n→∞
5.2. Théorème limite central (TLC)

— Quitte à considérer les Xi − E[Xi ], on peut supposer E[Xi ] = 0. Selon le lemme 4.2.5, il suffit
Sn L
ici de montrer que montrer que n − −−→
n→∞
0. Soit t ∈ R, par indépendance,
 n
h it Pn
Xi
i t
ϕ Sn (t) = E e n i=1 = ϕX1 .
n n
D’après le lemme précédent,
 
t
ϕ Sn (t) − 1 ≤ n ϕX1 −1 .
n n
Puisque E[|Xi |] < ∞, ϕX1 est dérivable en zéro et ϕ0X1 (0) = iE[X1 ] = 0. On écrit alors
 
n t
t· ϕX1 − 1 −−−→ t · |ϕ0X1 (0)| = 0
t n n→∞

en remarquant que le membre de gauche est un taux d’accroissement en zéro. En conclusion,

5.1.2 Loi forte des grands nombres

Théorème 5.1.2. Soit (Xn )n une suite de variables aléatoire i.i.d intégrables (i.e E[|X1 |] <
∞), alors
n
Sn 1X p.s, L1
= Xi −−−−→ E[X1 ].
n n n→∞
i=1

Sn p.s
Remarque. Si une suite (Xn )n de variables aléatoires i.i.d vérifie n − −−→
n→∞
c ∈ R, alors E[|X1 |] <
∞ et c = E[X1 ].

5.2 Théorème limite central (TLC)


Il faut bien comprendre dans le théorème “limite centrale” que les mots “limite” et “central” sont
des adjectifs. Ce théorème est en fait un raffinement de la loi des grands nombres.

5.2.1 Théorème limite central

Théorème 5.2.1. Soit (Xn )n une suite de variables aléatoires i.i.d avec E[|Xi |2 ] < ∞. On
pose σ 2 = var(X1 ). Alors,


 
Sn L
n − E[X1 ] −−−→ N (0, σ 2 ).
n n→∞

De manière équivalente,
√  
n Sn L
− E[X1 ] −−−→ N (0, 1).
σ n n→∞

46 FPR
Chapitre 5. THÉORÈMES LIMITES

Remarques.
— Le théorème
  limite central assure que la vitesse de convergence dans la loi des grands nombres
est O √1n .
— La loi gaussienne N (0, 1) apparaît comme une loi limite universelle.
Avant de démontrer ce théorème, nous avons besoin d’une estimation sur le reste d’ordre quel-
conque du développement de Taylor de l’exponentielle complexe.

Lemme 5.2.1. Pour tout x ∈ R, et p ∈ N∗ . Alors,


p
(ix)k |x|p+1 2|x|p
X  
ix
e − ≤ min , .
k! (p + 1)! p!
k=0

Démonstration. Utiliser le théorème de Taylor reste intégral. On majore sans soucis pour faire
apparaître le premier terme du minimum. Pour le second, on intègre par parties le reste.

On montre désormais le théorème limite central.

Démonstration. Quitte à considérer Xi −E[X σ


i]
, on peut supposer que E[Xi ] = 0 et var(Xi ) = 1. On
S
calcule la fonction caractéristique de √n : par indépendance, pour tout t ∈ R,
n

 n
t
ϕ√
Sn (t) = ϕX1 √ .
n n
Puisque X1 admet un moment d’ordre 2, ϕX1 est deux fois dérivable. Alors,

t2 00 t2
ϕX1 (t) = 1 + tϕ0X1 (0) + ϕX1 (0) + o(t2 ) = 1 − + o(t2 ).
2 2
t2
D’après le lemme 5.1.1 avec ai = ϕX1 ( √tn ) et bi = 1 − 2n , on a
n
t2 t2
    
t
Sn (t) −
ϕ√ 1− ≤ n ϕX1 √ − 1−
n 2n n 2n
On applique ensuite le lemme précédent, et alors,

t2 |t|3 |X1 |3 |t|2 |X1 |2


     
t
ϕX1 √ − 1− ≤ min , .
n 2n 6n3/2 n
On en déduit que
n
t2
 3
|t| |X1 |3
 
2 2
Sn (t) −
ϕ√ 1− ≤ min √ , |t| |X1 | .
n 2n 6 n

Remarque.

FPR 47
5.2. Théorème limite central (TLC)

Pn Soit (Xn )n une suite de∗ variables indépendantes avec var(Xi ) < ∞. On
Théorèmep5.2.2.
pose σn = k=1 var(Xi ) pour tout n ∈ N . Alors,
n
1 X L
Zn = (Xi − E[Xi ]) −−−→ N (0, 1).
σn n→∞
k=1

5.2.2 Retour sur les applications de la loi des grands nombres


Méthode de Monte-Carlo

48 FPR
Chapitre 6

Vecteurs gaussiens

On rappelle qu’une variable gaussienne est une variable aléatoire réelle X ∼ N (m, σ 2 ) si elle
admet la densité
(x−m)2
e− 2σ 2
x 7−→ fX (x) = √ .
2πσ 2
De plus, on a pour tout t ∈ R,
σ 2 t2
ϕX (t) = eitm e− 2 .
On remarque de plus que X−m σ ∼ N (0, 1). Inversement, si Y ∼ N (0, 1), alors σY + m ∼ N (m, σ 2 ).
2
Dans le cas où σ = 0, on dit que X est dégénérée : X = m presque sûrement. On rappelle enfin des
notations usuelles : h · , · i dénotera le produit scalaire euclidien sur Rd et k · k la norme euclidienne
usuelle.

6.1 Vecteurs gaussiens


6.1.1 Définitions et propriétés élémentaires

Définition 6.1.1 (vecteurs gaussiens). Un vecteur aléatoire X = (X1 , . . . , Xd )T est dit être
gaussien si toute combinaison linéaire de ses composantes est gaussienne, i.e que pour tout
a ∈ Rd , ha, Xi est gaussienne.

Remarques.
— Si X = (X1 , . . . , Xd )T est gaussien, alors en particulier pour tout i ∈ [[1, d]], Xi est une variable
gaussienne. La réciproque est fausse. Par exemple, si X ∼ N (0, 1), et ε ∼ B(±1, 1/2), alors
les composantes de (X, εX) sont des variables gaussiennes mais (X, εX) n’est pas un vecteur
gaussien car X + εX car elle n’est pas constante et

1
P(X + εX = 0) ≥ P(ε = −1) = .
2
On en déduit que cette variable a un atome donc elle ne peut pas être à densité (donc a fortiori
gaussienne). Un autre contre-exemple classique est de prendre X ∼ N (0, 1) et de poser Y = X
si |X| ≥ 1 et Y = −X sinon. Alors Y ∼ N (0, 1) mais (X, Y ) n’est pas gaussien.
6.1. Vecteurs gaussiens

— Si X est un vecteur gaussien, alors X est L2 . En effet, par Cauchy-Schwarz, on a

E[|Xi Xj |]2 ≤ E[Xi2 ]E[Xj2 ] < ∞.

— L’intérêt de l’étude des vecteurs gaussiens sera en fait de remarquer que tout se passe “bien”
dans l’espace des vecteurs gaussiens car cet espace est stable pour de nombreuses transforma-
tions linéaires.

Définition 6.1.2. Si X = (X1 , . . . , Xd )T est un vecteur gaussien, on définit sa moyenne


comme la quantité

m = (E[X1 ], . . . , E[Xd ])T .


De plus, on appelle matrice de covariance de X la matrice K = (cov(Xi , Xj ))i,j∈[[1,d]] .
Cette matrice est bien définie selon la remarque précédente.

Remarques.
— On rappelle que

cov(Xi , Xj ) = E[Xi Xj − E[Xi ]E[Xj ]].

— La matrice de covariance K est symétrique positive. En effet, si x ∈ Rd ,

d
!
X X
T
x Kx = xi xj cov(Xi , Xj ) = var xi Xi ≥ 0.
i,j∈[[1,d]] i=1

Proposition 6.1.1. Un vecteur gaussien X = (X1 , . . . , Xd )T de moyenne m et de matrice


de covariance K a pour fonction caractéristique la fonction définie pour tout x ∈ Rd ,
h i 1 T
ϕX (x) = E eihx,Xi = eihx,mi e− 2 x Kx .

Démonstration. Par définition, si X est gaussien et x ∈ Rd , alors hx, Xi est un variable gaussienne.
On a
" d # d
X X
E[hx, Xi] = E xk Xk = xk E[Xk ] = hx, mi .
k=1 k=1

De plus, selon la remarque précédente,


d
!
X
var(hx, Xi) = var xi Xi = xT Kx.
i=1

Ainsi, la fonction caractéristique de hx, Xi prise en t = 1 vaut


h i 1 T
E eihx,Xi = eihx,mi e− 2 x Kx .

50 FPR
Chapitre 6. VECTEURS GAUSSIENS

On remarque alors que la loi de X est entièrement caractérisée par m = E[X] et la matrice de
covariance K.

Notation. On note X ∼ Nd (m, K). La proposition précédente assure que cette notation est bien
fondée.

Remarque. Les caractéristiques d’un vecteur gaussien se lisent sur la transformée de Fourier
(i.e la fonction caractéristique). Par exemple, si
1 2 −2st+2t2 )
ϕX (s, t) = e2is+3it e− 2 (s ,
alors m = (2, 3) et
 
1 −1
K= .
−1 2
En fait, on trouve dans la partie imaginaire de l’exponentielle les composantes de m, et dans les
coefficients de la forme quadratique de l’exponentielle réelle les coefficients de K (qui sont les coef-
ficients de la forme quadratique en question).

Proposition 6.1.2. Soient X ∼ Nd (mX , KX ) et Y ∼ Nd (my , KY ). Si X et Y sont indépen-


dants, alors X + Y est gaussien et X + Y ∼ Nd (mX + mY , KX + KY ).

Démonstration. Soit x ∈ Rd . On a
h i
ϕX+Y (x) = E eihx,X+Y i
h i
= E eihx,Xi+ihx,Y i
h i h i
= E eihx,Xi + E eihx,Y i
 1 T
 1 T

= eihx,mX i e− 2 x KX x eihx,mY i e− 2 x KY x
1 T
= eihx,mX +mY i e− 2 x (K X +KY )x
.

Soit (X, Y ) = (X1 , . . . , Xd , Y1 , . . . , Yp )T ∈ Rd+p un vecteur gaussien de moyenne (mX , mY ) ∈


Rd+p et de matrice de covariance K(X,Y ) ∈ Md+p (R).

Proposition 6.1.3. Les vecteurs gaussiens X et Y sont indépendants si, et seulement si,
K(X,Y ) est diagonable par bloc, i.e
 
KX (0)
K(X,Y ) =
(0) Ky
avec KX ∈ Md (R) et KY ∈ Mp (R).

FPR 51
6.1. Vecteurs gaussiens

Démonstration. Le sens direct est clair. Pour la réciproque, on calcule la fonction caractéristique.
Soit (x, y)T ∈ Rd+p , on a

Proposition 6.1.4. Soient (Xn )n∈N une suite de vecteurs gaussiens dans Rd . On les note
tels que pour tout n ∈ N, Xn ∼ Nd (mn , Kn ). Alors, si (Xn )n converge en loi vers un certain
X, alors X est nécessairement gaussien. Plus particulièrement, (Xn )n converge en loi vers
X ∼ Nd (m, K) si, et seulement si, mn −−−→ m et Kn −−−→ K.
n→∞ n→∞

Démonstration. Voir TD.

Proposition 6.1.5. Soit X ∼ Nd (m, K) et A ∈ Mp,d (R). Alors, le vecteur AX est gaussien
et suit une loi Nd (Am, AKAT ).

Démonstration. Pour commencer, AX est gaussien car ses composantes sont des combinaisons li-
néaires du vecteur gaussien X. Ainsi, AX est aussi gaussien. En fait, pour tout x ∈ Rd ,

hAX, xi = X, AT x .
Déterminons maintenant sa moyenne et sa matrice de covariance. Par définition, si x ∈ Rd , alors
hAX, xi = X, AT x de sorte que

E[hAX, xi] = E[X], AT x = m, AT x = hAm, xi .


De plus,

X, AT x = (AT x)T K(AT x) = xT (AKAT )x.



var (hAX, xi) = var
On conclue par la caractérisation des vecteurs gaussiens.

Définition 6.1.3 (vecteur non dégénéré). Un vecteur gaussien X ∼ Nd (m, K) est dit être
non dégénéré si sa matrice de covariance est inversible.

Remarques.
— On dit alors que X est dégénéré si det K = 0.
— Le X est dégénéré s’il existe a ∈ Rd tel que Ka = 0. Alors, var(ha, Xi) = aT Ka = 0 de sorte
que aX est constante presque sûrement. On peut voir un vecteur dégénéré comme un vecteur
vivant dans un hyperplan de Rd . Par exemple, si Y1 , . . . , Yd−1 ∼ N (0, 1) sont des variables
indépendantes, alors le vecteur gaussien

d−1
!
X
X= Y1 , . . . , Yd−1 , − Yi
i=1

est dégénéré. On remarquera que X est gaussien parce que les Yi sont indépendantes.

52 FPR
Chapitre 6. VECTEURS GAUSSIENS

— En fait, X est non dégénéré si la forme quadratique associé à sa matrice de covariance est non
dégénérée ( ?).
— Si X ∼ Nd (m, K) est non dégénéré, K est symétrique définie positive. Si l’on diagonalise
orthogonalement K sous la forme K = P DP T avec P une matrice orthonormée et D √ =
diag(λ1 , . . . , λd ) avec λi > 0. Alors K admet une racine carrée matricielle qu’on note ici K.
On a alors
√ p p 
K = P diag λ1 , . . . , λd P T ,

et on a


 
−1 1 1
( K) = P diag √ ,..., √ PT.
λ1 λd
Avec une telle notation, on va pouvoir transformer X en l’équivalent d’une variable centrée
réduite.

Proposition
√ −1 6.1.6. Si X ∼ Nd (m, K) est un vecteur gaussien non dégénéré, alors
( K) (X − m) ∼ Nd (0, Id ).

Corollaire 6.1.1. Soit X ∼ Nd (m, K) un vecteur gaussien non dégénéré, alors X admet
comme densité (pour la mesure de Lebesgue sur Rd ) la fonction

fX : Rd −→ R
1 T −1
(x1 , . . . , xd ) 7−→ (2π)d/21√det K e− 2 (x−m) K (x−m) .

Démonstration. Si K = Id , i.e que X = (X1 , . . . , Xd )T et les Xi sont i.i.d et X1 ∼ N (0, 1) alors


pour tout x ∈ Rn ,

d
Y 1 1 2 1 − 12 kxk2
fX (x) = √ e − 2 xi = d/2
e .
i=1
2π (2π)
√ −1
Dans le cas général, on utilise le changement de variable x 7−→ K (x − m).

6.1.2 Théorème limite central multidimensionnel

Théorème 6.1.1. Soit (X n )n∈N = (X1n , . . . , Xdn )T n∈N une suite de vecteurs aléatoires in-


dépendants, de même loi avec m = (E[X11 ], . . . , E[Xd1 ]), et soit K la matrice de covariance,
qu’on suppose de déterminant strictement positif. Alors,
n
!
√ 1X i L
n X − m −−−→ Nd (0, K).
n n→∞
i=1

De manière équivalente,

FPR 53
6.1. Vecteurs gaussiens

n
!
√ −1 √ 1X i L
Zn = K n X − m −−−→ Nd (0, Id ).
n n→∞
i=1

Démonstration. Il faut et il suffit de montrer que


h i 1 2
ϕZn (x) = E eihx,Zn i −−−→ e− 2 kxk .
n→∞

√ √
 
−1 T
Pn 
1 i

Or, hx, Zn i = y n n i=1 X − m où Y = K ,x .
...

Remarque. Un urne contient un très grand nombre M de boules numérotées de 1 à d. On note pi


la
Pproportion de boules numérotées “i”. On suppose que pi > 0 pour tout i ∈ [[1, d]]. On a évidemment
d n
i=1 pi . On tire avec remise n boules dans l’urne. On note Ni le nombre de boules numérotées “i”
sur les n tirages, de sorte que

d
X
Nid = n.
i=1

Alors, la loi du vectuer N n = (N1n , . . . , Ndn )T est la loi multinomiale : pour tout (k1 , . . . , kd ) ∈ Nd ,

n!
P((N1n , . . . , Ndn ) = (k1 , . . . , kd )) = Qd pk11 . . . pkdd .
i=1 ki !

On veut connaître l’asymptotique de N n lors que n tend vers l’infini. On remarque que si Xk désigne
le numéro de la k-ième boule tirée, alors pour tout i ∈ [[1, d]] et n ∈ N∗ ,
n
X
Nin = 1Xk =i .
k=1

Par hypothèse, les Xk sont indépendants et

E[1Xk =i ] = P(Xk = i) = pi ,
et

cov(1Xk =i , 1Xk =j ) = E[1Xk =i 1Xk =j ] − E[1Xk =i ]E[1Xk =j ].


Cette covariance vaut pi (1 − pi ) si i = j, et −pi pj si i 6= j. D’après la loi des grands nombres
(appliquée à chaque coordonnée),

N n p.s
−−−→ p = (p1 , . . . , pd )T .
n n→∞
Et même, d’après le théorème limite central multidimensionnel,
 n


N L
n − p −−−→ Nd (0, K).
n n→∞

54 FPR
Chapitre 6. VECTEURS GAUSSIENS

6.2 Projections orthogonales


6.2.1 Théorème de Cochran

Définition 6.2.1 (loi du χ2P


). Soit X ∼ Nd (0, Id ). On appelle loi χ2 (“khi-deux”) à d degrés
de liberté la loi de kXk = di=1 Xi2 . En fait, X 2 ∼ Γ(d/2, 1/2), i.e que la densité associée
2

est
1
x 7−→ ...
2d Γ(d/2)

On considère une décomposition orthogonale


k
M
Rd = Vi avec dim(Vi ) = di pour tout i ∈ [[1, k]].
i=1
Pk
On a évidemment d = i=1 di . Pour tout i ∈ [[1, k]], on note ßVi la projection orthogonale sur
Vi .

Théorème 6.2.1 (Cochran). Soit X ∼ Nd (0, Id ). Alors, les projections orthogonales πVi (X)
sont des vecteurs gaussiens indépendants et pour tout i ∈ [[1, k]], kπVi (X)k2 ∼ χ2 (dim(Vi )).

Remarques.
— Si k = 2, alors Rd = V ⊕ V ⊥ . Alors, πV (X) et πV ⊥ (X) sont des variables indépendantes et

kπV (X)k2 ∼ χ2 (dim(V )) et kπV ⊥ (X)k2 ∼ χ2 (d − dim(V )).


En fait, le théorème de Cochrane s’apparente fortement à un théorème de Pythagore en
loi.
— Il existe un résultat analogue lorsque la loi n’est pas centré : si X ∼ Nd (0, K), il faut considérer
une décomposition orthogonale pour la forme quadratique définie pour tout x, y ∈ Rd par

hx, yiK = hx, Kyi .

Démonstration. On considère (ei,j ) 1≤i≤k une base orthonormée associée à la décomposition


1≤j≤di
k
M
Rd = Vi .
i=1

Alors, pour tout i ∈ [[1, k]],


di
X
πVi (X) = hX, ei,j i ei,j .
j=1

On en déduit que les vecteurs πVi (X) sont gaussiens car toute combinaison linéaire de leurs com-
posantes est une combinaison linéaire des composantes de X. Par orthogonalité, si (i, j) 6= (k, l),
alors

FPR 55
6.2. Projections orthogonales

cov(hX, ei,j i , hX, ek,l i) = eTi,j Id ek,l = 0.


Cela revient à dire que la matrice covariance du vecteur

(πV1 (X), πV2 (X), . . . , πVk (X))


est diagonale par blocs, i.e que les variables πVi (X) sont indépendantes. Puisque x 7−→ πV (x) est
une application linéaire, on en déduit que πV (X) ∼ N (0, πV Id πV T ), donc πV (X) = N (0, πV ) ( ? ? ?).
Ainsi,

kπV (X)k2 = χ2 (dim(V )).

6.2.2 Test d’adéquation du χ2


Soit X une variable aléatoire à valeurs dans un ensemble fini E = {a1 , . . . , ad }. On note p =
(p1 , . . . , pd ) la loi de X, i.e que P(X = ai ) = pi > 0 pour tout i ∈ [[1, d]]. Par ailleurs, on se donne une
loi cible Π = (π1 , . . . , πd ) sur E. Le problème est le suivant : au vu de n réalisations (x1 , . . . , xn ) de
variables (X1 , . . . , Xn ) (i.e que xi ∈ Xi (Ω)) mutuellement indépendantes de loi X, peut-on décider
si p = π ou non ? On introduit la statistique du χ2 : pour tout n ∈ N∗ ,
2
Nin

d
X n −π
Tn = n
π
i=1
Nn
où Nin = card{k ∈ [[1, n]] | xk = ai } pour tout i ∈ [[1, d]] et n ∈ N∗ . En fait, le terme ni est la propor-
tion empire, et πi est la proportion théorique. L’idée est que Tn mesure l’écart entre les proportions
empiriques et théoriques.

Théorème 6.2.2. On conserve les notations du paragraphe précédent.


(i) Sous l’hypothèse que “p = π”, alors

L
Tn −−−→ χ2 (d − 1).
n→∞

(ii) Sous l’hypothèse que “p 6= π”, alors

p.s
Tn −−−→ ∞.
n→∞

Démonstration. (i) D’après le théorème limite central multidimensionnel (application multino-


miale),

√ Nin
 
L
n −p −−−→ Nd (0, K)
n n→∞
 
avec Ki,j valant pi (1 − pi ) si i = j et −pi pj sinon. Si D = diag √1 , . . . , √1 . On a par le
π1 πd
continuous mapping theorem,

56 FPR
Chapitre 6. VECTEURS GAUSSIENS

√ √ Nn
  
L
nD n −p −−−→ DNd (0, K) = Nd (0, DKD−1 ).
n n→∞
√ √ T √
On a Σ := DKD−1 = Id − π π , i.e que Σ est la projection sur ( π)⊥ , qui est un espace
vectoriel de dimension d − 1. Sous l’hypothèse que p = π, on a

√ Nn
 
L
nD −p −−−→ Nd (0, Σ).
n n→∞

Ainsi,

2
√ Nn
 
L
Tn = nD −p −−−→ kNd (0, Σ)k2 ∼ χ2 (d − 1).
n n→∞

Nin
(ii) D’après la loi des grands nombres, n →
− pi . Si “p 6= π”, alors il existe k ∈ [[1, d]] tel que
pk 6= πk . On en déduit que
2
Nkn

p.s
Tn ≥ n − πk −−−→ ∞.
n n→∞

Mise en place du test.


— Soit α un seuil (par exemple 5%).
— Soit ηα un réel tel que

P(χ2 (d − 1) > ηα ) ≤ α.

— On calcule Tn sur les données xi :

d  2
n X Nin
Tn = −π .
πi n
i=1

— Si Tn = Tn (xi ).......

6.2.3 Espérances conditionnelles gausiennes


Rappel. Si X,Y est un couple de variable aléatoires, l’espérance conditionnelle E[X|Y ] est l’es-
pérance sous la loi conditionnelle de X sachant Y . Par exemple, si X, Y sont discrètes, i.e à valeurs
dans des univers finis qu’on note {x1 , . . . , xn } × {y1 , . . . , ym }. Alors, pour tout k ∈ [[1, m]],
n
X
E[X|Y = xk ] = xi P(X = xi |Y = yk ).
i=1

Autre exemple, si (X, Y ) est a pour densité f(X,Y ) , alors la loi conditionnelle de X sachant
{Y = y0 } a pour densité

f(X,Y ) (x, y0 )
fX|Y =y0 (x) = R
R f(X,Y ) (z, y) dz

FPR 57
6.2. Projections orthogonales

et
R
xf(X,Y ) (x, y0 ) dx
E[X|Y = y0 ] = R
R .
R f(X,Y ) (x, y) dx
Ici, le calcul d’espérances conditionnelles relève purement de l’analyse et du calcul intégral. La
proposition suivante va nous montrer que dans le cadre des vecteurs gaussiens, l’algèbre domine.

Proposition 6.2.1. Si (X1 , . . . , Xn , Y1 , . . . , Ym ) est un vecteur gaussien. Alors, pour tout


i ∈ [[1, n]], E[Xi |Y1 , . . . , Ym ] est la projection orthogonale (au sens L2 ) de Xi sur l’espace
vectoriel V = Vect(1, Y1 , . . . , Ym ) : il existe λ0 , . . . , λm ∈ R, tel que
m
X
E[Xi |Y1 , . . . , Ym ] = λ0 + λj Yj .
j=1

En particulier, on peut expliciter ces coefficients : si l’on note Z = (Xi , Y1 , . . . , Ym )T , alors


ce vecteur gaussien a pour matrice de covariance

ΓTXi ,Y
 
ΓXi
 
cov(Z) =   ΓX ,Y

i ΓY 

où ΓXi = var(Xi ), ΓY = cov Y , et ΓTXi ,Y = (cov(Xi , Y1 ), . . . , cov(Xi , Ym )) (vecteur ligne de


taille m). Alors,
 
Y1 − E[Y1 ]
E[Xi |Y1 , . . . , Ym ] = E[Xi ] + ΓTXi ,Y Γ−1 ..
.
 
Y  .
Ym − E[Ym ]

Exemples.
— En dimension 2. Si (X, Y ) est un vecteur gaussien suivant une loi N2 ((1, 5)T , K) où
 
3 1
K= ,
1 2
alors, E[X|Y ] = 1 + 21 (Y − 5).
— En dimension 3. Si (X, Y1 , Y2 ) ∼ N3 (m, K) avec m = (3, 2, 1)T , et
 
2 −2 2
K = −2 5 1 ,
2 1 5
alors,
 −1  
5 1 Y1 − 2 7 1
E[X|Y1 , Y2 ] = 3 + (−2, 2) = + (Y2 − Y1 ).
1 5 Y2 − 1 2 2

58 FPR

Vous aimerez peut-être aussi