FPR L3
FPR L3
FPR
FONDEMENTS
DES
PROBABILITÉS
2020–2021
2 FPR
Table des matières
2 Variables aléatoires 11
2.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Variables et vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Loi d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Fonction de répartitions et densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Variables aléatoires usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Variables aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 Espérance et moments 21
3.1 Espérance et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1 Espérance : définitions et premières propriétés . . . . . . . . . . . . . . . . . . 21
3.1.2 Moments d’ordre supérieurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.3 Moments de variables usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Espérance et identification de loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Identification et fonctions tests . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Espérance et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3 Le problème de moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Transformées exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.1 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Autres transformées exponentielles . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Probabilités, lois et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.2 Loi et espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 35
TABLE DES MATIÈRES
5 Théorèmes limites 45
5.1 Loi des grands nombres (LGN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.1 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.2 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Théorème limite central (TLC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.1 Théorème limite central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Retour sur les applications de la loi des grands nombres . . . . . . . . . . . . 48
6 Vecteurs gaussiens 49
6.1 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.1.1 Définitions et propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . 49
6.1.2 Théorème limite central multidimensionnel . . . . . . . . . . . . . . . . . . . 53
6.2 Projections orthogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2.1 Théorème de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2.2 Test d’adéquation du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.2.3 Espérances conditionnelles gausiennes . . . . . . . . . . . . . . . . . . . . . . 57
4 FPR
Chapitre 1
La théorie des probabilités remonte au XVIIième siècle et a été au début du XXième. Il s’agit à
l’origine de modéliser mathématiquement des phénomènes complexes dont le résultat ne peut être
prédit, ou dont la modélisation déterministe est trop complexe pour être mise en œuvre effectivement,
comme par exemple un lancer de dé, d’une pièce, ou la trajectoire d’une particule dans un fluide.
Au lieu de se focaliser sur une issue précise de l’expérience, on considère l’ensemble des résultats
possibles et on leur alloue un “poids” selon qu’ils sont plus ou moins probables.
Définition 1.1.1 (tribu). Une tribu F sur Ω est une classe de parties de Ω (F ⊂ P(Ω)) telle
que
1. Ω ∈ F.
2. Si A ∈ F, alors Ac ∈ F.
S
3. Si (An )n ∈ F N , alors n∈N An ∈ F.
Exemples. {∅, Ω} (tribu grossière), P(Ω) (tribu pleine), {∅, A, Ac , Ω} pour A ⊂ Ω quelconque.
Remarques.
— (Ω, F) est dit être un espace mesurable (ou espace probabilisable), et les éléments de F
sont appelés les évènements.
— Une tribu contient toujours l’ensemble vide (on peut remplacer d’ailleurs le premier axiome
par “∅ ∈ F”).
— Une tribu est stable par intersection au plus dénombrable.
— Une intersection de tribus est encore une tribu. On peut alors construire pour tout A ⊂ P(Ω)
la plus petite tribu contenant A (comme l’intersection de toutes les tribus contenant A),
généralement notée σ(A).
1.2. Propriétés élémentaires des mesures de probabilités
Définition 1.1.2. Soit (Ω, F) un espace mesurable. Une mesure de probabilité (ou probabilité)
est une mesure sur F à valeurs dans [0, 1] vérifiant P(Ω) = 1. On dit que (Ω, F, P) est un
espace probabilisé (ou espace de probabilité).
Exemples.
— ([0, 1], B([0, 1]), λ) où λ est la mesure de Lebesgue.
— (Mesure de Dirac) Soit (Ω, P(Ω)) avec Ω un ensemble, et soit a ∈ Ω. On note δa := 1{a} la
mesure de Dirac en a. (Ω, P(Ω), δa ) est un espace probabilisé.
— Soit (pn )n ∈ R+ une famille de réels de somme 1. Alors,
X
P= pn δn
n∈N
est bien définie, et est une probabilité sur (N, P(N)). On a alors
X
P(A) = 1A (n).
n∈N
Proposition 1.2.1. Une mesure de probabilité possède les mêmes propriétés élémentaires
qu’une mesure quelconque. En autre, elle vérifie l’additivité sur deux évènements disjoints,
la croissance, la formule de la mesure de la différence symétrique, la σ-sous-additivité, la
continuité à gauche et à droite (en termes d’ensembles).
Exemple. Pour n = 3,
6 FPR
Chapitre 1. ESPACES DE PROBABILITÉ, VOCABULAIRE PROBABILISTE
On retrouve sur ces ensembles de propriétés analogues aux limites inférieures et supérieures sur
les suites numériques.
T T S
Démonstration. (i) Soit n ∈ N. T Pour toutTp > S n, on a k>n Ak ⊂ Ap . Ainsi, k>n Ak ⊂ p>m
pour tout m ∈ N, et alors k>n Ak ⊂ m≥1 p>m Ap = lim supn→∞ An . Cette inclusion étant
vraie pour tout n ∈ N, elle reste vrai après passage à l’union sur n ∈ N à gauche.
lim inf 1An = 1lim inf n→∞ An et lim sup 1An = 1lim supn→∞ An
n→∞ n→∞
Définition 1.3.2. Une suite d’évènements (An )n ∈ F N est dite convergente si les limites
inférieures et supérieures coïncident. Si elle existe, on la note limn→∞ An .
FPR 7
1.4. Complétion et prolongement de mesure
Définition 1.4.1 (négligeabilité). Soit N ∈ P(Ω). L’ensemble N est dit négligeable s’il est
inclus dans un ensemble de mesure nulle. Deux A, B ∈ P(E) ensembles sont dits être égaux
presque sûrement si A4B = A\B ∪ B\A est négligeable.
F = σ(F ∪ N )
où N désigne l’ensemble des parties négligeables de Ω.
P: F −→ [0, 1]
A=B∪N 7−→ P(B)
est bien définie, est une probabilité et l’unique prolongement de P à F tel que P|F = P.
8 FPR
Chapitre 1. ESPACES DE PROBABILITÉ, VOCABULAIRE PROBABILISTE
Définition 1.4.3. Une famille M de parties de Ω est appelée classe monotone (ou λ-
système) si
(i) Ω ∈ M,
(ii) M est stable par différence :
∀A, B ∈ M, (B ⊂ A) =⇒ (A\B) ∈ M,
Remarques.
— Une intersection quelconque de classes monotones est encore une classe monotone.
— Une tribu est une classe monotone, car A\B = A ∩ B c .
— Une classe monotone stable par intersection finie est une tribu.
— Comme pour les tribus, on peut définir pour toute famille de partie E ⊂ P(Ω) la plus petite
classe monotone contenant E comme l’intersection de toutes les classes monotones contenant
E, notée M(E).
Théorème 1.4.1 (des classes monotone (Dynkin)). Soit A une famille de parties de Ω stable
par intersection finie (appelée π-système). Alors, M(A) = σ(A).
Théorème 1.4.2. Soit (Ω, F) un espace mesurable Si deux probabilités P1 et P2 sur F coïn-
cident sur une partie A ⊂ Ω stable par intersections finies, alors elles coïncident sur σ(A).
On en déduit que M est une classe monotone telle que A ⊂ M. Ainsi, M(A) ⊂ M. Mais A
étant un π-système, le théorème des classes monotones affirme que M(A) = σ(A), d’où σ(A) ⊂ M.
FPR 9
1.4. Complétion et prolongement de mesure
10 FPR
Chapitre 2
Variables aléatoires
Remarques.
— On notera souvent “v.a” pour variable aléatoire.
— Si (E, E) = (R, B(R)), on parle de variable aléatoire réelle (v.a.r).
— Si (E, E) = (Rn , B(R)n ), on parle de vecteur aléatoire. Si X = (X1 , . . . , Xn ) est un vecteur
aléatoire, la composante Xi : (Ω, F) −→ (R, B(R)) est appelé la i-ième marginale du vecteur
X (pour i ∈ [[1, n]]).
Proposition 2.1.2. Soit (E, d) un espace métrique, et soit (Xn )n une suite de variables
aléatoires de (Ω, F) dans (E, B(E)). Si (Xn )n converge simplement vers une fonction X,
alors X est une variable aléatoire.
Proposition 2.1.3. Toute variable aléatoire réelle est limite simple de variables aléatoires
étagées. De plus, si X est à valeurs positives, on peut choisir la suite croissante.
Définition 2.1.2. Soit X : (Ω, F, P) −→ (E, E) une variable aléatoire. On appelle loi de X
la mesure de probabilité sur (E, E) la mesure image PX de P par X, définie pour tout A ∈ E
par
Définition 2.1.3. On dit que deux variables aléatoires X, Y : (Ω, F, P) −→ (E, E) ont même
loi si PX = PY . On note alors L (X) = L (Y ).
Remarque. Cette définition n’interdit pas particulièrement que X et Y soient définies sur des
espaces de probabilités différents.
Définition 2.1.4. Sur un espace de probabilité (Ω, F, P), deux évènements A et B ∈ F sont
dits indépendants si
12 FPR
Chapitre 2. VARIABLES ALÉATOIRES
Proposition 2.1.4. Si (Ai )i∈I est une famille de π-systèmes. Alors, les (Ai )i sont mutuel-
lement indépendants (resp. deux à deux indépendants) si, et seulement si, les (σ(Ai ))i sont
mutuellement indépendants (resp. deux à deux indépendants).
σ(X) = X −1 (E).
C’est la plus petite tribu sur Ω rendant X mesurable.
Remarques.
— Il n’est pas nécessaire que X et Y soient à valeurs dans le même espace mesurable pour que
la définition fasse sens.
— On définit de même l’indépendance d’une famille de variables aléatoires (Xi )i∈I comme l’in-
dépendance deux à deux des variables aléatoires de la famille.
FPR 13
2.2. Fonction de répartitions et densité
PX = PX1 ⊗ · · · ⊗ PXn .
Définition 2.2.1. On appelle fonction de répartition d’une variable aléatoire réelle la fonction
FX : [0, 1] −→ R vérifiant pour tout x ∈ R,
FX (x) = PX ] − ∞, x] = P(X ≤ x).
Proposition 2.2.1. La fonction de répartition caractérise la loi d’une variable aléatoire réelle,
au sens où (FX = FY ) ⇐⇒ (PX = PY ).
Démonstration. La famille ] − ∞, x] x ∈ R engendre les boréliens de R, et est stable par inter-
section finie. On conclue par le théorème des classes monotones.
14 FPR
Chapitre 2. VARIABLES ALÉATOIRES
Démonstration. (i) .
Corollaire 2.2.1. Une variable aléatoire réelle possède un nombre au plus dénombrable
d’atomes.
Démonstration. Une fonction monotone possède un nombre au plus dénombrable de points de dis-
continuité.
2.2.2 Densité
Définition 2.2.2. Soient µ et ν deux mesures σ-finies sur un espace mesurable (Ω, F). La
mesure µ est dite absolument continue par rapport à ν, si :
Remarque. Cette fonction f est appelée densité (ou dérivée de Radon-Nikodym) de µ par rap-
port à ν.
Définition 2.2.3 (v.a.r à densité). Une variable aléatoire réelle X est dite être à densité
si PX est absolument continue par rapport à la mesure de Lebesgue sur R. Dans ce cas
la dérivée de Radon-Nikodym fX est appelée densité de la loi de X (ou de X). Cette
fonction est positive et intégrable pour la mesure de Lebesgue.
FPR 15
2.2. Fonction de répartitions et densité
Remarques.
— On a immédiatement pour tout A ∈ F,
Z
PX (A) = P(X ∈ A) = fX (x) dx.
A
En particulier, pour tout a, b ∈ R avec a < b,
Z b
PX ([a, b]) = fX (x) dx.
a
— Réciproquement, si f est une fonction mesurable positive d’intégrale 1 par rapport à la mesure
de Lebesgue, la formule Z
P(A) = f dλ
A
définit une mesure de probabilité.
16 FPR
Chapitre 2. VARIABLES ALÉATOIRES
Remarque. Si X est une variable aléatoire réelle telle que FX soit continue, alors X est nécessai-
R b le si FX est absolument continue, i.e si il une fonction f intégrable telle que
rement à densité. C’est
FX (b) − FX (a) = a f (t) dt. Une fonction continue, de dérivée L1 n’est pas forcément l’intégrale de
sa dérivée (comme l’escalier de Cantor).
Définition 2.2.4. Une fonction f : Rd −→ R mesurable est appelée densité si elle est positive
et si
Z
f dλd = 1.
Rd
Un vecteur aléatoire X = (X1 , . . . , Xd ) a pour loi la loi densité f si pour tout (ai )1≤in et
(bi )1≤in ∈ Rd tels que ai ≤ bi pour tout i ∈ [[1, d]],
d
! Z
Y
P X ∈ [ai , bi ] = Q f dλd ,
d
i=1 i=1 [ai ,bi ]
PY (B) = P(Y ∈ B)
= P(ϕ(X) ∈ B)
et ce par le changement de variable x = ϕ−1 (u). On peut alors trouver la densité fY dans la dernière
intégrale.
Proposition 2.2.6. Soit (X, Y ) un couple de variables aléatoires réelles, de densité f(X,Y )
sur R2 . Alors, X et Y sont aussi à densité, données par
Z Z
fX (x) = f(X,Y ) (x, y) dy et fY (y) = f(X,Y ) (x, y) dx,
R R
FPR 17
2.3. Variables aléatoires usuelles
PX (A) = P(X ∈ A)
= P(X
Z ∈ A, Y ∈ R)
= f(X,Y ) dλ2
ZA×R
Z
= f(X,Y ) (x, y) dy dx,
A R
tous ces calculs et inversions étant autorisées par le théorème d’inversion de Fubini-Lebesgue. La
démonstration pour Y est identique.
Proposition 2.2.7. Soit (X, Y ) un couple de variables aléatoires réelles de densité f(X,Y ) .
Alors, X et Y sont indépendantes si, et seulement si, , pour tout (x, y) ∈ R2 ,
Remarque. Cette propriété se généralise aux vecteurs aléatoires avec une indépendance mutuelle.
On dit que X suit une loi de Bernoulli de paramètre p ∈ [0, 1] si X(Ω) = {0, 1}, et
P(X = 1) = p.
On note X ∼ B(p).
Loi binomiale
On dit que X suit la loi binomiale de paramètre p ∈ [0, 1] et n ∈ N∗ si X(Ω) = [[0, n]], et
n k
P(X = k) = p (1 − p)n−k ,
k
18 FPR
Chapitre 2. VARIABLES ALÉATOIRES
Loi géométrique
P(X = k) = (1 − p)k−1 p,
Loi de Poisson
λk −λ
P(X = k) = e ,
k!
pour tout k ∈ N. On note X ∼ P(λ).
1
P(X = xi ) = ,
n
pour tout i ∈ [[1, n]]. On a alors
card A
P(X ∈ A) = ,
card Ω
Soit a, b ∈ R avec a < b. On dit que X est uniforme sur le segment [a, b] si PX si admet comme
densité
1
x 7−→ fX (x) = 1 (x).
b − a [a,b]
On note X ∼ U[a,b] .
Loi exponentielle
On dit que X suit une loi exponentielle de paramètre λ > 0 si X(Ω) = R+ et X admet pour
densité
On note X ∼ E(λ).
FPR 19
2.3. Variables aléatoires usuelles
Loi normale
On dit que X suit la loi normale (ou gaussienne) de paramètre m ∈ R et σ ≥ 0, si X(Ω) ⊂ R et
X admet pour densité
(x−m)2
e− 2σ 2
x 7−→ fX (x) = √ .
2πσ 2
On note X ∼ N (m, σ 2 ).
Loi Gamma
Soit n ∈ N∗ , et λ > 0. On dit que X suit une loi Γ(n, λ) si X(Ω) ⊂ R+ , et si X admet pour
densité
λn −λx n−1
x 7−→ fX (x) = e x 1R+ .
Γ(n)
Loi de Cauchy
On dit que X suit la loi de Cauchy de paramètre λ > 0 si X(Ω) = R et admet pour densité
1 λ
x 7−→ fX (x) = .
π λ + x2
2
On note X ∼ C (λ).
20 FPR
Chapitre 3
Espérance et moments
Définition 3.1.1 (mesure image). Soient (X, F) et (Y, G) des espaces mesurables, ϕ :
(X, F) −→ (Y, G) une application mesurable, et µ une mesure sur (X, F). Alors, la mesure
image par ϕ est définie par
Définition 3.1.2. Soit X : (Ω, F, P) −→ (R, B(R)) une variable aléatoire réelle. On dit que
X est intégrable (ou P-intégrable) si
Z Z
|X| dP = |x| dPX (x) < ∞.
Ω R
Définition 3.1.3 (espérance). Soit X : (Ω, F, P) −→ (R, B(R)) une variable aléatoire réelle
positive ou P-intégrable. On appelle espérance de X, notée E(X), la quantité
Z Z
E(X) = X dP = x dPX (x).
Ω R
3.1. Espérance et moments
Plus généralement, si h est une fonction mesurable, telle que h(X) est positive ou P-intégrable,
on a
Z Z
E(h(X)) = h(X(ω)) dP(ω) = h(x) dPX (x).
Ω R
Enfin, si X = (X1 , . . . , Xn ) est un vecteur aléatoire, et h : Rn −→ R est une fonction
mesurable, on note lorsque cela est bien défini,
Z
E(h(X1 , . . . , Xn )) = h(x) dPX (x).
R
Remarque. Les intégrales ci-dessus sont à considérer au sens de Lebesgue 1 . Par exemples,
— Si X = 1A , E(X) = P(A).
— Si X = ni=1 ai 1Ai , alors E[X] = ni=1 ai P(Ai ), où les Ai sont des ensembles mesurables, et
P P
les ai des éléments de R.
— Si X ≥ 0,
22 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Démonstration. Ces propriétés sont des redites de cours d’intégration de Lebesgue. Voir le cours
d’INTL.
Remarque. L’espérance n’est autre qu’une intégrale par rapport à la mesure P. Il va donc de soit
que les théorèmes classiques de la théorie de l’intégrale de Lebesgue. En voici quelques exemples.
— Convergence monotone. Si (Xn )n est une suite croissante de variables aléatoires positives,
convergeant vers une variable aléatoire X, alors
h i
E lim Xn = lim E[Xn ].
n→∞ n→∞
— Lemme de Fatou. Si
Si (Xn )n est une suite de variables aléatoires positives, alors,
h i
E lim inf Xn ≤ lim inf E[Xn ].
n→∞ n→∞
— Théorème de convergence dominée. Si (Xn )n est une suite de variables aléatoires convergeant
vers une variable aléatoire X, et qu’il existe une fonction Y mesurable et intégrable telle que
Proposition 3.1.3 (inégalité de Markov). Soit X une variable aléatoire. Alors, pour tout
t > 0,
E[|X|]
P(|X| > t) ≤ .
t
Démonstration. On a
E[|X|] = E |X|1|X|>t + E |X|1|X|≤t .
| {z } | {z }
tE[1|X|>t ] ≥0
= t P(|X|>t)
FPR 23
3.1. Espérance et moments
Variante. Il a en fait plusieurs inégalités de Markov, mais dont l’idée reste semblable. Soit λ > 0
tel que E eλ|X| < ∞. Alors,
E eλ|X|
λ|X| t
P(|X| > t) = P e >e ≤ ,
eλt
pour tout t ∈ R.
Proposition 3.1.4 (inégalité de Jensen). Soit X une variable aléatoire réelle, et ϕ une
fonction convexe, et tels que X et ϕ(X) soient intégrables. Alors,
E[ϕ(X)] ≥ ϕ (E[X]) .
Démonstration. On observe que ϕ(x) = sup{f (x) | f affine, f ≤ ϕ}. On conclut alors par positivité
et linéarité de l’espérance.
Exemple. E X 2 ≤ E[X]2 .
Définition 3.1.5 (moment). Soit p ∈ N∗ . On dit qu’une variable aléatoire réelle admet un
moment d’ordre p si
Z Z
E [|X|p ] = |X|p dP = |x|p dPX (x) < ∞.
Ω R
24 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Notation. On note Lp (Ω, F, P) l’espace des variables aléatoires réelles admettant un moment
d’ordre p, quotienté par la relation d’équivalence ∼ “être égales presque partout”. Enfin, on note
L∞ (Ω, F, P) = {X v.a.r | ∃c > 0, P(|X| > c) = 0}/ ∼ .
Les inégalités classiques de la théorie de l’intégration s’étendent dans ce cadre probabiliste.
kX + Y kp ≤ kXkp + kY kp .
FPR 25
3.1. Espérance et moments
var(X)
P(|X − E[X]| > t) ≤ .
t2
Loi binomiale
Si X ∼ B(n, p), alors,
Loi géométrique
Si X ∼ G(p), alors,
1 1−p
E[X] = et var(X) = .
p p2
Loi de Poisson
Si X ∼ P(λ), alors,
E[X] = var(X) = λ.
26 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Loi exponentielle
Loi normale
Loi de Cauchy
Théorème 3.2.1. Soit X un vecteur aléatoire à valeurs dans Rd et µ une mesure de probabilité
sur Rd . Alors, X suit la loi µ (X ∼ µ) si, et seulement si, pour toute fonction h : Rd −→ R
continue à support compact (ou de classe C ∞ ),
Z
E[h(X)] = h(x) dµ(x).
Rd
Z
E[h(Y )] = h(x+ ) dPX (x)
R+
Z
= h(x+ )fX (x) dx
R+
Z
h(x)
= h(0)P(X ≤ 0) + dx.
R+ π(1 + x2 )
1 1
On en déduit que dPY (x) = 2 δ0 (x) + 1
π(1+x2 ) x>0
dx.
FPR 27
3.2. Espérance et identification de loi
Corollaire 3.2.1. Soient X, Y des variables aléatoires réelles indépendantes admettant des
moments d’ordre 2. Alors, cov(X, Y ) = 0 et var(X + Y ) = var(X) + var(Y ).
Attention. La réciproque est fausse. Si par exemple U est une variable aléatoire de loi uniforme
sur ] − 1, 1[ et V = U 2 , alors un calcul montre que cov(U, V ) = 0. Pourtant, U et V ne sont pas
indépendantes. En effet,
P(|U | < 1/2, V > 1/2) = 0 mais P(|U | > 1/2)P(V > 1/2) > 0.
Démonstration. Si X ⊥
⊥ Y , alors
Définition 3.2.1. Soit (mp )p ∈ RN . On dit que (mp )p est complètement monotone si :
Théorème 3.2.2 (des moments de Hausdorff). Soit (mp )p ∈ RN . Cette suite est une suite
des moments d’une mesure µ à support dans [0, 1], i.e
Z 1
mp = xp dµ(x)
0
pour tout p ∈ N si, et seulement si, la suite (mp )p est complètement monotone.
Démonstration. Le caractère nécessaire de la complète monotonie est clair si l’on remarque que
Z 1
k k
(−1) (∆ m)p = xp (1 − x)k dµ(x) ≥ 0.
0
On admettra l’autre implication.
28 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Théorème 3.2.3. Une suite (mp )p ∈ RN est la suite des moments d’une mesure à support
non borné dans R si, et seulement si, pour toute suite non nulle (aj )j ∈ CN à support fini,
X
mj+k aj ak > 0
j,k∈N
Remarque. Le support d’une mesure borélienne est l’intersection des fermés dont le complémen-
taire est de mesure nulle.
Proposition 3.2.2. Si µ est une mesure borélienne sur [0, 1] à support compact, alors µ est
caractérisé par la suite de ses moments,
Z 1
p
x dµ(x) .
0 p∈N
Remarque. Sans l’hypothèse de compacité du support, on perd l’unicité. Voir par exemple l’exer-
cice 7 de la feuille du TD 5.
Z 1 Z 1 Z 1
f (x) dµ(x) − f (x) dν(x) = (f (x) − Qε (x)) dµ(x)
0 0 0
Z 1
− (f (x) − Qε (x)) dν(x)
0
Z 1 Z 1
+ Qε (x) dµ(x) − Qε (x) dν(x) .
0 0
| {z }
=0
FPR 29
3.3. Transformées exponentielles
Enfin,
Z 1 Z 1 Z 1
f (x) dµ(x) − f (x) dν(x) ≤ (f (x) − Qε (x)) dµ(x)
0 0 0
Z 1
+ (f (x) − Qε (x)) dν(x)
0
Z 1 Z 1
≤ kf − Qε k∞,[0,1] dµ(x) + kf − Qε k∞,[0,1] dν(x).
0 0
≤ ε µ([0, 1]) + ν([0, 1]) ≤ 2ε.
R1 R1
Ainsi, 0 f (x) dµ(x) = 0 f (x) dν(x) pour tout f ∈ C([0, 1], R). On en déduit que µ = ν.
Remarques.
— ϕX est toujours bien définie car eitX ≤ 1 et eitX ∈ L1 (Ω, F, P).
— Pour tout t ∈ Rd , on a
Z
ϕX (t) = eitx dPX (x).
R
C’est la transformée de Fourier de PX .
Exemple. Soit λ > 0 et U une variable aléatoire suivant une loi de Laplace de paramètre λ, i.e
que U a pour densité fU (x) = λ2 e−λ|x| . Pour tout t ∈ R, on a
λ2
Z
λ
itU
E[e ] = eitx e−λ|x| dx = 2 .
R 2 λ + t2
1
On a alors ϕU (λt) = 1+t2
.
30 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Théorème 3.3.4. Soit X = (X1 , . . . , Xn ) un vecteur aléatoire. Alors, les Xi sont mutuelle-
ment indépendantes si, et seulement si, pour tout t = (t1 , . . . , tn ) ∈ Rn ,
n
Y
ϕX (t) = ϕXk (tk ).
k=1
Proposition 3.3.2. Si X et Y sont des variables aléatoires indépendantes réelles, alors pour
tout t ∈ R,
Remarque. On généralise bien évidemment le résultat à une somme de n variables aléatoires in-
dépendantes de même loi.
Proposition 3.3.3. Soit X est une variable aléatoire réelle de fonction caractéristique ϕX et
p ∈ N∗ . On a les résultats suivants.
(i) Si E[|X|p ] < ∞, alors ϕX est de classe C p , et
FPR 31
3.3. Transformées exponentielles
(ii) Réciproquement, si ϕX est p-fois dérivable en zéro, alors E[|X|k ] < ∞ pour tout k ∈
[[1, 2bp/2c]].
Définition 3.3.2 (fonction génératrice). Soit X une variable aléatoire à valeurs dans N. On
appelle fonction génératrice de X la fonction GX : [0, 1] → R, s 7→ E[sX ]. Elle est telle que
pour tout s ∈ [0, 1],
∞
X
GX (s) = P(X = k)sk .
k=0
Remarques.
— On a le lien “formel” GX (eit ) = ϕX (t).
— Le rayon de convergence de la série dont GX est la somme a un rayon de convergence d’au
moins 1 puisque GX (1) = 1. On en déduit alors que GX est de classe C ∞ sur [0, 1[, et pour
tout n ∈ N,
(n)
GX (0) = n!P(X = n).
La fonction génératrice caractérise la loi.
— Soit n ∈ N∗ . Par le théorème de dérivation sous le signe somme, GX est n-fois dérivable en 1
si, et seulement si, E[X n ] < ∞ et
(n)
GX (1) = E[X(X − 1) · · · (X − n + 1)].
C’est le moment factoriel.
Exemples.
— Si X ∼ B(p), alors GX (s) = 1 − p + ps pour tout s ∈ [0, 1].
ps
— Si X ∼ G (p), GX (s) = 1−(1−p)s pour tout s ∈ [0, 1].
— Si X ∼ P(λ), GX (s) = eλ(s−1) pour tout s ∈ [0, 1].
32 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
Exemples.
— Si X ∼ B(n, p), alors GX (s) = (1 − p + ps)n pour tout s ∈ [0, 1].
— Si X ∼ P(λ) et Y ∼ P(µ) sont des v.a.r indépendantes, alors on voit que GX+Y (s) =
e(λ+µ)(s−1) pour tout s ∈ [0, 1]. Puisque la fonction génératrice de X + Y caractérise sa loi, on
voit que X + Y ∼ P(λ + µ)
LX : Rd −→ [0,∞]
t 7−→ E eht,Xi
Remarque.
— On a “ϕX (t) = LX (it)”.
— Contrairement à la fonction caractéristique ou la fonction génératrice, LX peut prendre ∞
comme valeur.
FPR 33
3.4. Probabilités, lois et espérances conditionnelles
s, t ∈ R.
(ii) Si X et Y sont indépendantes, alors LX+Y = LX LY .
Exemples.
— Si X ∼ E(λ), alors fX (x) = λe−λx 1x≥0 avec λ > 0. Alors,
λ
L̃X (t) = ,
λ+t
pour tout t ∈ R\{−λ}.
λn n−1 −λx
— Si Y ∼ Γ(n, λ), alors fY (x) = Γ(n) x e 1x≥0 avec λ > 0. On a alors,
n
λ
L̃Y (t) = ,
λ+t
pour tout t ∈ R\{−λ}. Ainsi, si X1 , . . . , Xn ∼ E(λ) sont des variables mutuellement indépen-
dantes, alors X1 + · · · + Xn ∼ Γ(n, λ).
Définition 3.4.1. Soit (Ω, F, P) un espace probabilisé. Soit A ∈ F, tel que P(A) > 0. On
définit la probabilité conditionnelle “sachant A” comme la probabilité définit pour B ∈ F par
P(A ∩ B)
P(B|A) = .
P(A)
Remarques.
— On doit bien évidemment vérifier que B 7−→ P(B|A) définit une probabilité.
— Si B ∈ F est un évènement indépendant de A, alors P(B|A) = P(B). Cela est cohérent avec
le sens que l’on veut donner à des probabilités conditionnelles.
F
Proposition 3.4.1 (formule des probabilités totales). Si Ω = i∈N Ai est une partition au
plus dénombrable d’évènements de Ω telle que P(Ai ) > 0 pour tout i ∈ I. Alors, pour tout
B ∈ F,
X
P(B) = P(B|Ai )P(Ai ).
i∈N
F
Démonstration. Écrire B = B ∩ Ω = i∈N (B ∩ Ai ) et utiliser la σ-additivité de la probabilité P.
34 FPR
Chapitre 3. ESPÉRANCE ET MOMENTS
F
Proposition 3.4.2 (formule de Bayes). Si Ω = i∈N Ai est une partition dénombrable
d’évènements avec P(Ai ) > 0 pour tout i ∈ N. Soit B ∈ F tel que P(B) > 0. Alors, pour tout
i ∈ N,
P(B|Ai )P(Ai )
P(Ai |B) = P .
j∈N P(B|Aj )P(Aj )
Démonstration. On écrit
Définition 3.4.2. Soit X une variable aléatoire discrète et x0 ∈ X(Ω) tel que P(X = x) > 0.
On appelle loi conditionnelle sachant {X = x0 } la loi définie par
Exemple. On lance deux dés équilibrés à six faces. On note X et Y les résultats. Alors,
6
X
E[X | X + Y = 8] = kP(X = k | X + Y = 8)
k=1
6
X P(X = k)P(Y = 8 − k)
= k
P(X + Y = 8)
k=1
6
X P(X = k, X + Y = 8)
= k
P(X + Y = 8)
k=1
6
X P(X = k, X + Y = 8)
= k
P(X + Y = 8)
k=2
6
X 1/36
= k =4
5/36
k=2
FPR 35
3.4. Probabilités, lois et espérances conditionnelles
Définition 3.4.3. Soit (X, Y ) un couple de variables aléatoires, de densité f(X,Y ) . On définit
la densité conditionnelle de Y sachant {X = x0 } par
36 FPR
Chapitre 4
Lemme 4.1.1. Soit (Ω, F, P) un espace de probabilités, et (An )n∈N une suite d’évènements.
Alors,
(i) Si ∞
P
n=0 P(An ) < ∞, alors,
P lim sup An = 0.
n→∞
T S
Démonstration. On rappelle que lim supn→∞ An = n∈N k≥n Ak (intersection d’union décrois-
sante). Ainsi,
[
P lim sup An = lim P An .
n→∞ n→∞
k≥n
P∞
(i) Si n=0 P(An ) < ∞, alors par sous-additivité,
[ ∞
X
P Ak ≤ P(Ak ) −−−→ 0,
n→∞
k≥n k=n
d’où le résultat.
P∞
(ii) Si les éléments de (An )n sont mutuellement indépendants, et si n=0 P(An ) = ∞, on a
4.1. Différents modes de convergence
c
P lim sup An = P lim inf Acn
n→∞ n→∞
[ \
= P Ack
n→∞ k≥n
\
= lim P Ack .
n→∞
k≥n
Définition 4.1.1. On dit qu’une suite (Xn )n∈N de variables aléatoires converge presque sû-
rement vers une variable aléatoire X si
n o
P ω ∈ Ω | lim Xn (ω) = X(ω) = 1.
n→∞
p.s
Notation. Xn −−−→ X.
n→∞
Remarques.
— En d’autres termes, (Xn )n converge simplement vers X sur un ensemble de mesure pleine.
— Cet ensemble est mesurable comme ensemble de points d’égalités des lim inf et des lim sup des
Xn , qui sont des fonctions mesurables.
— On a
n o \ [ \ 1
P ω ∈ Ω | lim Xn (ω) = X(ω) = |Xk (ω) − X(ω)| < .
n→∞ p
p≥1 n≥1 k≥n
| {z }
décroissante en p
38 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES
— Par monotonie,
p.s
S n o
T 1
Xn −−−→ X ⇐⇒ ∀p ≥ 1, P |Xk (ω) − X(ω)| < =1
n→∞ S n≥1 T k≥n p
⇐⇒ ∀ε > 0, P n≥1 k≥n {|Xk (ω) − X(ω)| < ε} = 1
⇐⇒ ∀ε > 0, P (lim inf n→∞ {|Xn − X| < ε}) = 1
⇐⇒ ∀ε > 0, P (lim supn→∞ {|Xn − X| > ε}) = 0.
Corollaire 4.1.1. Soit (Xn )n une suite de variables aléatoires, et X une variable aléatoire.
(i) Si l’on suppose que pour tout ε > 0, ∞
P
n=0 P(|Xn − X| > ε) < ∞. Alors, (Xn )n converge
presque sûrement vers X.
(ii) Si l’on suppose que les Xn sont mutuellement indépendantes, alors :
∞
p.s X
Xn −−−→ 0 ⇐⇒ ∀ε > 0, P(|Xn | > ε) < ∞.
n→∞
n=0
p.s
Proposition 4.1.1. Si Xn −−−→ X et si f est une fonction continue, alors
n→∞
p.s
f (Xn ) −−−→ f (X).
n→∞
Définition 4.1.2. On dit qu’une suite (Xn )n de variables aléatoires convergence en probabilité
vers X si :
P
Notation. Xn −−−→ X.
n→∞
P P
Proposition 4.1.2 (unicité de la limite). Si Xn −−−→ X et Xn −−−→ Y , alors X = Y
n→∞ n→∞
P-p.p.
FPR 39
4.1. Différents modes de convergence
P
Proposition 4.1.3. Si Xn −−−→ X et si f est une fonction continue, alors
n→∞
P
f (Xn ) −−−→ f (X).
n→∞
4.1.3 Convergence Lp
Définition 4.1.3. Soit p ≥ 1. On dit que qu’une suite (Xn )n de variables aléatoires converge
vers la variable aléatoire X dans Lp si
Lp
Notation. Xn −−−→ X.
n→∞
Définition 4.1.4. On dit que qu’une suite (Xn )n de variables aléatoires converge en loi vers
la variable aléatoire X si pour toute fonction f continue et bornée,
L
Notation. Xn −−−→ X.
n→∞
Remarque. Une convergence en loi se réécrit de la manière suivante : pour toute fonction f
continue et bornée,
Z Z
f (x) dPXn (x) −−−→ f (x) dPX (x).
R n→∞ R
C’est la convergence “étroite” de PXn vers PX . La particularité de cette loi est qu’elle ne dépend que
des lois des Xn et de X.
40 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES
Lemme 4.1.2 (portemanteau). Soit (Xn )n une suite de variable aléatoire, et X une variable
aléatoire. Sont équivalents.
(i) (Xn )n converge en loi vers X.
(ii) Pour tout fermé F ,
Proposition 4.1.4. Soit (Xn )n une suite de variables aléatoires réelles. Alors, (Xn )n converge
en loi vers la variable aléatoire X si, et seulement si, FXn (t) −−−→ FX (t) pour tout point de
n→∞
continuité t ∈ R de FX .
Théorème 4.1.1. La suite (Xn )n∈N converge en loi vers X si, et seulement si, pour tout
t ∈ R, ϕXn (t) −−−→ ϕX (t).
n→∞
Théorème 4.1.2 (Levy). Soit (ϕXn )n une suite de fonctions caractéristiques qui converge
ponctuellement vers une fonction ϕ. Alors, si ϕ est continue en zéro, elle est une fonction
caractéristique d’une variable aléatoire X telle que
L
Xn −−−→ X.
n→∞
Théorème 4.1.3 (continuous mapping theorem). Soit (Xn )n une suite de variables aléatoires,
et X une variable aléatoire telle que
L
Xn −−−→ X.
n→∞
FPR 41
4.2. Articulation des modes de convergence
p.s P
Lemme 4.2.1. — Si Xn −−−→ X, alors Xn −−−→ X.
n→∞ n→∞
P p.s
— Si Xn −−−→ X, alors il existe une sous-suite (Xϕ(n) )n telle que Xϕ(n) −−−→ X.
n→∞ n→∞
p.s
Lemme 4.2.2. Si Xn −−−→ X, et qu’il existe une variable aléatoire Y ∈ L1 (Ω, F, P) telle
n→∞
que |Xn | ≤ Y pour tout n ∈ N, alors
L1
Xn −−−→ X.
n→∞
Lp P
Lemme 4.2.3. Si Xn −−−→ X, alors Xn −−−→ X.
n→∞ n→∞
Définition 4.2.1. Une famille de (Xi )i∈I de variables aléatoires est dite uniformément
intégrable (ou équi-intégrable) si
Proposition 4.2.1. La famille (Xi )i∈I est uniformément intégrable si, et seulement si,
— (Xi )i est bornée dans L1 , i.e
Proposition 4.2.2. Soit (Xn )n une suite de variables aléatoires intégrables. Sont équivalents.
L1
(i) Xn −−−→ X.
n→∞
P
(ii) (Xn )n∈N est uniformément intégrable et Xn −−−→ X.
n→∞
42 FPR
Chapitre 4. CONVERGENCE DE VARIABLES ALÉATOIRES
p.s
sous-suite
convergente
limite constante
Convergence
P L
dominée
uniforme
intégrabilité
Lp
P L
Lemme 4.2.4. Si Xn −−−→ X∞ , alors Xn −−−→ X∞ .
n→∞ n→∞
p.s, L1 L
Corollaire 4.2.1. Si Xn −−−−→ X∞ , alors Xn −−−→ X∞ .
n→∞ n→∞
L P
Lemme 4.2.5. Si Xn −−−→ c ∈ R, alors Xn −−−→ c.
n→∞ n→∞
Démonstration. Soit ε > 0. On a P(|Xn − c| > ε) = P(Xn < c − ε) + P(Xn > c − ε). La variable
aléatoire constante à c a pour fonction de répartition la fonction Fc = 1[c,∞[ . On a alors
FPR 43
4.2. Articulation des modes de convergence
44 FPR
Chapitre 5
Théorèmes limites
Dans tout le chapitre, on se place dans un espace de probabilité (Ω, F, P). On suppose que dans
cette espace est définie une suite de variables (Xn )n∈N indépendantes (mutuellement) identiquement
distribuées (i.i.d).
∗
Lemme 5.1.1. Soit a, b ∈ CN , des suites telles que |ai | ≤ 1 et |bi | ≤ 1 pour tout i ∈ N∗ .
Alors pour tout n ∈ N∗ ,
n
Y n
Y n
X
ai − bi ≤ |ai bi |.
i=1 i=1 i=1
Théorème 5.1.1. Soit (Xn )n une suite de variables aléatoire i.i.d intégrables (i.e E[|X1 |] <
∞), alors
n
Sn 1X P
= Xi −−−→ E[X1 ].
n n n→∞
i=1
Remarque. Alors que la moyenne des n premiers Xi est une variable aléatoire, la limite elle est
purement déterministe.
Démonstration. — On suppose dans un premier temps les Xi sont éléments de L2 (Ω, F, P). Soit
ε > 0. On remarque que E[ Snn ] = E[X1 ]. Par l’inégalité de Tchebytchev, on a
var( Snn )
Sn 1 1 1
P − E[X1 ] > ε ≤ 2
= 2 2 var(Sn ) = 2 2 n var(X1 ) = 2 var(X1 ) −−−→ 0.
n ε n ε n ε nε n→∞
5.2. Théorème limite central (TLC)
— Quitte à considérer les Xi − E[Xi ], on peut supposer E[Xi ] = 0. Selon le lemme 4.2.5, il suffit
Sn L
ici de montrer que montrer que n − −−→
n→∞
0. Soit t ∈ R, par indépendance,
n
h it Pn
Xi
i t
ϕ Sn (t) = E e n i=1 = ϕX1 .
n n
D’après le lemme précédent,
t
ϕ Sn (t) − 1 ≤ n ϕX1 −1 .
n n
Puisque E[|Xi |] < ∞, ϕX1 est dérivable en zéro et ϕ0X1 (0) = iE[X1 ] = 0. On écrit alors
n t
t· ϕX1 − 1 −−−→ t · |ϕ0X1 (0)| = 0
t n n→∞
Théorème 5.1.2. Soit (Xn )n une suite de variables aléatoire i.i.d intégrables (i.e E[|X1 |] <
∞), alors
n
Sn 1X p.s, L1
= Xi −−−−→ E[X1 ].
n n n→∞
i=1
Sn p.s
Remarque. Si une suite (Xn )n de variables aléatoires i.i.d vérifie n − −−→
n→∞
c ∈ R, alors E[|X1 |] <
∞ et c = E[X1 ].
Théorème 5.2.1. Soit (Xn )n une suite de variables aléatoires i.i.d avec E[|Xi |2 ] < ∞. On
pose σ 2 = var(X1 ). Alors,
√
Sn L
n − E[X1 ] −−−→ N (0, σ 2 ).
n n→∞
De manière équivalente,
√
n Sn L
− E[X1 ] −−−→ N (0, 1).
σ n n→∞
46 FPR
Chapitre 5. THÉORÈMES LIMITES
Remarques.
— Le théorème
limite central assure que la vitesse de convergence dans la loi des grands nombres
est O √1n .
— La loi gaussienne N (0, 1) apparaît comme une loi limite universelle.
Avant de démontrer ce théorème, nous avons besoin d’une estimation sur le reste d’ordre quel-
conque du développement de Taylor de l’exponentielle complexe.
Démonstration. Utiliser le théorème de Taylor reste intégral. On majore sans soucis pour faire
apparaître le premier terme du minimum. Pour le second, on intègre par parties le reste.
n
t
ϕ√
Sn (t) = ϕX1 √ .
n n
Puisque X1 admet un moment d’ordre 2, ϕX1 est deux fois dérivable. Alors,
t2 00 t2
ϕX1 (t) = 1 + tϕ0X1 (0) + ϕX1 (0) + o(t2 ) = 1 − + o(t2 ).
2 2
t2
D’après le lemme 5.1.1 avec ai = ϕX1 ( √tn ) et bi = 1 − 2n , on a
n
t2 t2
t
Sn (t) −
ϕ√ 1− ≤ n ϕX1 √ − 1−
n 2n n 2n
On applique ensuite le lemme précédent, et alors,
Remarque.
FPR 47
5.2. Théorème limite central (TLC)
Pn Soit (Xn )n une suite de∗ variables indépendantes avec var(Xi ) < ∞. On
Théorèmep5.2.2.
pose σn = k=1 var(Xi ) pour tout n ∈ N . Alors,
n
1 X L
Zn = (Xi − E[Xi ]) −−−→ N (0, 1).
σn n→∞
k=1
48 FPR
Chapitre 6
Vecteurs gaussiens
On rappelle qu’une variable gaussienne est une variable aléatoire réelle X ∼ N (m, σ 2 ) si elle
admet la densité
(x−m)2
e− 2σ 2
x 7−→ fX (x) = √ .
2πσ 2
De plus, on a pour tout t ∈ R,
σ 2 t2
ϕX (t) = eitm e− 2 .
On remarque de plus que X−m σ ∼ N (0, 1). Inversement, si Y ∼ N (0, 1), alors σY + m ∼ N (m, σ 2 ).
2
Dans le cas où σ = 0, on dit que X est dégénérée : X = m presque sûrement. On rappelle enfin des
notations usuelles : h · , · i dénotera le produit scalaire euclidien sur Rd et k · k la norme euclidienne
usuelle.
Définition 6.1.1 (vecteurs gaussiens). Un vecteur aléatoire X = (X1 , . . . , Xd )T est dit être
gaussien si toute combinaison linéaire de ses composantes est gaussienne, i.e que pour tout
a ∈ Rd , ha, Xi est gaussienne.
Remarques.
— Si X = (X1 , . . . , Xd )T est gaussien, alors en particulier pour tout i ∈ [[1, d]], Xi est une variable
gaussienne. La réciproque est fausse. Par exemple, si X ∼ N (0, 1), et ε ∼ B(±1, 1/2), alors
les composantes de (X, εX) sont des variables gaussiennes mais (X, εX) n’est pas un vecteur
gaussien car X + εX car elle n’est pas constante et
1
P(X + εX = 0) ≥ P(ε = −1) = .
2
On en déduit que cette variable a un atome donc elle ne peut pas être à densité (donc a fortiori
gaussienne). Un autre contre-exemple classique est de prendre X ∼ N (0, 1) et de poser Y = X
si |X| ≥ 1 et Y = −X sinon. Alors Y ∼ N (0, 1) mais (X, Y ) n’est pas gaussien.
6.1. Vecteurs gaussiens
— L’intérêt de l’étude des vecteurs gaussiens sera en fait de remarquer que tout se passe “bien”
dans l’espace des vecteurs gaussiens car cet espace est stable pour de nombreuses transforma-
tions linéaires.
Remarques.
— On rappelle que
d
!
X X
T
x Kx = xi xj cov(Xi , Xj ) = var xi Xi ≥ 0.
i,j∈[[1,d]] i=1
Démonstration. Par définition, si X est gaussien et x ∈ Rd , alors hx, Xi est un variable gaussienne.
On a
" d # d
X X
E[hx, Xi] = E xk Xk = xk E[Xk ] = hx, mi .
k=1 k=1
50 FPR
Chapitre 6. VECTEURS GAUSSIENS
On remarque alors que la loi de X est entièrement caractérisée par m = E[X] et la matrice de
covariance K.
Notation. On note X ∼ Nd (m, K). La proposition précédente assure que cette notation est bien
fondée.
Remarque. Les caractéristiques d’un vecteur gaussien se lisent sur la transformée de Fourier
(i.e la fonction caractéristique). Par exemple, si
1 2 −2st+2t2 )
ϕX (s, t) = e2is+3it e− 2 (s ,
alors m = (2, 3) et
1 −1
K= .
−1 2
En fait, on trouve dans la partie imaginaire de l’exponentielle les composantes de m, et dans les
coefficients de la forme quadratique de l’exponentielle réelle les coefficients de K (qui sont les coef-
ficients de la forme quadratique en question).
Démonstration. Soit x ∈ Rd . On a
h i
ϕX+Y (x) = E eihx,X+Y i
h i
= E eihx,Xi+ihx,Y i
h i h i
= E eihx,Xi + E eihx,Y i
1 T
1 T
= eihx,mX i e− 2 x KX x eihx,mY i e− 2 x KY x
1 T
= eihx,mX +mY i e− 2 x (K X +KY )x
.
Proposition 6.1.3. Les vecteurs gaussiens X et Y sont indépendants si, et seulement si,
K(X,Y ) est diagonable par bloc, i.e
KX (0)
K(X,Y ) =
(0) Ky
avec KX ∈ Md (R) et KY ∈ Mp (R).
FPR 51
6.1. Vecteurs gaussiens
Démonstration. Le sens direct est clair. Pour la réciproque, on calcule la fonction caractéristique.
Soit (x, y)T ∈ Rd+p , on a
Proposition 6.1.4. Soient (Xn )n∈N une suite de vecteurs gaussiens dans Rd . On les note
tels que pour tout n ∈ N, Xn ∼ Nd (mn , Kn ). Alors, si (Xn )n converge en loi vers un certain
X, alors X est nécessairement gaussien. Plus particulièrement, (Xn )n converge en loi vers
X ∼ Nd (m, K) si, et seulement si, mn −−−→ m et Kn −−−→ K.
n→∞ n→∞
Proposition 6.1.5. Soit X ∼ Nd (m, K) et A ∈ Mp,d (R). Alors, le vecteur AX est gaussien
et suit une loi Nd (Am, AKAT ).
Démonstration. Pour commencer, AX est gaussien car ses composantes sont des combinaisons li-
néaires du vecteur gaussien X. Ainsi, AX est aussi gaussien. En fait, pour tout x ∈ Rd ,
hAX, xi = X, AT x .
Déterminons maintenant sa moyenne et sa matrice de covariance. Par définition, si x ∈ Rd , alors
hAX, xi = X, AT x de sorte que
Définition 6.1.3 (vecteur non dégénéré). Un vecteur gaussien X ∼ Nd (m, K) est dit être
non dégénéré si sa matrice de covariance est inversible.
Remarques.
— On dit alors que X est dégénéré si det K = 0.
— Le X est dégénéré s’il existe a ∈ Rd tel que Ka = 0. Alors, var(ha, Xi) = aT Ka = 0 de sorte
que aX est constante presque sûrement. On peut voir un vecteur dégénéré comme un vecteur
vivant dans un hyperplan de Rd . Par exemple, si Y1 , . . . , Yd−1 ∼ N (0, 1) sont des variables
indépendantes, alors le vecteur gaussien
d−1
!
X
X= Y1 , . . . , Yd−1 , − Yi
i=1
est dégénéré. On remarquera que X est gaussien parce que les Yi sont indépendantes.
52 FPR
Chapitre 6. VECTEURS GAUSSIENS
— En fait, X est non dégénéré si la forme quadratique associé à sa matrice de covariance est non
dégénérée ( ?).
— Si X ∼ Nd (m, K) est non dégénéré, K est symétrique définie positive. Si l’on diagonalise
orthogonalement K sous la forme K = P DP T avec P une matrice orthonormée et D √ =
diag(λ1 , . . . , λd ) avec λi > 0. Alors K admet une racine carrée matricielle qu’on note ici K.
On a alors
√ p p
K = P diag λ1 , . . . , λd P T ,
et on a
√
−1 1 1
( K) = P diag √ ,..., √ PT.
λ1 λd
Avec une telle notation, on va pouvoir transformer X en l’équivalent d’une variable centrée
réduite.
Proposition
√ −1 6.1.6. Si X ∼ Nd (m, K) est un vecteur gaussien non dégénéré, alors
( K) (X − m) ∼ Nd (0, Id ).
Corollaire 6.1.1. Soit X ∼ Nd (m, K) un vecteur gaussien non dégénéré, alors X admet
comme densité (pour la mesure de Lebesgue sur Rd ) la fonction
fX : Rd −→ R
1 T −1
(x1 , . . . , xd ) 7−→ (2π)d/21√det K e− 2 (x−m) K (x−m) .
d
Y 1 1 2 1 − 12 kxk2
fX (x) = √ e − 2 xi = d/2
e .
i=1
2π (2π)
√ −1
Dans le cas général, on utilise le changement de variable x 7−→ K (x − m).
Théorème 6.1.1. Soit (X n )n∈N = (X1n , . . . , Xdn )T n∈N une suite de vecteurs aléatoires in-
dépendants, de même loi avec m = (E[X11 ], . . . , E[Xd1 ]), et soit K la matrice de covariance,
qu’on suppose de déterminant strictement positif. Alors,
n
!
√ 1X i L
n X − m −−−→ Nd (0, K).
n n→∞
i=1
De manière équivalente,
FPR 53
6.1. Vecteurs gaussiens
n
!
√ −1 √ 1X i L
Zn = K n X − m −−−→ Nd (0, Id ).
n n→∞
i=1
√ √
−1 T
Pn
1 i
Or, hx, Zn i = y n n i=1 X − m où Y = K ,x .
...
d
X
Nid = n.
i=1
Alors, la loi du vectuer N n = (N1n , . . . , Ndn )T est la loi multinomiale : pour tout (k1 , . . . , kd ) ∈ Nd ,
n!
P((N1n , . . . , Ndn ) = (k1 , . . . , kd )) = Qd pk11 . . . pkdd .
i=1 ki !
On veut connaître l’asymptotique de N n lors que n tend vers l’infini. On remarque que si Xk désigne
le numéro de la k-ième boule tirée, alors pour tout i ∈ [[1, d]] et n ∈ N∗ ,
n
X
Nin = 1Xk =i .
k=1
E[1Xk =i ] = P(Xk = i) = pi ,
et
N n p.s
−−−→ p = (p1 , . . . , pd )T .
n n→∞
Et même, d’après le théorème limite central multidimensionnel,
n
√
N L
n − p −−−→ Nd (0, K).
n n→∞
54 FPR
Chapitre 6. VECTEURS GAUSSIENS
est
1
x 7−→ ...
2d Γ(d/2)
Théorème 6.2.1 (Cochran). Soit X ∼ Nd (0, Id ). Alors, les projections orthogonales πVi (X)
sont des vecteurs gaussiens indépendants et pour tout i ∈ [[1, k]], kπVi (X)k2 ∼ χ2 (dim(Vi )).
Remarques.
— Si k = 2, alors Rd = V ⊕ V ⊥ . Alors, πV (X) et πV ⊥ (X) sont des variables indépendantes et
On en déduit que les vecteurs πVi (X) sont gaussiens car toute combinaison linéaire de leurs com-
posantes est une combinaison linéaire des composantes de X. Par orthogonalité, si (i, j) 6= (k, l),
alors
FPR 55
6.2. Projections orthogonales
L
Tn −−−→ χ2 (d − 1).
n→∞
p.s
Tn −−−→ ∞.
n→∞
√ Nin
L
n −p −−−→ Nd (0, K)
n n→∞
avec Ki,j valant pi (1 − pi ) si i = j et −pi pj sinon. Si D = diag √1 , . . . , √1 . On a par le
π1 πd
continuous mapping theorem,
56 FPR
Chapitre 6. VECTEURS GAUSSIENS
√ √ Nn
L
nD n −p −−−→ DNd (0, K) = Nd (0, DKD−1 ).
n n→∞
√ √ T √
On a Σ := DKD−1 = Id − π π , i.e que Σ est la projection sur ( π)⊥ , qui est un espace
vectoriel de dimension d − 1. Sous l’hypothèse que p = π, on a
√ Nn
L
nD −p −−−→ Nd (0, Σ).
n n→∞
Ainsi,
2
√ Nn
L
Tn = nD −p −−−→ kNd (0, Σ)k2 ∼ χ2 (d − 1).
n n→∞
Nin
(ii) D’après la loi des grands nombres, n →
− pi . Si “p 6= π”, alors il existe k ∈ [[1, d]] tel que
pk 6= πk . On en déduit que
2
Nkn
p.s
Tn ≥ n − πk −−−→ ∞.
n n→∞
P(χ2 (d − 1) > ηα ) ≤ α.
d 2
n X Nin
Tn = −π .
πi n
i=1
— Si Tn = Tn (xi ).......
Autre exemple, si (X, Y ) est a pour densité f(X,Y ) , alors la loi conditionnelle de X sachant
{Y = y0 } a pour densité
f(X,Y ) (x, y0 )
fX|Y =y0 (x) = R
R f(X,Y ) (z, y) dz
FPR 57
6.2. Projections orthogonales
et
R
xf(X,Y ) (x, y0 ) dx
E[X|Y = y0 ] = R
R .
R f(X,Y ) (x, y) dx
Ici, le calcul d’espérances conditionnelles relève purement de l’analyse et du calcul intégral. La
proposition suivante va nous montrer que dans le cadre des vecteurs gaussiens, l’algèbre domine.
ΓTXi ,Y
ΓXi
cov(Z) = ΓX ,Y
i ΓY
Exemples.
— En dimension 2. Si (X, Y ) est un vecteur gaussien suivant une loi N2 ((1, 5)T , K) où
3 1
K= ,
1 2
alors, E[X|Y ] = 1 + 21 (Y − 5).
— En dimension 3. Si (X, Y1 , Y2 ) ∼ N3 (m, K) avec m = (3, 2, 1)T , et
2 −2 2
K = −2 5 1 ,
2 1 5
alors,
−1
5 1 Y1 − 2 7 1
E[X|Y1 , Y2 ] = 3 + (−2, 2) = + (Y2 − Y1 ).
1 5 Y2 − 1 2 2
58 FPR