Probabilités: Année 2015-2016
Probabilités: Année 2015-2016
Probabilités
Denis Villemonais
Première Année FICM
Semestre 2
École des Mines de Nancy - Département Génie Industriel - Campus ARTEM - CS 14234 - 54 042 Nancy Cedex
Email : [Link]@[Link]
Avant propos
Comme pour le premier semestre, vous devez lire le chapitre concernant la séance avant de venir en cours.
Les feuilles d’exercices vous seront distribuées au fur et à mesure en séance de travaux dirigés. Après chaque
séance, vous trouverez sur la page web
[Link]
les transparents du cours pour cette séance ainsi que la feuille d’exercices et son corrigé. Vous trouverez aussi
sur cette page web la version pdf du polycopié.
Ce polycopié est le fruit d’une collaboration avec Céline Lacaux, aujourd’hui professeur à l’université d’Avi-
gnon.
3
Table des matières
1 Tribus et mesures 3
1.1 Tribus et mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Ensembles Négligeables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Premiers exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Les mesures discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 La mesure de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Les mesures à densité par rapport à la mesure de Lebesgue . . . . . . . . . . . . . . . . 8
1.3 Probabilité conditionnelle et événements indépendants . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Théorèmes d’intégration 27
3.1 Théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Théorème de convergence monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Théorème de convergence dominée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.3 Lemme de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Applications des théorèmes de convergence aux intégrales paramétrées . . . . . . . . . . . . . . 33
3.3 Théorème de changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1
5 Théorème de Fubini 51
5.1 Tribu produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Mesure Produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Théorèmes de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Applications des théorèmes de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4.1 Lois marginales d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4.2 Échange des signes somme et somme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.3 Échange des signes somme et intégrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.4 Échange des signes espérance et somme . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4.5 Échange des signes espérance et intégrale . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2
9.3 Propriétés de la loi d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.3.1 Vecteurs gaussiens et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
9.3.2 Vecteur gaussien et densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.3.3 Cas d = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
9.4 Vecteurs gaussiens et convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
9.4.1 Stabilité de l’ensemble des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . 110
9.4.2 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.5 Vecteurs gaussiens et projection orthogonale dans L2 . . . . . . . . . . . . . . . . . . . . . . . . 111
3
4
Chapitre 1
Tribus et mesures
Dans tout le chapitre, Ω est un ensemble non vide. Notre premier objectif est de définir la notion de mesure sur
Ω. En particulier, nous aboutissons à un cadre d’abstraction commun pour les notions de cardinal, de longueur,
d’aire et de volume. Nous aborderons également la notion fondamentale d’indépendance d’événements. Notons
que les concepts abordés ici sont une généralisation du programme de probabilités de classe préparatoire.
Définition 1.1.
Une tribu F sur l’ensemble Ω est une famille de sous-ensembles de Ω telle que
(i) Ω ∈ F,
(ii) F est stable par passage au complémentaire, c’est-à-dire que
si A ∈ F, alors Ω\A ∈ F,
(iii) F est stable par réunion dénombrable, c’est-à-dire que
[
si (An )n∈N est une suite d’éléments de F, alors An ∈ F.
n∈N
Si F est une tribu sur Ω, l’espace (Ω, F) est appelé un espace mesurable (ou espace probabilisable).
Les éléments de F (qui sont des sous-ensembles de Ω) sont appelés les ensembles F -mesurables, ou
simplement mesurables s’il n’y pas d’ambiguïté sur la tribu considérée.
Remarque 1.1.
1. Une tribu contient toujours l’ensemble vide (noté ∅) et est stable par réunion finie.
2. Nous aurions pu définir la notion de tribu en remplaçant
• l’assertion (i) par l’assertion (i)’ ∅ ∈ F.
• et/ou l’assertion (iii) par l’assertion (iii)’ F est stable par intersection dénombrable.
3. A fortiori une tribu est stable par union/intersection finie.
5
1. F = P(Ω) est la plus grande tribu (au sens de l’inclusion) sur Ω. Elle est appelée tribu discrète sur Ω.
2. F = {∅, Ω} est la plus petite tribu (au sens de l’inclusion) sur Ω. Elle est appelée tribu grossière sur Ω.
3. Soit A ∈ P(Ω) tel que A 6= ∅ et A 6= Ω. Alors F = {∅, A, Ac , Ω} est une tribu sur Ω.
4. Étant donnée une famille S de sous-ensembles de Ω, on définit la tribu engendrée par S, notée σ(S),
comme l’intersection de toutes les tribus qui contiennent S :
\
σ(S) := F.
F tribu, S⊂F
Il s’agit de la plus petite tribu (au sens de l’inclusion) qui contient tous les éléments de S. En particulier,
la tribu engendrée par S = {A} est {∅, A, Ac , Ω}.
5. Considérons le cas Ω ⊂ Rd . Comme nous souhaitons étendre la notion de longueur, d’aire et de volume,
il est intéressant de définir la plus petite tribu contenant toutes les boules de Ω. Il s’agit en fait de la
tribu engendrée par les ouverts de Ω, appelée tribu borélienne et notée B(Ω). Les ensembles B(Ω)-
mesurables sont appelés les ensembles boréliens.
Remarque 1.2. Dans tout ce cours, sauf mention du contraire, si Ω est un espace non vide fini ou dénombrable,
nous le munirons de la tribu discrète P(Ω).
1.1.2 Mesures
Définition 1.2.
Soit (Ω, F) un espace mesurable. Une mesure positive µ sur l’espace mesurable (Ω, F) est une applica-
tion µ : F → [0, +∞] telle que
(i) µ(∅) = 0,
(ii) µ est σ-additive, c’est-à-dire que pour toute suite (An )n∈N d’éléments de F deux à deux disjoints
!
[ X
µ An = µ(An ). (1.1)
n∈N n∈N
Le triplet (Ω, F, µ) est alors appelé un espace mesuré. Si µ(Ω) = 1, alors la mesure µ est appelée
probabilité et le triplet (Ω, F, µ) espace de probabilités.
Il est courant de noter les espaces probabilisés sous la forme (Ω, F, P), où P est alors une mesure de probabilité.
Dans ce cas, il est également d’usage d’appeler événements les ensembles mesurables. On interprète alors Ω
comme l’ensemble des réalisations possibles et un événement regroupe différentes réalisations présentant une
certaine caractéristique.
Exemple 1.2. Nous cherchons à modéliser le lancer de deux dés à 6 faces. Nous posons pour cela Ω =
{1, . . . , 6} × {1, . . . , 6}, muni de la tribu discrète et nous définissons la mesure de probabilité sur (Ω, P(E)) par
Ici, chque élément ω = (ω1 , ω2 ) ∈ Ω représente un tirage possible (le premier dé de valeur ω1 et le deuxième dé
de valeur ω2 ). Voici quelques exemples d’événements et leurs probabilités associées.
1. A1 = {ω ∈ Ω tel que ω1 = ω2 }, avec P(A1 ) = 1/6,
2. A2 = {ω ∈ Ω tel que ω1 + ω2 = 5}, avec P(A2 ) = 1/9,
3. A3 = {ω ∈ Ω tel que ω1 + ω2 6= 5}, avec P(A3 ) = P(Ac2 ) = P(Ω) − P(A2 ) = 8/9.
6
Les trois premières propriétés de la proposition suivante sont faciles à démontrer. Il est donc conseillé au
lecteur d’établir ces résultats en guise d’exercice.
Proposition 1.1.
2. La mesure µ est croissante sur F (pour l’inclusion), c’est-à-dire que pour tous A, B ∈ F,
A ⊂ B =⇒ µ(A) 6 µ(B).
3. Pour tous A, B ∈ F,
µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B). (1.2)
5. La mesure µ vérifie les deux propriétés suivantes appelées continuité monotone respectivement crois-
sante et décroissante.
(a) Si (An )n∈N est une suite croissante d’éléments de F (c’est-à-dire si An ∈ F et An ⊂ An+1
pour tout n ∈ N) alors la suite (µ(An ))n∈N est une suite croissante et
!
[
µ An = lim µ(An ).
n→+∞
n∈N
(b) Si (Bn )n∈N est une suite décroissante d’éléments de F (c’est-à-dire si Bn ∈ F et Bn+1 ⊂ Bn
pour tout n ∈ N) telle que µ(B0 ) < +∞, alors la suite (µ(Bn ))n∈N est une suite décroissante et
!
\
µ Bn = lim µ(Bn ).
n→+∞
n∈N
Remarque 1.3. Supposons que µ(Ω) < +∞. Alors par croissance de µ, pour tout A ∈ F, µ(A) < +∞
(autrement dit µ est à valeurs dans [0, +∞[). Dès lors, dans l’égalité (1.2), il est possible de faire passer un
terme du membre de droite (resp. gauche) dans le membre de gauche (resp. droite). En particulier, cette égalité
se réécrit sous la forme :
∀A, B ∈ F, µ (A ∪ B) = µ (A) + µ (B) − µ (A ∩ B) .
De plus, en prenant B = Ac et en appliquant (1.2), nous obtenons que pour tout A ∈ F, µ(Ac ) = µ(Ω) − µ(A).
En particulier, si µ est une probabilité, alors pour tout A ∈ F,
µ(Ac ) = 1 − µ(A).
Remarquons enfin qu’une somme pondérée et dénombrable de mesures est une mesure.
7
1.1.3 Ensembles Négligeables
Jetons une pièce de monnaie équilibrée une infinité de fois. L’évènement « la pièce tombe toujours sur
face » est un évènement non vide de probabilité nulle ; il s’agit d’un exemple d’évènement négligeable. La notion
d’ensembles négligeables joue un rôle important en théorie de la mesure et en probabilités. La définition suivante
précise cette notion.
Définition 1.3.
est µ-négligeable.
3. Si µ est une probabilité, une propriété vraie µ-presque partout est dite vraie µ-presque sûrement.
On observe que tout sous-ensemble d’un ensemble négligeable est négligeable. De plus, on montre facilement à
l’aide de la proposition 1.1 que la famille des ensembles négligeables est stable par réunion finie ou dénombrable.
Exemple 1.3.
1. L’ensemble vide est négligeable.
2. Soient A ⊂ Rd un ensemble fini ou dénombrable et λd la mesure de Lebesgue sur Rd . L’ensemble A est
alors λd -négligeable.
3. Une droite de R2 est toujours négligeable par rapport à λ2 . De manière générale, les hyperplans affines de
Rd sont négligeables par rapport à λd .
4. La mesure λ1 est une mesure de probabilité sur [0, 1]. Les éléments de [0, 1] sont irrationnels λ1 -presque
sûrement.
Remarque 1.4. Dans la suite du cours, nous supposerons très souvent que les ensembles µ-négligeables sont
F-mesurables (on dit alors (Ω, F, µ) est complet). Cette hypothèse a priori cavalière est rendue possible en
ajoutant à F les ensembles négligeables, auquel cas on dira que la tribu est complétée (par rapport à µ). Dans
ce cas, il est possible d’étendre la définition de µ à la tribu complétée.
8
Soient (an )n∈N une famille d’éléments de Ω et (αi )n∈N une famille d’éléments de [0, +∞]. Alors en adoptant la
convention +∞ × 0 = 0, pour tout ensemble A ∈ P(Ω),
X X
µ(A) = αn δan (A) = αn (1.3)
n∈N n∈N / an ∈A
est bien défini et l’application µ : P(Ω) → [0, +∞] est une mesure positive sur (Ω, P(Ω)). Une telle mesure est
appelée une mesure discrète. 1
P P
Remarque 1.5. La mesure discrète µ = n∈N αn δan est une probabilité si et seulement si n∈N αn = 1. On
parle alors de probabilité discrète.
Exemple 1.4.
1. Pour tout a ∈ Ω, la mesure de Dirac en a, notée δa , est une probabilité discrète.
2. Soit Ω un ensemble non vide fini ou dénombrable. Remarquons alors que pour tout A ∈ P(Ω),
X
Card(A) = δω (A).
ω∈Ω
L’ensemble Ω étant fini ou dénombrable, Card s’écrit sous la forme (1.3) et est donc une mesure discrète
sur Ω, appelée mesure de comptage sur Ω.
3. Si l’ensemble non vide Ω est fini, la mesure définie par
1 X
µ(A) = δω (A), ∀A ∈ P(Ω),
Card(Ω)
ω∈Ω
pour toutes familles (ai )16i6d et (bi )16i6d de [−∞, +∞] vérifiant ai < bi pour tout 1 6 i 6 d. Cette mesure est
la mesure de Lebesgue sur Rd 2 .
Étant donné que la mesure de Lebesgue étend les notions de longueur, aire ou volume, nous sommes autorisés
à appliquer les formules connues pour calculer les aires et volumes classiques (triangle, disque, boule, etc...).
Par exemple, la mesure de Lebesgue d’un disque C de R2 de rayon r > 0 est
1. Dans l’écriture de µ, il est toujours possible de choisir les éléments an deux à deux distincts (dans ce cas αn = µ ({an })). Il
est aussi toujours possible de supposer αn > 0.
2. L’existence d’une telle mesure est une conséquence du Théorème d’extension de Carathéodory, son unicité provient du lemme
de classe monotone. Ces deux résultats sont hors programme.
9
Proposition 1.2.
La mesure de Lebesgue est invariante par les isométries euclidiennes de Rd . En particulier, elle est inva-
riante par translation, par symétrie et par rotation.
Remarque 1.6. La mesure de Lebesgue ne permet pas de mesurer tous les ensembles de Rd . En effet, en
supposant que tous les sous-ensembles de Rd sont mesurables, on arrive à des paradoxes célèbres : on peut
construire un ensemble de longueur nulle contenant [0, 1] (ensemble de Vitali) et on peut couper une boule de
R3 en morceaux disjoints pour en reformer deux distinctes, chacune de même volume que la première (paradoxe
de Banach-Tarski) ! Cependant tous les ensembles boréliens peuvent être mesurés par la mesure de Lebesgue. Les
ensembles boréliens contiennent en particulier les réunions et intersections dénombrables d’ensembles ouverts
et fermés de Rd : cela suffira amplement à notre étude !
Cela permet de définir une mesure sur tous les intervalles [a, b], qui peut en fait être étendue à tous les ensembles
boréliens. La mesure obtenue est alors dite absolument continue par rapport à la mesure de Lebesgue, ou sim-
plement absolument continue si il n’y a pas d’ambiguïté. La fonction f est appelée la densité de la mesure ν.
Nous reviendrons sur ce type d’exemples dans le chapitre suivant, après avoir introduit l’intégrale de Lebesgue.
Exemple 1.5.
1. La mesure de Lebesgue est un cas particulier de mesure absolument continue, où l’on prend f = 1.
2. La mesure définie, pour tout a < b, par
Z b
ν([a, b]) = e−x dx
a
est une mesure absolument continue appelée loi exponentielle de paramètre 1. Il s’agit d’une mesure de
probabilité.
Remarque 1.7.
1. Une mesure absolument continue est une mesure de probabilité si et seulement si l’intégrale de sa densité
sur R vaut 1.
2. D’autres exemples de probabilités absolument continues sont données dans le tableau 2.3 à la fin du
chapitre suivant.
3. On généralise facilement la notion de mesure absolument continue par rapport à la mesure de Lebesgue
en dimension d ≥ 2.
10
1.3.1 Probabilité conditionnelle
Définition 1.4 (Probabilité conditionnelle).
Soit A ∈ F tel que P(A) > 0. On définit alors, pour tout B ∈ F, la probabilité conditionnelle de B
par rapport à A, par
P(B ∩ A)
P(B | A) = .
P(A)
L’application P(· | A) : B ∈ F 7→ P(B | A) est alors une mesure de probabilité sur Ω, appelée la
probabilité conditionnelle par rapport à A.
Attention ! Cette définition ne permet pas de construire les probabilités conditionnelles par rapport à des
événements de probabilité nulle.
Terminons cette partie par la formule dite de Bayes, qui permet "d’inverser" les connaissances des proba-
bilités conditionnelles.
P(B | Ak )P(Ak )
P(Ak | B) = P .
n∈N P(B | An )P(An )
On trouve souvent cette proposition énoncée dans le cas où la famille (An )n∈N ne contient qu’un événement non
vide et son complémentaire : étant donnés deux événements A et B,
P(B | A)P(A)
P(A | B) = .
P(B ∩ A) + P(B ∩ Ac )
Remarque 1.8.
1. L’événement total Ω et l’événement vide est indépendant de tout autre événement.
11
(c) (c)
2. Nous verrons en TD que, si A1 , . . . , An , . . . sont indépendants, alors A1 , . . . , An , . . . sont mutuellement
(c)
indépendants, où An désigne A ou son complémentaire Ac .
3. Si A et B sont indépendants, avec P(B) 6= 0, alors on vérifie aisément que P(A | B) = P(A).
Pour vérifier que lim supn∈N An est mesurable, nous pouvons le réécrire sous la forme d’une intersection de
réunions d’événements :
+∞
\ +∞
[
lim sup An = Ak .
n∈N n=0 k=n
En effet, étant donné ω ∈ Ω, il existe une infinité d’indices n ∈ N tels que ω ∈ An si et seulement
S+∞ si pour tout
n ∈ N, il existe k ≥ n tel que ω ∈ Ak ; c’est-à-dire si et seulement si pour tout n ∈ N, ω ∈ k=n Ak ; c’est-à-dire
si et seulement si ω ∈ +∞
T S+∞
n=0 k=n k A .
et
X
P(An ) = +∞ ⇔ P lim sup An = 1.
n∈N n∈N
Dans ce cas, on dit que l’événement lim supn∈N An suit une loi du 0 − 1.
X +∞
X
1. Supposons que P(An ) < +∞. Soit ε > 0. Alors il existe N ∈ N tel que P(An ) < ε.
n∈N n=N
12
D’après la propriété de sous-additivité (proposition 1.1),
+∞ +∞
!
[ X
P An 6 P(An ) < ε.
n=N n=N
T+∞ S+∞ S+∞
Or lim supn∈N An = n=0 k=n Ak ⊂ n=N An , donc
P lim sup An < ε
n∈N
pour tout ε > 0. Par conséquent, P lim sup An = 0.
n∈N
et donc
m m
! !
[ X
P Ak > 1 − exp − P(Ak )
k=n k=n
Exemple 1.6. Considérons une suite dénombrable de dés, telle que le n-ième dé possède 2n + 1 faces, notées
de 0 à 2n , et qui sont équiprobables. Quelle est la probabilité qu’une infinité de dés tombent sur le nombre 1 ?
Pour répondre à cette question, nous définissons, pour chaque n ∈ N, l’événement
13
Alors
Remarquons qu’on ne suppose par que les dés sont tirés de manière indépendante.
Exemple 1.7. Considérons à nouveau une suite dénombrable de dés, telle que le n-ième dé possède n + 1
faces, notées de 0 à n, et qui sont équiprobables. Nous supposons de plus que les dés sont tirés de manière
indépendantes, c’est-à-dire que, pour toute suite u1 , . . . , un , . . ., les événements {le n-ième dé tombe sur un }
sont mutuellement indépendants. Quelle est alors la probabilité qu’une infinité de dés tombent sur le nombre
1?
Avec les mêmes notations que dans l’exemple précédent, nous avons cette fois-ci P(An ) = 1/(n + 1), donc
X
P(An ) = ∞.
n∈N
Les événements considérés étant mutuellement indépendants, on déduit de la deuxième partie du Lemme de
Borel Cantelli que
P({une infinité de dés tombent sur le nombre 1}) = P lim sup An = 1.
n∈N
Remarque 1.9. Pour définir proprement les événements considérés ci-dessus, on peut procéder comme suit.
Considérons l’ensemble des suites de nombres entiers
Ω = N × N × · · · = NN .
On le muni de la plus petite tribu F contenant les ensembles Ωn,k , n > 1, k > 0, définis par
Les événements considérés dans les exemples ci-dessus sont alors donnés par An = Ωn,1 .
De plus, on peut définir sur (Ω, F) une mesure de probabilité P telle que, pour tout n ≥ 1, k ≥ 0,
(
1
n si k 6 2n ,
P(Ωn,k ) = 2 +1
0 si k > n.
L’existence d’une telle probabilité est un résultat difficile et hors programme. Remarquons toutefois qu’il y a
plusieurs façon de définir une telle probabilité et que l’on peut la choisir de telle sorte à rendre ou non les
événements An mutuellement indépendants.
14
Chapitre 2
Ce chapitre introduit les notions de fonctions mesurables et de variables aléatoires. Nous introduisons deux
points clefs en probabilités : la notion de loi et le théorème du transport. Nous abordons également les principales
étapes de la construction de l’intégrale de Lebesgue par rapport à une mesure 1 , notion fondamentale en théorie
moderne des probabilités.
Soient (Ω1 , F1 ) et (Ω2 , F2 ) deux espaces mesurables. Une fonction f : Ω1 → Ω2 est dite mesurable si
∀B ∈ F2 , f −1 (B) ∈ F1 ,
Notons que la notion de fonction mesurable dépend des tribus choisies pour Ω1 et Ω2 . Pour bien signaler cette
dépendance, nous dirons aussi que « f est mesurable par rapport à F1 et F2 » ou écrirons, pour être concis,
« f : (Ω1 , F1 ) → (Ω2 , F2 ) ».
Remarque 2.1. Si Ω1 ⊂ Rd1 et Ω2 ⊂ Rd2 sont munis de leur tribu borélienne, une fonction mesurable sera
encore appelée fonction borélienne.
Exemple 2.1.
1. Les fonctions constantes sont toutes mesurables (quelles que soient les tribus F1 et F2 considérées).
2. Soient (Ω1 , F1 ) un espace mesurable et A ⊂ Ω1 . On définit la fonction indicatrice 1A : Ω1 → {0, 1} par
(
1 si x ∈ A,
1A (x) =
0 si x ∈
/ A.
Avec {0, 1} muni de la tribu discrète, la fonction indicatrice 1A est mesurable si et seulement si A est un
ensemble F1 -mesurable. Il est conseillé au lecteur d’établir ce résultat, en guise d’exercice.
1. Nous ne donnons pas les preuves des propositions énoncées, car leur technicité s’écarte des objectifs du cours. Toutefois, le
lecteur intéressé est invité à parcourir les nombreux ouvrages de références disponibles sur la question (par exemple Mesure et
intégration de Daniel Revuz, 1997 aux éditions Hermann).
15
3. Soient Ω1 ⊂ Rd1 et Ω2 ⊂ Rd2 . Nous munissons ces deux espaces de leur tribu borélienne. Alors les fonctions
continues par morceaux ou encore les fonctions dérivées sont boréliennes, c’est-à-dire mesurables. Cela
reste vrai si les tribus boréliennes considérées sont complétées (c’est-à-dire qu’on leur ajoute les ensembles
négligeables pour la mesure de Lebesgue).
Remarque 2.2. Pour des raisons pratiques, nous souhaiterons souvent considérer des fonctions pouvant prendre
les valeurs −∞ et +∞. Pour y parvenir, nous introduisons l’ensemble R := [−∞, +∞] muni de sa tribu boré-
lienne (la plus petite tribu qui contient les ouverts de R). Nous parlerons alors de fonctions mesurables à valeurs
dans (R, B(R)).
Terminons cette partie en donnant quelques propriétés de stabilité de l’ensemble des fonctions mesurables.
Proposition 2.1.
(c) de plus si (fn )n∈N converge simplement, alors sa limite f := lim fn est aussi mesurable.
n→+∞
Les fonctions que nous rencontrerons dans ce cours seront en général mesurables et nous aurons rarement à nous
soucier de problèmes de non-mesurabilité. Cependant, la notion de mesurabilité est pertinente et même cruciale
dès que l’on considère l’étude de processus stochastiques (quantités qui évoluent aléatoirement en fonction du
temps) ou de processus partiellement observés. Dans ces situations, la tribu contient l’information disponible par
un observateur ; une fonction mesurable est alors une fonction qui, au mieux, maintient l’information disponible.
Définition 2.2.
Une application X : Ω → E est appelée variable aléatoire si elle est mesurable, c’est-à-dire si
∀B ∈ E, X −1 (B) ∈ F
En probabilités, l’ensemble X −1 (B) est un événement, noté {X ∈ B}, interprété comme l’ensemble des réalisa-
tions telles que X ∈ B.
Remarque 2.3. La notion de variable aléatoire coïncidant avec celle de fonction mesurable, cette notion dépend
des tribus F et E dont sont munis les espaces Ω et E. De plus, les mêmes propriétés de stabilité s’appliquent
pour les variables aléatoires.
16
La loi d’une variable aléatoire X est une probabilité définie sur l’espace dans lequel X prend ses valeurs.
Définition-Proposition 2.2.
PX : E −→ [0, +∞]
B 7−→ P(X −1 (B)) = P(X ∈ B)
est une probabilité sur (E, E) appelée loi de la variable aléatoire X (sous la probabilité P).
Remarque 2.4.
1. La loi d’une variable aléatoire dépend des tribus F et E considérées ainsi que de la probabilité P.
2. En modélisation, la loi de X est précisée mais le plus souvent l’espace (Ω, F, P) ne l’est pas. Ainsi, étant
donné une mesure de probabilité µ sur N, R ou Rd , on dira souvent que l’on se donne une variable aléatoire
X de loi µ.
Quelques exemples de lois sur N et R, très utilisées en pratique, sont présentées en fin de chapitre.
Proposition 2.3.
Supposons que (Ω, F, P) est complet. Si X, Y : Ω → E sont égales P-presque sûrement, alors X et Y ont
même loi.
Par hypothèse, X = Y P-presque sûrement, ce qui signifie que {X 6= Y } est un ensemble négligeable
pour P. A fortiori, son sous-ensemble {X ∈ B, X 6= Y } est négligeable et donc P(X ∈ B, X 6= Y ) = 0.
Dès lors, il vient :
PX (B) = P(X ∈ B, X = Y ).
Par symétrie,
PY (B) = P(Y ∈ B, X = Y ) = P(X ∈ B, X = Y ) = PX (B).
Nous venons de montrer que sur E, PY = PX , c’est-à-dire que X et Y ont même loi.
17
Attention ! On indique dµ dans l’intégrale pour rappeler la dépendance en µ. On trouvera de manière courante
les notations suivantes, qui sont parfaitement équivalentes :
Z Z Z
f dµ = f (x) dµ(x) = f (x) µ(dx).
Ω Ω Ω
Dans le cadre probabiliste, c’est-à-dire quand µ est une probabilité, l’intégrale de f par rapport à µ est appelée
l’espérance de f par rapport à µ, notée Eµ (f ) ou simplement E(f ) s’il n’y a pas d’ambiguïté sur µ. Nous
reviendrons sur cette notion importante dans la section et les chapitres suivants.
Nous donnons dans un premier temps les principales étapes de la construction de l’intégrale de Lebesgue puis
les propriétés générales de cette intégrale. Cette construction abstraite présente l’intérêt d’être très générale.
Dans un deuxième temps, nous nous concentrons sur le calcul de cette intégrale dans des cas particuliers.
Étape 2. Soit f une fonction étagée positive, c’est-à-dire une fonction s’écrivant sous la forme
n
X
f (x) = αi 1Ai (x).
i=1
avec la convention 0 × +∞ = +∞ × 0 = 0. Cette quantité est bien définie et appartient à [0, +∞].
Étape 3. Soit f : Ω → [0, +∞] une fonction mesurable positive. On appelle intégrale de f par rapport à µ la
quantité
Z Z
f dµ := sup h dµ 0 6 h 6 f et h est étagée .
Ω
Étape 4. Soit f : Ω → R une fonction mesurable à valeurs dans R. On note f+ et f− les fonctions appelées
partie positive et partie négative de f , qui sont définies par
18
Par définition de f+ et f− ,
(
f = f+ − f−
|f | = f+ + f− .
Remarquons que |f |, f+ et f− sont des fonctions mesurable positives dont on peut construire l’intégrale grâce à
l’étape 3. On dira que f est intégrable si
Z
|f | dµ < ∞.
Ω
R R
Dans ce cas, Ω f+ dµ < ∞ et Ω f− dµ < ∞ et on appelle intégrale de f par rapport à µ le réel
Z Z Z
f dµ = f+ dµ − f− dµ.
Ω Ω Ω
R
Remarque 2.5. Si f n’est pas intégrable, c’est-à-dire si Ω |f | dµ = +∞, alors on ne peut pas définir l’intégrale
de f , sauf si f est à valeurs positives (auquel cas l’intégrale de f = |f | est +∞).
Remarque 2.6. Soit f une fonction à valeurs complexes,R c’est-à-dire telle que f = f1 + if2 avec f1 et f2
mesurables à valeurs réelles. On dit que f est intégrable si Ω |f | dµ < ∞, ce qui est équivalent à f1 et f2 sont
intégrables. Dans ce cas, on pose
Z Z Z
f dµ = f1 dµ + i f2 dµ.
Ω Ω Ω
Les propriétés énoncées dans la section suivante, lorsqu’elles s’appliquent, restent vraies pour les fonctions à
valeurs complexes.
Proposition 2.4.
1. Soient f, g : Ω → R deux fonctions mesurables égales µ-presque partout. Alors f est intégrable si et
seulement si g est intégrable. Dans ce cas, ou si les deux fonctions sont positives, leurs intégrales
coïncident.
19
2. Linéarité de l’intégrale :
Si f, g : Ω → R sont deux fonctions intégrables par rapport à µ, alors, pour tous α, β ∈ R, la fonction
αf + βg est intégrable et
Z Z Z
(αf + βg) dµ = α f dµ + β g dµ.
Ω Ω Ω
L’égalité ci-dessus reste vraie pour f, g : Ω → [0, +∞] mesurables, avec α, β ∈ [0, +∞].
3. Positivité/Croissance de l’intégrale
(a) Si f, g : Ω → [0, +∞] sont deux fonctions mesurables positives telles que f 6 g µ-presque
partout, alors
Z Z
f dµ 6 g dµ.
Ω Ω
(b) Si f, g : Ω → R sont deux fonctions intégrables par rapport à µ telles que f 6 g µ-presque
partout, alors
Z Z
f dµ 6 g dµ,
Ω Ω
4. Si f : Ω → R est une fonction intégrable par rapport à µ, alors f est finie µ-presque partout et
Z Z
f dµ 6 |f | dµ.
Ω Ω
R
Remarque 2.7. Soit A ∈ F un ensemble mesurable. Pour toute fonction f : Ω → R telle que Ω 1A (x) f (x) dµ(x)
est bien définie (c’est-à-dire telle que f 1A est mesurable positive ou µ-intégrable), on pose
Z Z
f (x) dµ(x) := 1A (x) f (x) dµ(x).
A Ω
R
De cette façon, on retrouve immédiatement l’égalité de Chasles : pour tous A, B ∈ F disjoints tels que A∪B f dµ
est bien définie, on a
Z Z Z
f (x) dµ(x) = f (x) dµ(x) + f (x) dµ(x).
A∪B A B
20
Mesures discrètes
Soient Ω un ensemble non-vide et µ une mesure discrète sur Ω. Il existe alors une famille (an )n∈N d’éléments
de Ω et une famille (αn )n∈N d’éléments de [0, +∞] telles que
X
µ(A) = αn δan (A), ∀A ∈ P(Ω).
n∈N
c’est-à-dire si et seulement si la série de terme général αn f (an ) est absolument sommable. De plus si f est
intégrable, alors
Z X
f dµ = αn f (an ).
Ω n∈N
Insistons sur le fait que la formule ci-dessus est vraie pour f mesurable positive ou f intégrable.
Remarque 2.8. Soit u : N → R une fonction à valeurs réelles et µ la mesure de comptage sur N, donnée par
X
µ(A) = δn (A) = Card(A), ∀A ⊂ N.
n∈N
D’après ce qui précède, l’intégrale de |u| par rapport à µ est donnée par
Z X
|u(n)| dµ(n) = |u(n)|.
N n∈N
Ainsi, la fonction u est intégrable par rapport à la mesure de comptage si et seulement si la série de terme
général |u(n)| est absolument sommable. Si tel est le cas, on a de plus
Z X
u(n) dµ(n) = u(n).
N n∈N
En particulier, il sera possible de considérer les séries comme des intégrales et de leur appliquer les mêmes
propriétés.
Mesure de Lebesgue
Soit d > 1. On suppose ici que Ω ⊂ Rd est muni de la tribu borélienne et de la mesure de Lebesgue λd .
L’intégrale par rapport à la mesure de Lebesgue généralise l’intégrale de Riemann (cette dernière
R étant définie
pour les fonctions continues par morceaux). Ainsi, lorsque l’on cherche à calculer l’intégrale Ω f dλd où f est
continue par morceaux, on peut utiliser les techniques connues pour l’intégrale de Riemann (relation de Chasles,
calcul de primitive, intégration par partie, changement de variables, etc...). Par exemple,
1 1/2
Z
1 1
2
dλ1 (x) = − = .
]0,1/2[ x(ln x) ln x 0 ln 2
21
Lorsque la fonction f n’est pas continue par morceaux, on peut essayer de se ramener à une fonction continue
par morceaux g égale à f λd -presque partout. Par exemple, comme 1x∈Q/ = 1 λ1 -presque partout,
1 1
1x∈Q
/ 2
= λ1 -presque partout
x(ln x) x(ln x)2
et donc
Z Z
1 1 1
1x∈Q
/ dλ1 (x) = dλ1 (x) = .
]0,1/2[ x(ln x)2 ]0,1/2[ x(ln x) 2 ln 2
On peut également essayer de se ramener à une fonction f limite croissante (resp. uniformément bornée) de
fonctions dont on sait calculer l’intégrale et utiliser le théorème de convergence monotone (resp. dominée). Nous
préciserons cela au fur et à mesure du cours et notamment lors du chapitre 6 sur les grands théorèmes de
l’intégration.
Mesures à densité
Étant donné un espace mesuré (Ω, F, µ) et une fonction positive mesurable h : Ω → [0, +∞], on peut définir
une fonction ν : F → [0, +∞] par
Z
ν(A) = 1A (x)h(x) dµ(x), ∀A ∈ F.
Ω
La fonction ν ainsi définie est une mesure positive, appelée mesure de densité h par rapport à µ. On note
souvent dν = h dµ.
R R
Remarque 2.9. On R a ν(Ω) = Ω 1Ω (x)h(x) dµ(x) = Ω h(x) dµ(x). On en déduit donc que ν est une probabilité
si et seulement si Ω h dµ = 1.
Par suite, une fonction mesurable f : Ω → R est ν-intégrable si et seulement si f h est µ-intégrable. De plus, si
f est ν-intégrable, alors
Z Z
f (x) dν(x) = f (x) h(x) dµ(x).
Ω Ω
Insistons sur le fait que l’égalité précédente est vraie pour f mesurable
R positive ou f telle que f h est µ-intégrable.
Cette égalité explique la notation dν = h dµ : pour calculer Ω f dν, on remplace formellement le terme dν par
h dµ.
Exemple 2.2 (Cas où ν est la mesure gaussienne N (0, 1)). Vous avez déjà rencontré cet exemple dans le cours
de statistique et appris que cette mesure vérifie, pour tout −∞ 6 a < b 6 +∞,
Z b
1 x2
ν([a, b]) = √ e− 2 dx
2π a
où l’intégrale a lieu au sens de Riemann. Comme la fonction intégrée est continue par morceaux, on a
Z
1 x2
ν([a, b]) = √ 1x∈[a,b] e− 2 dλ1 (x),
2π R
où l’intégrale a lieu au sens de Lebesgue. En fait, cette égalité s’étend à tous les ensembles boréliens et on en
x 2
déduit que la mesure gaussienne est la mesure de densité x 7→ √1 e− 2 par rapport à la mesure de Lebesgue
2π
λ1 .
22
Remarque 2.10. Nous utiliserons couramment des mesures à densité par rapport à la mesure de Lebesgue
dans la suite du cours. Suivant une pratique courante en probabilités, nous omettrons abusivement de préciser
que la mesure de référence est la mesure de Lebesgue. Ainsi, nous pourrons écrire « la mesure gaussienne est
x 2
une mesure de densité x 7→ √1 e− 2 » en omettant « par rapport à la mesure de Lebesgue λ1 ».
2π
Mesures mixtes
On se place dans la situation Ω = Rd est muni de la tribu borélienne. Une mesure mixte sur Rd est une
mesure qui possède une partie discrète et une partie à densité par rapport à la mesure de Lebesgue. Plus
précisément, une mesure µ sur Rd est dite mixte s’il existe une famille (an )n∈N d’éléments de Rd , une famille
(αn )n∈N d’éléments de [0, +∞] et une fonction mesurable positive h : Rd → [0, +∞], telle que
X Z
µ(A) = αn δan (A) + 1A (x)h(x) dλd (x).
n∈N Rd
P
Dans ce cas, on note souvent dµ = n∈N αn dδan + h dλd .
Pour toute fonction mesurable f : Ω → R, on a
Z X Z
|f (x)| dµ(x) = αn |f (an )| + |f (x)| h(x) dλd (x)
Ω n∈N Ω
Alors une fonction mesurable f est µ-intégrable si et seulement si elle vérifie les deux conditions suivantes :
• la série de terme général (αn f (an )) est absolument sommable ;
• f h est Lebesgue-intégrable.
De plus, si ces deux conditions sont vérifiées,
Z X Z
f (x) dµ(x) = αn f (an ) + f (x) h(x) dλd (x).
Ω n∈N Ω
Cette définition théorique est utile car elle donne un fondement rigoureux et général à la notion d’espérance.
En revanche, on ne détermine que très rarement l’espace Ω et la fonction X : Ω → R explicitement, ce qui rend
caduc l’utilisation de cette définition pour le calcul pratique de l’espérance. A contrario, on dispose en général
de la loi de X, ce qui suffit pour calculer son espérance (et même plus), comme l’explique le théorème suivant.
23
Théorème 2.5 (Théorème du transport).
Soient (E, E) un espace mesurable et X :Ω → E une variable aléatoire de loi PX . Considérons une
fonction mesurable ϕ : (E, E) → R, B R . Si ϕ(X) est P-presque sûrement à valeurs dans [0, +∞],
alors Z
E(ϕ(X)) = ϕ(x)PX (dx).
E
Si E(|ϕ(X)|) < ∞, alors ϕ(X) est intégrable et E(ϕ(X)) est égale à l’intégrale ci-dessus.
Le tableau 2.1 donné en fin de section ré-écrit ce théorème dans le cas des lois discrètes, absolument continues
et mixtes. Il est en général le point de départ de tout calcul d’une espérance dans le cas des lois considérées.
La notion d’espérance n’étant qu’une instance particulière de l’intégrale de Lebesgue, nous pouvons reformuler
les principales propriétés de celles-ci vues dans la section précédente.
Proposition 2.6.
Soient X et Y deux variables aléatoires définies sur l’espace de probabilité (Ω, F, P) à valeurs dans R.
1. L’espérance est linéaire sur le R-espace vectoriel des variables aléatoires P-intégrables à valeurs dans
R, c’est-à-dire que si X et Y sont intégrables alors pour tous a, b ∈ R,
Si X > 0 et Y > 0 P-presque sûrement, alors l’égalité précédente est aussi vérifiée dès lors que
a, b ∈ [0, +∞].
|E(X)| 6 E(|X|).
En conséquence immédiate du théorème du transport, nous pouvons donner la caractérisation suivante de la loi
d’une variable aléatoire. Sa démonstration est laissée en exercice. On pourra commencer par montrer l’égalité
importante suivante : pour tout ensemble mesurable A ⊂ E, E(1A (X)) = P(X ∈ A).
Soient X, Y : (Ω, F) → (E, E) deux variables aléatoires. Alors, X et Y ont même loi si et seulement si,
pour toute fonction ϕ : (E, E) → ([0, +∞[, B([0, +∞[)) mesurable bornée positive,
24
Remarque 2.11. Nous ne le démontrerons pas, mais, si E ⊂ Rd et E est la tribu borélienne sur E, alors
X, Y : Ω → E ont même loi si et seulement si (2.1) est vérifiée pour toute fonction
les variables aléatoires
ϕ : (E, E) → R, B R continue bornée positive.
X
Loi discrète E(ϕ(X)) = pn ϕ(xn ).
X n∈N
PX (A) = pn δxn (A) X
n∈N ϕ(X) intégrable ⇐⇒ pn |ϕ(xn )| < +∞.
n∈N
Z
Loi absolument continue E(ϕ(X)) = ϕ(x)f (x)λd (dx).
Z Rd
d
∀A ∈ B(R ), PX (A) = f (x)λd (dx).
A
ϕ(X) intégrable ⇐⇒ ϕ × f Lebesgue intégrable.
X Z
Loi ayant une partie discrète et une partie E(ϕ(X)) = αn ϕ(xn ) + ϕ(x)h(x)λd (dx).
absolument continue : n∈N Rd
Pour tout A ∈ B(Rd ),
X
αn |ϕ(xn )| < +∞
X Z
PX (A) = αn δxn (A) + h(x)λd (dx) ϕ(X) intégrable ⇐⇒ n∈N
A
n∈N et ϕ × h Lebesgue intégrable
25
Loi de la v.a. X Expression de PX Modélisation
N
Loi uniforme sur 1 X Le résultat X obtenu lors d’un lancé d’un dé non tru-
PX = δxi
N qué suit une loi uniforme sur {1, 2, 3, 4, 5, 6}.
E = {x1 , . . . , xN } i=1
avec N ∈ N∗ et xi 6= xj
pour i 6= j
+∞ −λ k
Loi de Poisson X e λ Cette loi est utilisée pour modéliser le nombre de réa-
PX = δk
k! lisations d’un évènement A dont la probabilité d’oc-
k=0
P(λ) currence est faible mais dont le nombre de réalisations
peut être grand (par exemple, nombre d’appels reçus
avec λ ∈ R∗+ en une minute par un standard).
Loi Géométrique +∞
Notons p la probabilité de succès d’une expérience.
Réalisons cette expérience plusieurs fois de manière
X
PX = p(1 − p)k−1 δk
G(p) indépendante. Notons Y le premier instant n ∈ N∗
k=1
correspondant à un succès. Alors, Y suit la loi G(p).
avec p ∈]0, 1[
26
Loi de la v.a. X Densité de PX Modélisation / Utilisation
(par rapport à λ1 )
où m ∈ R et σ ∈ R∗+
avec λ ∈ R∗+
à k ∈ N∗ degrés de liberté
27
28
Chapitre 3
Théorèmes d’intégration
La première partie de ce chapitre donne des conditions suffisantes pour intervertir les signes limite et inté-
grale/espérance 1 , c’est-à-dire des conditions sous lesquelles
Z Z
lim fn dµ = lim fn dµ ou lim E(Xn ) = E lim Xn .
n→+∞ Ω Ω n→+∞ n→+∞ n→+∞
• (Ω, F, µ) est un espace mesuré ; comme évoqué dans le chapitre 1, il est supposé complet, c’est-à-
dire que la tribu F contient tous les ensembles négligeables pour la mesure µ.
d
• Tout espace E ⊂ R est muni de sa tribu borélienne B(E) et tout espace E fini ou dénombrable est
muni de sa tribu discrète P(E).
Pour tout n ∈ N, soit fn : (Ω, F) → (R, B(R) une fonction mesurable. Supposons que pour tout n ∈ N,
Nous notons f la limite (définie µ-presque partout) de la suite (fn )n∈N . Alors l’intégrale de f est bien
définie et Z Z Z
lim fn dµ = f dµ = lim fn dµ.
n→+∞ Ω Ω Ω n→+∞
1. Les théorèmes que nous allons présenter ont pu être énoncés en classe préparatoire dans le cadre de l’intégrale de Riemann.
La pratique que vous avez alors acquise vous sera bien sûr utile ici.
29
Remarque 3.1. Dans le théorème de convergence monotone, la fonction f est a priori seulement définie µ-
presque partout, c’est-à-dire sur Ω \ N , où N est négligeable. Par convention, l’intégrale de f sur Ω désigne
alors l’intégrale de f 1N (qui est mesurable car (Ω, F, µ) est supposé complet).
La fonction fn est borélienne car continue par morceaux sur R. De plus, pour tout x ∈ R\{−1, 0, 1} , (fn (x))n∈N
est positif et converge en croissant vers
+∞ si x > 1
f (x) =
0 sinon.
Or {−1, 0, 1} est négligeable pour la mesure de Lebesgue, donc la suite (fn )n∈N est une suite de fonctions
positives λ1 -presque partout, croissante λ1 -presque partout, et qui converge λ1 -presque partout vers la fonction
f . Donc, d’après le théorème de convergence monotone et d’après la convention 0 × +∞ = 0,
Z Z
lim fn (x) λ1 (dx) = f (x) λ1 (dx) = 0 × λ1 (] − ∞, 1]) + ∞ × λ1 (]1, +∞[) = +∞.
n→+∞ R R
Le corollaire suivant est une simple application du théorème de convergence monotone et du théorème du
transport (sa démonstration est donc un bon exercice).
Corollaire 3.2.
Soit (Xn )n∈N une suite de variables aléatoires définies sur l’espace de probabilités (Ω, F, P) et à valeurs
dans [0, +∞]. Supposons que la suite (Xn )n∈N est croissante presque sûrement et notons X sa limite
(définie presque sûrement). Alors l’espérance de X est bien définie et
lim E(Xn ) = E(X) = E lim Xn .
n→∞ n→∞
Exemple 3.2. Soit U une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n > 1, on définit la variable
aléatoire Xn = e−U/n . La fonction exponentielle étant à valeurs positives, les variables aléatoires Xn sont toutes
positives presque sûrement. De plus, pour n > 1, Xn 6 Xn+1 presque sûrement, donc la suite (Xn )n>1 est
croissante presque sûrement. Par conséquent, d’après le théorème de convergence monotone (et plus précisément
d’après le corollaire 3.2), on a
lim E(Xn ) = E lim Xn .
n→∞ n→∞
Or la suite de variables aléatoires (Xn )n>1 converge presque sûrement vers 1. En définitive,
Terminons par un exemple dans lequel nous ne pouvons appliquer le corollaire 3.2, mais pour lequel nous
pouvons la limite d’une suite d’espérance (E(Xn ))n∈N grâce au théorème du transport et en appliquant le
théorème de convergence monotone pour une mesure µ qui n’est pas une probabilité.
30
Exemple 3.3. Considérons une suite (Yn )n>1 de variables aléatoires uniforme sur [1, n + 1]. Autrement dit la
loi de Yn est absolument continue de densité fYn : R → R+ donnée par
1[1,n+1] (y)
fYn (y) = .
n
Pour tout n ∈ N∗ , nous considérons alors la variable aléatoire
Xn = nYnn e−Yn .
La suite de variables aléatoires (Xn )n∈N est une suite de variables positives presque sûrement car, par définition
de la loi uniforme sur [1, n + 1], Yn est positive presque sûrement. Mais elle n’est pas a priori croissante, car nous
n’avons pas fait d’hypothèse de comparaison entre Yn et Yn+1 ) et a priori ne converge pas presque sûrement
quand n → +∞. Nous ne pouvons donc pas appliquer le corollaire 3.2 pour étudier la suite E(Xn ) lorsque
n → +∞. Néanmoins, d’après le théorème du transport,
Z Z
n −Yn n −y
y n e−y λ1 (dy).
E(Xn ) = E nYn e = ny e fYn (y) λ1 (dy) =
R [1,n+1]
De même que dans l’exemple 3.1, le théorème de convergence monotone implique que
Z
lim y n e−y λ1 (dy) = +∞, soit lim E(Xn ) = +∞.
n→+∞ [1,n+1] n→+∞
Notons f la limite (définie µ-presque partout) de la suite (fn )n∈N . Alors chaque fonction fn et f sont
µ-intégrables, de plus Z Z
lim fn dµ = f dµ.
n→+∞ Ω Ω
31
Nous souhaitons étudier la limite quand n → +∞ de la suite (un )n∈N . Posons N = π/2 + πZ et remarquons
que, pour tout x ∈
/ N , | sin x| < 1. Par conséquent, pour tout x ∈ [1, +∞[\N ,
sinn x
lim fn (x) = lim = 0.
n→∞ n→+∞ x2
Or, l’ensemble N étant dénombrable, il est λ1 -négligeable et, par conséquent, nous avons montré que (fn )n∈N
converge vers 0 λ1 -presque partout. De plus, (3.1) est satisfaite avec g intégrable, donc, d’après le théorème de
convergence dominée,
Z Z
lim un = lim fn (x) λ1 (dx) = 0 λ1 (dx) = 0.
n→∞ n→∞ [1,+∞[ [1,+∞[
Le corollaire suivant est une simple application du théorème de convergence dominée et du théorème du
transport (sa démonstration est donc un bon exercice).
Corollaire 3.4.
Soit (Xn )n∈N une suite de variables aléatoires sur (Ω, F, P) à valeurs dans R. Supposons que
(i) la suite (Xn )n∈N converge presque sûrement vers une variable aléatoire X à valeurs dans R,
(ii) il existe une variable aléatoire Y intégrable telle que, pour tout n ∈ N, |Xn | 6 |Y | presque sûrement.
Alors X est intégrable et
Remarque 3.2. Si (Xn )n∈N est une suite de variables aléatoires uniformément bornées (presque sûrement) par
une constante A ∈ R+ , c’est-à-dire si |Xn | 6 A pour tout n ∈ N presque sûrement, alors l’hypothèse (ii) dans
le corollaire ci-dessus est vérifiée.
Exemple 3.5. Soit U une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n > 1, on pose
1 + 1/n
Xn = √ .
U + 1/n
Nous souhaitons déterminer, si elle existe, la limite quand n → +∞ de E(Xn ). On introduit pour cela la variable
aléatoire X, définie par
( √
1/ U , si U 6= 0,
X=
0 si U = 0.
Comme P(U = 0) = 0 (car la loi de U est absolument continue), alors la suite (Xn )n>1 converge vers X. Par
conséquent, la suite (Xn )n>1 converge presque sûrement vers X. De plus, en posant Y = 2X, on a |Xn | 6 |Y |
presque sûrement, où Y est intégrable. En effet, d’après le théorème du transport,
Z Z
2 2 2
E(|Y |) = E √ = √ λ1 (du) = √ λ1 (du)
U [0,1] u ]0,1] u
car λ1 ({0}) = 0. La fonction u 7→ √2 étant continue Riemann-intégrable sur ]0, 1], elle est aussi Lebesgue-
u
intégrable sur ]0, 1], c’est-à-dire que
Z
2
E(|Y |) = √ λ1 (du) < +∞.
]0,1] u
Les hypothèses du théorème de convergence dominée (et plus précisément du corollaire 1.4) sont donc satisfaites
et, en utilisant à nouveau le théorème du transport, nous en déduisons que
√ u=1
Z
1
lim E(Xn ) = E(X) = √ λ1 (du) = 2 u u→0 = 2
n→∞ [0,1] u +
32
3.1.3 Lemme de Fatou
Dans de nombreuses situations, les variables aléatoires ou les fonctions considérées ne forment pas une
suite convergente monotone ou dominée. Dans ces cas, on ne peut pas alterner limite et intégrale (ou limite
et espérance) à l’aide des outils précédents. Toutefois, en introduisant la notion de limite inférieure (notée
lim inf), on peut énoncer le lemme de Fatou qui lui s’applique en toute généralité, y compris pour des suites
non-convergentes ! Cependant, le résultat obtenu n’est pas une égalité, mais seulement une inégalité. Il permet
en particulier d’établir l’intégrabilité de certaines fonctions.
Définition 3.1.
Soit (un )n∈N une suite de nombre réels. La limite inférieure de (un )n∈N est donnée par
lim inf un = sup inf uk ∈ R.
n→+∞ n∈N k>n
Remarque 3.3.
1. La limite inférieure d’une suite (un )n∈N est égale à sa plus petite valeur d’adhérence.
3. Contrairement à la limite, les limites inférieures et supérieures d’une suite sont toujours bien définies. De
plus, on peut montrer qu’une suite admet une limite (éventuellement égale à −∞ ou +∞) si et seulement
si ses limites inférieures et supérieures sont égales. Dans ce cas, les limites, limites inférieures et limites
supérieures de la suite sont égales.
Remarque 3.4. Soit (fn )n∈N une suite de fonctions définies sur Ω à valeurs dans R. On note lim inf n→∞ fn la
fonction définie sur Ω par
La limite inférieure d’une suite de fonctions à valeurs dans R est toujours bien définie. De plus, si chaque fonction
fn est mesurable, alors la limite inférieure lim inf n→∞ fn est également mesurable.
33
Proposition 3.5 (Lemme de Fatou).
Pour tout n ∈ N, soit fn : (Ω, F) → R, B R une fonction mesurable. Si pour tout n ∈ N, fn est à
valeurs dans [0, +∞] µ-presque partout, alors
Z Z
lim inf fn dµ 6 lim inf fn dµ.
Ω n→+∞ n→+∞ Ω
Remarque 3.5. On trouve facilement des cas d’inégalité stricte. C’est le cas par exemple lorsque
(
1 si x ∈ [n, n + 1],
fn : x ∈ R 7→ 1[n,n+1] (x) =
0 sinon.
R
On a alors lim inf n→∞ fn = 0 et R fn dλ1 = 1 pour tout n > 0, donc
Z Z
0= lim inf fn dλ1 < lim inf fn dλ1 = 1.
R n→∞ n→∞ R
Cet exemple est un bon moyen mnémotechnique pour retenir le sens de l’inégalité dans le lemme de Fatou.
Exemple 3.6. Pour tout n ∈ N, considérons la fonction fn :]0, 1[→ R définie sur ]0, 1[ par
√
2 x
fn (x) = n sin 1/3
.
n
La fonction fn est borélienne car continue sur ]0, 1[ et est positive. En appliquant le lemme de Fatou à la suite
(fn )n∈N , nous obtenons : Z Z
+∞ = lim inf fn dλ1 6 lim inf fn dλ1 .
]0,1[ n→+∞ n→+∞ ]0,1[
Z Z
Par conséquent, lim inf fn dλ1 = +∞, donc lim fn dλ1 = +∞.
n→+∞ ]0,1[ n→+∞ ]0,1[
Le corollaire suivant est une simple application du lemme de Fatou et du théorème du transport (sa dé-
monstration est donc un bon exercice).
Corollaire 3.6.
Soit (Xn )n∈N une suite de variables aléatoires à valeurs dans [0, +∞] presque sûrement. On a alors
E lim inf Xn 6 lim inf E(Xn ).
n→∞ n→∞
Exemple 3.7. Soit U une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n > 1, on définit la variable
aléatoire Xn par
1
Xn = n sin .
nU
La variable aléatoire Xn est bien définie presque sûrement (car U 6= 0 presque sûrement) et positive. De plus,
quand n → ∞, elle converge presque sûrement vers 1/U (qui est donc également sa limite inférieure). Donc,
d’après le lemme de Fatou,
1
+∞ = E = E lim inf Xn 6 lim inf E(Xn ).
U n→∞ n→∞
34
3.2 Applications des théorèmes de convergence aux intégrales paramétrées
Nous donnons des critères de continuité et de dérivabilité des fonctions définies par une intégrale.
Supposons que E est un espace métrique (i.e. est muni d’une distance dE 2 ). Considérons une fonction
f : E × Ω → R (ou C) et a ∈ E. Supposons que
Remarque 3.6. La proposition peut être « localisée ». En effet, il suffit que la propriété (iii) soit réalisée pour
tout x dans une boule ouverte B(a, r) de centre a et de rayon r > 0, auquel cas F est bien définie sur B(a, r).
Démonstration.
• Notons tout d’abord que les hypothèses (i) et (iii) assurent que pour tout x ∈ E, la fonction ω 7→ f (x, ω)
est µ-intégrable sur Ω. Par suite, pour tout x ∈ E,
Z
F (x) = f (x, ω) µ(dω) est bien définie.
Ω
• Étudions donc à présent la continuité de la fonction F en a. Considérons pour cela (an )n∈N une suite
de points de E convergeant vers a. Pour tout n ∈ N, considérons alors la fonction fn définie sur E par
L’hypothèse (i) assure que chaque fn est une fonction mesurable. De plus, d’après l’hypothèse (ii),
pour µ-presque tout ω ∈ Ω,
lim fn (ω) = f (a, ω).
n→+∞
où la fonction g est µ intégrable. Par suite, le théorème de convergence dominée s’applique à la suite
fn et conduit à : Z Z
lim fn dµ = f (a, ·) dµ = F (a).
n→+∞ Ω Ω
Autrement dit, par définition de fn
lim F (an ) = F (a).
n→+∞
L’espace E étant un métrique, et l’égalité ci-dessus étant vraie pour toute suite (an )n∈N de E conver-
geant vers a, la fonction F est continue en a.
2. Par exemple, les ensembles (et leurs sous-ensembles) N, Z et Rd munis de la distance euclidienne sont métrique, de même les
ensembles de fonctions bornées munies de la norme infinie.
35
Exemple 3.8. Soit X une variable aléatoire à valeurs réelles. Pour tout u ∈ R, la variable aléatoire arctan(uX)
est de valeur absolue bornée par π/2 donc elle est intégrable et E(arctan(uX)) est donc bien définie. On définit
la fonction
h(u) = E (arctan(uX)) , ∀u ∈ R.
Montrons que cette fonction est continue. Afin de se ramener au théorème de continuité des intégrales paramé-
triques, nous écrivons h sous la forme d’une intégrale à l’aide du théorème du transport :
Z
h(u) = arctan(ux) PX (dx), ∀u ∈ R,
R
Remarque 3.7.
1. Si U est un ouvert de Rn et si nous remplaçons dans la dernière proposition (ii) par
x 7→ f (x, ω) est différentiable par rapport à xi , pour presque tout ω ∈ Ω,
alors F est différentiable sur U par rapport à xi et
Z
∂F ∂f
∀x ∈ U, (x) = (x, ω) µ(dω).
∂xi Ω ∂xi
2. En itérant le théorème 3.8, nous pouvons obtenir des critères pour montrer que F est de classe C k .
3. Attention ! Comme souvent, les notations ne sont pas les mêmes que dans le théorème : ici on intègre par rapport à x et on
cherche à vérifier la continuité par rapport à u.
36
Démonstration Notons tout d’abord que l’hypothèse (i) assure que la fonction F est bien définie.
Soient x, a ∈ U tels que x 6= a. Alors,
En utilisant le théorème des accroissements finis et l’hypothèse (iii), nous constatons que
f (x, ω) − f (a, ω)
6 g(ω) µ-presque partout.
x−a
De plus,
f (x, ω) − f (a, ω) ∂f
lim = (a, ω) µ(ω)-presque partout.
x→a x−a ∂x
Le lecteur conclura en appliquant le théorème de convergence dominée.
Exemple 3.9. Soit X une variable aléatoire à valeurs réelles de loi gaussienne centrée réduite, c’est-à-dire que
la loi de X, notée PX , est donnée par
1 2
PX (dx) = √ e−x /2 λ1 (dx).
2π
Pour tout u ∈] − 1, 1[, la variable aléatoire euX est positive donc E(euX ) est bien définie. On définit la fonction
h(u) = E euX , ∀u ∈] − 1, 1[.
Notre but est de montrer que cette fonction est dérivable et d’écrire sa dérivée. Afin de se ramener au théorème
de dérivation des intégrales paramétrées, nous écrivons h sous la forme d’une intégrale à l’aide du théorème du
transport :
Z Z
1 2
h(u) = ux
e PX (dx) = eux √ e−x /2 λ1 (dx), ∀u ∈ R.
R R 2π
Introduisons la fonction
|x| 2
g : x ∈ R 7→ √ e|x| e−x /2
2π
et vérifions les hypothèses du théorème de continuité des intégrales paramétrées 4 :
2
(i) pour tout u ∈] − 1, 1[, x 7→ eux √12π e−x /2 est mesurable (car continue),
2
(ii) Pour tout x ∈ R, l’application u 7→ eux √1 e−x /2 est dérivable en tout point de ] − 1, 1[,
2π
(iii) g est bornée et dominée par x 7→ 1/x2 en ±∞, donc elle est λ1 (x)-intégrable ; de plus, pour tout u ∈]−1, 1[
et tout x ∈ R,
∂ ux 1 −x2 /2 1 2
e √ e = xeux √ e−x /2 6 g(x)
∂u 2π 2π
D’après le théorème de dérivation, la fonction h est dérivable sur ] − 1, 1[ et
Z Z
∂h ∂ ux 1 −x2 /2 1 2
(u) = e √ e λ1 (dx) = xeux √ e−x /2 λ1 (dx).
∂u R ∂u 2π R 2π
Ainsi, en utilisant à nouveau le théorème du transport,
∂h
(u) = E XeuX , ∀u ∈] − 1, 1[.
∂u
4. Attention ! Comme dans le cas précédent, les notations ne sont pas les mêmes que dans le théorème : ici on intègre par rapport
à x et on cherche à vérifier la dérivabilité par rapport à u.
37
3.3 Théorème de changement de variable
Supposons que la loi de X est absolument continue de densité fX : Rd → [0, +∞]. Partant de la proposi-
tion 2.7, si nous trouvons une mesure positive ν telle que pour toute fonction ϕ borélienne positive bornée,
Z
E(ϕ(Y )) = ϕ(y) ν(dy)
Rd
alors ν est une probabilité (prendre ϕ = 1) et est la loi de Y = g(X). Utilisant le théorème du transport, nous
pouvons tout d’abord écrire que
Z
E(ϕ(Y )) = E(ϕ ◦ g(X)) = ϕ ◦ g(x)fX (x)dλd (x). (3.2)
Rd
Il est ensuite naturel de se poser la question suivante : est-il possible d’effectuer le changement de variable
y = g(x) dans l’intégrale de Lebesgue ci-dessus ? Même si ϕ n’est pas régulière, le changement de variable
dans l’intégrale de Lebesgue est valable sous les mêmes hypothèses que dans le cadre de l’intégrale au sens de
Riemann. Il est ainsi possible d’utiliser par exemple le théorème suivant.
Théorème 3.9.
1. Alors, pour toutes fonctions mesurables positives ϕ : V → [0, +∞] et f : U → [0, +∞],
Z Z
ϕ(y) f ◦ g −1 (y) det Jac g −1 (y) λd (dy),
ϕ ◦ g(x)f (x) λd (dx) =
U V
−1
où Jac g est la matrice jacobienne de l’inverse de g.
2. La formule ci-dessus reste vraie pour toutes fonctions mesurables ϕ et f telle que f × (ϕ ◦ g) est
Lebesgue-intégrable.
Revenons à l’expression (3.2). La question à se poser est donc : peut-on poser y = g(x) et appliquer un
théorème de changement de variable ? Notons d’ores et déjà que ceci suppose que g(X) et X sont toutes deux
à valeurs dans le même espace Rd . De plus, dans l’expression (3.2), il semble nécessaire d’avoir U = Rd , or, en
général, g ne satisfait pas les hypothèse du théorème de changement de variable dans ce cadre général. Voici
quelques méthodes pour s’en sortir.
1er cas : Avant de vérifier des hypothèses sur g, supposons qu’il existe un ouvert U ⊂ Rd tel que fX est nulle
λd -presque partout en dehors de U , c’est-à-dire que λd ({x ∈
/ U, fX (x) 6= 0}) = 0. Ainsi, (3.2) peut être réécrite
sous la forme Z
E(ϕ(X)) = ϕ(g(x))fX (x)λd (dx).
U
Si g satisfait à présent les hypothèses du théorème 3.9 avec ce choix de U , nous pouvons poser y = g(x) et
réécrire l’expression (3.2) sous la forme :
Z Z
−1 −1
E(ϕ(Y )) = ϕ(y)fX g (y) det Jac g (y) λd (dy) = ϕ(y) ν(dy)
g(U ) Rd
38
avec ν la mesure absolument continue de densité
L’écriture ci-dessus étant vraie pour toute fonction mesurable positive ϕ, on déduit tu théorème du transport
que la loi de Y = g(X) est la mesure de probabilité ν.
Exemple 3.10. Supposons que X suit la loi uniforme sur [0, 1]. Et considérons la variable Y = X 2 . Rappelons
que la densité fX de X est définie par
Fixons ϕ : R → [0, +∞] une fonction borélienne positive. Alors, par le théorème du transport,
Z Z
E(ϕ(Y )) = E ϕ X 2 = ϕ x2 fX (x)λ1 (dx) = ϕ(x2 ) λ1 (dx).
R [0,1]
Le lecteur vérifiera que la fonction g : x 7→ x2 satisfait les hypothèses du théorème 3.9 en prenant U =]0, 1[ et
V = g(U ) =]0, 1[. En appliquant ce théorème de changement de variable, le lecteur vérifiera aussi que
Z
ϕ(y)
E(ϕ(Y )) = √ λ1 (dy).
]0,1[ 2 y
Ceci étant vrai pour toute fonction borélienne positive ϕ, la loi de Y est absolument continue de densité
fY : R −→ R+
1]0,1[ (y)
y 7−→ √
2 y
En appliquant la démarche proposée dans ce premier cas, il est aussi possible d’établir des propriétés de
stabilité pour certains ensembles de lois classiques.
Proposition 3.10.
2. Si X est de loi exponentielle de paramètre λ ∈ R∗+ et si a > 0, alors aX suit la loi exponentielle de
paramètre aλ.
2nd cas : Dans le cas où g ne satisfait pas directement le théorème du changement de variable après avoir
choisi U , il faut être plus astucieux. L’idée est de découper l’intégrale sur Rd en K intégrales, chacune sur un
ensemble Ui choisi de sorte à pouvoir appliquer le théorème du changement de variables. Le plus simple est
d’illustrer ce cas par un exemple.
39
Exemple 3.11. Soit X une variable aléatoire de loi uniforme sur [−1, 2]. Déterminons la loi de la variable
aléatoire Y = X 2 . Fixons ϕ : R → [0, +∞] une fonction borélienne positive. Alors, par le théorème du
transport, Z Z
1 2 1
ϕ x2 λ1 (dx)
E(ϕ(Y )) = ϕ x λ1 (dx) =
3 [−1,2] 3 ]−1,2[
car λ1 ({−1, 2}) = 0. Nous souhaitons poser y = x2 mais ceci ne définit pas un changement de variable sur
U =] − 1, 2[ (car x 7→ x2 n’est pas bijective). Par contre x 7→ x2 est bijective de ] − 1, 0[ (respectivement ]0, 2[)
sur ]0, 1[ (respectivement ]0, 4[). L’idée est donc de décomposer l’intégrale en deux :
Z Z
1 2 1
ϕ x2 λ1 (dx)
E(ϕ(Y )) = ϕ x λ1 (dx) +
3 ]−1,0[ 3 ]0,2[
d’après la relation de Chasles et car λ1 ({0}) = 0. Il devient alors possible d’effectuer le changement de variable
y = x2 sur l’ouvert U =] − 1, 0[ puis sur l’ouvert U =]0, 2[. Le lecteur vérifiera que l’on obtient ainsi :
Z Z Z
1 ϕ(y) 1 ϕ(y) ϕ(y) 1
E(ϕ(Y )) = √ λ1 (dy) + √ λ1 (dx) = √ 1]0,1[ (y) + 1]1,4[ (y) λ1 (dx).
3 ]0,1[ 2 y 3 ]0,4[ 2 y R 3 y 2
Ceci étant vrai pour toute fonction borélienne positive ϕ, la loi de Y est absolument continue de densité
fY : R −→ R+
1
1]0,1[ (y) + 12 1]1,4[ (y) .
y 7−→ √
3 y
40
Chapitre 4
Dans le chapitre précédent, nous avons défini les notions de loi et d’espérance d’une variable aléatoire. Dans
ce chapitre, nous allons proposer des méthodes pour calculer et identifier une loi à travers sa fonction de répar-
tition et sa fonction caractéristique.
Soit X : (Ω, F, P) → (R, B(R)) une variable aléatoire réelle de loi PX . La fonction de répartition de
X est la fonction FX : R −→ [0, 1] définie par
Exemple 4.1. Considérons une variable aléatoire réelle X. Notons PX sa loi et FX sa fonction de répartition.
1. Soit a ∈ R. Supposons que X = a presque sûrement, c’est-à-dire que PX = δa . Alors,
0 si t ∈] − ∞, a[
FX (t) = PX (] − ∞, t]) =
1 si t ∈ [a, +∞[.
Remarquons que la fonction de répartition de la loi discrète PX = δa est constante par morceaux (voir
figure 4.1a). Nous verrons que ceci est caractéristique des lois discrètes.
2. Supposons que X est de loi uniforme sur [a, b] (a < b). Alors,
t 0 si t < a,
λ1 (] − ∞, t] ∩ [0, 1])
Z
1
t−a
FX (t) = 1[a,b] (x)λ1 (dx) = = b−a si a 6 t < b,
b−a −∞ b−a
1 si t > b.
Remarquons que la fonction de répartition de la loi uniforme sur [a, b] est continue et même C 1 sauf en
quelques points (voir figure 4.1b). Nous verrons que ceci est caractéristique des lois absolument continues.
41
1 1
0.8
0.6
FX
FX
0.4
0.2
0 0
−0.2
a 0 −3 −2 −1 0 1 2 3
t t
(a) Fonction de répartition de la loi δa (b) Fonction de répartition de la loi uniforme sur [−1, 1].
La loi d’une variable aléatoire X à valeurs dans R est caractérisée par sa fonction de répartition
Soient X et Y deux variables aléatoires réelles. Les variables aléatoires X et Y ont même fonction de
répartition si et seulement si elles ont même loi.
Proposition 4.2.
42
Preuve de la proposition 4.2 :
1. • Soient t, s ∈ R tels que s 6 t. Alors, ]−∞, s] ⊂]−∞, t] et donc par croissance de PX (cf. proposition
1.1 du chapitre 1 page 5),
L’inégalité précédente étant vraie pour tous t, s ∈ R tels que s 6 t, la fonction FX est croissante sur
R.
• La continuité à droite de FX , la propriété (4.1) s’obtiennent en utilisant la continuité monotone
de PX (cf. proposition 1.1 du chapitre 1 page 5).
3. La fonction FX étant croissante continue à droite, l’ensemble de ses points de discontinuité est
[ 1
S= Dn avec Dn = x ∈ R / FX (x) − FX x− > .
∗
n
n∈N
Étant donné que 0 6 FX 6 1 et que FX est croissante, pour tout n ∈ N∗ , Dn est de cardinal fini car
CardDn X
6 FX (x) − FX x− 6 1.
n
x∈Dn
4. Laissé en exercice.
Remarque 4.1. En fait, l’assertion 1. de la proposition 4.2 caractérise la notion de fonction de répartition
d’une variable aléatoire réelle. En effet, on peut montrer que, pour toute fonction F satisfaisant cette assertion,
il existe un espace de probabilité (Ω, F, P) et une variable aléatoire à valeurs réelles X tels que FX = F .
Proposition 4.3.
S = {xi / i ∈ I} ⊂ R
une famille strictement croissante de réels (i.e. telle que xi < xi+1 pour tout i ∈ I tel que i + 1 ∈
I). Supposons que X une variable aléatoire définie sur (Ω, F, P) à valeurs P-presque sûrement dans S.
Rappelons que la loi de X s’écrit alors
X
PX = pi δxi avec pi = P(X = xi ) ∈ [0, 1].
i∈I
1. Nous avons
0
si t ∈ ]−∞, x1 [
FX (t) = p1 + · · · + pi si xi 6 t < xi+1 avec 1 6 i < n
1 si t ∈ [sup S, +∞[.
43
2. De plus, la fonction FX est constante par morceaux et continue sauf éventuellement aux points xi ,
i ∈ I. Enfin, pour tout i ∈ I,
Exemple 4.2. Soit X une variable aléatoire de loi binomiale de paramètre (2, 1/3), c’est-à-dire de loi
2 k n−k
X 1 2 4 4 1
PX = C2k δk = δ0 + δ1 + δ2 .
3 3 9 9 9
k=0
Alors, d’après la formule donnée dans la proposition précédente, la fonction de répartition de X est définie par
0 si t < 0
4
si 0 6 t < 1
9
FX (t) = 4 4 8
9 + 9 = 9 si 1 6 t < 2
1 si t > 2.
Terminons par le problème inverse. Se donnant une fonction F : R 7−→ R+ , nous nous demandons si il existe une
loi discrète dont F est la fonction de répartition et, si oui, quelle est la loi associée ? Les conditions nécessaires
de la proposition 4.2 et l’assertion 2. de la proposition 4.3 s’avèrent être aussi suffisantes.
Proposition 4.4.
Supposons que F est constante par morceaux, au sens où il existe une famille strictement croissante de
réels
S = {xi / i ∈ I} ⊂ R
finie ou dénombrable telle que F est constante sur chaque intervalle [xi , xi+1 [.
1. Alors, il existe un espace de probabilité (Ω, F, P) et une variable aléatoire réelle discrète X définie
sur cet espace dont F est la fonction de répartition.
2. De plus, pour tout i ∈ I, P(X = xi ) = F (xi ) − F (xi − )la loi de X est
X
PX = pi δxi
i∈I
44
Exemple 4.3. Considérons la fonction F : R → R représentée sur la figure 4.2b et définie par
0 si x < 1
F (x) = 0.25 si 1 6 x < 3
1 si x > 3.
Le lecteur vérifiera que la fonction F satisfait bien les hypothèses de la proposition 4.4. En particulier, elle est
constante, sauf en x = 1 et en x = 3. De plus, son saut en x = 1 vaut 1/4 et son saut en x = 3 vaut 3/4. Par
suite, F est la fonction de répartition d’une variable aléatoire X de loi PX = 14 δ1 + 34 δ3 .
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−0.2 −0.2
−1 −0.5 0 0.5 1 1.5 2 2.5 3 −1 0 1 2 3 4 5
(a) Fonction de répartition d’une variable de loi B(2, 1/3). (b) Fonction F = 14 1[1,3[ + 34 1[3,+∞[ .
Soit X une variable aléatoire réelle de loi absolument continue de densité fX . Notons FX sa fonction de
répartition.
1. Alors, d’après le théorème du transport,
Z
∀t ∈ R, FX (t) = P(X ≤ t) = E(1X≤t ) = fX (x) λ1 (dx).
]−∞,t]
2. De plus, la fonction FX est continue. Elle est aussi dérivable λ1 -presque partout et FX0 = fX λ1 -
presque partout.
3. Enfin, si la densité fX est continue sur R, alors la fonction FX est C 1 sur R et
Exemple 4.4. Soit X une variable aléatoire de loi exponentielle de paramètre λ ∈ R∗+ , i.e. de densité fX avec
e−x/λ
fX (x) = 1R∗+ (x).
λ
Notons FX la fonction de répartition de X. D’après le théorème du transport,
e−x/λ
Z Z
FX (t) = P(X 6 t) = fX dλ1 = 1R∗+ (x) dλ1 (x).
]−∞,t] ]−∞,t] λ
45
Z t
Pour t 6 0, FX (t) = 0 dx = 0. Et, pour t > 0,
−∞
t t
e−x/λ
Z Z h ix=t
FX (t) = fX dλ1 = dx = e−x/λ = 1 − e−t/λ .
−∞ −∞ λ x→−∞
Terminons par le problème inverse. Se donnant une fonction F : R 7−→ R+ , existe-t-il des conditions
suffisantes pour que F soit la fonction de répartition d’une loi absolument continue. Les propositions 4.2 et 4.5
donnent des conditions nécessaires, qui ne sont en général pas suffisantes. La proposition suivante donne une
condition suffisante proche mais qui impose une propriété de régularité à F .
Proposition 4.6.
Alors, il existe une variable aléatoire X définie sur un espace (Ω, F, P) dont F est la fonction de répartition.
De plus, la loi de X est la loi absolument continue de densité f = F 0 (fonction bien définie sauf en les
points où F n’est pas C 1 ).
Remarque 4.2. Dans la proposition précédente, la fonction f n’est pas a priori bien définie en xi , i ∈ I. Ceci
n’est pas un problème car {xi , i ∈ I} est λ1 -négligeable car fini ou dénombrable, donc la loi de densité f ne
dépend pas des valeurs de f en les xi , qui peuvent donc être choisies arbitrairement.
Exemple 4.5. Considérons la fonction F : R → R représentée sur la figure 4.3b et définie par
0 si t < 0
F (t) = t2 si t ∈ [0, 1[
1 si t > 1.
Par ailleurs, F est C 1 sauf en 1. Par conséquent, F est la fonction de répartition d’une variable aléatoire de loi
absolument continue de densité f : R → R définie par f (x) = 2x1]0,1[ (x).
46
1
0.9
1
0.8
0.7 0.8
0.6
0.6
F
0.5
0.4
0.4
0.2
0.3
0
0.2
0.1 −0.2
−1 −0.5 0 0.5 1 1.5 2
t
0
−1 0 1 2 3 4 5 6
Proposition 4.7.
avec
(i) fX une fonction borélienne positive,
(ii) (xi )i∈I une famille finie ou dénombrable de réels strictement croissante (i.e. telle que xi < xi+1 )
(iii) pour tout i ∈ I, pi ∈ [0, 1] (dans ce cas pi = P(X = xi )).
Alors,
1. la fonction de répartition FX de X est continue sauf peut-être en les points xi , i ∈ I. Le saut de FX
en xi est
pi = FX (xi ) − FX (xi− );
Notons que la proposition précédente généralise les propositions 4.3 et 4.5. Comme dans les paragraphes précé-
dents, nous terminons en donnant des conditions suffisantes pour qu’une fonction soit la fonction de répartition
d’une loi PX donnée par (4.3).
47
Proposition 4.8.
Soit F : R → R une fonction croissante continue à droite, C 1 par morceaux et telle que
Supposons qu’il existe (xi )i∈I , avec I = {1, . . . , n} ou I = N∗ , une famille strictement croissante de réels
telle que F est C 1 sur chaque intervalle ]xi , xi+1 [. Alors, il existe une variable aléatoire X définie sur un
espace (Ω, F, P) dont F est la fonction de répartition. De plus, la loi de X est
X
dPX = fX dλd + pi dδxi
i∈I
avec
(i) pour tout i ∈ I, pi = P(X = xi ) = FX (xi ) − FX xi − le saut de la fonction FX en xi
(ii) fX = FX0 (fonction bien définie sauf peut-être en xi ).
0.8
0.6
F
0.4
0.2
−0.2
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
t
La fonction F étant croissante continue à droite telle que limx→+∞ F (x) = 1 et limx→−∞ F (x) = 0, il
s’agit de la fonction de répartition d’une variable aléatoire réelle X. En appliquant la proposition précédente,
1
dPX = f dλ1 + dδ
2 1/4
1
avec f : R → R+ définie par f (t) = √
2 t
1]0,1/4[ (t).
48
Définition 4.2.
Pour tout entier 1 6 i 6 d, considérons Xi : (Ω, F, P) → (R, B(R)) une variable aléatoire. Notons PX la
loi de X = (X1 , . . . , Xd ). La fonction de répartition de X est la fonction FX : Rd → [0, 1] définie par
d d
! !
\ Y
d
∀(t1 , . . . , td ) ∈ R , FX (t1 , . . . , td ) = P {Xi 6 ti } = PX ] − ∞, ti ] .
i=1 i=1
Remarque 4.3. La proposition 4.1 reste vraie pour des variables à valeurs dans Rd .
Soit X une variable aléatoire à valeurs dans Rd . La fonction caractéristique de X est la fonction
ϕX : Rn → C définie par
Pn Z
d iht,Xi i k=1 tk Xk
∀t = (t1 , . . . , tn ) ∈ R , ϕX (t) = E e =E e = ei<t,x> dPX (x)
Rd
où PX désigne la loi de X.
Remarque 4.4.
1. La fonction caractéristique de la variable aléatoire X ne dépend que de la loi de X. Alors, si les variables
aléatoires X et Y ont même loi, elles ont même fonction caractéristique. Nous verrons que la réciproque
est vraie (cf. théorème 4.9).
En particulier, si xn = 2πn
T pour tout n, ϕX est une série de Fourier, associée à une fonction T -
périodique (dont les an sont les coefficients dit de Fourier).
3. Le tableau 4.1 donne quelques exemples de fonctions caractéristiques de lois classiques. Le lecteur est
encouragé à essayer de calculer ses fonctions (sauf celle de la loi gaussienne).
Si deux variables aléatoires X et Y ont même fonction caractéristique alors X et Y ont même loi.
49
Loi de la v.a. X Fonction caractéristique de X
B(p)
avec p ∈ [0, 1]
n
Loi binomiale ϕX (t) = peit + 1 − p
B(n, p)
avec n ∈ N∗ et p ∈ [0, 1]
n
Loi de Poisson ϕX (t) = peit + 1 − p
P(λ)
avec λ ∈ R∗+
de paramètre p ∈]0, 1[
eit −1
Loi Uniforme it si t 6= 0
ϕX (t) =
1 si t = 0
U ([0, 1])
Loi Gaussienne
t2 σ 2
ϕX (t) = exp itm −
N (m, σ 2 ), 2
où m ∈ R et σ ∈ R∗+
Si X une variable aléatoire réelle de fonction caractéristique ϕX , alors la fonction ϕX est uniformément
continue sur Rd , c’est-à-dire que
50
Proposition 4.11 (Dérivation d’une fonction caractéristique).
De plus, au voisinage de 0,
k
X (it)n
ϕX (t) = E(X n ) + o(|t|k ).
n!
n=0
En particulier, si X est intégrable, alors ϕX est dérivable et E(X) = −iϕX0 (0). De plus, si X est de
carré intégrable, alors ϕX est deux fois dérivable et E X 2 = −ϕX00 (0).
2. Si ϕX est dérivable (2p) fois, avec p ∈ N∗ , alors E X 2p < +∞ et
E X k = (−i)k ϕ(k) (0)
Remarque 4.5.
1. Lorsque E |X|k < +∞, le réel E X k est appelé moment d’ordre k de X. Nous reviendrons sur cette
Appliquons la proposition précédente pour la loi gaussienne centrée réduite N (0, 1), c’est-à-dire la loi de
2
densité √12π e−x /2 .
Corollaire 4.12.
Soit Z une variable aléatoire de loi gaussienne réduite et centrée. Alors pour tout k ∈ N, E |Z|k < +∞
et (
(2p)!
si k = 2p avec p ∈ N
k 2p p!
E Z =
0 si k est impair
51
52
Chapitre 5
Théorème de Fubini
Ce chapitre est dédiée au théorème de Fubini, théorème qui permet de ramener le calcul d’une intégrale
« double » sur un espace produit Ω1 ×Ω2 aux calculs d’intégrales « simples ». Ce résultat a aussi été vu en classe
préparatoire pour des fonctions continues sur Rp . Comme pour les théorèmes permettant l’échange des signes
limite/espérance, il est énoncé dans le cadre général de la théorie de la mesure car se restreindre à l’intégration
sur des espaces (Ω1 , Fi , Pi ) de probabilités n’est pas en pratique suffisant, même dans une étude probabiliste.
Nous donnons également des applications des théorèmes de Fubini : obtention des lois des coordonnées d’un
vecteur et échange des signes somme, intégrale et espérance. Attention ! Il n’y aura pas de TD associé à ce
chapitre. C’est pour vous aider à travailler en autonomie que de nombreux exemples vous sont fournis.
Hypothèses/Notations pour ce chapitre
• (Ω, F, µ) est un espace mesuré ; comme évoqué dans le chapitre 1, il est supposé complet, c’est-à-
dire que la tribu F contient tous les ensembles négligeables pour la mesure µ.
• Si µ est une probabilité sur Ω, on préfèrera la noter encore P et on rappelle la notation
Z
E(X) = X dP
Ω
pour l’espérance d’une variable aléatoire X, lorsque celle-ci est bien définie.
d
• Tout espace E ⊂ R est muni de sa tribu borélienne B(E) et tout espace E fini ou dénombrable est
muni de sa tribu discrète P(E).
{A1 × A2 × · · · × Ad / Ai ∈ Fi , 1 6 i 6 d}.
53
Exemple 5.1.
1. Si F1 = P(Ω1 ) et si F2 = {∅, Ω2 }, alors F1 ⊗ F2 = {A1 × Ω2 / A1 ∈ F1 }.
2. Soit d ∈ N∗ . Alors la tribu borélienne sur Rd est
la tribu produit des tribus boréliennes Fi = B(R).
⊗d d d ⊗d
Autrement dit, B(R) = B(R ). De même B R = B R .
Dans le théorème de Fubini, nous considèrerons une fonction définie sur un espace produit, qui sera muni
d’une tribu produit, à valeurs dans R. Mais avant d’énoncer ce résultat, nous nous permettons une digression
portant sur la mesurabilité d’une fonction à valeurs dans un espace produit. Ainsi, la proposition suivante établit
en particulier que (X1 , . . . , Xd ) est un vecteur aléatoire (i.e. une fonction mesurable) si et seulement si chacune
de ses coordonnées Xi est une variable aléatoire.
Proposition 5.1 (Mesurabilité d’une fonction à valeurs dans Ω1 × · · · × Ωd ).
Soient (Ω1 , F1 ), . . . , (Ωd , Fd ) des espaces mesurables. Nous munissons l’espace Ω1 × · · · × Ωd de la tribu
produit F1 ⊗ · · · ⊗ Fd . Nous rappelons que l’espace Ω est lui muni de la tribu F.
Considérons des applications
X (i) : Ω → Ωi , 1 6 i 6 d
ainsi que l’application X = X (1) , . . . , X (d) . Alors, l’application
X : (Ω, F) → (Ω1 × · · · × Ωd , F1 ⊗ · · · ⊗ Fd )
est mesurable si et seulement si pour tout 1 6 i 6 d, X (i) : (Ω, F) → (Ωi , Fi ) est mesurable.
où [y] désigne la partie entière du réel y. Comme B R2 = B(R) ⊗ B(R), montrer que l’application X à valeurs
dans R2 est un vecteur aléatoire (i.e. une fonction mesurable) revient à établir que chacune de ses coordonnées
est une variable aléatoire réelle.
• La fonction cos étant continue sur R et U étant une variable aléatoire réelle, cos (U ) est aussi une variable
aléatoire.
• La fonction partie entière étant constante par morceaux sur R, elle est borélienne. Dès lors, comme U est une
variable aléatoire réelle, [U ] est aussi une variable aléatoire.
Par suite, d’après la proposition 5.1, l’application X est bien une variable aléatoire.
Une mesure µ sur un espace mesurable (Ω, F) est σ-finie s’il existe une suite (An )n∈N d’éléments de F
telle que pour tout n ∈ N, µ(An ) < +∞ et telle que
[
Ω= An .
n∈N
54
Dans ce cadre de mesures σ-finies, la proposition suivante définit la mesure produit µ1 ⊗ µ2 sur Ω1 × Ω2 .
Elle se généralise aisément à un produit de d espaces avec d > 2.
Proposition 5.2 (Mesure produit).
Si µ1 est une mesure σ-finie sur l’espace mesurable (Ω1 , F1 ) et si µ2 est une mesure σ-finie sur l’espace
mesurable (Ω2 , F2 ), alors il existe une unique mesure µ sur (Ω1 × Ω2 , F1 ⊗ F2 ) telle que
avec pour convention 0 × +∞ = +∞ × 0 = 0 et +∞ × +∞ = +∞. Cette mesure µ, que nous notons sous
la forme
µ = µ 1 ⊗ µ2 ,
est appelée mesure produit sur (Ω1 × Ω2 , F1 ⊗ F2 ) et est σ-finie.
Remarque 5.1. Si µ1 et µ2 sont deux mesures finies, alors la mesure produit µ1 ⊗ µ2 est bien définie et est
finie. Si de plus µ1 et µ2 sont deux probabilités, alors µ1 ⊗ µ2 est une probabilité.
Exemple 5.3.
1. Pour tout a ∈ Ω1 et tout b ∈ Ω2 , δa ⊗ δb = δ(a,b) .
2. La mesure de Lebesgue λ1 étant σ-finie, λd = λ1 ⊗ · · · ⊗ λ1 = λ⊗d
1 .
| {z }
d fois
Comme souvent, nous commençons par étudier le cas de fonctions positives. Dans le cas général, nous
sommes souvent amenés tout d’abord à étudier l’intégrable du module de la fonction, étude que l’on peut mener
en appliquant le théorème de Fubini pour les fonctions positives.
Théorème 5.3 (Théorème de Fubini-Tonelli).
Soient (Ω1 , F1 , µ1 ) et (Ω2 , F2 , µ2 ) deux espaces mesurés. Pour tout i ∈ {1, 2}, supposons que µi est une
mesure σ-finie sur (Ωi , Fi ). Soit
Alors pour i ∈ {1, 2}, la fonction Fi : (Ωi , Fi ) → ([0, +∞], B([0, +∞])) est mesurable. De plus
ZZ Z Z
f (ω1 , ω2 ) (µ1 ⊗ µ2 )(dω1 , dω2 ) = F1 (ω1 ) µ1 (dω1 ) = F2 (ω2 ) µ2 (dω2 ). (5.1)
Ω1 ×Ω2 Ω1 Ω2
55
Remarque 5.3.
1. Autrement dit, sous les hypothèses du théorème précédent,
ZZ Z Z
f (ω1 , ω2 ) (µ1 ⊗ µ2 )(dω1 , dω2 ) = f (ω1 , ω2 ) µ2 (dω2 ) µ1 (dω1 )
Ω1 ×Ω2 Ω1 Ω2
Z Z
= f (ω1 , ω2 ) µ1 (dω1 ) µ2 (dω2 ).
Ω2 Ω1
Le calcul de l’intégrale double sur Ω1 × Ω2 se ramène donc au calcul de deux intégrales simples et il est
possible d’intégrer dans l’ordre que l’on souhaite.
2. Le théorème de Fubini-Tonelli se généralise à un espace produit Ω1 × · · · × Ωd .
Remarque 5.4. Montrer qu’une fonction mesurable f est µ1 ⊗ µ2 -intégrable revient à établir que
ZZ
|f | d(µ1 ⊗ µ2 ) < +∞.
Ω1 ×Ω2
Pour étudier la dernière intégrale, on peut en particulier lui appliquer le théorème de Fubini-Tonelli car |f | est
une fonction mesurable positive. On peut par exemple écrire :
ZZ Z Z
|f | d(µ1 ⊗ µ2 ) = |f (ω1 , ω2 )| µ2 (dω2 ) µ1 (dω1 )
Ω1 ×Ω2 Ω1 Ω2
pour tenter de montrer qu’elle est finie.
Remarque 5.5. Pour i ∈ {1, 2}, considérons (Ωi , Fi , µi ) un espace mesuré complet avec µi une mesure σ-finie.
Si f1 : (Ω1 , F1 ) → ([0, +∞], B([0, +∞])) et f2 : (Ω2 , F2 ) → ([0, +∞], B([0, +∞])) sont des fonctions boréliennes,
Z Z Z
f1 (ω1 )f2 (ω2 ) (µ1 ⊗ µ2 )(dω1 , dω2 ) = f1 (ω1 ) µ1 (dω1 ) f2 (ω2 ) µ2 (dω2 ) .
Ω1 ×Ω2 Ω1 Ω2
56
5.4 Applications des théorèmes de Fubini
5.4.1 Lois marginales d’un vecteur aléatoire
Lorsque X est une variable aléatoire à valeurs dans un espace produit, nous pouvons nous intéresser à la loi
de ses coordonnées.
Soit X = (X1 , . . . , Xd ) une variable aléatoire à valeurs dans Rd . La loi de la variable aléatoire Xi est
appelée loi marginale de la ième composante.
Nous supposons dans la suite pour simplifier n = 2. Mais il est facile de transposer les résultats au cas
général. L’énoncé suivant est complètement général et est réécrit dans le tableau 5.1 dans le cas des lois discrètes,
absolument continues ou mixtes.
Proposition 5.5.
Considérons deux mesures σ-finies µ1 et µ2 sur R. Supposons que la loi du vecteur aléatoire (X1 , X2 ) est
absolument continue par rapport à la mesure produit µ = µ1 ⊗ µ2 de densité f(X1 ,X2 ) . Autrement dit pour
tout ensemble A ∈ B R2 ,
Z
PX (A) = f(X1 ,X2 ) (x1 , x2 ) ν(dx1 , dx2 ).
A
Alors la loi de la variable aléatoire X1 (respectivement X2 ) est absolument continue par rapport à la
mesure µ1 (respectivement µ2 ) et admet pour densité la fonction fX1 (respectivement fX2 ) définie par
Z Z
fX1 (x1 ) = f(X1 ,X2 ) (x1 , x2 ) µ2 (dx2 ) et fX2 (x2 ) = f(X1 ,X2 ) (x1 , x2 ) µ1 (dx1 )
R R
Démonstration. La fonction f(X1 ,X2 ) étant mesurable positive, d’après le théorème de Fubini-Tonelli, l’application
Z
fX1 : x1 7−→ f(X1 ,X2 ) (x1 , x2 ) µ2 (dx2 )
R
est bien définie sur R et est mesurable positive. De plus, pour tout A ∈ B(R),
Z
PX1 (A) = P(X1 ∈ A) = P((X1 , X2 ) ∈ A × R) = 1A (x1 )f(X1 ,X2 ) (x1 , x2 ) (µ1 ⊗ µ2 )(dx1 , dx2 )
R
car la loi de (X1 , X2 ) est absolument continue de densité f(X1 ,X2 ) par rapport à la mesure produit µ1 ⊗ µ2 .
Alors, pour tout A ∈ B(R),
Z Z Z
PX1 (A) = 1A (x1 ) f(X1 ,X2 ) (x1 , x2 ) µ2 (dx2 ) µ1 (dx1 ) = 1A (x1 ) fX1 (x1 )µ1 (dx1 )
R R R
d’après le théorème de de Fubini-Tonelli appliqué à la fonction mesurable positive f = 1A f(X1 ,X2 ) . L’égalité
ci-dessus étant vraie pour tout A ∈ B(R), la loi de X1 est absolument continue par rapport à la mesure
µ1 de densité fX1 . De même on montre que la loi de X2 est absolument continue par rapport à la mesure
µ2 de densité fX2 définie dans l’énoncé.
57
Remarque 5.6.
1. La proposition précédente se généralise au cas d’un vecteur aléatoire à valeurs dans tout espace produit
Ω1 × Ω2 , muni d’une mesure produit de mesures σ-finies.
2. Soit Y une variable aléatoire discrète à valeurs presque sûrement dans un espace E fini ou dénombrable.
Alors, pour A mesurable,
X Z
PY (A) = P(Y ∈ A) = P(Y = y) = P(Y = y) ν(dy)
y∈A A
P
où ν = y∈E δy est la mesure de comptage sur l’ensemble E. Par suite, la loi de Y est absolument continue
par rapport à la mesure ν de densité fY donnée par
Il est alors possible de vérifier que le cas d’un vecteur aléatoire discret (X1 , X2 ) à valeurs dans E1 × E2
est couvert par les hypothèses de la proposition précédente en prenant
X X
µ1 = δx et µ2 = δx
x∈E1 x∈E2
les mesures de comptage respectivement sur E1 et E2 (dans ce cas ν = µ1 ⊗ µ2 est la mesure de comptage
sur E = E1 × E2 ). Nous renvoyons au tableau 5.1 pour l’application de la proposition dans ce cadre.
3. Le cas d’un vecteur de loi absolument continue (sous-entendu par rapport à la mesure de Lebesgue) se
retrouve en prenant µ1 = µ2 = λ1 .
• La loi de X1 est
La loi de (X1 , X2 ) est discrète, donnée par
X X
X PX1 = pi· δxi avec pi· = pij .
P(X1 ,X2 ) = pij δ(xi ,yj )
i∈I j∈J
(i,j)∈I×J
• La loi de X2 est
avec I fini ou dénombrable, J fini ou dénom-
brable, xi 6= xi0 si i 6= i0 et yj 6= yj 0 si j 6= j 0
X X
PX2 = p·j δyj avec p·j = pij .
j∈J i∈I
La loi de X = (X1 , X2 ) est absolument conti- • La loi de X1 est absolument continue de densité fX1 définie
nue de densité fX : R2 → R+ , i.e. par Z
Z ∀x1 ∈ R, fX1 (x1 ) = fX (x1 , x2 ) λ1 (dx2 ).
2
∀A ∈ B(R ), PX (A) = fX (x) λ2 (dx). R
A
• La loi de X2 est absolument continue de densité fX2 définie
par Z
∀x2 ∈ R, fX2 (x2 ) = fX (x1 , x2 ) λ1 (dx1 ).
R
Table 5.1 – Lois des marginales d’un vecteur discret ou absolument continue
58
5.4.2 Échange des signes somme et somme
Appliquant les théorèmes de Fubini pour des mesures µ1 et µ2 de comptages permet d’en déduire des critères
pour échanger deux signes somme. La proposition suivante peut aussi se déduire des théorèmes de convergence
monotone et dominée.
Proposition 5.6.
Soit (um,n )m,n∈N une famille dénombrable de nombres réels. Supposons que l’une au moins des deux
propriétés suivantes est vérifiée :
i) les termes de la famille (um,n )m,n∈N sont tous positifs,
P
ii) la somme double m∈N,n∈N |um,n | est finie.
P
Alors la somme m∈N,n∈N um,n est bien définie et
X XX XX
um,n = um,n = um,n .
m∈N,n∈N m∈N n∈N n∈N m∈N
Proposition 5.7.
Soit (fn )n∈N une suite de fonctions boréliennes de Rd dans R. Supposons que l’une au moins des trois
propriétés suivantes est vérifiée :
i) les fonctions fn sont toutes à valeurs positives,
P R
ii) la somme n∈N Rd |fn (x)| λ1 (dx) est finie,
R P
iii) l’intégrale Rd n∈N |fn (x)| λ1 (dx) est finie.
Remarque 5.7. Soit (fn )n∈N une suite de fonctions boréliennes de Rd dans R. Les fonctions x 7→ |fn (x)| sont
toutes boréliennes à valeurs positives, en particulier elles vérifient le point i). Par conséquent, on a toujours
XZ Z X
|fn (x)| λ1 (dx) = |fn (x)| λ1 (dx)
d Rd n∈N
n∈N R
P
et les hypothèses ii) équivalentes. De plus, si ii) ou iii) sont vérifiées, alors x 7→
R et iii) sont donc n∈N fn (x)
est intégrable et Rd fn (x) λ1 (dx) n∈N est absolument sommable.
59
Démonstration. Appliquer le théorème de Fubini-Tonelli et le théorème de Fubini avec Ω1 = N, Ω2 = R,
X
µ1 = δn , µ2 = λ1 et f (n, x) = fn (x).
n∈N
Donc, en appliquant à nouveau le théorème de Fubini-Tonelli (et plus précisément d’après le point (iii) de la
proposition 1.10), l’intégrale de f est bien définie (f est même intégrable) et
Z Z ∞ ∞ Z
X cos(nx) X cos(nx)
f (x) λ1 (dx) = 2
λ1 (dx) = λ1 (dx)
[− π2 , π2 ] [− π2 , π2 ] n=1 n π π n2
n=1 [− 2 , 2 ]
∞ ∞
sin(nx) π/2 2(−1)n
X X
= = .
n3 −π/2 (2n + 1)3
n=1 n=1
Soit (Xn )n∈N une suite de variables aléatoires à valeurs réelles. Supposons que l’une au moins des trois
propriétés suivantes est vérifiée :
i) les variables aléatoires Xn sont toutes positives presque sûrement,
P
ii) la somme n∈N E(|Xn |) est finie,
P
iii) l’espérance E n∈N |Xn | est finie.
Remarque 5.8. Soit (Xn )n∈N une suite de variables aléatoires à valeurs réelles. Les variables aléatoires |Xn |
sont toutes positives, donc elles vérifient le point i). Par conséquent, on a toujours
!
X X
E(|Xn |) = E |Xn | .
n∈N n∈N
En particulier
P les hypothèses ii) et iii) sont donc équivalentes. De plus, si ii) ou iii) sont vérifiées, alors
x 7→ n∈N Xn est intégrable et (E(Xn ))n∈N est une famille absolument sommable.
60
Démonstration. Appliquer le théorème de Fubini-Tonelli et le théorème de Fubini avec Ω1 = N, Ω2 = Ω,
X
µ1 = δn , µ2 = P et f (n, ω) = Xn (ω).
n∈N
Exemple 5.5. Soit U une variable aléatoire à valeurs dans ]0, 1[ presque sûrement. Nous souhaitons montrer
que
X
1
E = E (U n ) .
1−U
n∈N
1
Remarquons que 1−U est positif presque sûrement, donc l’espérance est toujours bien définie (éventuellement
1
égale à l’infini). De plus, le développement en série entière de 1−u nous donne l’égalité
1 X
= U n , presque sûrement.
1−U
n∈N
Or les variables aléatoires U n sont toutes positives presque sûrement, donc, d’après le théorème de Fubini-Tonelli
(et plus précisément d’après le point i) de la proposition 5.8), nous avons
!
1 X X
E =E Un = E (U n ) .
1−U
n∈N n∈N
Soit X une variable aléatoire à valeurs dans un espace mesurable E et f : R × E 7→ R une application
borélienne à valeurs dans R. Supposons que l’une au moins des trois propriétés suivantes est vérifiée :
(i) la fonction f est à valeurs positives,
R
(ii) l’intégrale R E(|f (x, X)|) λ1 (dx) est finie,
R
(iii) l’espérance E R |f (x, X)| λ1 (dx) est finie.
Remarque 5.9. Soit X une variable aléatoire à valeurs dans un espace mesurable E et f : R × E 7→ R une
application borélienne à valeurs dans R. La fonction |f | est positive, donc elle vérifie le point (i) de la proposition
précédente. Par conséquent, on a toujours
Z Z
E(|f (x, X)|) λ1 (dx) = E |f (x, X)| λ1 (dx) .
R R
En particulier les hypothèses (ii) et (iii) sont donc équivalentes. De plus, si (ii) ou (iii) sont vérifiées, alors la
fonction x 7→ E(f (x, X)) est Lebesgue-intégrable et la variable aléatoire
Z
Y = f (x, X) λ1 (dx)
Rd
61
Exemple R5.6. Soit X une variable aléatoire à valeurs réelles et intégrable. Nous cherchons à démontrer que
l’intégrale [0,1] E(X cos(xX)) λ1 (dx) est bien définie et que l’on a l’égalité
Z
E(X cos(xX)) λ1 (dx) = E(sin X).
[0,1]
car X est supposée intégrable. L’assertion (ii) de la proposition 5.9 étant donc vérifiée, l’intégrale étudiée est
bien définie et finie. De plus,
Z Z !
E(X cos(xX)) λ1 (dx) = E X cos(xX) λ1 (dx) = E(sin(X)).
[0,1] [0,1]
62
Chapitre 6
Ce chapitre introduit une notion clef en probabilités : la notion d’indépendance de variables aléatoires. Cette
notion permet de modéliser des expériences dont les résultats ne dépendent pas les uns des autres (dans un sens
intuitif). Par exemple, lorsque l’on jette un dé bleu et un dé rouge, le résultat obtenu avec le dé bleu ne dépend
pas de celui obtenu avec le dé rouge.
• (Ω, F, P) est un espace de probabilités (qui ne sera, sauf exception, pas explicité) sur lequel sont
définies les variables aléatoires considérées dans ce chapitre.
• Les ensembles Ei , 1 6 i 6 d, sont muni de la tribu Ei et l’ensemble produit E1 × · · · × Ed de la tribu
produit E1 ⊗ · · · ⊗ Ed .
d
• Tout espace E ⊂ R est muni de sa tribu borélienne B(E) et tout espace E fini ou dénombrable est
muni de sa tribu discrète P(E).
• X = (X1 , . . . , Xd ) est un vecteur aléatoire défini sur Ω i.e. chacune de ses coordonnées Xi est une
variable aléatoire définie sur Ω.
Soient d ∈ N∗ et, pour tout 1 6 i 6 d, supposons que Xi est à valeurs dans Ei . Les variables X1 , . . . , Xd
sont dites mutuellement indépendantes1 si
d
Y
P(X1 ∈ B1 , . . . , Xd ∈ Bd ) = P(Xi ∈ Bi )
i=1
avec PZ la loi de Z.
Remarque 6.1. Les variables aléatoires X1 , . . . , Xd seront dites deux à deux indépendantes si pour tout
i 6= j, les variables aléatoires Xi et Xj sont indépendantes, c’est-à-dire si pour tout i 6= j et tous Bi ∈ Ei et
1. On omet le plus souvent « mutuellement ».
63
Bj ∈ Ej ,
P(Xi ∈ Bi , Xj ∈ Bj ) = P(Xi ∈ Bi ) P(Xj ∈ Bj ).
Attention ! Comme dans le cas des événements, l’indépendance deux à deux de variables aléatoires n’implique
pas leur indépendance mutuelle. En revanche, l’indépendance mutuelle implique l’indépendance deux à deux.
En effet, il suffit de remarquer que
P(Xi ∈ Bi , Xj ∈ Bj ) = P(X1 ∈ B1 , . . . , Xn ∈ Bn )
avec pour k ∈
/ {i, j}, Bk = Ek . Ainsi, par indépendance mutuelle,
Exemple 6.1.
1. Soit a ∈ Rd . Alors, la variable constante X = a (c’est-à-dire que X est de loi δa ) est indépendante de
toute variable aléatoire Y . En effet, pour tous ensembles mesurables B1 , B2 ,
(
P(∅) si a ∈
/ B1
P(X ∈ B1 , Y ∈ B2 ) =
P(Y ∈ B2 ) si a ∈ B1
= δa (B1 ) P(Y ∈ B2 ) = P(X ∈ B1 ) P(Y ∈ B2 ).
2. Si A1 , . . . , An sont des événements de Ω, alors les variables aléatoires X1 = 1A1 , . . . , Xn = 1An sont
mutuellement indépendantes si et seulement si les événements A1 , . . . , An sont indépendants.
3. Soit (X, Y ) un couple de variables aléatoires de loi absolument continue de densité
Alors, pour tous A, B ∈ B([0, 1]), d’après le théorème du transport puis le théorème de Fubini (les fonctions
intégrées sont mesurables positives),
Z
P(X ∈ A, Y ∈ B) = E (1A (X) 1B (Y )) = 1A (x) 1B (y) f(X,Y ) (x, y) dλ2 (x, y)
[0,1]×[0,1]
Z Z
= 1A (x) 1B (y) 1[0,1] (x) 1[0,1] (y) λ1 (dx) λ1 (dy)
[0,1] [0,1]
Z Z
= 1A (x) 1[0,1] (x) λ1 (dx) × 1B (y) 1[0,1] (y) λ1 (dy)
[0,1] [0,1]
= P(X ∈ A) P(Y ∈ B),
car X et Y sont tous deux de loi uniforme sur [0, 1] (c’est une conséquence immédiate du calcul ci-dessus
en prenant tour à tour A = [0, 1] puis B = [0, 1]). En conséquence, X et Y sont indépendantes. Nous
verrons un peu plus loin un résultat qui généralise cet exemple.
La définition permet aisément d’établir la première propriété suivante, établissant que les images de variables
aléatoires indépendantes sont indépendantes.
64
Proposition 6.1 (Indépendance et images de variables aléatoires).
Pour tout 1 6 i 6 d, considérons Xi une variable aléatoire à valeurs dans Ei (muni de la tribu Ei )
et un espace Ei0 muni de la tribu Ei0 . Si les variables aléatoires X1 , . . . , Xd sont mutuellement indépen-
dantes et si pour tout 1 6 i 6 d, la fonction fi : Ei → Ei0 est mesurable, alors les variables aléatoires
f1 (X1 ), . . . , fd (Xd ) sont mutuellement indépendantes.
Étant donné que fi est mesurable et que Bi ∈ Ei0 , fi−1 (Bi ) ∈ Ei . Alors, par indépendance mutuelle des
variables aléatoires X1 , . . . , Xd ,
d
Y d
Y
fi−1 (Bi )
P(f1 (X1 ) ∈ B1 , . . . , fd (Xd ) ∈ Bd ) = P Xi ∈ = P(fi (Xi ) ∈ Bi ).
i=1 i=1
Par conséquent, les variables aléatoires f1 (X1 ), . . . , fd (Xd ) sont mutuellement indépendantes.
Pour terminer cette partie, nous étendons la définition d’indépendance aux familles infinies de variables.
Définition 6.2 (Indépendance d’une famille quelconque).
Soit I un ensemble quelconque. Les variables aléatoires (Xi )i∈I sont alors dites mutuellement indépen-
dantes (ou simplement indépendantes) si pour tout n ∈ N∗ et pour tout (i1 , . . . , in ) ∈ I n , les variables
aléatoires Xi1 , . . . , Xin sont mutuellement indépendantes.
(a) Alors, si pour tout 1 6 i 6 d, la fonction hi : Ei → [0, +∞] est mesurable positive,
d d
!
Y Y
E hi (Xi ) = E(hi (Xi )). (6.1)
i=1 i=1
(b) Si pourQtout 1 6 i 6 d, la fonction hi : Ei → R est mesurable telle que hi (Xi ) est intégrable
alors, di=1 hi (Xi ) est intégrable et l’égalité (6.1) est vérifiée.
65
Qd
En particulier, si les variables aléatoires X1 , . . . , Xd sont intégrables, alors, i=1 Xi est inté-
grable et
d d
!
Y Y
E Xi = E(Xi ).
i=1 i=1
2. Si l’égalité (6.1) est vraie pour toutes fonctions hi : Ei → [0, +∞] mesurables positives, alors les
variables aléatoires X1 , . . . , Xd sont mutuellement indépendantes.
Remarque 6.2.
1. Si les variables X1 , . . . , Xd sont mutuellement indépendantes, l’égalité (6.1) a lieu dès que toutes les
espérances écrites sont bien définies.
3. Dans le cas où Ei = Rpi , l’assertion 2. reste encore vraie en remplaçant « pour toutes fonctions hi : Ei → R
mesurables positives » par « pour toutes fonctions hi : Rdi → R continues positives bornées ».
Démonstration.
n d
! Z Z Z ! !
Y Y
E hi (Xi ) = ··· hi (xi )dPX1 (x1 ) dPX2 (x2 ) · · · dPXd (xd )
i=1 Ed E2 E1 i=1
d Z
Y
= hi (xi ) dPXi (xi )
i=1
Yd
= E(hi (Xi )).
i=1
66
(b) Pour tout 1 6 i 6 d, soit hi : Ei → R une fonction mesurable telle que hi (Xi ) est intégrable.
Alors d’après l’assertion 1.(a) appliquée aux fonctions mesurables positives |hi |,
d d d
! !
Y Y Y
E hi (Xi ) = E |hi (Xi )| = E(|hi (Xi )|) < +∞
i=1 i=1 i=1
Qd chaque hi (Xi ) étant intégrable, E(|hi (Xi )|) ∈ R pour tout 1 6 i 6 d. Par conséquent,
car
i=1 hi (Xi ) est une variable aléatoire intégrable. En reprenant la preuve de l’assertion 1.(a) et
en appliquant le théorème de Fubini (au lieu du théorème de Fubini-Tonelli), nous obtenons :
d n
! !
Y Y
E hi (Xi ) = E hi (Xi ) .
i=1 i=1
2. Supposons que pour toutes fonctions hi : Ei → [0, +∞], 1 6 i 6 d, mesurables positives, l’égalité
(6.1) est vérifiée. Pour tout 1 6 i 6 d, considérons Ai ∈ Ei . Les fonctions
hi = 1 A i , 1 6 i 6 d
67
Démonstration.
1. Supposons que les variables aléatoires Xi , i ∈ {1, . . . , d}, sont mutuellement indépendantes. Alors,
par mesurabilité des intervalles ] − ∞, ti ] et par définition de l’indépendance mutuelle,
d
Y d
Y
P(X1 ∈] − ∞, t1 ], . . . , Xd ∈] − ∞, td ]) = P(Xi ∈] − ∞, ti ]) = P(Xi 6 ti ),
i=1 i=1
2. Nous ne donnons qu’une esquisse de la preuve de la réciproque. On peut commencer par montrer
que, pour tout i ∈ {1, . . . , d} et tout t ∈ R, on a
d
hi (t) Y
FXi (t) = et P(X1 6 t1 , . . . , Xd 6 td ) = FXi (ti ).
limu→+∞ hi (u)
i=1
Puis on remarque qu’un vecteur (Y1 , . . . , Yd ) de loi PX1 ⊗ · · · ⊗ PXd a pour fonction de répartition
d
Y
P(Y1 6 t1 , . . . , Yd 6 td ) = FXi (ti )
i=1
Par conséquent, (Y1 , . . . , Yd ) et (X1 , . . . , Xd ) ont même loi (cf. remarque 4.3 du chapitre 4). Or les
coordonnées de (Y1 , . . . , Yd ) sont mutuellement indépendantes, donc les coordonnées de (X1 , . . . , Xd )
sont mutuellement indépendantes.
Proposition 6.4.
Pour tout i ∈ {1, . . . , d}, Xi est une variable aléatoire à valeurs dans Rpi dont ϕXi est la fonction carac-
téristique. Notons ϕ(X ,··· ,X ) la fonction caractéristique de (X1 , . . . , Xd ).
1 d
2. Réciproquement, si il existe des fonctions mesurables hi : Rpi → C, i ∈ {1, . . . , d}, telles que
d
Y
p1 pd
∀(u1 , . . . , ud ) ∈ R × · · · × R , ϕ(X (u1 , . . . , ud ) = hi (ui ), (6.3)
1 ,··· ,Xd )
i=1
Démonstration. Dans la suite, comme dans tout le polycopié, PZ (respectivement ϕZ ) désigne la loi(respectivement
la fonction caractéristique) de la variable aléatoire Z.
68
• Le terme de gauche dans l’égalité (6.3) étant non nul en (u1 , . . . , ud ) = 0, on en déduit que hi (0) 6= 0
pour tout i ∈ {1, . . . , d}. De plus, on a, pour tout ui ∈ Rpi ,
d
hi (ui ) Y
ϕXi (ui ) = et hi (0) = 1.
hi (0)
i=1
PY = PX1 ⊗ · · · ⊗ PXd
Rappelons que la fonction intégrée est borélienne bornée par 1, et donc intégrable. En appliquant le
théorème de Fubini, nous avons alors :
d Z
Y d
Y
ihuj ,yj i
ϕY (u1 , . . . , ud ) = e PXj (dyj ) = ϕXj (uj )
i=1 Rpj j=1
c’est-à-dire si et seulement si P(X ,...,X ) = PY avec Y introduit précédemment. Par suite, la fonction
1 d
caractéristique caractérisant la loi, les variables aléatoires X1 , . . . , Xd sont indépendantes si et seulement
si
ϕ(X ,...,X ) = ϕY
1 d
1. Soit (X, Y ) un vecteur aléatoire discret à valeurs dans E1 × E2 . Alors les variables aléatoires X et
Y sont mutuellement indépendantes si et seulement si
69
2. Plus généralement, soient X1 , . . . , Xn des variables aléatoires discrètes. Supposons que Xk est à
valeurs dans Ek fini ou dénombrable. Alors les variables aléatoires X1 , . . . , Xn sont mutuellement
indépendantes si et seulement si, pour tout (i1 , . . . , in ) ∈ E1 × · · · × En ,
n
Y
P(X1 = i1 , . . . , Xn = in ) = P(Xk = ik ).
k=1
Nous nous intéressons à présent au cas d’un vecteur aléatoire dont la loi est absolument continue.
Proposition 6.6 (Indépendance des marginales d’un vecteur de loi absolument continue).
Pour tout 1 6 i 6 d, considérons Xi une variable aléatoire à valeurs dans Rpi . Supposons que le vecteur
aléatoire X = (X1 , . . . , Xd ) à valeurs dans Rp , avec p = p1 + · · · + pn , est de loi absolument continue de
densité fX : Rp → [0, +∞]. Alors, les variables aléatoires X1 , . . . , Xd sont indépendantes si et seulement
si il existe d fonctions boréliennes positives g1 , . . . , gd telles que
d
Y
fX (x1 , . . . , xd ) = gi (xi ), λp -presque partout. (6.4)
i=1
Remarque 6.3. La décomposition (6.4) n’est pas unique, il suffit de changer g1 en g1 /λ et g2 en λg2 , où λ > 0.
Cependant, il y a unicité si l’on impose que l’intégrale de chaque fonction gi est égale à 1. Lorsqu’il est ainsi gi
est une densité de Xi .
Exemple 6.2. Soit X = (X1 , X2 ) un vecteur à valeurs dans R2 de loi absolument continue de densité
−x1 −x2
fX (x1 , x2 ) = 1x1 >0, x2 >0 e .
Par conséquent, les variables aléatoires X1 et X2 sont indépendantes. De plus, suivant la remarque 6.3, la loi
de Xi est absolument continue de densité
gi
fXi = R = gi
R i dλ1
g
car ici gi est déjà la densité d’une loi exponentielle de paramètre 1 (donc son intégrale vaut 1). Ainsi, X1 et X2
sont deux variables aléatoires indépendantes de loi exponentielle de paramètre 1.
Exemple 6.3. Soit Y = (Y1 , Y2 ) un vecteur à valeurs dans R2 de loi absolument continue de densité
−y1 −y2
fY (y1 , y2 ) = 1y1 6=y2 , y1 >0, y2 >0 e .
Cette fois-ci, on ne peut pas directement écrire fY (y1 , y2 ) sous la forme d’un produit g10 (y1 )g20 (y2 ) pour tout
(y1 , y2 ) ∈ R2 . Cependant, on remarque que pour y1 =
6 y2
fY (y1 , y2 ) = fX (y1 , y2 )
70
avec fX la densité considérée dans l’exemple précédent. Mais l’ensemble {(x1 , x2 ) ∈ R2 , x1 = x2 } (c’est-à-dire
la diagonale de R2 ) est de mesure nulle pour la mesure de Lebesgue λ2 . Par conséquent,
où g1 et g2 sont définies dans l’exemple précédent. Par conséquent, les variables aléatoires Y1 et Y2 sont indé-
pendantes.
Nous savons que si la loi d’un vecteur X est absolument continue, alors la loi de chacune de ses marginales
l’est aussi. La réciproque est en général fausse. Cependant, si les marginales d’un vecteur X sont indépendantes
et de loi absolument continue, alors le vecteur X est aussi de loi absolument continu.
Pour tout 1 6 i 6 d, considérons Xi une variable aléatoire à valeurs dans Rpi de loi absolument continue
de densité fXi : Rpi → [0, +∞]. Alors, les variables X1 , . . . , Xd sont mutuellement indépendantes si et
seulement si la loi du vecteur X = (X1 , . . . , Xd ) est absolument continue de densité
n
Y
fX (x1 , . . . , xd ) = fXi (xi ), λp -presque partout
i=1
Pd
où p = i=1 pi .
Exemple 6.4. Soient X et Y deux variables aléatoires réelles indépendantes. On suppose que X est de loi
uniforme sur [0, 2] et que Y est de loi gaussienne N (0, 3). Alors, d’après la proposition précédente, la loi du
vecteur (X, Y ) admet un densité f par rapport à λ2 , donnée par
1 2
f (x, y) = fX (x)fY (y) = 1x∈[0,2] √ e−y /18 , ∀(x, y) ∈ R2 .
6 2π
La propriété suivante permet de caractériser la loi de la somme de deux variables aléatoires indépendantes.
Elle se déduit aisément des théorèmes de Fubini.
71
Proposition 6.9 (Loi d’une somme de variables discrètes).
Soient X et Y deux variables aléatoires à valeurs dans Rd . Supposons que X est une variable aléatoire
discrète de loi X
PX = P(X = i) δi
i∈I
avec I ⊂ Rd fini ou dénombrable. De même, supposons que Y est une variable aléatoire discrète de loi
X
PY = P(Y = j) δj
j∈J
X X
P(X + Y = k) = P(X = i, Y = j et X + Y = k) = P(X = i, Y = j et i + j = k)
(i,j)∈I×J (i,j)∈I×J
X
= P(X = i, Y = j)
(i,j)∈I×J, i+j=k
X
= P(X = i) P(Y = j),
(i,j)∈I×J, i+j=k
par indépendance de i et j.
Exemple 6.5. Soient X et Y deux variables aléatoires discrètes à valeurs dans N. Si X et Y sont indépendantes,
alors X + Y est à valeurs dans N et
n
X
∀n ∈ N, P(X + Y = n) = P(X = i) P(Y = n − i).
i=0
Cette fonction de n est appelée le produit de convolution des fonctions i 7→ P(X = i) et j 7→ P(Y = j).
Nous donnons à présent des exemples de convolutions pour des lois classiques discrètes.
Proposition 6.10.
1. Si X suit la loi binomiale B(n, p) et si Y suit la loi B(m, p), alors X + Y suit la loi B(n + m, p).
2. Si X suit la loi de Poisson P(λ) et si Y suit la loi de Poisson P(µ), alors la loi de X + Y est la loi
de Poisson P(λ + µ).
72
Démonstration.
1. Supposons que X et Y sont indépendantes, que X suit la loi B(n, p) et que Y suit la loi B(m, p).
Alors, presque sûrement
X + Y ∈ {k ∈ N / 0 6 k 6 n + m}.
De plus, pour tout entier k tel que 0 6 k 6 n + m,
k
X
P(X + Y = k) = P(X = i) P(Y = k − i)
i=0
Xk
= Cni Cm p (1 − p)n+m−k .
k−i k
i=0
Or ki=0 Cni Cmk−i est le coefficient de tk du polynôme (1 + t)n (1 + t)m = (1 + t)m+n donc est égal
P
k
à Cn+m . Alors, pour tout entier k tel que 0 6 k 6 n + m,
k
P(X + Y = k) = Cn+m pk (1 − p)n+m−k .
1. Supposons que X et Y sont indépendantes, que X suit la loi P(λ) et que Y suit la loi P(µ). Alors,
X + Y ∈ N presque sûrement. De plus, pour tout n ∈ N,
n
X
P(X + Y = n) = P(X = i) P(Y = n − i)
i=0
n
X λi µn−i −µ
= e−λ e
i! (n − i)!
i=0
n
!
1 −(λ+µ) X 1 −(λ+µ)
= e Cni λi µn−i = e (λ + µ)n .
n! n!
i=0
Remarque 6.4. Cette proposition se généralise aisément à la somme de n variables aléatoires mutuellement
indépendantes. En particulier, si X1 , . . . , Xn sont n variables aléatoires mutuellement indépendantes de loi de
Bernoulli de paramètre p, alors
Xn
X= Xi
i=1
est une variable aléatoire de loi binomiale B(n, p) (car B(p) = B(1, p)). Ceci explique pourquoi le nombre de
piles obtenus lors de n lancers indépendants d’une pièce truquée est modélisé par une loi binomiale B(n, p) où
p est la probabilité d’obtenir pile lors d’un lancer.
Donnons à présent la loi de la somme de deux variables aléatoires réelles de loi absolument continue.
Proposition 6.11 (Loi d’une somme de variables indépendantes de loi absolument continue).
Soient X et Y des variables aléatoires réelles indépendantes. Si les lois de X et Y sont absolument
continues de densités respectives fX et fY , alors la loi de X + Y est absolument continue de densité
Z Z
fX+Y (u) = fX (u − t)fY (t)λ1 (dt) = fX (t)fY (u − t)λ1 (dt). (6.5)
Rd Rd
En d’autres termes, nous observons que fX+Y est le produit de convolution de fX par fY , noté fX ∗ fY .
73
Démonstration. Soit ϕ : R2 −→ [0, +∞] une fonction borélienne positive.
Les variables X et Y étant indépendantes, la loi de (X, Y ) est absolument continue de densité f(X,Y )
définie par
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = fX (x)fY (y).
Par conséquent, ZZ
E(ϕ(X + Y )) = ϕ(x + y)fX (x)fY (y)λ1 (dx)λ1 (dy).
R×R
D’après le théorème de Fubini-Tonelli,
Z Z
E(ϕ(X + Y )) = ϕ(x + y)fX (x)λ1 (dx) fY (y)λ1 (dy).
R R
Exemple 6.6. Soient U1 et U2 deux variables aléatoires indépendantes de loi uniforme sur [0, 1]. Alors, d’après
la proposition 6.11, la variable aléatoire U1 + U2 est une variable aléatoire absolument continue de densité
Z
fU1 +U2 (u) = 1[0,1] (u − t)1[0,1] (t)λ1 (dt)
ZR
= 1−1+u≤t≤u et 0≤t≤1 λ1 (dt)
R
0 si u < 0 ou u > 2
= u si u ∈ [0, 1]
2 − u si u ∈ [1, 2].
Nous avons ainsi obtenu la densité de la loi de U1 + U2 . Cette loi est appelée la loi triangulaire (n’hésitez pas à
tracer la fonction fU1 +U2 afin de comprendre cette dénomination).
74
Chapitre 7
Dans ce chapitre, nous étudions les variables aléatoires dont la puissance pème est intégrable. Nous introdui-
sons notamment les concepts de variance, de covariance et de moments d’ordre p. Quelques inégalités classiques
sont également présentées.
Hypothèses/Notations pour ce chapitre
• (Ω, F, P) est un espace de probabilités (qui ne sera, sauf exception, pas explicité) ;
• Rd est muni de sa tribu borélienne.
• Sauf mention du contraire, les variables aléatoires considérées sont définies sur (Ω, F, P).
Soient X, Y deux variables aléatoires à valeurs réelles et de carrés intégrables, c’est-à-dire telles que
E(X 2 ) < ∞ et E(Y 2 ) < ∞. Alors
1. la quantité
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]
est bien définie et est appelée covariance entre X et Y ;
2. les variables aléatoires X et Y sont dites décorrélées si Cov(X, Y ) = 0 ;
la covariance Cov(X, X) est encore appelée variance de X et notée VarX. Enfin, le réel positif
3. √
VarX est appelé écart-type de X.
Proposition 7.2.
3. Pour tout a ∈ R,
75
La démonstration des propriétés élémentaires ci-dessus est laissée en exercice.
Remarque 7.1. Soient X, Y deux variables aléatoires à valeurs réelles et de carrés intégrables.
1. Des exemples de calculs de variance pour des lois classiques sont donnés dans la section suivante et les
résultats sont résumés dans le tableau 7.1 en fin de chapitre.
2. Soit X une variable constante presque sûrement. Alors X = E(X) presque sûrement. Par suite, quel que
soit Y , Cov(X, Y ) = 0. Ainsi la variable X est décorrélée de toute autre variable de carré intégrable (et
donc en particulier d’elle-même).
3. La covariance est déterminée par la loi du couple (X, Y ). En effet, notant P(X,Y ) la loi de la variable
aléatoire (X, Y ),
Cov(X, Y ) = E(XY ) − E(X) E(Y )
avec
Z Z Z
E(XY ) = xy dP(X,Y ) (x, y), E(X) = x dP(X,Y ) (x, y), et E(Y ) = y dP(X,Y ) (x, y).
R2 R2 R2
4. Si deux variables aléatoires X et Y sont de carré intégrable et indépendantes, alors elles sont décorrélées.
En effet,
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E(X)E(Y ) − E(X)E(Y ) = 0.
Attention ! La réciproque est fausse.
5. Si X1 , . . . , Xn sont toutes de carré intégrable, alors
n n n
!
X X X X X
Var Xi = Var (Xi ) + Cov (Xi , Xj ) = Var (Xi ) + 2 Cov (Xi , Xj ).
i=1 i=1 i6=j i=1 16i<j6n
76
Remarque 7.2.
1. Si kXk∞ < ∞, alors X ≤ kXk∞ presque sûrement.
2. La fonction X 7→ kXk∞ est définie sur l’espace vectoriel des variables aléatoires sur (Ω, F, P) dans R et
c’est une norme, c’est-à-dire que, pour tout λ ∈ R et toutes variables aléatoires X, Y ,
(i) kλXk∞ = |λkXk∞ ,
(ii) kX + Y k∞ ≤ kXk∞ + kY k∞ ,
(iii) si kXk∞ = 0, alors X = 0 presque sûrement.
3. On montre aisément que k|X|p k∞ = kXkp∞ . En particulier, si kXk∞ < ∞, alors |X|p est bornée par
kXkp∞ , donc X admet un moment d’ordre p borné par kXkp∞ .
4. Soit X une variable aléatoire de loi absolument continue sur R, de densité fX . La norme infinie de X peut
être identifiée à partir de fX de la façon suivante
( Z )
kXk∞ = inf C ∈ [0, ∞] / fX (x)λ1 (dx) = 0 .
]C,∞[
Nous donnons à présent des exemples de calculs de moments, récapitulés dans le tableau 7.1 en fin de chapitre.
X2 X2
Si n = 1, alors E(X(X − 1)) = 0 et donc E = E(X) = p car = X(X − 1) + X. Par conséquent, si n = 1
VarX = p − p2 = p(1 − p).
Supposons maintenant n > 2. Alors,
n−2
X
E(X(X − 1)) = n(n − 1) k
Cn−2 pk+2 (1 − p)n−k−2 = n(n − 1)p2 .
k=0
77
7.2.2 Calcul pour les lois de Poisson
Soit X une variable aléatoire de loi de Poisson de paramètre λ ∈ R∗+ . Calculons E(X) et E(X 2 ), qui sont
bien définies car X et X 2 sont positives presque sûrement.
• Par définition,
! !
X X λn X λn X λn−1
E(X) = nP(Y = n) = n e−λ = e−λ = λe−λ
n! (n − 1)! (n − 1)!
n>0 n>0 n>1 n>1
−λ λ
= λe e = λ.
Ainsi, C = +∞ est bien la plus petite valeur telle que |X| ≤ C presque sûrement.
On en déduit que
1 2(1 − p) 2
2 1 1−p
E(X) = , E[X(X − 1)] = , E X = 2− et Var (X) = .
p p2 p p p2
78
7.2.4 Calcul pour la loi uniforme sur [a, b]
Soit X une variable aléatoire de loi uniforme sur [a, b] (avec a, b ∈ R tel que a < b), c’est-à-dire une variable
aléatoire de loi absolument continue ayant pour densité la fonction f définie sur R par
1
f (x) = 1 (x).
b − a [a,b]
Calculons E(X) qui est bien définie car |X| est bornée max(|a|, |b|) presque sûrement. D’après le théorème du
transport,
Z b
b2 + ab + a2
Z
1 a+b 1
et E X 2 = x2 λ1 (dx) =
E(X) = xdx = .
b−a a 2 b − a [a,b] 3
b2 + ab + a2 (a + b)2 (b − a)2
D’où Var (X) = − = .
3 4 12
Comme mentionné plus haut, on a, d’après le théorème du transport,
P(|X| ≤ max(|a|, |b|)) = P(− max(|a|, |b|) ≤ X ≤ max(|a|, |b|))
≥ P(a ≤ X ≤ b)
Z
1
= 1[a,b] (x) λ1 (dx) = 1,
[a,b] b − a
donc |X| ≤ max(|a|, |b|) presque sûrement. De plus, pour tout 0 ≤ C < max(|a|, |b|),
P(|X| ≤ C) = 1 − P(|X| > C) = 1 − P(X < −C ou X > C)
Z
1
=1− 1[a,b] (x) λ1 (dx)
R\[−C,C] b − a
Z
1
=1− λ1 (dx).
[a,b]\[−C,C] b − a
Or 0 ≤ C < max(|a|, |b|), donc [a, b] \ [−C, C] contient un intervalle de mesure non nulle. Par conséquent,
P(|X| ≤ C) < 1.
Finalement, nous en déduisons que kXk∞ = max(|a|, |b|).
Les fonctions intégrées étant continues, en procédant par intégrations par parties, on constate que
Z +∞ Z +∞
−x 2
x e−x dx = 2.
E(X1 ) = e dx = 1 et E X1 = 2
0 0
On en déduit Var(X1 ) = 1.
Enfin, kXk∞ = +∞, car, pour tout C ∈ [0, +∞[,
P(|X| ≤ C) = 1 − P(|X| > C) = 1 − e−λC < 1.
79
7.2.6 Calcul pour les lois gaussiennes
X−m
Soit X une variable de loi N m, σ 2 . Nous savons que Y =
σ suit une loi gaussienne centrée réduite,
c’est-à-dire qu’elle a pour densité par rapport à λ1 la fonction
f : R −→ R
2
x 7→ √12π e−x /2 .
En utilisant la parité de f , on montre facilement que Y est centrée et donc par linéarité de l’espérance que
E(X) = m.
Par ailleurs, Z Z
1 2 −t2 /2 1 2
2
t(te−t /2 )λ1 (dt).
E Y = √ t e λ1 (dt) = √
2π R 2π R
En remarquant que l’intégrale précédente au sens de Lebesgue coïncide avec l’intégrale au sens de Riemann
et en utilisant une intégration par parties,
1
h i+∞ Z +∞
1
Z +∞
−t2 /2 −t2 /2 2
2
e−t /2 dt = 1.
E Y =√ −te + e dt = √
2π −∞ −∞ 2π −∞
Par conséquent, Y admet un moment d’ordre 2 et Var Y = E Y 2 − (E(Y ))2 = 1. Étant donné que
X = σY + m,
Soit p ∈ [1, +∞]. Si X et Y sont deux variables aléatoires toutes deux à valeurs dans [0, +∞] presque
sûrement ou admettent toutes deux des moments d’ordre p, alors
Par suite, si X admet un moment d’ordre p et si Y admet un moment d’ordre q, alors XY est
intégrable.
2. Supposons p = 1. Alors
E(|XY |) 6 E(|X|)kY k∞ .
Par suite, si X admet un moment d’ordre p et si Y est uniformément bornée, alors XY est intégrable.
80
Corollaire 7.5.
Si p = 2 (et donc q = 2), l’inégalité de Hölder est encore nommée inégalité de Cauchy-Schwarz et s’écrit
p p
E(|XY |) 6 E(X 2 ) E(Y 2 ).
L’inégalité de Hölder permet d’établir une comparaison entre le moment d’ordre p et celui d’ordre p0 > p
lorsqu’ils existent.
Corollaire 7.6.
2. Si X est intégrable et si φ : R → R est une fonction convexe telle que φ(X) est intégrable, alors
Si X est une variable aléatoire à valeurs dans [0, +∞] presque sûrement et si λ ∈ R∗+ , alors,
E(X)
P(X > λ) 6 .
λ
81
Proposition 7.9 (Inégalité de Bienaymée-Tchebytchef).
Soit X une variable aléatoire admettant un moment d’ordre 2. Alors, pour tout λ ∈]0, +∞[,
Var (X)
P(|X − E(X)| > λ) 6 ,
λ2
où Var (X) = E |X − E(X)|2 .
E Y2
2 2
P(|X − E(X)| > λ) = P Y > λ 6 ,
λ2
ce qui prouve l’inégalité de Bienaymée-Tchebytchef car E Y 2 = Var (X).
E (|X|p ) < ∞.
2. L∞ (Ω, F, P) est l’ensemble des variables aléatoires X définies sur l’espace de probabilités (Ω, F, P)
et à valeurs dans R vérifiant
Remarque 7.3. La notion d’espace Lp peut être généralisée en remplaçant dans la définitions précédente
• la probabilité P par une mesure positive µ
• l’espérance E par l’intégrale contre la mesure µ
• le terme variable aléatoire par fonction mesurable.
Les espaces ainsi introduits sont notés Lp (Ω, F, µ), p ∈]0, +∞]. Tous les résultats de cette section, restent vrais
dans ce cadre plus général.
Proposition 7.10.
Soit p ∈ [1, +∞]. L’espace Lp (Ω, F, P) muni de la norme k · kp définie sur Lp (Ω, F, P) par
(
kXkp = (E(|X|p ))1/p si p ∈ [1, +∞[,
kXk∞ = inf{c > 0 tel que |X| 6 c presque sûrement} si p = +∞,
82
Remarque 7.4. Pour p ∈]0, 1[, l’application
est bien définie mais n’est pas une norme sur Lp (Ω, F, P) car elle ne satisfait pas l’inégalité triangulaire.
Les espaces Lp (Ω, F, P), p > 1, sont en fait des espaces de Banach, notion introduite dans la définition
suivante. Pour ce chapitre, cette définition un peu technique peut être omise en première lecture, l’essentiel
étant de retenir la définition des normes, le fait que Lp est un espace vectoriel et les inégalités classiques
données en section 7.3. Néanmoins, cette notion d’espace de Banach est importante notamment lorsque l’on
étudie la convergence d’une suite de variables aléatoires (Xn )n∈N dans Lp (cf. chapitre 8).
Définition 7.4.
2. L’espace vectoriel E muni de la norme k · k est un espace de Banach si toute suite de Cauchy de E
converge.
Proposition 7.11.
Soit p ∈ [1, +∞]. L’espace vectoriel Lp (Ω, F, P) muni de la norme k · kp est un espace de Banach.
Terminons par une comparaison entre les espaces Lp , conséquence immédiate du corollaire 7.6.
Proposition 7.12.
0
Pour tous 0 < p 6 p0 6 +∞ Lp (Ω, F, P) ⊂ Lp (Ω, F, P). En particulier, si X admet un moment d’ordre
p0 > 1, alors elle admet un moment d’ordre p ∈]1, p0 ].
Remarque 7.5. Cette proposition est fausse si on remplace P par une mesure positive quelconque µ.
7.4.2 L’espace L2
Dans cette section, nous nous intéressons plus particulièrement à l’espace L2 (Ω, F, P). Nous savons que cet
espace est un espace de Banach pour la norme k · k2 définie par
1/2
∀X ∈ L2 (Ω, F, P), kXk2 = E X 2 .
Cette norme est en fait associée au produit scalaire h·, ·i défini par
où XY est bien intégrable d’après l’inégalité de Cauchy-Schwartz. La définition suivante précise les notions de
produit scalaire et d’espace de Hilbert.
83
Définition 7.5.
2. L’espace E muni du produit scalaire h·, ·i est un espace de Hilbert si il est un espace de Banach
pour la norme associée à ce produit scalaire.
Proposition 7.13.
La fin de cette partie sur l’espace L2 (Ω, F, P) est consacrée à la notion de projection orthogonale.
Théorème 7.14 (Projection orthogonale).
Soit X ∈ L2 (Ω, F, P) et F un sous-espace vectoriel fermé de L2 (Ω, F, P). Alors il existe une unique
variable aléatoire PF (X) ∈ F telle que kX − PF (X)k2 = inf Z∈F kX − Zk2 , ou, de manière équivalente,
telle que
E (X − PF (X))2 = inf E (X − Z)2 .
Z∈F
De plus, PF (X) est l’unique variable aléatoire de F telle que hX −PF (X), Zi = 0, ∀Z ∈ F, ou, de manière
équivalente, telle que
E ((X − PF (X)) Z) = 0, ∀Z ∈ F.
La variable aléatoire PF (X) est appelée le projeté orthogonal de X sur F . L’application PF : L2 → F
est appelée la projection orthogonale sur F ou le projecteur orthogonal sur F . Il s’agit d’une
application linéaire.
Autrement dit, cela revient à déterminer la meilleure approximation de X (au sens de k · k2 ) par une fonction
affine de Y .
84
Pour utiliser ce résultat en pratique, il nous faut mener le calcul de PF (x), sujet de la suite de cette section.
Proposition 7.15.
Soit I ⊂ N. Considérons (Xk )k∈I un système orthonormal de L2 (Ω, F, P), c’est-à-dire une famille de
variables aléatoires de L2 (Ω, F, P) telle que
Considérons F = Vect(Xk , k ∈ I) le sous-espace vectoriel fermé de L2 (Ω, F, P) engendré par (Xk )k∈I .
Alors, pour tout X ∈ L2 (Ω, F, P), la projection orthogonale de X sur F est
X X
PF (X) = hX, Xk i Xk = E(XXk ) Xk .
k∈I k∈I
De plus, X X
E(PF (X)2 ) = hX, Xk i2 = E(XXk )2 ≤ E(X 2 ),
k∈I k∈I
Remarque 7.6. En pratique, on dispose souvent d’une base de F qui n’est pas orthonormale (comme dans
l’exemple 7.1 ci-dessus). Dans ce cas, on utilise le procédé d’orthonormalisation de Gram-Schmidt pour pour-
suivre. Rappelons ce procédé sur un exemple : si F = Vect(X1 , X2 ) avec X1 et X2 non colinéaires, alors la
famille (Y1 , Y2 ), définie par
Exemple 7.2. Reprenons l’exemple 7.1, où F = Vect(1, Y ). Dans ce cas, la famille (Y1 , Y2 ), définie par
1 Y − E(Y 1) 1 Y − E(Y )
Y1 = p = 1 et Y2 = p = √
E(12 ) E((Y − E(Y 1))2 ) Var Y
est une base orthonormale de F . D’après la proposition 7.15, le projeté orthogonal de X sur F est donc donné
par
Y − E(Y ) Y − E(Y )
PF (X) = E(X 1) 1 + E X √ √ .
Var Y Var Y
En développant le calcul, on obtient donc
Cov(X, Y ) Cov(X, Y )
PF (X) = E(X) − E(Y ) + Y.
Var Y Var Y
Remarque 7.7.
1. Les notions de base orthonormale et de projection orthogonale sont généralisables aux de espaces de
Hilbert (en effet, les résultats précédents s’étendent à tous les espaces de Hilbert).
2. On peut généraliser l’exemple 7.2 ci-dessus au cas où l’on souhaite approximer X par une combinaison
linéaire de plusieurs variables aléatoires Y1 , Y2 , ..., Yn . On parle alors de régression linéaire.
85
Nous terminons par la notion classique de coefficient de corrélation linéaire entre deux variables X, Y de
carrés intégrables.
Soient X, Y ∈ L2 (Ω, F, P). Supposons que X et Y ne sont pas presque sûrement constantes, c’est-à-dire
supposons que
E X 2 < +∞, E Y 2 < +∞, Var (X) > 0 et Var (Y ) > 0.
Remarque 7.8. L’exemple 7.2 et la linéarité de PF montrent que nous avons, en posant F = Vect(1, Y ),
X − E(X) Y − E(Y )
PF √ = ρXY √ .
Var X Var Y
Proposition 7.16.
Soient X, Y deux variables aléatoires à valeurs dans R. Supposons que X, Y ∈ L2 (Ω, F, P) et que X et Y
ne sont pas constantes, c’est-à-dire supposons que
1. Alors, |ρXY | 6 1.
2. Enfin, ρXY = 1 (respectivement ρXY = −1) si et seulement si il existe (a, b) ∈ R∗+ × R tel que
Y = aX + b (respectivement Y = −aX + b).
Démonstration.
1. D’après l’inégalité de Cauchy-Schwarz,
p p √ √
|Cov(X, Y )| = |E((X − E(X))(Y − E(Y ))| ≤ E ((X − E(X))2 ) E ((Y − E(Y ))2 ) = Var X Var Y .
86
Nous déduisons donc de la dernière partie de la proposition 7.15 (cas d’égalité), que
X − E(X) X − E(X) Y − E(Y )
√ = PF √ = ρXY √ .
Var X Var X Var Y
Par conséquent, si ρXY = 1 (respectivement ρXY = −1), alors il existe (a, b) ∈ R∗+ × R tel que
Y = aX + b (respectivement Y = −aX + b).
Réciproquement, si il existe (a, b) ∈ R∗+ × R tel que Y = aX + b, alors Cov(X, Y ) = aVar(Y ) et
Var(X) = a2 Var(Y ), donc
a
ρXY = ,
|a|
Loi binomiale
np np(1 − p)
B(n, p)
avec n ∈ N∗ et p ∈ [0, 1]
Loi de Poisson
λ λ
P(λ)
avec λ ∈ R∗+
de paramètre p ∈]0, 1[
Loi Exponentielle
λ λ2
E(λ)
avec λ ∈ R∗+
Loi Gaussienne
m σ2
N (m, σ 2 ),
où m ∈ R et σ ∈ R∗+
87
88
Chapitre 8
Dans ce chapitre, nous nous intéressons au comportement asymptotique d’une suite de variables aléatoires
définies sur un même espace (Ω, F, P). Ces variables aléatoires sont supposées à valeurs dans Rd , d > 1.
Hypothèses/Notations pour ce chapitre
• (Ω, F, P) est un espace de probabilités sur lequel seront définies toutes les variables aléatoires.
d
• Tout espace E ⊂ R est muni de sa tribu borélienne B(E). De plus, Rd est muni de la norme
euclidienne notée k · k.
La suite de variables (Xn )n∈N (à valeurs dans Rd ) converge presque sûrement vers la variable
p.s.
aléatoire X, ce que l’on note Xn −→ X, si il existe N un ensemble négligeable tel que pour tout
ω ∈ Ω \ N, la suite (Xn (ω))n∈N converge vers X(ω), c’est-à-dire tel que
Exemple 8.1. Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N,
Xn = 1[0,1/n] (X)
lim Xn (ω) = 0.
n→+∞
p.s.
Or P(X 6= 0) = 1 car X suit une loi uniforme sur [0, 1]. Par conséquent, Xn −→ 0.
89
Remarque 8.1. La convergence presque sûre possède les mêmes propriétés de stabilité que la convergence
simple de fonctions. En particulier, si l’on considère (Xn )n∈N une suite de variables aléatoires à valeurs dans Rd
0
et (Yn )n∈N une suite de variables aléatoires à valeurs dans Rd telles que
p.s. p.s.
Xn −→ X et que Yn −→ Y,
0
où X est une variable aléatoire à valeurs dans Rd et Y une variable aléatoire à valeurs dans Rd , alors le lecteur
pourra vérifier les 3 assertions suivantes.
p.s.
1. Si d = d0 , alors pour tous λ, µ ∈ R, λXn + µYn −→ λX + µY.
p.s.
2. Si d0 = 1, alors Yn Xn −→ Y X.
1 p.s. 1
3. Si d0 = 1 et si pour tout n ∈ N, P(Yn 6= 0) = P(Y 6= 0) = 1, alors −→ .
Yn Y
Les résultats de stabilité énoncés dans la remarque précédente peuvent être vu comme des conséquences des
propriétés suivantes.
Proposition 8.1.
Considérons (Xn )n∈N et X des variables aléatoires à valeurs dans Rd ainsi que (Yn )n∈N et Y des variables
0
aléatoires à valeurs dans Rd .
0
1. La suite de vecteurs aléatoires ((Xn , Yn ))n∈N à valeurs dans Rd × Rd converge presque sûrement
vers le vecteur aléatoire (X, Y ) si et seulement si
p.s. p.s.
Xn −→ X et Yn −→ Y.
2. Supposons que les variables Xn , n ∈ N et X sont à valeurs presque sûrement dans E ⊂ Rd . Alors
p.s. 0
si Xn −→ X et si f : E → Rd est une fonction continue sur E, alors
p.s.
f (Xn ) −→ f (X).
Démonstration.
∀n ∈ N, Xn (ω) ∈ E et X(ω) ∈ E.
p.s.
De plus, Xn −→ X. signifie qu’il existe un négligeable N2 tel que
∀ω ∈
/ N2 , lim Xn (ω) = X(ω).
n→+∞
0
La fonction f : E → Rd étant continue, nous avons alors :
∀ω ∈
/ (N1 ∪ N2 ), lim f (Xn (ω)) = f (X(ω)).
n→+∞
p.s.
Les ensembles N1 et N2 étant négligeables, N1 ∪ N2 l’est aussi, et donc f (Xn ) −→ f (X).
Énonçons à présent un critère, conséquence du lemme de Borel-Cantelli, pour établir la convergence presque
sûre d’une suite de variables aléatoires. Pour x ∈ Rd , |x| désigne la norme euclidienne de x.
90
Corollaire 8.2.
2. Si les variables aléatoires Xn , n ∈ N, sont mutuellement indépendantes (cf. définition 6.2, page 63)
p.s.
alors Xn −→ 0 si et seulement si
X
∀ε > 0, P(|Xn | > ε) < +∞.
n∈N
Démonstration.
Ceci étant vrai pour tout entier p ∈ N∗ , et la mesure P étant positive σ-sous-additive (cf. chapitre 1,
proposition 1.1),
[ X
06P lim sup An,p 6 P lim sup An,p = 0.
n→+∞ n→+∞
p∈N∗ p∈N∗
Par suite,
[
P lim sup An,p = 0,
n→+∞
p∈N∗
c’est-à-dire que pour presque tout ω, pour tout p ∈ N∗ , il existe n0 ∈ N tel que pour tout n > n0 ,
1
|Xn (ω) − X(ω)| < .
p
91
2. Supposons que les variables aléatoires Xn , n ∈ N, sont indépendantes. Pour tout n ∈ N, posons
An = {|Xn | > ε}. Nous rappelons que An ∈ F, car Xn est mesurable.
• D’après l’assertion 1.,
!
X p.s.
∀ε > 0, P(|Xn | > ε) < +∞ =⇒ Xn −→ 0.
n∈N
• Pour établir la réciproque, nous montrons sa contraposée. Nous supposons donc qu’il existe
ε > 0 tel que X X
P(|Xn | > ε) = P(An ) = +∞.
n∈N n∈N
Les variables aléatoires Xn , n ∈ N, étant indépendantes, les événements An = {|Xn | > ε},
n ∈ N, sont aussi indépendants. Dès lors, d’après le lemme de Borel-Cantelli,
P lim sup An = 1.
n∈N
Cela signifie que, pour presque tout ω, il existe une infinité d’indices n ∈ N tels que
Par conséquent, pour presque tout ω, (Xn (ω))n∈N ne converge pas vers 0.
Nous pouvons déduire du corollaire précédent un critère basé sur la convergence d’une série de moments
d’ordre p.
Corollaire 8.3 (Critère de convergence p.s. basé sur les moments).
Soient (Xn )n∈N une suite de variables aléatoires à valeurs dans E. Si il existe p ∈ R∗+ tel que
X
E(|Xn |p ) < +∞,
n∈N
p.s.
alors Xn −→ 0.
E(|Xn |p )
∀ε > 0, P(|Xn | > ε) = P(|Xn |p > εp ) 6 .
εp
La série de terme général E(|Xn |p ) étant convergente, on en déduit que
X
∀ε > 0, P(|Xn | > ε) < +∞,
n∈N
p.s.
ce qui implique que Xn −→ 0 d’après le corollaire 8.2.
92
Exemple 8.2. Soit (Xn )n>1 une suite de variables aléatoires gaussiennes centrées (c’est-à-dire de moyenne
nulle) et de variances respectives 1/n. On a alors
1
E |X|2 = 2 .
n
Étant donné que la série de terme général 1/n2 est sommable, on déduit du corollaire précédent que la suite
(Xn )n>1 converge presque sûrement vers 0.
La suite de variables aléatoires (Xn )n∈N converge en probabilité vers la variable aléatoire X, ce
P
que l’on note Xn −→ X, si, pour tout ε > 0,
Exemple 8.3. Soit X une variable aléatoire de loi uniforme sur [0, 1]. Pour tout n ∈ N∗ , posons
Xn = X + n2 1X61/n .
Étant donné que X suit une loi uniforme sur [0, 1],
(
∗ 0 si ε > n2
∀n ∈ N , P(|X − Xn | > ε) = 1
n si ε < n2 .
Par conséquent,
∀ε > 0, lim P(|Xn − X| > ε) = 0
n→+∞
Commençons tout d’abord par nous intéresser à l’unicité de la limite en probabilité d’une suite, unicité a
priori non évidente en lisant la définition de la convergence.
Si la suite de variables aléatoires (Xn )n∈N converge en probabilité vers la variable aléatoire X et vers la
variable aléatoire Y , alors
X = Y presque sûrement.
93
Démonstration. Pour tout ε > 0,
Avant d’étudier les liens entrent la convergence en probabilité et la convergence presque sûre, mentionnons
que les propriétés de stabilité énoncées dans la proposition 8.1 pour la convergence presque sûre restent vraies
pour la convergence en probabilité.
Proposition 8.5.
Considérons (Xn )n∈N et X des variables aléatoires à valeurs dans Rd ainsi que (Yn )n∈N et Y des variables
0
aléatoires à valeurs dans Rd .
P
1. Alors, (Xn , Yn ) −→ (X, Y ) si et seulement si
P. P
Xn −→ X et Yn −→ Y.
2. Supposons que les variables Xn , n ∈ N et X sont à valeurs presque sûrement dans E ⊂ Rd . Alors
P 0
si Xn −→ X et si f : E → Rd est une fonction continue sur E, alors
P
f (Xn ) −→ f (X).
Terminons à présent par les liens existants entre la convergence presque sûre et la convergence en probabilité.
p.s. P
1. Si Xn −→ X, alors Xn −→ X.
P
2. Si Xn −→ X, alors il existe une suite déterministe et strictement croissante d’entiers (nk )k∈N telle
que la sous-suite (Xnk )k∈N converge presque sûrement vers la variable aléatoire X.
Démonstration.
p.s.
1. Soit ε > 0. Supposons que Xn −→ X. Pour tout n ∈ N,
94
Yn = 1|X−Xn |>ε
p.s. p.s.
est une variable aléatoire à valeurs dans R et bornée par 1. De plus, comme Xn −→ X, Yn −→ 0.
Alors, d’après le théorème de convergence dominée,
P
et ce pour tout ε > 0. Par conséquent, Xn −→ X.
On peut donc définir la suite d’entiers (nk )k∈N par n0 = 0 et, pour tout k > 1,
n o
nk = min n > nk−1 + 1 / P(|X − Xn | > 1/k) 6 2−k .
Par construction, la suite (nk )k∈N est une suite strictement croissante d’entiers telle que
Fixons ε > 0. Alors, il existe k0 ∈ N∗ tel que pour tout entier k > k0 , 1/k < ε. Notons qu’alors pour
tout entier k > k0 ,
{|X − Xnk | > ε} ⊂ {|X − Xnk | > 1/k}.
Par conséquent,
+∞
X +∞
X +∞
X
P(|X − Xnk | > ε) 6 P(|X − Xnk | > 1/k) 6 2−k < +∞.
k=k0 k=k0 k=k0
Étant donné que pour tout k 6 k0 , P(|X − Xnk | > ε) 6 1, l’inégalité précédente implique que
X
P(|X − Xnk | > ε) < +∞.
k∈N
Alors, d’après le corollaire 8.2, la sous-suite Xnk converge presque sûrement vers X.
k∈N
Remarque 8.2. En général, la convergence en probabilité n’implique pas la convergence presque sûre. Pour
illustrer ce point, considérons une suite de variables aléatoires (Xn )n∈N∗ indépendantes et supposons que la loi
de Xn est la loi de Bernoulli de paramètre 1/n. Rappelons donc que la loi de Xn est
1 1
P Xn = 1− δ0 + δ1 .
n n
95
P
Autrement dit, Xn −→ X = 0. D’autre part, pour 0 < ε < 1
X X 1
P(|Xn | > ε) = = +∞.
n
n∈N∗ ∗
n∈N
Les variables aléatoires Xn , n ∈ N∗ étant indépendantes, vu l’égalité ci-dessus, d’après le lemme de Borel-
Cantelli, la suite (Xn )n>1 ne converge pas presque sûrement vers X = 0.
8.3 Convergence Lp
Soit p > 1. Dans le chapitre 7, nous avons vu la construction des espaces Lp pour les variables aléatoires à
valeurs réelles. Dans la présente section, nous généralisons cette notion aux variables aléatoires à valeurs dans
Rd en posant
n o
LpRd (Ω, F, P) = X : Ω → Rd mesurable / |X|p est intégrable ,
où |X| désigne la norme euclidienne de X. En absence d’ambiguïté sur la dimension d, nous omettrons la
dépendance en Rd et nous noterons donc Lp (Ω, F, P) cet espace. De plus, nous le munissons de la norme k · kp
définie par
1
kXkp = [E(|X|p )] p
Soit p ∈ [1, +∞[. Supposons que pour tout n ∈ N, Xn ∈ Lp (Ω, F, P) et X ∈ Lp (Ω, F, P). La suite
de variables aléatoires (Xn )n∈N converge dans Lp vers la variable aléatoire X, ce que l’on note
Lp
Xn −→ X, si
lim E(|Xn − X|p ) = 0,
n→+∞
Lp (i)
Remarque 8.3. Le lecteur pourra vérifier que Xn −→ X si et seulement si chaque coordonnée Xn de Xn
converge dans LpR (Ω, F, P) vers la coordonnée X (i) du vecteur aléatoire X. Il en déduira aussi que l’assertion1.
de la proposition 8.1 (respectivement de la proposition 8.5) est vraie en remplaçant la convergence presque sûre
(respectivement en probabilité) par la convergence dans Lp .
Proposition 8.7.
Soit p ∈ [1, +∞[. Soient (Xn )n∈N et X des variables aléatoires à valeurs dans Rd . Supposons que pour
Lp
tout n ∈ N, Xn ∈ Lp (Ω, F, P) et X ∈ Lp (Ω, F, P). Si Xn −→ X, alors
L1
De plus, si Xn −→ X, alors limn→+∞ E(Xn ) = E(X).
96
Comparons à présent la convergence dans Lp avec la convergence dans Lq , pour p 6 q.
Proposition 8.8 (Comparaison des convergences dans Lp et Lq ).
Soient p, q ∈ [1, +∞[ tels que p 6 q. Soient (Xn )n∈N et X des variables aléatoires à valeurs dans Rd .
Lq Lp
Supposons que, pour tout n ∈ N, Xn ∈ Lq (Ω, F, P) et X ∈ Lq (Ω, F, P). Si Xn −→ X, alors Xn −→ X.
Démonstration. Soient p, q ∈ [1, +∞[ tels que p 6 q. Alors Lp (Ω, F, P) ⊂ Lq (Ω, F, P), donc, sous nos hypothèses,
alors,
lim E(|Xn − X|p )1/p = 0,
n→+∞
Soit p ∈ [1, +∞[. Soient (Xn )n∈N et X des variables aléatoires à valeurs dans E.
Lp
1. Supposons que, pour tout n ∈ N, Xn ∈ Lp (Ω, F, P) et X ∈ Lp (Ω, F, P). Si Xn −→ X, alors
P
Xn −→ X.
Remarque 8.4. En toute généralité, la convergence en probabilité n’implique pas la convergence dans Lp .
Démonstration.
Lp
1. Supposons que Xn −→ X et considérons ε > 0. Étant donné que p ∈ R∗+ ,
E(|Xn − X|p )
P(|Xn − X| > ε) = P(|Xn − X|p > εp ) 6 .
εp
97
La suite (Xn )n∈N convergeant vers X dans Lp ,
et ce pour tout ε > 0. Par conséquent, la suite (Xn )n∈N converge vers X en probabilité.
Lp P
2. Soit p > 1. D’après la proposition 8.9, si Xn → X, alors Xn −→ X. Réciproquement, supposons
P
que Xn −→ X. Étant donné que |X − Xn | > |X| − |Xn | et que |Xn | 6 a presque sûrement,
En faisant tendre n → +∞, on déduit de la convergence en probabilité de (Xn )n∈N vers X que
P(|X| > a + 1) = 0.
E(|Xn − X|p ) = E |Xn − X|p 1|Xn −X|>ε + E |Xn − X|p 1|Xn −X|6ε
car limn→+∞ P(|Xn − X| > ε) = 0. Étant donné que ε > 0 est arbitraire et que pour tout n,
E(|Xn − X|p ) > 0,
lim E(|Xn − X|p ) = lim sup E(|Xn − X|p ) = 0,
n→+∞ n→+∞
Lp
c’est-à-dire que Xn −→ X.
Terminons cette partie en donnant le lien entre la convergence dans Lp et la convergence presque sûre.
Proposition 8.10 (Convergence p.s./Convergence Lp ).
Soient p ∈ [1, +∞[, (Xn )n∈N une suite de variables aléatoires dans Lp et X une variable aléatoire. Si
p.s.
(i) Xn → X
(ii) et si il existe Z ∈ Lp une variable aléatoire à valeurs dans [0, +∞] telle que
Lp
alors X ∈ Lp et Xn −→ X.
p.s.
Démonstration. Étant donné que |Xn | 6 Z presque sûrement pour tout n et que Xn → X, nous avons :
98
Or 2p Z p est une variable aléatoire intégrable car Z ∈ Lp , donc, d’après le théorème de convergence
dominée appliqué à la suite de variables aléatoires (|Xn − X|p )n∈N qui converge presque sûrement vers 0,
nous avons :
lim E(|Xn − X|p ) = 0.
n→+∞
Lp
Par suite, Xn −→ X.
La suite de variables aléatoires (Xn )n∈N à valeurs dans Rd converge en loi vers la variable aléatoire
L
X à valeurs dans Rd , ce que l’on note Xn → X, si pour toute fonction f : Rd → R continue bornée,
Remarque 8.5.
Il y a unicité de la loi limite mais pas de la variable aléatoire limite. Plus précisément, si la suite de variables
aléatoires (Xn )n∈N converge en loi vers la variable aléatoire X alors elle converge aussi en loi vers la variable
aléatoire Y si et seulement si X et Y ont même loi. La convergence en loi n’affirme pas que X et Xn sont
proches dans E mais que la loi de Xn est proche de celle de X pour n grand.
Exemple 8.4. Soit Xn une variable aléatoire de loi PXn = 12 δ1/n + 21 δn/(n+1) . Alors, pour toute fonction f
continue bornée sur R,
1 1 1 n
E(f (Xn )) = f + f .
2 n 2 n+1
Par conséquent, pour toute fonction f continue bornée sur R,
1 1
lim E(f (Xn )) = f (0) + f (1) = E(f (X))
n→+∞ 2 2
L
avec X de loi de Bernoulli de paramètre p = 1/2. Par conséquent, Xn −→ X.
L
Soient X et (Xn )n∈N des variables aléatoires à valeurs presque sûrement dans E ⊂ Rd . Si Xn −→ X et
0
si f : E → Rd est une fonction continue, alors
L
f (Xn ) −→ f (X).
99
L
Remarque 8.6. Appliquant la proposition ci-dessus, si Xn −→ X, alors pour tout 1 6 i 6 d, la ie coordonnée
(i)
Xn de Xn converge en loi vers la ie coordonnée X (i) de X. La réciproque est par contre fausse.
P L
Si Xn −→ X, alors Xn −→ X.
∀n ∈ N, |f (Xn )| 6 a partout.
L1
Alors, d’après l’assertion 2. de la proposition 8.9, f (Xn ) −→ f (X). Par conséquent, d’après la proposi-
tion 8.7,
lim E(f (Xn )) = E(f (X)).
n→+∞
L
Ceci étant vrai pour toute fonction continue bornée f : Rd → R, nous concluons que Xn −→ X.
8.4.2 Caractérisations
Nous pouvons caractériser la convergence en loi d’une suite de variables aléatoires réelles à partir du com-
portement asymptotique de la suite de leur fonction de répartition.
Proposition 8.13 (Suite des fonctions de répartition).
Remarque 8.8. Dans la proposition précédente, la convergence la suite FXn n∈N
des fonctions de répartition
n’a a priori pas lieu sur tout R.
La convergence en loi peut aussi se déduire de l’asymptotique d’une suite de fonctions caractéristiques.
Théorème 8.14 (Théorème de Paul Lévy).
L
1. Si Xn → X, alors la suite de fonctions ϕXn n∈N
converge simplement vers ϕX .
100
2. Si ϕXn n∈N
converge simplement vers une fonction ϕ continue en 0, alors il existe une variable
L
aléatoire Y à valeurs dans Rd dont la fonction caractéristique est ϕ et Xn → Y .
En particulier, la réciproque de la première assertion est vraie : si la suite de fonctions ϕXn n∈N
L
converge simplement vers ϕX , alors Xn → X.
L
Remarque 8.9. En fait, si Xn → X, alors la suite de fonctions ϕXn n∈N
converge uniformément sur tout
compact vers ϕX .
n
1X
Xn = Xi , ∀n > 1.
n
i=1
Des variables aléatoires Xn , n ∈ N sont dites indépendantes identiquement distribuées (en abrégé
i.i.d ), si elles sont mutuellement indépendantes et si elles ont toutes même loi.
Soit (Xn )n∈N une suite de variables aléatoires réelles de même loi, deux à deux indépendantes et de carré
intégrable. Alors
L2
Xn −−−−−→ E(X1 ).
n→+∞
1 |) = +∞, c’est-à-dire si les variables aléatoires Xn ne sont pas intégrables, alors la suite
2. Si E(|X
Xn n∈N∗ diverge presque sûrement.
101
8.5.2 Théorème central limite
Théorème 8.17 (Théorème central limite).
Soit (Xn )n∈N une suite de variables aléatoires réelles i.i.d. de carré intégrable. Considérons Z une variable
aléatoire de loi N 0, σ 2 avec σ 2 = Var X1 . Alors,
√ L
n Xn − E(X1 ) −→ Z.
√
Démonstration. Notons ϕX1 la fonction caractéristique de X1 et ϕYn celle de Yn = n Xn − E(X1 ) .
Par indépendance mutuelle des Xk , k ∈ N, pour tout t ∈ R,
Pn √ √ n
Y √ √
ϕYn (t) = E eit k=1 Xk / n e−it nE(X1 ) = E eitXk / n e−it nE(X1 ) .
k=1
E X12 2
0 1 00 2 2
t + o t2 .
ϕX1 (t) = 1 + ϕX (0)t + ϕX (0)t + o t = 1 + iE(X1 )t −
1 2 1 2
Alors, en utilisant un développement limité à l’ordre 2 de x 7→ ln (1 + x) en 0, on obtient
n
√ E(X12 )t2
limn→+∞ ϕYn (t) = limn→+∞ e−it nE(X1 ) 1 + iE(X √1 −
n
)t
2n + o t 2
= exp −t2 E X12 /2 + t2 (E(X1 ))2 /2 = exp −t2 Var X1 /2 = ϕZ (t)
√ L
où Z ∼ N (0, Var X1 ). Alors, d’après le théorème de Paul Lévy, n Xn − E(X1 ) −→ Z.
Lq
⇓ q>p>1
Lp
⇓
L1
⇓
p.s. =⇒ probabilité =⇒ Loi
102
Chapitre 9
Vecteurs gaussiens
Les vecteurs aléatoires gaussiens sont très utilisés pour modéliser conjointement plusieurs phénomènes réels
considérés comme gaussiens dans leur globalité. Comme dans le cas unidimensionnel (variables aléatoires réelles
gaussiennes), utiliser un vecteur gaussien en modélisation est souvent justifié par le fait qu’ils apparaissent
comme limites de sommes de vecteurs (théorème central limite). Enfin, travailler sous l’hypothèse de vecteur
gaussien est un cadre dans lequel il est souvent plus simple d’établir des propriétés (utilisation de propriétés
non vraies a priori sans cette hypothèse, calculs simplifiés se ramenant souvent au calcul de moments d’ordre 1
et 2, etc.).
Hypothèses/Notations pour ce chapitre
• (Ω, F, P) est un espace de probabilités sur lequel seront définies toutes les vecteurs aléatoires.
d
• Tout espace E ⊂ R est muni de sa tribu borélienne B(E).
• Pour toute matrice A, A0 représente la transposée de A.
• Tout élément x ∈ Rd est noté sous la forme d’un vecteur colonne, c’est-à-dire que x = (x1 , . . . , xd )0 .
• Attention ! Dans la suite du cours, une variable aléatoire réelle égale à une constante a ∈ R presque
sûrement est dite gaussienne de variance nulle et de moyenne a. Sa loi, qui est la masse de
Dirac δa , est encore notée N (a, 0).
Un vecteur aléatoire X = (X1 , . . . , Xd )0 à valeurs dans Rd est dit gaussien si toute combinaison linéaire
de ses coordonnéesPest une variable gaussienne réelle, c’est-à-dire si pour tout a = (a1 , . . . , ad )0 ∈ Rd , la
variable aléatoire di=1 ai Xi est une variable réelle gaussienne.
Remarque 9.1. Un vecteur gaussien à valeurs dans R est simplement une variable aléatoire réelle gaussienne.
Comme nous le verrons plus tard, la loi d’un vecteur gaussien dépend de deux quantités importantes : son
vecteur moyenne et sa matrice de covariance, définis ci-après.
103
Définition 9.2.
et sa matrice de covariance
ΓX = (Cov(Xi , Xj ))16i,j6d .
Exemple 9.1.
1. Si U est une variable aléatoire gaussienne centrée réduite N (0, 1), alors le vecteur X = (U, U )0 est un
vecteur aléatoire gaussien, de vecteur moyenne et matrice de covariance
0 1 1
mX = et ΓX = .
0 1 1
2. Si X1 , . . . , Xd sont des variables aléatoires réelles gaussiennes centrées réduites (soit de loi N (0, 1)) et
mutuellement indépendantes, alors le vecteur X = (X1 , . . . , Xd )0 est un vecteur aléatoire gaussien, de
vecteur moyenne et matrice de covariance
1 (0)
0 ..
mX = et ΓX = Idd = .
0 .
(0) 1
Attention ! Les marginales d’un vecteur gaussien peuvent être gaussiennes sans que, pour autant, le vecteur
X soit gaussien. Ainsi, demander qu’un vecteur X soit gaussien est plus fort que de demander que toutes ses
coordonnées soient des variables aléatoires réelles gaussiennes. Un contre-exemple sera abordé en TD.
Proposition 9.1.
u0 ΓX u
d ihu,Xi
∀u ∈ R , ϕX (u) = E e = exp ihu, mX i − .
2
104
Démonstration.
Le vecteur X étant gaussien, la variable aléatoire réelle hu, Xi = di=1 ui Xi est gaussienne. De plus, sa
P
moyenne et sa variance sont données par
d d
!
X X
E(hu, Xi) = E ui Xi = ui E (Xi ) = hu, mX i
i=1 i=1
par définition de ΓX . Par conséquent, la fonction caractéristique de hu, Xi est la fonction caractéristique
d’une variable aléatoire gaussienne réelle (cf. chapitre 4, Tableau 4.1 page 48) donnée par
u0 Γ u
t ∈ R 7→ E eithu,Xi = exp ithu, mX i − t2 X .
2
u0 Γu
ihu,Xi
ϕX (u) = E e = exp ihu, mX i −
2
La fonction caractéristique caractérisant la loi d’une variable aléatoire, nous déduisons de la proposition
précédente le résultat suivant.
Corollaire 9.2.
La loi d’un vecteur gaussien est caractérisée par son vecteur moyenne et sa matrice de covariance.
Définition 9.3.
La loi d’un vecteur gaussien à valeurs dans Rd de vecteur moyenne m et de matrice de covariance Γ est
notée Nd (m, Γ).
105
Proposition 9.3.
mY = AmX + b et ΓY = AΓX A0 .
Exemple 9.2. Soient X1 , . . . , Xd des variables aléatoires réelles i.i.d. de loi gaussienne centrée réduite. Alors
X = (X1 , . . . , Xd )0 est un vecteur aléatoire de loi N (0, Idd ) (c’est-à-dire un vecteur gaussien de moyenne nulle et
de matrice de covariance égale à la matrice identité Idd de taille d × d). Par conséquent, Y = AX est un vecteur
aléatoire de loi Nd0 (0, AA0 ) (c’est-à-dire un vecteur gaussien de moyenne mY = 0 et matrice de covariance
ΓY = AA0 ).
Cette proposition nous permet en particulier d’établir une condition nécessaire et suffisante pour l’existence
de la loi N (m, Γ). Avant d’énoncer cette nouvelle propriété, rappelons ce que l’on appelle une matrice réelle
symétrique positive.
Définition 9.4.
Soit Γ une matrice symétrique réelle de taille d×d. Elle est alors dite positive si l’une des deux propriétés
suivantes sont vérifiées (nous admettrons que ces deux propriétés sont équivalentes) :
(i) les valeurs propres de Γ sont toutes positives (cf. Exemple 9.5) ;
(ii) la forme quadratique
QΓ : Rd −→ R
x 7−→ x0 Γx = di=1 dj=1 Γij xi xj .
P P
est positive, c’est-à-dire qu’elle est à valeurs dans R+ (cf. Exemple 9.6).
Exemple 9.3. Soit X = (X1 , . . . , Xd )0 un vecteur aléatoire à valeurs dans Rd . Alors sa matrice de covariance
ΓX est réelle symétrique positive. En effet, pour tous i, j ∈ {1, . . . , d}, par symétrie de la covariance,
car la variance d’une variable aléatoire réelle est positive. Ainsi, toute matrice de covariance est symétrique
positive.
Proposition 9.4.
Soient m ∈ Rd et Γ une matrice réelle de taille d × d. Alors il existe un espace de probabilité (Ω, F, P)
et un vecteur gaussien défini sur (Ω, F, P) de vecteur moyenne m et de matrice de covariance Γ si et
seulement si la matrice Γ est symétrique positive.
106
Démonstration.
• Si il existe un vecteur gaussien de matrice de covariance Γ, alors Γ est symétrique positive (comme
toute matrice de covariance d’après l’exemple 9.3).
• Supposons à présent que Γ est symétrique positive et montrons qu’il est possible de construire un vecteur
gaussien de matrice de covariance Γ. Pour cela, on admet l’existence d’un espace de probabilité (Ω, F, P)
sur lequel sont définies des variables aléatoires réelles X1 , . . . , Xd i.i.d. de loi gaussienne centrée réduite.
Alors X = (X1 , . . . , Xd ) est un vecteur gaussien centré de matrice de covariance Idd . La matrice Γ
étant supposée symétrique positive, elle admet une racine carrée symétrique, c’est-à-dire une matrice
A de taille d × d telle que A = A0 et Γ = A2 = AA0 . Mais alors le vecteur Y = m + AX est, d’après la
proposition 9.3, un vecteur gaussien de moyenne mY et de matrice de covariance ΓY donnés par
mY = A 0 + m = m et ΓY = AIdd A0 = AA0 = Γ,
La matrice Γ admet les valeurs propres 0, 1 et 2, donc il s’agit d’une matrice réelle symétrique positive. Par
conséquent, il existe un vecteur gaussien de vecteur moyenne m ∈ R3 et de matrice de covariance Γ.
La matrice Γ étant carrée de dimension 2, ses valeurs propres sont positives si et seulement si
( ( (
trace(Γ) > 0 a+c>0 a > 0, d > 0
⇐⇒ 2
⇐⇒ √
det Γ > 0 ac > b |b| 6 ad.
2
√ gaussien de vecteur moyenne m ∈ R et de matrice de covariance Γ si et
Par conséquent, il existe un vecteur
seulement si a > 0, d > 0 et |b| 6 ad.
Nous souhaitons montrer qu’il existe un vecteur gaussien X = (X1 , X2 , X3 )0 de moyenne nulle et de matrice de
covariance Γ. Pour cela, nous allons montrer que la forme quadratique x 7→ x0 Γx est positive.
Nous avons, pour tout x = (x1 , x2 , x3 )0 ∈ R3 ,
1 0 −1 x1
x0 Γx = x1 x2 x3 0 2 2 x2 = x21 − 2x1 x3 + 2x22 + 4x2 x3 + 5x23 .
−1 2 5 x3
107
Nous pouvons à présent réduire la forme quadratique, c’est-à-dire l’écrire sous la forme d’une combinaison
linéaire de termes au carré :
On en déduit que x0 Γx > 0 pour tout x ∈ R3 et, par conséquent, que Γ est positive. D’après la proposition 9.4,
il existe donc un vecteur gaussien à valeurs dans R3 de moyenne nulle et de matrice de covariance Γ.
Proposition 9.5.
Soit X = (X1 , . . . , Xd )0 un vecteur gaussien à valeurs dans Rd . Les variables aléatoires Xi et Xj sont
indépendantes si et seulement si elles sont décorrélées, c’est-à-dire si Cov(Xi , Xj ) = 0. Plus généralement,
Xi1 , . . . , Xin sont mutuellement indépendantes si et seulement si Cov(Xil , Xik ) = 0 pour tout il 6= ik et
k, l = 1, . . . , n.
Remarque 9.2. Pour les vecteurs gaussiens, l’indépendance mutuelle et l’indépendance deux à deux sont donc
des propriétés équivalentes !
Démonstration.
• Si Xi1 , . . . , Xin sont mutuellement indépendantes, alors elles sont indépendantes deux à deux et, par
conséquent, elles sont décorrélées, c’est-à-dire Cov(Xik , Xil ) = 0 pour tout il 6= ik et k, l = 1, . . . , n.
Soient Y1 , . . . , Yn des variables réelles i.i.d. gaussiennes centrées réduites. Alors le vecteur Z = (E(Xi1 )+
Var(Xi1 )Y1 , . . . , E(Xin ) + Var(Xin )Yn ) est un vecteur gaussien de même vecteur moyenne et de même
matrice de covariance que (Xi1 , . . . , Xin ). On en déduit qu’ils ont même loi. Or les composantes de Z
sont mutuellement indépendantes, c’est donc également le cas des composantes de (Xi1 , . . . , Xin ).
108
Exemple 9.7.
1. Soit X un vecteur gaussien dont la matrice de covariance est diagonale. Alors les coordonnées de X sont
mutuellement indépendantes.
Proposition 9.6.
Tout vecteur gaussien dont la matrice de covariance n’est pas inversible est dit dégénéré. La loi d’un tel
vecteur est appelée une loi gaussienne dégénérée.
Remarque 9.3. Dans le cas d = 1, nous retrouvons le fait qu’une variable gaussienne réelle n’admet une densité
que si sa variance est non nulle. Dans le cas où sa variance est nulle, c’est-à-dire dans le cas où la variable est
égale à une constante presque sûrement, la variable gaussienne est dégénérée au sens de la définition précédente.
9.3.3 Cas d = 2
Soit X = (X1 , X2 )0 un vecteur gaussien de moyenne mX et de matrice de covariance ΓX . Alors,
E(X1 ) VarX1 Cov(X1 , X2 )
mX = et ΓX = .
E(X2 ) Cov(X1 , X2 ) VarX2
109
m1 = E(X1 ), m2 = E(X2 ),
p √
σX1 = VarX1 , σ X2 = VarX2
σX1 X2 = Cov(X1 , X2 ).
ce qui confirme la condition liant a, b, c établie dans l’exemple 9.5 page 105.
2 = 0 ou si σ 2 = 0, alors det Γ = 0.
• Par conséquent, si σX
1X X 2
Proposition 9.7.
2
1. Si σX 2 σ 2 , la loi de X n’est pas absolument continue.
= σX
1 X2 X1 2
2
2. Supposons σX 2 σ 2 . Alors, le coefficient de corrélation
6= σX
1 X2 X 1 2
σX1 X2
ρ=
σX1 σX2
entre X1 et X2 est bien défini. De plus, la loi de X admet pour densité par rapport à λ2 la fonction
fX : R2 −→ R+ définie par
!!
1 −1 (x1 − m1 )2 ρ(x1 − m1 )(x2 − m2 ) (x2 − m2 )2
fX (x) = q exp − + .
2π σ 2 σ 2 (1 − ρ2 ) 1 − ρ2 2
2σX σX1 σX2 2σX2
X1 X2 1 2
Démonstration.
• La loi de X est absolument continue si et seulement si det ΓX 6= 0, c’est-à-dire si et seulement si
2
σX 2 σ2 .
6= σX
X
1 2 X 1 2
110
3
0.0
1 6
0.0
4
0.1
0.14
x2
0
0.12
0.0
2
−1
0.08
0.04
−2
−3
−3 −2 −1 0 1 2 3
x1
2
0.0
2
6
0.0
1
0.1
1 0 0
x2
Loi N 0, 8
0 2
−1
0.0
−2 0.04
−3
−2 −1 0 1 2 3
x1
4 0.04
0.0
3 8
0.1
1 1 0
x2
2
Loi N ,
x2
2 0 2 1
0.06
0
0.0
2
−1
−2 −1 0 1 2 3 4
x1
0.0
4
2
0.08
1
2
0.1
1 1
x2
Loi N 0, 0.1
4
1 2 −1
0.1
−2 0.06
0.0
2
−3
−3 −2 −1 0 1 2 3
x1
Considérons un vecteur gaussien X = (X1 , X2 )0 à valeurs dans R2 de loi absolument continue et commentons
à présent l’allure des courbes de niveau de sa densité. La figure 9.1 page 109 illustre les remarques suivantes.
• Les courbes de niveau de la densité de X par rapport à λ2 sont des ellipses concentriques dont le centre a
mêmes coordonnées que le vecteur moyenne de X.
• Par ailleurs, la dépendance ou non des coordonnées de X se lit sur le graphique : elles sont indépendantes
si et seulement si un des axes est parallèle à l’axe des abscisses et l’autre est parallèle à l’axe des ordonnées.
• Enfin, si X1 et X2 sont indépendantes, les lignes de niveau sont des cercles si et seulement si X1 et X2 ont
111
même variance.
1. Si σXi = 0, avec i ∈ {1, 2}, alors les variables X1 et X2 sont indépendantes et Xi est presque
sûrement constante.
σX2
2. Si σX1 ,X2 = σX1 σX2 6= 0, alors presque sûrement X2 = (X1 − m1 ) + m2 .
σX1
σX
3. Si σX1 ,X2 = −σX1 σX2 6= 0, alors presque sûrement X2 = − 2 (X1 − m1 ) + m2 .
σ X1
Démonstration.
1. La première propriété se déduit immédiatement de la proposition 9.5.
2. Le vecteur aléatoire Y = σX1 (X2 − m2 ) − σX2 (X1 − m1 ) est un vecteur gaussien de moyenne nulle
et de variance nulle. En effet, en utilisant la bilinéarité de la covariance, on obtient
2 2
Var(Y ) = Cov(Y, Y ) = σX Var(X2 ) + σX Var(X2 ) − 2σX1 σX2 Cov(X1 , X2 )
1 1
2 2 2 2
= σX σX + σX σX − 2σX1 σX2 σX1 ,X2 = 0,
1 2 2 1
sous l’hypothèse σX1 ,X2 = σX1 σX2 . Ainsi, Y est constant égal à 0 presque sûrement, ce qui nous
permet de conclure.
3. Le même calcul, avec la variable aléatoire Y = σX1 (X2 −m2 )+σX2 (X1 −m1 ), permet de conclure.
Soit X (n) n∈N une suite de vecteurs gaussiens à valeurs dans Rd . Pour tout n ∈ N, posons mn = E X (n)
112
9.4.2 Théorème central limite
Nous terminons cette partie en généralisant le théorème central limite au cadre des vecteurs aléatoires.
Théorème 9.10.
Soit X (n) n∈N une suite de vecteurs aléatoires i.i.d. à valeurs dans Rd . Supposons que la norme du vecteur
Proposition 9.11.
où
E(X1 ) si Var(X2 ) = 0
W = Cov(X1 , X2 )
E(X1 ) +
(X2 − E(X2 )) si Var(X2 ) 6= 0.
Var(X2 )
Dans le cas d = 2, nous observons donc que la meilleure approximation de X1 par une fonction mesurable
de X2 est donnée par une fonction affine de X2 . Ce résultat se généralise aux vecteurs gaussiens de plus grande
dimension.
Proposition 9.12.
113
Si ΓZ est inversible, alors
E kY − f (Z)k2 = E kY − W k2 ,
inf
f ∈B(Rn ,Rp )
Exemple 9.8. Soit X = (X1 , X2 , X3 )0 un vecteur gaussien de moyenne mX = (1, 2, −1) et de matrice de
covariance ΓX donnée par
1 0 −1
ΓX = 0 2 2 .
−1 2 5
Notre but est d’utiliser la proposition précédente pour déterminer W tel que
X2 − X3
= .
3
Nous avons ainsi calculé la meilleure approximation de X1 par une fonction mesurable de X2 et X3 .
114
Annexe A
Loi de la v.a. X PX Espérance Variance Fonction Caractéristique
Loi de Bernoulli
Lois classiques
B(p) PX = (1 − p)δ0 + pδ1 p p(1 − p) ϕX (t) = 1 − p + peit
avec p ∈ [0, 1]
Loi Binomiale
n n
B(n, p) X n k n−k np np(1 − p) ϕX (t) = 1 − p + peit
PX = p (1−p) δk
k
k=0
avec n ∈ N∗ et p ∈ [0, 1]
115
Loi de Poisson
+∞ −λ k
X e λ it −1)
P(λ) PX = δk λ λ ϕX (t) = eλ(e
k!
k=0
avec λ ∈ R∗+
Loi Géométrique
+∞ 1 1−p peit
G(p) X
ϕX (t) =
PX = p(1 − p)k−1 δk p p2 1 − (1 − p)eit
k=1
avec p ∈]0, 1[
Loi de la v.a. X Densité de PX Espérance Variance Fonction de répartition Fonction Caractéristique
Loi Gaussienne
(x−m)2
Z x σ 2 x2
N (m, σ 2 ), 1 − 2
fX (x) = √ e 2σ 2 m σ2 FX (x) = fX (t)λ1 (dt) ϕX (x) = eimx−
2πσ 2 −∞
où m ∈ R et σ ∈ R∗+
Loi Uniforme
1 eix −1
U ([0, 1]) fX (x) = 1[0,1] (x) 1 12 si x 6= 0
ix
0 si x < 0
ϕX (x) =
2 FX (x) = x si x ∈ [0, 1] 1 si x = 0
1 si x > 1
116
Loi Exponentielle
1
ϕX (x) =
E(λ) e−x/λ 2 0 si x < 0 1 − iλx
fX (x) = 1R∗+ (x) λ FX (x) =
λ λ 1 − e−x/λ si x > 0
avec λ ∈ R∗+
1 ϕX (x) = e−|x|
Loi de Cauchy n’existe pas n’existe pas 1 arctan(x)
fX (x) = FX (x) = +
π(1 + x2 ) 2 π
Annexe B
Ce chapitre est dédié à la simulation numérique de variables aléatoires. Dans la plupart des cas, nous ap-
prendrons à simuler une variable aléatoire de loi donnée à l’aide de variables aléatoires de loi uniforme sur [0, 1].
Le texte est accompagné d’exemples de code en Matlab et en Python 1 . Dans toute la suite nous supposerons
que le code en Python comporte l’entête suivante, qui nous permettra d’utiliser la fonction random() du module
random et les fonctions mathématiques usuelles du module math.
Python
# Entête des extraits de code en Python
from random import random
from math import *
• Toutes les variables aléatoires considérées sont définies sur un espace de probabilités (Ω, F, P).
d
• Tout sous-ensemble de R est muni de sa tribu borélienne.
• Tout ensemble E fini ou dénombrable est muni de sa tribu discrète P(E).
Matlab
U=rand;
Python
U=random()
1. Matlab et le module stats de la bibliothèque SciPy de Python proposent également des solutions pré-implémentées pour
simuler des variables aléatoires. Cependant ce n’est pas le cas pour tous les langages de programmation/toutes les configurations.
Par exemple, les méthodes vues dans ce chapitre se révèlent utiles avec PyPy (un interpréteur de Python avec compilation en temps
réel) qui ne supporte pas la bibliothèque SciPy.
117
Remarque B.1. En théorie, une variable aléatoire U de loi uniforme sur [0, 1] est différente de 0 ou 1 presque
sûrement. En effet, par définition de la loi uniforme sur [0, 1],
Z
P(U ∈ {0, 1}) = 1[0,1] dλ1 = λ1 ({0, 1}) = 0.
{0,1}
En Matlab, la fonction rand ne renvoie que des valeurs différentes de 0 et 1. En Python cependant, la fonction
random() peut retourner la valeur 0 (mais pas la valeur 1). Pour obtenir uniquement des valeurs dans ]0, 1[, une
solution possible consiste à utiliser la fonction myRandom définie ci-dessous.
Python
def myRandom():
U=random()
while U==0 or U==1:
U=random()
return U
Lorsque l’on fait appel plusieurs fois de suite à ces fonctions, le programme retourne des valeurs que l’on peut
supposer indépendantes entre elles. Ainsi, pour simuler un vecteur aléatoire V contenant N variables aléatoires
indépendantes de loi uniforme sur [0, 1], nous pouvons utiliser le code suivant.
Matlab
N=1000;
V=rand(1,N);
Python
N=1000
V=[random() for _ in xrange(N)]
Proposition B.1.
Soient U1 et U2 deux variables aléatoires indépendantes de loi uniforme sur [0, 1]. Alors la variable aléatoire
X définie par
p
X = −2 ln U1 cos(2πU2 )
est une variable aléatoire de loi gaussienne centrée réduite, c’est-à-dire la loi gaussienne N (0, 1).
Idées de la démonstration.
• Tout d’abord les hypothèses sur U1 , U2 reviennent à supposer que le couple (U1 , U2 ) est de loi uniforme
sur [0, 1]2 (cf. chapitre 6). Autrement dit, sa loi est absolument continue de densité f(U1 ,U2 ) = 1[0,1]2 .
118
• Nous allons utiliser la technique décrite dans le paragraphe 2.5.2 du second chapitre, i.e. nous allons
utiliser un changement de variables. Notons tout d’abord que comme le support de la densité de (U1 , U2 )
est [0, 1]2 ,
P (U1 , U2 ) ∈]0, 1[2 = 1.
qui est, tout comme X, définie presque sûrement. Nous nous intéressons alors à la loi du couple (X, Y ).
Par définition, (X, Y ) = g(U1 , U2 ) presque sûrement avec g :]0, 1[2 → R2 définie par
p p
g(u1 , u2 ) = −2 ln u1 cos(2πu2 ), −2 ln u1 sin(2πU2 ) .
Considérons pour cela une fonction ϕ : R2 → R continue positive. Dès lors, d’après le théorème du
transport,
Z Z
E(ϕ(X, Y )) = E(ϕ(g(U1 , U2 ))) = ϕ(g(u1 , u2 )) λ2 (du1 , du2 ) = ϕ(g(u1 , u2 )) λ2 (du1 , du2 )
[0,1]2 ]0,1[2
car la loi de (U1 , U2 ) est la loi uniforme sur [0, 1]2 . Le lecteur vérifiera que le changement de variable
(x, y) = g(u1 , u2 ) est licite et qu’en l’effectuant, il vient :
Z
1 x2 +y 2
E(ϕ(X, Y )) = E(ϕ(g(U1 , U2 ))) = ϕ(x, y)e− 2 λ2 (dx, dy).
2π R2
Cette égalité étant vraie pour toute fonction ϕ : R2 → R continue positive, la loi du couple (X, Y ) est
absolument continue de densité f(X,Y ) : R2 → R donnée par
1 − x2 +y2
f(X,Y ) (x, y) = e 2 .
2π
Il s’agit de la loi gaussienne standard sur R2 (cf. chapitre 9).
• Enfin, la loi de X s’obtient en utilisant le théorème de Fubini (cf. chapitre 5, Tableau 5.1). Ce théorème
permet d’établir que la loi de X est aussi absolument continue et que sa densité fX : R → R est donnée
par Z
1 x2
fX (x) = f(X,Y ) (x, y)λ2 (dy) = √ e− 2 .
R 2π
Vu l’expression de sa densité, la loi de X est bien la loi gaussienne centrée réduite.
Remarque B.2. On peut remplacer le cosinus par un sinus dans la proposition sans changer le résultat,
c’est-à-dire que sous les mêmes hypothèses, la variable aléatoire
p
Y = −2 ln U1 sin(2πU2 )
On déduit immédiatement de cette proposition les portions de code suivantes pour simuler une variable
aléatoire réelle X de loi normale centrée réduite.
119
Matlab
U=rand(1,2);
X=sqrt(-2*log(U(1)))*cos(2*pi*U(2));
% En Matlab, tableaux indicés à partir de 1
Python
U=[1-random(),random()]
X=sqrt(-2*log(U[0]))*cos(2*pi*U[1])
# En Python, tableaux indicés à partir de 0
Remarque B.3. Dans Python, la fonction random() peut renvoyer la valeur 0, ce qui pose problème pour le
calcul de ln U1 . Nous pallions ici cette difficulté en simulant U1 avec l’expression 1-random(), qui peut retourner
la valeur 1, mais pas la valeur 0.
Considérons U une variable aléatoire de loi uniforme sur [0, 1]. Alors la loi de la variable aléatoire X = 1U 6p
est la loi de Bernoulli de paramètre p. Nous rappelons que
En Matlab ou en Python, nous pourrons donc simuler une variable aléatoire de loi de Bernoulli de paramètre
p ∈ [0, 1] de la façon suivante. Nous avons choisi ici p = 0.2.
Matlab
p=0.2;
u=rand;
X=(u<=p);
Python
p=0.2
u=random()
X=(u<=p)
120
Soit µ une mesure de probabilité sur {xi / i ∈ I}. Cette loi s’écrit sous la forme
X
µ= pi δxi
i∈I
où pi = µ({xi }) ∈ [0, 1]. Notre but est de définir une variable aléatoire X de loi µ, c’est-à-dire telle que
P(X = xi ) = µ({xi }) = pi , ∀i ∈ I,
à l’aide d’une variable aléatoire U de loi uniforme sur [0, 1]. La proposition suivante répond à cette question.
Proposition B.2.
P(X = xi ) = µ({xi }) = pi , ∀i ∈ I.
Remarque B.4. L’ensemble A = { ij=0 pj /i ∈ I} est dénombrable donc de mesure de Lebesgue nulle. Par
P
conséquent, une variable aléatoire U de loi uniforme sur [0, 1] est telle que
P(U ∈ A) = 0
Par suite, l’ordre des inégalités strictes/non-strictes dans l’écriture de X ne modifie pas sa loi.
Remarque B.5. Il pourra être intéressant de définir une famille de nombre réels Q = (qi )i∈I par
i
X
q−1 = 0, q0 = p0 , q1 = p0 + p1 , . . . , qi = pi , i ∈ I.
k=0
De cette façon, étant donné U de loi uniforme sur [0, 1], la variable aléatoire X s’écrit sous la forme
121
Démonstration. La variable aléatoire X définie dans la proposition est à valeurs dans l’ensemble
E = {xi / i ∈ I}.
Cet ensemble étant fini ou dénombrable, la loi de X est discrète et s’écrit :
X
PX = P(X = xi ) δxi .
i∈I
Par suite,
P(U 6 p0 ) = p0 si i = 0
P(X = xi ) = i−1
X i
X i
X i−1
X
pj −
P
pj < U 6 pj =
pj = pi si i > 1
j=0 j=0 j=0 j=0
Pk
loi de U est la loi uniforme sur [0, 1] et car
car la P j=0 pj ∈ [0, 1] pour tout k ∈ I. Ainsi, la loi de X est :
PX = i∈I P(X = xi )δxi = µ.
Matlab
mu=[0.1,0.4,0.2,0.3];
Q=cumsum(mu);
U=rand;
X=find(U<=Q,1,’first’)-1
Python
mu=[0.1,0.4,0.2,0.3]
U=random()
i,q=0,mu[0]
while not U<=q:
i=i+1,q+mu[i]
X=i
122
Exemple B.2. Nous souhaitons à présent simuler une variable aléatoire de loi géométrique de paramètre
p ∈ [0, 1[ donné, c’est-à-dire de loi X
µ= (1 − p)i−1 p δi .
i∈N∗
Alors, étant donnée une variable aléatoire U de loi uniforme sur [0, 1], on peut définir une variable aléatoire X
de loi µ par
1 si U 6 p
2 si p < U 6 p + (1 − p)p
3 si p + (1 − p)p < U 6 p + (1 − p)p + (1 − p)2 p
X=
...
i−1 i
X X
k−1
(1 − p)k−1 p, ∀i > 1,
i si (1 − p) p < U 6
k=1 k=1
P0
en respectant la convention k=1 (1 − p)k−1 p = 0.
On peut donc simuler X en faisant une boucle sur {1, 2, . . .} jusqu’à atteindre un indice i vérifiant
i−1
X i
X
k−1
(1 − p) p < U 6 (1 − p)k−1 p.
k=1 k=1
Toutefois, dans les situations où le nombre d’indices possibles est infini, comme ici, on essaiera d’éviter cette
démarche, car la longueur de la boucle pourrait prendre des valeurs excessivement grandes pour peu que U soit
proche de 1 et le temps de calcul être très important.
Dans notre situation, nous pouvons remarquer que
i−1
X i
X
X = i ⇐⇒ (1 − p)k−1 p 6 U < (1 − p)k−1 p
k=1 k=1
⇐⇒ 1 − (1 − p)i−1 6 U < 1 − (1 − p)i
⇐⇒ (1 − p)i < 1 − U 6 (1 − p)i−1
ln(1 − U )
⇐⇒ i − 1 6 < i,
ln(1 − p)
donc
ln(1 − U )
X =1+
ln(1 − p)
où [t] désigne la partie entière de t ∈ R.
En Matlab ou en Python, on obtient donc le code suivant pour simuler une variable aléatoire de loi géométrique.
Matlab
p=0.01;
U=rand;
X=1+floor(log(1-U)/log(1-p));
Python
p=0.01
U=random()
X=1+floor(log(1-U)/log(1-p))
123
Remarque B.6. Dans Matlab et Python, les commandes U=rand et U=random() ne renvoient jamais la valeur
1. Par conséquent, dans le code précédent, la définition de la variable X ne produira pas d’erreur de définition.
Exemple B.3. Voyons à présent le cas de la loi binomiale. Nous souhaitons simuler une variable aléatoire X
de loi binomiale de paramètre p ∈ [0, 1] et n ∈ {1, 2, . . .}, c’est-à-dire de loi µ = ni=0 pi δi avec
P
Nous pouvons ici aussi précéder en utilisant la proposition B.2. Cependant, nous sommes dans une situation
défavorable : X peut prendre une infinité de valeurs (comme dans l’exemple précédent), mais il n’y a pas
d’expression simple pour p0 +· · ·+pi , ce qui nous oblige donc à utiliser une boucle sur un nombre potentiellement
infini d’indices et conduit à un temps de calcul potentiellement important. De plus, le calcul des coefficients
binomiaux est aussi assez coûteux en temps, ce qui ralentit encore le calcul de p0 + · · · + pi , pour chaque valeur
de i.
Cependant, en utilisant la définition de la loi binomiale, on se rend compte qu’il s’agit également de la loi de la
somme de n variables aléatoires indépendantes de Bernoulli de paramètre p. Ainsi, pour simuler X, on préfèrera
simuler n variables aléatoires X1 , . . . , Xn indépendantes, de loi de Bernoulli de paramètre p, puis poser
X = X1 + · · · + Xn .
Matlab
p=0.2
n=1000000
X=sum(rand(1,n)<=p)
Python
p=0.2
n=1000000
X=sum([random()<=p for _ in xrange(n)])
Définition-Proposition B.3.
124
Démonstration. Pour tout u ∈]0, 1[, nous pouvons poser
Dès lors, pour tout u ∈]0, 1[, {t ∈ R, FY (t) > u} est un ensemble minoré non vide. Par conséquent,
GY (t) = inf{t ∈ R, FY (t) > u} ∈ R.
Dans le cas où FY est strictement croissante, sa fonction réciproque généralisée est simplement son inverse.
Proposition B.4.
Si la fonction de répartition FY définit une bijection d’un intervalle ]a, b[ (avec −∞ 6 a < b 6 +∞) sur
l’intervalle ]0, 1[, alors sa fonction réciproque généralisée GY :]0, 1[→]a, b[ définie par (B.1), est l’inverse
de la restriction FY à ]a, b[, i.e. pour u ∈]0, 1[ et t ∈]a, b[
GY (u) = t ⇐⇒ FY (t) = u.
En particulier, si FY est strictement croissante sur R, alors elle est bijective de R sur ]0, 1[ et GY = FY−1 .
Notons enfin, que contrairement à ce que la notation pourrait laisser penser, la fonction de répartition d’une
variable aléatoire Y et a fortiori sa réciproque généralisée ne dépendent que de la loi µ de Y .
Exemple B.4. Soit Y une variable aléatoire de loi uniforme sur [a, b], avec −∞ < a < b < +∞, c’est-à-dire de
densité
1
fY (x) = 1 , ∀x ∈ R.
b − a x∈[a,b]
Alors, d’après l’exemple 3.1 du chapitre 3, pour tout t ∈ R,
t−a
Z
FY (t) = fY (x) dλ1 (x) = 1 + 1t∈[b,+∞[ .
]−∞,t] b − a t∈[a,b[
Par conséquent, FY définit une bijection de ]a, b[ sur ]0, 1[. De plus, pour tout u ∈]0, 1[ et t ∈]a, b[,
t−a
FY (t) = u ⇐⇒ = u ⇐⇒ t = a + (b − a) u.
b−a
Nous en déduisons que pour tout u ∈]0, 1[,
GY (u) = a + (b − a) u.
Exemple B.5. Soit Y une variable aléatoire de loi exponentielle de paramètre λ > 0, c’est-à-dire de densité
e−x/λ
fY (x) = 1x>0 , ∀x ∈ R.
λ
125
Alors, pour tout t ∈ R,
e−x/λ
Z Z
FY (t) = fY (x) dλ1 (x) = 1x>0 dλ1 (x) = 1 − e−t/λ 1t>0 .
]−∞,t] ]−∞,t] λ
Par conséquent, FY définit une bijection de ]0, +∞[ sur ]0, 1[. De plus, pour tout u ∈]0, 1[ et t ∈]0, +∞[,
Exemple B.6. Soit Y une variable aléatoire discrète à valeurs dans N telle que
P(Y = i) = pi , ∀i ∈ N,
P∞
où les pi sont des nombres positifs tels que i=0 pi = 1. Alors, d’après le chapitre 3, la fonction de répartition
de Y est donnée, pour tout t > 0, par
[t]
X
FY (t) = pi
i=0
où l’on rappelle que [t] désigne la partie entière de t. On en déduit que sa fonction de répartition inverse GY est
donnée par : pour tout u ∈]0, 1[
0 si u 6 p0
1 si p0 < u 6 p0 + p1
2 si p0 + p1 < u 6 p0 + p1 + p2
GY (u) =
...
i−1 i
X X
i si pk < u 6 pk .
k=0 k=0
Exercice B.1. Considérons X une variable aléatoire de Cauchy, c’est-à-dire de loi absolument continue de
densité fX : R → R définie par
1
fY (y) = .
π(1 + y 2 )
Montrer que pour tout u ∈]0, 1[, GY (u) = tan (π(u − 1/2)) .
Remarque B.7. Il n’existe pas de formule explicite pour la fonction réciproque généralisée d’une variable
aléatoire de loi gaussienne.
126
Proposition B.5.
Soit Y une variable aléatoire à valeurs réelles et de loi µ. Alors, étant donnée une variable aléatoire U de
loi uniforme sur [0, 1],
Remarque B.8. En général, la fonction GY n’est pas définie en u = 0 et en u = 1. Cependant, comme une
variable aléatoire U de loi uniforme sur [0, 1] vérifie P(U ∈ {0, 1}) = 0, la variable aléatoire X = GY (U ) est bien
définie presque sûrement. Rappelons qu’en Python par exemple, la fonction random() peut renvoyer la valeur 0
(mais pas la valeur 1). Pour éviter une erreur en cas de non définition de GY en 0 (ce qui n’est pas le cas dans
les exemples ci-dessous), on pourra par exemple utiliser la fonction myRandom() définie dans la section B.1.
car U suit la loi uniforme sur ]0, 1[ et FY (t) ∈]0, 1[. Ainsi, X a même fonction de répartition que Y et
donc même loi µ.
Exemple B.7. Soient −∞ < a < b < +∞. Nous avons vu que la fonction de répartition réciproque généralisée
d’une variable aléatoire Y de loi uniforme sur [a, b] est donnée par
Par conséquent, étant donnée une variable aléatoire U de loi uniforme sur [0, 1], la variable aléatoire
X = a + (b − a) U
Python
a,b=5,10
U=random()
X=a+(b-a)*U
127
Exemple B.8. Soit λ > 0. Nous avons vu que la fonction de répartition d’une variable aléatoire Y de loi
exponentielle de paramètre λ > 0 s’écrit
GY (u) = −λ ln(1 − u), ∀u ∈]0, 1[.
Par conséquent, étant donnée une variable aléatoire U de loi uniforme sur [0, 1], la variable aléatoire
X = −λ ln(1 − U )
est de loi exponentielle de paramètre λ.
Voici le code correspondant en Matlab et en Python.
Matlab
lambda=1;
U=rand;
X=-lambda*log(1-U);
Python
lambda=1 #lambda est un mot-clef en Python
U=random()
X=-lmbda*log(1-U)
Exemple B.9. Dans le cas d’une loi discrète µ, on s’aperçoit aisément que la méthode décrite dans la propo-
sition B.2 de la section B.3.2 consiste exactement à simuler une variable aléatoire X de loi µ en posant
X = GY (U ),
où U est une variable aléatoire de loi uniforme sur [0, 1] et GY est la fonction de répartition réciproque généralisée
d’une variable aléatoire Y de loi µ.
Ainsi, g(Y ) 6= 0 presque sûrement et dans l’étape 2 donnée ci-après, la variable aléatoire h(Y ) est bien définie
presque sûrement.
128
Descriptif de la méthode.
Exemple B.10. Nous souhaitons simuler une variable aléatoire X à valeurs dans Rd de loi uniforme sur le
disque de centre (0, 0) et de rayon 1, c’est-à-dire de loi absolument continue de densité f : R2 → R donnée par
1
f (x, y) = 1 2 2 , ∀(x, y) ∈ R2 .
π x +y 61
Pour cela nous allons utiliser des variables aléatoires dans R2 de loi uniforme sur le carré [0, 1] × [0, 1], loi de
densité g : R2 → R donnée par
1
g(x, y) = 1|x|61,|y|61 , ∀(x, y) ∈ R2 .
4
Comme f (x, y) 6 π4 g(x, y), on pose, pour tout (x, y) ∈ [0, 1] × [0, 1],
πf (x, y)
h(x, y) = = 1x2 +y2 61 .
4g(x, y)
Enfin, on remarque qu’une variable aléatoire Y de loi uniforme sur le carré [0, 1] × [0, 1] peut être simulée par
Y = (Y1 , Y2 ), où Y1 et Y2 sont deux variables aléatoires indépendantes de loi uniforme sur [0, 1]. Ce qui nous
permet de mettre au point le code suivant pour simuler une variable aléatoire de loi uniforme sur le disque.
Matlab
h= @(x,y) (x^2+y^2)<=1;
U=rand;
Y1=rand;Y2=rand;
while U>h(Y1,Y2)
U=rand;
Y1=rand;Y2=rand;
end
X=[Y1,Y2];
Python
h=lambda x,y : x**2+y**2 <= 1
U=random()
Y1,Y2=random(),random()
while U>h(Y1,Y2):
U=random()
Y1,Y2=random(),random()
X=[Y1,Y2]
Voici une généralisation de ce calcul si l’on souhaite simuler une variable aléatoire de loi uniforme sur la
boule de Rd de centre 0 et de rayon 1, avec d > 1. Remarquons que, si l’on change h en la fonction indicatrice
d’un autre ensemble (par exemple d’une ellipse ou de l’intersection de deux boules), alors ce code permet de
simuler une variable aléatoire uniforme sur cet ensemble.
129
Matlab
h= @(Y) sum(Y.^2)<=1;
d=10; %d=dimension de l’espace
U=rand;
Y=rand(1,d);
while U>h(Y)
U=rand;
Y=rand(1,d);
end
X=Y;
Python
h=lambda Y : sum([y**2 for y in Y])<=1
d=10 #d=dimension de l’espace
U=random()
Y=[random() for _ in xrange(d)]
while U>h(Y):
U=random()
Y=[random() for _ in xrange(d)]
X=Y
130