0% ont trouvé ce document utile (0 vote)
21 vues37 pages

Integration Et Proba

Transféré par

Mohammed AlGazzeh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
21 vues37 pages

Integration Et Proba

Transféré par

Mohammed AlGazzeh
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UFR MITSIC

Notes de cours

Intégration et probabilités

Bastien Mallein

Version du 20 septembre 2021


2

[email protected]
Laboratoire Analyse, Géométrie et Applications
99, Avenue Jean-Baptiste Clément
93430 Villetaneuse FRANCE
3

Avant-propos

L’objectif de ce cours est de fournir l’essentiel des résultats et méthodes de théorie de


la mesure nécessaires à la fondation de la théorie moderne des probabilités. Il s’adresse à
tout étudiant de L3 ayant déjà suivi un cours de probabilités élémentaire. Ce manuscrit a
été écrit pour être lisible de façon autonome, avec un minimum de références à des ouvrages
extérieurs. La plupart des résultats énoncés ici sont fournis avec une preuve. Les chapitres
sont construits pour s’enchaîner logiquement les uns après les autres, et se finissent par des
exercices d’application directe pour tester sa compréhension.
L’exposition faite ici ne prétend être ni originale ni optimale. Les résultats mentionnés
ici sont en grande partie empruntés à d’autres excellents supports de cours de probabilités
comme Intégration, Probabilités et Processus Aléatoires de Jean-François Le Gall. Si vous
trouvez des fautes et/ou erreurs dans le présent manuscrit, ou si vous avez des suggestions
pour l’améliorer, n’hésitez pas à me contacter à l’adresse [email protected].
4
Table des matières

Introduction 7

1 Espace de probabilité 9
1.1 Univers de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Tribu sur un univers de probabilités . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Variables aléatoires et leurs lois 21


2.1 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Suites infinies de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Espérance d’une variable aléatoire 31

4 Construction de mesures 33

5 Indépendance 35

6 Convergence d’une suite de variables aléatoires 37


6 Table des matières
Introduction
“Un voyage de milliers de kilomètres commence
toujours par un premier pas.”

Lao-Tseu – Tao Te King.

La théorie des probabilités a pour objet la modélisation et l’analyse d’expériences aléa-


toires. Une expérience aléatoire est construite comme un phénomène dont on ne connaît
pas l’issue, mais dont on connaît l’ensemble des éventualités possibles pour cette réalisation
ainsi que la probabilité que ces éventualités se produisent. Un exemple classique d’expérience
aléatoire est le lancer d’un dé à 6 faces, un exemple classique d’expérience aléatoire. Dans
cette expérience, on ne sait pas sur quelle face le dé va tomber, mais on sait que quelle que
soit cette face, ce sera un nombre entre 1 et 6. La probabilité d’observer une face est de 1/6.
Ce cours est divisé en 5 parties de tailles inégales. Dans un premier temps on introduira
la notion d’espace de probabilité, qui sert à définir une expérience aléatoire. Cet espace est
la donnée par l’ensemble des éventuelles réalisations possibles de l’expérience aléatoire, une
famille de sous-ensembles définissant les événements observables, et une mesure de probabilité
donnant la probabilité de ces événements. Ce triplet est la structure essentielle sur laquelle
le reste de la théorie des probabilités est construite.
On introduira ensuite les variables aléatoires, qui peuvent être pensées comme des ob-
servables associées à l’expérience aléatoire. Si le lancer d’un dé implique de nombreuses
considérations (force et angle du lancer, matière sur laquelle le dé roule, humidité de l’air,
etc.), le résultat observé par l’expérimentateur est simplement la face du dé pointant vers le
haut, et peut donc être construit comme une fonction de la réalisation. Les variables aléa-
toires sont les briques élémentaires avec lesquelles des expériences aléatoires peuvent être
combinées pour obtenir les résultats fondamentaux de la théorie des probabilités.
Dans le chapitre 3, on construira l’espérance d’une variable aléatoire réelle, comme la
valeur moyenne attendue par la mesure associée à cette variable. L’espérance est un outil
essentiel, puisque l’espérance de fonctions d’une variable aléatoires suffit à déterminer sa
loi. Cette observation est à la base de la définition d’extensions des probabilités telle que
la théorie des probabilités libres. Elle permet aussi de supprimer les références à l’espace
de probabilité sous-jacent, puisque n’importe quel espace de probabilité suffisamment grand
pour définir la variable aléatoire considérée peut être substitué pour simuler l’expérience
d’intérêt.
On définira ensuite la notion d’indépendance de variables aléatoires, permettant de don-
ner une définition simple pour des suites infinies de variables aléatoires. De très nombreux
modèles aléatoires utilisés en probabilités sont construits comme image d’une famille plus ou
moins grande de variables aléatoires indépendantes.
Enfin, on exposera dans le chapitre 6 les résultats principaux de ce cours : la loi des
8 Introduction

grands nombres et le théorème central limite. La loi des grands nombres est un théorème
fondamental de la théorie des probabilités, puisqu’il justifie a posteriori la notion de probabi-
lité et d’espérance, en observant que l’espérance d’une variable aléatoire est la moyenne des
résultats obtenus sur un grand nombre d’expériences indépendantes. On explorera également
dans ce chapitre les différents modes de convergences ainsi que leurs relations.
CHAPITRE 1

Espace de probabilité
“The theory of probability combines commonsense
reasoning with calculation. It domesticates luck,
making it subservient to reason.”
————
La théorie des probabilités combine des raisonnements de
bon sens avec des formules. Elle dompte la chance,
l’asservissant à la raison.

Ivars Peterson – The Jungles of Randomness.

L’objectif de la théorie des probabilités est la modélisation, l’étude et la prédiction des


résultats d’une expérience aléatoires (lancers de pièces, jets de dés, résultats d’une élection,
temps de désintégration d’un atome radioactif, etc.). Afin de représenter ces expériences aléa-
toires, on utilisera un espace de probabilité, qui peut être défini comme un triplet (Ω, F, P).
Dans ce triplet, Ω est l’univers de probabilité, l’ensemble des réalisations possibles de
l’expérience aléatoire. L’ensemble F est une famille de parties de Ω appelée tribu, dont les
éléments sont les familles de réalisations qu’il est possible d’observer, les événements. Enfin,
la fonction P est une application de F dans [0, 1] associant à chaque événement la probabilité
que cet événement se réalise.
Le reste de ce chapitre est dédié à la définition détaillée des trois éléments Ω, F et P
formant l’espace de probabilité décrit ici. On introduira dans un premier temps la notion
d’univers de probabilité associé à une expérience aléatoire. On explicitera ensuite la notion
de tribu ainsi que ses principales propriétés. On introduira enfin les mesures de probabilité,
qui associent à chaque événement sa probabilité de réalisation.

1.1 Univers de probabilités


L’univers de probabilité est l’espace sur lequel l’expérience aléatoire d’intérêt est modéli-
sée. Cet espace est l’ensemble des éventualités possibles impliquant cette expérience aléatoire.
Un univers de probabilité est construit pour modéliser une expérience aléatoire associée,
considérer différentes expériences aléatoires peut mener à l’utilisation de différents univers
de probabilité.

Définition 1.1.1. Un univers de probabilité Ω est défini comme l’ensemble des résultats pos-
sibles d’une expérience aléatoire. Un élément ω ∈ Ω est appelé une éventualité, et représente
une issue possible de l’expérience aléatoire.
10 Chapitre 1. Espace de probabilité

On dit qu’un univers de probabilité est discret si Ω est fini ou dénombrable. Dans le cas
contraire, on parlera d’univers de probabilité continu. La plupart des univers de probabilité
discrets considérés ici peuvent se représenter comme des sous-ensembles de Zn pour un certain
n ∈ N, tandis que les univers continus sont régulièrement construits comme des intervalles
de Rn , ou comme E N l’ensemble des suites à valeurs dans un espace E contenant au moins
deux points.
Exemple 1.1.2 (Quelques univers de probabilité.).
1. On considère l’expérience aléatoire consistant au jet d’un dé à 6 faces. Un univers de
probabilité associé est Ω(1) = {1, 2, 3, 4, 5, 6}. Chaque entier j ∈ Ω(1) correspond à
l’éventualité « le dé tombe sur la face j ».
2. Ω(2) = {P, F }3 est un univers de probabilités pour l’expérience aléatoire consistant
au jet de 3 pièces de monnaie. L’éventualité (P, F, P ) ∈ Ω correspond à l’événement
« la première pièce tombe sur pile, la seconde sur face et la troisième sur pile ».
3. Ω(3) = {(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)} est un univers de probabi-
lité pour l’expérience aléatoire consistant à observe l’ordre d’arrivée d’une course de
trois coureurs. Chaque éventualité correspond à un ordre d’arrivée.
4. Ω(4) = R+ est un univers de probabilité pour l’expérience consistant à observer la
durée de vie d’une ampoule. L’éventualité t ∈ Ω(4) correspond à une ampoule grillant
au bout d’un temps t.
5. Ω(5) = {P, F }N est un univers de probabilité pour l’expérience consistant au jet d’une
infinité de pièces de monnaie, chaque suite de P et F représentant la suite de résultats
obtenus lors des jets successifs de la pièce.
Les univers Ω(1) , Ω(2) et Ω(3) sont des univers de probabilité discrets, tandis que Ω(4) et Ω(5)
sont des univers de probabilité continus.
Il n’existe pas un unique univers de probabilités permettant de représenter une expérience
aléatoire, et différentes constructions sont possibles. Lorsqu’un univers de probabilité est
l’univers le plus simple possible pour représenter cette expérience aléatoire, on parle d’univers
canonique. Les univers décrits ci-dessus sont tous des univers canoniques. On fera souvent le
choix de poser l’univers de probabilités sans préciser en détails les éventualités qu’il contient
(sauf si on parle de l’univers canonique).
Exemple 1.1.3. L’univers de probabilité Ω = [0, 2π) est un univers de probabilité qui peut
être utilisé pour modéliser l’expérience aléatoire correspondant au jet d’une pièce. Chaque
éventualité θ ∈ Ω correspond à l’orientation de la pièce au moment où elle est rattrapée.
La pièce tombe donc sur pile si θ ∈ [0, π) et sur face si θ ∈ [π, 2π). Cet univers n’est pas
l’univers canonique {P, F } utilisé pour représenter cette expérience.
Si Ω1 est un univers de probabilité permettant de modéliser une première expérience et
Ω2 un univers de probabilité permettant d’en modéliser une seconde, alors l’univers produit
Ω1 × Ω2 forme un univers de probabilité permettant la modélisation de deux expériences
sccessives. Par exemple, l’univers Ω(1) × Ω(2) permet modéliser le lancer d’un dé, suivi du
lancer de trois pièces.
Si Ω est un univers de probabilité permettant de modéliser une première expérience et si
pour tout ω ∈ Ω, Aω est un autre de probabilité, alors ∪ω∈Ω {ω} × Aω permet de modéliser
l’expérience aléatoire consistant à réaliser la première expérience, puis en fonction du résultat
de cette expérience de réaliser l’expérience associée à Aω . Ainsi, l’univers ∪6j=1 {j} × {P, F }j
permet de modéliser l’expérience suivante : on jette un dé, puis un nombre de pièces égal au
résultat du dé.
1.2. Tribu sur un univers de probabilités 11

1.2 Tribu sur un univers de probabilités


Une tribu sur un univers de probabilités Ω est une collection de sous-ensembles de Ω.
La tribu regroupe l’ensemble des événements d’une expérience aléatoire qu’il est possible
d’observer, et auxquels on peut associer une probabilité d’occurrence.
Définition 1.2.1. Une tribu F sur Ω est un sous-ensemble de P(Ω) (l’ensemble des parties
de Ω) qui satisfait les trois axiomes suivants :
1. Ω ∈ F,
2. pour tout A ∈ F, Ac ∈ F,
3. pour toute suite (An , n ≥ 0) ∈ F N , ∪n∈N An ∈ F.
En d’autres termes, F contient l’ensemble total, et est stable par passage au complémentaire
et par union dénombrable.
On rappelle qu’un ensemble I est appelé dénombrable si il existe une injection de I dans
N. Dans le cas contraire on dit que I est indénombrable. Un ensemble I est infini dénombrable
si et seulement si il est possible d’énumérer ses élements par N I = {ej , j ∈ N}.
Exemple 1.2.2. Les ensembles N2 , Z et Q sont dénombrables. Les ensembles {0, 1}N et R sont
indénombrables.
Un ensemble A ∈ F est appelé un événement de la tribu. Pour tout ω ∈ Ω, on appelle un
événement de la forme {ω} un événement élémentaire. Le couple (Ω, F) est appelé un espace
mesuré.
Propriété 1.2.3. Si F est une tribu, alors
1. on a ∅ ∈ F ;
2. F est stable par union fini ;
3. F est stable par intersections finies ou dénombrables.
Démonstration. Soit F une tribu. Par définition, Ω ∈ F, et donc Ωc = ∅ ∈ F.
Soit n ∈ N et B1 , . . . Bn des événements de F. On pose Bn+1 = Bn+2 = · · · = ∅. Dans ce
[ n
[
cas, par définition, on a également Bk = Bk ∈ F, ce qui montre que F est stable par
k≥1 k=1
union finie.
Enfin, si (An , n ≥ 0) est une suite d’événements de F, alors pour tout n ∈ N, on a
aussi Acn ∈ F. Par conséquent n∈N Acn appartient à F, donc c’est également le cas de
S

( n∈N Acn )c = n∈N An . Cela montre que F est stable par intersection dénombrable. En
S T

posant An+1 = An+2 = · · · = Ω, on montre également la stabilité de F par intersections


finies.

Une tribu sur Ω est utilisée pour modéliser une connaissance accessible sur l’expérience
aléatoire. Les ensembles A ∈ F représentent alors les événements pour lesquels, avec les
observations considérées sur l’expérience, on peut répondre à la question suivante : « Est-ce
que l’éventualité ω ∈ Ω appartient à A ou à Ac ? ». On peut ainsi utiliser plusieurs tribus
pour modéliser différents niveaux de connaissances sur une même expérience aléatoire.
Si E ⊂ F sont deux tribus sur Ω, on dit que E est une sous-tribu de F. La tribu E est
alors plus grossière (correspond à une connaissance moins détaillée), et la tribu F plus fine
(correspond à une connaissance plus précise).
Exemple 1.2.4 (Quelques tribus classiques.).
1. La tribu F = {∅, Ω} est appelée la tribu triviale, et correspond à l’absence totale de
connaissance sur un événement.
12 Chapitre 1. Espace de probabilité

2. Pour A ⊂ Ω, la tribu F = {∅, A, Ac , Ω} est une tribu correspondant à l’observation


de l’événement A.
3. La tribu F = P(Ω) est la tribu la plus fine définissable, et correspond à l’observation
de l’intégralité de l’expérience aléatoire.
4. Dans l’exemple 1.1.3, la tribu associée à l’observation du côté duquel la pièce est
tombée est donnée par F = {∅, [0, π), [π, 2π), Ω} .
Exemple 1.2.5 (Différentes tribus pour une même exéprience aléatoire). . On considère l’ex-
périence suivante : on lance un dé à 6 faces. On communique à un premier observateur la
parité de la face du dé, et à un second si ce résultat est plus grand que 4 ou plus petit
que 3. L’univers de probabilité associé à cette expérience est Ω = {1, 2, 3, 4, 5, 6}. Les tribus
correspondant aux mesures des différents observateurs sont

F1 = {∅, {1, 3, 5}, {2, 4, 6}, {1, 2, 3, 4, 5, 6}}


F2 = {∅, {1, 2, 3}, {4, 5, 6}, {1, 2, 3, 4, 5, 6}} .

Une tribu étant un ensemble de sous-ensembles de Ω, on peut lui appliquer les opérations
ensemblistes d’union et d’intersection. Il est notable que si une union de tribus n’est pas
toujours une tribu, la notion de tribu est stable par intersections.
\
Proposition 1.2.6. Soit (Fi )i∈I une famille de tribus sur Ω, alors C = Fi est une tribu.
i∈I

Démonstration. On montre que C satisfait les trois axiomes des tribus. Observons tout
d’abord que pour tout i ∈ I, Ω ∈ Fi , par conséquent Ω ∈ C.
Considérons maintenant un élément A ∈ C. Pour tout i ∈ I, on a A ∈ Fi , donc Ac ∈ Fi .
Par conséquent, on a également Ac ∈ ∩i∈I Fi = C.
Enfin, soit (An ) ∈ C N . Pour tout i ∈ I, on a également ∪n∈N An ∈ Fi . Par conséquent
∪n∈N An ∈ C. On a donc bien montré que C est une tribu.

La proposition 1.2.6 permet de définir la plus petite tribu vérifiant une propriété, qui est
définie comme étant l’intersection de toutes les tribus satisfaisant cette propriété. On définit
en particulier la notion de tribu engendrée.

Définition 1.2.7 (Tribu engendrée). Pour toute famille A ⊂ P(Ω) de sous-ensembles de Ω,


la tribu engendrée par A est définie par
\
σ(A) := F.
F tribu,
A⊂F

C’est la plus petite tribu qui contient tous les événements de A.


Une partie génératrice de F est un ensemble A ⊂ P(Ω) tel que σ(A) = F.

Soient E et F deux tribus sur Ω. On note E ∨ F := σ(E ∪ F) la tribu engendrée par F


et G. Cette tribu est généralement plus grande que E ∪ F. Elle correspond à la connaissance
obtenue en croisant celle associé aux deux tribus E et F.
Exemple 1.2.8. En reprenant les notations de l’exemple 1.2.5, la tribu F1 ∨ F2 représente la
connaissance que les observateurs obtiennent lorsqu’ils mettent en commun leurs informa-
tions. On a
F1 ∨ F2 = σ ({{1, 3}, {2}, {4, 6}, {5}}) ,
qui contient 16 événements. C’est un ensemble strictement plus grand que F1 ∪ F2 , qui
contient 6 éléments.
1.2. Tribu sur un univers de probabilités 13

Un cas particulier de tribu engendrée est la tribu produit, définie sur l’espace produit de
deux espaces mesurés.

Définition 1.2.9 (Tribu produit). Soient (E, E) et (F, F) deux espaces mesurables. On peut
munir le produit E × F de la tribu produit

E ⊗ F = σ (A × B; A ∈ E, B ∈ F) .

Les ensembles de la forme A × B sont appelés les pavés mesurables.

La tribu engendrée par l’ensemble des ouverts d’un espace topologique est la tribu boré-
lienne de cette ensemble.

Définition 1.2.10 (Tribu borélienne). Si E est un espace topologique, on appelle tribu


borélienne sur E la tribu engendrée par l’ensemble O des ouverts de E. C’est également la
tribu engendrée par l’ensemble des boules ouvertes, ou l’ensemble des boules fermées.

Intermède : les classes monotones


Une tribu, en temps que famille de sous-ensembles de Ω, satisfait trois propriétés dont la
troisième (stabilité par union dénombrable) est relativement restrictive. Il peut être complexe
de démontrer cette troisième propriété en pratique. On peut alors se tourner sur la notion
plus générale de classe monotone, avec laquelle il peut être plus simple de travailler.

Définition 1.2.11. Une classe monotone C sur Ω est une partie de P(Ω) satisfaisant les
propriétés suivantes :
1. Ω ∈ F,
2. pour tout A, B ∈ F tel que A ⊂ B, B\A ∈ F,
3. pour toute suite croissante d’événements (An , n ≥ 0) ∈ F N (i.e. telle que Ai ⊂ Aj
pour tout i < j), on a ∪n∈N An ∈ F.

Notons que l’on peut écrire

B\A = B ∩ Ac = (B c ∪ A)c ,

donc si A et B appartiennent à la tribu E, alors B\A ∈ E. Ainsi la différence entre une


tribu et une classe monotones est que, contrairement à une tribu, une classe monotone est
uniquement stable par union croissante.

Remarque 1.2.12.
1. Toute tribu est une classe monotone.
2. Une intersection de classes monotones est une classe monotone. On peut donc intro-
duire la notion de classe monotone engendrée par A ⊂ P(Ω), définie par
\
M(A) := C.
C classe monotone,
A⊂C

3. On a M(A) ⊂ σ(A).

Le résultat suivant justifie l’introduction de la notion de classe monotone, en la reliant à


celle de tribu. Il montre que sous certaines hypothèses satisfaites par l’ensemble générateur A,
la classe monotone engendrée par A est une tribu. C’est alors la plus petite tribu contenant A.
14 Chapitre 1. Espace de probabilité

Théorème 1.2.13 (Lemme des classes monotones). Pour toute famille A de sous-ensembles
n
\
de Ω qui vérifie ∀n ∈ N, ∀A1 , . . . An ∈ A, Ai ∈ A, on a M(A) = σ(A).
i=1

Démonstration. Notons pour commencer qu’il est immédiat que M(A) ⊂ σ(A), puisque
toute tribu est également une classe monotone. On montre le lemme des classes monotones
en prouvant que M(A) est une tribu. Pour ce faire, on montre dans un premier temps que
M(A) est stable par intersections finies.
Soit A ∈ A, on pose MA = {B ∈ M(A) : A ∩ B ∈ M(A)}. On observe alors que MA
est une classe monotone, en effet :
1. on a Ω ∩ A = A ∈ A ⊂ M(A), donc Ω ∈ MA ;
2. si B, C ∈ MA avec B ⊂ C, on a A ∩ B et A ∩ C ∈ M(A), par conséquent on a
également (B\C) ∩ A = (B ∩ A)\(C ∩ A) ∈ M(B), d’où B\C ∈ MA ;
3. enfin, si (Bn ) est une suite croissante d’événements de MA , on a A ∩ Bn ∈ M(A)
pour tout n ∈ N, donc A ∩ ∪n∈N Bn = ∪n∈N A ∩ Bn ∈ M(A), donc ∪n∈N Bn ∈ MA .
Comme A est stable par intersections finies, on a A ⊂ MA . Puisque M(A) est la plus petite
classe monotone contenant A, on obtient M(A) ⊂ MA . On a ainsi montré que pour tout
A ∈ A et B ∈ M(A), A ∩ B ∈ M(A).
On se fixe ensuite A ∈ M(A), et on pose MA = {B ∈ M(A) : A ∩ B ∈ M(A)}. Par
le même raisonnement que précédemment, on observe que MA est une classe monotone, et
donc M(A) = MA . Cela montre que pour tout A, B ∈ M(A), A ∩ B ∈ M(A).
Plus généralement, si A1 , . . . An ∈ M(A), on a

A1 ∩ A2 ∩ · · · ∩ An = (A1 ∩ A2 ) ∩ A3 ∩ · · · ∩ An ,

et A1 ∩ A2 ∈ M(A). Donc par une récurrence immédiate, on obtient que M(A) est stable
par toute intersection finies.
Pour compléter cette preuve, on montre qu’une classe monotone stable par intersections
finies est une tribu. En effet, par passage au complémentaire, pour tout B1 , . . . Bn ∈ M(A),
on a B1 ∪ · · · ∪ Bn ∈ M(A). Soit (Bn ) une suite (quelconque) d’événements de M(A), on
pose Cn = B1 ∪ · · · ∪ Bn . Donc (Cn ) est une suite croissante d’événements de M(A). Par
propriété de classe monotone, on obtient ∪n∈N Cn = ∪n∈N Bn ∈ M(A), ce qui montre la
stabilité de M(A) par union dénombrable.
Finalement, puisque M(A) est une tribu contenant A, on en déduit que σ(A) ⊂ M(A),
ce qui, au vu de l’inclusion observée en début de preuve, permet de conclure à l’égalité entre
σ(A) et M(A).

Le lemme des classes monotones est également souvent employé sous la forme suivante :
« toute famille d’événements –contenant l’espace total– stable par passage au complémen-
taire, union croissante et intersection finie est une tribu ».
On peut utiliser ce théorèe pour démontrer que tous les événements d’une tribu satisfont
une propriété : on montre que la propriété est satisfaite par une famille génératrice stable
par intersections finies, puis que l’ensemble des événements satisfaisant cette propriété forme
une classe monotone, ce qui permet de conclure.

1.3 Loi de probabilité


Une loi de probabilité forme le dernier élément constitutif d’un espace de probabilité.
Étant donné un espace mesuré (Ω, F), une loi de probabilité mesure la probabilité d’occurrence
de chaque événement de F. Dans une vision fréquentiste de la théorie des probabilités, elle
1.3. Loi de probabilité 15

représente la proportion asymptotique d’expériences pour lesquelles cet événement est réalisé
lorsqu’on répète un grand nombre de fois cette expérience aléatoire. Lorsque l’expérience ne
peut pas être répétée (météo du lendemain au vu des conditions actuelles, résultats d’une
élection au vu des sondages actuels, etc.), cette probabilité peut représenter le degré de
croyance de réalisation de cet événement.
On verra au chapitre 6 que la théorie moderne des probabilités telle qu’exposée ici, et
issue des travaux de Kolmogorov, est bien en accord avec l’interprétation fréquentiste de
la probabilité. On verra également au chapitre 5 la formule de Bayes, qui est à la base de
l’interprétation en terme de degré de croyance de la probabilité d’un événement.

Définition 1.3.1. Une mesure (ou loi) de probabilité sur l’espace mesuré (Ω, F) est une
application F → R satisfaisant les propriétés suivantes
1. P(Ω) = 1,
2. pour tout A ∈ F, P(A) ∈ [0, 1],
3. pour toute suite (An , n ≥ 0) ∈ F N d’événements deux à deux disjoints (i.e. tels que
Ai ∩ Aj = ∅ pour tout i 6= j), P(∪n∈N An ) = n∈N P(An ).
P

Remarque 1.3.2. Grâce à la 3e propriété, on observe immédiatement que si Ω est discret


et F = P(Ω), alors pour tout A ⊂ Ω, on a
X
P(A) = P (∪ω∈A {ω}) = P({ω}).
ω∈A

Par conséquent, une mesure de probabilité sur un espace discret est caractérisée par sa
fonction de masse, définie par ω ∈ Ω 7→ P({ω}).

Exemple 1.3.3 (Quelques exemples de mesures de probabilités.).


1. Pour Ω = {1, . . . , n} et F = P(Ω), les mesures définies par
!
1 1 n
∀k ∈ Ω, P(k) = et ∀k ∈ Ω, Q(k) = n
n 2 k

sont des mesures de probabilités.


2. Pour tout a ∈ Ω, la mesure définie par
(
1 si a ∈ A
P(A) =
0 sinon

est une mesure de probabilité qu’on appelle la mesure de Dirac en a et qu’on note δa .

Propriété 1.3.4. Une mesure de probabilité P sur (Ω, F) satisfait les égalités suivantes :
1. P(∅) = 0 ;
2. pour tout A ∈ F, P(Ac ) = 1 − P(A) ;
3. pour tout A, B ∈ F tels que A ⊂ B, P(A) ≤ P(B).
4. pour tout A, B ∈ F, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).

Démonstration. On observe pour commencer ∅ = ∅ ∪ ∅, et par conséquent

P(∅) = P(∅) + P(∅).

On en déduit immédiatement que P(∅) = 0.


16 Chapitre 1. Espace de probabilité

De même pour tout A ∈ F, on a

1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),

d’où P(Ac ) = 1 − P(A).


Soit A, B ∈ F tel que A ⊂ B. On a alors

P(B) = P((B ∩ A) ∪ (B ∩ Ac )) = P(B ∩ A) + P(B ∩ Ac ) = P(A) + P(B ∩ Ac ) ≥ P(A).

Enfin, pour tout A, B ∈ F, on peut écrire

P(A ∪ B) = P((A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B))


= P(A ∩ B c ) + P(A ∩ B) + P(Ac ∩ B)
= (P(A ∩ B c ) + P(A ∩ B)) + (P(A ∩ B) + P(Ac ∩ B)) − P(A ∩ B)
= P(A) + P(B) − P(A ∩ B),

ce qui complète la preuve.

Définition 1.3.5. Un événement A ∈ F tel que P(A) = 0 est dit négligeable. Une propriété
vraie pour tout ω ∈ B tel que B c est négligeable est dite vraie presque sûrement (ou p.s.).

Proposition 1.3.6 (Convergence monotone). Soit P une mesure de probabilité sur (Ω, F).
On considère une suite croissante (An , n ≥ 0) d’événements de F. On a
 
[
P An  = lim P(An ).
n→∞
n≥1

De la même façon, si (Bn , n ≥ 0) est une suite décroissante d’événements de F, on a


 
\
P Bn  = lim P(Bn ).
n→∞
n≥1

Démonstration. Pour tout n ∈ N, on pose Rn = An+1 \ An . On a alors, pour tout n ∈ N

n
[ n−1
[
An = Aj = A1 ∪ Rj ,
j=1 j=1

avec (A1 , R1 , . . .) deux à deux disjoints. Grâce à la σ-additivité de P, on a donc


 
n
X [ ∞
X
P(An ) = P(A1 ) + P(Rj ) et P  Aj  = P(A1 ) + P(Rj ) ≤ 1.
j=1 j≥1 j=1

La série de terme positifs ayant un plus grand élément borné par 1, elle converge donc. En
utilisant que P(Rj ) = P(Aj + 1) − P(Aj ), on obtient
 
[ n
X
P Aj  = lim P(A1 ) + P(Aj+1 ) − P(Aj ) = lim P(An ),
n→∞ n→ ∞
j≥1 j=1

par télescopage.
1.3. Loi de probabilité 17

Pour déterminer la valeur de P, il est souvent suffisant de donner la valeur de P(A) pour
A ∈ A une partie relativement petite de la tribu F. C’est le cas dans la remarque 1.3.2 :
dans un univers discret, il suffit de donner la valeur de P sur les singletons pour caractériser
(définir de façon unique) la mesure de probabilité P. Dans le cas d’un univers continu, on
utilise le résultat suivant.

Lemme 1.3.7. Soit P et Q deux mesures de probabilités sur (Ω, σ(A)). Si la famille d’évé-
nements A est stable par intersections finies, et si P(A) = Q(A) pour tout A ∈ A, alors
P = Q.

Ainsi, pour définir la loi P sur (Ω, F), il suffit de donner la valeur de P(A) pour tout
A ∈ A, où A est une famille stable par intersection finie génératrice de F. Notons que définir
P sur A garantit bien l’unicité de la loi décrite, elle ne garantit pas son existence.

Démonstration. On note G = {A ∈ σ(A) : P(A) = Q(A)}. L’objectif de cette preuve est de


montrer que G = σ(A). Pour ce faire, on montre que G est une classe monotone qui contient
A. Par définition, on aura alors M(A) ⊂ G, et grâce au théorème 1.2.13, on en déduira que
σ(A) ⊂ G, ce qui complétera la preuve.
On observe pour commencer que P(Ω) = 1 = Q(Ω), par conséquent Ω ∈ G. Soit A, B ∈ G
tel que A ⊂ B, on a P(B\A) = P(B) − P(A) = Q(B) − Q(A) = Q(B\A), donc B\A ∈ G.
Enfin, si (An ) est une suite croissante d’événements de G, par la proposition 1.3.6 on a :

P(∪n∈N An ) = lim P(An ) = lim Q(An ) = Q(∪n∈N An ).


n→∞ n→∞

On a donc ∪n∈N An ∈ G, ce qui montre bien que G est une classe monotone, ce qui complète
cette démonstration.

Exemple 1.3.8. On pose Ω = {1, . . . , 6}N l’ensemble des suites d’entiers entre 1 et 6. Cela
correspond à l’expérience du lancer d’une infinité de dés à 6 faces. On lui associe la tribu F
sur Ω engendrée par les ensembles Πi1 ,...in = {(i1 , . . . , in , j1 , j2 , . . .), (jk ) ∈ {1, . . . , 6}N } pour
(i1 , . . . in ) ∈ {1, . . . , 6}n , qui correspond à l’observation des n premiers lancers pour tout n.
Alors, une mesure de probabilités P sur (Ω, F) est caractérisée P(Πi1 ,...in ) pour n ∈ N et
(i1 , . . . in ) ∈ {1, . . . , 6}n .
Exemple 1.3.9 (Mesure de Lebesgue). La mesure de Lebesgue sur [0, 1] est la seule mesure
de probabilité tel que P([a, b]) = b − a pour tout 0 ≤ a ≤ b ≤ 1. L’unicité de cette mesure
est une conséquence du lemme 1.3.7. On montera l’existence de la mesure de Lebesgue au
chapitre 4. Dans l’intervalle, on supposera l’existence de cette mesure de Lebesgue.
Une mesure de probabilité peut être associée à une notion de mesure, ou « masse »,
d’un ensemble. Pour chaque événement A ∈ F, la fonction P donne la masse associée à
cet événement. La masse totale est normalisée à 1, et la masse de la réunion d’événements
disjoints est égale à la somme des masses. Une notion plus générale de mesure σ-finie est
définie comme suit.

Définition 1.3.10. Une mesure sur l’espace mesuré (E, E) est une application µ : E → R
satisfaisant les propriétés suivantes :
— pour tout A ∈ F, µ(A) ≥ 0,
— pour toute suite (An , n ≥ 0) ∈ F N d’événements deux à deux disjoints, µ(∪n∈N An ) =
P
n∈N µ(An ).
18 Chapitre 1. Espace de probabilité

Exercices
Exercice 1.1. Construire un espace de probabilité associé aux expériences aléatoires suivantes.
1. On considère une urne contenant 5 boules numérotées de 1 à 5, et on tire successive-
ment 2 boules dans cette urne au hasard.
2. On considère deux urnes, l’une contenant 3 boules numérotées de A à C, et l’autre
contenant 5 boules numérotées de A à E. On choisit au hasard une urne, dans laquelle
on tire au hasard une boule.
3. On lance un dé à 6 faces le nombre de fois nécessaires pour obtenir un 6, et on
s’intéresse au nombre de lancers qui a été nécessaire.

Exercice 1.2. On note Ω = {1, . . . , 6}2 l’univers de probabilité correspondant au lancer de


deux dés à 6 faces.
1. On note A la tribu correspondant à l’observation de la parité du résultat du premier
dé. Décrire la tribu A.
2. On note B la tribu correspondant à l’observation du résultat du second dé. Donner
une partie génératrice de B.
3. Décrire la tribu A ∨ B. À quelle type de connaissance sur l’expérience aléatoire
correspond-t-elle ? Quelle tribu C peut-on ajouter pour obtenir la connaissance com-
plète du résultat des deux dés.

Exercice 1.3. Soit Ω un univers de probabilité, on note (A1 , . . . An ) une partition de Ω, c’est-
à-dire une famille d’événements deux à deux disjoints tels que nj=1 Aj = Ω. Quel est le
S

cardinal de σ(A1 , . . . An ) ?

Exercice 1.4. On jette successivement trois pièces de monnaie, et on s’intéresse aux côtés
qu’elles montrent.
1. Construire un espace de probabilité associé à cette expérience aléatoire.
2. On considère les trois événements A : « la première pièce est tombée sur face », B :
« la deuxième pièce est tombée sur face » et C : « la troisième pièce est tombée sur
face ».
(a) Donner une description de l’événement A ∪ B c .
(b) Écrire, grâce aux événements A, B et C et des opérations ensemblistes l’événement
D : « la première et la troisième pièce montrent des côtés différents ».
(c) Calculer la probabilité des événements A ∪ B c et D.
3. Une deuxième personne arrive et observe le résultat des trois pièces de monnaie sur
la table sans connaître l’ordre dans lequel elles ont été lancées.
(a) Donner la tribu G associée à la connaissance de cette seconde personne.
(b) Calculer la probabilité des différents événements de cette tribu.
(c) L’événement B appartient-t-il à G ? Et A ∪ B ∪ C ?

Exercice 1.5 (Union et intersection de tribus). 1. Montrer qu’une intersection de tribus


est une tribu, mais qu’une union de tribus n’est pas forcément une tribu.
2. Pour chaque entier n soit Fn la tribu de N engendrée par l’ensemble {0}, {1}, . . . , {n}.
Montrer que (Fn ) est une suite croissante de tribus mais que Fn n’est pas une tribu.
S
1.3. Loi de probabilité 19

Exercice 1.6 (Restriction d’une tribu). Soient F une tribu sur E et B un élément de F.
Montrer que FB := {A ∩ B, A ∈ F} est une tribu de B.
Exercice 1.7 (Tribu image réciproque). Soient (E, E) et (F, F) des espace mesurable. Soit
f : E → F une application.
1. On définit
A := {f −1 (B) : B ∈ F}.
Montrer que E est une tribu sur E. On l’appelle la tribu image réciproque de F par
f.
2. On définit
B := {B ⊂ F : f −1 (B) ∈ E},
montrer que B est une tribu.
Exercice 1.8 (Tribu dyadique). Pour tout n ∈ N, on note

Bn = σ ({(k/2n , (k + 1)/2n ], 0 ≤ k ≤ 2n − 1}) .

1. Décrire la tribu Bn .
2. Montrer que la tribu engendrée par ∪n∈N Bn est la tribu des boréliens de l’intervalle
[0, 1].
Exercice 1.9 (Limsup et liminf de suites). Soit (an )n≥0 une suite de réels, on pose

lim sup an = lim sup ak et lim inf an = lim inf ak .


n→∞ n→∞ k≥n n→∞ n→∞ k≥n

1. Montrer que lim supn→∞ an et lim inf n→∞ an sont respectivement la plus grande et la
plus petite valeur d’adhérence de la suite (an )n≥0 , en autorisant les valeurs d’adhé-
rence infinies.
2. Vérifier que an converge vers ` ∈ R ∪ {−∞, +∞} si et seulement si

lim sup an = lim inf an = `.


n→∞ n→∞

3. Soit (bn )n≥0 une autre suite de réels. Montrer que

lim sup (an + bn ) ≤ lim sup an + lim sup bn .


n→∞ n→∞ n→∞

A-t-on toujours lim sup(an + bn ) = lim sup an + lim sup bn ?


n→∞ n→∞ n→∞
20 Chapitre 1. Espace de probabilité
CHAPITRE 2

Variables aléatoires et leurs lois


“Le nom seul de calcul des probabilités est un
paradoxe : la probabilité, opposée à la certitude,
c’est ce qu’on ne sait pas, et comment peut-on
calculer ce que l’on ne connaît pas ?”

Henri Poincaré – La science et l’hypothèse.

On supposera fixé, dans tout le reste de ce cours, un univers de probabilités (Ω, F, P).
L’objectif de ce chapitre est d’introduire la notoin de variable aléatoire, qui est un objet
central de la théorie des probabilités. Une variable aléatoire est construite comme une “ob-
servable” sur une expérience aléatoire, c’est-à-dire une valeur numérique associée au résultat
de cette expérience, révélant une information partielle sur cette expérience.
La notion de variable aléatoire permet de construire de nombreux raisonnements sans
nécessité de définir explicitement, ou de construire, l’espace de probabilité associé à l’expé-
rience aléatoire, ce qui peut être fastidieux ou compliqué. Si la manipulation des variables
aléatoires demande quelques précautions, elle permet aussi de simplifier grandement l’écri-
ture des raisonnements.
On introduira tout d’abord la notion de fonction mesurable et de variable aléatoire, ainsi
que la loi d’une variable aléatoire. On s’intéressera ensuite à des versions multidimension-
nelles, les vecteurs aléatoires et les suites de variables aléatoires. Enfin, on introduira quelques
lois de probabilité usuelles ainsi que leurs principales propriétés.

2.1 Fonctions mesurables


Une variable aléatoire est une fonction de Ω dans R satisfaisant une propriété permettant
de calculer la probabilité que cette variable vérifie une propriété : la mesurabilité. On introduit
dans un premier temps la notion de fonction mesurable.

Définition 2.1.1. Soit (E, E) et (F, F) deux espaces mesurés. On dit que l’application
f : E → F est mesurable si f −1 (A) ∈ E pour tout A ∈ F.
Soit E une sous-tribu de E, on dit que f est mesurable par rapport à E si f −1 (A) ∈ E
pour tout A ∈ F.

La mesurabilité est une propriété issue de la théorie de la mesure. Elle peut être inter-
prétée comme la marque que la connaissance fournie par E (ou E) est suffisante pour donner
la valeur de f . Nous allons toutefois citer quelques propriétés permettant de montrer qu’une
fonction est mesurable.
22 Chapitre 2. Variables aléatoires et leurs lois

Proposition 2.1.2. Soient (E, E) et (F, F) deux espaces mesurés. Une fonction f : E → F
est mesurable si et seulement si il existe C ⊂ F tel que σ(C) = F et f −1 (C) ⊂ A.
Démonstration. Soit G = {B ∈ B : f −1 (B) ∈ A}. On observe que G est une tribu, et de plus
C ⊂ G. On en déduit B = σ(C) ⊂ G, et donc f est mesurable.

Exemple 2.1.3. 1. Lorsque (F, F) est (R, B(R)), il suffit de montrer que f −1 (]−∞, a[) ∈ E
pour tout a ∈ R.
2. Lorsque F est la tribu borélienne de F, il suffit de montrer que f −1 (O) ∈ E pour tout
ouvert O de F .
Proposition 2.1.4. Soit (E, E), (F, F) et (G, G) trois espaces mesurés.
1. Si f : E → F et g : F → G sont mesurables, alors g ◦ f est mesurable de E dans G.
2. Si f : E → F et g : E → G sont mesurables, alors (f, g) : E → F × G est mesurable
par rapport à la tribu produit F ⊗ G.
Démonstration. 1. Soit A ∈ G, on observe que g −1 (A) ∈ F par mesurabilité de g. On en
déduit donc bien que
(g ◦ f )−1 (A) = f −1 (g −1 (A)) ∈ E,
par mesurabilité de F .
2. Par proposition 2.1.2, il suffit de montrer que pour tout pavé mesurable A×B ∈ F ⊗G,
on a
(f, g)−1 (A, B) = f −1 (A) ∩ g −1 (B) ∈ E,
ce qui est immédiat par stabilité de E par intersections finies.

Le cas d’espaces topologiques munis de la tribu borélienne permet de vérifier aisément la


mesurabilité d’un grand nombre de fonctions.
Proposition 2.1.5. Soient E et F deux espaces topologiques. On note E et F les tribus
boréliennes associées à E et F . Toute fonction continue de E dans F est alors mesurable.
Démonstration. Soit f une fonction continue de E dans F . Par définition, pour tout O
ouvert de F , f −1 (O) est un ouvert de E. Par proposition 2.1.2, on en conclut que f est
mesurable.

Dans le cas des fonctions à valeurs réelles, de nombreuses opérations sur les fonctions
préservent la mesurabilité.
Propriété 2.1.6. Soit (E, E) un espace mesuré, et R est équipé de la tribu borélienne.
1. Si A ∈ E, la fonction 1A : E → R est mesurable.
2. Si f et g sont des fonctions mesurables à valeurs dans R, alors f g et λf + µg sont
des fonction mesurable pour tout λ, µ ∈ R.
3. Si (fn , n ≥ 0) est une suite de fonctions mesurables, alors supn∈N fn et lim supn→∞ fn
sont des fonctions mesurables.
Démonstration. 1. On observe que pour tout ouvert O de R, on a
1−1 c
A (O) ∈ { ∅, A, A , E} ⊂ E,

donc 1A est mesurable.


2. Ce sont des conséquences immédiates des propositions 2.1.4 et 2.1.5. Ainsi par exemple
f g est la composition de l’applications (f, g) par (x, y) 7→ xy, qui sont toutes deux mesurables
(la première comme couple de fonctions mesurables, la seconde comme fonction continue).
2.2. Variables aléatoires 23

Sauf mention explicite du contraire, R est toujours muni de la tribu borélienne. Grâce
aux propriétés précédentes, on obtient que toute fonction continue, toute limite de fonction
continue, tout maximum de fonction continue sont des fonctions mesurables. En pratique,
la plupart des fonctions numériques sont mesurables par rapport à la tribu borélienne. Au
contraire, la construction de fonctions non-mesurables est complexe et dépasse le cadre de
ces notes.
Remarque 2.1.7. Grâce aux propriétés précédentes, on observe que si (An , n ∈ N) est
une suite d’événements deux à deux disjoints et (λn , n ∈ N) est une suite de réels, alors la
fonction f = n∈N λn 1An est une fonction mesurable de E dans R qu’on appelle fonction
P

étagée.

2.2 Variables aléatoires


On introduit maintenant la notion de variable aléatoire, un objet central de la théorie
des probabilités.
Définition 2.2.1. Une variable aléatoire est une fonction mesurable X : (Ω, F) → (R, B(R)).
En d’autres termes, une variable aléatoire est une fonction mesurable d’un espace de
probabilité dans R. Une variable aléatoire est souvent définie à un événement de probabilité
négligeable près (en particulier si Ω est un univers continu). Par conséquent, on dira par
exemple qu’une variable aléatoire est positive si X ≥ 0 p.s., i.e.
P({ω ∈ Ω : X(ω) < 0}) = 0.
Pour simplifier les notations, on écrira souvent pour A ∈ B(R) :
P({ω ∈ Ω : X(ω) ∈ A}) = P(X −1 (A)) =: P(X ∈ A).
Exemple 2.2.2.
1. On considère l’univers de probabilité (Ω, F, P), avec Ω = {1, . . . , 6}2 , la tribu F =
P(Ω) et P({(i, j)}) = 1/36, la fonction X : (i, j) 7→ i + j est une variable aléatoire
modélisant le résultat obtenu en sommant le lancer de deux dés à 6 faces.
2. On considère l’univers de probabilité ([0, 1], B([0, 1]), λ), où λ est la mesure de Le-
besgue sur [0, 1]. La fonction X : ω 7→ ω est une variable aléatoire modélisant le
résultat obtenu en tirant un nombre au hasard entre 0 et 1. C’est un simple exercice
de montrer que X 6∈ Q p.s.
La loi d’une variable aléatoire est définie comme la mesure image de la mesure P par
l’application X. C’est une mesure de probabilité sur R, munie de la tribu borélienne.
Définition 2.2.3. Soit X une variable aléatoire, la loi de X est la mesure de probabilité sur
(R, B(R)) définie par
µX (A) := P(X −1 (A)) = P(X ∈ A).
Le support de X est le plus petit fermé tel que µX (F ) = 1, qu’on peut définir comme
\
Supp(X) = Supp(µX ) := F.
F fermé,
µX (F )=1

Le support de la loi de la variable aléatoire X décrit l’ensemble des valeurs prises par la
variable aléatoire X, à un ensemble négligeable près. Pour éviter toute référence à l’univers
de probabilités, une variable aléatoire X est souvent décrite à partir de sa loi de probabilité.
Grâce au lemme des classes monotones, on peut caractériser cette loi en donnant sa valeur
pour une famille de sous-ensembles de R bien choisis.
24 Chapitre 2. Variables aléatoires et leurs lois

Propriété 2.2.4. La loi de X est caractérisée par P(X ∈ A) pour tout intervalle ouvert (ou
fermé) A ⊂ R.
La loi de X est caractérisée par P(X ≤ x) pour tout x ∈ R.

Démonstration. Ces caractérisations de la loi de X sont des conséquences immédiates du


théorème des classes monotones, en particulier du Lemme 1.3.7. Les familles d’intervalles
considérées sont stables par intersection finies, et engendrent la tribu borélienne entière.
Par exemple en considérant A = {] − ∞, x], x ∈ R}, on observe que pour tout a < b,
] − ∞, b]\] − ∞, a] =]a, b]. Puis, en choisissant une suite (bn , n ∈ N) croissant vers b, on a
∪n∈N ]a, bn ] =]a, b[. Par conséquent, la tribu engendrée par A contient tous les intervalles
ouverts. Tout ouvert de R pouvant être construit comme union dénombrable d’intervalles
ouverts, on en déduit que σ(A) contient tous les ouverts de R, et donc est une tribu plus fine
que la tribu borélienne sur R.
On en déduit que si deux lois de probabilités sur R prennent les mêmes valeurs sur A,
alors elles sont égales. Cela montre bien que la loi de X est caractérisée par P(X ∈ A) pour
tout A ∈ A.

Cette propriété permet d’introduire une fonction caractérisant la loi d’une variable aléa-
toire réelle : la fonction de répartition. Avec un léger abus de notation, on parlera également
de fonction de répartition d’une variable aléatoire pour parler de la fonction de répartition
de sa loi.

Définition 2.2.5. La fonction de répartition de la loi de probabilité µ sur R est la fonction

R −→ [0, 1]
F :
x 7−→ µ((−∞, x]).

La fonction de répartition de la variable aléatoire X est la fonction

R −→ [0, 1]
F :
x 7−→ P(X ≤ x).

Propriété 2.2.6. Une fonction F est la fonction de répartition d’une variable aléatoire réelle
si et seulement si
1. F est croissante ;
2. F est continue à droite ;
3. limx→−∞ F (x) = 0 et limx→∞ F (x) = 1.

Démonstration. Soit X une variable aléatoire réelle, on pose F : x 7→ P(X ≤ x). On observe
immédiatement que pour tout a < b, on a {X ≤ a} ⊂ {X ≤ b}, donc F (a) ≤ F (b), ce qui
montre que F est croissante. Soit (bn ) une suite décroissante de réels convergeant vers b. Par
convergence monotone (proposition 1.3.6), on a

lim F (bn ) = lim P(X ≤ bn ) = P (∩n∈N {X ≤ bn }) = P(X ≤ b) = F (b),


n→∞ n→∞

donc F est continue à droite. En utilisant à nouveau la convergence monotone, on obtient


également
lim F (x) = P(X ∈ R) = 1 et lim F (x) = P(X ∈ ∅) = 0.
x→∞ x→−∞

Afin de montrer la réciproque, c’est-à-dire qu’une fonction croissante continue à droite


telle que limx→−∞ F (x) = 0 et limx→∞ F (x) = 1 est une fonction de répartition, on construit
une variable aléatoire dont la fonction de répartition est F . Une telle construction est pro-
posée dans l’exercice 2.2.
2.3. Vecteurs aléatoires 25

On notera souvent F (x−) = limy→x F (y) = µ((−∞, x)). Pour tout a < b, on notera que
y<x

F (b) − F (a) = µ((a, b]), F (b) − F (a−) = µ([a, b]) et F (b−) − F (a) = µ((a, b)).

Propriété 2.2.7. On dit qu’un point x ∈ R est un atome de la mesure µ si µ({x}) > 0.
Une loi µ a un atome en x si et seulement si sa fonction de répartition est discontinue en
x. On a alors µ({x}) = F (x) − F (x−).
Deux familles de lois de probabilités sont particulièrement communes.
Définition 2.2.8 (Loi discrète). Une loi de probabilité est dite discrète si son support est
fini ou dénombrable.
On observera que si la fonction de répartition d’une variable aléatoire est étagée, alors
cette variable aléatoire est discrète.
Définition 2.2.9. Une loi de probabilité µ sur R est dite à densité par rapport à la mesure
de Lebesgue s’il existe une fonction mesurable ϕ (appelée la densité de µ) telle que
Z Z
µ(A) = ϕ(x)dx = 1A (x)ϕ(x)dx
A R

pour tout borélien A de R.


On observe qu’une loi de probabilité sur R à densité si et seulement si sa fonction de
répartition est dérivable presque partout (autrement dit l’ensemble des points où F n’est
0
R
pas dérivable est un ensemble de mesure de Lebesgue 0) et R F (x)dx = 1. Dans ce cas, la
densité de la loi est la fonction x 7→ F 0 (x) définie presque partout.
Propriété 2.2.10. Une fonction mesurable ϕ est la densité d’une loi de probabilité si elle
satisfait les deux propriétés suivantes
1. ϕ(x) ≥ 0 pour presque tout x,
R
2. R ϕ(x)dx = 1.
Remarque 2.2.11. Notons qu’il existe des lois qui ne sont ni des lois discrètes ni des lois à
densité.

2.3 Vecteurs aléatoires


La notion de variable aléatoire peut être étendue à des espaces plus généraux que R. On
parle de variable aléatoire dans un espace E comme une fonction mesurable à valeurs dans
(E, E). Un cas particulier de cette notion générale est celle de vecteur aléatoire, défini comme
une variable aléatoire à valeurs dans Rn .
Définition 2.3.1. Un vecteur aléatoire est une famille X = (X1 , . . . , Xn ) de variables aléa-
toires. La loi du vecteur aléatoire est la mesure de probabilité sur (Rn , B(Rn )) définie par

µX (A) = P((X1 , . . . Xn ) ∈ A).

Les lois marginales du vecteur aléatoire (X1 , . . . Xn ) sont les lois des variables X1 , ..., Xn .
Remarque 2.3.2. Les lois marginales d’un vecteur aléatoire ne déterminent pas la loi de ce
vecteur. En effet, considérons le vecteur aléatoire (X, Y ), dont la loi est donnée par
1
P(X = 1, Y = 1) = P(X = 1, Y = 0) = P(X = 0, Y = 1) = P(X = 0, Y = 0) = ,
4
alors les vecteurs (X, X) et (X, Y ) ont les mêmes lois marginales, mais des lois différentes.
26 Chapitre 2. Variables aléatoires et leurs lois

Propriété 2.3.3. La loi d’un vecteur aléatoire est caractérisée par P(X1 ∈ A1 , . . . Xn ∈ An )
pour toute famille d’intervalles ouverts (A1 , . . . An ). On appelle l’ensemble A1 ×A2 ×· · ·×An
un pavé de Rn .
Pour calculer les lois marginales d’une variable aléatoire, on peut utiliser la formule
suivante.
Propriété 2.3.4. Soit X = (X1 , . . . Xn ) un vecteur aléatoire, la loi marginale de X1 est
donnée par µX1 (A) = µ(A × Ωn−1 ).
Corollaire 2.3.5. 1. Si X1 , . . . Xn sont des variables aléatoires à densité par rapport à
la mesure de Lebesgue, pour tout x1 ∈ R, on a
Z
ϕX1 (x) = ϕX (x, x2 , . . . xn )dx2 . . . dxn .
Rn−1

2. Si X1 , . . . Xn sont des variables aléatoires discrètes, pour tout x ∈ X1 (Ω), on a


X
P(X1 = x) = P(X1 = x, X2 = x2 , . . . Xn = xn ).
x2 ∈X2 (Ω),...,xn ∈Xn (Ω)

2.4 Suites infinies de variables aléatoires


De la même façon qu’un vecteur aléatoire est une variable aléatoire à valeur dans Rn , une
suite de variables aléatoires est une fonction mesurable d’un espace de probabilité à valeurs
dans l’ensemble des suites réelles.
Définition 2.4.1. Une suite aléatoire est une famille X = (Xn , n ∈ N) de variables aléa-
toires. La loi de la suite aléatoire est la mesure de probabilité sur (RN , B(RN )) définie par
µX (A) = P((Xn , n ∈ N) ∈ A).
Les lois marginales de la suite (Xn , n ≥ 1) sont les lois des variables X1 , ..., Xn .
On observe que la loi d’une suite aléatoire peut être caractérisée par la loi des premiers
termes de la suite.
Proposition 2.4.2. La loi d’une suite de variable aléatoire (Xn , n ≥ 1) est caractérisée par
la donnée des lois des vecteurs (X1 , . . . , Xk ) pour tout k ∈ N.
Démonstration. On observe que C = ∪k∈N {A1 × A2 × Ak × RN , A1 , . . . Ak ∈ B(R)} est une
classe monotone de B(RN ). Par conséquent, la loi de (Xn , n ≥ 1) est caractérisée par la
donnée de
P(X1 ∈ A1 , . . . Xk ∈ Ak ) pour k ∈ N et A1 , . . . Ak ∈ B(R).

2.5 Lois usuelles


On recense ici les familles de lois usuelles, discrètes et à densité, ainsi que leurs propriétés
élémentaires.

2.5.1 Lois discrètes


Si X est une variable aléatoire discrète de loi µ, on appelle espérance de X et on note
E(X) la quantité X X
E(X) = xµ(x) = xP(X = x).
x∈Supp(µ) x∈Supp(µ)

On appelle variance de X la quantité Var(X) = E(X 2 ) − E(X)2 .


2.5. Lois usuelles 27

Loi de Dirac. Pour a ∈ R, la loi de Dirac notée δa représente la loi d’une variable aléatoire
constante égale à a. Si X est de loi δa , on a E(X) = a et Var(X) = 0. D’ailleurs, toute
variable aléatoire ayant une variance nulle suit une loi de Dirac.

Loi uniforme discrète. Pour n ∈ N, la loi uniforme sur {1, . . . , n} modélise le choix,
uniformément au hasard, d’un nombre compris entre 1 et n. Soit X une variable aléatoire
de loi uniforme sur {1, . . . , n}, on a

1{1≤k≤n} n+1 n2 − 1
P(X = k) = , E(X) = , et Var(X) = .
n 2 12

On peut généraliser la notion de loi uniforme discrète au cas d’un espace E de cardinal fini
différent de {1, . . . , n}. Dans ce cas, la probabilité de choisir un élément de l’ensemble est
toujours donnée par 1/Card(E).

Loi de Bernoulli. Pour p ∈ [0, 1], la loi de Bernoulli de paramètre p, que l’on note B(p)
représente la loi d’une variable aléatoire valant 1 avec probabilité p, et 0 avec probabilité
1 − p. Soit X une variable aléatoire de loi B(p), on a
(
p si i = 1
P(X = i) = , E(X) = p et Var(X) = p(1 − p).
1−p si i = 0

On utilise souvent la loi de Bernoulli pour représenter le résultat d’une expérience aléatoire
ayant probabilité p de réussir.

Loi binomiale. Pour n ∈ N et p ∈ [0, 1], la loi binomiale de paramètres n et p, notée


B(n, p) est une loi à support sur {0, . . . , n} définie comme suit. Étant donné X une variable
aléatoire de loi B(n, p), on a
!
n k
P(X = k) = p (1 − p)n−k , E(X) = np, et Var(X) = np(1 − p).
k

Cette loi représente le nombre d’expériences réussies lorsqu’on répète n fois une expérience
ayant probabilité p de réussir.

Loi de Poisson. Pour λ ≥ 0, la loi de Poisson de paramètre λ, que l’on note P(λ) repré-
sente la loi d’une variable aléatoire à support dans N définie comme suit. Soit X une variable
aléatoire de loi P(λ), on a

λk
P(X = k) = e−λ , E(X) = λ et Var(X) = λ.
k!

On se réfère souvent à cette loi comme la “loi des événements rares”. En effet, elle appa-
raît comme la limite, lorsque n → ∞, des lois B(n, λ/n) (c.f. Chapitre 4. pour la notion de
limite de lois). En d’autres termes, elle représente le nombre d’occurrences positives d’une
expérience répétée à de très nombreuses reprises mais ayant une probabilité infinitésimale
de se produire. Elle apparaît ainsi naturellement dans de nombreux domaines de la phy-
sique (nombre d’atomes se désintégrant sur une période donnée), ou de la biologie (nombre
d’individus contaminés en une génération par un infecté).
28 Chapitre 2. Variables aléatoires et leurs lois

Loi géométrique. Pour p ∈ (0, 1], la loi Géométrique de paramètre p, notée G(p) est la
loi d’une variable aléatoire à support dans N∗ définie comme suit. Soit X une variable de loi
G(p), on a

1−p
P(X = k) = p(1 − p)k−1 , E(X) = 1/p et Var(X) = .
p2

Cette loi représente, pour une expérience ayant probabilité p de se produire, le nombre de
fois qu’il faut reproduire cette expérience pour observer une issue positive.

2.5.2 Lois à densité


Si X est une variable aléatoire à densité de densité ϕ, on appelle espérance de X et on
note E(X) la quantité Z
E(X) = xϕ(x)dx.
R

On appelle variance de X la quantité Var(X) = E(X 2 ) − E(X)2 .

Loi uniforme. Pour a < b, la loi uniforme sur [a, b] est définie comme suit. Soit X une
variable aléatoire de loi uniforme sur [a, b], on a

1 a+b (b − a)2
ϕX (x) = 1 , E(X) = et Var(X) = .
b − a {x∈[a,b]} 2 12

Loi exponentielle. Pour λ ∈ R+ , la loi exponentielle de paramètre λ, notée E(λ) est


définie comme suit. Étant donné X une variable aléatoire de loi E(λ), on a

1 1
ϕX (x) = λe−λx 1{x≥0} , E(X) = et Var(X) = .
λ λ2
La loi exponentielle est utilisée pour modéliser la durée de vie d’un phénomène sans mé-
moire ou sans vieillissement. En effet, on observe que X est une variable aléatoire de loi
exponentielle si et seulement si P (X ≥ x + y|X ≥ x) = P(X ≥ y) pour tout x, y ∈ R+ (c.f.
Chapitre 5 pour la définition de probabilité conditionnelle).

Loi gaussienne. Pour µ ∈ R et σ 2 ∈ R+ , la loi normale de moyenne µ et de variance σ 2


est notée N (µ, σ 2 ). Soit X une variable aléatoire de loi N (µ, σ 2 ), on a

1 2 /2σ 2
ϕX (x) = √ e−(x−µ) , E(X) = µ, Var(X) = σ 2 .
2πσ 2

La loi normale (ou gaussienne) est souvent appelée “loi des erreurs” de par son apparition
dans le théorème central limite. C’est une loi utilisé à de très nombreuses reprises pour
modéliser notamment une erreur de mesure, ou la variabilité d’un paramètre dépendant
d’un grand nombre de facteurs extérieurs (taille d’une personne, rendement d’une récolte,
etc.). On remarquera que si Y est de loi N (0, 1), alors µ + σY ∼ N (µ, σ 2 ).

Loi Gamma. Pour a, θ ≥ 0, la loi Gamma de paramètres a et θ est notée Γ(a, θ) est une
loi à support dans R+ . Étant donné X une variable aléatoire de loi Γ(a), on a

1
ϕX (x) = xa−1 e−x/θ 1{x>0} , E(X) = aθ, Var(X) = aθ2 .
Γ(a)θk
2.5. Lois usuelles 29

On notera que si Y est de loi Γ(a, 1), alors θY ∼ Γ(a, θ). La fonction Γ éponyme introduite
dans la densité de la loi est la fonction Gamma d’Euler, définie par
Z ∞
Γ(a) = xa−1 e−x dx.
0

On notera que Γ(a + 1) = aΓ(a) par intégration par partie, et en particulier Γ(n + 1) = n!.

Loi Beta. Pour a, b ≥ 0, la loi Beta de paramètres a et b est notée B(a, b), et est définie
comme suit. Soit X une variable aléatoire de loi B(a, b), on a

Γ(a + b) a−1
ϕX (x) = x (1 − x)b−1 1{x∈(0,1)} ,
Γ(a)Γ(b)
a ab
E(X) = et Var(X) = .
a+b (a + b)2 (a + b + 1)

Notons que si a = b = 1, on retrouve la loi uniforme sur [0, 1].

Exercices
Exercice 2.1 (Tribu produit et mesurabilité). 1. Soient (E, E) et (F, F) deux espaces de
probabilités, montrer que E ~ F est la plus petite tribu sur E × F telle que les
projections πE et πF de E × F sur E et F respectivement sont mesurables.
2. Montrer que B(R2 ) = B(R) ⊗ B(R).
Exercice 2.2 (Fonction de répartition inverse). Soit X une variable aléatoire réelle, on note
F sa fonction de répartition. Pour tout u ∈ (0, 1), on pose

F −1 (u) = inf{t ∈ R : F (t) ≥ u},

qu’on appelle l’inverse généralisée continue à gauche de F .


1. Montrer que pour tout t ∈ R et u ∈ (0, 1), on a F −1 (u) ≤ t ⇐⇒ u ≤ F (t).
2. En déduire que si U est de loi uniforme sur [0, 1], alors X = F −1 (U ) suit la même loi
que X.
3. On suppose que X est de loi exponentielle de paramètre 1, déterminer F et F −1 et
en déduire la loi de − log U .
1
4. On appelle loi de Cauchy une loi ayant pour densité π(1+x 2 ) par rapport à la mesure

de Lebesgue. Déterminer G tel que G(U ) suit une loi de Cauchy.


5. Montrer que si F est une fonction croissante continue à droite telle que

lim F (x) = 0 et lim F (x) = 1,


x→−∞ x→∞

alors F est la fonction de répartition d’une variable aléatoire.


Exercice 2.3. Soit α > 0 et X une variable aléatoire à valeurs dans [1, ∞[ telle que pour
tout x > 1, on a P(X ≥ x) = x−α . Montrer que X est une variable aléatoire à densité. La
variable aléatoire X admet-elle une espérance ? une variance ?
Exercice 2.4 (Lois images).
1. Soit X une variable aléatoire de loi E(λ), déterminer la loi de bXc + 1.
2. Soit U une variable aléatoire de loi uniforme sur [0, 1], déterminer la loi de U 2 .
30 Chapitre 2. Variables aléatoires et leurs lois

3. Soit U une variable aléatoire de loi uniforme sur [0, 1], déterminer la loi de b1/U c.
4. Soit X une variable aléatoire de loi N (0, 1), déterminer la loi de X 2 .
Exercice 2.5 (Le paradoxe de Bertrand). On s’intéresse à la probabilité de l’événement A :
« une corde choisie au hasard sur le cercle unité ait une longueur plus grande que le côté du
triangle équilatéral inscrit ».
1. On choisit deux extrémités de la corde au hasard sur le cercle. Montrer que P(A) =
1/3.
2. On choisit le centre de la corde au hasard sur le disque unité. Déterminer la valeur
de P(A).
3. On choisit au hasard la direction du rayon orthogonal à la corde, puis le centre de la
corde uniformément sur ce rayon. Déterminer P(A).
Exercice 2.6. 1. Soit (X, Y ) un point tiré au hasard sur le disque unité R2 . Déterminer
la loi marginale de X.
2. Soit (X, Y, Z) un point tiré au hasard sur la sphère unité de R3 . Déterminer la loi
marginale de X.
CHAPITRE 3

Espérance d’une variable aléatoire


“Imaginez que je doive payer une certaine somme ;
je peux sortir les pièces de mon porte-monnaie
comme elles viennent pour arriver à la somme
indiquée, ou sortir toutes les pièces et les choisir
selon leur valeur. La première méthode est
l’intégrale de Riemann, la deuxième correspond à
mon intégrale.”

Henri Lebesgue (d’après internet).


32 Chapitre 3. Espérance d’une variable aléatoire
CHAPITRE 4

Construction de mesures
“Where our language suggests a body and there is
none : there, we should like to say, is a spirit.”
————
Lorsque notre langage suggère un corps et qu’il n’y en a pas :
là, tenons-nous à dire, il y a un esprit.

Ludwig Wittgenstein – Tractatus


Logico-Philosophicus.
34 Chapitre 4. Construction de mesures
CHAPITRE 5

Indépendance
“They pretend to themselves they are in control of
events where perhaps they are not.”
————
Ils nourrissent l’illusion de contrôler les événements quand ça
n’est peut-être pas le cas.

Anton Chigurh – No Country for Old Men, de


Cormac McCarthy.
36 Chapitre 5. Indépendance
CHAPITRE 6

Convergence d’une suite de


variables aléatoires
“Un homme tirait au sort toutes ses décisions. Il ne
lui arriva pas plus de mal qu’aux autres qui
réfléchissent.”

Paul Valéry – Tel quel.

Vous aimerez peut-être aussi