Integration Et Proba
Integration Et Proba
Notes de cours
Intégration et probabilités
Bastien Mallein
[email protected]
Laboratoire Analyse, Géométrie et Applications
99, Avenue Jean-Baptiste Clément
93430 Villetaneuse FRANCE
3
Avant-propos
Introduction 7
1 Espace de probabilité 9
1.1 Univers de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Tribu sur un univers de probabilités . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Construction de mesures 33
5 Indépendance 35
grands nombres et le théorème central limite. La loi des grands nombres est un théorème
fondamental de la théorie des probabilités, puisqu’il justifie a posteriori la notion de probabi-
lité et d’espérance, en observant que l’espérance d’une variable aléatoire est la moyenne des
résultats obtenus sur un grand nombre d’expériences indépendantes. On explorera également
dans ce chapitre les différents modes de convergences ainsi que leurs relations.
CHAPITRE 1
Espace de probabilité
“The theory of probability combines commonsense
reasoning with calculation. It domesticates luck,
making it subservient to reason.”
————
La théorie des probabilités combine des raisonnements de
bon sens avec des formules. Elle dompte la chance,
l’asservissant à la raison.
Définition 1.1.1. Un univers de probabilité Ω est défini comme l’ensemble des résultats pos-
sibles d’une expérience aléatoire. Un élément ω ∈ Ω est appelé une éventualité, et représente
une issue possible de l’expérience aléatoire.
10 Chapitre 1. Espace de probabilité
On dit qu’un univers de probabilité est discret si Ω est fini ou dénombrable. Dans le cas
contraire, on parlera d’univers de probabilité continu. La plupart des univers de probabilité
discrets considérés ici peuvent se représenter comme des sous-ensembles de Zn pour un certain
n ∈ N, tandis que les univers continus sont régulièrement construits comme des intervalles
de Rn , ou comme E N l’ensemble des suites à valeurs dans un espace E contenant au moins
deux points.
Exemple 1.1.2 (Quelques univers de probabilité.).
1. On considère l’expérience aléatoire consistant au jet d’un dé à 6 faces. Un univers de
probabilité associé est Ω(1) = {1, 2, 3, 4, 5, 6}. Chaque entier j ∈ Ω(1) correspond à
l’éventualité « le dé tombe sur la face j ».
2. Ω(2) = {P, F }3 est un univers de probabilités pour l’expérience aléatoire consistant
au jet de 3 pièces de monnaie. L’éventualité (P, F, P ) ∈ Ω correspond à l’événement
« la première pièce tombe sur pile, la seconde sur face et la troisième sur pile ».
3. Ω(3) = {(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)} est un univers de probabi-
lité pour l’expérience aléatoire consistant à observe l’ordre d’arrivée d’une course de
trois coureurs. Chaque éventualité correspond à un ordre d’arrivée.
4. Ω(4) = R+ est un univers de probabilité pour l’expérience consistant à observer la
durée de vie d’une ampoule. L’éventualité t ∈ Ω(4) correspond à une ampoule grillant
au bout d’un temps t.
5. Ω(5) = {P, F }N est un univers de probabilité pour l’expérience consistant au jet d’une
infinité de pièces de monnaie, chaque suite de P et F représentant la suite de résultats
obtenus lors des jets successifs de la pièce.
Les univers Ω(1) , Ω(2) et Ω(3) sont des univers de probabilité discrets, tandis que Ω(4) et Ω(5)
sont des univers de probabilité continus.
Il n’existe pas un unique univers de probabilités permettant de représenter une expérience
aléatoire, et différentes constructions sont possibles. Lorsqu’un univers de probabilité est
l’univers le plus simple possible pour représenter cette expérience aléatoire, on parle d’univers
canonique. Les univers décrits ci-dessus sont tous des univers canoniques. On fera souvent le
choix de poser l’univers de probabilités sans préciser en détails les éventualités qu’il contient
(sauf si on parle de l’univers canonique).
Exemple 1.1.3. L’univers de probabilité Ω = [0, 2π) est un univers de probabilité qui peut
être utilisé pour modéliser l’expérience aléatoire correspondant au jet d’une pièce. Chaque
éventualité θ ∈ Ω correspond à l’orientation de la pièce au moment où elle est rattrapée.
La pièce tombe donc sur pile si θ ∈ [0, π) et sur face si θ ∈ [π, 2π). Cet univers n’est pas
l’univers canonique {P, F } utilisé pour représenter cette expérience.
Si Ω1 est un univers de probabilité permettant de modéliser une première expérience et
Ω2 un univers de probabilité permettant d’en modéliser une seconde, alors l’univers produit
Ω1 × Ω2 forme un univers de probabilité permettant la modélisation de deux expériences
sccessives. Par exemple, l’univers Ω(1) × Ω(2) permet modéliser le lancer d’un dé, suivi du
lancer de trois pièces.
Si Ω est un univers de probabilité permettant de modéliser une première expérience et si
pour tout ω ∈ Ω, Aω est un autre de probabilité, alors ∪ω∈Ω {ω} × Aω permet de modéliser
l’expérience aléatoire consistant à réaliser la première expérience, puis en fonction du résultat
de cette expérience de réaliser l’expérience associée à Aω . Ainsi, l’univers ∪6j=1 {j} × {P, F }j
permet de modéliser l’expérience suivante : on jette un dé, puis un nombre de pièces égal au
résultat du dé.
1.2. Tribu sur un univers de probabilités 11
( n∈N Acn )c = n∈N An . Cela montre que F est stable par intersection dénombrable. En
S T
Une tribu sur Ω est utilisée pour modéliser une connaissance accessible sur l’expérience
aléatoire. Les ensembles A ∈ F représentent alors les événements pour lesquels, avec les
observations considérées sur l’expérience, on peut répondre à la question suivante : « Est-ce
que l’éventualité ω ∈ Ω appartient à A ou à Ac ? ». On peut ainsi utiliser plusieurs tribus
pour modéliser différents niveaux de connaissances sur une même expérience aléatoire.
Si E ⊂ F sont deux tribus sur Ω, on dit que E est une sous-tribu de F. La tribu E est
alors plus grossière (correspond à une connaissance moins détaillée), et la tribu F plus fine
(correspond à une connaissance plus précise).
Exemple 1.2.4 (Quelques tribus classiques.).
1. La tribu F = {∅, Ω} est appelée la tribu triviale, et correspond à l’absence totale de
connaissance sur un événement.
12 Chapitre 1. Espace de probabilité
Une tribu étant un ensemble de sous-ensembles de Ω, on peut lui appliquer les opérations
ensemblistes d’union et d’intersection. Il est notable que si une union de tribus n’est pas
toujours une tribu, la notion de tribu est stable par intersections.
\
Proposition 1.2.6. Soit (Fi )i∈I une famille de tribus sur Ω, alors C = Fi est une tribu.
i∈I
Démonstration. On montre que C satisfait les trois axiomes des tribus. Observons tout
d’abord que pour tout i ∈ I, Ω ∈ Fi , par conséquent Ω ∈ C.
Considérons maintenant un élément A ∈ C. Pour tout i ∈ I, on a A ∈ Fi , donc Ac ∈ Fi .
Par conséquent, on a également Ac ∈ ∩i∈I Fi = C.
Enfin, soit (An ) ∈ C N . Pour tout i ∈ I, on a également ∪n∈N An ∈ Fi . Par conséquent
∪n∈N An ∈ C. On a donc bien montré que C est une tribu.
La proposition 1.2.6 permet de définir la plus petite tribu vérifiant une propriété, qui est
définie comme étant l’intersection de toutes les tribus satisfaisant cette propriété. On définit
en particulier la notion de tribu engendrée.
Un cas particulier de tribu engendrée est la tribu produit, définie sur l’espace produit de
deux espaces mesurés.
Définition 1.2.9 (Tribu produit). Soient (E, E) et (F, F) deux espaces mesurables. On peut
munir le produit E × F de la tribu produit
E ⊗ F = σ (A × B; A ∈ E, B ∈ F) .
La tribu engendrée par l’ensemble des ouverts d’un espace topologique est la tribu boré-
lienne de cette ensemble.
Définition 1.2.11. Une classe monotone C sur Ω est une partie de P(Ω) satisfaisant les
propriétés suivantes :
1. Ω ∈ F,
2. pour tout A, B ∈ F tel que A ⊂ B, B\A ∈ F,
3. pour toute suite croissante d’événements (An , n ≥ 0) ∈ F N (i.e. telle que Ai ⊂ Aj
pour tout i < j), on a ∪n∈N An ∈ F.
B\A = B ∩ Ac = (B c ∪ A)c ,
Remarque 1.2.12.
1. Toute tribu est une classe monotone.
2. Une intersection de classes monotones est une classe monotone. On peut donc intro-
duire la notion de classe monotone engendrée par A ⊂ P(Ω), définie par
\
M(A) := C.
C classe monotone,
A⊂C
3. On a M(A) ⊂ σ(A).
Théorème 1.2.13 (Lemme des classes monotones). Pour toute famille A de sous-ensembles
n
\
de Ω qui vérifie ∀n ∈ N, ∀A1 , . . . An ∈ A, Ai ∈ A, on a M(A) = σ(A).
i=1
Démonstration. Notons pour commencer qu’il est immédiat que M(A) ⊂ σ(A), puisque
toute tribu est également une classe monotone. On montre le lemme des classes monotones
en prouvant que M(A) est une tribu. Pour ce faire, on montre dans un premier temps que
M(A) est stable par intersections finies.
Soit A ∈ A, on pose MA = {B ∈ M(A) : A ∩ B ∈ M(A)}. On observe alors que MA
est une classe monotone, en effet :
1. on a Ω ∩ A = A ∈ A ⊂ M(A), donc Ω ∈ MA ;
2. si B, C ∈ MA avec B ⊂ C, on a A ∩ B et A ∩ C ∈ M(A), par conséquent on a
également (B\C) ∩ A = (B ∩ A)\(C ∩ A) ∈ M(B), d’où B\C ∈ MA ;
3. enfin, si (Bn ) est une suite croissante d’événements de MA , on a A ∩ Bn ∈ M(A)
pour tout n ∈ N, donc A ∩ ∪n∈N Bn = ∪n∈N A ∩ Bn ∈ M(A), donc ∪n∈N Bn ∈ MA .
Comme A est stable par intersections finies, on a A ⊂ MA . Puisque M(A) est la plus petite
classe monotone contenant A, on obtient M(A) ⊂ MA . On a ainsi montré que pour tout
A ∈ A et B ∈ M(A), A ∩ B ∈ M(A).
On se fixe ensuite A ∈ M(A), et on pose MA = {B ∈ M(A) : A ∩ B ∈ M(A)}. Par
le même raisonnement que précédemment, on observe que MA est une classe monotone, et
donc M(A) = MA . Cela montre que pour tout A, B ∈ M(A), A ∩ B ∈ M(A).
Plus généralement, si A1 , . . . An ∈ M(A), on a
A1 ∩ A2 ∩ · · · ∩ An = (A1 ∩ A2 ) ∩ A3 ∩ · · · ∩ An ,
et A1 ∩ A2 ∈ M(A). Donc par une récurrence immédiate, on obtient que M(A) est stable
par toute intersection finies.
Pour compléter cette preuve, on montre qu’une classe monotone stable par intersections
finies est une tribu. En effet, par passage au complémentaire, pour tout B1 , . . . Bn ∈ M(A),
on a B1 ∪ · · · ∪ Bn ∈ M(A). Soit (Bn ) une suite (quelconque) d’événements de M(A), on
pose Cn = B1 ∪ · · · ∪ Bn . Donc (Cn ) est une suite croissante d’événements de M(A). Par
propriété de classe monotone, on obtient ∪n∈N Cn = ∪n∈N Bn ∈ M(A), ce qui montre la
stabilité de M(A) par union dénombrable.
Finalement, puisque M(A) est une tribu contenant A, on en déduit que σ(A) ⊂ M(A),
ce qui, au vu de l’inclusion observée en début de preuve, permet de conclure à l’égalité entre
σ(A) et M(A).
Le lemme des classes monotones est également souvent employé sous la forme suivante :
« toute famille d’événements –contenant l’espace total– stable par passage au complémen-
taire, union croissante et intersection finie est une tribu ».
On peut utiliser ce théorèe pour démontrer que tous les événements d’une tribu satisfont
une propriété : on montre que la propriété est satisfaite par une famille génératrice stable
par intersections finies, puis que l’ensemble des événements satisfaisant cette propriété forme
une classe monotone, ce qui permet de conclure.
représente la proportion asymptotique d’expériences pour lesquelles cet événement est réalisé
lorsqu’on répète un grand nombre de fois cette expérience aléatoire. Lorsque l’expérience ne
peut pas être répétée (météo du lendemain au vu des conditions actuelles, résultats d’une
élection au vu des sondages actuels, etc.), cette probabilité peut représenter le degré de
croyance de réalisation de cet événement.
On verra au chapitre 6 que la théorie moderne des probabilités telle qu’exposée ici, et
issue des travaux de Kolmogorov, est bien en accord avec l’interprétation fréquentiste de
la probabilité. On verra également au chapitre 5 la formule de Bayes, qui est à la base de
l’interprétation en terme de degré de croyance de la probabilité d’un événement.
Définition 1.3.1. Une mesure (ou loi) de probabilité sur l’espace mesuré (Ω, F) est une
application F → R satisfaisant les propriétés suivantes
1. P(Ω) = 1,
2. pour tout A ∈ F, P(A) ∈ [0, 1],
3. pour toute suite (An , n ≥ 0) ∈ F N d’événements deux à deux disjoints (i.e. tels que
Ai ∩ Aj = ∅ pour tout i 6= j), P(∪n∈N An ) = n∈N P(An ).
P
Par conséquent, une mesure de probabilité sur un espace discret est caractérisée par sa
fonction de masse, définie par ω ∈ Ω 7→ P({ω}).
est une mesure de probabilité qu’on appelle la mesure de Dirac en a et qu’on note δa .
Propriété 1.3.4. Une mesure de probabilité P sur (Ω, F) satisfait les égalités suivantes :
1. P(∅) = 0 ;
2. pour tout A ∈ F, P(Ac ) = 1 − P(A) ;
3. pour tout A, B ∈ F tels que A ⊂ B, P(A) ≤ P(B).
4. pour tout A, B ∈ F, P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Définition 1.3.5. Un événement A ∈ F tel que P(A) = 0 est dit négligeable. Une propriété
vraie pour tout ω ∈ B tel que B c est négligeable est dite vraie presque sûrement (ou p.s.).
Proposition 1.3.6 (Convergence monotone). Soit P une mesure de probabilité sur (Ω, F).
On considère une suite croissante (An , n ≥ 0) d’événements de F. On a
[
P An = lim P(An ).
n→∞
n≥1
n
[ n−1
[
An = Aj = A1 ∪ Rj ,
j=1 j=1
La série de terme positifs ayant un plus grand élément borné par 1, elle converge donc. En
utilisant que P(Rj ) = P(Aj + 1) − P(Aj ), on obtient
[ n
X
P Aj = lim P(A1 ) + P(Aj+1 ) − P(Aj ) = lim P(An ),
n→∞ n→ ∞
j≥1 j=1
par télescopage.
1.3. Loi de probabilité 17
Pour déterminer la valeur de P, il est souvent suffisant de donner la valeur de P(A) pour
A ∈ A une partie relativement petite de la tribu F. C’est le cas dans la remarque 1.3.2 :
dans un univers discret, il suffit de donner la valeur de P sur les singletons pour caractériser
(définir de façon unique) la mesure de probabilité P. Dans le cas d’un univers continu, on
utilise le résultat suivant.
Lemme 1.3.7. Soit P et Q deux mesures de probabilités sur (Ω, σ(A)). Si la famille d’évé-
nements A est stable par intersections finies, et si P(A) = Q(A) pour tout A ∈ A, alors
P = Q.
Ainsi, pour définir la loi P sur (Ω, F), il suffit de donner la valeur de P(A) pour tout
A ∈ A, où A est une famille stable par intersection finie génératrice de F. Notons que définir
P sur A garantit bien l’unicité de la loi décrite, elle ne garantit pas son existence.
On a donc ∪n∈N An ∈ G, ce qui montre bien que G est une classe monotone, ce qui complète
cette démonstration.
Exemple 1.3.8. On pose Ω = {1, . . . , 6}N l’ensemble des suites d’entiers entre 1 et 6. Cela
correspond à l’expérience du lancer d’une infinité de dés à 6 faces. On lui associe la tribu F
sur Ω engendrée par les ensembles Πi1 ,...in = {(i1 , . . . , in , j1 , j2 , . . .), (jk ) ∈ {1, . . . , 6}N } pour
(i1 , . . . in ) ∈ {1, . . . , 6}n , qui correspond à l’observation des n premiers lancers pour tout n.
Alors, une mesure de probabilités P sur (Ω, F) est caractérisée P(Πi1 ,...in ) pour n ∈ N et
(i1 , . . . in ) ∈ {1, . . . , 6}n .
Exemple 1.3.9 (Mesure de Lebesgue). La mesure de Lebesgue sur [0, 1] est la seule mesure
de probabilité tel que P([a, b]) = b − a pour tout 0 ≤ a ≤ b ≤ 1. L’unicité de cette mesure
est une conséquence du lemme 1.3.7. On montera l’existence de la mesure de Lebesgue au
chapitre 4. Dans l’intervalle, on supposera l’existence de cette mesure de Lebesgue.
Une mesure de probabilité peut être associée à une notion de mesure, ou « masse »,
d’un ensemble. Pour chaque événement A ∈ F, la fonction P donne la masse associée à
cet événement. La masse totale est normalisée à 1, et la masse de la réunion d’événements
disjoints est égale à la somme des masses. Une notion plus générale de mesure σ-finie est
définie comme suit.
Définition 1.3.10. Une mesure sur l’espace mesuré (E, E) est une application µ : E → R
satisfaisant les propriétés suivantes :
— pour tout A ∈ F, µ(A) ≥ 0,
— pour toute suite (An , n ≥ 0) ∈ F N d’événements deux à deux disjoints, µ(∪n∈N An ) =
P
n∈N µ(An ).
18 Chapitre 1. Espace de probabilité
Exercices
Exercice 1.1. Construire un espace de probabilité associé aux expériences aléatoires suivantes.
1. On considère une urne contenant 5 boules numérotées de 1 à 5, et on tire successive-
ment 2 boules dans cette urne au hasard.
2. On considère deux urnes, l’une contenant 3 boules numérotées de A à C, et l’autre
contenant 5 boules numérotées de A à E. On choisit au hasard une urne, dans laquelle
on tire au hasard une boule.
3. On lance un dé à 6 faces le nombre de fois nécessaires pour obtenir un 6, et on
s’intéresse au nombre de lancers qui a été nécessaire.
Exercice 1.3. Soit Ω un univers de probabilité, on note (A1 , . . . An ) une partition de Ω, c’est-
à-dire une famille d’événements deux à deux disjoints tels que nj=1 Aj = Ω. Quel est le
S
cardinal de σ(A1 , . . . An ) ?
Exercice 1.4. On jette successivement trois pièces de monnaie, et on s’intéresse aux côtés
qu’elles montrent.
1. Construire un espace de probabilité associé à cette expérience aléatoire.
2. On considère les trois événements A : « la première pièce est tombée sur face », B :
« la deuxième pièce est tombée sur face » et C : « la troisième pièce est tombée sur
face ».
(a) Donner une description de l’événement A ∪ B c .
(b) Écrire, grâce aux événements A, B et C et des opérations ensemblistes l’événement
D : « la première et la troisième pièce montrent des côtés différents ».
(c) Calculer la probabilité des événements A ∪ B c et D.
3. Une deuxième personne arrive et observe le résultat des trois pièces de monnaie sur
la table sans connaître l’ordre dans lequel elles ont été lancées.
(a) Donner la tribu G associée à la connaissance de cette seconde personne.
(b) Calculer la probabilité des différents événements de cette tribu.
(c) L’événement B appartient-t-il à G ? Et A ∪ B ∪ C ?
Exercice 1.6 (Restriction d’une tribu). Soient F une tribu sur E et B un élément de F.
Montrer que FB := {A ∩ B, A ∈ F} est une tribu de B.
Exercice 1.7 (Tribu image réciproque). Soient (E, E) et (F, F) des espace mesurable. Soit
f : E → F une application.
1. On définit
A := {f −1 (B) : B ∈ F}.
Montrer que E est une tribu sur E. On l’appelle la tribu image réciproque de F par
f.
2. On définit
B := {B ⊂ F : f −1 (B) ∈ E},
montrer que B est une tribu.
Exercice 1.8 (Tribu dyadique). Pour tout n ∈ N, on note
1. Décrire la tribu Bn .
2. Montrer que la tribu engendrée par ∪n∈N Bn est la tribu des boréliens de l’intervalle
[0, 1].
Exercice 1.9 (Limsup et liminf de suites). Soit (an )n≥0 une suite de réels, on pose
1. Montrer que lim supn→∞ an et lim inf n→∞ an sont respectivement la plus grande et la
plus petite valeur d’adhérence de la suite (an )n≥0 , en autorisant les valeurs d’adhé-
rence infinies.
2. Vérifier que an converge vers ` ∈ R ∪ {−∞, +∞} si et seulement si
On supposera fixé, dans tout le reste de ce cours, un univers de probabilités (Ω, F, P).
L’objectif de ce chapitre est d’introduire la notoin de variable aléatoire, qui est un objet
central de la théorie des probabilités. Une variable aléatoire est construite comme une “ob-
servable” sur une expérience aléatoire, c’est-à-dire une valeur numérique associée au résultat
de cette expérience, révélant une information partielle sur cette expérience.
La notion de variable aléatoire permet de construire de nombreux raisonnements sans
nécessité de définir explicitement, ou de construire, l’espace de probabilité associé à l’expé-
rience aléatoire, ce qui peut être fastidieux ou compliqué. Si la manipulation des variables
aléatoires demande quelques précautions, elle permet aussi de simplifier grandement l’écri-
ture des raisonnements.
On introduira tout d’abord la notion de fonction mesurable et de variable aléatoire, ainsi
que la loi d’une variable aléatoire. On s’intéressera ensuite à des versions multidimension-
nelles, les vecteurs aléatoires et les suites de variables aléatoires. Enfin, on introduira quelques
lois de probabilité usuelles ainsi que leurs principales propriétés.
Définition 2.1.1. Soit (E, E) et (F, F) deux espaces mesurés. On dit que l’application
f : E → F est mesurable si f −1 (A) ∈ E pour tout A ∈ F.
Soit E une sous-tribu de E, on dit que f est mesurable par rapport à E si f −1 (A) ∈ E
pour tout A ∈ F.
La mesurabilité est une propriété issue de la théorie de la mesure. Elle peut être inter-
prétée comme la marque que la connaissance fournie par E (ou E) est suffisante pour donner
la valeur de f . Nous allons toutefois citer quelques propriétés permettant de montrer qu’une
fonction est mesurable.
22 Chapitre 2. Variables aléatoires et leurs lois
Proposition 2.1.2. Soient (E, E) et (F, F) deux espaces mesurés. Une fonction f : E → F
est mesurable si et seulement si il existe C ⊂ F tel que σ(C) = F et f −1 (C) ⊂ A.
Démonstration. Soit G = {B ∈ B : f −1 (B) ∈ A}. On observe que G est une tribu, et de plus
C ⊂ G. On en déduit B = σ(C) ⊂ G, et donc f est mesurable.
Exemple 2.1.3. 1. Lorsque (F, F) est (R, B(R)), il suffit de montrer que f −1 (]−∞, a[) ∈ E
pour tout a ∈ R.
2. Lorsque F est la tribu borélienne de F, il suffit de montrer que f −1 (O) ∈ E pour tout
ouvert O de F .
Proposition 2.1.4. Soit (E, E), (F, F) et (G, G) trois espaces mesurés.
1. Si f : E → F et g : F → G sont mesurables, alors g ◦ f est mesurable de E dans G.
2. Si f : E → F et g : E → G sont mesurables, alors (f, g) : E → F × G est mesurable
par rapport à la tribu produit F ⊗ G.
Démonstration. 1. Soit A ∈ G, on observe que g −1 (A) ∈ F par mesurabilité de g. On en
déduit donc bien que
(g ◦ f )−1 (A) = f −1 (g −1 (A)) ∈ E,
par mesurabilité de F .
2. Par proposition 2.1.2, il suffit de montrer que pour tout pavé mesurable A×B ∈ F ⊗G,
on a
(f, g)−1 (A, B) = f −1 (A) ∩ g −1 (B) ∈ E,
ce qui est immédiat par stabilité de E par intersections finies.
Dans le cas des fonctions à valeurs réelles, de nombreuses opérations sur les fonctions
préservent la mesurabilité.
Propriété 2.1.6. Soit (E, E) un espace mesuré, et R est équipé de la tribu borélienne.
1. Si A ∈ E, la fonction 1A : E → R est mesurable.
2. Si f et g sont des fonctions mesurables à valeurs dans R, alors f g et λf + µg sont
des fonction mesurable pour tout λ, µ ∈ R.
3. Si (fn , n ≥ 0) est une suite de fonctions mesurables, alors supn∈N fn et lim supn→∞ fn
sont des fonctions mesurables.
Démonstration. 1. On observe que pour tout ouvert O de R, on a
1−1 c
A (O) ∈ { ∅, A, A , E} ⊂ E,
Sauf mention explicite du contraire, R est toujours muni de la tribu borélienne. Grâce
aux propriétés précédentes, on obtient que toute fonction continue, toute limite de fonction
continue, tout maximum de fonction continue sont des fonctions mesurables. En pratique,
la plupart des fonctions numériques sont mesurables par rapport à la tribu borélienne. Au
contraire, la construction de fonctions non-mesurables est complexe et dépasse le cadre de
ces notes.
Remarque 2.1.7. Grâce aux propriétés précédentes, on observe que si (An , n ∈ N) est
une suite d’événements deux à deux disjoints et (λn , n ∈ N) est une suite de réels, alors la
fonction f = n∈N λn 1An est une fonction mesurable de E dans R qu’on appelle fonction
P
étagée.
Le support de la loi de la variable aléatoire X décrit l’ensemble des valeurs prises par la
variable aléatoire X, à un ensemble négligeable près. Pour éviter toute référence à l’univers
de probabilités, une variable aléatoire X est souvent décrite à partir de sa loi de probabilité.
Grâce au lemme des classes monotones, on peut caractériser cette loi en donnant sa valeur
pour une famille de sous-ensembles de R bien choisis.
24 Chapitre 2. Variables aléatoires et leurs lois
Propriété 2.2.4. La loi de X est caractérisée par P(X ∈ A) pour tout intervalle ouvert (ou
fermé) A ⊂ R.
La loi de X est caractérisée par P(X ≤ x) pour tout x ∈ R.
Cette propriété permet d’introduire une fonction caractérisant la loi d’une variable aléa-
toire réelle : la fonction de répartition. Avec un léger abus de notation, on parlera également
de fonction de répartition d’une variable aléatoire pour parler de la fonction de répartition
de sa loi.
R −→ [0, 1]
F :
x 7−→ µ((−∞, x]).
R −→ [0, 1]
F :
x 7−→ P(X ≤ x).
Propriété 2.2.6. Une fonction F est la fonction de répartition d’une variable aléatoire réelle
si et seulement si
1. F est croissante ;
2. F est continue à droite ;
3. limx→−∞ F (x) = 0 et limx→∞ F (x) = 1.
Démonstration. Soit X une variable aléatoire réelle, on pose F : x 7→ P(X ≤ x). On observe
immédiatement que pour tout a < b, on a {X ≤ a} ⊂ {X ≤ b}, donc F (a) ≤ F (b), ce qui
montre que F est croissante. Soit (bn ) une suite décroissante de réels convergeant vers b. Par
convergence monotone (proposition 1.3.6), on a
On notera souvent F (x−) = limy→x F (y) = µ((−∞, x)). Pour tout a < b, on notera que
y<x
F (b) − F (a) = µ((a, b]), F (b) − F (a−) = µ([a, b]) et F (b−) − F (a) = µ((a, b)).
Propriété 2.2.7. On dit qu’un point x ∈ R est un atome de la mesure µ si µ({x}) > 0.
Une loi µ a un atome en x si et seulement si sa fonction de répartition est discontinue en
x. On a alors µ({x}) = F (x) − F (x−).
Deux familles de lois de probabilités sont particulièrement communes.
Définition 2.2.8 (Loi discrète). Une loi de probabilité est dite discrète si son support est
fini ou dénombrable.
On observera que si la fonction de répartition d’une variable aléatoire est étagée, alors
cette variable aléatoire est discrète.
Définition 2.2.9. Une loi de probabilité µ sur R est dite à densité par rapport à la mesure
de Lebesgue s’il existe une fonction mesurable ϕ (appelée la densité de µ) telle que
Z Z
µ(A) = ϕ(x)dx = 1A (x)ϕ(x)dx
A R
Les lois marginales du vecteur aléatoire (X1 , . . . Xn ) sont les lois des variables X1 , ..., Xn .
Remarque 2.3.2. Les lois marginales d’un vecteur aléatoire ne déterminent pas la loi de ce
vecteur. En effet, considérons le vecteur aléatoire (X, Y ), dont la loi est donnée par
1
P(X = 1, Y = 1) = P(X = 1, Y = 0) = P(X = 0, Y = 1) = P(X = 0, Y = 0) = ,
4
alors les vecteurs (X, X) et (X, Y ) ont les mêmes lois marginales, mais des lois différentes.
26 Chapitre 2. Variables aléatoires et leurs lois
Propriété 2.3.3. La loi d’un vecteur aléatoire est caractérisée par P(X1 ∈ A1 , . . . Xn ∈ An )
pour toute famille d’intervalles ouverts (A1 , . . . An ). On appelle l’ensemble A1 ×A2 ×· · ·×An
un pavé de Rn .
Pour calculer les lois marginales d’une variable aléatoire, on peut utiliser la formule
suivante.
Propriété 2.3.4. Soit X = (X1 , . . . Xn ) un vecteur aléatoire, la loi marginale de X1 est
donnée par µX1 (A) = µ(A × Ωn−1 ).
Corollaire 2.3.5. 1. Si X1 , . . . Xn sont des variables aléatoires à densité par rapport à
la mesure de Lebesgue, pour tout x1 ∈ R, on a
Z
ϕX1 (x) = ϕX (x, x2 , . . . xn )dx2 . . . dxn .
Rn−1
Loi de Dirac. Pour a ∈ R, la loi de Dirac notée δa représente la loi d’une variable aléatoire
constante égale à a. Si X est de loi δa , on a E(X) = a et Var(X) = 0. D’ailleurs, toute
variable aléatoire ayant une variance nulle suit une loi de Dirac.
Loi uniforme discrète. Pour n ∈ N, la loi uniforme sur {1, . . . , n} modélise le choix,
uniformément au hasard, d’un nombre compris entre 1 et n. Soit X une variable aléatoire
de loi uniforme sur {1, . . . , n}, on a
1{1≤k≤n} n+1 n2 − 1
P(X = k) = , E(X) = , et Var(X) = .
n 2 12
On peut généraliser la notion de loi uniforme discrète au cas d’un espace E de cardinal fini
différent de {1, . . . , n}. Dans ce cas, la probabilité de choisir un élément de l’ensemble est
toujours donnée par 1/Card(E).
Loi de Bernoulli. Pour p ∈ [0, 1], la loi de Bernoulli de paramètre p, que l’on note B(p)
représente la loi d’une variable aléatoire valant 1 avec probabilité p, et 0 avec probabilité
1 − p. Soit X une variable aléatoire de loi B(p), on a
(
p si i = 1
P(X = i) = , E(X) = p et Var(X) = p(1 − p).
1−p si i = 0
On utilise souvent la loi de Bernoulli pour représenter le résultat d’une expérience aléatoire
ayant probabilité p de réussir.
Cette loi représente le nombre d’expériences réussies lorsqu’on répète n fois une expérience
ayant probabilité p de réussir.
Loi de Poisson. Pour λ ≥ 0, la loi de Poisson de paramètre λ, que l’on note P(λ) repré-
sente la loi d’une variable aléatoire à support dans N définie comme suit. Soit X une variable
aléatoire de loi P(λ), on a
λk
P(X = k) = e−λ , E(X) = λ et Var(X) = λ.
k!
On se réfère souvent à cette loi comme la “loi des événements rares”. En effet, elle appa-
raît comme la limite, lorsque n → ∞, des lois B(n, λ/n) (c.f. Chapitre 4. pour la notion de
limite de lois). En d’autres termes, elle représente le nombre d’occurrences positives d’une
expérience répétée à de très nombreuses reprises mais ayant une probabilité infinitésimale
de se produire. Elle apparaît ainsi naturellement dans de nombreux domaines de la phy-
sique (nombre d’atomes se désintégrant sur une période donnée), ou de la biologie (nombre
d’individus contaminés en une génération par un infecté).
28 Chapitre 2. Variables aléatoires et leurs lois
Loi géométrique. Pour p ∈ (0, 1], la loi Géométrique de paramètre p, notée G(p) est la
loi d’une variable aléatoire à support dans N∗ définie comme suit. Soit X une variable de loi
G(p), on a
1−p
P(X = k) = p(1 − p)k−1 , E(X) = 1/p et Var(X) = .
p2
Cette loi représente, pour une expérience ayant probabilité p de se produire, le nombre de
fois qu’il faut reproduire cette expérience pour observer une issue positive.
Loi uniforme. Pour a < b, la loi uniforme sur [a, b] est définie comme suit. Soit X une
variable aléatoire de loi uniforme sur [a, b], on a
1 a+b (b − a)2
ϕX (x) = 1 , E(X) = et Var(X) = .
b − a {x∈[a,b]} 2 12
1 1
ϕX (x) = λe−λx 1{x≥0} , E(X) = et Var(X) = .
λ λ2
La loi exponentielle est utilisée pour modéliser la durée de vie d’un phénomène sans mé-
moire ou sans vieillissement. En effet, on observe que X est une variable aléatoire de loi
exponentielle si et seulement si P (X ≥ x + y|X ≥ x) = P(X ≥ y) pour tout x, y ∈ R+ (c.f.
Chapitre 5 pour la définition de probabilité conditionnelle).
1 2 /2σ 2
ϕX (x) = √ e−(x−µ) , E(X) = µ, Var(X) = σ 2 .
2πσ 2
La loi normale (ou gaussienne) est souvent appelée “loi des erreurs” de par son apparition
dans le théorème central limite. C’est une loi utilisé à de très nombreuses reprises pour
modéliser notamment une erreur de mesure, ou la variabilité d’un paramètre dépendant
d’un grand nombre de facteurs extérieurs (taille d’une personne, rendement d’une récolte,
etc.). On remarquera que si Y est de loi N (0, 1), alors µ + σY ∼ N (µ, σ 2 ).
Loi Gamma. Pour a, θ ≥ 0, la loi Gamma de paramètres a et θ est notée Γ(a, θ) est une
loi à support dans R+ . Étant donné X une variable aléatoire de loi Γ(a), on a
1
ϕX (x) = xa−1 e−x/θ 1{x>0} , E(X) = aθ, Var(X) = aθ2 .
Γ(a)θk
2.5. Lois usuelles 29
On notera que si Y est de loi Γ(a, 1), alors θY ∼ Γ(a, θ). La fonction Γ éponyme introduite
dans la densité de la loi est la fonction Gamma d’Euler, définie par
Z ∞
Γ(a) = xa−1 e−x dx.
0
On notera que Γ(a + 1) = aΓ(a) par intégration par partie, et en particulier Γ(n + 1) = n!.
Loi Beta. Pour a, b ≥ 0, la loi Beta de paramètres a et b est notée B(a, b), et est définie
comme suit. Soit X une variable aléatoire de loi B(a, b), on a
Γ(a + b) a−1
ϕX (x) = x (1 − x)b−1 1{x∈(0,1)} ,
Γ(a)Γ(b)
a ab
E(X) = et Var(X) = .
a+b (a + b)2 (a + b + 1)
Exercices
Exercice 2.1 (Tribu produit et mesurabilité). 1. Soient (E, E) et (F, F) deux espaces de
probabilités, montrer que E ~ F est la plus petite tribu sur E × F telle que les
projections πE et πF de E × F sur E et F respectivement sont mesurables.
2. Montrer que B(R2 ) = B(R) ⊗ B(R).
Exercice 2.2 (Fonction de répartition inverse). Soit X une variable aléatoire réelle, on note
F sa fonction de répartition. Pour tout u ∈ (0, 1), on pose
3. Soit U une variable aléatoire de loi uniforme sur [0, 1], déterminer la loi de b1/U c.
4. Soit X une variable aléatoire de loi N (0, 1), déterminer la loi de X 2 .
Exercice 2.5 (Le paradoxe de Bertrand). On s’intéresse à la probabilité de l’événement A :
« une corde choisie au hasard sur le cercle unité ait une longueur plus grande que le côté du
triangle équilatéral inscrit ».
1. On choisit deux extrémités de la corde au hasard sur le cercle. Montrer que P(A) =
1/3.
2. On choisit le centre de la corde au hasard sur le disque unité. Déterminer la valeur
de P(A).
3. On choisit au hasard la direction du rayon orthogonal à la corde, puis le centre de la
corde uniformément sur ce rayon. Déterminer P(A).
Exercice 2.6. 1. Soit (X, Y ) un point tiré au hasard sur le disque unité R2 . Déterminer
la loi marginale de X.
2. Soit (X, Y, Z) un point tiré au hasard sur la sphère unité de R3 . Déterminer la loi
marginale de X.
CHAPITRE 3
Construction de mesures
“Where our language suggests a body and there is
none : there, we should like to say, is a spirit.”
————
Lorsque notre langage suggère un corps et qu’il n’y en a pas :
là, tenons-nous à dire, il y a un esprit.
Indépendance
“They pretend to themselves they are in control of
events where perhaps they are not.”
————
Ils nourrissent l’illusion de contrôler les événements quand ça
n’est peut-être pas le cas.