Introduction aux Probabilités
Introduction aux Probabilités
Thibaut Le Gouic
1ère année
2017-2018
Notations
— 1A désigne la fonction indicatrice
(
1 si x ∈ A,
1A (x) =
0 sinon.
1.1 Formalisme
L’essentiel de cette partie est un rappel des notions de l’intégration de Lebesgue. La nouveauté vient
principalement des versions probabilistes des mots utilisés.
Rappelons d’abord ce que sont une tribu et une mesure.
Définition 1 (Tribu).
Soit Ω un espace. On note P(Ω) l’ensemble des parties de Ω. Un ensemble A ⊂ P(Ω) est appelé tribu
ou σ-algèbre, s’il vérifie les trois propriétés suivantes :
1. φ ∈ A (contient l’ensemble vide)
2. A ∈ A =⇒ Ac ∈ A (stable par complémentaire)
S
3. (An )n≥1 ⊂ A =⇒ n≥1 An ∈ A (stable par union dénombrable).
Le couple (Ω, A) est appelé un espace mesurable.
Les éléments d’une tribu sont appelés des événements ou des ensembles mesurables.
Cette notion de tribu est essentielle et correspond à une notion d’information comme nous le verrons.
Pour un espace (E, d) métrique (et séparable), la plus petite tribu qui contient les boules est appelée la
tribu borélienne. On la note B(E). La tribu que nous utiliserons est la tribu borélienne sur R : B(R).
Nous avons déjà vu ce qu’est une fonction mesurable. Dans le vocabulaire du probabiliste, il s’agit d’une
variable aléatoire.
X −1 (B) ∈ A, ∀B ∈ E.
De plus, si (E, E) = (R, B(R)), on dit que X est une variable aléatoire réelle.
De la même façon, X est dite A0 -mesurable si
X −1 (B) ∈ A0 , ∀B ∈ E.
Toutes les transformations usuelles de variables aléatoires sont des variables aléatoires (i.e. elles préservent
la mesurabilité).
2
— f (X),
sont des variables aléatoires.
Par ailleurs, une fonction continue est mesurable (pour la tribu borélienne).
L’intérêt des tribus en probabilité est qu’elles permettent de modéliser l’information. Pour modéliser
l’information apportée par une variable aléatoire, on définit sa tribu engendrée.
Définition 4 (Tribu engendrée par une variable aléatoire).
Soit X : (Ω, A) −→ (E, E) une variable aléatoire. On appelle tribu engendrée par X la tribu sur A définie
par
σ(X) = {X −1 (B)|B ∈ E}.
On parle aussi de distribution de X. La mesure de probabilité est un objet qui décrit le comportement
aléatoire d’une observation.
Définition 8 (Loi à densité).
Soit (Ω, A, P) un espace probabilité. La mesure P est dite à densité par rapport à une mesure µ s’il existe
une fonction f mesurable positive telle que pour tout A ∈ A,
Z
P(A) = f dµ.
A
3
Définition 10 (Support d’une mesure positive).
Le support d’une mesure (de probabilité) est le plus petit (au sens de l’inclusion) fermé F tel que
P(F c ) = 0.
Dans la suite du cours, lorsque l’on parlera de variable aléatoire, il sera toujours sous-
entendu qu’elle est définie sur un espace mesuré (Ω, A, P)
x 7→ √ e− 2 σ 2
σ 2π
est appelée loi gaussienne ou loi normale de paramètre m et σ. On la note N (m, σ 2 ).
7. La loi ayant pour densité par rapport à la mesure de Lebesgue
1
x 7→ 1[a,b] (x)
b−a
est appelée loi uniforme sur [a, b]. On la note U([a, b]).
De la même façon, pour une fonction f mesurable, on peut définir l’espérance de f (X), lorsqu’elle existe,
par Z
Ef (X) = f (X(ω))dP(ω).
4
L’espérance est linéaire : pour deux variables aléatoires réelles X et Y , et une constante c,
E(X + cY ) = EX + cEY.
Étant données une variable aléatoire X sur un espace probabilisé (Ω, A, P), on s’interessera souvent à
déduire la loi PX de X. On utilisera pour ça les deux théorèmes suivants.
Pour une loi à densité par rapport à la mesure de Lebesgue, la densité de la loi caractérise la loi.
Pour une loi à densité par rapport à la mesure de comptage, la donnée de P(X = k) pour tout k ∈ N
caractérise la loi.
Les variables aléatoires réelles profitent de quelques définitions qui permettent de décrire une mesure de
probabilité.
Il existe différentes façons de définir une loi de probabilité. Nous avons vu le théorème 14 qui affirme que
h 7→ Eh(X)
Eh(X) = Eh(Y )
pour toute fonction h mesurable bornée, alors elles sont égales (i.e. PX = PY ). Pour le cas des variables
aléatoires réelles, il existe d’autres fonctions qui caractérisent une loi de probabilité, qui sont parfois plus
simples à manipuler.
5
1.
B 7→ PX (B), ∀B ∈ B(R)
2. la fonction de répartition
FX : t 7→ PX (] − ∞, t]), ∀t ∈ R
3. la fonction caractéristique
ϕX : t 7→ E(eitX ), ∀t ∈ R
4. la fonction génératrice des moments
t 7→ E(etX ), ∀t ∈ R
5. la fonction génératrice (si X à valeurs dans N),
s 7→ E(sX ), ∀s ∈ R+
Pour une loi à densité par rapport à la mesure de Lebesgue, la densité de la loi caractérise la loi.
Pour une loi à densité par rapport à la mesure de comptage, la donnée de P(X = k) pour tout k ∈ N
caractérise la loi.
Ces fonctions vérifient quelques propriétés utiles.
Proposition 18 (Propriétés de la fonction de répartition).
La fonction de répartition d’une variable aléatoire X est
— croissante,
— dérivable λ-p.p. si PX est absoluement continue par rapport à λ,
sa dérivée est alors la densité de PX par rapport à λ.
Proposition 19 (Propriétés de la fonction caractéristique).
La fonction caractéristique d’une variable aléatoire X est
— continue,
— dérivable p fois si E|X|p < ∞
Proposition 20 (Propriétés de la fonction génératrice des moments).
La fonction génératrice des moments d’une variable aléatoire X est dérivable n fois si E|X|n < ∞. Dans
ce cas, sa n-ème dérivée en 0 est EX n .
La fonction génératrice des moments n’existe pas toujours.
Proposition 21 (Propriétés de la fonction génératrice).
La fonction génératrice d’une variable aléatoire X est définie lorsque X est à valeurs dans N. Sa n-ème
dérivée en 0 vaut alors
(n)
GX (0) = n!PX ({n}).
2 Inégalités
On cherche souvent à connaître la probabilité de certains événements, à partir de connaissances limitées
sur la loi. Il existe pour cela des inégalités qui permettent de contrôler ces probabilités.
Théorème 22 (Jensen).
Soient X une variable aléatoire réelle et Φ une fonction convexe. Alors
Φ(EX) ≤ EΦ(X).
Théorème 23 (Markov).
Soient X une variable aléatoire réelle. Alors, pour tout a > 0,
E|X|
P(|X| > a) ≤ .
a
Théorème 24 (Bienaymé-Tchebychev).
Soient X une variable aléatoire réelle. Alors, pour tout a > 0,
V ar(X)
P(|X − EX| > a) ≤ .
a2
Théorème 25 (Cauchy-Schwarz).
Soient X, Y ∈ L2 deux variables aléatoires réelles. Alors,
√
E|XY | ≤ EX 2 EY 2 .
6
3 Suites et vecteurs aléatoires
Comme nous avons vu, une variable aléatoire est une fonction mesurable d’une espace mesuré (Ω, A, P) à
valeurs dans un espace mesuré (E, T ). Lorsque (E, T ) = (Rn , B(Rn )), X est appelé un vecteur aléatoire.
Dans ce cas, X = (X1 , ..., Xn ). C’est ce que nous avons fait implicitement dans l’inégalité de Cauchy-
Schwarz.
De la même façon, on peut définir une suite de variables aléatoires (Xn )n≥1 .
On peut donc maintenant parler de couple de variables aléatoires.
Définition 26 (Covariance).
Soient (X, Y ) un couple de variables aléatoires tels que X et Y admettent un moment d’ordre 2. On note
la covariance de (X, Y ).
D’une manière plus générale, pour un vecteur aléatoire (X1 , ..., Xn ), la matrice de variance-covariance
Σ du vecteur (X1 , ..., Xn ) est définie par
Définition 27 (Indépendance).
Soit (X1 , ..., Xn ) un vecteur aléatoire. Les variables X1 , ... Xn sont dites indépendantes si pour tous
A1 , ..., An ∈ B(R),
P(X1 ∈ A1 , ..., Xn ∈ An ) = Πni=1 P(Xi ∈ Ai ).
De manière équivalente, pour toutes fonctions f1 , ..., fn mesurables bornées,
Remarque.
La notion d’indépendance est en fait une notion relative aux tribus. Dire que les variables aléatoires X
et Y sont indépendantes, signifie en fait que les tribus σ(X) et σ(Y ) sont indépendantes.
Il existe un résultat liant la covariance et l’indépendance.
Cov (X, Y ) = 0.
7
Attention, il ne suffit pas que chacun des X1 , ..., Xn soit gaussien pour que (X1 , ..., Xn ) soit un vecteur
gaussien !
Bien que la réciproque du théorème 28 soit fausse en général, elle est valide pour les vecteurs gaussiens.
Attention, il s’agit du cas très particulier des vecteurs gaussiens. C’est très généralement faux si les
vecteurs ne sont pas gaussiens !
3. dans L1 si
n→∞
E|Xn − X| −→ 0.
4. dans Lp si
n→∞
E|Xn − X|p −→ 0.
5. en loi si pour toute fonction f continue bornée,
n→∞
Ef (Xn ) −→ Ef (X).
Remarque.
La convergence en loi est en fait une convergence de la loi de Xn vers la loi de X. Il s’agit d’une
convergence de mesures et non une convergence de variables aléatoires. On parle alors de la convergence
faible de PXn vers PX .
Comme le veut l’usage, nous parlerons aussi de convergence en loi des variables aléatoires pour désigner
la même convergence.
Toutes ces convergences sont liées par des implications.
8
La convergence en loi (la plus faible), est très pratique car elle est la plus simple à montrer et permet,
dans certains cas, d’affirmer que la probabilité d’un événement converge.
Théorème 34 (Caractérisation de la convergence faible).
Soient (Xn )n≥1 une suite de variables aléatoires définies sur un espace (Ω, A, P) à valeurs dans un espace
E et X une variable aléatoire définie sur le même espace. Alors, les assertions suivantes sont équivalentes.
1. Xn converge en loi vers X,
2. pour tout ouvert O de E, lim inf P(Xn ∈ O) ≥ P(X ∈ O),
3. pour tout fermé F de E, lim sup P(Xn ∈ F ) ≤ P(X ∈ F ),
4. pour tout borélien B de E tel que P(X ∈ ∂B) = 0, lim P(Xn ∈ B) = P(X ∈ B).
Si de plus, E = R (autrement dit, les variables aléatoires sont réelles), elles sont aussi équivalentes aux
assertions suivantes.
5. la fonction de répartition Fn de Xn converge vers la fonction de répartition F de X en tout point
où F est continue, i.e.
Fn (t) → F (t), pour tout t tel que F est continue en t,
5 Mesure empirique
Étant donnée une suite (Xi )i≥1 de variables aléatoires indépendantes et de même loi PX , toutes les
variables aléatoires Xi ontP
la même espérance EX1 qui correspond à la valeur moyenne sur l’aléa de X1 .
n
La moyenne empirique n1 i=1 Xi correspond à la valeur moyenne sur le "temps" n. La loi des grands
nombres indique que ces deux notions coïncident.
9
Théorème 38 (Loi des grands nombres).
Soit (Xi )i≥1 une suite de variables aléatoires indépendantes et de même loi PX . Alors si E|X1 | < ∞,
n
1X
Xi −→ EX1 p.s. et dans L1 .
n i=1
Remarque.
Des variables aléatoires indépendantes ayant toutes une même loi sont dites i.i.d. (pour indépendantes
et identiquement distribuées).
Il est possible d’avoir un théorème encore plus fort, qui justifie l’utilisation des statistiques.
Définition 39 (Mesure empirique).
Soit (Xi )1≤i≤n un vecteur de n variables aléatoires i.i.d.. On appelle mesure empirique, la mesure Pn
définie par
n
1X
ω 7→ δX (ω) .
n i=1 i
6 Espérance conditionnelle
Lors de la modélisation d’une expérience aléatoire par un couple de variables aléatoires (X, Y ), il est
possible que l’on observe la variable aléatoire X avant Y . Cette observation nous apporte de l’information
sur Y et modifie donc sa loi. Pour rendre compte de cette "mise à jour" de la loi de probabilité de X, on
définit la loi conditionnelle de X sachant Y . Pour y parvenir, nous allons dans un premier temps définir
l’espérance conditionnelle.
Pour pouvoir la définir, nous allons utiliser le lemme suivant.
Lemme 42 (Lemme de Doob).
Soient X et Y deux variables aléatoires définies sur un même espace, à valeurs dans (E, E) et (Rd , B(Rd ),
respectivement. Alors,
Y est σ(X)-mesurable ⇔ il existe une fonction f borélienne telle que Y = f (X).
10
Maintenant nous pouvons étendre cette définition à n’importe quelle sous-tribu G ⊂ A.
Nous souhaitons étendre la définition donnée dans le cadre L2 aux v.a. dans L1 (Ω, A, P). Cette extension
commence par l’extension aux v.a. dans L+ (Ω, A, P) puis aux v.a. dans L1 (Ω, A, P) en remarquant que
si X ∈ L1 (Ω, A, P) alors il existe X + et X − dans L+ (Ω, A, P) telles que X = X + − X − .
E(Y |G).
Remarque.
Lorsque Y ∈ L2 (Ω, A, P), cette définition correspond à celle donnée ci-dessus pour les v.a. dans L2 (Ω, A, P).
Théorème 46.
Soient Y ∈ L1 (Ω, A, P) et G une sous-tribu de A. Alors
i. Si Y ≥ 0, alors E(Y |G) ≥ 0.
ii. L’application Y 7→ E(Y |G) est linéaire.
Les trois théorèmes suivants sont très importants car ils permettent une manipulation aisée des v.a. et
de leurs espérances conditionnelles.
Théorème 47.
Soient Y ∈ L1 (Ω, A, P) et G une sous-tribu de A. Alors
Le théorème suivant concerne le cas où on conditionne par rapport à une v.a. indépendante de la v.a. Y .
Théorème 48.
Soient Y ∈ L1 (Ω, A, P) et X une v.a.. Si X et Y sont indépendantes, alors
Ce théorème signifie que la connaissance de la v.a. X ne nous est d’aucune utilité pour prédire la v.a. Y .
Théorème 49.
Soient X et Y deux v.a. sur (Ω, A, P) et G une sous-tribu de A. Supposons que la X est G-mesurable.
Alors dans les deux cas suivants :
— X, Y et XY sont intégrables,
— X et Y sont positives,
on a
E(XY |G) = XE(Y |G).
11
Enfin, à l’image des théorèmes de convergence pour l’espérance classique, nous avons le théorème suivant
présentant les convergences dans le cas de l’espérance conditionnelle.
Théorème 50.
Soient (Yn )n∈N? une suite de v.a. de (Ω, A, P) et G une sous-tribu de A.
Convergence monotone : Si Yn ≥ 0 pour tout n ∈ N? et Yn croît vers une v.a. Y presque sûrement,
alors
lim E(Yn |G) = E(Y |G) p.s.
n→+∞
Théorème 51.
Soit φ : R 7→ R une fonction convexe et soit X une v.a. dans L1 (Ω, A, P). Supposons que φ(X) ∈
L1 (Ω, A, P). Pour toute sous-tribu G de A, on a
φ (E(X|G)) ≤ E (φ(X)|G) .
Nous commençons par définir la probabilité de transition qui apparaît aussi dans l’étude des processus.
Définition 52.
Soient (Ω, A) et (F, F) deux espaces mesurables. On appelle probabilité de transition de Ω dans F une
application de Ω × F dans [0, 1] :
n : (ω, A) 7→ n(ω, A),
telle que
i. pour tout ω ∈ Ω, l’application A ∈ F 7→ n(ω, A) est une probabilité sur (F, F),
ii. pour tout A ∈ F, l’application ω 7→ n(ω, A) est A-mesurable.
Voici quelques propriétés de la probabilité de transition.
Théorème 53.
Soit n une probabilité de transition de (Ω, A) dans (F, F).
R
i. Si g est une fonction mesurable sur (F, F) positive ou bornée, alors φ(ω) = F g(t) n(ω, dt) est
une fonction mesurable sur (Ω, A) positive ou bornée.
R
ii. Si µ est une probabilité sur (Ω, A), alors ν(A) = Ω n(ω, A) µ(dω) est une probabilité sur (F, F).
De plus pour toute fonction positive ou bornée, on a
Z Z Z
h(t)ν(dt) = h(t) n(ω, dt) µ(dω).
F Ω F
Définition 54.
Soient X et Y deux v.a. à valeurs respectivement dans (E, E) et (F, F). On appelle loi conditionnelle
de Y sachant X une probabilité de transition de E dans F , notée n(x, dy), telle que pour toute fonction
positive h F-mesurable, Z
E(h(Y )|X) = h(y) n(X, dy) p.s.
F
12
Pour démontrer que n(x, dy) est la loi conditionnelle de Y sachant X = x, il est nécessaire et suffisant de
vérifier que pour toutes fonctions h, g ≥ 0 ou bornées,
Z
E (h(Y ) g(X)) = E g(X) h(y) n(X, dy) .
F
Remarque : il faut noter que la loi conditionnelle de Y sachant X n’est pas unique. En effet, elle est définie
presque sûrement.
Voici une proposition très utile pour calculer la loi conditionnelle.
Proposition 55.
Soient Y et X des v.a. dans Rq et Rp . On suppose que la loi du couple (Y, X) admet une densité f (y, x)
par rapport à la mesure ν ⊗ µ (mesures σ-finies sur Rq et Rp ). On pose
Z
φ(x) = f (y, x) µ(dy),
Rq
Γ = {x ∈ Rp : φ(x) = 0} ,
h(y, x) = f (y, x)/φ(x), ∀x 6∈ Γ.
Alors la loi conditionnelle de Y sachant X est donnée par la probabilité de transition n(x, dy) = h(y, x)ν(dy)
pour x 6∈ Γ et définie arbitrairement pour x ∈ Γ.
La fonction h(y, x) s’appelle la densité conditionnelle de Y sachant X.
La connaissance de la loi conditionnelle de Y sachant X et de la loi de X permet de calculer l’espérance
de toute fonction dans L1 (E × F ).
Proposition 56.
Soient Y et X des v.a. à valeurs dans Rq et Rp . Soit ρ la loi de X et n(x, dy) la loi conditionnelle de Y
sachant X. Alors pour toute fonction h dans L1 (Rp × Rq ), on a
Z Z
E (h(X, Y )) = h(x, y) n(x, dy) ρ(dx).
Rp Rq
13