100% ont trouvé ce document utile (1 vote)
82 vues67 pages

Cours de Probabilites 2024-2025: 25 Novembre 2024

Transféré par

mouhamedbachir6c
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
82 vues67 pages

Cours de Probabilites 2024-2025: 25 Novembre 2024

Transféré par

mouhamedbachir6c
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

COURS DE PROBABILITES

2024-2025

25 novembre 2024
Table des matières

1 Espaces de probabilités finies 4


1.1 Evénement aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Modélisation ensembliste des événements aléatoires . . . . . . . . . . . . . 6
1.2 Probabilités sur un espace fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Probabilités uniformes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Espaces de probabilités 12
2.1 Les ensembles infinis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Notion de tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Variables aléatoires réelles 20


3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 Variable aléatoire réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.3 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.4 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Caractéristiques des variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . 23
3.2.1 Espérance des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2 Propriétés de l’espérance d’une v.a.r. . . . . . . . . . . . . . . . . . . . . . 24
3.2.3 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Quelques exemples de variables aléatoires discrètes . . . . . . . . . . . . . . . . . 27
3.3.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Quelques exemples de variables aléatoires continues . . . . . . . . . . . . . . . . . 30
3.4.1 Loi uniforme sur [a, b] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.4 Loi normale de paramètres (m, σ 2 ) (ou gaussienne) . . . . . . . . . . . . . 34

1
4 Propriétés des variables aléatoires 37
4.1 Fonctions génératrice et caractéristique d’une variable aléatoire discrète . . . . . . 37
4.1.1 Fonction génératrice d’une variable aléatoire discrète . . . . . . . . . . . . 37
4.1.2 Fonction caractéristique d’une variable aléatoire discrète . . . . . . . . . . 38
4.2 Fonctions caractéristique et transformée de Laplace d’une variable aléatoire continue 39
4.2.1 Fonction caractéristique d’une variable aléatoire continue . . . . . . . . . . 39
4.2.2 Transformée de Laplace d’une variable aléatoire continue . . . . . . . . . . 40
4.3 Changement de variable et inégalités . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.1 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.2 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Vecteurs aléatoires 43
5.1 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.1 Fonction de répartition d’un vecteur aléatoire . . . . . . . . . . . . . . . . 43
5.1.2 Lois et espérance d’un vecteur aléatoire discret . . . . . . . . . . . . . . . . 44
5.1.3 Densité et espérance d’un vecteur aléatoire continu . . . . . . . . . . . . . 46
5.1.4 Indépendance d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . 48
5.1.5 Variance, covariance et coefficient de corrélation linéaire . . . . . . . . . . 51
5.1.6 Espérance et variance de la transformation affine d’un vecteur aléatoire . . 54
5.2 Somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Lois et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.1 Loi et espérance conditionnelles pour des variables aléatoires discrètes . . . 57
5.3.2 Densité et espérance conditionnelles pour des variables aléatoires continues 59

6 Théorèmes limites 61
6.1 Différents modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.3 Convergence en moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.1 Loi (faible) des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.2 Loi (forte) des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2
Introduction et objectifs

L’objectif de ce cours de probabilités est de donner quelques outils qui serviront de pré-requis
pour d’autres cours où les probabilités et les statistiques interviennent.

Le cours magistral de 30h CM est organisé comme suit :


• Chapitre 1 : Espaces de probabilités finies
• Chapitre 2 : Espaces de probabilités
• Chapitre 3 : Variables aléatoires réelles
• Chapitre 4 : Propriétés des variables aléatoires
• Chapitre 5 : Vecteurs aléatoires
• Chapitre 6 : Convergence et théorèmes limites

Il sera complété par 21h TD (Travaux Dirigés) et 6h TT (Travaux Tutorés : ce sont des travaux
qui donnent lieu à une note), ainsi que par de la simulation aléatoire sous la forme de 12h TP
(Travaux Pratiques) et 3h TT.

3
Chapitre 1

Espaces de probabilités finies

La notion de probabilités a été introduite pour quantifier le hasard. Lorsqu’on lance un dé de


nombreuses fois dans des conditions identiques, le résultat change de manière imprévisible. On
dit que c’est un phénomène aléatoire.

En réalité, le dé a une trajectoire parfaitement définie en mécanique classique et le hasard illustre


l’impulsion donnée au dé, le type et la surface du matériau sur lequel il est jeté, ...

En probabilités, on relie généralement le hasard à des phénomènes que l’on ne maîtrise pas (les
variations de durées de vie, la génétique, ...).

De plus, l’observation d’un grand nombre de phénomènes aléatoires, répétés dans des conditions
identiques, permet souvent de déceler des lois régissant les résultats (la fréquence d’apparition de
chaque résultat, la valeur moyenne de ces résultats,...). Par exemple, 1000 lancers d’une pièce non
truquée donneront environ 50% de piles et 50% de faces. Cette stabilité, appelée loi des grands
nombres, va nous conduire à des modèles mathématiques.

1.1 Evénement aléatoire

1.1.1 Définitions

Définition 1
Une expérience aléatoire est une expérience dont les résultats (ou issues) sont connus sans
que l’on puisse déterminer lequel sera réalisé.

Exemple 1 Lancer d’un dé. Les issues possibles sont 1, 2, 3, 4, 5 et 6 mais on ne sait pas sur
laquelle on va tomber.

Définition 2
On appelle univers associé à une expérience aléatoire, l’ensemble Ω de tous les résultats
possibles de cette expérience.

4
Dans l’exemple 1 du lancer d’un dé, Ω = {1, 2, 3, 4, 5, 6}.

Exemple 2 Dans certains cas, le choix de Ω a une part d’arbitraire.


1. Lancer d’une pièce : Ω = {pile, f ace} ou Ω = {pile, f ace, tranche}.
2. Nombre de pannes d’une voiture durant une année : Ω = N.
3. Durée de vie d’une voiture : Ω = R+ .

On note que Ω peut être :


• fini càd on peut compter ses éléments (exemple : Ω = {pile, f ace}),
• dénombrable càd Ω a une infinité d’élements que l’on peut numéroter (exemple : Ω = N),
• infini non dénombrable càd Ω a une infinité d’éléments mais on ne peut pas les numé-
roter (exemple : Ω = R+ ).
Lorsque Ω est fini ou dénombrable, on parle d’univers discret. Sinon, on parle d’univers
continu.

Définition 3
On appelle événement aléatoire, associé à une expérience aléatoire, une proposition logique
représentée par un sous-ensemble de Ω.

Exemple 3 Lancer d’une pièce équilibrée deux fois de suite : Ω = {P P, P F, F P, F F }.


Considérons l’événement aléatoire A : "obtenir pile deux fois de suite".
Alors, A = {P P } et on a bien A ⊂ Ω.

Définition 4
On dit que l’événement A est réalisé si le résultat observé ω ∈ A.

Dans l’exemple 3, l’événement A est réalisé si le résultat observé est PP.

Puisque les événements aléatoires sont des ensembles, nous allons rappeler les opérations élémen-
taires classiques de la théorie des ensembles.

5
1.1.2 Modélisation ensembliste des événements aléatoires

Définition 5
On dit que Ω est l’événement certain et ∅ est l’événement impossible.

Définition 6
Soient A et B deux événements d’un univers Ω, ce que l’on note A, B ⊂ Ω ou encore
A, B ∈ P(Ω) qui est l’ensemble des parties de Ω.

• L’événement contraire à A est représenté par A : le résultat de l’expérience n’appar-


tient pas à A.
• L’événement "A et B sont réalisés" est représenté par A ∩ B : le résultat de l’ex-
périence se trouve à la fois dans A et dans B.
• L’événement "A ou B est réalisé" est représenté par A∪B : le résultat de l’expérience
se trouve dans A ou dans B ou dans les deux si A ∩ B 6= ∅.
• L’événement "A entraîne la réalisation de l’événement B" est représenté par
A ⊂ B : si le résultat de l’expérience se trouve dans A, alors il se trouve aussi dans B.
• A et B sont dits incompatibles (ou disjoints) lorsque A ∩ B = ∅ : le résultat de
l’expérience ne peut être à la fois dans A et dans B.

Proposition 1
Opérations sur le complémentaire :

A = A, A ∩ B = A ∪ B, A ∪ B = A ∩ B.

Remarque 1 Remarques sur le complémentaire :


• On note "A moins B" l’ensemble A \ B = A ∩ B.
• A ⊂ B ⇔ B ⊂ A.
• A ∩ B = ∅ ⇔ A ⊂ B ⇔ B ⊂ A.

Exemple 4 Lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6}.


A : "obtenir un résultat pair". Alors, A = {2, 4, 6}.
B : "obtenir un résultat strictement supérieur à 3". Alors, B = {4, 5, 6}.
A ∩ B : "obtenir un résultat pair strictement supérieur à 3". Alors, A ∩ B = {4, 6}.
A ∪ B : "obtenir un résultat pair ou strictement supérieur à 3". Alors, A ∪ B = {2, 4, 5, 6}.
A \ B : "obtenir un résultat pair inférieur ou égal à 3". Alors, A \ B = {2}.
A : "obtenir un résultat impair". Alors, A = {1, 3, 5}.

6
1.2 Probabilités sur un espace fini

1.2.1 Définitions

Définition 7
Un ensemble Ω non vide est fini ssi

∃n ∈ N∗ : ∃ une bijection de Ω dans J1, nK.

On appelle Card(Ω) le cardinal de Ω, càd son nombre d’éléments.

Ici, Card(Ω) = n. Par convention, Card(∅) = 0.

Exemple 5 Supposons que Ω = {ω1 , ..., ωn } avec n ∈ N∗ . Alors, Ω est fini.


C’est le cas du lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6} et Card(Ω) = 6.

Définition 8
Une probabilité sur Ω fini est une application P : P(Ω) → [0, 1] telle que :

• ∀A ∈ P(Ω), 0 ≤ P(A) ≤ 1, (1.1)


• P(Ω) = 1, (1.2)
• ∀A, B ∈ P(Ω), P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅. (1.3)

(Ω, P(Ω), P) est appelé espace de probabilité.

Proposition 2
Soit Ω fini et (Ω, P(Ω), P) un espace de probabilité. On suppose que les ensembles suivants
appartiennent à P(Ω).

• P(∅) = 0, (1.4)
• P(A) = 1 − P(A), (1.5)
• P(B \ A) = P(B) − P(A ∩ B), (1.6)
• si A ⊂ B, P(B \ A) = P(B) − P(A), (1.7)
• si A ⊂ B, P(A) ≤ P(B), (1.8)
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B), (1.9)
n
! n
[ X
• P Ai = P(Ai ) si les Ai sont 2 à 2 incompatibles (n ≥ 2). (1.10)
i=1 i=1

Preuve.

7
1.2.2 Probabilités uniformes

Définition 9
Une probabilité sur Ω fini est uniforme si chaque élément ω ∈ Ω a la même chance de
réalisation, càd si :
1
∀ω ∈ Ω, P({ω}) = .
Card(Ω)

Exemple 6 Pour le lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6} et


1
∀ω ∈ Ω, P({ω}) = .
6
Il résulte de cette définition que :

Proposition 3
Si P est une probabilité uniforme sur Ω fini, alors
Card(A)
X X 1 Card(A)
∀A ⊂ Ω, P(A) = P({ω}) = = .
ω∈A i=1
Card(Ω) Card(Ω)

Exemple 7 Lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6}.


Considérons l’événement A : "obtenir un résultat pair". Alors, A = {2, 4, 6} est une réunion
disjointe de singletons et les éléments de A ont la même chance d’apparition donc
1 1
P(A) = P ({2} ∪ {4} ∪ {6}) = P({2}) + P({4}) + P({6}) = 3 ∗ = .
6 2

8
Proposition 4
Rappels de dénombrement :

Soient k, n ∈ N∗ avec k ≤ n.

• Le nombre de permutations d’un ensemble à n éléments est n!.


Par convention, 0! = 1 et 1! = 1.

Par exemple, si l’ensemble de départ est {1, 2, 3}, alors il y a 3! = 3 ∗ 2 ∗ 1 = 6 permu-


tations : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1).

• Le nombre d’arrangements d’un ensemble à k éléments dans un ensemble à n éléments


est
n!
(lire A, n, k) Akn = = n(n − 1)...(n − k + 1).
(n − k)!
En clair, pour le 1er élément, nous avons n possibilités. Pour le 2ème, il reste (n − 1)
possibilités...

• Le nombre de combinaisons à k éléments dans un ensemble à n éléments est


Ak
 
n n!
= = n = Cnk .
k k!(n − k)! k!

Dans ce cas, il n’y a pas d’ordre.

Exemple 8 On dispose d’une urne contenant n boules identiques et on effectue k tirages avec
k ≤ n.
• Tirages successifs avec remise : Card(Ω) = nk .
n!
• Tirages successifs sans remise : Card(Ω) = n(n − 1)...(n − k + 1) = = Akn .
(n − k)!
Akn
 
n
• Tirage simultané : Card(Ω) = = car on ne tient pas compte des permutations (les
k! k
boules ne sont pas identifiables, on ne peut pas les ordonner).

9
Proposition 5
Propriétés des combinaisons

• ∀n, k ∈ N tels que k ≤ n, on a :


   
n n
= .
k n−k

• ∀n, k ∈ N tels que 1 ≤ k < n, on a le triangle de Pascal :


     
n−1 n−1 n
+ = .
k−1 k k

• Binôme de Newton
n  
n
X n
∀a, b ∈ R, ∀n ∈ N, (a + b) = ak bn−k .
k
k=0

Correction.

1.3 Variables aléatoires


En probabilité, on préfère avoir un point de vue fonctionnel plutôt qu’ensembliste, càd que l’on
préfère utiliser des variables aléatoires plutôt que des événements. Ce choix est motivé par le fait
que la théorie associée aux fonctions est bien plus développée et facile à utiliser que la théorie
des ensembles.

Définition 10
Soient Ω et F deux ensembles finis et (Ω, P(Ω), P) un espace de probabilité.

• Une variable aléatoire X est une application X : Ω → F .


• La probabilité PX définie sur P(F ) par

∀A ⊂ F, PX (A) = P(X −1 (A)) = P({ω ∈ Ω : X(ω) ∈ A})

est appelée loi de la variable X ou distribution de X.

Remarque 2 Une variable aléatoire, malgré son nom, n’est pas une variable (au sens de l’ana-
lyse), mais une fonction de la variable ω ∈ Ω.

10
Remarque 3 En pratique, on utilise les abus de notations suivants :

∀a ∈ F, PX ({a}) = P(X = a) et ∀A ⊂ F, PX (A) = P(X ∈ A).

Exemple 9 On lance une pièce équilibrée 3 fois. Alors

Ω = {P P P, P P F, P F P, P F F, F P P, F P F, F F P, F F F }.

Comme la pièce est équilibrée, nous avons une probabilité uniforme P et donc
 3
1 1 1
∀ω ∈ Ω, P({ω}) = = = .
Card(Ω) 8 2
Intéressons-nous à la variable aléatoire X associée au nombre de piles. Alors, X ∈ {0, 1, 2, 3} et
1 3 3 1
P(X = 0) = , P(X = 1) = , P(X = 2) = et P(X = 3) = .
8 8 8 8
Conclusion : PX n’est pas uniforme.

Définition 11
Soit X une variable aléatoire et PX sa loi. La fonction de répartition de X est la fonction :

FX : R → [0, 1]
.
x 7→ P(X ≤ x)

Définition 12
Soient Ω = {x1 , ..., xn } fini et (Ω, P(Ω), P) un espace de probabilité.

• On appelle espérance (ou moyenne) d’une variable aléatoire X le réel


n
X
E(X) = xi ∗ P(X = xi ).
i=1

• On appelle variance d’une variable aléatoire X le réel


n
X
Var(X) = (xi − E(X))2 ∗ P(X = xi ).
i=1

• L’écart type d’une variable aléatoire X est le réel


p
σ(X) = Var(X).

11
Chapitre 2

Espaces de probabilités

Lorsque l’espace Ω n’est pas fini, la définition 8 n’est pas suffisante.

Si nous jouons n fois à Pile ou Face, Ω = {P, F }n est fini et de cardinal 2n si nous supposons
que la pièce n’est pas truquée. Considérons l’événement An :"on ne tire jamais Pile lors des n
tirages", alors An ⊂ Ω et
Card(An ) 1
P(An ) = = n.
Card(Ω) 2

Si le jeu se poursuit indéfiniment, alors Ω = {P, F }N est un ensemble infini. Si l’on considère
l’événement A :"on ne tire jamais Pile", alors A est obtenu par
\passage à la limite des An , au
sens où les An sont décroissants (i.e. An+1 ⊂ An ) et où A = An . Formellement, on a envie
n
d’écrire
P(A) = lim P(An ) = 0.
n→∞

Dans la définition 8, il manque donc un axiome permettant le passage à la limite pour les en-
sembles Ω infinis (que nous diviserons en deux catégories : les ensembles dénombrables et les
ensembles infinis non dénombrables).

2.1 Les ensembles infinis

Définition 13
Un ensemble Ω est dénombrable s’il est en bijection avec N, c’est à dire si l’ensemble de
ses éléments peut être mis sous la forme d’une suite (xn )n∈N .

Exemple 10 Ensembles dénombrables


N et N∗ sont des ensembles dénombrables.
• N est dénombrable : on considère la bijection N → N, n 7→ n (c’est l’identité).
• N∗ est dénombrable : on considère la bijection N∗ → N, n 7→ n − 1.

12
Proposition 6
Si un ensemble n’est ni fini ni dénombrable, on dit qu’il est infini non dénombrable.

Nous avons les propriétés suivantes :


• Un ensemble est infini ssi il contient une partie dénombrable.
• Tout ensemble dénombrable est infini, mais la réciproque est fausse.
• Toute partie d’un ensemble dénombrable est finie ou dénombrable.
On dit qu’elle est au plus dénombrable.

Exemple 11 Ensembles infinis non dénombrables


Tout intervalle [a, b], avec a < b, est infini non dénombrable.

2.2 Notion de tribu


Si Ω est fini ou dénombrable, alors P(Ω) est stable par les opérations sur les ensembles. En
revanche, si Ω est infini non dénombrable, P(Ω) est trop gros pour décrire l’expérience. On
considère alors A ⊂ P(Ω) et on va exiger une stabilité de A par rapport aux opérations sur les
ensembles.

Définition 14
Soit Ω un univers. Une tribu est un ensemble A ⊂ P(Ω) tel que
• Ω ∈ A,
• si A ∈ A, alors A ∈ A,
[
• si (An )n∈N est une suite d’éléments de A, alors An ∈ A.
n∈N
Le couple (Ω, A) est appelé espace mesurable.

Remarque 4 En passant au complémentaire, A ∪ B = A ∩ B. On peut donc montrer que la


stabilité par rapport à la réunion (3ème propriété) implique une stabilité par rapport à l’intersec-
tion.

Remarque 5 On en déduit qu’une tribu A est alors stable par réunion et intersection finies.

Exemple 12 Exemples de tribus


• A = {∅, Ω} est la plus petite tribu : c’est la tribu grossière ou triviale.
• A = {∅, A, A, Ω} est la plus petite tribu qui contient A : c’est la tribu engendrée par A.
• A = P(Ω) = {A : A ⊂ Ω} est la tribu que nous choisirons si Ω est fini ou dénombrable.
• Pour Ω = R, on définit la tribu borélienne, notée B(R), comme étant la plus petite tribu
de R qui contient tous les intervalles de R.

13
2.3 Espace de probabilité
La mesure de probabilité (ou plus simplement probabilité) d’un événement A est un nombre qui
rend compte du degré de vraisemblance que l’on accorde à la réalisation de cet événement lors
de l’expérience aléatoire.

Définition 15
Une probabilité P sur l’espace mesurable (Ω, A) est une application telle que
• ∀A ∈ A, 0 ≤ P(A) ≤ 1,
• P(Ω) = 1,
• si (An )n∈N est une famille d’éléments de A, 2 à 2 incompatibles, alors
!
[ X
P An = P(An ). (2.1)
n∈N n∈N

Cette propriété est appelée axiome de σ-additivité.

Le triplet (Ω, A, P) est appelé espace de probabilité (ou espace probabilisé).

Remarque 6 L’axiome de σ-additivité entraîne que la série de terme général P(An ) est conver-
gente.
Proposition 7
Soit (Ω, A, P) un espace de probabilité. Il y a équivalence entre :
1. L’axiome de σ-additivité,
2. Pour toute suite (An )n∈N croissante de parties de Ω, i.e. An ⊂ An+1 pour tout n,
!
[
P An = lim P(An ),
n→+∞
n∈N

3. Pour toute suite (An )n∈N décroissante de parties de Ω, i.e. An+1 ⊂ An pour tout n,
!
\
P An = lim P(An ).
n→+∞
n∈N

Preuve.

14
Remarque 7 Ce résultat entraîne en particulier que si (An )n∈N est une suite croissante ou dé-
croissante d’événements, la suite (P(An ))n∈N admet une limite quand n tend vers l’infini.

Remarque 8 Cette proposition répond donc au problème de modélisation que l’on s’était posé
en introduction de ce chapitre. Cet axiome est plus fort que la propriété de σ-additivité quand Ω
est fini.

Définition 16
Soit (Ω, A, P) un espace de probabilité.
• L’événement A ∈ A est dit négligeable si P(A) = 0.
• L’événement A ∈ A est dit P-presque-sûrement (en abrégé P-p.s.) si P(A) = 1.

De plus, nous retrouvons les propriétés du cas Ω fini, ainsi que d’autres.

Proposition 8
Propriétés des probabilités

Soit (Ω, A, P) un espace de probabilité. On suppose que tous les ensembles suivants sont
dans A.
1. P(∅) = 0,
2. P(A) = 1 − P(A),
3. si A ⊂ B, P(B \ A) = P(B) − P(A) et P(A) ≤ P(B),
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
N
! N
[ X
5. si A0 , ..., AN sont 2 à 2 incompatibles, alors P An = P(An ),
n=0 n=0
6. si A est fini ou dénombrable, alors
X
P(A) = P({ω}).
ω∈A

N
! N
[ X
7. P An ≤ P(An ),
n=0 n=0
!
[ X
8. P An ≤ P(An ).
n∈N n∈N

Preuve.

15
2.4 Probabilités conditionnelles et indépendance

2.4.1 Probabilités conditionnelles

Définition 17
Soit (Ω, A, P) un espace de probabilité. Soient A et B deux événements aléatoires tels que
P(A) 6= 0. On appelle probabilité conditionnelle de B sachant A la quantité

P(A ∩ B)
PA (B) = P(B|A) = .
P(A)

Remarque : On a les égalités suivantes :

Si P(A) > 0, P(A ∩ B) = P(B|A) × P(A).


Si P(B) > 0, P(A ∩ B) = P(A|B) × P(B).

Proposition 9
Formule des probabilités composées

Soit (Ω, A, P) un espace de probabilité. Soit (Ai )i∈J1,nK une famille de n événements aléa-
toires telle que P(A1 ∩ ... ∩ An−1 ) > 0. Alors,

P(A1 ∩ ... ∩ An ) = P(A1 ) × P(A2 |A1 ) × P(A3 |A1 ∩ A2 ) × ... × P(An |A1 ∩ ... ∩ An−1 ).

Preuve.

Exemple 13 Soit Ω l’ensemble ordonné de 3 boules prises parmi 12 (7 boules rouges et 5 boules
bleues) lors d’un tirage sans remise. Considérons les événements :
• M : "tirer 3 boules de même couleur",
• Ri : "la i−ème boule est rouge",
• Bi : "la i−ème boule est bleue".
Calculer la probabilité de M avec les probabilités conditionnelles.
Correction.

16
Proposition 10
Formule des probabilités totales

Soient (Ω, A, P) un espace de probabilité et A un événement aléatoire tel que P(A) 6= 0.


Soient I ⊂ N et (Ai )i∈I une famille d’événements aléatoires formant une partition de Ω,
c’est-à-dire tels que :
[
• Ai = Ω,
i∈I
• Ai ∩ Aj = ∅ pour tout i 6= j.
On suppose de plus que P(Ai ) 6= 0 pour tout i ∈ I. Alors
X
P(A) = P(A|Ai ) × P(Ai ).
i∈I

!
[ [
Preuve. A = A ∩ Ω = A ∩ Ai = (A ∩ Ai ) avec A ∩ Ai des événements 2 à 2 incompa-
i∈I i∈I
tibles (en effet, pour i 6= j, Ai ∩ Aj = ∅ ⇒ (A ∩ Ai ) ∩ (A ∩ Aj ) = A ∩ (Ai ∩ Aj ) = ∅).
Donc,
!
[ X X
P(A) = P (A ∩ Ai ) = P(A ∩ Ai ) = P(A|Ai ) × P(Ai ).
i∈I i∈I i∈I

Proposition 11
Formule de Bayes

Soient (Ω, A, P) un espace de probabilité et A un événement aléatoire tel que P(A) 6= 0.


Soient I ⊂ N et (Ai )i∈I une famille d’événements aléatoires formant une partition de Ω,
c’est-à-dire tels que :
[
• Ai = Ω,
i∈I
• Ai ∩ Aj = ∅ pour tout i 6= j.
On suppose de plus que P(Ai ) 6= 0 pour tout i ∈ I. Alors

P(A|Ai ) × P(Ai )
∀i ∈ I, P(Ai |A) = X .
P(A|Aj ) × P(Aj )
j∈I

Preuve. D’après la formule des probabilités totales, on a :


P(Ai ∩ A) P(A|Ai ) × P(Ai ) P(A|Ai ) × P(Ai )
∀i ∈ I, P(Ai |A) = = =P .
P(A) P(A) j∈I P(A|Aj ) × P(Aj )

17
La formule de Bayes (publiée après sa mort en 1763) présente un grand intérêt car elle permet de
renverser les conditionnements. Ainsi, elle modifie notre connaissance des probabilités en fonc-
tion d’informations nouvelles. Cette formule joue donc un rôle très important dans la statistique
bayésienne.

Exemple 14 Un laboratoire met au point un test antidopage. Il se révèle positif pour un spor-
tif non dopé dans 2% des cas, contre 98% pour un sportif en situation de dopage. Lors d’une
compétition donnée, on estime que 3% des sportifs ont eu recours à des produits dopants. Lors
d’un contrôle, ce test se révèle positif. Quelle est la probabilité que la personne incriminée soit
effectivement dopée ?
Correction.

2.4.2 Indépendance

Définition 18
Soit (Ω, A, P) un espace de probabilité, et soient A et B deux événements aléatoires. On dit
que A et B sont indépendants si

P(A ∩ B) = P(A) × P(B).

Remarque 9 A et B sont indépendants si et seulement si P(A|B) = P(A). Cette condition


signifie que la probabilité de réalisation de l’événement A n’est pas modifiée par une information
concernant la réalisation de l’événement B.

Remarque 10 L’indépendance n’est pas transitive.

Exemple 15 On tire au hasard une carte dans un jeu de 52 cartes. Soient les événements :
• R :"la carte est un roi",
• T :"la carte est un trèfle",
• F :"la carte est une figure".
Montrer que R et T sont indépendants, T et F sont indépendants, mais R et F ne sont pas
indépendants.

18
4 1 13 1 3×4 3
Clairement, P(R) = = , P(T ) = = et P(F ) = = .
52 13 52 4 52 13
1 1 1
P(R ∩ T ) = P("Roi de trèfle") = = × = P(R) × P(T ) donc R et T sont indépendants.
52 13 4
3 1 3
P(T ∩ F ) = P("Figure en trèfle") = = × = P(T ) × P(F ) donc T et F sont indépendants.
52 4 13
1 1 3
P(R ∩ F ) = P(R) = 6= × = P(R) × P(F ) donc R et F ne sont pas indépendants.
13 13 13
Nous allons maintenant définir une notion d’indépendance pour plus de 2 événements aléatoires.

Définition 19
Soit (Ω, A, P) un espace de probabilité. Pour n ≥ 2, soient A1 , A2 , . . . An , des événements
aléatoires.
• Ces événements sont deux à deux indépendants si, pour tout couple (i, j) avec i 6= j,
on a
P(Ai ∩ Aj ) = P(Ai ) × P(Aj ).
• Ces événements sont indépendants (dans leur ensemble) si, pour tout k ∈ {2, 3, . . . , n}
et tout choix d’indices distincts i1 , . . . , ik , on a

P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1 ) × P(Ai2 ) × . . . × P (Aik ).

On dit que les événements sont mutuellement indépendants.

Remarque 11 L’indépendance 2 à 2 ; l’indépendance mutuelle.

Exemple 16 On tire deux cartes avec remise dans un jeu de 52 cartes. Soient les événements :
• Ri :"la ième carte tirée est rouge",
• Ni :"la ième carte tirée est noire",
• M :"les deux cartes tirées sont de la même couleur".
Montrer que R1 , N2 et M sont 2 à 2 indépendants, mais pas mutuellement indépendants.
Les deux tirages se font avec remise, ils sont donc indépendants.
1 1
P(R1 ) = , P(N2 ) = et
2 2
1 1 1 1 1
P(M ) = P(R1 ∩ R2 ) + P(N1 ∩ N2 ) = P(R1 ) ∗ P(R2 ) + P(N1 ) ∗ P(N2 ) = × + × = .
2 2 2 2 2
1 1 1 1
P(R1 ∩ N2 ) = P(R1 ) × P(N2 ) = , P(R1 ∩ M ) = P(R1 ∩ R2 ) = × = = P(R1 ) × P(M ),
4 2 2 4
1 1 1
P(N2 ∩ M ) = P(N1 ∩ N2 ) = × = = P(N2 ) × P(M ) et P(R1 ∩ N2 ∩ M ) = P(∅) = 0.
2 2 4
Conclusion : P(R1 ∩ N2 ∩ M ) 6= P(R1 ) × P(N2 ) × P(M ).

19
Chapitre 3

Variables aléatoires réelles

3.1 Définitions

3.1.1 Variable aléatoire réelle

Définition 20
Soit (Ω, A, P) un espace de probabilité. Une variable aléatoire réelle (v.a.r.) est une appli-
cation X : Ω → R telle que pour tout intervalle I de R,

X −1 (I) ∈ A.

Remarque 12 Choix de A
1. Si Ω est fini ou dénombrable, nous prendrons en général A = P(Ω).
2. Si Ω = R, nous prendrons A = B(R).

Définition 21
Soit (Ω, A, P) un espace de probabilité et X une v.a.r.. On appelle loi de probabilité de X,
notée PX , l’application telle que :

∀A ⊂ R, PX (A) = P ({ω ∈ Ω : X(ω) ∈ A}) .

Remarque 13 Pour toute la suite du cours, nous utiliserons les notations abrégées :

∀A ⊂ R, P(X ∈ A) = PX (A) et ∀x ∈ R, P(X = x) = PX ({x}).

Proposition 12
L’application PX définit une probabilité sur R muni de sa tribu borélienne.

20
3.1.2 Fonction de répartition

Définition 22
La fonction de répartition de la v.a.r. X est définie par

∀x ∈ R, FX (x) = P(X ≤ x).

Proposition 13
Propriétés de la fonction de répartition :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
2. FX tend vers 0 en −∞ et vers 1 en +∞.
3. FX est croissante.
4. FX est continue à droite.

Nous admettrons le résultat suivant :


Théorème 1
Deux v.a.r. à valeurs dans le même ensemble d’arrivée ont la même loi si et seulement si leurs
fonctions de répartition sont égales.

Proposition 14
Nous avons l’identité

∀(a, b) ∈ R2 , P(a < X ≤ b) = FX (b) − FX (a).

Preuve. (X ≤ b) est la réunion disjointe des événements (X ≤ a) et (a < X ≤ b).


Il en résulte que FX (b) = P(X ≤ b) = P(X ≤ a) + P(a < X ≤ b) = FX (a) + P(a < X ≤ b).

3.1.3 Variable aléatoire discrète

Définition 23
Une v.a.r. X à valeurs dans un ensemble F fini ou dénombrable est appelée v.a.r. discrète.
Dans ce cas, la loi de X est déterminée par l’ensemble des probabilités P(X = x), ∀x ∈ F.
X
Ainsi, pour toute partie A de F , on a alors : PX (A) = P(X ∈ A) = P(X = x).
x∈A

21
3.1.4 Variable aléatoire continue

Définition 24
Soit X une v.a.r. qui prend un nombre infini non dénombrable de valeurs. Si FX est une
fonction continue, on dit que X est une v.a.r. continue. Dans ce cas, la loi de X est déterminée
par l’ensemble des probabilités P(a < X < b), pour tout a < b.

Remarque 14 Notons que l’on peut mettre < ou ≤ dans ce qui précède car la variable étant
continue, on a P(X = x) = 0 pour tout x ∈ R.

Exemple 17 Soit λ > 0. Une v.a.r. X de fonction de répartition



1 − exp(−λx), si x ≥ 0
∀x ∈ R, FX (x) =
0, si x < 0

est continue.

Définition 25
Si l’on peut écrire la fonction de répartition d’une v.a.r. continue sous la forme
Z x
∀x ∈ R, FX (x) = fX (t) dt,
−∞

où fX est une fonction de R dans R, alors on dit que fX est la densité de probabilité de la
v.a.r. X.

Ceci implique que l’on a pour tout a < b :


Z b
P(a < X < b) = FX (b) − FX (a) = fX (x) dx.
a

Cette intégrale étant positive pour tout a < b, il en résulte que fX ≥ 0. De plus, puisque
lim FX (x) = 1, on a
x→+∞
Z +∞
fX (x) dx = 1.
−∞

22
Définition 26
Une densité de probabilité est donc une fonction positive ou nulle sur R, d’intégrale 1, et
qui caractérise la loi d’une v.a.r. continue. De plus, en tout point x ∈ R où FX est dérivable,
on a : fX (x) = FX0 (x).

Exemple 18 Dans l’exemple précédent, X a pour densité de probabilité



λ exp(−λx) pour tout x ≥ 0
∀x ∈ R, fX (x) =
0 pour tout x < 0.

3.2 Caractéristiques des variables aléatoires réelles

3.2.1 Espérance des variables aléatoires

Proposition 15
Espérance d’une variable aléatoire discrète
Soient X une v.a.r. discrète à valeurs dans un ensemble F et h une application de R dans R
telles que X
|h(x)| P(X = x) < +∞.
x∈F

On appelle espérance de la variable aléatoire h(X) la valeur


X
E (h(X)) = h(x) P(X = x).
x∈F

Proposition 16
Espérance d’une variable aléatoire continue
Soient X une v.a.r. continue admettant fX comme densité et h une application de R dans R
telles que Z +∞
|h(x)| fX (x) dx < +∞.
−∞

On appelle espérance de la variable aléatoire h(X) la valeur


Z +∞
E (h(X)) = h(x) fX (x) dx.
−∞

23
Remarque 15 Vocabulaire
• E(X) est appelée espérance mathématique (ou moyenne) de la v.a.r. X.
• E(X k ) est appelée moment simple d’ordre k de la v.a.r. X.

3.2.2 Propriétés de l’espérance d’une v.a.r.

Proposition 17
Propriétés de l’espérance
1. L’espérance est linéaire : pour tous α, β ∈ R, et pour toutes v.a.r. X et Y satisfaisant
E(|X|) < +∞ et E(|Y |) < +∞, on a

E(αX + βY ) = αE(X) + βE(Y ).

2. Si X est une v.a.r. constante égale à a ∈ R, c’est à dire ∀ω ∈ Ω, X(ω) = a, alors

E(X) = E(a) = a.

3. L’espérance d’une v.a.r. positive est positive :

Si X ≥ 0 et E(|X|) < +∞, alors E(X) ≥ 0.


4. Si X ≥ Y (ce qui signifie que pour tout ω ∈ Ω, X(ω) ≥ Y (ω)), alors E(X − Y ) ≥ 0 et
donc
E(X) ≥ E(Y ).
De plus, |E(X)| ≤ E(|X|).

Preuve.

Par ailleurs, pour A ⊂ R, si l’on définit la v.a.r. X = 1{X∈A} de la manière suivante :



1 si X ∈ A
1{X∈A} =
0 sinon

qui est appelée fonction indicatrice de l’événement {X ∈ A}, alors l’espérance de cette
v.a.r. est :
E(1{X∈A} ) = PX (A),
d’où le lien entre la probabilité d’un événement et l’espérance d’une variable aléatoire.

24
Néanmoins, la connaissance de l’espérance mathématique (' “valeur moyenne de X") donne peu
de renseignements sur cette v.a.r. Ainsi, il faut étudier “l’étalement" de sa loi, c’est-à-dire la
dispersion de la v.a.r. X autour de sa moyenne E(X).

3.2.3 Variance et écart-type

Proposition 18
Si E(X 2 ) < +∞, alors p
|E(X)| ≤ E(|X|) ≤ E(X 2 ).

Preuve. Posons Y = |X| − E(|X|). Alors

E(Y 2 ) = E(X 2 − 2|X|E(|X|) + E(|X|)2 ) = E(X 2 ) − 2E(|X|)2 + E(|X|)2 = E(X 2 ) − E(|X|)2 ≥ 0.

On ne va donc pas calculer la moyenne des écarts mais la moyenne des écarts au carré. C’est ce
qu’on appelle la variance.

Définition 27
Si E(X 2 ) < +∞, la variance de la v.a.r. X est la quantité :

Var(X) = E (X − E(X))2 ≥ 0.
 

Proposition 19
Si E(X 2 ) < +∞, alors
• Var(X) = E(X 2 ) − (E(X))2 .
• Var(aX + b) = a2 Var(X) pour tout a, b ∈ R.
En particulier, Var(X + b) = Var(X).

Preuve. Pour la première assertion, on remarque que

Var(X) = E X 2 − 2XE(X) + (E(X))2 = E(X 2 ) − 2(E(X))2 + (E(X))2 = E(X 2 ) − (E(X))2 .


 

Pour la seconde, par linéarité de l’espérance, on a E(aX + b) = aE(X) + b. Ainsi

Var(aX + b) = E[(aX − aE(X))2 ] = a2 E[(X − E(X))2 ] = a2 Var(X).

Il résulte de cette proposition que la variance n’est pas linéaire ! Plus précisément,

25
Proposition 20
Soient X et Y deux variables aléatoires et (a, b) ∈ R2 , alors

Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2ab Cov(X, Y ),

où Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] est appelé la covariance de X et de Y .

Preuve. On revient à la définition de la variance :


Var(aX + bY ) = E[(aX + bY − E(aX + bY ))2 ] = E[(a(X − E(X)) + b(Y − E(Y )))2 ],
par linéarité de l’espérance. Ensuite, en développant l’identité remarquable,
Var(aX + bY ) = E[a2 (X − E(X))2 + b2 (Y − E(Y ))2 + 2ab(X − E(X))(Y − E(Y ))]
= a2 E[(X − E(X))2 ] + b2 E[(Y − E(Y ))2 ] + 2ab E[(X − E(X))(Y − E(Y ))],
en appliquant une nouvelle fois la linéarité de l’espérance.

Remarque 16 Var(X) = Cov(X, X).

Afin d’être en mesure de comparer, en termes d’ordre de grandeur, variance et espérance, il faut
prendre la racine carrée de la variance. C’est ce qu’on appelle l’écart-type.

Définition 28
La racine carrée de Var(X), notée σX , est appelée écart-type de X.

Définition 29
Soit X est une variable aléatoire, d’espérance E(X) et d’écart-type σX , alors

X − E(X)
X∗ =
σX
est une variable aléatoire centrée (d’espérance nulle) et réduite (de variance 1).

En effet,  
∗ X − E(X) E(X) − E(X)
E(X ) = E = =0
σX σX
par linéarité de l’espérance et en utilisant les propriétés de la variance,
 
∗ X − E(X) Var(X)
Var(X ) = Var = 2
= 1.
σX σX

26
3.3 Quelques exemples de variables aléatoires discrètes
Soit X une v.a.r. discrète prenant ses valeurs dans un ensemble {x1 , x2 , . . . , xn }, éventuellement
infini. Alors la loi de X est caractérisée par l’ensemble des probabilités P(X = xi ), c’est-à-dire
n
X
∀i ∈ J1, nK, 0 ≤ P(X = xi ) ≤ 1 et P(X = xi ) = 1.
i=1

3.3.1 Loi de Bernoulli

Définition 30
On dit qu’une v.a.r. X à valeurs dans {0, 1} suit une loi de Bernoulli de paramètre p ∈]0, 1[,
ce que l’on note B(p), si

P(X = 0) = 1 − p et P(X = 1) = p.

Par exemple, cette loi intervient lorsque l’on modélise l’état de fonctionnement d’un système.
La probabilité que le système fonctionne vaut p et la probabilité que le système ne fonctionne
pas vaut 1−p. Cette loi s’applique aussi aux jeux de hasard de type binaire comme pile ou face . . .

Proposition 21
Si X suit une loi de Bernoulli de paramètre p ∈]0, 1[, noté X ∼ B(p), alors

E(X) = p et Var(X) = p (1 − p).

Preuve.

3.3.2 Loi binomiale


Soient n expériences indépendantes de Bernoulli. Chacune est associée à une v.a. de Bernoulli
Xi pour i = 1, ..., n. On s’intéresse à la v.a.r. X = X1 + ... + Xn . Alors, X représente le nombre
de succès parmi les n expériences réalisées.

Définition 31
On dit qu’une v.a.r. X à valeurs dans {0, 1, . . . , n} suit une loi binomiale de paramètres (n, p),
notée B(n, p), si la probabilité d’avoir k succès parmi n est
 
n
∀k ∈ J0, nK, P(X = k) = pk (1 − p)n−k .
k

27
Notons que
n n  
X X n
P(X = k) = pk (1 − p)n−k = [p + (1 − p)]n = 1.
k
k=0 k=0

Cette loi intervient par exemple pour modéliser le nombre de pièces défectueuses dans un lot
de n pièces, qui ont chacune une probabilité p d’être défectueuse, indépendamment les unes des
autres. En effet, l’univers associé à cette expérience peut être noté dans ce cas Ω = {0, 1}n , avec
la convention 1 pour un pièce défectueuse, 0 sinon.

Proposition 22
Si X suit une loi binomiale de paramètres (n, p) ∈ N∗ ×]0, 1[, ce que l’on note X ∼ B(n, p),
alors
E(X) = np et Var(X) = np(1 − p).

Preuve.

3.3.3 Loi géométrique

Définition 32
On dit qu’une v.a.r. X à valeurs dans N∗ suit une loi géométrique de paramètre p ∈]0, 1[,
notée G(p), si
∀k ∈ N∗ , P(X = k) = p(1 − p)k−1 .

Cette loi permet de modéliser le nombre de réalisations indépendantes d’une expérience à 2 is-
sues (succès-échec), jusqu’à l’obtention du premier succès, si à chaque réalisation la probabilité
de succès est p.

Proposition 23
Si X suit une loi géométrique de paramètre p ∈]0, 1[, ce que l’on note G(p), alors
1 1−p
E(X) = et Var(X) = .
p p2

28
Indication : On sait grâce aux séries entières que : ∀x ∈ [0, 1[,
+∞ +∞ +∞
1 X
0 1 X
00 2 X
f (x) = = xk , f (x) = = kxk−1 , f (x) = = k(k − 1)xk−2 .
1 − x k=0 (1 − x)2 k=0
(1 − x)3 k=0

Preuve.

3.3.4 Loi de Poisson

Définition 33
On dit qu’une v.a.r. X à valeurs dans N suit une loi de Poisson de paramètre λ > 0, notée
P(λ), si
λk
∀k ∈ N, P(X = k) = e−λ .
k!

Notons que
+∞ +∞ k
X
−λ
X λ
P(X = k) = e = e−λ eλ = 1.
k=0 k=0
k!

Proposition 24
Si X suit une loi de Poisson de paramètre λ > 0, ce que l’on note X ∼ P(λ), alors

E(X) = Var(X) = λ.

Preuve.

Cette loi intervient comme comportement limite de la loi binomiale lorsque n → +∞ et p → 0


tels que np → λ.
λ
Supposons que n est "grand" et remplaçons p par dans la loi binomiale :
n
   k  n−k n  −k
n(n − 1)...(n − k + 1) λk

n λ λ λ λ
1− = 1− 1− .
k n n nk k! n n
Ensuite, il est clair que :
n(n − 1)...(n − k + 1)
lim = 1,
n→+∞ nk
 n   
λ λ
lim 1 − = lim exp n ln 1 − = exp(−λ),
n→+∞ n n→+∞ n

29
 −k
λ
lim 1 − = 1,
n→+∞ n
et finalement,
   k  n−k
n λ λ λk
lim 1− = e−λ .
n→+∞ k n n k!
λ
La loi de Poisson représente la probabilité du nombre d’apparitions d’un événement rare (p ∼ )
n
dans une suite infinie d’événements (càd avec n grand). On remplace donc la loi binomiale par
la loi de Poisson, ce qui simplifie les calculs.

3.4 Quelques exemples de variables aléatoires continues


Soit X une v.a.r. continue. Alors la loi de X est caractérisée par l’ensemble des probabilités
Z b
P(a ≤ X ≤ b) = fX (x)dx,
a

où fX est la densité de probabilité de X et a et b sont deux nombres réels, éventuellement infinis.

Comme nous l’avons vu plus haut, il suffit de connaître cette densité pour connaître la loi de X.

Remarquons aussi que P(X = x) = 0, pour tout x ∈ R. La probabilité de tomber sur un


point x est donc nulle.

3.4.1 Loi uniforme sur [a, b]

Définition 34
On dit que X suit une loi uniforme sur [a, b], notée U([a, b]), si la loi de X a pour densité
( 1
si a ≤ x ≤ b,
∀x ∈ R, fX (x) = b−a
0 sinon.

Notons que l’on aurait pu aussi choisir fX (a) = 0 et fX (b) = 0.


Puisque fX est constante sur [a, b], cela signifie que nous avons autant de chances de tomber sur
un voisinage de chaque point de [a, b].

30
Proposition 25
Si X suit une loi uniforme sur [a, b], ce que l’on note X ∼ U([a, b]), alors

a+b (b − a)2
E(X) = et Var(X) = .
2 12

Preuve.

Exemple 19 Considérons un métro qui passe à 7h puis toutes les 15 minutes à une station
donnée. Un étudiant arrive entre 7h et 7h30 à cet arrêt. Trouver la probabilité qu’il attende
moins de 5 minutes (puis plus de 10 minutes) à cet arrêt, sachant que l’heure à laquelle il se
présente suit une loi uniforme.
Correction.

3.4.2 Loi exponentielle

Définition 35
On dit que X suit une loi exponentielle de paramètre λ > 0, notée E(λ), si la loi de X a pour
densité 
λ exp(−λx) si x ≥ 0,
∀x ∈ R, fX (x) =
0 si x < 0.

La loi exponentielle est utilisée en fiabilité. Le paramètre λ représente le taux moyen de dé-
faillance alors que son inverse 1/λ est “le temps moyen de bon fonctionnement".
La loi exponentielle s’applique bien aux matériels électroniques ou aux matériels subissant des
défaillances brutales.

Proposition 26
Si X suit une loi exponentielle de paramètre λ > 0, ce que l’on note X ∼ E(λ), alors

1 − exp(−λx) si x ≥ 0,
∀x ∈ R, FX (x) =
0 si x < 0.

et
1 1
E(X) = et Var(X) = .
λ λ2

Preuve.

31
Exemple 20 La durée de fonctionnement d’un ordinateur avant sa première panne est une va-
riable aléatoire positive de densité
( 1  x 
exp − si x ≥ 0,
∀x ∈ R, fX (x) = 100 100
0 si x < 0.

1. Calculer la probabilité que la durée de fonctionnement de l’ordinateur soit comprise entre


50 et 150 heures, puis qu’elle soit de moins de 100h.

2. Calculer P(X > 100) puis P(X > 200|X > 100).
Correction.

On remarque que la loi exponentielle est sans mémoire, c’est à dire qu’elle possède la pro-
priété de non-vieillissement :

Proposition 27
Soit X une variable aléatoire continue positive telle que P(X > s) > 0 pour tout s ∈ R. Alors,

∀t, s > 0, P(X > t + s|X > t) = P(X > s),

si et seulement si X suit une loi exponentielle.

Preuve.

Remarque 17 Cette propriété signifie que si l’ordinateur (pour reprendre l’exemple précédent)
fonctionne depuis t heures, alors la loi de sa durée de vie à partir de t heures est la même que la
loi de la durée de vie de cet ordinateur neuf.

32
3.4.3 Loi Gamma
La loi exponentielle est un cas particulier de la famille des lois Gamma.

Définition 36
Soient α > 0 et λ > 0. On dit que X suit une loi Gamma de paramètres (α, λ), notée Γ(α, λ),
si la loi de X a pour densité
α

 λ
xα−1 exp(−λx) si x ≥ 0,
∀x ∈ R, fX (x) = Γ(α)
 0 si x < 0,
Z +∞
où pour tout α > 0, la célèbre fonction gamma est donnée par Γ(α) = xα−1 exp(−x)dx.
0

Pour α = 1, on retrouve la loi exponentielle de paramètre λ. Le paramètre α est un paramètre


de forme alors que le paramètre λ est un paramètre d’échelle.

Une intégration par parties montre que : ∀α > 0, Γ(α + 1) = αΓ(α) et on a Γ(1) = 1.
On en déduit que Γ(n + 1) = n! pour tout entier n ≥ 0.

Proposition 28
Soient α > 0 et λ > 0. Si X suit une loi Gamma de paramètres (α, λ), ce que l’on note
X ∼ Γ(α, λ), alors ∀β ∈ N∗ , on a :

Γ(α + β) 1 α α
E(X β ) = , E(X) = et Var(X) = .
Γ(α) λβ λ λ2

Preuve.

33
3.4.4 Loi normale de paramètres (m, σ 2 ) (ou gaussienne)

Définition 37
Soient m ∈ R et σ > 0. On dit que X suit une loi normale de paramètres (m, σ 2 ), notée
N (m, σ 2 ), si la loi de X a pour densité

(x − m)2
 
1
∀x ∈ R, fX (x) = √ exp − .
σ 2π 2σ 2

Figure 3.1 – Tracé de la densité de la loi normale de paramètres (0, 1).

À cause de sa forme, cette courbe est souvent appelée "courbe en cloche". Elle présente un
axe de symétrie vertical pour x = m. La loi normale s’applique à de nombreux phénomènes,
en physique, en économie (erreurs de mesure). Nous verrons ultérieurement qu’elle est la forme
limite de nombreuses lois discrètes.

Proposition 29
Soient m ∈ R et σ > 0. Si X suit une loi normale de paramètres (m, σ 2 ), ce que l’on note
X ∼ N (m, σ 2 ), alors
E(X) = m et Var(X) = σ 2 .

Preuve.

En particulier, si X ∼ N (0, 1) la loi normale canonique, alors : E(X) = 0 et Var(X) = 1.

34
F(u)
Variable NORMALE CENTREE REDUITE
u
u
1
∫e
− x2 / 2
U ≈ N(0,1) P( U ≈ u ) = F(u) = dx
2π −∞

F(-u) = 1 - F(u) P(|U| ≤ u) = 2 F(u) - 1


TABLE de F(u) en fonction de u :

u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

Figure 3.2 – Table pour la loi normale centrée réduite

35
Proposition 30
Soient m ∈ R et σ > 0. Si X ∼ N (m, σ 2 ), alors pour tous a > 0 et b ∈ R, on a

aX + b ∼ N (am + b, a2 σ 2 ).

Preuve.

Proposition 31
Lorsque X ∼ N (0, 1), il n’existe pas d’expression analytique de la fonction de répartition de
X. On utilise alors des tables obtenues par des calculs approchés d’intégrales et les propriétés
suivantes :
1
∀x > 0, FX (−x) = 1 − FX (x), FX (0) = et P(|X| ≤ x) = 2FX (x) − 1.
2

Preuve.

Exemple 21 En lisant la table 3.2, on trouve : P(|X| ≤ 2) = 2FX (2)−1 ' 2∗0.9772−1 = 0.9544.

Exemple 22 Lors d’un tir, on admet que les longueurs des tirs suivent une loi normale. On
constate que :
(i) 10% des obus tombent à une distance supérieure à 1600 km.
(ii) 25% des obus tombent à une distance inférieure à 1400 km.
Déterminer la longueur moyenne et l’écart-type. On pourra utiliser que si Z ∼ N (0, 1), on a
P(Z ≤ 1.28) = 0.9 et P(Z ≤ −0.67) = 0.25.

Correction.

36
Chapitre 4

Propriétés des variables aléatoires

4.1 Fonctions génératrice et caractéristique d’une variable


aléatoire discrète

4.1.1 Fonction génératrice d’une variable aléatoire discrète


Dans le cas où l’on est amené à rencontrer des variables discrètes, il arrive que la fonction
génératrice soit plus adaptée à d’éventuelles manipulations.

Définition 38
Soit X une v.a.r. à valeurs dans N. La fonction génératrice GX de X est définie par

GX : [0, 1] → R
+∞
X
X
tk P(X = k).

t 7→ E t =
k=0

Proposition 32
La fonction génératrice est continue sur [0, 1] et indéfiniment dérivable sur [0, 1[.

(n)
Remarque 18 Comme GX (0) = n! P(X = n), la fonction GX caractérise les P(X = n), et
donc la loi de X. Ainsi, si deux variables aléatoires ont la même fonction génératrice, alors elles
suivent la même loi.
Preuve.

Proposition 33
Soit X une variable aléatoire à valeurs entières, de fonction génératrice GX . Pour que E(X)
existe, il faut et il suffit que GX soit dérivable à gauche en t = 1.
Dans ce cas,
E(X) = G0X (1).

37
Dans la littérature, la fonction GX est souvent appelée fonction génératrice des moments.

Proposition 34
L’espérance de la variable aléatoire X(X − 1)...(X − p) existe si et seulement si GX est p + 1
fois dérivable à gauche en t = 1. Dans ce cas,
(p+1)
E(X(X − 1)...(X − p)) = GX (1).

En particulier, E(X(X − 1)) = G00X (1), d’où

Var(X) = G00X (1) + G0X (1) − (G0X (1))2 .

Remarque 19 Pour calculer les moments d’une variable aléatoire, il peut être judicieux d’utili-
ser les dérivées de la fonction génératrice.

Exemple 23 Déterminer les fonctions génératrices pour X ∼ B(p), X ∼ B(n, p), X ∼ G(p) et
X ∼ P(λ). En déduire l’espérance et la variance de chacune de ces lois.
Correction.

4.1.2 Fonction caractéristique d’une variable aléatoire discrète

Définition 39
Soit X une variable aléatoire à valeurs dans N. La fonction caractéristique de X, notée
ΦX , est définie par

ΦX : R→C
+∞
 itX  X
t 7→ E e = (eit )k P(X = k).
k=0

Dans la mesure où la variable aléatoire (complexe) eitX est de module 1 pour tout t ∈ R, la
fonction caractéristique est toujours bien définie. La proposition suivante garantit l’injectivité de
cette transformation sur l’espace des mesures de probabilité dans R (la preuve sera omise).

38
Proposition 35
Si X et Y sont deux variables aléatoires réelles telles que ΦX (t) = ΦY (t) pour tout t ∈ R,
alors X et Y ont même loi.

Proposition 36
Nous avons les propriétés suivantes :
• Si E(|X|) < +∞, alors Φ0X (0) = iE(X).
• Si E(X 2 ) < +∞, alors Φ00X (0) = −E(X 2 ).
(p)
• Si E(|X|p ) < +∞, alors ΦX (0) = ip E(X p ).

On en déduit que :

Φ0X (0) 2
E(X) = et Var(X) = E(X 2 ) − (E(X))2 = [Φ0X (0)] − Φ00X (0).
i

Preuve.

Exemple 24 Déterminer les fonctions caractéristiques pour X ∼ B(p), X ∼ B(n, p), X ∼ G(p)
et X ∼ P(λ).
Correction.

4.2 Fonctions caractéristique et transformée de Laplace d’une


variable aléatoire continue

4.2.1 Fonction caractéristique d’une variable aléatoire continue

Définition 40
Soit X une variable aléatoire réelle. La fonction caractéristique de X, notée ΦX est définie
par :

ΦX : R→C
 itX 
Z +∞
t 7→ E e = eitx fX (x) dx.
−∞

Dans la mesure où la variable aléatoire (complexe) eitX est de module 1 pour tout t ∈ R, la
fonction caractéristique est toujours bien définie. La proposition suivante garantit l’injectivité de
cette transformation sur l’espace des mesures de probabilité dans R (la preuve sera omise).

39
Proposition 37
La fonction caractéristique ΦX caractérise la loi de la variable aléatoire X. Ainsi, si deux
variables aléatoires X et Y ont la même fonction caractéristique, alors elles ont la même loi.

Proposition 38
Nous avons les propriétés suivantes :
• Si E(|X|) < +∞, alors Φ0X (0) = iE(X).
• Si E(X 2 ) < +∞, alors Φ00X (0) = −E(X 2 ).
(p)
• Si E(|X|p ) < +∞, alors ΦX (0) = ip E(X p ).

On en déduit que :

Φ0X (0) 2
E(X) = et Var(X) = E(X 2 ) − (E(X))2 = [Φ0X (0)] − Φ00X (0).
i

Exemple 25 Déterminer les fonctions caractéristiques pour X ∼ U([a, b]), X ∼ E(λ) et X ∼


N (m, σ 2 ).
Correction.

4.2.2 Transformée de Laplace d’une variable aléatoire continue

Définition 41
Soit X une v.a.r. à valeurs dans R+ . La transformée de Laplace de X, notée ΨX , est
définie par

ΨX : R+ → R
 −tX 
Z +∞
t 7→ E e = e−tx fX (x) dx.
−∞

C’est une fonction définie sur R+ , indéfiniment dérivable sur ]0, +∞[, et qui satisfait formellement
ΨX (λ) = ΦX (iλ). Ainsi, il n’est pas étonnant que la transformée de Laplace ait des propriétés
analogues à celles de la fonction caractéristique. En particulier, elle caractérise la loi PX .

Proposition 39
Si deux variables aléatoires ont la même transformée de Laplace, alors elles ont la même loi.

40
4.3 Changement de variable et inégalités

4.3.1 Changement de variable


Nous allons voir dans cette section comment déterminer la densité de probabilité d’une v.a.r.
dans le cas d’un changement de variable.

Première méthode : soit X une variable aléatoire de fonction de répartition FX . Soit ψ une
application bijective croissante de R dans R et soit Y = ψ(X) une variable aléatoire. La fonction
de répartition FY de Y est obtenue de la manière suivante :

∀y ∈ R, FY (y) = P[Y ≤ y] = P[ψ(X) ≤ y] = P[X ≤ ψ −1 (y)] = FX (ψ −1 (y)).

En dérivant l’égalité ∀y ∈ R, FY (y) = FX (ψ −1 (y)) aux points où la dérivée existe, nous pou-
vons alors exprimer la densité de probabilité fY en fonction de fX .

Deuxième méthode : nous pouvons aussi déterminer la densité d’une v.a.r. grâce au résultat
suivant :

Proposition 40
Soit X une v.a. définie sur Ω et à valeurs dans R. La loi de X est entièrement caractérisée
par la donnée des

E[φ(X)], pour toute fonction φ : R → R bornée.

Plus précisément, s’il existe une fonction f telle que pour toute fonction φ : R → R bornée
Z
E[φ(X)] = φ(x) f (x) dx,
R

alors f est une fonction positive d’intégrale 1 et X a pour densité f .

Exemple 26 Loi de Cauchy


On suppose que Θ suit une loi uniforme sur ] − π/2, π/2[. On pose X = tan Θ.
Quelle est la loi de X ?
Correction.

Exemple 27 Soit Y = X 2 . Donner la densité de Y en fonction de celle de X.


Correction.

41
4.3.2 Inégalités
On va présenter ici quelques inégalités très utiles en probabilités.

Proposition 41
Inégalité de Markov
Soit X une v.a.r.. Pour tout p ∈ N∗ et  > 0, on a

E[|X|p ]
P(|X| ≥ ) ≤ .
p

Preuve. Puisque |X| est positive, on a

E[|X|p ] = E[|X|p 1{|X|≥} ] + E[|X|p 1{|X|<} ],


≥ E[|X|p 1{|X|≥} ],
≥ p E[1{|X|≥} ] = p P(|X| ≥ ),

ce qui donne l’inégalité demandée. 

Une conséquence presque directe de ce résultat est l’inégalité de Chebychev présentée ci-dessous.

Proposition 42
Inégalité de Bienaymé-Chebychev
Soit  > 0 et soit X une v.a.r. admettant une variance. Alors on a :
Var(X)
P (|X − E(X)| ≥ ) ≤ .
2

Preuve. Il suffit d’appliquer l’inégalité de Markov en remplaçant X par X − E[X] et avec p = 2.

Proposition 43
Inégalité de Cauchy-Schwarz
Supposons que E(X 2 ) < +∞ et E(Y 2 ) < +∞, alors
p
|E(XY )| ≤ E(|XY |) ≤ E(X 2 )E(Y 2 ).

Preuve.

42
Chapitre 5

Vecteurs aléatoires

Dans ce chapitre, nous allons nous intéresser aux vecteurs aléatoires (discrets ou continus).

5.1 Vecteurs aléatoires


Pour une expérience donnée, on peut s’intéresser non seulement à la distribution de certaines
variables aléatoires, mais aussi à des vecteurs aléatoires.

Définition 42
Un vecteur aléatoire X = (X1 , · · · , Xn ) à valeurs dans Rn est formé de n variables aléa-
toires, qui sont les composantes de X.

Sans perte de généralité, on se concentrera dans un premier temps sur des couples de variables
aléatoires, le passage à une dimension quelconque étant immédiat.

5.1.1 Fonction de répartition d’un vecteur aléatoire

Définition 43
On définit la fonction de répartition du couple de variables aléatoires (X1 , X2 ) par

∀(x1 , x2 ) ∈ R2 , F(X1 ,X2 ) (x1 , x2 ) = P (X1 ≤ x1 , X2 ≤ x2 ) .

Il s’agit de la probabilité que X1 ≤ x1 et X2 ≤ x2 au sens de l’instersection.

Remarque 20 Les lois marginales PX1 et PX2 sont les lois des composantes X1 et X2 du
vecteur aléatoire (X1 , X2 ).

En particulier, les fonctions de répartition FX1 et FX2 des lois marginales sont déter-
minées par les formules :
∀x1 ∈ R, FX1 (x1 ) = P(X1 ≤ x1 ) = P (X1 ≤ x1 , X2 ∈ R)
et
∀x2 ∈ R, FX2 (x2 ) = P(X2 ≤ x2 ) = P (X1 ∈ R, X2 ≤ x2 ) .

43
5.1.2 Lois et espérance d’un vecteur aléatoire discret
Soit X = (X1 , X2 ) un vecteur aléatoire discret à valeurs dans R2 , c’est à dire que ses composantes
X1 et X2 sont des variables aléatoires discrètes à valeurs dans F1 ⊂ R et F2 ⊂ R respectivement,
supposés finis ou dénombrables.

La connaissance des P(X1 = x1 ) pour x1 ∈ F1 et des P(X2 = x2 ) pour x2 ∈ F2 ne


donne pas d’information sur les liens entre X1 et X2 .

Il faut donc considérer le vecteur X = (X1 , X2 ) comme une variable aléatoire discrète à va-
leurs dans F1 × F2 et poser
∀x = (x1 , x2 ) ∈ F1 × F2 , P(X = x) = P(X1 = x1 , X2 = x2 ).

Définition 44
Soit (X1 , X2 ) un vecteur aléatoire discret à valeurs dans F1 × F2 ⊂ R2 .

Les lois PX1 et PX2 s’appellent les lois marginales du vecteur. Elles sont définies par :
X
∀x1 ∈ F1 , P(X1 = x1 ) = P(X1 = x1 , X2 = x2 )
x2 ∈F2

X
∀x2 ∈ F2 , P(X2 = x2 ) = P(X1 = x1 , X2 = x2 )
x1 ∈F1

En effet, il suffit de remarquer que


!
[ X
P(X1 = x1 ) = P {X1 = x1 , X2 = x2 } = P(X1 = x1 , X2 = x2 )
x2 ∈F2 x2 ∈F2
!
[ X
P(X2 = x2 ) = P {X1 = x1 , X2 = x2 } = P(X1 = x1 , X2 = x2 )
x1 ∈F1 x1 ∈F1

grâce à l’incompatibilité.

Exemple 28 On pioche simultanément 3 jetons dans une urne contenant 4 jetons numérotés de
1 à 4. On note U le plus petit des numéros obtenus et V le plus grand des numéros obtenus.
Déterminer P(U,V ) , PU et PV .

Correction.

44
Définition 45
Soit X = (X1 , X2 ) un vecteur aléatoire discret à valeurs dans F1 × F2 ⊂ R2 .
Soit g une fonction continue de R2 dans R. Alors g(X) est intégrable si et seulement si
X
E(|g(X)|) = |g(x)| ∗ P(X = x)
x∈F1 ×F2
X X
= |g(x1 , x2 )| ∗ P(X1 = x1 , X2 = x2 ) < +∞
x1 ∈F1 x2 ∈F2

et alors, nous avons


X
E(g(X)) = g(x) ∗ P(X = x)
x∈F1 ×F2
X X
= g(x1 , x2 ) ∗ P(X1 = x1 , X2 = x2 ).
x1 ∈F1 x2 ∈F2

Définition 46
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans F1 × F2 ⊂ R2 .
On suppose que toutes les composantes de X sont intégrables (càd E(|Xi |) < +∞, ∀i).

Alors, X est dit intégrable et on définit son vecteur moyenne E(X) ∈ R2 par

E(X) = (E(X1 ), E(X2 )),

avec ∀i ∈ J1, 2K,


X
E(Xi ) = xi ∗ P(X = x)
x∈F1 ×F2
X X
= xi ∗ P(X1 = x1 , X2 = x2 ).
x1 ∈F1 x2 ∈F2

X
Remarque 21 Si l’on connaît la loi marginale de Xi , alors E(Xi ) = xi ∗ P(Xi = xi ) aussi.
xi ∈Fi

Exemple 29 On pioche simultanément 3 jetons d’une urne contenant 4 jetons numérotés de 1


à 4. On note U le plus petit des numéros obtenus et V le plus grand des numéros obtenus.
Calculer E(U ), E(V ) et E(U V ).
Correction.

45
5.1.3 Densité et espérance d’un vecteur aléatoire continu

Définition 47
On dit que le vecteur aléatoire X = (X1 , X2 ) admet la densité fX : R2 → [0, +∞[ si fX est
intégrable de sorte que
Z Z +∞ Z +∞
fX (x) dx = fX (x1 , x2 ) dx1 dx2 = 1
R2 −∞ −∞

et Z x1 Z x2
2
∀(x1 , x2 ) ∈ R , FX (x1 , x2 ) = fX (y1 , y2 ) dy1 dy2 .
−∞ −∞

Dans ce cas, on dit que X est continu.

Remarque 22 Connaissant la densité fX , on obtient les densités marginales fXi par


Z Z
∀x1 ∈ R, fX1 (x1 ) = fX (x1 , x2 ) dx2 et ∀x2 ∈ R, fX2 (x2 ) = fX (x1 , x2 ) dx1 .
R R

Exemple 30 Le vecteur aléatoire (X, Y ) possède la loi jointe suivante :



2 90x2 y(1 − y) si 0 ≤ y ≤ 1, 0 ≤ x ≤ y,
∀(x, y) ∈ R , f(X,Y ) (x, y) =
0 sinon.

1. Déterminer la densité marginale de X.


2. Déterminer la densité marginale de Y .
Correction.

Définition 48
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans R2 .
Soit g une fonction continue de R2 dans R. Alors g(X) est intégrable si et seulement si
Z Z +∞ Z +∞
E(|g(X)|) = |g(x)| fX (x) dx = |g(x1 , x2 )| fX (x1 , x2 ) dx1 dx2 < +∞
R2 −∞ −∞

et alors, nous avons


Z Z +∞ Z +∞
E(g(X)) = g(x) fX (x) dx = g(x1 , x2 ) fX (x1 , x2 ) dx1 dx2 .
R2 −∞ −∞

46
Définition 49
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans R2 . On suppose que toutes les compo-
santes de X sont intégrables (càd E(|Xi |) < +∞, ∀i ∈ J1, 2K). Alors, X est dit intégrable
et on définit son vecteur moyenne E(X) ∈ R2 par

E(X) = (E(X1 ), E(X2 )),

avec ∀i ∈ J1, 2K,


Z Z +∞ Z +∞
E(Xi ) = xi fX (x) dx = xi fX (x1 , x2 ) dx1 dx2 .
R2 −∞ −∞

Z +∞
Remarque 23 Si l’on connaît la loi marginale de Xi , alors E(Xi ) = xi ∗ fXi (xi ) dxi aussi.
−∞

Exemple 31 Le vecteur aléatoire (X, Y ) possède la loi jointe suivante :



2 90x2 y(1 − y) si 0 ≤ y ≤ 1, 0 ≤ x ≤ y,
∀(x, y) ∈ R , f(X,Y ) (x, y) =
0 sinon.

1. Calculer E(XY ), E(X) et E(Y ) avec la densité f(X,Y ) .


2. Recalculer E(X) et E(Y ) avec les densités marginales.
Correction.

Définition 50
On dit que X = (X1 , · · · , Xn )T est un vecteur gaussien, de paramètres m = E(X) et Σ =
Var(X) inversible, noté X ∼ N (m, Σ), si X admet pour densité
n
< x − m, Σ−1 (x − m) >
  
n 1 1
∀x ∈ R , fX (x) = √ p exp − ,
2π |det(Σ)| 2

où < ., . > désigne le produit scalaire de Rn .

47
5.1.4 Indépendance d’un vecteur aléatoire

Définition 51
On dit que (Xi )i≥1 est une suite de variables aléatoires i.i.d. (indépendantes, identiquement
distribuées) si les Xi sont indépendantes et ont toutes la même loi.

Définition 52
Si (X1 , · · · , Xn ) est un vecteur aléatoire à valeurs dans Rn , on dit que les v.a.r. X1 , ..., Xn
sont indépendantes si et seulement si, pour tous Ω1 , ..., Ωn ⊂ R, nous avons
n
Y
P (X1 ∈ Ω1 , ..., Xn ∈ Ωn ) = P(Xi ∈ Ωi ).
i=1

En particulier, les v.a.r. X1 , ..., Xn sont indépendantes si et seulement si, pour tout (x1 , ..., xn ) ∈
Rn , nous avons
n
Y
F(X1 ,...,Xn ) (x1 , ..., xn ) = FXi (xi ).
i=1

Remarque 24 Si X1 , ..., Xn sont n variables aléatoires indépendantes, alors elles sont indépen-
dantes deux à deux. La réciproque est fausse.

Exemple 32 On pioche simultanément 3 jetons d’une urne contenant 4 jetons numérotés de 1


à 4. On note U le plus petit des numéros obtenus et V le plus grand des numéros obtenus. Les
variables U et V sont-elles indépendantes ?
Correction.

Proposition 44
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire continu à valeurs dans Rn . Les composantes Xi
sont indépendantes si et seulement si
n
Y
n
∀x = (x1 , ..., xn ) ∈ R , fX (x) = fXi (xi ).
i=1

Comme pour l’indépendance d’événements, il conviendra de distinguer l’indépendance globale de


l’indépendance 2 à 2 (voir le chapitre 2).

48
Exemple 33 Le vecteur aléatoire (X, Y ) possède la loi jointe suivante :

2 90x2 y(1 − y) si 0 ≤ y ≤ 1, 0 ≤ x ≤ y
∀(x, y) ∈ R , f(X,Y ) (x, y) =
0 sinon

Les deux variables sont-elles indépendantes ?


Correction.

Proposition 45
Soit (X1 , · · · , Xn ) un vecteur aléatoire à valeurs dans Rn . Si les composantes Xi sont indé-
pendantes alors
n
! n
Y Y
E Xi = E(Xi ).
i=1 i=1

Preuve.

Remarque 25 Notons que la réciproque n’est pas vraie.


La proposition suivante donne une caractérisation de l’indépendance à l’aide des fonctions carac-
téristiques pour les vecteurs aléatoires à densités.

Proposition 46
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire continu à valeurs dans Rn . Les composantes Xk
sont indépendantes si et seulement si
n
Y
∀t = (t1 , ..., tn ) ∈ Rn , ΦX (t) = ΦXk (tk ),
k=1

ce qui se réécrit
n
Y
n i<t,X>
E eitk Xk .
   
∀t = (t1 , ..., tn ) ∈ R , E e =
k=1

Preuve. La première implication utilise les mêmes arguments que dans la preuve précédente.
Pour la réciproque, il suffit d’utiliser la propriété d’injectivité de la transformée de Fourier.

49
La proposition suivante donne une caractérisation de l’indépendance à l’aide des fonctions géné-
ratrices pour les vecteurs aléatoires discrets.

Proposition 47
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire discret à valeurs dans Rn . Les composantes Xk
sont indépendantes si et seulement si
n
Y
n
∀t = (t1 , ..., tn ) ∈ R tel que ktk ≤ 1, GX (t) = GXk (tk ),
k=1

ce qui se réécrit
" n
# n
Y Y h i
n
∀t = (t1 , ..., tn ) ∈ R tel que ktk ≤ 1, E tX
k
k
= E tX
k
k
.
k=1 k=1

Exemple 34 Soient X et Y deux variables aléatoires indépendantes suivant une loi uniforme
sur [0, 1]. On pose U = max(X, Y ) et V = min(X, Y ).
1. Calculer les densités de U et V , puis la densité de (U, V ).
Les variables U et V sont-elles indépendantes ?
2. Recalculer les densités de U et V en utilisant la densité de (U, V ).
Preuve.

Comme le montre l’exercice suivant, la réciproque de la proposition 45 n’est pas vraie.

Exemple 35 Soient X et ε deux variables aléatoires indépendantes telles que X ∼ N (0, 1) et


1
P(ε = 1) = P(ε = −1) = (loi discrète uniforme sur {−1, 1}).
2
1. Montrer que εX ∼ N (0, 1).
2. Montrer que X et εX ne sont pas indépendantes.
 
2 1 1
3. Montrer que X ∼ Γ , .
 2 2
1 √
On vérifiera que Γ = π.
2
4. En déduire que E(εX 2 ) = E(X) ∗ E(εX).
Preuve.

50
5.1.5 Variance, covariance et coefficient de corrélation linéaire

Définition 53
Soient X = (X1 , · · · , Xn )T et Y = (Y1 , · · · , Ym )T deux vecteurs aléatoires à valeurs dans
Rn et Rm respectivement. On suppose que toutes les composantes de X et Y sont de carré
intégrable (càd E(Xi2 ) < +∞, ∀i ∈ J1, nK et E(Yj2 ) < +∞, ∀j ∈ J1, mK). Alors, X et Y
sont de carré intégrable et on définit la matrice de covariance Cov(X, Y ) par

Cov(X, Y ) = (Cov(Xi , Yj ))i∈J1,nK, j∈J1,mK ,


Cov(Xi , Yj ) = E((Xi − E[Xi ])(Yj − E[Yj ])) = E[Xi Yj ] − E[Xi ]E[Yj ].
X et Y sont dits décorrélés si et seulement si Cov(X, Y ) = 0.

Remarque 26 X et Y sont décorrélés si et seulement si les composantes de X et les composantes


de Y sont deux à deux décorrélées.

Exemple 36 Soient X et ε deux variables aléatoires indépendantes telles que X ∼ N (0, 1) et


1
P(ε = 1) = P(ε = −1) = (loi discrète uniforme sur {−1, 1}).
2
On a vu que X et εX sont décorrélées, mais elles ne sont pas indépendantes.

Remarque 27 On peut également définir la covariance de X et Y par

Cov(X, Y ) = E((X − E[X])(Y − E[Y ])T ).

Définition 54
Soit X = (X1 , · · · , Xn )T un vecteur aléatoire à valeurs dans Rn . On suppose que toutes les
composantes de X sont de carré intégrable (càd E(Xi2 ) < +∞, ∀i ∈ J1, nK). Alors, X est
de carré intégrable et on définit sa matrice de variance-covariance Var(X) par

Var(X) = Cov(X, X).

La matrice Var(X) est symétrique et

∀(i, j) ∈ J1, nK2 , [Var(X)]i,j = Cov(Xi , Xj ).

51
La covariance permet donc de mesurer d’une certaine manière la façon dont deux variables X et
Y interagissent. Cependant, cette quantité dépend très fortement de l’échelle utilisée et peut donc
varier très fortement d’un domaine d’application à l’autre. A ce titre, le coefficient de corrélation
linéaire permet de palier à ce type de problème.

Définition 55
Soient X et Y deux v.a.r. de variances finies. Le coefficient de corrélation linéaire entre
X et Y est défini par
Cov(X, Y )
ρ(X,Y ) = p p .
Var(X) Var(Y )

Remarque 28 Si X et Y sont deux variables aléatoires indépendantes, alors


• E(XY ) = E(X) ∗ E(Y ),
• Cov(X, Y ) = 0,
• ρ(X,Y ) = 0,
• X et Y sont décorrélées.
La réciproque n’est pas vraie.

Remarque 29 Nous avons l’information essentielle suivante : si nous avons l’une de ces pro-
priétés
• E(XY ) 6= E(X)E(Y ),
• Cov(X, Y ) 6= 0,
• ρ(X,Y ) 6= 0,
• X et Y sont corrélées,
alors X et Y ne sont pas indépendantes.

Exemple 37 On pioche simultanément 3 jetons d’une urne contenant 4 jetons numérotés de 1


à 4. On note U le plus petit des numéros obtenus et V le plus grand des numéros obtenus.
1. Calculer le coefficient de corrélation linéaire de U et V .
2. U et V sont-elles indépendantes ?
Preuve.

Exemple 38 Le vecteur aléatoire (X, Y ) possède la loi jointe suivante :



2 90x2 y(1 − y) si 0 ≤ y ≤ 1, 0 ≤ x ≤ y
∀(x, y) ∈ R , f(X,Y ) (x, y) =
0 sinon
Calculer Cov(X, Y ). Les deux variables sont-elles indépendantes ?
Preuve.

52
Rappelons que pour X et Y deux variables aléatoires et (a, b) ∈ R2 , alors

Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2ab Cov(X, Y ).

Plus généralement, nous avons :

Proposition 48
Si X1 , ..., Xn sont n variables aléatoires et (a1 , ..., an ) ∈ Rn , alors
n
! n n X
n
X X X X
Var ak X k = a2k Var (Xk ) + ai aj Cov(Xi , Xj ) = ai aj Cov(Xi , Xj )
k=1 k=1 i6=j i=1 j=1

et si les variables aléatoires sont deux à deux décorrélées alors


n
! n
X X
Var Xk = Var (Xk ) .
k=1 k=1

Remarque 30 Soit X ∼ B(n, p).


Alors, X = X1 + ... + Xn où les Xi sont n variables aléatoires indépendantes suivant une loi B(p).
On a vu que : ∀i ∈ J1, nK, Var(Xi ) = p(1 − p). Et comme les Xi sont indépendantes, alors

∀i 6= j, Cov(Xi , Xj ) = E[Xi Xj ] − E[Xi ]E[Xj ] = 0.


n
X
On en déduit que Var(X) = Var (Xk ) = np(1 − p).
k=1
Contrairement à l’espérance, la variance n’est pas linéaire (∀a, b ∈ R, Var(aX+b) = a2 Var(X)).
Cela signifie que si on a ici

∀i ∈ J1, nK, Var(X1 + · · · + Xn ) = n ∗ Var(Xi ),

ce n’est pas par linéarité mais parce que les Xi sont indépendantes ⇒ les Xi sont 2 à 2 décorrélées
(et a = 1 dans la formule).

53
5.1.6 Espérance et variance de la transformation affine d’un vecteur
aléatoire

Proposition 49
• Soient X un vecteur aléatoire de Rn , de composantes de carré intégrable, a un réel et b
un vecteur de Rn . Alors,
Var[aX + b] = a2 V ar[X].

• Soient X et Y deux vecteurs aléatoires de Rn , de composantes de carré intégrable. Alors

Var[X + Y ] = Var[X] + Cov[X, Y ] + Cov[Y, X] + Var[Y ].

Preuve.

Proposition 50
Soit X un vecteur aléatoire de Rn dont les composantes sont de carré intégrable. On définit
Y = AX +b un vecteur de Rn par transformation affine de X (A est une matrice de dimension
n ∗ n et b un vecteur de dimension n ). Alors,
• E[Y ] = A E[X] + b ,

• Var[Y ] = A Var[X] AT .

Preuve.

54
5.2 Somme de variables aléatoires
Lorsque les variables aléatoires sont indépendantes, une manière simple de déterminer la somme
de ces variables est d’utiliser les fonctions du chapitre précédent.

Proposition 51
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans N. Notons GXi
la fonction génératrice associée à Xi , ∀i ∈ J1, nK. Nous avons alors :

n
Y
∀t ∈ [0, 1], GX1 +...+Xn (t) = GXi (t).
i=1

Preuve. On remarque que ∀t ∈ [0, 1], on a :


n
! n n
h i
GX1 +...+Xn (t) = E tX1 + ... + Xn = E
Y Y Y
Xi Xi

t = E t = GXi (t)
i=1 i=1 i=1

puisque l’indépendance des variables aléatoires Xi entraîne l’indépendance des variables aléa-
toires tXi , ∀i ∈ J1, nK.

Exemple 39 Notons ∀i ∈ J1, nK, Xi ∼ B(ni , p), n variables aléatoires binomiales indépen-
dantes. !
n
X Xn
Montrer que Xi ∼ B ni , p .
i=1 i=1

Preuve.

55
Proposition 52
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans R. Notons ΦXi
la fonction caractéristique associée à Xi , ∀i ∈ J1, nK. Nous avons alors :

n
Y
∀t ∈ R, ΦX1 +...+Xn (t) = ΦXi (t).
i=1

Preuve. On remarque que ∀t ∈ R, on a :


n
! n n
Y Y  Y
it(X1 +...+Xn )
eitXk E eitXk =

ΦX1 +...+Xn (t) = E e =E = ΦXk (t)
k=1 k=1 k=1

puisque l’indépendance des variables aléatoires Xk entraîne l’indépendance des variables aléa-
toires eitXk .

Exemple 40 Notons ∀i ∈ J1, nK, Xi ∼ N (mi , σi2 ), n variables aléatoires gaussiennes indépen-
dantes. !
n
X X n n
X
2
Montrer que Xi ∼ N mi , σi .
i=1 i=1 i=1

Preuve.

Exemple 41 Notons ∀i ∈ J1, nK,! Xi ∼ P(λi ), n variables aléatoires indépendantes de Poisson.


n
X X n
Montrer que Xi ∼ P λi .
i=1 i=1

Preuve.

Proposition 53
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans R+ . Notons ΨXi
la transformée de Laplace de Xi . Nous avons alors :
n
Y
∀t ∈ R+ , ΨX1 +...+Xn (t) = ΨXi (t).
i=1

Preuve. On remarque que ∀t ∈ R+ , on a :


n
! n n
 Pn  Y Y Y
−t Xi −tXi −tXi

ΨX1 +...+Xn (t) = E e i=1 =E e = E e = ΨXi (t)
i=1 i=1 i=1

puisque l’indépendance des variables aléatoires Xi entraîne l’indépendance des variables aléatoires
e−tXi .

56
5.3 Lois et espérances conditionnelles
Sans perte de généralité, pour simplifier l’écriture, on ne considère dans cette section que les
couples de variables aléatoires.

5.3.1 Loi et espérance conditionnelles pour des variables aléatoires dis-


crètes

Définition 56
Soit y tel que P(Y = y) > 0. On appelle loi conditionnelle de X sachant Y = y la
probabilité définie par

P(X = x ∩ Y = y) P(X = x, Y = y)
∀x, PY =y (X = x) = P(X = x|Y = y) = = .
P(Y = y) P(Y = y)

Notons que
X 1 X P(Y = y)
PY =y (X = x) = P(X = x, Y = y) = = 1.
P(Y = y) P(Y = y)
x∈X(Ω) x∈X(Ω)

Définition 57
Soit X une variable aléatoire telle que E(|X|) < +∞. L’espérance conditionnelle de X
sachant Y = y est l’espérance de la loi conditionnelle de X sachant Y = y :
X
E(X|Y = y) = xi P(X = xi |Y = y).
i

L’espérance conditionnelle de X sachant Y = y est donc une fonction de y que nous pourrions
noter ψ(y).

Définition 58
On appelle espérance conditionnelle de X sachant Y la variable aléatoire

E(X|Y ) = ψ(Y ) avec ψ(y) = E(X|Y = y),

pour y tel que P(Y = y) > 0 et ψ(y) = 0 sinon.

Remarquons que l’espérance d’une variable aléatoire est un nombre réel, alors que l’espérance
conditionnelle de X sachant Y est une variable aléatoire.

57
Proposition 54
Si E(|X|) < +∞, alors E(|ψ(Y )|) < +∞ où ψ(Y ) = E(X|Y ) et

E(E(X|Y )) = E(ψ(Y )) = E(X).

Preuve. Nous avons


X X
E(ψ(Y )) = ψ(yj ) P(Y = yj ) = E(X|Y = yj ) P(Y = yj )
j j
XX
= xi P(X = xi |Y = yj ) P(Y = yj )
j i
XX X
= xi P(X = xi , Y = yj ) = xi P(X = xi ) = E(X)
j i i

Pour justifier que cette relation est bien définie, on montre de la même manière, que nous avons
E(|ψ(Y )|) = E(|X|) et donc E(|X|) < +∞ entraîne E(|ψ(Y )|) < +∞.

Remarque 31 Ce résultat permet de calculer E(X) :


X
E(X) = E(X|Y = yj ) P(Y = yj ).
j

Il s’agit d’une généralisation de la formule des probabilités totales.

Exemple 42 Soient X et Y deux variables aléatoires discrètes ayant le même ensemble de va-
leurs possibles X(Ω) = Y (Ω) = {0, 0.5, 1}. La distribution de probabilité du couple est donnée par
le tableau suivant

∩ X = 0 X = 0.5 X = 1
Y =0 0.1 0.1 0.1
Y = 0.5 0.2 0.1 0.1
Y =1 0.1 0.1 0.1

1. Quelles sont les lois marginales des variables aléatoires X et Y ?


X et Y sont-elles indépendantes ?
2. Déterminer la loi de la variable aléatoire X conditionnée par l’événement Y = 0.5.
3. Déterminer la loi de la variable aléatoire X conditionnée par l’événement Y = 1.
4. Calculer E(X|Y = 0.5) et E(X|Y = 1). En déduire E(XY ).
5. Calculer la covariance de X et Y , notée Cov(X, Y ).

58
5.3.2 Densité et espérance conditionnelles pour des variables aléatoires
continues
Soit (X, Y ) un couple de variables aléatoires réelles continues.
Supposons que (X, Y ) admet la densité f(X,Y ) . Alors, X et Y admettent les densités marginales
fX et fY suivantes sur R :
Z Z
∀x ∈ R, fX (x) = f(X,Y ) (x, y)dy et ∀y ∈ R, fY (y) = f(X,Y ) (x, y)dx.
R R

La réciproque est fausse en général : les variables aléatoires réelles X et Y peuvent avoir des
densités sans que le couple (X, Y ) en ait une.

Définition 59
Si ∀y ∈ R, fY (y) > 0, on définit la densité conditionnelle de X sachant Y = y par

f(X,Y ) (x, y)
∀x ∈ R, fX|Y =y (x) = .
fY (y)

Preuve. Immédiate puisque fX|Y =y est positive (ou nulle) et d’intégrale 1.

On remarque en particulier que si X et Y sont deux variables indépendantes alors

f(X,Y ) (x, y)
∀x ∈ R, fX|Y =y (x) = = fX (x).
fY (y)

Définition 60
Soit X une variable aléatoire intégrable.
• L’espérance conditionnelle de X sachant Y = y est définie par
Z
E(X|Y = y) = x fX|Y =y (x)dx.
R

• L’espérance conditionnelle de X sachant Y est la variable aléatoire définie par :

E(X|Y ) = Ψ(Y ) avec Ψ(y) = E(X|Y = y).

59
Proposition 55
Soit X une variable aléatoire intégrable.
• L’espérance de X s’exprime en fonction de l’espérance conditionnelle de X sachant Y :
Z
E(X) = E(E(X|Y )) = E(X|Y = y) fY (y)dy.
R

• Supposons de plus que Y soit intégrable. Alors, pour a, b ∈ R,

E(aX + bY |Z) = aE(X|Z) + bE(Y |Z).

• Si X ≥ 0, alors E(X|Y ) ≥ 0.
• E(1|X) = 1.
• Pour toute fonction h positive ou bornée sur R2 , on a
Z Z
E(h(X, Y )) = h(x, y) f(X,Y ) (x, y) dxdy
ZR ZR
= h(x, y) fX|Y =y (x)fY (y) dxdy
ZR ZR
= h(x, y) fY |X=x (y)fX (x) dxdy
R R

Exemple 43 Soient X et Y de densité jointe


1
∀(x, y) ∈ R2 , f(X,Y ) (x, y) = 1T (x, y),
x
où T = {(x, y) ∈ R2 : 0 < y < x < 1}.

1. Déterminer la densité marginale de X. Quelle est la loi de X ?


2. Déterminer la densité de Y |X = x pour tout x ∈]0, 1[.
Quelle est la loi de de Y |X = x pour tout x ∈]0, 1[ ?
3. Déterminer l’espérance de Y |X = x pour tout x ∈]0, 1[. En déduire E(Y |X).
4. En déduire E(Y ).

60
Chapitre 6

Théorèmes limites

Deux théorèmes mathématiques ont une place particulière en théorie des probabilités et en
statistique :
• la loi des grands nombres,
• le théorème central limite.

Ils interviennent dans l’étude de phénomènes aléatoires comportant un grand nombre de v.a.r.
indépendantes de même loi :
• la loi des grands nombres apparaît lorsque le nombre de répétitions n de l’expérience
n
1X
tend vers l’infini. Dans ce cas, la fréquence de réalisations Xn = Xi d’un événement
n i=1
converge vers sa probabilité.
• le théorème central limite dit que pour n assez grand, Xn suit une loi normale.

Par exemple, dans un "jeu de pile ou face", chaque tirage est modélisé par une variable aléatoire
de Bernoulli de paramètre 1/2.

Si le nombre de tirages tend vers l’infini, on considère la suite (Xi )i≥1 i.i.d. et d’après la loi
des grands nombres, la fréquence de "piles" que l’on note
X1 + ... + Xn
Xn =
n
1
tend vers 2
:
X1 + ... + Xn 1
lim Xn = lim =
n→+∞ n→+∞ n 2
en suivant une loi normale (d’après le théorème central limite).

61
6.1 Différents modes de convergence
Pour simplifier, les différentes définitions et propriétés présentées ci-dessous sont énoncées pour
des variables aléatoires réelles, mais peuvent être généralisées à un cadre multi-dimensionnel.

6.1.1 Convergence presque sûre

Définition 61
La suite (Xn )n converge presque sûrement vers X si il existe un ensemble B ∈ A
négligeable tel que
Xn (ω) −−−−→ X(ω), ∀ω ∈
/ B.
n→+∞
p.s.
On note dans ce cas Xn −−−−→ X.
n→+∞

En théorie de la mesure, on parle plutôt de convergence presque partout, càd qu’on permet à
certains ω de ne pas vérifier que Xn (ω) −−−−→ X(ω) pourvu que la probabilité de réalisation de
n→+∞
l’ensemble de ces ω soit nulle (⇒ l’ensemble de ces ω est de mesure nulle).

Autrement dit, il y a convergence presque sûre si

P(|Xn − X| −−−−→ 0) = 1.
n→+∞

6.1.2 Convergence en probabilité

Définition 62
P
On dit que la suite (Xn )n≥1 converge en probabilité vers X, et l’on note Xn −−−−→ X, si
n→+∞
pour tout  > 0, on a
lim P (|Xn − X| ≥ ) = 0.
n→+∞

6.1.3 Convergence en moyenne

Définition 63
On dit que la suite (Xn )n≥1 d’éléments de L1 (càd E(|Xn |) < +∞) converge en moyenne
L1
vers X ∈ L1 (càd E(|X|) < +∞), et l’on note Xn −−−−→ X, si on a
n→+∞

E(|Xn − X|) −−−−→ 0.


n→+∞

62
6.1.4 Convergence en loi

Définition 64
Soient (Xn )n≥1 une suite de v.a.r. et X v.a.r. On désigne par FX la fonction de répartition de
X et par FXn la fonction de répartition de Xn pour tout n ≥ 1. On dit que la suite (Xn )n≥1
L
converge en loi vers X, et l’on note Xn −−−−→ X, si, en tout point x de continuité de FX
n→+∞
on a
FXn (x) → FX (x) quand n → +∞.

Proposition 56
λ
On suppose que, pour tout n ≥ 1, Xn suit une loi binomiale B(n, pn ) avec pn = > 0 quand
n
n → +∞. Alors, (Xn )n≥1 converge en loi vers la loi de Poisson P(λ) :

λk
lim P(Xn = k) = exp(−λ) .
n→+∞ k!

bxc
X
Preuve. Pour les v.a.r. discrètes, FXn (x) = P(Xn ≤ x) = P(Xn = k).
k=0

Il suffit donc de trouver X tel que lim P(Xn = k) = P(X = k).


n→+∞

En prenant p = λ/n dans la loi binomiale, on obtient


n−k
λk
  
n k n−k n! λ
P(Xn = k) = p (1 − p) = 1− .
k k!(n − k)! nk n
On peut alors remarquer que
   k  n−k n  −k
n(n − 1)...(n − k + 1) λk

n λ λ λ λ
1− = 1− 1− .
k n n nk k! n n
Ensuite, il est clair que :
n(n − 1)...(n − k + 1)
lim = 1,
n→+∞ nk
 n   
λ λ
lim 1 − = lim exp n ln 1 − = exp(−λ),
n→+∞ n n→+∞ n
 −k
λ
lim 1 − = 1.
n→+∞ n
Et finalement,
   k  n−k
n λ λ λk
lim P(Xn = k) = lim 1− = e−λ .
n→+∞ n→+∞ k n n k!

63
Comme l’indique son nom, ce type de convergence concerne d’une certaine manière la façon dont
la loi de Xn va venir "imiter" celle de X. La convergence en loi est parfois également appelée
convergence faible, en particulier en théorie de la mesure. Cette dénomination est justifiée par
la proposition suivante.

Proposition 57
Soient (Xn )n≥1 une suite de v.a.r. et X une v.a.r.
Les deux assertions suivantes sont équivalentes :
L
(i) Xn −−−→ X quand n → +∞.
n→∞
(ii) E[f (Xn )] → E[f (X)] quand n → +∞ pour toute fonction f continue et bornée.

Il peut être utile d’utiliser les fonctions caractéristiques pour démontrer des convergences en loi.

Théorème 2
(Théorème de continuité de Levy)
Soient (Xn )n≥1 une suite de v.a.r. et X une v.a.r. La suite (Xn )n≥1 converge en loi vers la
variable X si et seulement si, pour tout t ∈ R

E[eitXn ] → E[eitX ] quand n → +∞.

6.2 La loi des grands nombres

6.2.1 Loi (faible) des grands nombres


Le premier résultat présenté ici permet de faire le lien entre la moyenne des résultats obtenus
lors de la répétition d’une même expérience (de manière indépendante et dans des conditions
identiques), et l’espérance théorique associée à cette expérience.

Théorème 3
(LGN) Soient X1 , . . . , Xn des v.a.r. indépendantes, de même loi, telles que E[|X1 |] < +∞. On
note m = E(X1 ). Alors, pour tout  > 0,
 
X1 + . . . + Xn
P − m ≥  −→ 0.
n n→+∞

Autrement dit la moyenne empirique de X1 , . . . , Xn converge en probabilité (et en moyenne)


vers l’espérance mathématique m lorsque n tend vers +∞.

64
Preuve. On va montrer ce résultat dans le cas particulier où Var(Xi ) = σ 2 < +∞ pour tout
i ∈ {1, . . . , n}. Posons
n
X1 + · · · + Xn 1X
X̄n := = Xi .
n n i=1
On remarque tout d’abord que par linéarité de l’espérance
n
1X
E[X̄n ] = E[Xi ] = m.
n i=1

Par ailleurs, par indépendance des Xi


n
1 X σ2
Var(X̄n ) = 2 Var(Xi ) = .
n i=1 n

Soit  > 0 fixé. Une application directe de l’inégalité de Chebychev donne alors
 Var(X̄n ) σ2
P |X̄n − E[X̄n ]| ≥  ≤ = → 0 quand n → +∞,
2 n2
ce qui donne le résultat demandé dans le cas où la variance des Xi est supposée finie.

6.2.2 Loi (forte) des grands nombres


La loi forte des grands nombres décrit un phénomène similaire à celui associé à la LGN version
faible, mais avec une convergence presque sûre à la place de la convergence en probabilité.

Théorème 4
Soient X1 , . . . , Xn des variables i.i.d. telles que E[|X1 |] < +∞. Alors, la variable X̄n définie
par
X1 + · · · + Xn
∀n ∈ N? , X̄n =
n
converge presque sûrement (et en moyenne) vers E[X1 ].

65
6.3 Théorème central limite
Supposons dans un premier temps que les variables Xi , i = 1 . . . n sont i.i.d., de loi gaussienne
N (m, σ 2 ). En utilisant la propriété d’additivité de la loi normale, on peut affirmer que X̄n suit
une loi gaussienne. Par ailleurs, on a déjà vu que
σ2
E[X̄n ] = m et Var(X̄n ) = .
n
On obtient donc que

σ2
 
n(X̄n − m)
X̄n ∼ N m, ce qui implique ∼ N (0, 1).
n σ
Que se passe-t-il dans le cas général où les v.a.r. Xi ne sont pas nécessairement normales ? Le
résultat ci-dessus se transforme alors en un résultat de convergence en loi.

Théorème 5
(TCL) Soient X1 , . . . , Xn des v.a.r. indépendantes, de même loi, et de variance finie. On note
m = E(X1 ) et σ 2 = Var(X1 ), avec σ > 0. Alors

n(X̄n − m) L
−→ N (0, 1) lorsque n → +∞.
σ

Preuve. On remarque dans un premier temps que



n(X̄n − m) √ Xi − m
= nȲn avec Yi = .
σ σ
Les v.a. Yi sont i.i.d., d’espérance 0 et de variance 1. Pour tout t ∈ R fixé, on obtient alors
 n
t2 00
  
h 1 Pn
it √n j=1 Yj
i
n t t 0 1

Φ nȲn (t) = E e = ΦY1 √ = 1 + √ ΦY1 (0) + ΦY (0) + o ,
n n 2n n
quand n → +∞. La variance de Y étant finie (égale à 1), on peut alors écrire que
Φ0Y1 (t) = iE[Y1 eitY1 ] et Φ0Y1 (0) = E[Y1 ] = 0,
puis
Φ00Y1 (t) = −E[Y1 2 eitY1 ] ⇒ Φ00Y1 (0) = −E[Y1 2 ] = −[E[Y1 2 ] − E[Y1 ]2 ] = −1.
Il vient alors  n
t2

1 2
Φ√
nȲn (t) = 1− +o → e−t /2 quand n → +∞.
2n n
On reconnaît dans le terme limite l’expression de la fonction caractéristique d’une variable gaus-
sienne centrée réduite. On conclut grâce au théorème de convergence de Lévy, qui affirme que la
convergence simple des fonctions caractéristiques est équivalente à la convergence en loi.

66

Vous aimerez peut-être aussi