Cours de Probabilites 2024-2025: 25 Novembre 2024
Cours de Probabilites 2024-2025: 25 Novembre 2024
2024-2025
25 novembre 2024
Table des matières
2 Espaces de probabilités 12
2.1 Les ensembles infinis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Notion de tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Probabilités conditionnelles et indépendance . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1
4 Propriétés des variables aléatoires 37
4.1 Fonctions génératrice et caractéristique d’une variable aléatoire discrète . . . . . . 37
4.1.1 Fonction génératrice d’une variable aléatoire discrète . . . . . . . . . . . . 37
4.1.2 Fonction caractéristique d’une variable aléatoire discrète . . . . . . . . . . 38
4.2 Fonctions caractéristique et transformée de Laplace d’une variable aléatoire continue 39
4.2.1 Fonction caractéristique d’une variable aléatoire continue . . . . . . . . . . 39
4.2.2 Transformée de Laplace d’une variable aléatoire continue . . . . . . . . . . 40
4.3 Changement de variable et inégalités . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.1 Changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.2 Inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Vecteurs aléatoires 43
5.1 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.1 Fonction de répartition d’un vecteur aléatoire . . . . . . . . . . . . . . . . 43
5.1.2 Lois et espérance d’un vecteur aléatoire discret . . . . . . . . . . . . . . . . 44
5.1.3 Densité et espérance d’un vecteur aléatoire continu . . . . . . . . . . . . . 46
5.1.4 Indépendance d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . 48
5.1.5 Variance, covariance et coefficient de corrélation linéaire . . . . . . . . . . 51
5.1.6 Espérance et variance de la transformation affine d’un vecteur aléatoire . . 54
5.2 Somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Lois et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.1 Loi et espérance conditionnelles pour des variables aléatoires discrètes . . . 57
5.3.2 Densité et espérance conditionnelles pour des variables aléatoires continues 59
6 Théorèmes limites 61
6.1 Différents modes de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.3 Convergence en moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.1 Loi (faible) des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.2 Loi (forte) des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2
Introduction et objectifs
L’objectif de ce cours de probabilités est de donner quelques outils qui serviront de pré-requis
pour d’autres cours où les probabilités et les statistiques interviennent.
Il sera complété par 21h TD (Travaux Dirigés) et 6h TT (Travaux Tutorés : ce sont des travaux
qui donnent lieu à une note), ainsi que par de la simulation aléatoire sous la forme de 12h TP
(Travaux Pratiques) et 3h TT.
3
Chapitre 1
En probabilités, on relie généralement le hasard à des phénomènes que l’on ne maîtrise pas (les
variations de durées de vie, la génétique, ...).
De plus, l’observation d’un grand nombre de phénomènes aléatoires, répétés dans des conditions
identiques, permet souvent de déceler des lois régissant les résultats (la fréquence d’apparition de
chaque résultat, la valeur moyenne de ces résultats,...). Par exemple, 1000 lancers d’une pièce non
truquée donneront environ 50% de piles et 50% de faces. Cette stabilité, appelée loi des grands
nombres, va nous conduire à des modèles mathématiques.
1.1.1 Définitions
Définition 1
Une expérience aléatoire est une expérience dont les résultats (ou issues) sont connus sans
que l’on puisse déterminer lequel sera réalisé.
Exemple 1 Lancer d’un dé. Les issues possibles sont 1, 2, 3, 4, 5 et 6 mais on ne sait pas sur
laquelle on va tomber.
Définition 2
On appelle univers associé à une expérience aléatoire, l’ensemble Ω de tous les résultats
possibles de cette expérience.
4
Dans l’exemple 1 du lancer d’un dé, Ω = {1, 2, 3, 4, 5, 6}.
Définition 3
On appelle événement aléatoire, associé à une expérience aléatoire, une proposition logique
représentée par un sous-ensemble de Ω.
Définition 4
On dit que l’événement A est réalisé si le résultat observé ω ∈ A.
Puisque les événements aléatoires sont des ensembles, nous allons rappeler les opérations élémen-
taires classiques de la théorie des ensembles.
5
1.1.2 Modélisation ensembliste des événements aléatoires
Définition 5
On dit que Ω est l’événement certain et ∅ est l’événement impossible.
Définition 6
Soient A et B deux événements d’un univers Ω, ce que l’on note A, B ⊂ Ω ou encore
A, B ∈ P(Ω) qui est l’ensemble des parties de Ω.
Proposition 1
Opérations sur le complémentaire :
A = A, A ∩ B = A ∪ B, A ∪ B = A ∩ B.
6
1.2 Probabilités sur un espace fini
1.2.1 Définitions
Définition 7
Un ensemble Ω non vide est fini ssi
Définition 8
Une probabilité sur Ω fini est une application P : P(Ω) → [0, 1] telle que :
Proposition 2
Soit Ω fini et (Ω, P(Ω), P) un espace de probabilité. On suppose que les ensembles suivants
appartiennent à P(Ω).
• P(∅) = 0, (1.4)
• P(A) = 1 − P(A), (1.5)
• P(B \ A) = P(B) − P(A ∩ B), (1.6)
• si A ⊂ B, P(B \ A) = P(B) − P(A), (1.7)
• si A ⊂ B, P(A) ≤ P(B), (1.8)
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B), (1.9)
n
! n
[ X
• P Ai = P(Ai ) si les Ai sont 2 à 2 incompatibles (n ≥ 2). (1.10)
i=1 i=1
Preuve.
7
1.2.2 Probabilités uniformes
Définition 9
Une probabilité sur Ω fini est uniforme si chaque élément ω ∈ Ω a la même chance de
réalisation, càd si :
1
∀ω ∈ Ω, P({ω}) = .
Card(Ω)
Proposition 3
Si P est une probabilité uniforme sur Ω fini, alors
Card(A)
X X 1 Card(A)
∀A ⊂ Ω, P(A) = P({ω}) = = .
ω∈A i=1
Card(Ω) Card(Ω)
8
Proposition 4
Rappels de dénombrement :
Soient k, n ∈ N∗ avec k ≤ n.
Exemple 8 On dispose d’une urne contenant n boules identiques et on effectue k tirages avec
k ≤ n.
• Tirages successifs avec remise : Card(Ω) = nk .
n!
• Tirages successifs sans remise : Card(Ω) = n(n − 1)...(n − k + 1) = = Akn .
(n − k)!
Akn
n
• Tirage simultané : Card(Ω) = = car on ne tient pas compte des permutations (les
k! k
boules ne sont pas identifiables, on ne peut pas les ordonner).
9
Proposition 5
Propriétés des combinaisons
• Binôme de Newton
n
n
X n
∀a, b ∈ R, ∀n ∈ N, (a + b) = ak bn−k .
k
k=0
Correction.
Définition 10
Soient Ω et F deux ensembles finis et (Ω, P(Ω), P) un espace de probabilité.
Remarque 2 Une variable aléatoire, malgré son nom, n’est pas une variable (au sens de l’ana-
lyse), mais une fonction de la variable ω ∈ Ω.
10
Remarque 3 En pratique, on utilise les abus de notations suivants :
Ω = {P P P, P P F, P F P, P F F, F P P, F P F, F F P, F F F }.
Comme la pièce est équilibrée, nous avons une probabilité uniforme P et donc
3
1 1 1
∀ω ∈ Ω, P({ω}) = = = .
Card(Ω) 8 2
Intéressons-nous à la variable aléatoire X associée au nombre de piles. Alors, X ∈ {0, 1, 2, 3} et
1 3 3 1
P(X = 0) = , P(X = 1) = , P(X = 2) = et P(X = 3) = .
8 8 8 8
Conclusion : PX n’est pas uniforme.
Définition 11
Soit X une variable aléatoire et PX sa loi. La fonction de répartition de X est la fonction :
FX : R → [0, 1]
.
x 7→ P(X ≤ x)
Définition 12
Soient Ω = {x1 , ..., xn } fini et (Ω, P(Ω), P) un espace de probabilité.
11
Chapitre 2
Espaces de probabilités
Si nous jouons n fois à Pile ou Face, Ω = {P, F }n est fini et de cardinal 2n si nous supposons
que la pièce n’est pas truquée. Considérons l’événement An :"on ne tire jamais Pile lors des n
tirages", alors An ⊂ Ω et
Card(An ) 1
P(An ) = = n.
Card(Ω) 2
∗
Si le jeu se poursuit indéfiniment, alors Ω = {P, F }N est un ensemble infini. Si l’on considère
l’événement A :"on ne tire jamais Pile", alors A est obtenu par
\passage à la limite des An , au
sens où les An sont décroissants (i.e. An+1 ⊂ An ) et où A = An . Formellement, on a envie
n
d’écrire
P(A) = lim P(An ) = 0.
n→∞
Dans la définition 8, il manque donc un axiome permettant le passage à la limite pour les en-
sembles Ω infinis (que nous diviserons en deux catégories : les ensembles dénombrables et les
ensembles infinis non dénombrables).
Définition 13
Un ensemble Ω est dénombrable s’il est en bijection avec N, c’est à dire si l’ensemble de
ses éléments peut être mis sous la forme d’une suite (xn )n∈N .
12
Proposition 6
Si un ensemble n’est ni fini ni dénombrable, on dit qu’il est infini non dénombrable.
Définition 14
Soit Ω un univers. Une tribu est un ensemble A ⊂ P(Ω) tel que
• Ω ∈ A,
• si A ∈ A, alors A ∈ A,
[
• si (An )n∈N est une suite d’éléments de A, alors An ∈ A.
n∈N
Le couple (Ω, A) est appelé espace mesurable.
Remarque 5 On en déduit qu’une tribu A est alors stable par réunion et intersection finies.
13
2.3 Espace de probabilité
La mesure de probabilité (ou plus simplement probabilité) d’un événement A est un nombre qui
rend compte du degré de vraisemblance que l’on accorde à la réalisation de cet événement lors
de l’expérience aléatoire.
Définition 15
Une probabilité P sur l’espace mesurable (Ω, A) est une application telle que
• ∀A ∈ A, 0 ≤ P(A) ≤ 1,
• P(Ω) = 1,
• si (An )n∈N est une famille d’éléments de A, 2 à 2 incompatibles, alors
!
[ X
P An = P(An ). (2.1)
n∈N n∈N
Remarque 6 L’axiome de σ-additivité entraîne que la série de terme général P(An ) est conver-
gente.
Proposition 7
Soit (Ω, A, P) un espace de probabilité. Il y a équivalence entre :
1. L’axiome de σ-additivité,
2. Pour toute suite (An )n∈N croissante de parties de Ω, i.e. An ⊂ An+1 pour tout n,
!
[
P An = lim P(An ),
n→+∞
n∈N
3. Pour toute suite (An )n∈N décroissante de parties de Ω, i.e. An+1 ⊂ An pour tout n,
!
\
P An = lim P(An ).
n→+∞
n∈N
Preuve.
14
Remarque 7 Ce résultat entraîne en particulier que si (An )n∈N est une suite croissante ou dé-
croissante d’événements, la suite (P(An ))n∈N admet une limite quand n tend vers l’infini.
Remarque 8 Cette proposition répond donc au problème de modélisation que l’on s’était posé
en introduction de ce chapitre. Cet axiome est plus fort que la propriété de σ-additivité quand Ω
est fini.
Définition 16
Soit (Ω, A, P) un espace de probabilité.
• L’événement A ∈ A est dit négligeable si P(A) = 0.
• L’événement A ∈ A est dit P-presque-sûrement (en abrégé P-p.s.) si P(A) = 1.
De plus, nous retrouvons les propriétés du cas Ω fini, ainsi que d’autres.
Proposition 8
Propriétés des probabilités
Soit (Ω, A, P) un espace de probabilité. On suppose que tous les ensembles suivants sont
dans A.
1. P(∅) = 0,
2. P(A) = 1 − P(A),
3. si A ⊂ B, P(B \ A) = P(B) − P(A) et P(A) ≤ P(B),
4. P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
N
! N
[ X
5. si A0 , ..., AN sont 2 à 2 incompatibles, alors P An = P(An ),
n=0 n=0
6. si A est fini ou dénombrable, alors
X
P(A) = P({ω}).
ω∈A
N
! N
[ X
7. P An ≤ P(An ),
n=0 n=0
!
[ X
8. P An ≤ P(An ).
n∈N n∈N
Preuve.
15
2.4 Probabilités conditionnelles et indépendance
Définition 17
Soit (Ω, A, P) un espace de probabilité. Soient A et B deux événements aléatoires tels que
P(A) 6= 0. On appelle probabilité conditionnelle de B sachant A la quantité
P(A ∩ B)
PA (B) = P(B|A) = .
P(A)
Proposition 9
Formule des probabilités composées
Soit (Ω, A, P) un espace de probabilité. Soit (Ai )i∈J1,nK une famille de n événements aléa-
toires telle que P(A1 ∩ ... ∩ An−1 ) > 0. Alors,
P(A1 ∩ ... ∩ An ) = P(A1 ) × P(A2 |A1 ) × P(A3 |A1 ∩ A2 ) × ... × P(An |A1 ∩ ... ∩ An−1 ).
Preuve.
Exemple 13 Soit Ω l’ensemble ordonné de 3 boules prises parmi 12 (7 boules rouges et 5 boules
bleues) lors d’un tirage sans remise. Considérons les événements :
• M : "tirer 3 boules de même couleur",
• Ri : "la i−ème boule est rouge",
• Bi : "la i−ème boule est bleue".
Calculer la probabilité de M avec les probabilités conditionnelles.
Correction.
16
Proposition 10
Formule des probabilités totales
!
[ [
Preuve. A = A ∩ Ω = A ∩ Ai = (A ∩ Ai ) avec A ∩ Ai des événements 2 à 2 incompa-
i∈I i∈I
tibles (en effet, pour i 6= j, Ai ∩ Aj = ∅ ⇒ (A ∩ Ai ) ∩ (A ∩ Aj ) = A ∩ (Ai ∩ Aj ) = ∅).
Donc,
!
[ X X
P(A) = P (A ∩ Ai ) = P(A ∩ Ai ) = P(A|Ai ) × P(Ai ).
i∈I i∈I i∈I
Proposition 11
Formule de Bayes
P(A|Ai ) × P(Ai )
∀i ∈ I, P(Ai |A) = X .
P(A|Aj ) × P(Aj )
j∈I
17
La formule de Bayes (publiée après sa mort en 1763) présente un grand intérêt car elle permet de
renverser les conditionnements. Ainsi, elle modifie notre connaissance des probabilités en fonc-
tion d’informations nouvelles. Cette formule joue donc un rôle très important dans la statistique
bayésienne.
Exemple 14 Un laboratoire met au point un test antidopage. Il se révèle positif pour un spor-
tif non dopé dans 2% des cas, contre 98% pour un sportif en situation de dopage. Lors d’une
compétition donnée, on estime que 3% des sportifs ont eu recours à des produits dopants. Lors
d’un contrôle, ce test se révèle positif. Quelle est la probabilité que la personne incriminée soit
effectivement dopée ?
Correction.
2.4.2 Indépendance
Définition 18
Soit (Ω, A, P) un espace de probabilité, et soient A et B deux événements aléatoires. On dit
que A et B sont indépendants si
Exemple 15 On tire au hasard une carte dans un jeu de 52 cartes. Soient les événements :
• R :"la carte est un roi",
• T :"la carte est un trèfle",
• F :"la carte est une figure".
Montrer que R et T sont indépendants, T et F sont indépendants, mais R et F ne sont pas
indépendants.
18
4 1 13 1 3×4 3
Clairement, P(R) = = , P(T ) = = et P(F ) = = .
52 13 52 4 52 13
1 1 1
P(R ∩ T ) = P("Roi de trèfle") = = × = P(R) × P(T ) donc R et T sont indépendants.
52 13 4
3 1 3
P(T ∩ F ) = P("Figure en trèfle") = = × = P(T ) × P(F ) donc T et F sont indépendants.
52 4 13
1 1 3
P(R ∩ F ) = P(R) = 6= × = P(R) × P(F ) donc R et F ne sont pas indépendants.
13 13 13
Nous allons maintenant définir une notion d’indépendance pour plus de 2 événements aléatoires.
Définition 19
Soit (Ω, A, P) un espace de probabilité. Pour n ≥ 2, soient A1 , A2 , . . . An , des événements
aléatoires.
• Ces événements sont deux à deux indépendants si, pour tout couple (i, j) avec i 6= j,
on a
P(Ai ∩ Aj ) = P(Ai ) × P(Aj ).
• Ces événements sont indépendants (dans leur ensemble) si, pour tout k ∈ {2, 3, . . . , n}
et tout choix d’indices distincts i1 , . . . , ik , on a
Exemple 16 On tire deux cartes avec remise dans un jeu de 52 cartes. Soient les événements :
• Ri :"la ième carte tirée est rouge",
• Ni :"la ième carte tirée est noire",
• M :"les deux cartes tirées sont de la même couleur".
Montrer que R1 , N2 et M sont 2 à 2 indépendants, mais pas mutuellement indépendants.
Les deux tirages se font avec remise, ils sont donc indépendants.
1 1
P(R1 ) = , P(N2 ) = et
2 2
1 1 1 1 1
P(M ) = P(R1 ∩ R2 ) + P(N1 ∩ N2 ) = P(R1 ) ∗ P(R2 ) + P(N1 ) ∗ P(N2 ) = × + × = .
2 2 2 2 2
1 1 1 1
P(R1 ∩ N2 ) = P(R1 ) × P(N2 ) = , P(R1 ∩ M ) = P(R1 ∩ R2 ) = × = = P(R1 ) × P(M ),
4 2 2 4
1 1 1
P(N2 ∩ M ) = P(N1 ∩ N2 ) = × = = P(N2 ) × P(M ) et P(R1 ∩ N2 ∩ M ) = P(∅) = 0.
2 2 4
Conclusion : P(R1 ∩ N2 ∩ M ) 6= P(R1 ) × P(N2 ) × P(M ).
19
Chapitre 3
3.1 Définitions
Définition 20
Soit (Ω, A, P) un espace de probabilité. Une variable aléatoire réelle (v.a.r.) est une appli-
cation X : Ω → R telle que pour tout intervalle I de R,
X −1 (I) ∈ A.
Remarque 12 Choix de A
1. Si Ω est fini ou dénombrable, nous prendrons en général A = P(Ω).
2. Si Ω = R, nous prendrons A = B(R).
Définition 21
Soit (Ω, A, P) un espace de probabilité et X une v.a.r.. On appelle loi de probabilité de X,
notée PX , l’application telle que :
Remarque 13 Pour toute la suite du cours, nous utiliserons les notations abrégées :
Proposition 12
L’application PX définit une probabilité sur R muni de sa tribu borélienne.
20
3.1.2 Fonction de répartition
Définition 22
La fonction de répartition de la v.a.r. X est définie par
Proposition 13
Propriétés de la fonction de répartition :
1. ∀x ∈ R, 0 ≤ FX (x) ≤ 1.
2. FX tend vers 0 en −∞ et vers 1 en +∞.
3. FX est croissante.
4. FX est continue à droite.
Proposition 14
Nous avons l’identité
Définition 23
Une v.a.r. X à valeurs dans un ensemble F fini ou dénombrable est appelée v.a.r. discrète.
Dans ce cas, la loi de X est déterminée par l’ensemble des probabilités P(X = x), ∀x ∈ F.
X
Ainsi, pour toute partie A de F , on a alors : PX (A) = P(X ∈ A) = P(X = x).
x∈A
21
3.1.4 Variable aléatoire continue
Définition 24
Soit X une v.a.r. qui prend un nombre infini non dénombrable de valeurs. Si FX est une
fonction continue, on dit que X est une v.a.r. continue. Dans ce cas, la loi de X est déterminée
par l’ensemble des probabilités P(a < X < b), pour tout a < b.
Remarque 14 Notons que l’on peut mettre < ou ≤ dans ce qui précède car la variable étant
continue, on a P(X = x) = 0 pour tout x ∈ R.
est continue.
Définition 25
Si l’on peut écrire la fonction de répartition d’une v.a.r. continue sous la forme
Z x
∀x ∈ R, FX (x) = fX (t) dt,
−∞
où fX est une fonction de R dans R, alors on dit que fX est la densité de probabilité de la
v.a.r. X.
Cette intégrale étant positive pour tout a < b, il en résulte que fX ≥ 0. De plus, puisque
lim FX (x) = 1, on a
x→+∞
Z +∞
fX (x) dx = 1.
−∞
22
Définition 26
Une densité de probabilité est donc une fonction positive ou nulle sur R, d’intégrale 1, et
qui caractérise la loi d’une v.a.r. continue. De plus, en tout point x ∈ R où FX est dérivable,
on a : fX (x) = FX0 (x).
Proposition 15
Espérance d’une variable aléatoire discrète
Soient X une v.a.r. discrète à valeurs dans un ensemble F et h une application de R dans R
telles que X
|h(x)| P(X = x) < +∞.
x∈F
Proposition 16
Espérance d’une variable aléatoire continue
Soient X une v.a.r. continue admettant fX comme densité et h une application de R dans R
telles que Z +∞
|h(x)| fX (x) dx < +∞.
−∞
23
Remarque 15 Vocabulaire
• E(X) est appelée espérance mathématique (ou moyenne) de la v.a.r. X.
• E(X k ) est appelée moment simple d’ordre k de la v.a.r. X.
Proposition 17
Propriétés de l’espérance
1. L’espérance est linéaire : pour tous α, β ∈ R, et pour toutes v.a.r. X et Y satisfaisant
E(|X|) < +∞ et E(|Y |) < +∞, on a
E(X) = E(a) = a.
Preuve.
qui est appelée fonction indicatrice de l’événement {X ∈ A}, alors l’espérance de cette
v.a.r. est :
E(1{X∈A} ) = PX (A),
d’où le lien entre la probabilité d’un événement et l’espérance d’une variable aléatoire.
24
Néanmoins, la connaissance de l’espérance mathématique (' “valeur moyenne de X") donne peu
de renseignements sur cette v.a.r. Ainsi, il faut étudier “l’étalement" de sa loi, c’est-à-dire la
dispersion de la v.a.r. X autour de sa moyenne E(X).
Proposition 18
Si E(X 2 ) < +∞, alors p
|E(X)| ≤ E(|X|) ≤ E(X 2 ).
On ne va donc pas calculer la moyenne des écarts mais la moyenne des écarts au carré. C’est ce
qu’on appelle la variance.
Définition 27
Si E(X 2 ) < +∞, la variance de la v.a.r. X est la quantité :
Var(X) = E (X − E(X))2 ≥ 0.
Proposition 19
Si E(X 2 ) < +∞, alors
• Var(X) = E(X 2 ) − (E(X))2 .
• Var(aX + b) = a2 Var(X) pour tout a, b ∈ R.
En particulier, Var(X + b) = Var(X).
Il résulte de cette proposition que la variance n’est pas linéaire ! Plus précisément,
25
Proposition 20
Soient X et Y deux variables aléatoires et (a, b) ∈ R2 , alors
Afin d’être en mesure de comparer, en termes d’ordre de grandeur, variance et espérance, il faut
prendre la racine carrée de la variance. C’est ce qu’on appelle l’écart-type.
Définition 28
La racine carrée de Var(X), notée σX , est appelée écart-type de X.
Définition 29
Soit X est une variable aléatoire, d’espérance E(X) et d’écart-type σX , alors
X − E(X)
X∗ =
σX
est une variable aléatoire centrée (d’espérance nulle) et réduite (de variance 1).
En effet,
∗ X − E(X) E(X) − E(X)
E(X ) = E = =0
σX σX
par linéarité de l’espérance et en utilisant les propriétés de la variance,
∗ X − E(X) Var(X)
Var(X ) = Var = 2
= 1.
σX σX
26
3.3 Quelques exemples de variables aléatoires discrètes
Soit X une v.a.r. discrète prenant ses valeurs dans un ensemble {x1 , x2 , . . . , xn }, éventuellement
infini. Alors la loi de X est caractérisée par l’ensemble des probabilités P(X = xi ), c’est-à-dire
n
X
∀i ∈ J1, nK, 0 ≤ P(X = xi ) ≤ 1 et P(X = xi ) = 1.
i=1
Définition 30
On dit qu’une v.a.r. X à valeurs dans {0, 1} suit une loi de Bernoulli de paramètre p ∈]0, 1[,
ce que l’on note B(p), si
P(X = 0) = 1 − p et P(X = 1) = p.
Par exemple, cette loi intervient lorsque l’on modélise l’état de fonctionnement d’un système.
La probabilité que le système fonctionne vaut p et la probabilité que le système ne fonctionne
pas vaut 1−p. Cette loi s’applique aussi aux jeux de hasard de type binaire comme pile ou face . . .
Proposition 21
Si X suit une loi de Bernoulli de paramètre p ∈]0, 1[, noté X ∼ B(p), alors
Preuve.
Définition 31
On dit qu’une v.a.r. X à valeurs dans {0, 1, . . . , n} suit une loi binomiale de paramètres (n, p),
notée B(n, p), si la probabilité d’avoir k succès parmi n est
n
∀k ∈ J0, nK, P(X = k) = pk (1 − p)n−k .
k
27
Notons que
n n
X X n
P(X = k) = pk (1 − p)n−k = [p + (1 − p)]n = 1.
k
k=0 k=0
Cette loi intervient par exemple pour modéliser le nombre de pièces défectueuses dans un lot
de n pièces, qui ont chacune une probabilité p d’être défectueuse, indépendamment les unes des
autres. En effet, l’univers associé à cette expérience peut être noté dans ce cas Ω = {0, 1}n , avec
la convention 1 pour un pièce défectueuse, 0 sinon.
Proposition 22
Si X suit une loi binomiale de paramètres (n, p) ∈ N∗ ×]0, 1[, ce que l’on note X ∼ B(n, p),
alors
E(X) = np et Var(X) = np(1 − p).
Preuve.
Définition 32
On dit qu’une v.a.r. X à valeurs dans N∗ suit une loi géométrique de paramètre p ∈]0, 1[,
notée G(p), si
∀k ∈ N∗ , P(X = k) = p(1 − p)k−1 .
Cette loi permet de modéliser le nombre de réalisations indépendantes d’une expérience à 2 is-
sues (succès-échec), jusqu’à l’obtention du premier succès, si à chaque réalisation la probabilité
de succès est p.
Proposition 23
Si X suit une loi géométrique de paramètre p ∈]0, 1[, ce que l’on note G(p), alors
1 1−p
E(X) = et Var(X) = .
p p2
28
Indication : On sait grâce aux séries entières que : ∀x ∈ [0, 1[,
+∞ +∞ +∞
1 X
0 1 X
00 2 X
f (x) = = xk , f (x) = = kxk−1 , f (x) = = k(k − 1)xk−2 .
1 − x k=0 (1 − x)2 k=0
(1 − x)3 k=0
Preuve.
Définition 33
On dit qu’une v.a.r. X à valeurs dans N suit une loi de Poisson de paramètre λ > 0, notée
P(λ), si
λk
∀k ∈ N, P(X = k) = e−λ .
k!
Notons que
+∞ +∞ k
X
−λ
X λ
P(X = k) = e = e−λ eλ = 1.
k=0 k=0
k!
Proposition 24
Si X suit une loi de Poisson de paramètre λ > 0, ce que l’on note X ∼ P(λ), alors
E(X) = Var(X) = λ.
Preuve.
29
−k
λ
lim 1 − = 1,
n→+∞ n
et finalement,
k n−k
n λ λ λk
lim 1− = e−λ .
n→+∞ k n n k!
λ
La loi de Poisson représente la probabilité du nombre d’apparitions d’un événement rare (p ∼ )
n
dans une suite infinie d’événements (càd avec n grand). On remplace donc la loi binomiale par
la loi de Poisson, ce qui simplifie les calculs.
Comme nous l’avons vu plus haut, il suffit de connaître cette densité pour connaître la loi de X.
Définition 34
On dit que X suit une loi uniforme sur [a, b], notée U([a, b]), si la loi de X a pour densité
( 1
si a ≤ x ≤ b,
∀x ∈ R, fX (x) = b−a
0 sinon.
30
Proposition 25
Si X suit une loi uniforme sur [a, b], ce que l’on note X ∼ U([a, b]), alors
a+b (b − a)2
E(X) = et Var(X) = .
2 12
Preuve.
Exemple 19 Considérons un métro qui passe à 7h puis toutes les 15 minutes à une station
donnée. Un étudiant arrive entre 7h et 7h30 à cet arrêt. Trouver la probabilité qu’il attende
moins de 5 minutes (puis plus de 10 minutes) à cet arrêt, sachant que l’heure à laquelle il se
présente suit une loi uniforme.
Correction.
Définition 35
On dit que X suit une loi exponentielle de paramètre λ > 0, notée E(λ), si la loi de X a pour
densité
λ exp(−λx) si x ≥ 0,
∀x ∈ R, fX (x) =
0 si x < 0.
La loi exponentielle est utilisée en fiabilité. Le paramètre λ représente le taux moyen de dé-
faillance alors que son inverse 1/λ est “le temps moyen de bon fonctionnement".
La loi exponentielle s’applique bien aux matériels électroniques ou aux matériels subissant des
défaillances brutales.
Proposition 26
Si X suit une loi exponentielle de paramètre λ > 0, ce que l’on note X ∼ E(λ), alors
1 − exp(−λx) si x ≥ 0,
∀x ∈ R, FX (x) =
0 si x < 0.
et
1 1
E(X) = et Var(X) = .
λ λ2
Preuve.
31
Exemple 20 La durée de fonctionnement d’un ordinateur avant sa première panne est une va-
riable aléatoire positive de densité
( 1 x
exp − si x ≥ 0,
∀x ∈ R, fX (x) = 100 100
0 si x < 0.
2. Calculer P(X > 100) puis P(X > 200|X > 100).
Correction.
On remarque que la loi exponentielle est sans mémoire, c’est à dire qu’elle possède la pro-
priété de non-vieillissement :
Proposition 27
Soit X une variable aléatoire continue positive telle que P(X > s) > 0 pour tout s ∈ R. Alors,
Preuve.
Remarque 17 Cette propriété signifie que si l’ordinateur (pour reprendre l’exemple précédent)
fonctionne depuis t heures, alors la loi de sa durée de vie à partir de t heures est la même que la
loi de la durée de vie de cet ordinateur neuf.
32
3.4.3 Loi Gamma
La loi exponentielle est un cas particulier de la famille des lois Gamma.
Définition 36
Soient α > 0 et λ > 0. On dit que X suit une loi Gamma de paramètres (α, λ), notée Γ(α, λ),
si la loi de X a pour densité
α
λ
xα−1 exp(−λx) si x ≥ 0,
∀x ∈ R, fX (x) = Γ(α)
0 si x < 0,
Z +∞
où pour tout α > 0, la célèbre fonction gamma est donnée par Γ(α) = xα−1 exp(−x)dx.
0
Une intégration par parties montre que : ∀α > 0, Γ(α + 1) = αΓ(α) et on a Γ(1) = 1.
On en déduit que Γ(n + 1) = n! pour tout entier n ≥ 0.
Proposition 28
Soient α > 0 et λ > 0. Si X suit une loi Gamma de paramètres (α, λ), ce que l’on note
X ∼ Γ(α, λ), alors ∀β ∈ N∗ , on a :
Γ(α + β) 1 α α
E(X β ) = , E(X) = et Var(X) = .
Γ(α) λβ λ λ2
Preuve.
33
3.4.4 Loi normale de paramètres (m, σ 2 ) (ou gaussienne)
Définition 37
Soient m ∈ R et σ > 0. On dit que X suit une loi normale de paramètres (m, σ 2 ), notée
N (m, σ 2 ), si la loi de X a pour densité
(x − m)2
1
∀x ∈ R, fX (x) = √ exp − .
σ 2π 2σ 2
À cause de sa forme, cette courbe est souvent appelée "courbe en cloche". Elle présente un
axe de symétrie vertical pour x = m. La loi normale s’applique à de nombreux phénomènes,
en physique, en économie (erreurs de mesure). Nous verrons ultérieurement qu’elle est la forme
limite de nombreuses lois discrètes.
Proposition 29
Soient m ∈ R et σ > 0. Si X suit une loi normale de paramètres (m, σ 2 ), ce que l’on note
X ∼ N (m, σ 2 ), alors
E(X) = m et Var(X) = σ 2 .
Preuve.
34
F(u)
Variable NORMALE CENTREE REDUITE
u
u
1
∫e
− x2 / 2
U ≈ N(0,1) P( U ≈ u ) = F(u) = dx
2π −∞
u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
35
Proposition 30
Soient m ∈ R et σ > 0. Si X ∼ N (m, σ 2 ), alors pour tous a > 0 et b ∈ R, on a
aX + b ∼ N (am + b, a2 σ 2 ).
Preuve.
Proposition 31
Lorsque X ∼ N (0, 1), il n’existe pas d’expression analytique de la fonction de répartition de
X. On utilise alors des tables obtenues par des calculs approchés d’intégrales et les propriétés
suivantes :
1
∀x > 0, FX (−x) = 1 − FX (x), FX (0) = et P(|X| ≤ x) = 2FX (x) − 1.
2
Preuve.
Exemple 21 En lisant la table 3.2, on trouve : P(|X| ≤ 2) = 2FX (2)−1 ' 2∗0.9772−1 = 0.9544.
Exemple 22 Lors d’un tir, on admet que les longueurs des tirs suivent une loi normale. On
constate que :
(i) 10% des obus tombent à une distance supérieure à 1600 km.
(ii) 25% des obus tombent à une distance inférieure à 1400 km.
Déterminer la longueur moyenne et l’écart-type. On pourra utiliser que si Z ∼ N (0, 1), on a
P(Z ≤ 1.28) = 0.9 et P(Z ≤ −0.67) = 0.25.
Correction.
36
Chapitre 4
Définition 38
Soit X une v.a.r. à valeurs dans N. La fonction génératrice GX de X est définie par
GX : [0, 1] → R
+∞
X
X
tk P(X = k).
t 7→ E t =
k=0
Proposition 32
La fonction génératrice est continue sur [0, 1] et indéfiniment dérivable sur [0, 1[.
(n)
Remarque 18 Comme GX (0) = n! P(X = n), la fonction GX caractérise les P(X = n), et
donc la loi de X. Ainsi, si deux variables aléatoires ont la même fonction génératrice, alors elles
suivent la même loi.
Preuve.
Proposition 33
Soit X une variable aléatoire à valeurs entières, de fonction génératrice GX . Pour que E(X)
existe, il faut et il suffit que GX soit dérivable à gauche en t = 1.
Dans ce cas,
E(X) = G0X (1).
37
Dans la littérature, la fonction GX est souvent appelée fonction génératrice des moments.
Proposition 34
L’espérance de la variable aléatoire X(X − 1)...(X − p) existe si et seulement si GX est p + 1
fois dérivable à gauche en t = 1. Dans ce cas,
(p+1)
E(X(X − 1)...(X − p)) = GX (1).
Remarque 19 Pour calculer les moments d’une variable aléatoire, il peut être judicieux d’utili-
ser les dérivées de la fonction génératrice.
Exemple 23 Déterminer les fonctions génératrices pour X ∼ B(p), X ∼ B(n, p), X ∼ G(p) et
X ∼ P(λ). En déduire l’espérance et la variance de chacune de ces lois.
Correction.
Définition 39
Soit X une variable aléatoire à valeurs dans N. La fonction caractéristique de X, notée
ΦX , est définie par
ΦX : R→C
+∞
itX X
t 7→ E e = (eit )k P(X = k).
k=0
Dans la mesure où la variable aléatoire (complexe) eitX est de module 1 pour tout t ∈ R, la
fonction caractéristique est toujours bien définie. La proposition suivante garantit l’injectivité de
cette transformation sur l’espace des mesures de probabilité dans R (la preuve sera omise).
38
Proposition 35
Si X et Y sont deux variables aléatoires réelles telles que ΦX (t) = ΦY (t) pour tout t ∈ R,
alors X et Y ont même loi.
Proposition 36
Nous avons les propriétés suivantes :
• Si E(|X|) < +∞, alors Φ0X (0) = iE(X).
• Si E(X 2 ) < +∞, alors Φ00X (0) = −E(X 2 ).
(p)
• Si E(|X|p ) < +∞, alors ΦX (0) = ip E(X p ).
On en déduit que :
Φ0X (0) 2
E(X) = et Var(X) = E(X 2 ) − (E(X))2 = [Φ0X (0)] − Φ00X (0).
i
Preuve.
Exemple 24 Déterminer les fonctions caractéristiques pour X ∼ B(p), X ∼ B(n, p), X ∼ G(p)
et X ∼ P(λ).
Correction.
Définition 40
Soit X une variable aléatoire réelle. La fonction caractéristique de X, notée ΦX est définie
par :
ΦX : R→C
itX
Z +∞
t 7→ E e = eitx fX (x) dx.
−∞
Dans la mesure où la variable aléatoire (complexe) eitX est de module 1 pour tout t ∈ R, la
fonction caractéristique est toujours bien définie. La proposition suivante garantit l’injectivité de
cette transformation sur l’espace des mesures de probabilité dans R (la preuve sera omise).
39
Proposition 37
La fonction caractéristique ΦX caractérise la loi de la variable aléatoire X. Ainsi, si deux
variables aléatoires X et Y ont la même fonction caractéristique, alors elles ont la même loi.
Proposition 38
Nous avons les propriétés suivantes :
• Si E(|X|) < +∞, alors Φ0X (0) = iE(X).
• Si E(X 2 ) < +∞, alors Φ00X (0) = −E(X 2 ).
(p)
• Si E(|X|p ) < +∞, alors ΦX (0) = ip E(X p ).
On en déduit que :
Φ0X (0) 2
E(X) = et Var(X) = E(X 2 ) − (E(X))2 = [Φ0X (0)] − Φ00X (0).
i
Définition 41
Soit X une v.a.r. à valeurs dans R+ . La transformée de Laplace de X, notée ΨX , est
définie par
ΨX : R+ → R
−tX
Z +∞
t 7→ E e = e−tx fX (x) dx.
−∞
C’est une fonction définie sur R+ , indéfiniment dérivable sur ]0, +∞[, et qui satisfait formellement
ΨX (λ) = ΦX (iλ). Ainsi, il n’est pas étonnant que la transformée de Laplace ait des propriétés
analogues à celles de la fonction caractéristique. En particulier, elle caractérise la loi PX .
Proposition 39
Si deux variables aléatoires ont la même transformée de Laplace, alors elles ont la même loi.
40
4.3 Changement de variable et inégalités
Première méthode : soit X une variable aléatoire de fonction de répartition FX . Soit ψ une
application bijective croissante de R dans R et soit Y = ψ(X) une variable aléatoire. La fonction
de répartition FY de Y est obtenue de la manière suivante :
En dérivant l’égalité ∀y ∈ R, FY (y) = FX (ψ −1 (y)) aux points où la dérivée existe, nous pou-
vons alors exprimer la densité de probabilité fY en fonction de fX .
Deuxième méthode : nous pouvons aussi déterminer la densité d’une v.a.r. grâce au résultat
suivant :
Proposition 40
Soit X une v.a. définie sur Ω et à valeurs dans R. La loi de X est entièrement caractérisée
par la donnée des
Plus précisément, s’il existe une fonction f telle que pour toute fonction φ : R → R bornée
Z
E[φ(X)] = φ(x) f (x) dx,
R
41
4.3.2 Inégalités
On va présenter ici quelques inégalités très utiles en probabilités.
Proposition 41
Inégalité de Markov
Soit X une v.a.r.. Pour tout p ∈ N∗ et > 0, on a
E[|X|p ]
P(|X| ≥ ) ≤ .
p
Une conséquence presque directe de ce résultat est l’inégalité de Chebychev présentée ci-dessous.
Proposition 42
Inégalité de Bienaymé-Chebychev
Soit > 0 et soit X une v.a.r. admettant une variance. Alors on a :
Var(X)
P (|X − E(X)| ≥ ) ≤ .
2
Proposition 43
Inégalité de Cauchy-Schwarz
Supposons que E(X 2 ) < +∞ et E(Y 2 ) < +∞, alors
p
|E(XY )| ≤ E(|XY |) ≤ E(X 2 )E(Y 2 ).
Preuve.
42
Chapitre 5
Vecteurs aléatoires
Dans ce chapitre, nous allons nous intéresser aux vecteurs aléatoires (discrets ou continus).
Définition 42
Un vecteur aléatoire X = (X1 , · · · , Xn ) à valeurs dans Rn est formé de n variables aléa-
toires, qui sont les composantes de X.
Sans perte de généralité, on se concentrera dans un premier temps sur des couples de variables
aléatoires, le passage à une dimension quelconque étant immédiat.
Définition 43
On définit la fonction de répartition du couple de variables aléatoires (X1 , X2 ) par
Remarque 20 Les lois marginales PX1 et PX2 sont les lois des composantes X1 et X2 du
vecteur aléatoire (X1 , X2 ).
En particulier, les fonctions de répartition FX1 et FX2 des lois marginales sont déter-
minées par les formules :
∀x1 ∈ R, FX1 (x1 ) = P(X1 ≤ x1 ) = P (X1 ≤ x1 , X2 ∈ R)
et
∀x2 ∈ R, FX2 (x2 ) = P(X2 ≤ x2 ) = P (X1 ∈ R, X2 ≤ x2 ) .
43
5.1.2 Lois et espérance d’un vecteur aléatoire discret
Soit X = (X1 , X2 ) un vecteur aléatoire discret à valeurs dans R2 , c’est à dire que ses composantes
X1 et X2 sont des variables aléatoires discrètes à valeurs dans F1 ⊂ R et F2 ⊂ R respectivement,
supposés finis ou dénombrables.
Il faut donc considérer le vecteur X = (X1 , X2 ) comme une variable aléatoire discrète à va-
leurs dans F1 × F2 et poser
∀x = (x1 , x2 ) ∈ F1 × F2 , P(X = x) = P(X1 = x1 , X2 = x2 ).
Définition 44
Soit (X1 , X2 ) un vecteur aléatoire discret à valeurs dans F1 × F2 ⊂ R2 .
Les lois PX1 et PX2 s’appellent les lois marginales du vecteur. Elles sont définies par :
X
∀x1 ∈ F1 , P(X1 = x1 ) = P(X1 = x1 , X2 = x2 )
x2 ∈F2
X
∀x2 ∈ F2 , P(X2 = x2 ) = P(X1 = x1 , X2 = x2 )
x1 ∈F1
grâce à l’incompatibilité.
Exemple 28 On pioche simultanément 3 jetons dans une urne contenant 4 jetons numérotés de
1 à 4. On note U le plus petit des numéros obtenus et V le plus grand des numéros obtenus.
Déterminer P(U,V ) , PU et PV .
Correction.
44
Définition 45
Soit X = (X1 , X2 ) un vecteur aléatoire discret à valeurs dans F1 × F2 ⊂ R2 .
Soit g une fonction continue de R2 dans R. Alors g(X) est intégrable si et seulement si
X
E(|g(X)|) = |g(x)| ∗ P(X = x)
x∈F1 ×F2
X X
= |g(x1 , x2 )| ∗ P(X1 = x1 , X2 = x2 ) < +∞
x1 ∈F1 x2 ∈F2
Définition 46
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans F1 × F2 ⊂ R2 .
On suppose que toutes les composantes de X sont intégrables (càd E(|Xi |) < +∞, ∀i).
Alors, X est dit intégrable et on définit son vecteur moyenne E(X) ∈ R2 par
X
Remarque 21 Si l’on connaît la loi marginale de Xi , alors E(Xi ) = xi ∗ P(Xi = xi ) aussi.
xi ∈Fi
45
5.1.3 Densité et espérance d’un vecteur aléatoire continu
Définition 47
On dit que le vecteur aléatoire X = (X1 , X2 ) admet la densité fX : R2 → [0, +∞[ si fX est
intégrable de sorte que
Z Z +∞ Z +∞
fX (x) dx = fX (x1 , x2 ) dx1 dx2 = 1
R2 −∞ −∞
et Z x1 Z x2
2
∀(x1 , x2 ) ∈ R , FX (x1 , x2 ) = fX (y1 , y2 ) dy1 dy2 .
−∞ −∞
Définition 48
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans R2 .
Soit g une fonction continue de R2 dans R. Alors g(X) est intégrable si et seulement si
Z Z +∞ Z +∞
E(|g(X)|) = |g(x)| fX (x) dx = |g(x1 , x2 )| fX (x1 , x2 ) dx1 dx2 < +∞
R2 −∞ −∞
46
Définition 49
Soit X = (X1 , X2 ) un vecteur aléatoire à valeurs dans R2 . On suppose que toutes les compo-
santes de X sont intégrables (càd E(|Xi |) < +∞, ∀i ∈ J1, 2K). Alors, X est dit intégrable
et on définit son vecteur moyenne E(X) ∈ R2 par
Z +∞
Remarque 23 Si l’on connaît la loi marginale de Xi , alors E(Xi ) = xi ∗ fXi (xi ) dxi aussi.
−∞
Définition 50
On dit que X = (X1 , · · · , Xn )T est un vecteur gaussien, de paramètres m = E(X) et Σ =
Var(X) inversible, noté X ∼ N (m, Σ), si X admet pour densité
n
< x − m, Σ−1 (x − m) >
n 1 1
∀x ∈ R , fX (x) = √ p exp − ,
2π |det(Σ)| 2
47
5.1.4 Indépendance d’un vecteur aléatoire
Définition 51
On dit que (Xi )i≥1 est une suite de variables aléatoires i.i.d. (indépendantes, identiquement
distribuées) si les Xi sont indépendantes et ont toutes la même loi.
Définition 52
Si (X1 , · · · , Xn ) est un vecteur aléatoire à valeurs dans Rn , on dit que les v.a.r. X1 , ..., Xn
sont indépendantes si et seulement si, pour tous Ω1 , ..., Ωn ⊂ R, nous avons
n
Y
P (X1 ∈ Ω1 , ..., Xn ∈ Ωn ) = P(Xi ∈ Ωi ).
i=1
En particulier, les v.a.r. X1 , ..., Xn sont indépendantes si et seulement si, pour tout (x1 , ..., xn ) ∈
Rn , nous avons
n
Y
F(X1 ,...,Xn ) (x1 , ..., xn ) = FXi (xi ).
i=1
Remarque 24 Si X1 , ..., Xn sont n variables aléatoires indépendantes, alors elles sont indépen-
dantes deux à deux. La réciproque est fausse.
Proposition 44
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire continu à valeurs dans Rn . Les composantes Xi
sont indépendantes si et seulement si
n
Y
n
∀x = (x1 , ..., xn ) ∈ R , fX (x) = fXi (xi ).
i=1
48
Exemple 33 Le vecteur aléatoire (X, Y ) possède la loi jointe suivante :
2 90x2 y(1 − y) si 0 ≤ y ≤ 1, 0 ≤ x ≤ y
∀(x, y) ∈ R , f(X,Y ) (x, y) =
0 sinon
Proposition 45
Soit (X1 , · · · , Xn ) un vecteur aléatoire à valeurs dans Rn . Si les composantes Xi sont indé-
pendantes alors
n
! n
Y Y
E Xi = E(Xi ).
i=1 i=1
Preuve.
Proposition 46
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire continu à valeurs dans Rn . Les composantes Xk
sont indépendantes si et seulement si
n
Y
∀t = (t1 , ..., tn ) ∈ Rn , ΦX (t) = ΦXk (tk ),
k=1
ce qui se réécrit
n
Y
n i<t,X>
E eitk Xk .
∀t = (t1 , ..., tn ) ∈ R , E e =
k=1
Preuve. La première implication utilise les mêmes arguments que dans la preuve précédente.
Pour la réciproque, il suffit d’utiliser la propriété d’injectivité de la transformée de Fourier.
49
La proposition suivante donne une caractérisation de l’indépendance à l’aide des fonctions géné-
ratrices pour les vecteurs aléatoires discrets.
Proposition 47
Soit X = (X1 , · · · , Xn ) un vecteur aléatoire discret à valeurs dans Rn . Les composantes Xk
sont indépendantes si et seulement si
n
Y
n
∀t = (t1 , ..., tn ) ∈ R tel que ktk ≤ 1, GX (t) = GXk (tk ),
k=1
ce qui se réécrit
" n
# n
Y Y h i
n
∀t = (t1 , ..., tn ) ∈ R tel que ktk ≤ 1, E tX
k
k
= E tX
k
k
.
k=1 k=1
Exemple 34 Soient X et Y deux variables aléatoires indépendantes suivant une loi uniforme
sur [0, 1]. On pose U = max(X, Y ) et V = min(X, Y ).
1. Calculer les densités de U et V , puis la densité de (U, V ).
Les variables U et V sont-elles indépendantes ?
2. Recalculer les densités de U et V en utilisant la densité de (U, V ).
Preuve.
50
5.1.5 Variance, covariance et coefficient de corrélation linéaire
Définition 53
Soient X = (X1 , · · · , Xn )T et Y = (Y1 , · · · , Ym )T deux vecteurs aléatoires à valeurs dans
Rn et Rm respectivement. On suppose que toutes les composantes de X et Y sont de carré
intégrable (càd E(Xi2 ) < +∞, ∀i ∈ J1, nK et E(Yj2 ) < +∞, ∀j ∈ J1, mK). Alors, X et Y
sont de carré intégrable et on définit la matrice de covariance Cov(X, Y ) par
où
Cov(Xi , Yj ) = E((Xi − E[Xi ])(Yj − E[Yj ])) = E[Xi Yj ] − E[Xi ]E[Yj ].
X et Y sont dits décorrélés si et seulement si Cov(X, Y ) = 0.
Définition 54
Soit X = (X1 , · · · , Xn )T un vecteur aléatoire à valeurs dans Rn . On suppose que toutes les
composantes de X sont de carré intégrable (càd E(Xi2 ) < +∞, ∀i ∈ J1, nK). Alors, X est
de carré intégrable et on définit sa matrice de variance-covariance Var(X) par
51
La covariance permet donc de mesurer d’une certaine manière la façon dont deux variables X et
Y interagissent. Cependant, cette quantité dépend très fortement de l’échelle utilisée et peut donc
varier très fortement d’un domaine d’application à l’autre. A ce titre, le coefficient de corrélation
linéaire permet de palier à ce type de problème.
Définition 55
Soient X et Y deux v.a.r. de variances finies. Le coefficient de corrélation linéaire entre
X et Y est défini par
Cov(X, Y )
ρ(X,Y ) = p p .
Var(X) Var(Y )
Remarque 29 Nous avons l’information essentielle suivante : si nous avons l’une de ces pro-
priétés
• E(XY ) 6= E(X)E(Y ),
• Cov(X, Y ) 6= 0,
• ρ(X,Y ) 6= 0,
• X et Y sont corrélées,
alors X et Y ne sont pas indépendantes.
52
Rappelons que pour X et Y deux variables aléatoires et (a, b) ∈ R2 , alors
Proposition 48
Si X1 , ..., Xn sont n variables aléatoires et (a1 , ..., an ) ∈ Rn , alors
n
! n n X
n
X X X X
Var ak X k = a2k Var (Xk ) + ai aj Cov(Xi , Xj ) = ai aj Cov(Xi , Xj )
k=1 k=1 i6=j i=1 j=1
ce n’est pas par linéarité mais parce que les Xi sont indépendantes ⇒ les Xi sont 2 à 2 décorrélées
(et a = 1 dans la formule).
53
5.1.6 Espérance et variance de la transformation affine d’un vecteur
aléatoire
Proposition 49
• Soient X un vecteur aléatoire de Rn , de composantes de carré intégrable, a un réel et b
un vecteur de Rn . Alors,
Var[aX + b] = a2 V ar[X].
Preuve.
Proposition 50
Soit X un vecteur aléatoire de Rn dont les composantes sont de carré intégrable. On définit
Y = AX +b un vecteur de Rn par transformation affine de X (A est une matrice de dimension
n ∗ n et b un vecteur de dimension n ). Alors,
• E[Y ] = A E[X] + b ,
• Var[Y ] = A Var[X] AT .
Preuve.
54
5.2 Somme de variables aléatoires
Lorsque les variables aléatoires sont indépendantes, une manière simple de déterminer la somme
de ces variables est d’utiliser les fonctions du chapitre précédent.
Proposition 51
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans N. Notons GXi
la fonction génératrice associée à Xi , ∀i ∈ J1, nK. Nous avons alors :
n
Y
∀t ∈ [0, 1], GX1 +...+Xn (t) = GXi (t).
i=1
puisque l’indépendance des variables aléatoires Xi entraîne l’indépendance des variables aléa-
toires tXi , ∀i ∈ J1, nK.
Exemple 39 Notons ∀i ∈ J1, nK, Xi ∼ B(ni , p), n variables aléatoires binomiales indépen-
dantes. !
n
X Xn
Montrer que Xi ∼ B ni , p .
i=1 i=1
Preuve.
55
Proposition 52
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans R. Notons ΦXi
la fonction caractéristique associée à Xi , ∀i ∈ J1, nK. Nous avons alors :
n
Y
∀t ∈ R, ΦX1 +...+Xn (t) = ΦXi (t).
i=1
puisque l’indépendance des variables aléatoires Xk entraîne l’indépendance des variables aléa-
toires eitXk .
Exemple 40 Notons ∀i ∈ J1, nK, Xi ∼ N (mi , σi2 ), n variables aléatoires gaussiennes indépen-
dantes. !
n
X X n n
X
2
Montrer que Xi ∼ N mi , σi .
i=1 i=1 i=1
Preuve.
Preuve.
Proposition 53
Soient n variables aléatoires indépendantes, notées X1 , ..., Xn , à valeurs dans R+ . Notons ΨXi
la transformée de Laplace de Xi . Nous avons alors :
n
Y
∀t ∈ R+ , ΨX1 +...+Xn (t) = ΨXi (t).
i=1
puisque l’indépendance des variables aléatoires Xi entraîne l’indépendance des variables aléatoires
e−tXi .
56
5.3 Lois et espérances conditionnelles
Sans perte de généralité, pour simplifier l’écriture, on ne considère dans cette section que les
couples de variables aléatoires.
Définition 56
Soit y tel que P(Y = y) > 0. On appelle loi conditionnelle de X sachant Y = y la
probabilité définie par
P(X = x ∩ Y = y) P(X = x, Y = y)
∀x, PY =y (X = x) = P(X = x|Y = y) = = .
P(Y = y) P(Y = y)
Notons que
X 1 X P(Y = y)
PY =y (X = x) = P(X = x, Y = y) = = 1.
P(Y = y) P(Y = y)
x∈X(Ω) x∈X(Ω)
Définition 57
Soit X une variable aléatoire telle que E(|X|) < +∞. L’espérance conditionnelle de X
sachant Y = y est l’espérance de la loi conditionnelle de X sachant Y = y :
X
E(X|Y = y) = xi P(X = xi |Y = y).
i
L’espérance conditionnelle de X sachant Y = y est donc une fonction de y que nous pourrions
noter ψ(y).
Définition 58
On appelle espérance conditionnelle de X sachant Y la variable aléatoire
Remarquons que l’espérance d’une variable aléatoire est un nombre réel, alors que l’espérance
conditionnelle de X sachant Y est une variable aléatoire.
57
Proposition 54
Si E(|X|) < +∞, alors E(|ψ(Y )|) < +∞ où ψ(Y ) = E(X|Y ) et
Pour justifier que cette relation est bien définie, on montre de la même manière, que nous avons
E(|ψ(Y )|) = E(|X|) et donc E(|X|) < +∞ entraîne E(|ψ(Y )|) < +∞.
Exemple 42 Soient X et Y deux variables aléatoires discrètes ayant le même ensemble de va-
leurs possibles X(Ω) = Y (Ω) = {0, 0.5, 1}. La distribution de probabilité du couple est donnée par
le tableau suivant
∩ X = 0 X = 0.5 X = 1
Y =0 0.1 0.1 0.1
Y = 0.5 0.2 0.1 0.1
Y =1 0.1 0.1 0.1
58
5.3.2 Densité et espérance conditionnelles pour des variables aléatoires
continues
Soit (X, Y ) un couple de variables aléatoires réelles continues.
Supposons que (X, Y ) admet la densité f(X,Y ) . Alors, X et Y admettent les densités marginales
fX et fY suivantes sur R :
Z Z
∀x ∈ R, fX (x) = f(X,Y ) (x, y)dy et ∀y ∈ R, fY (y) = f(X,Y ) (x, y)dx.
R R
La réciproque est fausse en général : les variables aléatoires réelles X et Y peuvent avoir des
densités sans que le couple (X, Y ) en ait une.
Définition 59
Si ∀y ∈ R, fY (y) > 0, on définit la densité conditionnelle de X sachant Y = y par
f(X,Y ) (x, y)
∀x ∈ R, fX|Y =y (x) = .
fY (y)
f(X,Y ) (x, y)
∀x ∈ R, fX|Y =y (x) = = fX (x).
fY (y)
Définition 60
Soit X une variable aléatoire intégrable.
• L’espérance conditionnelle de X sachant Y = y est définie par
Z
E(X|Y = y) = x fX|Y =y (x)dx.
R
59
Proposition 55
Soit X une variable aléatoire intégrable.
• L’espérance de X s’exprime en fonction de l’espérance conditionnelle de X sachant Y :
Z
E(X) = E(E(X|Y )) = E(X|Y = y) fY (y)dy.
R
• Si X ≥ 0, alors E(X|Y ) ≥ 0.
• E(1|X) = 1.
• Pour toute fonction h positive ou bornée sur R2 , on a
Z Z
E(h(X, Y )) = h(x, y) f(X,Y ) (x, y) dxdy
ZR ZR
= h(x, y) fX|Y =y (x)fY (y) dxdy
ZR ZR
= h(x, y) fY |X=x (y)fX (x) dxdy
R R
60
Chapitre 6
Théorèmes limites
Deux théorèmes mathématiques ont une place particulière en théorie des probabilités et en
statistique :
• la loi des grands nombres,
• le théorème central limite.
Ils interviennent dans l’étude de phénomènes aléatoires comportant un grand nombre de v.a.r.
indépendantes de même loi :
• la loi des grands nombres apparaît lorsque le nombre de répétitions n de l’expérience
n
1X
tend vers l’infini. Dans ce cas, la fréquence de réalisations Xn = Xi d’un événement
n i=1
converge vers sa probabilité.
• le théorème central limite dit que pour n assez grand, Xn suit une loi normale.
Par exemple, dans un "jeu de pile ou face", chaque tirage est modélisé par une variable aléatoire
de Bernoulli de paramètre 1/2.
Si le nombre de tirages tend vers l’infini, on considère la suite (Xi )i≥1 i.i.d. et d’après la loi
des grands nombres, la fréquence de "piles" que l’on note
X1 + ... + Xn
Xn =
n
1
tend vers 2
:
X1 + ... + Xn 1
lim Xn = lim =
n→+∞ n→+∞ n 2
en suivant une loi normale (d’après le théorème central limite).
61
6.1 Différents modes de convergence
Pour simplifier, les différentes définitions et propriétés présentées ci-dessous sont énoncées pour
des variables aléatoires réelles, mais peuvent être généralisées à un cadre multi-dimensionnel.
Définition 61
La suite (Xn )n converge presque sûrement vers X si il existe un ensemble B ∈ A
négligeable tel que
Xn (ω) −−−−→ X(ω), ∀ω ∈
/ B.
n→+∞
p.s.
On note dans ce cas Xn −−−−→ X.
n→+∞
En théorie de la mesure, on parle plutôt de convergence presque partout, càd qu’on permet à
certains ω de ne pas vérifier que Xn (ω) −−−−→ X(ω) pourvu que la probabilité de réalisation de
n→+∞
l’ensemble de ces ω soit nulle (⇒ l’ensemble de ces ω est de mesure nulle).
P(|Xn − X| −−−−→ 0) = 1.
n→+∞
Définition 62
P
On dit que la suite (Xn )n≥1 converge en probabilité vers X, et l’on note Xn −−−−→ X, si
n→+∞
pour tout > 0, on a
lim P (|Xn − X| ≥ ) = 0.
n→+∞
Définition 63
On dit que la suite (Xn )n≥1 d’éléments de L1 (càd E(|Xn |) < +∞) converge en moyenne
L1
vers X ∈ L1 (càd E(|X|) < +∞), et l’on note Xn −−−−→ X, si on a
n→+∞
62
6.1.4 Convergence en loi
Définition 64
Soient (Xn )n≥1 une suite de v.a.r. et X v.a.r. On désigne par FX la fonction de répartition de
X et par FXn la fonction de répartition de Xn pour tout n ≥ 1. On dit que la suite (Xn )n≥1
L
converge en loi vers X, et l’on note Xn −−−−→ X, si, en tout point x de continuité de FX
n→+∞
on a
FXn (x) → FX (x) quand n → +∞.
Proposition 56
λ
On suppose que, pour tout n ≥ 1, Xn suit une loi binomiale B(n, pn ) avec pn = > 0 quand
n
n → +∞. Alors, (Xn )n≥1 converge en loi vers la loi de Poisson P(λ) :
λk
lim P(Xn = k) = exp(−λ) .
n→+∞ k!
bxc
X
Preuve. Pour les v.a.r. discrètes, FXn (x) = P(Xn ≤ x) = P(Xn = k).
k=0
63
Comme l’indique son nom, ce type de convergence concerne d’une certaine manière la façon dont
la loi de Xn va venir "imiter" celle de X. La convergence en loi est parfois également appelée
convergence faible, en particulier en théorie de la mesure. Cette dénomination est justifiée par
la proposition suivante.
Proposition 57
Soient (Xn )n≥1 une suite de v.a.r. et X une v.a.r.
Les deux assertions suivantes sont équivalentes :
L
(i) Xn −−−→ X quand n → +∞.
n→∞
(ii) E[f (Xn )] → E[f (X)] quand n → +∞ pour toute fonction f continue et bornée.
Il peut être utile d’utiliser les fonctions caractéristiques pour démontrer des convergences en loi.
Théorème 2
(Théorème de continuité de Levy)
Soient (Xn )n≥1 une suite de v.a.r. et X une v.a.r. La suite (Xn )n≥1 converge en loi vers la
variable X si et seulement si, pour tout t ∈ R
Théorème 3
(LGN) Soient X1 , . . . , Xn des v.a.r. indépendantes, de même loi, telles que E[|X1 |] < +∞. On
note m = E(X1 ). Alors, pour tout > 0,
X1 + . . . + Xn
P − m ≥ −→ 0.
n n→+∞
64
Preuve. On va montrer ce résultat dans le cas particulier où Var(Xi ) = σ 2 < +∞ pour tout
i ∈ {1, . . . , n}. Posons
n
X1 + · · · + Xn 1X
X̄n := = Xi .
n n i=1
On remarque tout d’abord que par linéarité de l’espérance
n
1X
E[X̄n ] = E[Xi ] = m.
n i=1
Soit > 0 fixé. Une application directe de l’inégalité de Chebychev donne alors
Var(X̄n ) σ2
P |X̄n − E[X̄n ]| ≥ ≤ = → 0 quand n → +∞,
2 n2
ce qui donne le résultat demandé dans le cas où la variance des Xi est supposée finie.
Théorème 4
Soient X1 , . . . , Xn des variables i.i.d. telles que E[|X1 |] < +∞. Alors, la variable X̄n définie
par
X1 + · · · + Xn
∀n ∈ N? , X̄n =
n
converge presque sûrement (et en moyenne) vers E[X1 ].
65
6.3 Théorème central limite
Supposons dans un premier temps que les variables Xi , i = 1 . . . n sont i.i.d., de loi gaussienne
N (m, σ 2 ). En utilisant la propriété d’additivité de la loi normale, on peut affirmer que X̄n suit
une loi gaussienne. Par ailleurs, on a déjà vu que
σ2
E[X̄n ] = m et Var(X̄n ) = .
n
On obtient donc que
√
σ2
n(X̄n − m)
X̄n ∼ N m, ce qui implique ∼ N (0, 1).
n σ
Que se passe-t-il dans le cas général où les v.a.r. Xi ne sont pas nécessairement normales ? Le
résultat ci-dessus se transforme alors en un résultat de convergence en loi.
Théorème 5
(TCL) Soient X1 , . . . , Xn des v.a.r. indépendantes, de même loi, et de variance finie. On note
m = E(X1 ) et σ 2 = Var(X1 ), avec σ > 0. Alors
√
n(X̄n − m) L
−→ N (0, 1) lorsque n → +∞.
σ
66