0% ont trouvé ce document utile (0 vote)
29 vues108 pages

Proba Bouake

Le document présente un cours sur les probabilités, structuré en plusieurs chapitres abordant des concepts tels que l'analyse combinatoire, l'espace probabilisé, les variables aléatoires, les vecteurs aléatoires et les convergences. Chaque chapitre contient des définitions, des théorèmes, des exemples et des exercices pour illustrer les concepts. Ce cours est destiné aux étudiants de Licence 2 en mathématiques.

Transféré par

Soualiho Diabagate
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
29 vues108 pages

Proba Bouake

Le document présente un cours sur les probabilités, structuré en plusieurs chapitres abordant des concepts tels que l'analyse combinatoire, l'espace probabilisé, les variables aléatoires, les vecteurs aléatoires et les convergences. Chaque chapitre contient des définitions, des théorèmes, des exemples et des exercices pour illustrer les concepts. Ce cours est destiné aux étudiants de Licence 2 en mathématiques.

Transféré par

Soualiho Diabagate
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Licence 2

Probabilités

Prof. Armel YODE

24 janvier 2024
2
Table des matières

1 Analyse combinatoire 5
1.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Arrangements sans répétition . . . . . . . . . . . . . . . . 6
1.2.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Arrangements avec répétition . . . . . . . . . . . . . . . . 7
1.3 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Combinaisons sans répétition . . . . . . . . . . . . . . . . 7
1.3.3 Combinaisons avec répétition . . . . . . . . . . . . . . . . 8

2 Espace probabilisé 9
2.1 Rappels de Théorie des ensembles . . . . . . . . . . . . . . . . . 9
2.2 Univers des possibles . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Evénements, Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.1 Indépendance de deux évènements . . . . . . . . . . . . . 14
2.6.2 Indépendance de n évènements . . . . . . . . . . . . . . . 15

3 Variables aléatoires réelles 17


3.1 Qu’est ce qu’une variable aléatoire réelle ? . . . . . . . . . . . . . 17
3.2 Comment caractérise-t-on une variable aléatoire réelle ? . . . . . 17
3.2.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . 17
3.2.2 Cas d’une variable discrète : fonction de masse . . . . . . 18
3.2.3 Cas d’une variable continue : fonction densité de probabilité 19
3.3 Moments d’une variable aléatoire réelle . . . . . . . . . . . . . . . 19
3.4 Moments d’ordre k d’une variable aléatoire réelle . . . . . . . . . 20
3.5 Comment trouver la densité d’une variable aléatoire continue ? . 20
3.5.1 Utilisation de la fonction de répartition . . . . . . . . . . 20
3.5.2 Formule de changement de variables . . . . . . . . . . . . 21
3.6 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3
4 TABLE DES MATIÈRES

3.6.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . 22


3.6.2 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Vecteurs aléatoires 25
4.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Distribution marginale . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Indépendance des variables aléatoires . . . . . . . . . . . . . . . . 26
4.5 Caractéristique d’une distribution . . . . . . . . . . . . . . . . . . 27
4.5.1 Coefficient de correlation . . . . . . . . . . . . . . . . . . 27
4.5.2 Moments d’un vecteur aléatoire . . . . . . . . . . . . . . . 27

5 Convergences 29
5.1 Quels sont les différents modes de convergence pour une suite de
variables aléatoires ? . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Théorème Central limite . . . . . . . . . . . . . . . . . . . . . . . 30
Chapitre 1

Analyse combinatoire

L’analyse combinatoire est un important outil dans de nombreuses branches


des mathématiques, notamment dans la théorie des probabilités et en statistique.

1.1 Principes
Il existe deux principes fondamentaux en analyse combinatoire :
— Principe additif : c’est la relation entre la somme des cardinaux d’une
partition d’un ensemble E et le cardinal de E. Si des ensembles A1 ,
A2 , . . . , Ap constitue une partition de E alors

Card(E) = Card(A1 ) + · · · + Card(Ap ).

— Principe multiplicatif : Si une situation comporte p étapes offrant res-


pectivement n1 , n2 , . . . , np possibilités alors le nombre total de possilités
est
n1 × . . . × np .

Exercice 1.1.1. Koffi a dans sa bibliothèque 5 livres de mathématiques en fran-


çais et 4 livres de mathématiques en anglais (et aucun dans une autre langue).
Combien de livres de mathématiques Koffi peut-il choisir ?

Exercice 1.1.2. Le menu d’un restaurant propose un certain jour pour le repas
de midi 3 entrées, 4 plats de résistance et 2 desserts. De combien de façons un
client peut-il composer son menu ce jour là ?

Exercice 1.1.3. Une femme a dans sa garde-robe 5 jupes, 6 chemisiers et 3


vestes. Elle choisit au hasard une jupe, un chemisier et une veste. De combien
de façons différentes peut-elle s’habiller ?

5
6 CHAPITRE 1. ANALYSE COMBINATOIRE

1.2 Arrangements
1.2.1 Définitions
Définition 1.2.1. Etant donné un ensemble E de n objets distincts, on appelle
arrangement de p objets toute suite ordonnée de p objets pris parmi les n objets.
On distingue
— les arrangements sans répétition (chaque objet ne peut être obervé qu’une
seule fois)
— les arrangements avec répétition (un objet peut être observé plusieurs
fois).

1.2.2 Arrangements sans répétition


Le nombre d’arrangements sans répétition de p éléments choisis parmi n est
Apn = n × (n − 1) × . . . (n − (p − 1))
= n × (n − 1) × . . . (n − p + 1)
n!
=
(n − p)!

n! = n × (n − 1) × . . . × 2 × 1.
Exemple 1. Le nombre d’arrangements sans répétition que l’on peut faire avec
deux éléments choisis parmi trois éléments a, b, c est A23 = 6. Ces 6 arrange-
ments sont : (a,b), (b,a), (a,c), (c,a), (b,c), et (c,b).
Exemple 2. Tirage sans remise : Une urne U contient n boules numérotés de
1 à n. On tire successivement p boules de U sans les remettre dans l’urne. Il y
a Apn tirages différents possibles.
Exercice 1.2.1. A l’occasion d’une compétition sportive groupant 18 athlètes,
on attribue une médaille d’or, une d’argent, une de bronze. Combien y-a-t-il de
distributions possibles.
Exercice 1.2.2. Après les prolongations d’un match de football, l’entraîneur
doit choisir les 5 tireurs de penaltys parmi les onze joueurs et l’ordre de passage.
Combien de choix a-t-il ?

1.2.3 Permutations
Un arrangement sans répétition est une permutation si p = n. Le nombre de
permutations de n éléments est :
Ann = n!
Exemple 3. Le nombre de permutations de 3 éléments a, b, c est P3 = 3! = 6.
Ces 6 permutations sont : (a,b,c), (a,c,b), (b,a,c), (b,c,a), (c,a,b), et (c,b,a).
Exercice 1.2.3. Combien d’anagrammes distinctes peut-on former avec les
lettres du mot BOUAKE ?
1.3. COMBINAISONS 7

1.2.4 Arrangements avec répétition


Le nombre d’arrangements avec répétitions de p éléments choisis parmi n
est np .

Exemple 4. Le nombre d’arrangements avec répétition que l’on peut faire avec
deux éléments choisis parmi trois éléments a, b, c est 32 = 9. Ces 9 arrangements
sont : (a, a), (a, b), (b, a), (a, c), (c, a), (b, b), (b, c), (c, b) et (c, c).

Exemple 5. Tirage avec remise : Une urne U contient n boules numérotés de 1


à n. On tire successivement p boules de U en remettant chaque fois dans l’urne
la boule qu’on vient de tirer. Le nombre de tirages possibles est donc np .

Exercice 1.2.4. Combien peut-on former de numéros de téléphone commençant


par 07 ?

Exercice 1.2.5. Dénombrer l’ensemble des codes à 4 chiffres.

1.3 Combinaisons
1.3.1 Définition
Définition 1.3.1. Une combinaison de p éléments choisis parmi n éléments est
une disposition non ordonnée de p de ces n éléments.

On distingue les combinaisons avec répétitions et les combinaisons sans répéti-


tion.

1.3.2 Combinaisons sans répétition


Le nombre de combinaisons sans répétition de p éléments choisis parmi n
est :
n!
Cnp = .
p!(n − p)!
Exemple 6. Le nombre de combinaisons sans répétition que l’on peut faire
avec deux éléments choisis parmi trois éléments a, b, c est C32 = 3. Ces 3
combinaisons sans répétition sont : (a, b), (a, c), et (b, c).

Exemple 7. Une urne U contient n boules numérotée de 1 à n. On tire si-


multanément p boules de U . Le nombre de tirages possibles vaut le nombre de
combinaisons de p éléments parmi n.

Exercice 1.3.1. Dans une classe de 30 élèves, on compte 17 garçons et 13


filles. On choisit deux personnes parmi les 30.
1. Quel est le nombre de choix possibles ?
2. Quel est le nombre de choix si l’on impose un garçon et une fille ?
3. Quel est le nombre de choix si l’on impose 2 garçons ?
8 CHAPITRE 1. ANALYSE COMBINATOIRE

1.3.3 Combinaisons avec répétition


Le nombre de combinaisons avec répétition de p éléments choisis parmi n
est :
p
Knp = Cn+p−1 .

Exemple 8. Le nombre de combinaisons avec répétition que l’on peut faire


avec deux éléments choisis parmi trois éléments a, b, c est K32 = C42 = 6. Ces 6
combinaisons sont : (a, a), (a, b), (a, c), (b, b), (b, c) et (c, c)
Exemple 9. Soit E = {R, V, B}. Alors (B, B, R, V, V ) est une combinaison
avec répétition de 5 éléments de E.

Exercice 1.3.2. Soit n et p deux entiers. Quel est le cardinal de l’ensemble


suivant : n o
(x1 , . . . , xn ) ∈ Nn ; x1 + . . . + xn = p .

Exercice 1.3.3. Pour la Saint-Valentin, vous voulez offrir un bouquet de 5 roses


à votre fiancée. La fleuriste a 8 sortes de roses. Combien de bouquets différents
peut-elle composer ?
Conseil : Lorsqu’on a affaire à un problème de dénombrement, on doit se
demander quelle est l’importance de l’ordre dans le problème. Lorsque l’ordre
importe, on doit penser en termes de permutation et d’arrangement. Lorsque
l’ordre n’est pas important, les combinaisons peuvent jouer un rôle clé dans la
résolution du problème.
Chapitre 2

Espace probabilisé

Le but de la théoorie des probabilités est de fournir un modèle mathématique


pour décrire les phénomènes aléatoires. Sous sa forme moderne, la formulation
de cette théorie contient trois ingrédients : l’univers, les événements, et la mesure
de probabilité.

2.1 Rappels de Théorie des ensembles


Soient A et B deux ensembles. On note
- A ∪ B l’ensemble des éléments qui appartiennent à A ou à B
- A ∩ B l’ensemble des éléments qui appartiennent à A et à B ;
A et B sont dits disjoints si A ∩ B = ∅
- B/A est l’ensemble des éléments de B qui ne sont pas dans A ; l’ensemble
des éléments de Ω qui ne sont pas dans A est noté Ā.
Plus généralement, soit (Ai )i∈I une famille de sous-ensembles de Ω. On a
[
- x∈ Ai ⇔ x appartient à l’un des sous-ensembles Ai
i∈I
\
- x∈ Ai ⇔ x appartient à tous les sous-ensembles Ai
i∈I
[ \ \ [
- Ai = Ai Ai = Ai
i∈I i∈I i∈I i∈I

Définition 2.1.1. On appelle cardinal de A et on note card(A) le nombre


d’éléments de A.

On a
Card(A ∪ B) = Card(A) + Card(B) − Card(A ∩ B).

9
10 CHAPITRE 2. ESPACE PROBABILISÉ

2.2 Univers des possibles


Définition 2.2.1. Une expérience E est qualifiée d’aléatoire si on ne peut pas
prévoir par avance son résultat et si, répétée dans des conditions identiques, elle
peut donner lieu à des résultats différents.
Définition 2.2.2. L’univers des possibles (ou univers), noté Ω est défini par
l’ensemble de tous les résultats possibles qui peuvent être obtenus au cours d’une
expérience aléatoire.
La description explicite de l’ensemble Ω est la première étape dans la modélisa-
tion d’un phénomène aléatoire. On distingue les univers comprenant un nombre
fini de résultats de ceux comprenant un nombre infini de résultats. Parmi les
univers infinis, on distingue les univers infinis non dénombrables des univers
infinis dénombrables. Par exemple, l’univers Ω = {ω1 , . . . , ωi , . . .} est un univers
infini dénombrable puisque l’on peut identifier chacun des éléments de Ω, même
s’il en existe une infinité. En revanche, Ω = R est un exemple d’univers infinis
non dénombrables. Dans le cas d’un univers fini ou infini dénombrable, la taille
de l’univers est appelée cardinal de Ω et est noté card(Ω).
Exemple 10. Voici quelques expériences aléatoires et les univers des possibles
correspondants :
1. On lance une pièce. On a Ω = {pile, face}.
2. On jette un dé. On a Ω = {1, 2, 3, 4, 5, 6}.
3. On jette deux dés. On a

Ω = {(i, j) : 1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), (1, 3), . . .}.

4. Un bus est censé passer toutes les 30 minutes à l’école de police pour
se rendre à Faya. Un passager arrive à l’arrêt de bus. On cherche à
modéliser son temps d’attente. A priori, on peut supposer que ce temps
d’attente est dans l’intervalle Ω = [0, 30].

2.3 Evénements, Tribu


Définition 2.3.1. On appelle événement relatif à une expérience, toute propo-
sition qui pourra être déclarée vraie ou fausse lorsque l’expérience sera réalisée.
C’est un sous-ensemble de l’univers des possibles.
Définition 2.3.2. Un événement constitué d’un seul élément est un événement
élémentaire (ou singleton).
Définition 2.3.3. Un événement certain est un événement qui est toujours
réalisé. Il correspond à l’univers des possibles Ω.
Définition 2.3.4. Un événement impossible est un événement qui ne se réalise
jamais. Il correspond à l’ensemble vide, noté ∅.
2.4. PROBABILITÉ 11

Exemple 11. On considère une expérience aléatoire correspondant au lancer


d’un dé à 6 faces. L’univers est alors Ω = {1, 2, 3, 4, 5, 6}. L’événement " nombre
pair ", noté A, correspond au sous-ensemble de l’ univers Ω défini par A =
{2, 4, 6}.
Définition 2.3.5. Soient deux événements A et B. La réalisation de l’évé-
nement C, défini par A ∪ B implique la réalisation de l’événement A ou de
l’événement B, ou des deux événements A et B simultanément.
Définition 2.3.6. Soient deux événements A et B. La réalisation de l’évé-
nement D, défini par A ∩ B entraîne la réalisation de l’événement A et de
l’événement B.
Définition 2.3.7. Deux événements A et B sont disjoints s’ils n’ont pas d’élé-
ment en commun, c’est à dire, A ∩ B = ∅ . Ces deux événements sont donc
incompatibles : la réalisation simultanée de ces événements est impossible.
Définition 2.3.8. Deux événements A et A inclus dans Ω sont complémentaires
si leur union correspond à Ω, c’est à dire, A ∪ A = Ω et leur intersection est vide
(A ∩ A = ∅).
Définition 2.3.9. L’ensemble des parties, noté P(Ω), correspond à l’ensemble
de tous les événements réalisables à partir des événements élémentaires de l’uni-
vers Ω. Par convention Ω ∈ P(Ω), ∅ ∈ P(Ω).
Définition 2.3.10. Soit Ω un ensemble et A ⊂ P(Ω). On dit que A est une
tribu sur Ω si les trois conditions suivantes sont vérifiées :
• Ω∈A
• si A ∈ A alors Ā ∈ A (stabilité par passage au complémentaire)
[
• si (Ai )i∈I est une famille dénombrable d’éléments de A alors Ai ∈ A.
i∈I
(stabilité par réunion dénombrable)
Remarque 1. La tribu A sur Ω représente l’ensemble de tous les évènements
suceptibles de se produire au cours de l’expérience aléatoire E. Lorsque l’ensemble
Ω est fini ou dénombrable, on choisira pour A l’ensemble de toutes les parties
de Ω, c’est-à-dire, A = P(Ω).
Le couple (Ω, A) est appelé espace probabilisable. Pour compléter la descrip-
tion d’un phénomène aléatoire, il nous reste à introduire la notion de mesure de
probabilité.

2.4 Probabilité
Pour une expérience aléatoire donnée, une fois déterminé le couple (Ω, A)
qui représente l’univers Ω associé à cette expérience et la tribu des évènements
A, on définit une application de A à valeurs dans [0, 1] qui à chaque évènement
associe sa probabilité, c’est à dire la chance de réalisation de cet évènement.
12 CHAPITRE 2. ESPACE PROBABILISÉ

Définition 2.4.1. On appelle probabilité sur (Ω, A) une application P : A →


[0, 1] telle que :
(i) P(Ω) = 1
(ii) si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux
disjoints ou incompatibles (i.e. ∀i 6= j, Ai ∩ Aj = ∅) alors
!
[ X
P Ai = P(Ai ).
i∈I i∈I

On appelle espace probabilisé le triplet (Ω, A, P).


1. P(∅) = 0
2. L’évènement A tel que P(A) = 0 est dit presque impossible.
3. L’évènement A tel que P(A) = 1 est dit presque certain.
4. P(Ā) = 1 − P(A).
5. P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 ).
6. Si A1 ⊆ A2 alors
(a) P(A2 \ A1 ) = P(A2 ) − P(A1 )
(b) P(A1 ) ≤ P(A2 ).
Exemple 12. Equiprobabilité.
On considère une expérience aléatoire E pour laquelle Card(Ω) est fini et les
évènements élémentaires sont équiprobables, c’est à dire ∀ω ∈ Ω, on a
1
P({ω}) = .
Card(Ω)
On choisit alors A = P(Ω), l’ensemble des parties de Ω et on a pour tout
B ∈ P(Ω)
Card(B) Nombre de cas favorables
P(B) = = .
Card(Ω) Nombre de cas possibles

2.5 Conditionnement
Soit (Ω, A, P) un espace probabilisé. Dans ce chapitre, nous allons étudier
deux notions importantes : le conditionnement et l’indépendance. Le condition-
nement permet de prendre en compte une information supplémentaire dans le
calcul d’une probabilité. L’indépendance rend compte du fait que deux évène-
ments n’ont aucune incidence l’un sur l’autre.
Définition 2.5.1. Soient A et B deux évènements tels que P(B) > 0. On
appelle probabilité conditionnelle de A sachant que B, le réel défini par
P(A ∩ B)
P(A | B) = .
P(B)
L’application A 7−→ P(A | B) définit une probabilité sur (Ω, A).
2.5. CONDITIONNEMENT 13

Proposition 2.5.1. Formule des probabilités composées.


n
\
Soit A0 , . . . , An une suite d’évènements telle que Ai 6= ∅. Alors, on a
i=0

n
\ 
P Ai = P(A0 )×P(A1 | A0 )×P(A2 | A0 ∩A1 )×. . .×P(An | A0 ∩A1 ∩. . .∩An−1 ).
i=0

Exemple 13. Pour n = 1, on a

P(A0 ∩ A1 ) = P(A0 ) × P(A1 | A0 ).

Pour n = 2, on a

P(A0 ∩ A1 ∩ A2 ) = P(A0 ) × P(A1 | A0 ) × P(A2 | A0 ∩ A1 ).

Définition 2.5.2. Une famille finie d’évènements (Ai )1≤i≤n deux à deux incom-
patibles tels que ∪ni=1 Ai = Ω est appelée système complet d’évènements.
Théorème 2.5.1. Formule des probabilités totales.
Soit {B1 , . . . , Bn } un système complet d’évènements. Alors, nous avons
n
X
∀A ∈ A P(A) = P(Bi )P(A | Bi ).
i=1

Exemple 14. Une urne contient des boules blanches et nores, marquées ou
non. On suppose que parmi les boules marquées, il y a 30% de boules blanches
et parmi les non marquées 60%. Par ailleurs, on sait que 80% des boules sont
marquées. Quelle est la probabilité de tirer une boule blanche ?
Solution. On note
B ="la boule est blanche"
M ="la boule est marquée"
On a

P(B) = P(B ∩ M ) + P(B ∩ M c )


= P(M ) × P(B | M ) + P(M c ) × P(B | M c )
80 30 20 60 36
= × + × = .
100 100 100 100 100
Théorème 2.5.2. (Formule de Bayes)
Soit {B1 , . . . , Bn } un système complet d’évènements et A un évènement tel
que P(A) > 0. Alors, nous avons

P(Bi )P(A | Bi )
P(Bi | A) = n .
X
P (Bk )P(A | Bk )
k=1
14 CHAPITRE 2. ESPACE PROBABILISÉ

Exercice 2.5.1. Une forêt se compose de trois types d’arbres : 30% sont des
chênes, 50% des peupliers, et 20% des hêtres. Suite à une tempête, une maladie
se déclare et touche 10% des chênes, 4% des peupliers, et 25% des hêtres. Sa-
chant qu’un arbre est malade, quelle est la probabilité que ce soit un chêne ? un
peuplier ? un hêtre ?
Solution 2.5.1. Soient les événements suivants :
— C="l’arbre est un chêne"
— Q="l’arbre est un peuplier"
— H="l’arbre est un hêtre"
— M ="l’arbre est malade".
On cherche P(C | M ), P(Q | M ) et P(H | M ).

D’aprèsl’énoncé, nous avons P(C) = 0.3, P(Q) = 0.5 et P(H) = 0.2, P(M |
C) = 0.1, P(M | Q) = 0.1 et P(M | H) = 0.25.

D’après la formule de Bayes, nous obtenons


C ∩M
P(C | M ) =
P(M )
P(C) × P(M | C)
= = 0.3
P(C) × P(M | C) + P(Q) × P(M | Q) + P(H) × P(M | H)
Exercice 2.5.2. Le test de dépistage d’un certain virus n’est pas infaillible :
— 1 fois sur 100, il est positif, alors que l’individu n’est pas contaminé ;
— 2 fois sur 100, il est négatif, alors que l’individu est contaminé.
Il est donc important de répondre aux questions suivantes :
1. Etant donné que son test est positif, quelle est la probabilité qu’un indi-
vidu ne soit pas porteur du virus ?
2. Etant donné que son test est négatif, quelle est la probabilité qu’un indi-
vidu soit porteur du virus ?

2.6 Indépendance
2.6.1 Indépendance de deux évènements
Deux événements sont indépendants si la réalisation de l’un ne modifie pas
ls chances de réalisation de l’autre. Autrement dit, la probabilité de B sachant
A est réalisé est égale à la probabilité de B.
Proposition 2.6.1. Soient A et B deux événements A et B telles que P(A) > 0
et P(B) > 0. Alors, les propositions suivantes sont équivalentes :
— P(A | B) = P(A)
— P(B | A) = P(B)
— P(A ∩ B) = P(A)P(B).
Ce qui conduit à la définition suivante :
2.6. INDÉPENDANCE 15

Définition 2.6.1. Soient A et B deux évènements. On dit que A et B sont


indépendants si P(A ∩ B) = P(A)P(B).
Proposition 2.6.2. Si A et B sont indépendants, alors il en va de même pour :
- les évènements Ā et B ;
- les évènements A et B̄ ;
- les évènements Ā et B̄

2.6.2 Indépendance de n évènements


Définition 2.6.2. Une famille (Ai )i∈I , finie ou infinie, est dite famille indépen-
dante si,pour toute sous famille finie Ai1 , Ai2 , . . . , Ain , on a
 
\n Yn
P Ai j  = P(Aij ).
j=1 j=1

Exercice 2.6.1. Votre voisine a deux enfants dont vous ignorez le sexe. On
considère les trois événement suivants :
— A="les deux enfants sont de sexes différents"
— B="l’ainé est une fille"
— C="le cadet est un garçon". Montrer que A, B et C sont deux à deux
indépendants, mais ne sont pas mutuellement indépendants.

Solution 2.6.1. Les quatre possibilités pour les deux enfants, supposées q́uiprobables,
sont (F, G), (F, F ), (G, G), (G, F ). Ainsi P(B) = P(C) = P(A) = 1/2 ; P(A ∩
B) = 1/4 = P(A) × P(B) ; A et B sont donc indépendants. On prouve de la
même façon que B et Csont indépendants et A et C sont indépendants. Cepen-
dant P(A ∩ B ∩ C) = 1/4 6= P(A) × P(B) × P(C). Les événements A , B et C
ne sont pas mutuellement indépendants.
16 CHAPITRE 2. ESPACE PROBABILISÉ
Chapitre 3

Variables aléatoires réelles

3.1 Qu’est ce qu’une variable aléatoire réelle ?


Soit (Ω, A, P) un espace probabilisé.
Définition 3.1.1. Une variable aléatoire réelle est une fonction X qui associe
à chaque résultat ω ∈nΩ d’uneo expérience aléatoire un nombre réel X(ω) telle
que pour tout x ∈ R, X ≤ x est un évènement :
n o n o
X ≤ x = ω ∈ Ω : X(ω) ≤ x ∈ A.

On note X(Ω) l’ensemble des valeurs prises par la variable aléatoire X. On


distingue généralement deux types de variables aléatoires réelles. On parle de :
? variable aléatoire discrète lorsque X(Ω) est fini ou infini dénombrable
? variable aléatoire continue lorsque X(Ω) infini non dénombrable.

3.2 Comment caractérise-t-on une variable aléa-


toire réelle ?
Une variable aléatoire réelle est caractérisée par sa loi de probabilité. Cette
loi de probabilité permet de connaître les chances d’apparition des différentes
valeurs de la variable aléatoire X. Cette loi de probabilité est déterminée par :
? soit la fonction de répartition (variable discrète ou continue) ;
? soit la fonction de masse s’il s’agit d’une variable discrète ;
? soit la fonction densité de probabibilté s’il s’agit d’une variable continue.

3.2.1 Fonction de répartition


Définition 3.2.1. La fonction de répartition de X est la fonction définie sur R
à valeurs dans [0, 1] par :
FX (x) = P(X ≤ x) = P(ω ∈ Ω : X(ω) ≤ x).

17
18 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES

Propriété 3.2.1. 1. FX est croissante.


2. lim FX (x) = 1 et lim FX (x) = 0.
x→+∞ x→−∞

3. FX est continue à droite en tout x, c’est à dire la limite à droite de x


estégale à F (x) :
FX (x+ ) = lim FX (t) = F (x)
t→x
t>x

4. P(X = x) = FX (x) − FX (x− ) où

FX (x− ) = lim FX (t)


t→x
t<x

5. Si FX est continue en x, c’est à dire FX (x+ ) = FX (x− ) = FX (x) alors


P(X = x) = 0.
6. Pour tous a, b ∈ R, nous avons

P(a < X ≤ b) = FX (b) − FX (a).

En effet
[a, b] =] − ∞, b] \ ] − ∞, a]

Exemple 15. On lance une pièce, et on pose X = 1 si le resultat est pile et


X = 0 si le résultat est face. On impose la même probabilité 1/2 à pile et à face.
Déterminer la fonction de répartition de X.

3.2.2 Cas d’une variable discrète : fonction de masse


Hormis la fonction de répartition, la loi de probabilité d’une variable aléatoire
discrète X est aussi déterminée sa fonction de masse. C’est une fonction fX
définie par :
(
P(X = x) si x ∈ X(Ω)
fX (x) =
0 si x 6∈ x ∈ X(Ω)

Nous remarquons que si x 6∈ X(Ω), l’évènement {X = x} est presque impossible


et
X X
P(X = x) = fX (x) = 1.
x∈X(Ω) x∈X(Ω)

La fonction de répartition d’une variable aléatoire discrète est donnée par :


X
FX (x) = P(X = t).
t≤x
3.3. MOMENTS D’UNE VARIABLE ALÉATOIRE RÉELLE 19

3.2.3 Cas d’une variable continue : fonction densité de


probabilité
Une variable aléatoire possède une densité si sa fonction de répartition FX est
dérivable. La dérivée notée fX est appelée densité de probabilité de la variable
aléatoire X. La description de la loi d’une variable aléatoire continue diffère
de celles des variables aléatoires discrètes puisque pour une variable aléatoire
continue X, la probabilité que X prenne une valeur bien précise x est nulle,
P[X = x] = 0. En effet, Si FX est dérivable en x alors FX est continue en x.
(
f (x) ≥ 0 ∀x ∈ R
Propriété 3.2.2. 1. f est une densité de probabilité⇐⇒ R +∞
−∞
f (x)dx = 1
2. Pour tout intervalle [a, b] ⊂ X(Ω) :
Z b
P(X ∈ [a, b]) = fX (x)dx
a

La fonction de répartition d’une variable aléatoire continue admettant une den-


sité fX est donnée par :
Z x
FX (x) = fX (x)dx.
−∞

3.3 Moments d’une variable aléatoire réelle


Soit X une variable aléatoire réelle. L’espérance de X est le nombre réel
défini par
X
• E[X] = xfX (x) si X est une variable aléatoire discrète ;
x∈X(Ω)
Z +∞
• E[X] = xfX (x)dx si X est une variable aléatoire continue admet-
−∞
tant une densité fX .

Propriété 3.3.1. Soient X et Y sont deux variables aléatoires réelles et c une


constante réelle. Alors
1. E(X + Y ) = E(X) + E(Y ).
2. E(cX) = cE(X)
3. E(X) ≤ E(Y ) si X ≤ Y .

Proposition 3.3.1. Soit X une variable aléatoire réelle positive. Alors, pour
tout λ > 0 :
E(X)
P(X > λ) ≤ .
λ
20 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES

Proposition 3.3.2. (Inégalité de Jensen). Soient X une variable aléatoire ad-


mettant une expérance et ϕ : R → R une fonction convexe. Alors
   
E ϕ(X) ≥ ϕ E(X) .

De plus, lorsque ϕ est strictement convexe, il y a égalité si et seulement si X


est une variable aléatoire constante.

3.4 Moments d’ordre k d’une variable aléatoire


réelle
Soit X une variable aléatoire réelle. Le moment d’ordre k ≥ 1 de X est le
nombre réel défini par :
X
1. E(X k ) = xk P(X = x) si X est une variable aléatoire discrète ;
x∈X(Ω)
Z +∞
2. E(X k ) = xk fX (x)dx si X est une variable aléatoire continue ad-
−∞
mettant une densité fX .
L’espérance est le moment centré d’odre 1.
Le moment centré d’ordre k ≥ 1 de X est le nombre réel défini par :
X
1. E((X − E(X))k ) = (x − E(X))k P(X = x) si X est une variable
x∈X(Ω)
aléatoire discrète ;
Z +∞
2. E((X − E(X))k ) = (x − E(X))k fX (x)dx si X est une variable aléa-
−∞
toire continue admettant une densité fX .
Le moment centré d’ordre 2 est appelé variance et est noté Var(X) :
V ar(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
Proposition 3.4.1. 1. V ar(X) ≥ 0
2
2. V ar(aX + b) = a V ar(X)
Proposition 3.4.2. Soit X une variable aléatoire réelle. On suppose que le
moment d’ordre 2 E(X 2 ) existe. Alors, pour tout λ > 0
Var(X)
P(|X − E(X)| > λ) ≤ .
λ2

3.5 Comment trouver la densité d’une variable


aléatoire continue ?
3.5.1 Utilisation de la fonction de répartition
1. Pour tout x ∈ R, calculer F (x) = P(X ≤ x).
3.5. COMMENT TROUVER LA DENSITÉ D’UNE VARIABLE ALÉATOIRE CONTINUE ?21

2. Dériver ensuite FX pour obtenir fX .

Exemple 16. Soit X une variable aléatoire suivant une loi normale N (0, 1).
Quelle est la loi de Y = X 2 ?

3.5.2 Formule de changement de variables


Théorème 3.5.1. Soit X une v.a.r. On suppose que
Z +∞
E(g(X)) = g(x)f (x)dx
−∞

pour toute fonction continue et bornée sur R. Alors X est une v.a.r continue de
densité f .

Soit X une v.a.r continue de densité fX . On pose Y = h(X) avec h : R → R.


Le problème ici est de déterminer la densité de Y .
1. Pour toute continue et bornée g :
Z +∞
E(g(Y )) = E(g(h(X))) = g(h(x))fX (x)dx.
−∞

2. On fait le changement de variable y = h(x) et après calcul, on obtient


Z +∞
E(g(Y )) = g(y)fY (y)dy.
−∞

3. Ceci caractérise la loi de Y , qui admet fY pour densité.

Exemple 17. Soit X une variable aléatoire suivant une loi normale N (0, 1).
Quelle est la loi de Y = X 2 ?
Réponse : Soit g une fonction continue et bornée. Nous avons

E(g(Y )) = E(g(X 2 ))
Z +∞
= g(x2 )fX (x)dx
−∞
Z +∞
1 x2
=√ g(x2 )e− 2 dx
2π −∞
Z +∞
2 x2
=√ g(x2 )e− 2 dx
2π 0
Z +∞
2 y dy
=√ g(y)e− 2 √
2π 0 2 y
Z +∞ h 1 i
y
= g(y) √ y −1/2 e− 2 1I[0,+∞[ dy.
−∞ 2π
22 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES

3.6 Lois usuelles


3.6.1 Lois discrètes
3.6.1.1 Loi uniforme discrète

(
X(Ω) = {1, . . . , N }
X ,→ UN ⇐⇒
P (X = k) = N1 , ∀k ∈ X(Ω)
N +1
E(X) =
2
et
N2 − 1
var(X) = .
12
Exemple 18. Soit X le résultat d’un lancer de dé non truqué : alors ∀i ∈
X(Ω) = {1, 2, 3, 4, 5, 6}, P (X = i) = 61 ; X suit la loi uniforme U6 .

3.6.1.2 Loi de Bernouilli

(
X(Ω) = {0, 1}
X ,→ B(1, p) ⇐⇒
P (X = 1) = p, P (X = 0) = 1 − p

E(X) = p
var(X) = p(1 − p).
Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au
"succès" ou à l’"echec" de l’expérience.

Exemple 19. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit
(bon ou defectueux), sondage elctoral (pour ou contre).

3.6.1.3 Loi binomiale


On réalise n fois successivement et d’une manière indépendante une expé-
rience aléatoire de Bernouilli. La variable aléatoire égale au nombre de succès
obtenus au cours des n épreuves suit la loi binomiale B(n, p).
(
X(Ω) = {0, . . . , n}
X ,→ B(n, p) ⇐⇒
P (X = k) = Cnk pk (1 − p)n−k , ∀k ∈ X(Ω)

E(X) = np
var(X) = np(1 − p).
Cette loi modélise une succession de "succès" et d’"échecs", p étant la probabilité
du succès.
3.6. LOIS USUELLES 23

3.6.1.4 Loi hypergéométrique


Soit une population de N individus parmi lesquels une proportion p (donc
N p individus) possède un caractère. Il s’agit par exemple de la proportion des
individus qui souffrent d’une maladie, ou de la proportion des pièces défectueuses
dans un grand lot de fabrication. On prélève un échantillon de n individus parmi
cette population (le tirage pouvant s’effectuer d’un seul coup ou au fur et à
mesure mais sans remise). On note X la variable aléatoire égale au nombre
d’individus de l’échantillon possédant le caractère envisagé. La loi de X est
appelée loi hypergéométrique de paramètre N , n, p et notée H(N, n, p) :

X(Ω) = {max(0, n − (1 − p)N ), min(N p, n)}
X ,→ H(N, n, p) ⇐⇒ C k C n−k .
P (X = k) = N p (1−p)N , ∀k ∈ X(Ω)
CnN

E(X) = np.

3.6.1.5 Loi géométrique


C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire apparaître
un évènement de probabilité p. C’est le cas de nombre d’examens necessaires
pour réussir une épreuve en supposant que la probabilité de réussir à chaque
passage de l’examen est de type p et que les résultats sont indépendants d’un
examen vers un autre. Soit la variable X égale le nombre d’essais avant d’obtenir
le premier succès :
(
X(Ω) = N∗
X ,→ G(p) ⇐⇒ .
P (X = k) = p(1 − p)k−1 , ∀k ∈ X(Ω)
1
E(X) =
p
1−p
var(X) = .
p2
Exemple 20. On effectue des lancers indépendants d’une pièce, dont la pro-
babilité d’obtenir face est p, jusqu’à l’obtention d’un "face". On note X la v.a.r
égale au nombre de lancers nécessaires. On dit également que X est le temps
d’attente du premier "face".

3.6.1.6 Loi de Poisson


Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre
d’appels téléphoniques pendant un certain temps, nombre de pièces défectueuses
dans une commande importante, nombre de suicides par an dans un pays donné...),
on utilise la loi de Poisson (de paramètre λ > 0) :
(
X(Ω) = N
X ,→ P(λ) ⇐⇒ k −λ
P (X = k) = λ k!
e
, ∀k ∈ X(Ω)
E(X) = var(X) = λ.
24 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES

3.6.2 Lois à densité


3.6.2.1 Loi uniforme
On dit que la v.a.r continue suit une loi uniforme sur l’intervalle [a, b] si sa
fonction densité est (
1
si x ∈ [a, b]
fX (x) = b−a
0 sinon
b+a
E(X) =
2
(b − a)2
var(X) = .
2
La loi uniforme de référence est la loi U[0, 1] correspondant aux générateurs de
nombres au hasard des logiciels (fonction "RANDOM" ou "ALEA").

3.6.2.2 Loi normale


On dit que X suit une loi normale de paramètre (m, σ 2 ) avec m ∈ R, σ 2 ∈ R∗+
si sa densité de probabilité est
1 1 x − m 2
fX (x) √ exp{− }, x ∈ R.
σ 2π 2 σ

Propriété 3.6.1. (i) X ,→ N (m, σ 2 ) alors E(X) = m et var(X) = σ 2 .


X −m
(ii) X ,→ N (m, σ 2 ) si et seulement si la v.a.r ,→ N (0, 1).
σ

3.6.2.3 Loi exponentielle


La loi exponentielle correspond à la variable aléatoire X du temps s’écou-
lant entre deux occurrences successives lors d’un processus de Poisson. La loi
exponentielle est le modèle de durée de vie pour un système idéal sans usure, λ1
étant l’espérance de vie du système. En effet on peut voir que l’âge du système
ne joue aucun rôle quant aux chances de survie à un horizon donné puisque : Si
a = 1 la loi γ(1, ρ) = E(ρ) est appelé loi exponentielle de paramètre ρ > 0 et a
pour densité de probabilité

f (x) = ρe−ρx 1IR+ (x)

Cette loi de probabilité est fortement utilisée pour décrire les durées de vie
(par exemple la durée de vie des transistors electroniques).
Chapitre 4

Vecteurs aléatoires

4.1 Distribution conjointe


Soient X et Y deux variables aléatoires réelles.
Définition 4.1.1. On appelle fonction de répartition conjointe de X et Y , la
fonction définie sur R2 par :
FX,Y (x, y) = P(X ≤ x, Y ≤ y).
Remarque 2. Si X et Y sont des variables aléatoires réelles discrètes alors la
loi du couple (X, Y ) est définie par la fonction de masse conjointe :
fX,Y (x, y) = P(X = x, Y = y).
Si X et Y sont des variables aléatoires réelles continues la fonction densité
conjointe est donnée par
∂ 2 FX,Y (x, y)
fX,Y (x, y) = .
∂x∂y

4.2 Distribution marginale


Soient X et Y deux variables aléatoires réelles.
— La fonction de répartition marginale de X est
FX (x) = lim FX,Y (x, y)
y→+∞

et celle de Y est
FY (y) = lim FX,Y (x, y).
x→+∞

— Si X et Y sont discrètes alors la fonction de masse marginale de X est


X
fX (x) = fX,Y (x, y)
y∈Y (Ω)

25
26 CHAPITRE 4. VECTEURS ALÉATOIRES

et celle de Y est X
fY (y) = fX,Y (x, y).
x∈X(Ω)

- Si X et Y sont continues à densité la densité de probabilité marginale de


X est donnée par
Z +∞
fX (x) = fX,Y (x, y)dy
−∞

et la densité de probabilité marginale de Y est donnée par


Z +∞
fY (y) = fX,Y (x, y)dx.
−∞

4.3 Distribution conditionnelle


- Si X et Y sont discrètes la loi conditionnelle de X sachant Y = y est
donnée par :
fX,Y (x, y)
fX|Y =y (x) =
fY (y)
De même, la loi conditionnelle de Y sachant X = x est donnée par :

fX,Y (x, y)
fY |X=x (y) =
pX (x)

- Soit (X, Y ) un couple de variables aléatoires continues. La loi condition-


nelle de X sachant Y = y est donnée par :

fX,Y (x, y)
fX|Y =y (x) = .
fY (y)

De même, la loi conditionnelle de Y sachant X = x est donnée par :

fX,Y (x, y)
fY |X=x (y) = .
fX (x)

4.4 Indépendance des variables aléatoires


Définition 4.4.1. Deux variables aléatoires réelles X et Y sont indépendantes
si
FX,Y (x, y) = FX (x)FY (y).

Proposition 4.4.1. Soient les variables aléatoires réelles X et Y . Les propriétés


suivantes sont équivalentes :
— fX,Y (x, y) = fX (x)fY (y).
— fX|Y =y (x) = fX (x)
— fY |X=x (x) = fY (y)
4.5. CARACTÉRISTIQUE D’UNE DISTRIBUTION 27

4.5 Caractéristique d’une distribution


Proposition 4.5.1. Soient X et Y deux variables aléatoires réelles, et a et b
deux constantes réelles. Alors on a
1. Var(aX + b) = a2 Var(X)
2. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) où Cov(X, Y ) est la co-
variance de X et Y définie par :
 
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E (X − E(X)(Y − E(Y ) .

Soit Z = g(X) une variable aléatoire fonction d’une variable aléatoire X.

Proposition 4.5.2. Soit g(X) une fonction d’une variable aléatoire X. Alors
X
• E(g(X)) = g(x)P(X = x) dans le cas discret
x∈X(Ω)
Z +∞
• E(g(X)) = g(x)fX (x)dx dans le cas d’une variable aléatoire conti-
−∞
nue X de densité fX .

4.5.1 Coefficient de correlation


Définition 4.5.1. On appelle coefficient de corrélation linéaire de X et de Y ,
le nombre
Cov(X,Y)
Cor(X,Y) = p p .
Var(X) Var(Y)

Proposition 4.5.3. On a −1 ≤ Cor(X,Y) ≤ 1.

Remarque 3. • Si Cor(X,Y)>0 alors X et Y évoluent dans le même


sens.
• Si Cor(X,Y)<0 alors X et Y évoluent en sens contraire.
• Si X et Y sont indépendantes alors Cor(X,Y)=0.

4.5.2 Moments d’un vecteur aléatoire


Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.

Définition 4.5.2. On définit l’espérance de X par

E(X1 )
 

E(X) =  ..
.
 
.
E(Xd )
28 CHAPITRE 4. VECTEURS ALÉATOIRES

Définition 4.5.3. On définit la matrice de variance-covariance de la manière


suivante

ΣX = E (X − E(X))t (X − E(X))
 
 
var(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xd )
 Cov(X1 , X2 ) var(X2 ) · · · Cov(X2 , Xd ) 
=
 
.. .. .. 
 . . ··· . 
Cov(X1 , Xd ) Cov(X2 , Xd ) · · · var(Xd )
Chapitre 5

Convergences

5.1 Quels sont les différents modes de conver-


gence pour une suite de variables aléatoires ?
5.1.1 Convergence en loi
Soit (Xn )n≥1 une suite de variables aléatoires définies sur (Ω, A, P). On note
FXn la fonction de répartition de Xn
Définition 5.1.1. On dit que (Xn )n≥1 converge en loi vers la variable aléatoire
X si l’on a, en tout x où sa fonction de répartition FX est continue,
lim FXn (x) = FX (x).
n→+∞

L
On note Xn −→ X.
En pratique la loi limite sera utile pour donner une approximation pour le calcul
de la probabilité d’un événement sur Xn quand n sera assez grand :
P(Xn ∈ A) ' P(X ∈ A).
Théorème 5.1.1. de Slutsky. Soient Xn et Yn deux suites de variables aléa-
toires réelles convergeant en loi respectivement vers une constante c et une
variable aléatoire Y . Alors, nous avons
L
• Xn + Yn −→ c + Y
L
• Xn Yn −→ cY
Yn L Y
• −→ si c 6= 0.
Xn c
Définition 5.1.2. On dit que {Xn } converge en probabilité vers X si quelque
soit ε > 0,
lim P {|Xn − X| ≥ ε} = 0.
n→+∞
P
On note Xn −→ X

29
30 CHAPITRE 5. CONVERGENCES

Proposition 5.1.1. On suppose que a est une constante réelle. Si E(Xn ) → a


P
et var(Xn ) → 0 alors Xn −→ a.
Théorème 5.1.2. Soit g est une fonction continue. Alors
P P
- Xn −→ X =⇒ g(Xn ) −→ g(X).
L L
- Xn −→ X =⇒ g(Xn ) −→ g(X).

5.2 Lois des grands nombres


Théorème 5.2.1. Soient X1 , X2 , . . . , Xn , . . . i.i.d. telles que E(X1 ) = µ < +∞.
Alors, nous avons
P
X n −→ µ.
D’un point de vue concret la loi des grands nombres garantit que la moyenne
empirique se rapproche de plus en plus de la moyenne théorique quand on aug-
mente n.

5.3 Théorème Central limite


Théorème 5.3.1. Soient X1 , X2 , . . . , Xn , . . . i.i.d. telles que E(X1 ) = µ < +∞
et σ 2 = var(X1 ) > 0. Alors, nous avons

n(X n − µ) L
−→ N (0, 1).
σ
Formellement, nous pouvons écrire
L σ
Xn ' µ + √ Y
n

où Y ,→ N (0, 1). On déduit alors que

σ2
 
L
Xn ' N µ, .
n

n ≥ 30 suffit pour obtenir des approximations de probabilités.


Introduction aux Probabilités
Licence 2 – MAT403
Loren Coquille

Ce polycopié est une version faiblement remaniée d’une partie des notes de cours écrites par
Yvan Velenik à l’Université de Genève, voir
http://www.unige.ch/math/folks/velenik/cours.html

— Version préliminaire du 9 janvier 2017 —


Dernière version téléchargeable sur Alfresco ou à l’adresse
http://www-fourier.ujf-grenoble.fr/coquilll/files/MAT243.pdf
Table des matières

Table des matières 3

0 Introduction 5
0.1 Modélisation des phénomènes aléatoires . . . . . . . . . . . . . . . . . . . . . . . 6
0.2 Quelques résultats combinatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

I Espaces de probabilité discrets 15

1 Probabilité, indépendance 17
1.1 Mesures de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Probabilité conditionnelle, formule de Bayes . . . . . . . . . . . . . . . . . . . . . 20
1.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4 Expériences répétées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 Variables aléatoires discrètes 29


2.1 Variables aléatoires discrètes et leurs lois . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Indépendance de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Espérance, variance, covariance et moments . . . . . . . . . . . . . . . . . . . . . 37

3 Fonctions génératrices 51
3.1 Définition, propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

II Espaces de probabilité généraux 55

4 Construction d’espaces de probabilité 57

5 Variables aléatoires à densité 63


5.1 Densité de probabilité, absolue continuité . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Exemples importants de variables aléatoires à densité . . . . . . . . . . . . . . . 64
5.3 Vecteurs aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Théorèmes limites 75
6.1 Convergence en loi et fonctions génératrices . . . . . . . . . . . . . . . . . . . . . 75
6.2 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3 Le Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3
Chapitre 0

Introduction

Si la théorie des probabilités a été originellement motivée par l’analyse des jeux de hasard,
elle occupe aujourd’hui une place centrale dans la plupart des sciences. Tout d’abord, de par
ses applications pratiques : en tant que base des statistiques, elle permet l’analyse des données
recueillies lors d’une expérience, lors d’un sondage, etc. ; elle a également conduit au développe-
ment de puissants algorithmes stochastiques pour résoudre des problèmes inabordables par une
approche déterministe ; elle possède en outre de nombreuses applications directes, par exemple
en fiabilité, ou dans les assurances et la finance. D’un côté plus théorique, elle permet la modé-
lisation de nombreux phénomènes, aussi bien en sciences naturelles (physique, chimie, biologie,
etc.) qu’en sciences humaines (économie, sociologie, par exemple) et dans d’autres disciplines
(médecine, climatologie, informatique, réseaux de communication, traitement du signal, etc.).
Elle s’est même révélée utile dans de nombreux domaines de mathématiques pures (algèbre,
théorie des nombres, combinatoire, etc.) et appliquées (EDP, par exemple). Finalement, elle a
acquis une place importante en mathématiques de par son intérêt intrinsèque, et, de par sa
versatilité, possède un des spectres les plus larges en mathématiques, allant des problèmes les
plus appliqués aux questions les plus abstraites.

Le concept de probabilité est aujourd’hui familier à tout un chacun. Nous sommes constam-
ment confrontés à des événements dépendant d’un grand nombre de facteurs hors de notre
contrôle ; puisqu’il nous est impossible dans ces conditions de prédire exactement quel en sera
le résultat, on parle de phénomènes aléatoires. Ceci ne signifie pas nécessairement qu’il y ait
quelque chose d’intrinsèquement aléatoire à l’œuvre, mais simplement que l’information à notre
disposition n’est que partielle. Quelques exemples : le résultat d’un jeu de hasard (pile ou face,
jet de dé, roulette, loterie, etc.) ; la durée de vie d’un atome radioactif, d’un individu ou d’une
ampoule électrique ; le nombre de gauchers dans un échantillon de personnes tirées au hasard ;
le bruit dans un système de communication ; la fréquence d’accidents de la route ; le nombre de
SMS envoyés la nuit du 31 décembre ; le nombre d’étoiles doubles dans une région du ciel ; la
position d’un grain de pollen en suspension dans l’eau ; l’évolution du cours de la bourse ; etc.

Le développement d’une théorie mathématiques permettant de modéliser de tels phéno-


mènes aléatoires a occupé les scientifiques depuis plusieurs siècles. Motivés initialement par
l’étude des jeux de hasard, puis par des problèmes d’assurances, le domaine d’application de la
théorie s’est ensuite immensément élargi. Les premières publications sur le sujet remontent à
G. Cardano 1 avec son livre Liber De Ludo Aleæ (publié en 1663, mais probablement achevé
1. Girolamo Cardano (1501, Pavie - 1576, Rome), parfois connu sous le nom de Jérôme Cardan, mathématicien,
philosophe et médecin italien. Féru d’astrologie, on dit qu’il avait prévu le jour de sa mort, mais que celle-ci ne
semblant pas vouloir se produire d’elle-même, il se suicida afin de rendre sa prédiction correcte.

5
6 CHAPITRE 0. INTRODUCTION

en 1563), ainsi qu’à Kepler 2 et Galilée 3 . Toutefois, il est généralement admis que la théorie
des probabilités débute réellement avec les travaux de Pascal 4 et de Fermat 5 . La théorie fut
ensuite développée par de nombreuses personnes, dont Huygens 6 , J. Bernoulli 7 , de Moivre 8 ,
D. Bernoulli 9 , Euler 10 , Gauss 11 et Laplace 12 . La théorie moderne des probabilités est fondée
sur l’approche axiomatique de Kolmogorov 13 , basée sur la théorie de la mesure de Borel 14 et
Lebesgue 15 . Grâce à cette approche, la théorie a alors connu un développement très rapide tout
au long du XXème siècle.

0.1 Modélisation des phénomènes aléatoires


Le but de la théorie des probabilités est de fournir un modèle mathématique pour décrire
les phénomènes aléatoires. Sous sa forme moderne, la formulation de cette théorie contient trois
ingrédients : l’univers, les événements, et la mesure de probabilité.

0.1.1 Univers.
Il s’agit d’un ensemble, noté habituellement , dont les éléments correspondent à tous les
résultats possibles de l’expérience aléatoire que l’on cherche à modéliser. On l’appelle également
l’espace des observables, ou encore l’espace échantillon.
Exemple 0.1.
1. Un tirage à pile ou face : = fP;Fg.
2. Deux tirages à pile ou face : = fPP;PF;FP;FFg.
3. Une suite de tirages à pile ou face se terminant à la première apparition d’un pile : =
fP;FP;FFP;FFFP; : : :g.
4. Une suite de lancers de dé : = f(ak )k1 : ak 2 f1; : : : ;6g; 8k  1g.
5. Taille d’une personne : = R+ .
6. Durée de vie d’une ampoule : = R+ .
7. L’évolution du cours d’une action sur un intervalle de temps [s;t] : = C ([s;t];R+ ), où
l’on a noté C (A;B ) l’ensemble des fonctions continues de A vers B .
2. Johannes Kepler (1571, Weil der Stadt - 1630, Ratisbonne), mathématicien, astronome et astrologue alle-
mand.
3. Galilée ou Galileo Galilei (1564, Pise - 1642, Arcetri), physicien et astronome italien.
4. Blaise Pascal (1623, Clermont - 1662, Paris), mathématicien, physicien, philosophe, moraliste et théologien
français. Auteur de nombreuses contributions majeures en mathématiques et en physique, il délaisse ces dernières
à la fin de 1654, à la suite d’une expérience mystique, et se consacre à la réflexion philosophique et religieuse.
5. Pierre de Fermat (1601, Beaumont-de-Lomagne - 1665, Castres), juriste et mathématicien français.
6. Christiaan Huygens (1629, La Haye — 1695, La Haye), mathématicien, astronome et physicien néerlandais.
7. Jacques ou Jakob Bernoulli ( 1654, Bâle - 1705, Bâle), mathématicien et physicien suisse.
8. Abraham de Moivre (1667, Vitry-le-François - 1754, Londres), mathématicien français.
9. Daniel Bernoulli (1700, Groningen - 1782, Bâle), médecin, physicien et mathématicien suisse.
10. Leonhard Euler (1707, Bâle - 1783, Saint-Pétersbourg), mathématicien et physicien suisse. Il est considéré
comme le mathématicien le plus prolifique de tous les temps. Complètement aveugle pendant les dix-sept dernières
années de sa vie, il produit presque la moitié de la totalité de son travail durant cette période.
11. Johann Carl Friedrich Gauss (1777, Brunswick - 1855, Göttingen), mathématicien, astronome et physicien
allemand.
12. Pierre-Simon Laplace (1749, Beaumont-en-Auge - 1827, Paris), mathématicien, astronome et physicien
français.
13. Andreï Nikolaïevich Kolmogorov (1903, Tambov - 1987, Moscou), mathématicien russe.
14. Félix Édouard Justin Émile Borel (1871, Saint-Affrique - 1956, Paris), mathématicien et homme politique
français.
15. Henri Léon Lebesgue (1875, Beauvais - 1941, Paris), mathématicien français.
0.1. MODÉLISATION DES PHÉNOMÈNES ALÉATOIRES 7

8. La trajectoire d’un grain de pollen en suspension dans un fluide : = C (R+ ;R3 ).


Dans chaque cas, il ne s’agit que d’une modélisation de l’expérience correspondante : il y a
donc évidemment de nombreuses façons de choisir et d’encoder les différents résultats possibles
d’une expérience aléatoire dans un ensemble . Par exemple, dans le troisième exemple, on pour-
rait tout aussi bien prendre = N , en ne retenant que la durée de la partie ; dans le cinquième,
on pourrait limiter, par exemple, à [0;3] (mètres), voire à f1;2; : : : ;3000g (millimètres), sans
perte de généralité.

0.1.2 Événements
Un événement est une propriété dont on peut dire si elle est vérifiée ou non une fois le
résultat de l’expérience connu. Mathématiquement, un événement est caractérisé par l’ensemble
des résultats dans lesquels il est réalisé (un tel résultat est alors appelé une réalisation de
l’événement).

Exemple 0.2. On lance deux fois un dé, = f(m;n) 2 f1;2;3;4;5;6g2 g.


1. L’événement « le second lancer est un 6 » :

f(m;6) : m 2 f1;2;3;4;5;6gg :
2. L’événement « le premier lancer est supérieur au second » :

f(m;n) 2 : m > ng :

3. L’événement « la somme des deux lancers est paire » :

f(m;n) 2 : 2j(m + n)g :

Exemple 0.3. On effectue une suite de lancers de dé :

= f(ak )k1 : ak 2 f1; : : : ;6g; 8k  1g :

L’événement « le 6 est sorti avant le 1 » correspond à



(ak )k1 2 : min fn  1 : an = 6g < min fn  1 : an = 1g :

(Dans ce cas, il faudrait dire également comment interpréter les minima ci-dessus lorsque le 6
ou le 1 ne sortent jamais ; la convention usuelle est de poser min ∅ = +1.)

Introduisons un peu de terminologie.

Définition 0.1. Un singleton (c’est-à-dire un événement réduit à un unique élément de


) est appelé événement élémentaire. Sinon on parle d’événement composite. On appelle
l’événement certain et ∅ l’événement impossible. Si A est un événement, on appelle Ac
l’événement contraire de A. Si A;B sont deux événements, on appelle A \ B l’événement
« A et B », et A [ B l’événement « A ou B ». Finalement, si A \ B = ∅, A et B sont dits
disjoints, ou incompatibles.
8 CHAPITRE 0. INTRODUCTION

0.1.3 Mesure de probabilité


Étant en possession d’une notion d’événements, on cherche ensuite à attribuer à chacun de
ces derniers une probabilité, qui représente le degré de confiance que l’on a en sa réalisation 16 .
Les probabilités sont encodées sous forme de nombres réels compris dans l’intervalle [0;1], avec
l’interprétation que plus la probabilité est proche de 1, plus notre confiance dans la réalisation de
l’événement est grande. Un événement de probabilité 1 est dit presque-certain ou presque-sûr.

Remarque 0.1. Il est important de ne pas confondre un événement de probabilité 1 avec un


événement certain, ou un événement de probabilité nulle avec un événement impossible.
Par exemple, supposez que l’on puisse donner un sens au tirage au hasard d’un nombre
réel dans l’intervalle [0;1], de façon uniforme (c’est-à-dire sans privilégier aucun de ces
nombres). On verra comment le faire dans la seconde partie de ce cours. Alors, quel que
soit x 2 [0;1], l’événement « le nombre tiré est x » a probabilité nulle (il doit avoir la même
probabilité que chacun des autres nombres de l’intervalle, et il y en a une infinité). Or, à
chaque tirage, un événement de ce type est réalisé !

Il est important de remarquer à ce point que la détermination de la probabilité à asso-


cier à un événement donné ne fait pas partie du modèle que nous cherchons à construire (on
pourra cependant parfois la déterminer si l’on nous donne la probabilité d’autres événements).
Le but de la théorie des probabilités est de définir un cadre mathématique permettant de décrire
des phénomènes aléatoires, mais déterminer les paramètres permettant d’optimiser l’adéquation
entre le modèle et l’expérience réelle qu’il tente de décrire n’est pas du ressort de la théo-
rie (c’est une tâche dévolue aux statistiques). En particulier, nous ne nous intéresserons pas
aux différentes interprétations de la notion de probabilité. Contentons-nous d’en mentionner
une, utile pour motiver certaines contraintes que nous imposerons à notre modèle plus tard :
l’approche fréquentiste. Dans cette approche, on n’accepte d’associer de probabilité qu’à des
événements correspondant à des expériences pouvant être reproduites à l’infini, dans les mêmes
conditions et de façon indépendante. On identifie alors la probabilité d’un événement avec la
fréquence asymptotique de réalisation de cet événement lorsque l’expérience est répétée infi-
niment souvent. Cette notion a l’avantage d’être très intuitive et de donner, en principe, un
algorithme permettant de déterminer empiriquement avec une précision arbitraire la probabi-
lité d’un événement. Elle souffre cependant de plusieurs défauts : d’une part, une analyse un
peu plus approfondie montre qu’il est fort difficile (si tant est que ce soit possible) d’éviter que
cette définition ne soit circulaire, et d’autre part, elle est beaucoup trop restrictive, et ne permet
par exemple pas de donner de sens à une affirmation du type « il y a 50% de chance pour que
la Californie soit touchée par un séisme de magnitude 7,5 sur l’échelle de Richter dans les 30
prochaines années ». Dans de telles affirmations, l’événement en question ne correspond pas à
une expérience renouvelable, et la notion de probabilité n’a plus d’interprétation en termes de
fréquence, mais en termes de quantification de notre degré de certitude subjectif quant à la
réalisation de l’événement en question. En résumé, il existe de nombreuses interprétations du
concept de probabilité, dont certaines sont beaucoup moins contraignantes que l’interprétation
fréquentiste, mais il s’agit d’un problème épistémologique que nous ne discuterons pas ici
Désirant modéliser les phénomènes aléatoires, il est important que les propriétés que l’on
impose à la fonction attribuant à chaque événement sa probabilité soient naturelles. Une façon
de déterminer un ensemble de bonnes conditions est de considérer l’interprétation fréquentiste
mentionnée plus haut. Répétons N fois une expérience, dans les mêmes conditions, et notons
16. Comme on le verra dans le seconde partie de ce cours, il n’est pas toujours possible d’associer une probabilité
à tous les sous-ensembles de . On devra alors restreindre la notion d’événements à une classe de « bons » sous-
ensembles. Ceci n’aura cependant absolument aucune incidence pratique. En effet, aucun des sous-ensembles
exclus n’admet de description explicite !
0.2. QUELQUES RÉSULTATS COMBINATOIRES 9

fN (A) la fréquence de réalisation de l’événement A (c’est-à-dire le nombre de fois NA où il a été


réalisé divisé par N ). On a alors, au moins heuristiquement,

P(A) = lim f (A):


N !1 N
On peut ainsi déduire un certain nombre de propriétés naturelles de P à partir de celles des
fréquences. En particulier fN ( ) = 1, 0  fN (A)  1, et, si A et B sont deux événements
disjoints, NA[B = NA + NB , et donc fN (A [ B ) = fN (A) + fN (B ). Il est donc raisonnable
d’exiger qu’une mesure de probabilité possède les propriétés correspondantes,
1. 0  P(A)  1 ;
2. P( ) = 1 ;
3. Si A \ B = ∅, alors P(A [ B ) = P(A) + P(B ).
Exemple 0.4. On jette deux dés non pipés. Il est alors naturel de prendre = f(n;m) 2
f1;2;3;4;5;6g g. Les dés étant supposés bien équilibrés, la symétrie du problème fait qu’il n’y a
2
aucune raison de penser un résultat plus vraisemblable qu’un autre (c’est le principe d’indif-
férence, originellement proposé par Laplace). On associe donc à chaque événement élémentaire
f(n;m)g la même probabilité 1=36, ce qui conduit, par les propriétés ci-dessus, à définir la
probabilité d’un événement A par P(A) = jAj=36, où jAj représente la cardinalité de A. On
a ainsi, par exemple, que la probabilité que la somme des dés soit égale à 10 est donnée par
P(f(6;4);(5;5);(4;6)g) = 3=36 = 1=12. }
Les conditions ci-dessus sont tout à fait naturelles, et suffisent presque à construire la théorie
des probabilités. En fait, comme on le verra dans la seconde partie de ce cours, il sera très utile
(et plutôt naturel !) d’imposer une condition plus forte que 3., à savoir
3’. Si A1 ;A2 ; : : : sont des événements deux-à-deux disjoints, alors
1
[ 1
X
P( A i ) = P(Ai ):
i=1 i=1

Ceci ne nous concernera pas pour la première partie de ce cours, dans laquelle nous supposons
l’univers fini ou dénombrable : dans ce cas, on verra que l’on peut associer à chaque événement
élémentaire sa probabilité, et en déduire la probabilité des événements composites. Les propriétés
1, 2 et 3’ deviennent alors, dans ce cadre-là, des conséquences de cette construction.

0.2 Quelques résultats combinatoires


Nous allons à présent rappeler certains résultats élémentaires de combinatoire qui sont ré-
gulièrement utilisés par la suite. On utilisera la notation suivante : pour n  r  1, le symbole
de Pochhammer 17 (n)r est défini par

(n)r = n(n 1)(n 2)    (n r + 1):


On posera également (n)0 = 1.

0.2.1 Échantillons ordonnés


Considérons un ensemble de n éléments fa1 ; : : : ;an g. Un échantillon ordonné de taille r est
une suite ordonnée de r éléments de l’ensemble. On distingue deux procédures :
17. Leo August Pochhammer (1841, Stendal – 1920, Kiel), mathématicien prusse.
10 CHAPITRE 0. INTRODUCTION

. le tirage avec remise, durant lequel chaque élément de l’ensemble peut être choisi à
plusieurs reprises ;
. le tirage sans remise, durant lequel chaque élément de l’ensemble ne peut être choisi
qu’au plus une fois (dans ce cas, on doit évidemment avoir r  n).
Exemple 0.5. . On lance un dé 10 fois en notant la suite de résultats obtenus. On ob-
tient ainsi un échantillon de taille 10 correspondant à un tirage avec remise à partir de
l’ensemble f1; : : : ;6g.
. En Suisse, le résultat d’un tirage au loto correspond à extraire un échantillon de taille 6
par tirage sans remise à partir de l’ensemble f1; : : : ;42g 18 .
}
Lemme 0.1. On considère un ensemble A à n  1 éléments, et r 2 N.
1. Le nombre d’échantillons de taille r distincts que l’on peut obtenir par tirage avec
remise d’éléments de A est égal à nr .
2. Pour r  n, le nombre d’échantillons de taille r distincts que l’on peut obtenir par
tirage sans remise d’éléments de A est égal à (n)r .
3. Le nombre de façons d’ordonner l’ensemble est égal à n!.

Démonstration. 1. Dans le cas du tirage avec remise, chacun des r éléments peut être choisi
de n façons différentes. Par conséquent, le nombre total d’échantillons possibles est égal à nr .
2. Dans le cas sans remise, le premier élément est choisi parmi n, le second parmi n 1 (celui
choisi lors du premier tirage ne pouvant pas être choisi à nouveau), le troisième parmi n 2,
etc. On a donc un nombre total d’échantillons possibles égal à (n)r .
3. Suit de 2. puisque cela revient à faire n tirages sans remise et que (n)n = n!.

Jusqu’à présent, il n’a pas été fait mention de probabilité. Lorsque nous parlerons d’échantillon
aléatoire de taille r, l’adjectif « aléatoire » signifiera que l’on a muni l’ensemble de tous les
échantillons possibles d’une mesure de probabilité. Sauf mention explicite du contraire, on
considérera la mesure uniforme.
Considérons à présent un échantillon aléatoire avec remise de taille r. On s’intéresse à l’évé-
nement « aucun élément n’a été choisi plus d’une fois ». Le Lemme 0.1 montre que, parmi les nr
échantillons possibles, (n)r satisfont cette contrainte. Par conséquent, la probabilité que notre
échantillon ne contienne pas de répétition est donnée par (n)r =nr . Ce résultat a des conséquences
qui peuvent sembler surprenantes.
Exemple 0.6. Supposons que, dans une certaine ville, il y ait 7 accidents par semaine. Alors,
durant la quasi-totalité des semaines, certains jours verront plusieurs accidents. En posant n =
r = 7, on voit en effet que la probabilité d’avoir exactement un accident chaque jour de la
semaine est seulement de 0;00612 : : : ; cela signifie qu’un tel événement n’aura lieu en moyenne
qu’environ une fois tous les trois ans ! }
Exemple 0.7. Supposons que 23 personnes se trouvent dans la même salle. Quelle est la probabi-
lité qu’au moins deux d’entre elles aient leur anniversaire le même jour ? On peut modéliser cette
situation, en première approximation, par un tirage aléatoire avec remise à partir de l’ensemble
f1; : : : ;365g, avec la mesure uniforme ; un modèle plus réaliste devrait prendre en compte les
années bissextiles, ainsi que les variations saisonnières du taux de natalité (sous nos latitudes,
le nombre de naissances est plus élevé en été qu’en hiver 19 , par exemple), etc. Pour le modèle
18. Notons toutefois que l’ordre ne joue par contre aucun rôle pour déterminer si une grille est gagnante
19. Ceci dit, considérer une répartition inhomogène des naissances ne peut qu’augmenter la probabilité d’avoir
plusieurs personnes avec la même date d’anniversaire...
0.2. QUELQUES RÉSULTATS COMBINATOIRES 11

0,9

0,8

0,7

0,6

probabilité
0,5

0,4

0,3

0,2

0,1

0
0 10 20 30 40 50 60 70 80 90 100
nombre de personnes

Figure 0.1: La probabilité qu’au moins deux personnes aient leur anniversaire à la même date, en fonction
de la taille du groupe.

précédent, il suit de la discussion ci-dessus que la probabilité qu’au moins deux des 23 personnes
aient leur anniversaire le même jour est donnée par 1 (365)23 =36523 = 0;507 : : : : il y a plus
d’une chance sur deux que ça ait lieu !
Cette probabilité est de 97% s’il y a 50 personnes, et de 99;99996% pour 100 personnes ; voir
la figure 0.1. }

0.2.2 Échantillons non ordonnés


Considérons à présent le problème d’extraire un échantillon de taille r d’une population de
taille n sans tenir compte de l’ordre. En d’autres termes, étant donnée une population de taille
n, nous cherchons à déterminer le nombre de sous-populations de taille r.

Lemme 0.2. Une population de taille n possède nr différentes sous-populations de taille
r  n.
Démonstration. Chaque sous-population de taille r peut être ordonnée de r! façons différentes.
Puisque le nombre total d’échantillons ordonnés de taille r obtenus sans remise est égal à (n)r , on
en déduit que le nombre d’échantillons non-ordonnés de taille r doit être égal à (n)r =r! = nr .

Exemple 0.8.
Au poker, chaque joueur reçoit 5 cartes parmi 52. Le nombre de mains possibles est
52
donc de 5 = 2 598 960. Calculons alors la probabilité d’avoir 5 cartes de valeurs différentes.

On peut choisir ces valeurs de 13 5 façons différentes. Il faut ensuite associer à chacune une
couleur, ce qui donne un facteur additionnel 45 . Par conséquent, la probabilité en question est
 52
donnée par 4  5 = 5 = 0;5071 : : :.
5 13 }
Exemple 0.9. Considérons la distribution aléatoire de r boules dans n urnes. Quelle est la
probabilité qu’une urne donnée contienne exactement k boules ? On peut choisir les k boules de
r  façons. Les autres r k boules doivent être réparties parmi les n 1 urnes restantes, ce qui
k
peut se faire de (n 1)r k façons. Il s’ensuit que la probabilité en question est donnée par
! !
1 r r 1 1 r k
nr  k
 (n 1)r k =   1
k nk n
:

Il s’agit d’un cas particulier de la distribution binomiale, que nous reverrons plus tard. }
12 CHAPITRE 0. INTRODUCTION

Exemple 0.10. On offre à 100 condamnés à mort la possibilité d’être graciés s’ils parviennent à
gagner à un « jeu ». On les conduit donc tous dans une salle A et on leur décrit la procédure à
laquelle ils vont être soumis :
. Chaque prisonnier, à tour de rôle, sera conduit dans une salle B .
. La salle B contient 100 coffres, fermés, numérotés de 1 jusqu’à 100. Chacun des coffres
contient le nom d’un unique prisonnier, et le nom de chacun des prisonniers est contenu
dans un des coffres.
. Le prisonnier pourra alors ouvrir au plus 50 de ces 100 coffres, choisis comme il le désire.
. Si son nom se trouve dans un des coffres ouverts, on le conduira dans une salle C . Les
coffres seront alors refermés et on passera au prisonnier suivant.
. Si au moins un des prisonniers ne trouve son nom dans aucun des coffres qu’il aura
ouverts, tous les prisonniers seront exécutés. S’ils trouvent tous leur nom, ils seront
libérés.
Les prisonniers peuvent se mettre d’accord sur une stratégie commune afin de maximiser leur
chance de survie.
La « stratégie » naïve consistant, pour chacun des prisonniers, à ouvrir 50 des coffres au
hasard n’est guère prometteuse : chaque prisonnier a une chance sur deux de trouver son nom
dans les coffres qu’il ouvre (pourquoi ?), et les prisonniers seront donc exécutés avec probabilité
1 2 100 ...
Nous allons montrer qu’il existe une bien meilleure stratégie leur donnant plus de 30% de
chance de survie !
Cette stratégie (dont on peut montrer qu’elle est optimale) consiste pour les prisonniers à
procéder de la façon suivante :
. Les prisonniers commencent par se numéroter de 1 à 100 au hasard (uniformément).
. Lorsque le prisonnier auquel a été associé le numéro i est conduit dans la salle B , il
ouvre le coffre portant le numéro i et lit le nom qui y est contenu. S’il s’agit de son nom,
il s’interrompt et est conduit à la salle C . S’il ne s’agit pas de son nom, alors il s’agit
du nom d’un autre prisonnier dont le numéro est j . Il ouvre alors le coffre j , lit le nom
inscrit, et continue de la même façon jusqu’à ce qu’il ait soit ouvert 50 coffres, soit trouvé
son nom dans un des coffres.
Quelle est la probabilité pour que chaque prisonnier trouve son nom dans un des 50 coffres qu’il
ouvre ?
L’observation cruciale est qu’une fois les prisonniers numérotés, les noms contenus dans les
coffres définissent une permutation de l’ensemble f1; : : : ;100g : la permutation associe au numéro
inscrit sur le coffre le numéro correspondant au prisonnier dont le nom est contenu dans le coffre.
Cette permutation est aléatoire, puisqu’elle dépend de l’ordre dans lequel sont numérotés les
prisonniers. De plus, les permutations sont équiprobables, puisqu’il en est de même de l’ordre
de numérotation des prisonniers.
Ainsi, le prisonnier numéro i trouvera son nom dans l’un des 50 coffres qu’il ouvre si le cycle
de la permutation contenant l’élément i est de longueur au plus 50. En effet, dans ce cas, il va
nécessairement trouver un coffre contenant le nom associé au numéro i (ce qui ferme le cycle).
Or, c’est son nom qui est associé au numéro i.
On voit donc que pour que tous les prisonniers survivent, il est nécessaire et suffisant que
tous les cycles de la permutation soient de longueur au plus 50. On est donc conduit au
problème combinatoire suivant.
Soit S2n l’ensemble des permutations de f1; : : : ;2ng. On munit cet ensemble de la mesure
de probabilité uniforme, c’est-à-dire f ( ) = 1=(2n)!, pour toute permutation  2 S2n .
On veut déterminer la probabilité de l’événement

A = f 2 S2n : tous les cycles de  sont de longueur au plus ng :


0.2. QUELQUES RÉSULTATS COMBINATOIRES 13

Il nous faut donc déterminer la cardinalité de A. Il est en fait plus simple de déterminer celle de
l’événement complémentaire « il existe exactement un cycle de longueur strictement supérieure
à n » (pourquoi peut-on écrire « exactement » ?). Dans ce cas, on peut commencer par fixer la
longueur ` > n du plus grand cycle. Le nombre de façons de choisir les ` éléments composant ce
dernier est 2`n . Il convient ensuite de les ordonner afin de former un cycle : ceci peut se faire
de (` 1)! façons différentes (observez que les ordres 1;5;3;7 et 3;7;1;5, par exemple, décrivent
le même cycle !). Finalement, il reste à considérer toutes les permutations possibles des 2n `
éléments n’appartenant pas au plus grand cycle, ce qui contribue un facteur (2n `)!. On obtient
donc finalement que le nombre de permutations appartenant à A est égale à
!
2n 2n
X 2n X 1
(2n)! (` 1)!(2n `)! = (2n)! (2n)! ;
`=n+1 ` `=n+1 `
et la probabilité recherchée est donc
2n
X 1
P(A) = 1 :
`=n+1 `
En particulier, pour tout n,
Z 2n
1
P(A)  1 dx = 1 log 2 > 30%:
n x
}
0.2.3 Partitionnement
Finalement, considérons le nombre de façons de partitionner une population en k sous-
populations de tailles données.

Lemme 0.3. Soit r1 ; : : : ;rk des entiers positifs (éventuellement nuls) tels que r1 +    + rk =
n. Le nombre de façons de répartir n objets dans k familles, de sorte à ce que la ième famille
contienne ri éléments, est égal à
n!
:
r1 !r2 !    rk !
Démonstration. 
Pour remplir la première famille, il faut choisir r1 objets parmi n, ce qui peut
se faire de rn1 façons. Pour remplir la seconde famille, il faut choisir r2 objets parmi les n r1

objets restants, soit n r2r1 possibilités. En continuant ainsi, on obtient que le nombre de telles
répartitions est de
! ! ! !
n
r1
n r1
r2
n r1 r2
r3
   n r1 r   rk 1
=
n!
r1 !r2 !    rk !
:
k

Exemple 0.11. À une table de bridge, les 52 cartes sont distribuées à 4 joueurs. Quelle est
la probabilité que chacun reçoive un as ? Le nombre total de différentes répartitions est de
52!=(13!)4 . Les 4 as peuvent être ordonnés de 4! façons différentes, et chaque ordre correspond
à une façon de les répartir parmi les 4 joueurs. Les 48 cartes restantes peuvent ensuite être
réparties de 48!=(12!)4 façons. Par conséquent, la probabilité en question est de
48! . 52!
4! = 0;105 : : :
(12!)4 (13!)4
}
14 CHAPITRE 0. INTRODUCTION

0.2.4 Formule du binôme généralisée



Soit 2 R et k 2 N. Le coefficient binomial k est défini par
!
( 1)    ( k + 1)
= :
k k!
On a alors la généralisation suivante de la formule du binôme de Newton 20 (pourquoi retrouve-
t-on bien la formule usuelle lorsque 2 N ?).

Lemme 0.4. Soient x;y; 2 R. Alors,


!
1
X
(x + y ) = x k yk ;
k=0 k
si l’une des conditions suivantes est vérifiée :
1. jy=xj < 1 et 2 R ;
2. jy=xj = 1 et  0 ;
3. y=x = 1 et > 1.
Démonstration. En écrivant (x + y ) = x (1 + xy ) , on voit qu’il suffit de considérer le cas
x = 1. Il suffit alors de développer (1 + y) en série de Taylor autour de y = 0, et de vérifier
que chacune des conditions données ci-dessus assure la convergence de la série.

0.2.5 Formule de Stirling


Il se révèle souvent très utile, dans de nombreux problèmes de nature combinatoire, d’avoir
de bonnes approximations pour n! lorsque n est grand. Le résultat suivant est essentiellement
dû à Stirling 21 .
Lemme 0.5. Pour tout n  1, on a
e1=(12n+1) nn e n p2n  n!  e1=(12n) nn e n p2n:

Démonstration. Une version de ce résultat sera démontrée en exercice.

20. Sir Isaac Newton (1643, Woolsthorpe-by-Colsterworth – 1727, Londres), philosophe, mathématicien, phy-
sicien, alchimiste, astronome et théologien anglais.
21. James Stirling (1692, Garden – 1770, Leadhills), mathématicien britannique.
Première partie

Espaces de probabilité discrets

Résumé

Dans cette partie du cours, nous nous restreindrons au cas où l’univers associé à l’expé-
rience aléatoire est fini ou dénombrable. On parle alors d’espaces de probabilité discrets. La
formulation mathématique de la théorie est beaucoup plus simple dans ce cas, mais permet
déjà d’étudier de nombreux problèmes d’intérêt.
Chapitre 1

Probabilité, probabilité
conditionnelle et indépendance

1.1 Mesures de probabilité


On considère une expérience aléatoire dont l’univers est fini ou dénombrable. Dans ce
cas, on peut associer à chaque résultat possible de l’expérience sa probabilité. Ceci définit une
application de dans [0;1], appelée la fonction de masse.
Définition 1.1. Une fonction de masse sur est une application f : ! [0;1] telle que
X
f (!) = 1:
!2
Remarque 1.1. Il convient de faire quelques commentaires sur l’écriture utilisée ci-dessus.
Une expression du type
X
g(a)
a 2A
a un sens évident lorsque A est un ensemble fini et non-vide, puisque dans ce cas on
a affaire à une somme finie. Lorsque A est un ensemble infini dénombrable, il convient
d’être plus prudent. Dans le cas où la fonction g : A ! R est positive, comme c’est le
cas dans la définition précédente, il n’y a pas de problème : A étant dénombrable, il est
possible de numéroter ses éléments, disons A = fa1 ;a2 ; : : :g. On pose alors
X 1
X
g(a) = g(ai ):
a2A i=1
Il est important d’observer que cette définition ne dépend pas de l’ordre choisi pour les
éléments de A : la série apparaissant dans le membre de droite étant à termes positifs, la
somme est inchangée lorsque l’ordre des termes est modifié.
On utilisera occasionnellement la notation également lorsque A = ∅. Dans ce cas, la
somme est définie comme étant égale à 0.
Exemple 1.1. . Pour un dé non pipé, on prend = f1;2;3;4;5;6g et f (i) = 61 , i = 1; : : : ; 6.
. Pour un dé pipé, on pourra avoir par exemple f (1) = 16 , f (2) = f (3) = f (4) = f (5) = 81
et f (6) = 13 .
. Pour 5 lancers d’une pièces bien équilibrée, on prendra f (!) = 2 5 , pour tout ! 2 =
fP;Fg5.
17
18 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

. On lance un dé jusqu’à la première apparition d’un 6. Si l’on s’intéresse au nombre de


lancers nécessaires, il est naturel de prendre = N? [f+1g, la valeur +1 correspondant
à une expérience où le 6 ne sort jamais. Si le dé est équilibré, on verra que f (n) = 61 ( 56 )n 1 ,
pour tout n 2 N? . En particulier,
1
X 1
X
f (+1) = 1 f (n) = 1 1
6 ( 65 )n 1 = 0;
n=1 n=1

et la probabilité de ne jamais voir de 6 est nulle.


}
Une fois en possession d’une fonction de masse, on peut définir la probabilité d’un événement
arbitraire A  .

Définition 1.2. Soit un ensemble fini ou dénombrable et f une fonction de masse sur
. La probabilité de l’événement A  est définie par
X
P(A) = f (! ):
! 2A
L’application P : P ( ) ! [0;1] est la mesure de probabilité sur associée à la fonction de
masse f . La paire ( ;P) définit un espace de probabilité discret.

Évidemment, étant donnée une mesure de probabilité P, on peut immédiatement retrouver la


fonction de masse correspondante : f (! ) = P(f! g).
Exemple 1.2. On lance un dé équilibré. Soit A l’événement « le résultat est pair ». Alors,
P(A) = P(f2;4;6g) = f (2) + f (4) + f (6) = 61 + 16 + 16 = 12 :

}
Énonçons à présent quelques propriétés élémentaires, mais extrêmement importantes de
telles mesures de probabilité.

Théorème 1.1. Toute mesure de probabilité P sur un ensemble fini ou dénombrable


possède les propriétés suivantes.
1. P( ) = 1.
2. ( -additivité) Soit (Ak )k1 une collection d’événements 2 à 2 disjoints (c’est-à-dire
tels que Ai \ Aj = ∅ pour tout i 6= j ). Alors,
1
[  1
X
P Ai = P(Ai ):
i=1 i=1

Démonstration. La première affirmation suit immédiatement de la définition. Pour la seconde,


il suffit d’observer que
1
[  X 1 X
X 1
X
P Ai = f (! ) = f (! ) = P(Ai );
S
i=1 !2 1i=1 Ai i=1 !2Ai i=1
S
puisque chaque !2 i Ai appartient à exactement un des ensemble Ai .
1.1. MESURES DE PROBABILITÉ 19

Corollaire 1.1. Toute application P : P ( ) ! [0;1] possédant les propriétés 1. et 2. du


théorème possède également les propriétés suivantes.
1. P(∅) = 0.
2. Pour tout A , P(Ac ) = 1 P(A).
3. (Monotonicité) Pour tout AB ,

P(A)  P(B ):

4. (Additivité finie) Soit A1 ; : : : ; An une collection finie d’événements 2 à 2 disjoints.


Alors,
n
[  n
X
P Ai = P(Ai ):
i=1 i=1
5. (Sous- -additivité) Soit I un ensemble fini ou dénombrable et (Ai )i2I une collection
d’événements. Alors, [  X
P Ai  P(Ai ):
i2 I i 2I
6. Pour tout A;B  ,

P(A [ B ) = P(A) + P(B ) P(A \ B ):

7. Plus généralement, pour tout collection finie A1 ;A2 ; : : : ;An  ,


n
[  n
X X X
P Ai = P(Ai ) P(Ai \ Aj ) + P(Ai \ Aj \ Ak )   
i=1 i=1 1i<j n 1i<j<kn
+ ( 1)n+1 P(A1 \ A2 \    \ An ):
En outre, les sommes partielles des premiers termes du membre de droite fournissent
alternativement un majorant et un minorant du membre de gauche (inégalités de
Bonferroni1 ).

Démonstration. 1. La collection d’événements ∅;∅;∅; : : : est 2-à-2 disjointe. Il suit donc de la


-additivité que
P(∅) = P(∅ [ ∅ [ ∅ [    ) = P(∅) + P(∅) + P(∅) +    ;
ce qui n’est possible que si P(∅) = 0.
4. Il suffit d’appliquer la propriété de  -additivité à la collection (Bk )k1 avec Bk = Ak pour
1  k  n, et Bk = ∅ pour k > n, et de conclure en utilisant le fait que P(∅) = 0.
2. 1 = P( ) = P(A [ Ac )= P(A) + P(Ac ).
3. P(B ) = P A [ (B n A) = P(A) + P(B n A)  P(A).
5. Il suffit de considérer le cas dénombrable (Ak )k1 (sinon on complète avec une infinité de
S
copies de l’ensemble vide). Introduisons B1 = A1 et, pour k  2, Bk = Ak n ki=11 Bi . On a alors
Sn Sn
=1 Ak = k=1 S
kS Bk pour toutPn, Bi \ Bj = ∅Psi i 6= j , et Bk  Ak pour tout k. Par conséquent,
P( 1 k=1 A k ) = P( 1 Bk ) = 1 P(Bk )  1 P(Ak ).
k=1 k=1  k=1 
6. Comme P(A[B ) = P(A)+P B n(A\B ) , l’affirmation suit de P(B ) = P(A\B )+P B n(A\B ) .
7. Sera fait en exercice.
1. Carlo Emilio Bonferroni (1892, Bergame – 1960, Florence), mathématicien italien, spécialiste en théorie des
probabilités.
20 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

Un cas particulièrement important est celui où la même probabilité est associée à chaque résultat
possible de l’expérience. Bien entendu, ceci n’est possible que si est fini (pourquoi ?).

Définition 1.3. On appelle mesure de probabilité uniforme sur un ensemble fini, la


mesure de probabilité associée à la fonction de masse f (! ) = 1=j j, pour tout ! 2 . On
dit dans ce cas qu’il y a équiprobabilité.

Manifestement, lorsqu’il y a équiprobabilité, la probabilité d’un événement A est simplement


donnée par
P(A) =
X 1 jAj
= :
! 2A j j j j
En d’autres termes, la probabilité de A est alors donnée par le quotient du « nombre de cas
favorables » par le « nombre de cas total ».
Exemple 1.3. Nous allons à présent introduire un exemple non-trivial d’espace de probabilité
fini : le graphe aléatoire d’Erdős 2 –Rényi 3 . Soient m  0 et n  1 deux entiers. Le graphe
aléatoire G (n;m) est l’espace de probabilité sur l’ensemble

des graphes G = (S;A) avec ensemble
de sommets S = f1; : : : ; ng et ensemble d’arêtes A  fi;j g : 1  i < j  n satisfaisant
jAj = m. La mesure de probabilité sur cet ensemble est la mesure uniforme.
À titre d’exemple, voici une réalisation du graphe aléatoire G (8;4) (les arêtes présentes sont
indiquées en rouge) :

1.2 Probabilité conditionnelle, formule de Bayes


De nombreuses affirmations prennent la forme « si B a lieu, alors la probabilité de A est
p », où B et A sont des événements (tels « il neige demain », et « le bus sera à l’heure »,
respectivement).
Afin de motiver la définition de la probabilité conditionnelle d’un événement A étant connue
la réalisation d’un événement B , revenons à l’interprétation fréquentiste des probabilités. On
considère deux événements A et B . On désire déterminer la fréquence de réalisation de l’évé-
nement A lorsque l’événement B a lieu. Une façon de procéder est la suivante : on répète
l’expérience un grand nombre de fois N . On note le nombre NB de tentatives lors desquelles B
est réalisé, et le nombre NA\B de ces dernières tentatives lors desquelles A est également réalisé.
La fréquence de réalisation de A parmi les tentatives ayant donné lieu à B est alors donnée par

N A \B N A \ B N
= :
NB N NB
2. Pál Erdős (1913, Budapest – 1996, Varsovie), également ortographié Paul Erdős, Paul Erdös ou Paul Erdos,
mathématicien hongrois.
3. Alfréd Rényi (1921, Budapest – 1970, Budapest), mathématicien hongrois.
1.2. PROBABILITÉ CONDITIONNELLE, FORMULE DE BAYES 21

D’après l’interprétation fréquentiste, lorsque N devient grand, le membre de gauche devrait


converger vers la probabilité de A conditionnellement à la réalisation de l’événement B , alors
que le membre de droite devrait converger vers P(A\B )=P(B ). Ceci motive la définition suivante.

Définition 1.4. Soit B  un événement tel que P(B ) > 0. Pour tout A , la probabilité
conditionnelle de A sachant B est la quantité

P(A \ B )
P(A j B ) = :
P(B )

Lemme 1.1. Soit B  un événement tel que P(B ) > 0. Alors l’application P(  j B ) :
P ( ) ! R est une mesure de probabilité sur et sur B .
Démonstration. On vérifie aisément que la fonction
(
P(f! g)=P(B ) si ! 2 B ,
fjB (!) =
0 sinon,
P
est une fonction de masse sur et sur B , et que P(A j B ) = !2A fjB (! ), pour tout A  .
Exemple 1.4. On jette deux dés non pipés. Sachant que le premier jet nous donne 3, quelle est
la probabilité que la somme soit supérieure à 6 ? Ici, B = f(3;k) : k = 1; : : : ; 6g, A = f(a;b) 2
f1; : : : ;6g2 : a + b > 6g, et A \ B = f(3;4);(3;5);(3;6)g. On a alors
P(A \ B ) jA \ B j = 3 = 1 :
P(A j B ) = =
P(B ) jB j 6 2
}
Exemple 1.5. Considérons les deux problèmes suivants :
. Vous êtes invité chez une personne dont vous savez qu’elle a exactement deux enfants.
Lorsque vous sonnez à sa porte, un garçon vient vous ouvrir. Quelle est la probabilité
que l’autre enfant soit également un garçon ?
. Vous êtes invité chez une personne dont vous savez qu’elle a exactement deux enfants.
Lorsque vous sonnez à sa porte, un garçon vient vous ouvrir. Vous entendez un bébé
pleurer dans la maison. Quelle est la probabilité que l’autre enfant soit également un
garçon ?
Nous allons voir que les réponses à ces deux problèmes ne sont pas les mêmes : dans le premier
cas, la probabilité est de 1=3, alors que dans le second elle est de 1=2. Afin de vérifier cela,
formalisons plus précisément ces deux situations.
Dans les deux cas, on considère pour l’ensemble de toutes les possibilités pour les sexes des
deux enfants. On a donc = f(G; G); (F; F); (F; G); (G; F)g, où le premier membre de chaque
paire représente le sexe de l’aîné et le second celui du cadet. L’intérêt de distinguer l’aîné et
le cadet est que la mesure de probabilité décrivant notre problème devient uniforme : chacune
de ces 4 possibilités a probabilité 1=4. On désire déterminer la probabilité que les deux enfants
soient des garçons (conditionnellement aux informations disponibles dans chacune des deux
situations décrites), ce qui correspond à l’événement A = f(G; G)g.
Considérons à présent la première situation. L’information que vous obtenez lorsqu’un garçon
ouvre la porte est qu’au moins un des deux enfants est un garçon, ce qui correspond à l’événement
B = f(G; G); (F; G); (G; F)g. On obtient donc
P(f(G; G)g) 1
P(A j B ) = = :
P(f(G; G); (F; G); (G; F)g) 3
22 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

Passons à présent à la seconde situation décrite. L’information disponible est différente : on


sait qu’un des enfants est un garçon, mais également qu’il s’agit de l’aîné, ce qui correspond à
l’événement C = f(G; G); (G; F)g. On a donc

P(f(G; G)g) 1
P(A j C ) = = :
P(f(G; G); (G; F)g) 2
}
Définition 1.5. Une famille (Bi )i2I , I fini ou dénombrable, est une partition de si
[
Bi \ Bj = ∅, dès que i 6= j , et Bi = :
i 2I

En dépit de sa simplicité, le théorème suivant est crucialement important en théorie des proba-
bilités.
Théorème 1.2. Soit (Bi )i2I une partition de telle que P(Bi ) > 0, pour tout i 2 I , et soit
A .
1. (Loi de la probabilité totale)
X
P(A) = P(A j Bi )P(Bi ):
i2 I

2. (Formule de Bayes) Si P(A) > 0,

P(A j Bi )P(Bi )
P(Bi j A) = P :
j 2I P(A j Bj )P(Bj )

Démonstration. Par  -additivité,


X X [  [ 
P(A j Bi )P(Bi ) = P(A \ Bi ) = P (A \ Bi ) = P A \ ( Bi ) = P(A):
i 2I i 2I i2 I i2 I
La seconde relation suit de l’observation que

P(Bi \ A) P(Bi \ A) P(Bi ) P(A j Bi )P(Bi )


P(Bi j A) = = =
P(A) P(Bi ) P(A) P(A)

et l’application de la loi de la probabilité totale au dénominateur.

Remarque 1.2. Dans la terminologie statistique, on appelle P(Bi ) la probabilité à priori


de Bi et P(Bi j A) la probabilité à posteriori de Bi (sachant A). La formule de Bayes donne
donc un moyen de transformer les probabilités à priori en probabilités à posteriori.

Exemple 1.6. On se donne deux urnes. La première contient deux balles rouges et trois balles
bleues ; la seconde trois rouges et quatre bleues. Une balle est tirée au hasard de la première
urne et placée dans la seconde. On tire ensuite au hasard une balle de la seconde urne : quelle
est la probabilité qu’elle soit bleue ?
Soit A l’événement « la balle tirée de la seconde urne est bleue », et B l’événement « la balle
déplacée de la première urne à la seconde est bleue ». Puisque B et B c forment une partition
de , une application de la loi de la probabilité totale donne

P(A) = P(A j B )P(B ) + P(A j B c )P(B c ):


1.2. PROBABILITÉ CONDITIONNELLE, FORMULE DE BAYES 23

À présent,

P(A j B ) = P(A j la 2ème urne contient trois balles rouges et cinq bleues) = 58 ;
P(A j B c ) = P(A j la 2ème urne contient quatre balles rouges et quatre bleues) = 21 :

Puisque P(B ) = 35 et P(B c ) = 2 , on obtient P(A) = 23 .


5 40
On représente souvent des situations très simples de ce type de la façon suivante :

5=8 A \ B
3=5 B
3=8 A \ B
c

1=2 A \ B c
2=5 B c
1=2 A \ B
c c

}
Exemple 1.7. Le test de dépistage d’un certain virus n’est pas infaillible :
. 1 fois sur 100, il est positif, alors que l’individu n’est pas contaminé ;
. 2 fois sur 100, il est négatif, alors que l’individu est contaminé.
Il est donc important de répondre aux questions suivantes :
1. Étant donné que son test est positif, quelle est la probabilité qu’un individu ne soit pas
porteur du virus ?
2. Étant donné que son test est négatif, quelle est la probabilité qu’un individu soit porteur
du virus ?
La formule de Bayes est parfaitement adaptée à ce type de calculs. Afin de pouvoir l’appliquer,
il nous faut une information supplémentaire : dans la population totale, la fraction de porteurs
est approximativement de 1=1000.
Formalisons tout cela. On introduit les événements suivants :

T = fle test est positifg;


V = fl’individu est contaminég:
On a donc les informations suivantes :

P(T j V c) = 1001 ; P(T c j V ) = 100


2 ; 1 ;
P(V ) = 1000

et on veut calculer
1. P(V c j T ); 2. P(V j T c ):
La formule de Bayes nous dit que

P(T j V c )P(V c )
P(V c j T ) =
P(T j V c)P(V c) + P(T j V )P(V ) :
Nous connaissons toutes les valeurs correspondant aux quantités du membre de droite (observez
que P(T j V ) = 1 P(T c j V ) = 98=100). On obtient donc

100  1000
1 999
P(V c j T ) = 1 = 0;91 : : :
100  1000 + 100  1000
999 98 1

Même si son test est positif, un individu a plus de 90% de chances de ne pas être porteur du
virus !
24 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

Un calcul similaire montre par contre que

P(V j T c) = 0;00002:::
ce qui montre que c’est bien là que se trouve l’utilité de ce test, puisque la probabilité de déclarer
non porteur un individu contaminé est de l’ordre de 2=100 000.
Observez que le calcul ci-dessus ne s’applique qu’à un individu « normal ». Dans le cas
d’un individu appartenant à une population à risques, la probabilité à priori d’être porteur,
P(V ), peut devenir proche de 1 et non pas très petite comme précédemment. Cela change
complètement les conclusions : dans ce cas, la probabilité d’être non porteur alors que le test
est positif est minuscule, tandis que la probabilité d’être porteur alors que le test est négatif est
très importante. }
L’usage des probabilités conditionnelles peut se révéler très délicat, et l’intuition peut parfois
jouer des tours, comme le montrent les exemples suivants.
Exemple 1.8. Un bienfaiteur vous propose le jeu suivant. Il va vous présenter 3 enveloppes
fermées ; 2 d’entre elles contiennent du papier journal, la dernière un chèque de 1 000 000 CHF.
Vous devrez choisir une enveloppe, sans l’ouvrir. Il ouvrira ensuite une des deux enveloppes
restantes et vous montrera qu’elle contient du papier journal. Vous aurez alors le choix entre
conserver l’enveloppe choisie initialement, ou bien changer pour celle qui reste. Quelle est la
meilleure stratégie ? (Réponse : vous avez deux fois plus de chances de gagner si vous changez ;
pourquoi ?) }
Exemple 1.9. (Paradoxe du prisonnier) Trois hommes se sont faits arrêter dans une sombre
dictature. Ils apprennent de leur garde que le dictateur a décidé arbitrairement que l’un d’entre
eux va être libéré, et les 2 autres exécutés ; le garde n’est pas autorisé à annoncer à un prisonnier
quel sera son sort. Le prisonnier A sait donc que la probabilité qu’il soit épargné est de 1=3.
Afin d’obtenir davantage d’informations, il décide d’interroger le garde. Il lui demande de lui
donner en secret le nom d’un de ses camarades qui sera exécuté. Le garde nomme le prisonnier
B . Le prisonnier A sait à présent qu’entre lui-même et C , l’un va être libéré, et l’autre exécuté.
Quelle est la probabilité que A soit exécuté ? }
Remarque 1.3. Dans les 2 exemples précédents, le problème est partiellement mal posé,
car la stratégie employée par votre bienfaiteur, ou par le garde, lorsqu’ils ont à prendre
une décision n’est pas indiquée. Dans une telle situation, supposez qu’il prend sa décision
de façon uniforme (après tout, vous n’avez aucune information sur le sujet, et tout autre
choix serait difficile à justifier).

Si les exemples précédents sont très artificiels et se règlent facilement en appliquant avec
soin les règles de la théorie des probabilités, l’exemple suivant montre que des difficultés réelles,
subtiles et difficiles à traiter apparaissent également dans des applications pratiques.
Exemple 1.10. (Paradoxe de Simpson 4 ) Un scientifique a effectué des expériences cliniques afin
de déterminer les efficacités relatives de deux traitements. Il a obtenu les résultats suivants :
Traitement A Traitement B
Succès 219 1010
Échec 1801 1190
Le traitement A ayant été administré à 2020 personnes, et 219 d’entre elles ayant été guéries,
son taux de succès est donc de 219=2020, ce qui est très inférieur au taux correspondant pour
4. Edward Hugh Simpson. Ce paradoxe, discuté par ce dernier en 1951, l’avait déjà été en 1899 par Karl
Pearson et ses coauteurs, puis en 1903 par George Udny Yule.
1.3. INDÉPENDANCE 25

le traitement B qui est de 1010=2200. Par conséquent, le traitement B est plus efficace que le
traitement A.
Après qu’il ait annoncé sa conclusion, il reçoit la visite de l’un de ses assistants, qui est en
désaccord avec l’interprétation des résultats. Il lui présente le tableau suivant, dans lequel les
résultats précédents sont donnés en tenant compte du sexe des patients :
Femmes Hommes
Traitement A Traitement B Traitement A Traitement B
Succès 200 10 19 1000
Échec 1800 190 1 1000
Chez les femmes, les taux de succès des traitements sont de 1=10 et 1=20 respectivement, et
chez les hommes de 19=20 et 1=2. Le traitement A est donc plus efficace dans les 2 cas. Par
conséquent, le traitement A est plus efficace que le traitement B.
Bien entendu, c’est l’assistant qui a raison : quel que soit le sexe du patient, ses chances de
guérir sont supérieures avec le traitement A.
Ce paradoxe apparaît régulièrement dans des études statistiques. Observez aussi la difficulté
suivante : si l’on n’avait pas relevé le sexe des patients, on aurait été obligé de baser notre
analyse sur le premier raisonnement, et on serait arrivé à une conclusion erronée. En particulier,
comment être certain qu’il n’existe pas d’autres paramètres que le sexe (l’âge, le poids, . . . ) dont
on n’aurait pas tenu compte et qui modifierait une fois de plus la conclusion ?
Un cas réel célèbre s’est produit lorsque l’université de Berkeley a été poursuivie pour dis-
crimination sexuelle en 1973 : les chiffres des admissions montraient que les hommes ayant posé
leur candidature avaient plus de chance d’être admis que les femmes, et la différence était si
importante qu’elle ne pouvait raisonnablement être attribuée au hasard (44% contre 35%). Ce-
pendant, après avoir analysé séparément les différents départements, on a découvert qu’aucun
département n’était significativement biaisé en faveur des hommes ; en fait, la plupart des dé-
partements avaient un petit (et pas très significatif) biais en faveur des femmes ! L’explication
se trouve être que les femmes avaient tendance à porter leur choix sur des départements dont
les taux d’admission sont faibles, tandis que les hommes avaient tendance à postuler dans des
départements avec forts taux d’admission. }
1.3 Indépendance
En général, l’information qu’un événement B est réalisé modifie la probabilité qu’un autre
événement A soit réalisé : la probabilité à priori de A, P(A), est remplacée par la probabilité à
posteriori, P(A j B ), en général différente. Lorsque l’information que B est réalisé ne modifie pas
la probabilité d’occurrence de A, c’est-à-dire lorsque P(A j B ) = P(A), on dit que les événements
A et B sont indépendants. Il y a au moins deux bonnes raisons pour ne pas utiliser cette propriété
comme définition de l’indépendance : d’une part, elle n’a de sens que lorsque P(B ) > 0, et
d’autre part, les deux événements ne jouent pas un rôle symétrique. La notion de probabilité
conditionnelle conduit donc à la définition suivante.
Définition 1.6. Deux événements A et B sont indépendants sous P si

P(A \ B ) = P(A)P(B ):

Plus généralement, une famille d’événements (Ai )i2I est indépendante sous P si
\ Y
P( A i ) = P(Ai );
i2 J i2 J
pour tous les sous-ensembles finis J de I .
26 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

T Q
Exemple 1.11. Il ne suffit pas, en général, de vérifier que P( i2I Ai ) = i2I P(Ai ) : il est essentiel
de vérifier que la factorisation a lieu pour toute collection finie d’événements. Par exemple, si
l’on jette 2 dés équilibrés de couleur différentes, = f(i;j ) : 1  i;j  6g, et que l’on considère
les événements

A = fle 1er dé montre un 1, un 2 ou un 3g; B = fle 1er dé montre un 3, un 4 ou un 5g;


C = fLa somme des deux dés est égale à 9g;
alors on observe que P(A) = P(B ) = 12 , P(C ) = 19 , P(A \ B \ C ) = 36
1 , et donc

P(A \ B \ C ) = P(A)P(B )P(C ):

Par contre, P(A \ B ) = 16 , P(A \ C ) = 36


1 et P(B \ C ) = 1 , et donc
12

P(A \ B ) 6= P(A)P(B ); P(A \ C ) 6= P(A)P(C ); P(B \ C ) 6= P(B )P(C ):

}
Proposition 1.1. Soient A;B deux événements indépendants. Alors A et B c sont indépen-
dants, et Ac et B c sont indépendants.
Plus généralement, si A1 ; : : : ;An sont indépendants, alors

B1 ; : : : ;Bn ;
où Bi 2 fAi ;Aci g, sont aussi indépendants.

Démonstration. Laissée en exercice.

Remarque 1.4. Si une famille d’événements (Ai )i2I satisfait P(Ai \ Aj ) = P(Ai )P(Aj ),
pour toute paire i 6= j , on dit que la famille est 2 à 2 indépendante. L’indépendance 2 à 2
n’implique pas l’indépendance, comme le montre l’exemple suivant.

Exemple 1.12. On place dans une boîte 4 billets sur lesquels sont respectivement inscrits les 4
nombres suivants : 112, 121, 211 et 222. On tire au hasard un des 4 billets (uniformément) et
on considère les événements suivants :

A1 = fLe premier chiffre est un « 1 »g;


A2 = fLe deuxième chiffre est un « 1 »g;
A3 = fLe troisième chiffre est un « 1 »g:
Comme

P(A1 ) = P(A2 ) = P(A3 ) = 21 ;


P(A1 \ A2 ) = P(A1 \ A3 ) = P(A2 \ A3 ) = 14 ;

les événements A1 , A2 et A3 sont 2 à 2 indépendants. D’un autre côté,


P(A1 \ A2 \ A3 ) = 0 et P(A1 )P(A2 )P(A3 ) = 81 ;

ce qui montre que ces trois événements ne sont pas indépendants. }


1.3. INDÉPENDANCE 27

Exemple 1.13. Retournons au graphe aléatoire G (n;m) ; on suppose n  3 et m  2. La


probabilité que deux sommets distincts donnés i et j soient

reliés par une arête (ce que l’on
notera i  j ) est donnée par (rappelez-vous que N = n2 )

N 1
m
P(i  j ) = m 1
N = :
m N
En effet, le numérateur correspond au nombre total de façons de choisir les m 1 arêtes restantes
parmi les N 1 arêtes encore disponibles.
D’autre part, soient i;j;k;` quatre sommets tels que fi;j g 6= fk;`g. La probabilité qu’on ait
à la fois i  j et k  ` est donnée par

N 2
m(m 1)
P(i  j; k  `) = m 2
N = :
m N (N 1)
On voit donc que les événements ij et k  ` ne sont pas indépendants. }
Il convient d’être attentif lorsque l’on utilise la notion d’indépendance. En particulier, l’idée
intuitive d’indépendance peut être parfois mise en défaut, comme le montrent les deux exemples
suivants.
Exemple 1.14. Un événement peut être indépendant de lui-même. En effet, ceci a lieu si et
seulement s’il a probabilité 0 ou 1, puisque, dans ce cas, on a bien

P(A) = P(A \ A) = P(A)P(A) () P(A) 2 f0;1g:

}
Exemple 1.15. Considérons des familles avec 3 enfants et intéressons-nous au sexe des enfants ;
on suppose que chacune des 8 possibilités a la même probabilité 1=8. Soit A l’événement « la
famille a des enfants des 2 sexes », et B l’événement « la famille a au plus une fille ». On a

P(A) = 43 ; P(B ) = 21 ; P(A \ B ) = 38 ;

et donc A et B sont indépendants.


Faisons la même chose avec des familles de 4 enfants. Dans ce cas,

P(A) = 87 ; 5;
P(B ) = 16 P(A \ B ) = 14 ;

et donc A et B ne sont pas indépendants. }


Définition 1.7. Soit C un événement avec P(C ) > 0. Deux événements A et B sont
indépendants conditionnellement à C sous P si

P(A \ B j C ) = P(A j C )P(B j C ):

Plus généralement, une famille d’événements (Ai )i2I est indépendante conditionnellement
à C sous P si \ Y
P( Ai j C ) = P(Ai j C );
i2 J i2 J
pour tous les sous-ensembles finis J de I .
28 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE

1.4 Expériences répétées


Dans cette section, nous allons nous intéresser à la description mathématique d’une expé-
rience aléatoire répétée dans les mêmes conditions, de façon indépendante.
Afin de rester concret, nous illustrerons la construction avec le cas particulier du lancer
répété d’une pièce de monnaie, un exemple déjà discuté à plusieurs reprises précédemment.
Notons 1 l’univers correspondant à une expérience, et f1 et P1 la fonction de masse et la
mesure de probabilité associées.
Exemple 1.16. Dans le cas d’un jet d’une pièce de monnaie, 1 = fP;Fg, et f1 (P) = p, f1 (F) =
1 p  q , où p 2 [0;1] est la probabilité que la pièce tombe sur pile. En particulier, p = 12 dans
le cas d’une pièce équilibrée. }
Nous allons à présent construire l’espace de probabilité correspondant à 2 répétitions de
l’expérience. Évidemment, l’univers associé est donné par le produit cartésien de 2 copies de
1 : 2 = 1  1 = f(!1 ; !2 ) : !i 2 1 g. Nous devons à présent définir la mesure de probabilité
P2 sur 2 . L’indépendance des expériences successives implique que les deux événements « le
résultat de la première expérience est !1 » et « le résultat de la deuxième expérience est !2 »
doivent être indépendants. De plus, la probabilité d’observer !1 lors de la première expérience
est donnée par f1 (!1 ), et similairement pour la deuxième. Ceci implique que

f2 (!1 ;!2 ) = f1 (!1 )f1 (!2 ); 8(!1;!2) 2 2:


Soient A;B  1 . L’événement « A a lieu lors de la première expérience et B a lieu lors de la
seconde » correspond à A  B . On a alors, comme on le souhaitait,
X X
P2 ( A  B ) = f2 (!1 ;!2 ) = f1 (!1 )f1 (!2 ) = P1 (A) P1 (B ):
! 1 2A !1 2 A
!2 2B ! 2 2B

Exemple 1.17. Pour deux jets d’une pièce de monnaie, on obtient

2 = fPP;PF;FP;FFg;
et f2 est déterminée par f2 (PP) = p2 , f2 (PF) = f2 (FP) = pq et f2 (FF) = q 2 . }
On peut aisément itérer la construction ci-dessus de façon à décrire la répétition d’un nombre
fini quelconque N d’expériences identiques et indépendantes. On obtient alors l’univers N =
1      1 (n fois), et la fonction de masse fn (!1 ; : : : ;!n ) = f1 (!1 )    f1 (!n ).
Comme on le verra, il sera souvent pratique de considérer la répétition d’un nombre infini
d’expériences identiques et indépendantes. L’univers correspondant n’est alors plus dénombrable
et une construction plus sophistiquée est nécessaire. Nous y reviendrons plus tard.
Chapitre 2

Variables aléatoires discrètes

2.1 Variables aléatoires discrètes et leurs lois


Il est souvent plus pratique d’associer une valeur numérique au résultat d’une expérience
aléatoire, plutôt que de travailler directement avec une réalisation. Par exemple, lorsque n et
m sont grands, une réalisation du graphe aléatoire G (n;m) de l’Exemple 1.3 est un objet trop
complexe pour être directement intéressant ; à titre d’illustration, voici une réalisation du graphe
aléatoire G (100;200) :

Dans un tel cas, il est en général plus utile de se concentrer sur certaines propriétés numériques de
cette réalisation, comme, par exemple, le nombre d’arêtes incidentes en un sommet, le nombre de
composantes connexes, ou la taille de la plus grande composante connexe. Mathématiquement,
de telles valeurs numériques sont des fonctions X : ! R associant à un résultat de l’expérience
une valeur dans R. Une telle fonction est appelée variable aléatoire.

Définition 2.1. Soit ( ;P) un espace de probabilité discret. Une variable aléatoire discrète
est une application X : ! R.

Remarque 2.1. Il est parfois naturel d’autoriser des variables aléatoires à prendre des
valeurs infinies. Bien sûr, ceci n’a d’influence que si la probabilité d’obtenir une valeur
infinie est strictement positive. Une variable aléatoire X telle que P(X = 1) > 0 est

29
30 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

dite défective. Dans la suite, les variables aléatoires seront supposées non-défectives, sauf
mention explicite du contraire.
Exemple 2.1. On considère le graphe aléatoire G (n;m). Pour chaque k 2 N, la fonction Nk
donnant le nombre de sommets ayant k arêtes incidentes est une variable aléatoire. Dans la
réalisation de G (8;4) représentée dans l’Exemple 1.3, on a N0 = 1, N1 = 6, N2 = 1, et Nk = 0
pour les autres valeurs de k. }
Soit ( ;P) un espace de probabilité discret et X : ! R une variable aléatoire. Les probabilités
qui vont nous intéresser prennent la forme
P(f! 2 : X (! ) 2 Ag) = P(X 1 (A))  P(X 2 A);
pour certains sous-ensembles A  R. La mesure de probabilité P sur et la variable aléatoire
X induisent une mesure de probabilité PX sur R en posant, pour A  R,
PX (A) = P(X 2 A):
Évidemment, R n’est pas un ensemble dénombrable. Toutefois, la mesure de probabilité PX
n’associe une probabilité non-nulle qu’aux éléments du sous-ensemble dénombrable ou fini X ( ).
On peut donc, en faisant un léger abus de langage, considérer le couple (R;PX ) comme un espace
de probabilité discret.
Définition 2.2. La mesure de probabilité PX sur R définie par

PX (A) = P(X 2 A); 8A  R


est appelée la loi de X . La fonction de masse de X est la fonction fX : R ! [0;1] donnée
par fX (x) = P(X = x).
La fonction de masse satisfait donc fX (x) = 0 pour tout x 62 X ( ), et on a, pour tout A  R,
X
PX (A) = fX (x):
x 2 A \X ( )

Exemple 2.2. Considérons le lancer de deux dés non pipés, et notons X la variable aléatoire
correspondantpà la somme des valeurs obtenues. Alors, la probabilité que la somme appartienne
à l’intervalle [ 5; + 1] est donnée par
p 5
PX ([ 5; + 1]) = P(X 2 f3;4g) = P(f(1;2);(2;1);(1;3);(3;1);(2;2)g) = :
36
}
La mesure de probabilité PX contient toute l’information nécessaire pour étudier les pro-
priétés statistiques de la variable aléatoire X ; en particulier, si l’on n’est intéressé que par cette
variable aléatoire, l’espace de probabilité de départ ( ;P) peut être complétement ignoré, et
souvent n’est même pas spécifié, l’espace de probabilité pertinent étant (R;PX ) (ou, de façon
équivalente, (X ( );PX )). Bien entendu, lorsque n’est plus explicitement mentionné, la va-
riable aléatoire est dite discrète s’il existe un sous-ensemble K  R, au plus dénombrable, tel
que PX (K ) = 1.

2.1.1 Exemples importants de variables aléatoires discrètes


On présente ici quelques-unes des lois discrètes les plus importantes. Elles sont introduites
à partir de leur fonction de masse, et on laisse comme exercice la vérification que celles-ci sont
proprement normalisées (c’est-à-dire de somme 1).
2.1. VARIABLES ALÉATOIRES DISCRÈTES ET LEURS LOIS 31

0.18 0.3
0.16
0.25
0.14
0.12 0.2
0.1
0.15
0.08
0.06 0.1
0.04
0.05
0.02
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k

Figure 2.1: Loi binomiale pour n = 20; p = 0;5 (gauche) et n = 20; p = 0;1 (droite).

Variable aléatoire constante


Une variable aléatoire X est constante s’il existe c 2 R tel que P(X = c) = 1.

Loi de Bernoulli
La loi d’une variable aléatoire X : ! f0;1g, avec fX (1) = p, fX (0) = 1 p, p 2 [0;1], est
appelée loi de Bernoulli de paramètre p. On écrit X  bernoulli(p).
On parle souvent d’épreuve de Bernoulli, et les événements fX = 1g et fX = 0g sont
respectivement appelés succès et échec.
Exemple 2.3. 1. Un lancer à pile ou face est une épreuve de Bernoulli (avec, par exemple,
X (P) = 1 et X (F) = 0).
2. Pour tout A , la fonction indicatrice de A, 1A : ! f0;1g, définie par
(
1 si ! 2 A,
1A (! ) =
0 si ! 62 A,
est une variable aléatoire discrète suivant une loi de Bernoulli de paramètre P(A).
}
Loi binomiale
Répétons n fois de manière indépendante une épreuve de Bernoulli de paramètre p, et notons
X la variable aléatoire représentant le nombre de succès obtenus à l’issue des n épreuves. La
loi de X est appelée loi binomiale de paramètres n et p ; X  binom(n; p). Puisqu’il y a nk
façons d’obtenir k succès sur n épreuves, on voit que la fonction de masse associée à cette loi
est donnée par !
n k
fX (k) = p (1 p)n k ; k 2 f0; : : : ;ng:
k

Loi de Poisson
Une variable aléatoire X suit une loi de Poisson 1 de paramètre  > 0, X  poisson(), si
elle prend ses valeurs dans N et possède la fonction de masse

k 
fX (k) = e ; k 2 N:
k!
1. Siméon Denis Poisson (1781, Pithiviers – 1840, Sceaux), mathématicien, géomètre et physicien français.
32 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

0.4 0.18

0.35 0.16

0.3 0.14
0.12
0.25
0.1
0.2
0.08
0.15
0.06
0.1 0.04
0.05 0.02
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k

Figure 2.2: Loi de Poisson pour  = 1 (gauche) et  = 5 (droite).

0.2 0.5
0.18 0.45
0.16 0.4
0.14 0.35
0.12 0.3
0.1 0.25
0.08 0.2
0.06 0.15
0.04 0.1
0.02 0.05
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k

Figure 2.3: Loi géométrique pour p = 0;2 (gauche) et p = 0;5 (droite).

Considérons une variable aléatoire X suivant une loi binomiale de paramètres n et p, avec n
très grand et p très petit (modélisant par exemple la transmission d’un gros fichier via internet :
n est la taille en bits du fichier, et p la probabilité qu’un bit donné soit modifié pendant la
transmission). Alors X suit approximativement une loi de Poisson de paramètre  = np (c’est
ce qu’on appelle parfois la loi des petits nombres). Plus précisément,
!
n k
fX (k) = p (1 p)n k
k
1 nn 1n 2 n k+1
=
k! n n n
   n (np)k (1 p)n k :
À présent, en prenant, à k fixé, les limites n ! 1 et p ! 0 de telle sorte que np ! , on voit
que chacun des rapports (n i)=n converge vers 1, que (np)k converge vers k , que (1 p)n
converge vers e  , et que (1 p) k tend vers 1. Par conséquent,

 k
!1 fX (k) = k! e ;
nlim
p!0
np!

pour chaque k 2 N.

Loi géométrique
Répétons de façon indépendante une épreuve de Bernoulli de paramètre p jusqu’à ce que
le premier succès ait lieu. La variable aléatoire X correspondant au temps du premier succès
2.1. VARIABLES ALÉATOIRES DISCRÈTES ET LEURS LOIS 33

suit la loi géométrique de paramètre p ; X  geom(p). La fonction de masse associée est donc
donnée par
fX (k) = p(1 p)k 1 ; k 2 N :
Une propriété remarquable de la loi géométrique est sa perte de mémoire.

Lemme 2.1. Soit X une variable aléatoire suivant une loi géométrique. Alors, pour tout
k  1,
P(X = n + k j X > n) = P(X = k) 8n 2 N:
Démonstration. On a

P(X = n + k) p(1 p)n+k 1


P(X = n + k j X > n) = = P m 1;
P(X > n) m>n p(1 p)
P
et le dénominateur est égal à (1 p)n m>0 p(1 p)m 1 = (1 p)n .

Cette propriété dit par exemple que même si le numéro 53 (sur 90 numéros possibles) n’est pas
sorti pendant 178 tirages consécutifs à la loterie, cela ne rend pas sa prochaine apparition plus
probable 2 .

Loi hypergéométrique

Une urne contient N boules, dont b sont bleues et r = N b sont rouges. Un échantillon
de n  N boules est tiré de l’urne, sans remise. On vérifie facilement que le nombre B de
boules bleues dans l’échantillon suit la loi hypergéométrique de paramètres N , b et n, B 
hypergeom(N; b; n), dont la fonction de masse est 3
! ! !
b N b N
fB (k) = ; k 2 f(n r) _ 0; : : : ;b ^ ng:
k n k n

Lemme 2.2. Pour tout 0  k  n,


!
n k
lim fB (k) = p (1 p)n k :
N;b!1 k
b=N !p

Démonstration. Exercice.

Ce lemme montre qu’il est possible de remplacer la loi hypergéométrique de paramètres N;b
et n par une loi binomiale de paramètres n et p = b=N dès que la taille n de l’échantillon est
suffisamment petite par rapport à la taille N de la population. Ceci est intuitif, puisque si l’on
effectue un tirage avec remise d’un petit échantillon à partir d’une grande population, il y a
très peu de chances de tirer le même individu deux fois... Dans la pratique, on remplace la loi
hypergéométrique dès que 10n < N . Un exemple classique concerne le sondage. On considère
fréquemment le sondage de n personnes comme n sondages indépendants alors qu’en réalité le
sondage est exhaustif (on n’interroge jamais deux fois la même personne). Comme n (nombre
de personnes interrogées) < N (population sondée)=10, cette approximation est légitime.
34 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

0.09 0.03
0.08
0.025
0.07
0.06 0.02
0.05
0.015
0.04
0.03 0.01
0.02
0.005
0.01
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k

Figure 2.4: Loi de Pascal dans le cas k + r = 20 pour p = 0;5 (gauche) et p = 0;1 (droite).

Loi de Pascal
Si X représente le nombre d’échecs avant le rème succès d’une suite d’épreuves de Bernoulli,
alors X suit la loi de Pascal de paramètres r et p, X  pascal(r; p), dont la fonction de masse
est (pourquoi ?) !
k+r 1 r
fX (k) = p (1 p)k ; k = 0;1; : : :
k
On parle également de loi binomiale négative ou de loi de Pólya 4 .
Dans certaines applications, il est utile d’autoriser le paramètre r à prendre des valeurs
réelles positives pas nécessairement entières.

2.2 Indépendance de variables aléatoires


Rappelons que deux événements A et B sont indépendants si l’occurrence de A n’a pas d’in-
fluence sur la probabilité de réalisation de B ; mathématiquement, nous avons traduit cela par
la propriété P(A \ B ) = P(A)P(B ). Nous aimerions à présent définir une notion similaire d’in-
dépendance entre deux variables aléatoires, correspondant à l’idée intuitive que la connaissance
de la valeur prise par une variable aléatoire n’a pas d’influence sur la distribution de l’autre
variable aléatoire.

Définition 2.3. Deux variables aléatoires X et Y sur un espace de probabilité ( ;P) sont
indépendantes si et seulement si les événements

fX 2 Ag et fY 2 B g
sont indépendants pour tout A;B  R. Plus généralement, une famille de variables aléa-
toires (Xi )i2I est indépendante si les événements
fXi 2 Aig; i 2 J;
sont indépendants pour tout Ai  R, i 2 J , et tout J  I fini.

Le résultat suivant montre qu’il est suffisant de vérifier l’indépendance pour les singletons.
2. Cela s’est produit en 2005 en Italie. De très, très nombreux Italiens ont misé de grosses sommes, certains
tout ce qu’ils possédaient. Le total des mises s’est élevé à 4 milliards d’euros, et cette histoire s’est terminée par
de nombreuses ruines et même des suicides...
3. On utilise les notations usuelles : a _ b = max(a;b) et a ^ b = min(a;b).
4. George Pólya (1887, Budapest – 1985, Palo Alto), mathématicien hongrois.
2.3. VECTEURS ALÉATOIRES DISCRETS 35

Lemme 2.3. La famille (Xi )i2I de variables aléatoires est indépendante si et seulement si
les événements
fXi = xig; i 2 J;
sont indépendants pour tout xi 2 R, i 2 J , et tout J  I fini.

Démonstration. On considère le cas de deux événements A1 et A2 ; le cas général se traite de


la même manière. On peut supposer, sans perte de généralité, que A1  X1 ( ) et A2  X2 ( ).
Par  -additivité,
[
P(X1 2 A1; X2 2 A2) = P( fX1 = x1;X2 = x2g)
x 1 2A 1
x 2 2A 2
X
= P(X1 = x1 ;X2 = x2 )
x 1 2A 1
x 2 2A 2
X
= P(X1 = x1 )P(X2 = x2 )
x 1 2A 1
x 2 2A 2
= P(X1 2 A1 )P(X2 2 A2 ):

Intuitivement, si l’information procurée par une variable aléatoire X ne nous renseigne pas sur
une autre variable aléatoire Y , alors il doit en être de même pour des fonctions de X et Y . C’est
ce que montre le lemme suivant.

Lemme 2.4. Soient (Xi )i2I une famille de variables aléatoires indépendantes, et ('i )i2I
une famille de fonctions de R ! R. Alors la famille

('i (Xi ))i2I


est également indépendante.

Démonstration. Il suit de l’indépendance de la famille (Xi )i2I que


Y
P('i (Xi ) 2 Ai ; 8i 2 J ) = P(Xi 2 'i 1(Ai); 8i 2 J ) = P(Xi 2 'i 1(Ai))
i2 J
Y
= P('i (Xi ) 2 Ai ):
i2 J

Définition 2.4. Une famille de variables aléatoires (Xi )i2I est dite i.i.d. ( indépendantes
et identiquement distribuées) si elle est indépendante et tous les Xi ont la même loi.

2.3 Vecteurs aléatoires discrets


Soient X et Y deux variables aléatoires sur un même espace de probabilité ( ;P). Les fonc-
tions de masse fX et fY encodent toute l’information nécessaire à une étude statistique de
chacune de ces variables. Par contre, elles ne fournissent aucune information sur leurs propriétés
relativement l’une à l’autre.
36 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

Exemple 2.4. On demande à deux élèves de faire deux jets à pile ou face chacun, et de relever
les résultats. L’élève appliqué jette deux fois la pièce, obtenant une paire (X1 ;X2 ). L’élève
paresseux ne jette la pièce qu’une fois et écrit le résultat deux fois, obtenant une paire (Y1 ;Y2 )
avec Y1 = Y2 . Il est clair que X1 ; X2 ; Y1 ; Y2 sont toutes des variables aléatoires de même loi, et en
particulier fX1 = fX2 = fY1 = fY2 . Or ces couples ont des propriétés satistiques très différentes :
P(X1 = X2 ) = 21 , P(Y1 = Y2 ) = 1. }
Une façon de résoudre ce problème est de considérer X et Y non pas comme deux variables
aléatoires, mais comme les composantes d’un vecteur aléatoire (X;Y ) prenant ses valeurs dans
R2 .
Exemple 2.5. Dans le cas de l’exemple précédent, on a alors

P((X1 ;X2 ) = (x1 ;x2 )) = 41 ; 8x1 ;x2 2 f0;1g;


(
1 ; si y = y 2 f0;1g,
1 2
P((Y1 ;Y2 ) = (y1 ;y2 )) = 2
0 sinon.
}
Comme pour les variables aléatoires, un vecteur aléatoire induit naturellement une mesure
de probabilité sur Rn .

Définition 2.5. On appelle loi conjointe du vecteur aléatoire X = (X1 ; : : : ;Xn ) la mesure
de probabilité sur Rn définie par

PX (A) = P(X 2 A)  P(X 1 (A)); 8A  Rn:


Comme pour les variables aléatoires discrètes, la loi conjointe d’un vecteur aléatoire X est
caractérisée par la fonction de masse conjointe.

Définition 2.6. La fonction de masse conjointe d’un vecteur aléatoire discret X =


(X1 ; : : : ;Xn ) est la fonction fX : Rn ! [0;1] définie par
fX (x) = P(X = x); 8x 2 Rn:
Définition 2.7. Étant donnée une fonction de masse conjointe f(X1 ;:::;Xn ) , on appelle fonc-
tions de masse marginales les fonctions de masse fXi .

Le lemme suivant montre comment on peut récupérer les fonctions de masse marginales à partir
de la fonction de masse conjointe.

Lemme 2.5. X
fXi (xi ) = f(X1 ;:::;Xn ) (x1 ; : : : ;xn ):
x1 ;:::;xi 1 ;xi+1 ;:::;xn

Démonstration. Laissée en exercice.

L’indépendance de la famille X1 ; : : : ;Xn se formule aisément en termes de la fonction de


masse conjointe du vecteur correspondant.

Lemme 2.6. La famille X1 ; : : : ;Xn de variables aléatoires discrètes est indépendante si et


seulement si

f(X1 ;:::;Xn ) (x1 ; : : : ;xn ) = fX1 (x1 )    fXn (xn ); 8(x1; : : : ;xn) 2 Rn:
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 37

Démonstration. L’affirmation suit immédiatement des identités

f(X1 ;:::;Xn ) (x1 ; : : : ;xn ) = P(X1 = x1 ; : : : ; Xn = xn );


fX1 (x1 )    fXn (xn ) = P(X1 = x1 )    P(Xn = xn );
et du Lemme 2.3.

2.4 Espérance, variance, covariance et moments


2.4.1 Espérance
On répète N fois une expérience, obtenant ainsi les résultats numériques x1 ; : : : ; x N . La
moyenne de ces résultats est donnée par
N
1X X N (x)
m= xi = x;
N i=1 x2E N

où l’on a noté E l’ensemble des valeurs possibles (supposé discret) et N (x) le nombre d’expé-
riences ayant donné le nombre x. Supposons qu’on modélise cette expérience par une famille
X1 ; : : : ;Xn de variables aléatoires discrètes indépendantes de même fonction de masse f . On
s’attend alors à ce que, pour chaque valeur x 2 E , la fraction N (x)=N soit proche de la proba-
P
bilité f (x). Par conséquent, x2E xf (x) devrait fournir une approximation asymptotiquement
correcte de m ; on appelle la quantité correspondante espérance.

Définition 2.8. Soit X une variable aléatoire discrète et soit fX sa fonction de masse. On
dit que X admet une espérance si
X
jxjfX (x) < 1:
x2 X ( )

Dans ce cas on définit l’espérance de X par


X
E(X ) = xfX (x):
x 2X ( )

Remarque 2.2. La condition d’absolue sommabilité est importante : elle garantit que
l’espérance ne dépend pas de l’ordre dans lequel les termes sont sommés.
La seule exception est lorsque la variable aléatoire possède un signe bien défini. Dans
ce cas, si cette dernière n’est pas absolument sommable, on définit l’espérance comme
étant égale à +1, resp. 1, pour une variable aléatoire positive, resp. négative.

Remarque 2.3. Si l’espace de probabilité sous-jacent est caractérisé par la fonction de


masse f , on peut écrire
X X X X
E(X ) = xfX (x) = x f (!) = X (!)f (!) : (2.1)
x2X ( ) x 2X ( ) !2 !2
X (!)=x

Remarque 2.4. On utilise souvent l’espérance pour déterminer si un jeu est équitable :
si X représente le gain à la fin du jeu (donc une perte s’il est négatif ), alors l’espérance
donne le gain moyen.
Par exemple, considérons le jeu suivant : on lance un dé (équilibré) et on reçoit n CHF
si le dé indique n. Dans ce cas, le joueur va recevoir en moyenne 3;5 CHF. Le jeu lui sera
38 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

donc favorable si sa mise initiale est inférieure à ce montant et défavorable si elle lui est
supérieure.
On pourrait être tenté de dire plus généralement qu’un jeu vaut la peine d’être joué si
E(X ) > 0 puisqu’en moyenne on gagne plus qu’on ne perd. Il faut cependant se méfier de
cette intuition.
Considérons le jeu suivant (très discuté au début du XVIIIème siècle) : on jette une
pièce de monnaie jusqu’à l’apparition du premier « face » ; si cela a lieu au T ème lancer,
votre gain sera de 2T francs. Quelle serait une mise équitable ? On vérifie facilement que
l’espérance est infinie, et que, par conséquent, le jeu est favorable au joueur quelle que
soit sa mise initiale ! C’est le célèbre paradoxe de Saint-Pétersbourg.
Le résultat élémentaire suivant est extrêmement utile.
Lemme 2.7. Soit A;B  . Alors, P(A) = E(1A ) et P(A \ B ) = E(1A 1B ).
Démonstration. Laissée en exercice.
Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire discret et ' : Rn ! R. Dans ce cas, '(X) définit
une variable aléatoire discrète. Le résultat suivant permet de déterminer aisément son espérance.
Lemme 2.8. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire discret et ' : Rn ! R. Alors,
X
E('(X)) = '(x)fX (x);
2
x X( )

dès que cette somme est absolument convergente.


Démonstration. Notons E = X( ), F = '(E ) et Y = '(X). On a
X X
E(Y ) = y P( Y = y ) = y P('(X) = y)
y 2F y 2F
X X X
= y P(X 2 ' 1 (y)) = P(X = x) y
y 2F 2' 1 (y) y 2F x
X X
= y P(X = x) = '(x) P(X = x):
y2F;x2E x 2E
'(x)=y
Observez que la convergence absolue de la série est cruciale pour pouvoir réorganiser les termes
comme on l’a fait.
Lemme 2.9 (Linéarité de l’espérance). Soient X , Y des variables aléatoires possédant une
espérance. Alors, Pour tout ; 2 R, X + Y possède une espérance et

E( X + Y)= E(X ) + E(Y ):

Démonstration. Soient E = X ( ), F = Y ( ), on appliquant le Lemme 2.8 au vecteur aléatoire


(X;Y ) et à la fonction ' : (X;Y ) 7! j X + Y j on peut écrire :
X
E(j X + Y j) = j x + yjP(X = x;Y = y)
x2E;y2F
X X X X
j j jxj P(X = x; Y = y ) + j j jyj P( X = x; Y = y )
x2E y 2F y 2F x2 E
X X
=j j jxjP(X = x) + j j jyjP(Y = y)
x2E y 2F
=j jE(jX j) + j jE(jY j) < 1:
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 39

Loi Espérance Variance


Bernoulli (p) p p(1 p)
Binomiale (n;p) np np(1 p)
Poisson ()  
Géométrique (p) 1=p (1 p)=p2
Hypergéométrique (N;b;n) bn=N nb(N b)(N n)=(N 3 N 2 )
Pascal (r;p) r(1 p)=p. r(1 p)=p2
Table 2.1: L’espérance et la variance de quelques lois discrètes importantes, en fonction de leurs para-
mètres.

X + Y possède donc une espérance. En répétant le même calcul sans les valeurs absolues, on
obtient le résultat.

Exemple 2.6. On désire trouver le nombre a 2 R qui approxime le mieux une variable aléatoire
X dans le sens qu’il rend la quantité E((X a)2 ) minimale. On a

E((X a)2 ) = E(X 2 ) 2aE(X ) + a2 :


En dérivant, on voit que la valeur de a réalisant le minimum satisfait 2E(X ) + 2a = 0, ce qui
implique que a = E(X ). }
Exemple 2.7. On appelle triangle d’un graphe, un triplet de sommets x;y;z tels que x  y , y  z
et z  x. Quel est l’espérance du nombre de triangles K4 dans le graphe aléatoire G (n;m) ? Il
suit de la linéarité et du Lemme 2.7 que
X  X
E(K4 ) = E 1fxy;yz;z xg = P(x  y; y  z; z  x):
x;y;z x;y;z
distincts distincts

Comme P(x  y; y  z; z  x) = N 3= N n


m 3 m et que le nombre de termes dans la somme est 3 ,
on en conclut que !
n m(m 1)(m 2)
E(K4 ) = :
3 N (N 1)(N 2)
}
Donnons à présent l’espérance pour les lois introduites plus tôt dans ce chapitre. Observez
que l’espérance E(X ) ne dépend que de la loi de la variable aléatoire X ; on peut donc parler
sans ambiguïté de l’espérance d’une loi.
Lemme 2.10. La table 2.1 donne la valeur de l’espérance pour diverses lois, en fonction
de leurs paramètres.
Démonstration. 1. Loi de Bernoulli. L’espérance d’une variable aléatoire X suivant une
loi de Bernoulli de paramètre p sur f0;1g est immédiate à calculer :

E(X ) = 1  p + 0  (1 p) = p:
2. Loi binomiale. La façon la plus simple de calculer l’espérance d’une variable aléatoire X
suivant une loi binomiale de paramètres n et p est d’utiliser le Lemme ??, point 1. On peut
en effet écrire X = X1 + : : : + Xn , où les Xi sont des variables de Bernoulli. En d’autres
termes, on exprime X comme le nombre total de succès après n épreuves de Bernoulli. On
a alors
Xn
E(X ) = E(Xi ) = np:
i=1
40 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

3. Loi de Poisson. L’espérance d’une variable aléatoire X suivant une loi de Poisson est
donnée par
1 k
X 1
X k 1
E(X ) = k e  = e  = :
k=0 k! k=1 (k 1)!
4. Loi géométrique. L’espérance d’une variable aléatoire X de loi géométrique est donnée
par la série
1
X
E(X ) = kp(1 p)k 1 :
k=1
Pour en calculer la somme, introduisons la fonction
1
X x
G(x) = xk = :
k=1 1 x
Cette série converge absolument lorsque jxj < 1, et, dans ce cas, il est possible d’inter-
changer sommation et dérivation. Par conséquent,

1 1
X
G0 ( x) = = kxk 1 :
(1 x)2 k=1
On a donc
1 1
E(X ) = p G0 (1 p) = p = :
p2 p
5. Loi hypergéométrique. Nous calculerons l’espérance d’une variable hypergéométrique
dans l’Exemple 3.2.
6. Loi de Pascal. Si X suit une loi de Pascal de paramètres r et p, on peut la décomposer
en X + r = X1 +    + Xr , où les Xi suivent chacun une loi géométrique de paramètre p.
Par exemple, pour r = 7 (les ronds blancs représentent les échecs, les noirs les succès) :
X +7

X1 X2 X3 X4 X5 X6 X7
On a donc
r
X r 1 p
E(X ) = E(X + r) r = E(Xi ) r= r= r:
i=1 p p

Exemple 2.8. 1. On vous propose le jeu suivant : on vous tend deux enveloppes en vous
informant que le montant contenu dans l’une est le double du montant contenu dans
l’autre, et vous devez en choisir une. Expliquez en quoi le raisonnement suivant est faux :
soit X le montant contenu dans l’enveloppe que vous avez décidé de tirer ; l’espérance de
vos gains si vous changez d’avis est de 12  X=2 + 12  2X = 54 X > X , et donc vous feriez
mieux de choisir l’autre enveloppe (et bien sûr, on peut alors répéter cet argument une
fois que vous avez choisi l’autre enveloppe).
2. On vous présente deux enveloppes contenant chacune un papier sur lequel est inscrit un
nombre entier (positif ou négatif) ; les deux nombres sont arbitraires, mais distincts. Vous
gagnez si vous parvenez à tirer le nombre le plus grand. Vous pouvez choisir une des
enveloppes et l’ouvrir, et ensuite décider si vous préférez garder l’enveloppe choisie, ou
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 41

prendre plutôt l’autre. Montrez qu’il existe un algorithme de décision (changer ou non
d’enveloppe en fonction du nombre découvert) qui vous permet de choisir le plus grand
nombre strictement plus d’une fois sur deux (dans le sens que si une infinité de personnes
appliquaient toutes cette stratégie pour la même paire de nombres, alors la fraction de
bonnes réponses serait strictement supérieure à 1=2).
}
Le résultat élémentaire suivant se révèle parfois utile.
Lemme 2.11. Soit X une variable aléatoire à valeurs dans N. Alors,
X
E(X ) = P(X > n):
n0
Démonstration. Il suffit d’observer que
X X m
X1 X 1
X X
E(X ) = mP(X = m) = P(X = m) = P( X = m) = P(X > n):
m1 m1 n=0 n0 m=n+1 n0

Définition 2.9. Une fonction ' : R ! R est convexe si et seulement si : 8x 2 R; 9a 2 R :


8y 2 R; '(y)  '(x) + a(y x). Si l’inégalité est toujours stricte lorsque y 6= x, alors on dit
que ' est strictement convexe .

Théorème 2.1 (Inégalité de Jensen5 ). Soient X une variable aléatoire admettant une espé-
rance et ' : R ! R une fonction convexe. Alors

E('(X ))  '(E(X )):

De plus, lorsque ' est strictement convexe, il y a égalité si et seulement si X est une
variable aléatoire constante.

Démonstration. Il suit de la définition de la convexité de ', avec x = E(X ), qu’il existe a 2 R


tel que, pour tout y 2 R,
'(y)  '(E(X )) + a(y E(X )):
Il suit donc du Lemme 2.8 que
X
E('(X )) = '(y)fX (y)  '(E(X )) + a(E(X ) E(X )) = '(E(X )):
y 2X ( )

5. Johan Ludwig William Valdemar Jensen (1859, Naksov – 1925, Copenhague), mathématicien et ingénieur
danois.
42 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

Noter qu’un corollaire immédiat de l’inégalité de Jensen est :

E(jX j)  jE(X )j:

2.4.2 Variance, moments d’ordres supérieurs


Définition 2.10. On appelle E(X n ) le moment d’ordre n de la variable aléatoire X , pourvu
que cette espérance soit bien définie.

Remarque 2.5. Si une variable aléatoire possède un moment d’ordre n, alors elle possède
également tous les moments d’ordre 1  k < n. En effet, l’inégalité de Jensen implique
que
1 > E(jX jn) = E (jX jk )n=k   E(jX jk )n=k ;
puisque la fonction x 7! xn=k est convexe lorsque n  k.
Remarque 2.6. En général, même la donnée de tous les moments d’une variable aléatoire
ne suffit pas pour déterminer sa loi. C’est le cas si cette variable aléatoire possède certaines
bonnes propriétés, que nous ne discuterons pas ici. Mentionnons simplement la condition
suffisante suivante : deux variables aléatoires X et Y satisfaisant E(eX ) < 1 et E(eY ) <
1, 8 2 R, et telles que E(X n) = E(Y n), pour tout n 2 N, ont la même loi.
Une quantité particulièrement importante est la variance. Si l’espérance donne la valeur moyenne
de la variable aléatoire, la variance (ou plutôt sa racine carrée, l’écart-type) mesure sa dispersion.

Définition 2.11. Soit X une variable aléatoire dont l’espérance existe. On appelle variance
de X la quantité  2 
Var(X ) = E X E(X )

(la
p
variance de X peut être infinie). On appelle écart-type de X la quantité (X ) =
Var(X ).

Lemme 2.12. Var(X )  0, et Var(X ) = 0 si et seulement si P(X = E(X )) = 1.


1.
2. Var(X ) < 1 si et seulement si E(X 2 ) < 1.
3. Si Var(X ) < 1, alors Var(X ) = E(X 2 ) (E(X ))2 .
4. Pour a;b 2 R, Var(a + bX ) = b2 Var(X ).
5. Si Var(X ) < 1 et Var(Y ) < 1, alors Var(X + Y ) < 1.

Démonstration. Nous ne démontrerons que deux des affirmations, les autres étant immédiates.
Preuve de 2. Soit Z une variable aléatoire telle que E(Z 2 ) < 1. Alors, pour tout a 2 R,
   9
E (Z a)2 = E (Z a)2 1fjZ j<2jajg + E (Z a)2 1fjZ j2jajg  9a2 + E(Z 2 ) < 1:
4
En prenant Z=X a = E(X ), on obtient que E(X 2 ) < 1 =) Var(X ) < 1.
et
En prenant Z=X E(X ) et a = E(X ), on obtient que Var(X ) < 1 =) E(X 2 ) < 1.
Preuve de  = X E(X ) et Y = Y E(Y ). Comme (a + b)2  2(a2 + b2 ), pour tout
5. Soit X
a;b 2 R, on peut écrire

Var(X + Y ) = E (X + Y )2  2E(X 2 ) + 2E(Y 2 ) = 2Var(X ) + 2Var(Y ) < 1:
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 43

Le résultat suivant, très utile et dont nous verrons des extensions plus tard, montre un sens dans
lequel la variance contrôle les fluctuations d’une variable aléatoire autour de son espérance.

Lemme 2.13 (Inégalité de Bienaymé6 -Tchebychev7 ).

X)
P X E(X )  a  Var(
a2 ; 8a > 0: (2.2)

Démonstration. Notons X = X E(X ). Il suffit d’observer que

Var(X ) = E X 2  E X 21fX 2a2g  a2 P(X 2  a2) = a2 P(jX E(X )j  a):

Il n’est pas difficile de déterminer la variance des lois introduites plus haut.
Lemme 2.14. La table 2.1 donne les variances des principales lois introduites précédem-
ment.
Démonstration. 1. Loi de Bernoulli. La variance d’une variable aléatoire X suivant une loi
de Bernoulli de paramètre p sur f0;1g est immédiate à calculer :

Var(X ) = E(X 2 ) E(X )2 = 1  p + 0  (1 p) p2 = p(1 p):


2. Loi binomiale. Voir l’Exemple 2.10.
3. Loi de Poisson. Une façon de calculer la variance d’une variable aléatoire X suivant une
loi de Poisson est la suivante.
 1
X k X1 k 2
E X (X 1) = k(k 1) e  = e  2 = 2 :
k=0 k! k=2 ( k 2)!

Par conséquent, E(X 2 ) E(X )2 = E X (X 1) E(X )2 + E(X ) = .
4. Loi géométrique. Le second moment d’une variable aléatoire X de loi géométrique est
donné par la série
1
X
E(X 2 ) = k2 p(1 p)k 1 :
k=1
Pour en calculer la somme, on procède comme pour l’espérance, en introduisant la fonction
1
X x
G(x) = xk = ;
k=1 1 x

G00 (x) = (1 2x)3 = 1


P k 2 . Par conséquent,
et en utilisant le fait que k=1 k(k 1) x
1 1 1 p
Var(X ) = p(1 p)G00 (1 p) + = :
p p2 p2
5. Loi hypergéométrique. Voir l’Exemple 3.2.
6. Loi de Pascal. Voir l’Exemple 2.10.

6. Irénée-Jules Bienaymé (1796, Paris - 1878, Paris), probabiliste et statisticien français.


7. Pafnouti Lvovitch Tchebychev (1821, Okatovo - 1894, Saint-Petersbourg), mathématicien russe. Son nom
est aussi translittéré comme Chebyshov, Chebyshev, ou Tschebyscheff.
44 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

2.4.3 Covariance et corrélation


En général, Var(X + Y ) 6= Var(X ) + Var(Y ) : en effet, un bref calcul montre que

Var(X + Y ) = Var(X ) + Var(Y ) + 2 E (X E(X ))(Y E(Y )) :
Ceci motive la définition suivante.

Définition 2.12. On appelle covariance de deux variables aléatoires X et Y la quantité



Cov(X;Y ) = E (X E(X ))(Y E(Y ))
= E(XY ) E(X )E(Y ):
En particulier,
Var(X + Y ) = Var(X ) + Var(Y ) + 2 Cov(X;Y ):
Deux variables aléatoires X et Y sont non-corrélées si Cov(X;Y ) = 0 ; dans ce cas, on a
Var(X + Y ) = Var(X ) + Var(Y ).
Attention : la variance n’est pas un opérateur linéaire, même restreint aux variables aléatoires
non-corrélées (se souvenir que Var(aX ) = a2 Var(X )).

Lemme 2.15. 1. Cov(X;Y ) = Cov(Y;X ).


2. La covariance est une forme bilinéaire : pour a;b 2 R,
Cov(aX;bY ) = a b Cov(X;Y );
Cov(X1 + X2 ;Y ) = Cov(X1 ;Y ) + Cov(X2 ;Y ):
3. Pour des variables X1 ; : : : ;Xn , on a
n
X n
X X
Var( Xi ) = Var(Xi ) + Cov(Xi ;Xj ):
i=1 i=1 i6=j

Démonstration. Laissée en exercice.

En statistiques, une autre quantité est souvent utilisée pour mesurer la corrélation entre deux
variables aléatoires, ayant l’avantage de ne pas changer si les variables aléatoires X et Y sont
multipliées par des coefficients positifs (en particulier, si on change d’unités).

Définition 2.13. On appelle coefficient de corrélation de deux variables aléatoires X et Y


de variances non-nulles la quantité

Cov(X;Y )
(X;Y ) = p :
Var(X )Var(Y )

Théorème 2.2 (Inégalité de Cauchy-Schwarz).

E(XY )2  E(X 2)E(Y 2);


avec égalité si et seulement si P(aX = bY ) = 1 pour des réels a et b dont au moins un est
non nul.
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 45

Démonstration. On peut supposer que E(X 2 ) 6= 0 et E(Y 2 ) 6= 0 (sinon la variable aléatoire


correspondante est égale à 0 avec probabilité 1, et le théorème est trivial). Fixons b 2 R n f0g.
Dans ce cas, on a, pour tout a 2 R,
a2 E(X 2 ) 2abE(XY ) + b2 E(Y 2 ) = E((aX bY )2 )  0:
Par conséquent, le membre de gauche est une fonction quadratique de la variable a s’annulant
en au plus un point. Ceci implique que son discriminant doit être négatif ou nul, c’est-à-dire
E(XY )2 E(X 2 )E(Y 2 )  0:
Le discriminant est nul si et seulement si il y a un unique zéro, ce qui ne peut avoir lieu que s’il
existe a 2 R tels que
E((aX bY )2 ) = 0:

Il suit de ce théorème que la valeur absolue du coefficient de corrélation est égal à 1 si et


seulement si il existe une relation linéaire entre les variables aléatoires.
Corollaire 2.1.
j(X;Y )j  1;
avec égalité si et seulement si P(Y = aX + b) = 1 pour des réels a et b.
Démonstration. Il suffit d’appliquer l’inégalité de Cauchy-Schwarz aux variables aléatoires X
E(X ) et Y E(Y ).
Considérons deux quantités aléatoires (par exemple des résultats de mesures), et supposons que
l’on cherche à résumer la relation qui existe entre ces dernières à l’aide d’une droite. On parle
alors d’ajustement linéaire. Comment calculer les caractéristiques de cette droite ? En faisant en
sorte que l’erreur que l’on commet en représentant la liaison entre nos variables par une droite
soit la plus petite possible. Le critère formel le plus souvent utilisé, mais pas le seul possible,
est de minimiser la somme de toutes les erreurs effectivement commises au carré. On parle alors
d’ajustement selon la méthode des moindres carrés. La droite résultant de cet ajustement
s’appelle une droite de régression. Le résultat suivant montre que le coefficient de corrélation
mesure la qualité de la représentation de la relation entre nos variables par cette droite.
Lemme 2.16. Pour toute paire de variables aléatoires X et Y , on a
 
min E (Y aX b)2 = (1 (X;Y )2 ) Var(Y );
a;b2R

et le minimum est atteint pour a = Cov(X;Y )=Var(X ) et b = E(Y aX ).


Démonstration. En écrivant, comme d’habitude, X = X E(X ) et Y = Y E(Y ), on a
   
E (Y aX b)2 = E (Y aX b)2 ;
où on a posé b = b + aE(X ) E(Y ). On vérifie alors aisément que
 
E (Y aX b)2 = a2 E(X 2 ) 2aE(X Y )+ E(Y 2 )+b2 = a2 Var(X ) 2aCov(X;Y )+Var(Y )+b2 ;
et le membre de droite est minimum lorsque b = 0, c’est-à-dire b = E(Y ) aE(X ), et
Cov(X;Y )
a= :
Var(X )
46 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

Exemple 2.9. En physiologie, la loi de Kleiber 8 affirme que le métabolisme M d’un animal et
son poids P satisfont la relation
M /P ;
avec souvent proche de 3=4 (alors que des arguments simples de dimensionalité suggéreraient
plutôt 2=3). Afin de vérifier qu’une telle relation est valide pour une population donnée, on peut
procéder comme suit : puisque

M  aP () log M  log a + log P;


on se ramène, en posant X = log M et Y = log P , à vérifier qu’il y a une relation linéaire entre
X et Y . Concrètement, on estime, à partir d’un échantillon, les paramètres a et , ainsi que le
coefficient de corrélation (X;Y ). Ce dernier permet alors de mesurer la qualité de l’approxima-
tion linéaire ainsi obtenue. (Comment estimer ces paramètres à partir d’un échantillon relève de
la Statistique ; nous étudierons ce type de problèmes dans le Chapitre ??.) }
2.4.4 Extension aux vecteurs aléatoires
Les notions d’espérance et de covariance s’étendent de façon naturelle aux vecteurs aléatoires.

Définition 2.14. L’espérance du vecteur aléatoire X = (X1 ; : : : ;Xn ) est le vecteur E(X) =
(E(X1 ); : : : ;E(Xn )), à condition que chacune de ces espérances existe.

Définition 2.15. Soient X = (X1 ; : : : ;Xn ) et Y = (Y1 ; : : : ;Yn ) deux vecteurs aléatoires. Leur
matrice de covariance est la matrice n  n Cov(X;Y) dont l’élément i;j est donné par

Cov(Xi ;Yj );
pour 1  i;j  n.

2.4.5 Absence de corrélation et indépendance


Voyons à présent quel est le lien entre indépendance et absence de corrélation.

Lemme 2.17. Deux variables aléatoires indépendantes dont l’espérance existe sont non-
corrélées.
P P
En particulier, si X1 ; : : : ;Xn sont 2 à 2 indépendantes, Var( ni=1 Xi ) = ni=1 Var(Xi ).

Démonstration. On applique le Lemme 2.8 avec la fonction ' : R2 ! R, '(x;y) = xy. Cela
donne
X
E(XY ) = E('(X;Y )) = '(x;y)f(X;Y ) (x;y)
x2X ( );y2Y ( )
X
= '(x;y)fX (x)fY (y)
x2X ( );y2Y ( )
X
= xyfX (x)fY (y) = E(X )E(Y ):
x2X ( );y2Y ( )

8. Max Kleiber (1893, Zürich – 1976, Davis), biologiste suisse.


2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 47

Exemple 2.10. 1. Loi binomiale. On a vu qu’une variable aléatoire X suivant une loi bino-
miale de paramètres n et p pouvait s’écrire X = X1 +    + Xn , où les Xi sont des variables
de Bernoulli indépendantes de paramètre p. On obtient donc immédiatement que

Var(X ) = np(1 p):

2. Loi de Pascal. On a également vu qu’une variable aléatoire X suivant une loi de Pascal
de paramètres r et p pouvait s’écrire X + r = X1 +    + Xr , où les Xi sont des variables
géométriques indépendantes de paramètre p. On obtient donc immédiatement que

1 p
Var(X ) = Var(X + r) = r :
p2
}
Nous avons vu que deux variables aléatoires indépendantes sont toujours non-corrélées. La ré-
ciproque est fausse en général, comme le montre l’exemple suivant.
Exemple 2.11. Considérons = f 1;0;1g avec la distribution uniforme. Soient X (! ) = !
et Y (! ) = j! j deux variables aléatoires. Alors, E(X ) = 0, E(Y ) = 2=3 et E(XY ) = 0. Par
conséquent X et Y sont non-corrélées. Elles ne sont par contre manifestement pas indépendantes.
}
Dire que X et Y sont indépendants est donc strictement plus fort en général que de demander
à ce que E(XY ) = E(X )E(Y ). Le résultat suivant montre comment il faut renforcer cette dernière
propriété pour obtenir l’indépendance.

Lemme 2.18. Soit (Xi )i2I une famille de variables aléatoires discrètes. Les propositions
suivantes sont équivalentes :
1. (Xi )i2I est indépendante ;
2. 8'i : R ! R telles que 'i (Xi ), i 2 I , admette une espérance,
Y  Y
E 'i (Xi ) = E('i (Xi ));
i2 J i 2J
pour tout J I fini.

Démonstration. 1. =) 2. Cela suit immédiatement du Lemme 2.8 et de la factorisation de


la fonction de masse conjointe : pour tout J = fi1 ; : : : ; in g  I ,
Y  X
E 'i (Xi ) = z'i1 (xi1 )    'in (xin ) f(Xi1 ;:::;Xin ) (xi1 ; : : : ;xin )
i 2J xi 2Xi ( )
i 2J
X
= 'i1 (xi1 )    'in (xin ) fXi1 (xi1 )    fXin (xin )
xi 2Xi ( )
i 2J
Y
= E('i (Xi )):
i 2J

2. =) 1. En appliquant 2. à 'i (y ) = 1fy2Ai g , on obtient


Y  Y Y
P(Xi 2 Ai; 8i 2 J ) = E 1fXi 2Ai g = E(1fXi 2Ai g ) = P(Xi 2 Ai):
i 2J i2 J i2 J
48 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES

2.4.6 Une première version de la loi des grands nombres


Nous avons motivé l’espérance comme étant une approximation de la moyenne des résultats
obtenus en mesurant X lors d’une suite d’expériences aléatoires. Nous allons à présent rendre
cela un peu plus précis.
Définition 2.16. Soient X1 ;X2 ; : : : ; Xn une famille de variables aléatoires. Leur moyenne
empirique est la variable aléatoire
n
1X
Xn = Xi :
n i=1
Nous pouvons à présent démontrer une première version de la loi des grands nombres.

Théorème 2.3 (Loi faible des grands nombres). Soient X1 ; : : : ;Xn des variables aléatoires
non-corrélées, de même espérance  et de même variance  2 < 1. Alors, pour tout  > 0,

2
P(jX
n j  ) :
2 n
En particulier, limn!1 P(jXn j  ) = 0, pour tout  > 0.
Démonstration. Les variables aléatoires Xi étant non-corrélées, il est facile de déterminer la
variance de Sn :
n
1X  n
1 X 2
Var(Xn ) = Var Xi = Var(Xi ) = :
n i=1 i=1 n2 n
Le résultat suit donc de l’inégalité de Bienaymé-Tchebychev (2.2) :

Var(Xn ) 2
P(jX
n j  )  = :
2 2 n

Exemple 2.12. On effectue 10 000 lancers d’une pièce de monnaie équilibrée. Afin de travailler
avec des variables centrées, on encode le résultat du kème jet par une variable Xk telle que
P(Xk = 1) = P(Xk = 1) = 12 (au lieu de 0 et 1). La loi faible des grands nombres énoncée
n 2 [ ; ] avec grande probabilité lorsque n est suffisamment grand.
ci-dessus affirme que X
L’estimée dans la preuve du théorème nous donne

P jXnj    n1 2 :
Par exemple, pour 10 000 jets et  = 0;1, on a
1
P(jX
10 000 j  0;1)  :
100
Notez que ce n’est qu’une borne supérieure sur cette probabilité. On verra plus tard qu’elle est
très pessimiste dans le cas présent (on montrera en effet que P(jX
10 000 j  0;1)  3;5  10 22 ). }
Remarque 2.7 (Lien avec l’approche fréquentiste). Ce qu’affirme la loi faible des grands
nombres, c’est que pour une précision  donnée, la probabilité que l’espérance et la moyenne
empirique diffèrent de plus de  peut être rendue aussi petite que l’on désire en considérant
un échantillon suffisamment grand. En ce sens, elle justifie à posteriori l’axiomatique
de la théorie de probabilités, en faisant le lien avec la notion intuitive de fréquence de
réalisation d’un événement. En effet, considérons une expérience aléatoire, décrite par
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 49

un espace de probabilité ( ;P), que l’on répète N fois, de façon indépendante, obtenant
une suite de résultats (!1 ;!2 ; : : : ;!N ). Alors, pour tout événement A, les variables aléatoires
Yk (!1 ; : : : ;!N ) = 1A (!k ) sont
PN
i.i.d., avec E(Yk ) = P(A). Par conséquent, si l’on note N (A) =
# f1  k  N : !k 2 Ag = k=1 Yk le nombre d’expériences lors desquelles l’événement A
est réalisé, on a, pour tout  > 0,

N (A) 1 N
X
lim P
N !1 N
P(A)   = Nlim P Y
!1 N k=1 k
E(Y1 )   = 0;
ce qui est parfaitement en accord avec l’interprétation fréquentiste des probabilités.

Nous reviendrons sur la loi des grands nombres, ainsi que sur des résultats plus précis
concernant le comportement asymptotique de la moyenne empirique, au chapitre 6.
Chapitre 3

Fonctions génératrices

3.1 Définition, propriétés


Soit a = (ai )1
i=0 une suite de nombres réels. On appelle fonction génératrice de la suite a
la fonction définie par
1
X
Ga (s) = ai si pour les s 2 C tels que la série converge.
i=0
Rappelons quelques propriétés de base de ce type de fonctions.
Convergence. Il existe un rayon de convergence 0  R  1 tel que la série converge
absolument si jsj < R et diverge si jsj > R. La série est uniformément convergente sur
les ensembles de la forme fs : jsj  R0 g, quel que soit R0 < R.
Différentiation. Ga (s) peut être dérivée ou intégrée terme à terme un nombre arbitraire
de fois, tant que jsj < R.
Unicité. S’il existe 0 < R0  R tel que Ga (s) = Gb (s) pour tout jsj < R0 , alors an = bn
pour tout n. De plus,
1
an = G(an) (0):
n!
Continuité. (Théorème d’Abel) Si ai  0 pour tout i, et Ga (s) est finie pour jsj < 1,
alors lims"1 Ga (s) = 1
P
i=0 ai , que cette somme soit finie ou égale à +1. (Ce résultat est
particulièrement utile lorsque le rayon de convergence R est égal à 1.)
Étant donnée une variable aléatoire X à valeurs dans N, la fonction de masse de X donne
lieu à la suite (fX (k))1
k=0 ; on va s’intéresser à la fonction génératrice qui lui est associée.
Définition 3.1. Soit X une variable aléatoire à valeurs dans N. On appelle fonction géné-
ratrice de X la fonction GX : C ! C donnée par la série entière
1
X
GX (s) = E(sX ) = sk fX (k):
k=0
Remarque 3.1. Puisque GX (1) = E(1) = 1, il suit que le rayon de convergence R de GX
est toujours supérieur ou égal à 1.

Exemple 3.1. 1. Variable aléatoire constante. Si P(X = c) = 1, alors GX (s) = sc .


2. Loi de Bernoulli. Si P(X = 1) = p et P(X = 0) = 1 p, on a
GX (s) = (1 p) + ps:
51
52 CHAPITRE 3. FONCTIONS GÉNÉRATRICES

3. Loi binomiale. Pour une loi binomiale de paramètres n et p, la formule du binôme implique
que
Xn n!
GX (s) = pk (1 p)n k sk = ((1 p) + ps)n :
k=0 k
4. Loi de Poisson. Pour X suivant une loi de Poisson de paramètre , on obtient
1
X k  k (s
GX (s) = e s =e 1) :
k=0 k!
5. Loi géométrique. Pour X suivant une loi géométrique de paramètre p, on a
1
X ps
p(1 p)k 1 sk = :
k=1 1 (1 p)s
}
Le théorème d’Abel fournit une technique efficace pour calculer les moments de X ; par exemple
(k) (k )
(GX (1) devant s’interpréter comme lims"1 GX (s) lorsque R = 1)
1
X
G0X (s) = ksk 1 fX (k) =) G0X (1) = E(X );
k=0
1
X
G00X (s) = k(k 1)sk 2 fX (k) =) G00X (1) = E(X (X 1));
k=0
1
X
G(X`) (s) = k    (k ` + 1)sk ` fX (k) =) G(X`) (1) = E(X    (X ` + 1)):
k=0
On a donc en particulier le résultat suivant.
Proposition 3.1. Si GX (s) est la fonction génératrice de X , alors
E(X ) = G0X (1); Var(X ) = G00X (1) + G0X (1) G0X (1)2 ;
les expressions dans les membres de droite devant être compris comme des limites s"1
lorsque le rayon de convergence de GX est égal à 1.
Exemple 3.2. Espérance et variance de la loi hypergéométrique. La formule du binôme montre
que la fonction génératrice d’une variable hypergéométrique X de paramètres N , n et b,
! ! !
^n
bX b N b . N
GX (s) = sk ;
k=(n r)_0 k n k n
est précisément le coefficient de xn du polynôme
!
. N
Q(x;s) = (1 + sx)b (1 + x)N b :
n
Il suit que la moyenne de X coïncide avec le coefficient de xn de
!
@Q . N
(x;1) = xb(1 + x)N 1 ;
@s n
et est donc donnée par G0X (1) = bn=N . Similairement, on trouve que la variance de X est égale
à nb(N b)(N n)=(N 3 N 2 ). }
3.1. DÉFINITION, PROPRIÉTÉS 53

Remarque 3.2. En général, si l’on désire calculer les moments d’une variable aléatoire
X , il se révèle avantageux de travailler avec la fonction génératrice des moments de X ,
qui est définie par
MX (t) = GX (et );
pourvu que et < R, le rayon de convergence de GX . En effet, on a alors
1
X 1 X
X 1 (tk)n
MX (t) = etk P(X = k) = P(X = k)
k=0 k=0 n=0 n!
X1 tn  X1  X1 tn
= k n P( X = k ) = E(X n ):
n=0 n ! k=0 n=0 n!

Les moments de X peuvent donc être aisément obtenus en différentiant MX (t) :


(n)
E(X n ) = MX (0):

Les fonctions génératrices se révèlent particulièrement utiles dans l’analyse de sommes de va-
riables aléatoires.

Proposition 3.2. Soient X1 ; : : : ;Xn des variables aléatoires indépendantes à valeurs dans
N. Alors la fonction génératrice de Sn = X1 +    + Xn est donnée par

GSn (s) = GX1 (s)    GXn (s):


Démonstration. En utilisant le Lemme 2.18, on a

GSn (s) = E(sX1 ++Xn ) = E(sX1    sXn ) = E(sX1 )    E(sXn ):

Exemple 3.3. Loi de Pascal. On peut à présent calculer aisément la fonction génératrice d’une
variable de Pascal X de paramètres r et p. En effet, celle-ci peut se décomposer en X + r =
X1 +    + Xr , où les Xi sont des variables géométriques de paramètre p indépendantes, et on
a donc
 p r
GX (s) = s r GX +r (s) = s r GX1 (s) r = :
1 (1 p)s
}
Exemple 3.4. Soient X et Y deux variables aléatoires indépendantes, suivant des lois binomiales
de paramètres m et p, et n et p, respectivement. Alors

GX +Y (s) = GX (s)GY (s) = ((1 p) + ps)m ((1 p) + ps)n = ((1 p) + ps)m+n ;


et donc X + Y suit une loi binomiale de paramètres m + n et p.
Similairement, si X et Y sont deux variables aléatoires indépendantes suivant des lois de
Poisson de paramètre  et , respectivement, alors X + Y suit une loi de Poisson de paramètre
+ :
GX +Y (s) = e(s 1) e(s 1) = e(+)(s 1) :
De même, on vérifie facilement que si X et Y sont des variables aléatoires indépendantes
suivant des lois de Pascal de paramètres r1 et p, et r2 et p, alors X + Y suit une loi de Pascal
de paramètres r1 + r2 et p. }
54 CHAPITRE 3. FONCTIONS GÉNÉRATRICES

Remarque 3.3. Dans cette section, on a toujours supposé que les variables aléatoires pre-
naient valeurs dans N. Il est parfois aussi utile de considérer le cas de variables aléatoires
défectives prenant valeurs dans N [ f+1g. Pour une telle variable aléatoire X , on voit
que GX (s) = E(sX ) converge tant que jsj < 1, et que

X1
lim GX (s) = P(X = k) = 1 P(X = 1):
s"1 k=0
Il n’est bien sûr plus possible d’obtenir les moments de X à partir de GX : ceux-ci sont
tous infinis !
Deuxième partie

Espaces de probabilité généraux

Résumé

Dans cette partie du cours, nous verrons comment traiter les univers infinis non néces-
sairement dénombrables. Pour ce faire, le formalisme général de la théorie des probabilités,
basé sur les axiomes de Kolmogorov, sera introduit.
Chapitre 4

Construction d’espaces de probabilité

Nous allons à présent discuter des espaces de probabilité associés à des univers généraux
(c’est-à-dire, potentiellement non dénombrables). Cette situation est substantiellement plus sub-
tile que celle considérée dans la première partie.
Manifestement, on ne peut en général plus considérer l’approche utilisée dans la première
partie, consistant à construire la mesure de probabilité P à partir de la probabilité des événements
élémentaires. On va donc chercher à définir P directement au niveau des événements généraux.
Quelles sont les propriétés qu’il est naturel d’exiger d’une telle mesure ? Les propriétés suivantes
semblent être le minimum :
. P(A) 2 [0;1] pour tout événement A ;
. normalisation : PS( ) = 1 ; P
. -additivité : P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2
à 2 disjoints.
En effet, si ces propriétés sont satisfaites, alors on retrouve les autres propriétés utilisées abon-
damment dans la première partie, le Corollaire 1.1 restant valide. Une justification supplémen-
taire de l’importance de l’hypothèse de  -additivité est donnée par le lemme suivant, qui montre
qu’elle implique une forme de continuité de P, dont on a vu à plusieurs reprises dans la première
partie de ce cours à quel point elle est désirable.

Lemme 4.1. Supposons l’hypothèse de  -additivité satisfaite. Alors, pour toute suite crois-
sante d’événements A1  A2  A3     , on a

P( lim A ) = nlim
n!1 n !1 P(An );
S
où limn!1 An = n1 An . Similairement, on a, pour toute suite décroissante B1  B2 
B3  ,
P( lim Bn ) = lim P(Bn );
n!1 n!1
T
où limn!1 Bn = n1 Bn .

Démonstration. On peut écrire limn!1 An = A1 [ (A2 n A1 ) [ (A3 n A2 ) [    comme union

57
58 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ

d’une famille d’événements deux-à-deux disjoints. Par conséquent,


X1
P( lim A ) = P (A ) + P(Ai+1 n Ai )
n!1 n 1
i=1
n
X 
= P(A1 ) + nlim
!1 P(Ai+1 ) P(Ai )
i=1

= P(A1 ) + nlim
!1 P(An+1 ) P(A1 )

!1 P(An ):
= nlim
La seconde affirmation suit facilement, puisque la suite des complémentaires (Bic )i1 est crois-
sante. On peut donc appliquer la première partie pour obtenir
\1 [1
P( lim
n!1 n
B ) = P( Bi ) = 1 P( Bic ) = 1 lim P(Bic ) = lim P(Bi ):
i=1 i=1 i!1 i!1

Remarque 4.1. Soit (Ak )k1 une famille d’événements 2 à 2 disjoints. La suite d’événe-
S S
ments Bk = ki=1 Ai est croissante et limk!1 Bk = i1 Ai . Par conséquent, la propriété
de continuité ci-dessus et l’additivité finie de P implique sa  -additivité :

[ k
[ k
X 1
X
P( Ai ) = P( lim Bk ) = lim P(Bk ) = lim P( Ai ) = lim P(Ai ) = P(Ai ):
i1 k!1 k!1 k!1 i=1 k!1 i=1 i=1
P est donc -additive si et seulement si elle est finiment additive et continue (au sens
ci-dessus).

La question qui se pose à présent est de déterminer s’il est toujours possible de construire une
mesure de probabilité P : P ( ) ! R possédant ces trois propriétés. Le lemme suivant montre
que cet espoir est vain.

Lemme 4.2. Soit = f0;1gN l’univers correspondant à une suite infinie de lancers d’une
pièce de monnaie équilibrée. Il n’existe pas d’application P : P ( ) ! [0;1] possédant les
propriétés suivantes :
. P(S) = 1 ; P
. P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2 à 2 dis-
joints ;
. Pour tout A  et n  1, P(Tn A) = P(A), où
Tn : ! = (!1 ;!2 ; : : :) 7! (!1 ; : : : ;!n 1 ;1 !n ;!n+1 ; : : :)
est l’application inversant le résultat du nème lancer.
Remarque 4.2. La troisième condition exprime à la fois l’indépendance des lancers suc-
cessifs et le fait que la pièce est équilibrée.

Remarque 4.3. La preuve de ce lemme repose sur l’axiome du choix (non-dénombrable).


On peut montrer que cela est nécessaire.

Au vu du résultat précédent, il nous faut faire des concessions. Il n’est pas souhaitable de
renoncer aux propriétés énoncées ci-dessus, car cela appauvrirait substantiellement la théorie.
Une autre solution est de renoncer à chercher à définir P sur tous les sous-ensembles de .
59

En effet, l’applicabilité de la théorie ne sera pas diminuée si les sous-ensembles auxquels on


n’associe pas de probabilité sont suffisamment pathologiques. Le fait mentionné précédemment
que la construction de sous-ensembles problématiques, comme celui donné dans la preuve ci-
dessus, requiert l’axiome du choix montre qu’aucun de ceux-ci ne peut être décrit explicitement.
En particulier, leur exclusion n’a aucun impact dans la pratique.

4.0.1 La tribu des événements


La discussion précédente nous conduit donc à restreindre la notion d’événements à une classe
F  P( ). Afin de pouvoir travailler, F doit être stable sous les manipulations habituelles.
Ceci conduit à la définition suivante.

Définition 4.1. Un ensemble F  P ( ) est une tribu sur si elle possède les propriétés
suivantes :
. 2F;
. 8A 2 F , Ac  n A 2 F ; S
. pour toute collection A1 ;A2 ; : : : 2 F , n1 An 2 F .
La paire ( ;F ) est appelée un espace probabilisable.

Définition 4.2. Soit G  P ( ). On appelle tribu engendrée par G , notée  (G ), la plus


petite tribu contenant G , \
(G ) = Fi ;
i 2I
où (Fi ; i 2 I ) est la famille de toutes les tribus sur contenant G (cette famille étant
non-vide puisqu’elle contient toujours P ( )).

Soit = Rn et soit ( )
n
Y
G= [ai ;bi ] : ai < bi ; ai ;bi 2 Q :
i=1
La tribu B n =  (G ) est appelée tribu borélienne sur Rn et les éléments de B n sont appelés les
boréliens de Rn . Observons que B n est un ensemble très riche :
. Bn contient tous les ouverts de Rn . Il suffit en effet d’observer que, si A est un ouvert,
alors on peut trouver, pour tout élément ! 2 A, un ensemble B 2 G tel que ! 2 B  A.
S
Par conséquent, A = B 2G B est une union dénombrable d’éléments de G et appartient
B A
donc à B n .
. Bn contient tous les fermés de Rn (par stabilité de F sous passage au complémentaire).

4.0.2 La mesure de probabilité


On veut à présent associer à chaque événement A 2 F sa probabilité. La définition suivante,
élaborée durant les premières décennies du XXème siècle, est généralement attribuée à Andreï
Kolmogorov.

Définition 4.3. Une mesure de probabilité sur un espace probabilisable ( ;F ) est une
application P : F ! [0;1] telle que
. P(S) = 1, P
. P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2 à 2 dis-
joints.
Le triplet ( ;F ;P) est alors appelé un espace de probabilité.
60 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ

La mesure de Lebesgue sur [0;1].


Soit = [0;1]. On aimerait construire une mesure de probabilité  modélisant le tirage
au hasard, uniformément (c’est-à-dire sans favoriser aucun nombre), d’un élément de [0;1]. En
particulier, ceci implique que la mesure d’un intervalle I = [a;b)  [0;1] arbitraire devrait être
donné par sa longueur b a.
Il est possible de construire une telle mesure, mais ce n’est pas trivial (voir cours d’analyse
avancée).

Définition 4.4. La mesure de probabilité  sur [0;1];B([0;1]) ayant ces propriétés est
appelée mesure de Lebesgue sur [0;1].

4.0.3 Variables aléatoires


Nous allons à présent étendre la notion de variables aléatoires au contexte plus général
considéré dans cette partie du cours.

Définition 4.5. Une variable aléatoire sur un espace probabilisable ( ;F ) est une applica-
tion X : ! R telle que
X 1 (B ) 2 F ; 8B 2 B:
4.0.4 Loi et fonction de répartition
Comme dans le cas discret, la mesure de probabilité P sur ( ;F ) et la variable aléatoire X
induisent une mesure de probabilité PX = P  X 1 sur R. Cela suit du résultat général suivant.

Théorème 4.1. Soit X une application mesurable d’un espace de probabilité ( ;F ;P) dans
un espace probabilisable ( 0 ;F 0 ). Alors l’application P0 : F 0 ! [0;1] définie par

P0 (A0 ) = P(X 1 (A0 )); 8A0 2 F 0;


est une mesure de probabilité sur ( 0 ;F 0 ).
Démonstration. On vérifie immédiatement que P0 ( 0 ) = 1. D’autre part, si A01 ;A02 ; : : : 2 F 0
sont 2 à 2 disjoints, alors c’est également le cas de leur préimages X 1 (A01 );X 1 (A02 ); : : :, ce qui
implique que
[ [ [ X X
P0 A0n = P X 1 ( A0n ) = P X 1 (A0n ) = X 1 (A0n ) = P0 (A0n ):
   
P
n1 n1 n1 n1 n1

Définition 4.6. La mesure de probabilité PX = P  X 1 sur (R;B ) induite par une variable
aléatoire X est appelée la loi de X .
On dit de deux variables aléatoires X et Y qu’elles ont la même loi, ou qu’elles sont
loi
identiquement distribuées, lorsque PX = PY . Dans ce cas, on écrira X = Y .

Exemple 4.1. On peut clairement caractériser une variable aléatoire discrète comme étant une
variable aléatoire dont la loi est de la forme
X
PX = p k  xk ;
k 2I
où I 6= ∅ est un ensemble au plus dénombrable, P
les xk , k 2 I , sont des réels distincts, et les pk ,
k 2 I , des réels strictement positifs tels que k2I pk = 1. }
61

Une mesure
de probabilité P sur (R;B ) est entièrement déterminée par la fonction FP (x) =
P ( 1; x] . En particulier, la loi d’une variable aléatoire X est entièrement déterminée par la
fonction FX (x) = P(X  x).

Définition 4.7. Soit



P une mesure de probabilité sur (R;B ). La fonction FP : R ! [0;1],
FP (x) = P ( 1; x] , est appelée fonction de répartition de P.
Soit X une variable aléatoire sur un espace probabilisé ( ;F ;P). La fonction FX : R !
[0;1], FX (x) = P(X  x), est appelée fonction de répartition de X .

Lemme 4.3. La fonction de répartition FP : R ! [0;1] associée à une mesure de probabilité


sur (R;B ) possède les propriétés suivantes :
1. FP est croissante ;
2. limx! 1 FP (x) = 0 ;
3. limx!+1 FP (x) = 1 ;
4. FP est continue à droite.

Démonstration. Les trois premières affirmations sont immédiates. La quatrième est une consé-
quence du Lemme 4.1 : pour toute suite xn # x,
\
lim FP (xn ) = nlim
n!1 !1 P ( 1; xn] = P ( 1; xn] = P ( 1; x] = FP(x):
n1

4.0.5 Indépendance
Les notions de probabilité conditionnelle et d’indépendance d’événements et de variables
aléatoires introduites dans la première partie du cours sont inchangées, modulo la restriction
des événements à la tribu F .

Définition 4.8. Soit ( ;F ;P) un espace de probabilité.


Soient B 2 F tel que P(B ) > 0 et A 2 F . La probabilité conditionnelle de A sachant B
est définie par P(AjB ) = P(A \ B )=P(B ).
Une famille d’événements (Ai )i2I est indépendante sous P si
\ Y
P( A i ) = P(Ai );
i2 J i2 J
pour tous les sous-ensembles finis J de I .
Une famille de variables aléatoires (Xi )i2I est indépendante si les événements

fXi 2 Aig; i 2 J;
sont indépendants pour tout Ai 2 B , i 2 J , et tout J  I fini.

À nouveau, on vérifie aisément que P( j B ) est un mesure de probabilité sur les espaces proba-
bilisables ( ;F ) et (B;F (B )), où F (B ) = fA \ B : A 2 Fg.
On a vu dans la première partie du cours qu’afin de vérifier l’indépendance de variables
aléatoires discrètes, il suffisait de considérer des singletons Ai = fxi g avec xi 2 Xi ( ). Dans le
cas général considéré ici, on peut montrer qu’il est également possible de se restreindre à une
classe particulière d’événements.
62 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ

Lemme 4.4. La famille de variables aléatoire (Xi )1in est indépendante si et seulement
si
n
Y
P(X1  x1; : : : ; Xn  xn) = P(Xi  xi);
i=1
pour tout xi 2 R, 1  i  n.
Chapitre 5

Variables aléatoires à densité

5.1 Densité de probabilité, absolue continuité


R1
Définition 5.1. Soit f : R ! R une fonction mesurable positive, telle que 1 f (s) ds = 1.
Alors l’application P : B ! [0;1] définie par
Z
P(A) = f (s) ds; 8A 2 B;
A
est une mesure de probabilité sur (R;B ). Dans ce cas, on dit que la mesure P est absolument
continue (par rapport à la mesure de Lebesgue), et f est appelée la densité de probabilité
associée à P.

Remarque 5.1. 1. Insistons sur le fait que la valeur f (s) n’est pas une probabilité (en
particulier, f (s) peut être plus grande que 1). Par contre, il peut être utile de penser
à f (s) ds comme à la probabilité de l’intervalle [s;s + ds].
2. La densité de probabilité associée à une mesure de probabilité absolument continue
P n’est pas unique : si f est une densité de probabilité pour P et g ne diffère de f
que sur un ensemble de mesure de Lebesgue 0, alors g est également une densité de
probabilité pour P. En effet, si B = fx : f (x) 6= g (x)g, alors
Z Z Z Z Z
f (s) ds = f (s) ds + f (s) ds = g(s) ds = g(s) ds;
A AnB A\ B AnB A
R R
puisque (A \ B ) = 0 implique que A\B f (s) ds = A\B g (s) ds = 0.
On vérifie facilement que c’est la seule possibilité. Parler de « la » fonction de densité
associée à une mesure de probabilité P ne portera donc pas à conséquence.

En particulier, la fonction de répartition associée à une mesure de probabilité absolument conti-


nue P de densité de probabilité f satisfait
Z x
FP (x) = P(( 1;x]) = f (s) ds:
1
En particulier, FP est continue 1 .
1. Cela n’est pas complètement évident si f n’est pas bornée. Une façon de procéder est la suivante. On fixe
0
 > . Pour n  1, onR introduit fn =R min(f;n). On a alors fn " f lorsque n ! 1. Par le Théorème
R de convergence
monotone, on a que R fn (x)dx ! R f (x)dx. On peut donc trouver n assez grand pour que R (f (x) fn (x)) < .

63
64 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ

Remarque 5.2. On peut fabriquer des fonctions de répartition F (assez pathologiques) qui
sont continues, mais qui ne sont pas associées à des mesures de probabilité absolument
continues. Les mesures de probabilité correspondantes sont dites singulières.

Remarque 5.3. On peut démontrer (c’est le Théorème de différentiation de Lebesgue) que


FP est différentiable presque partout. Ceci permet d’associer à P une densité de probabilité
de façon canonique : on prendra f (x) = FP0 (x) en tout point où FP est différentiable, et
f (x) = 0 ailleurs.
Tout ceci s’étend naturellement aux variables aléatoires.
Définition 5.2. Une variable aléatoire X est à densité si sa loi est absolument continue.
La densité de probabilité associée à PX est alors notée fX et appelée densité de probabilité
de X .
Ainsi, pour toute variable aléatoire X à densité,
Z
P(X 2 A) = fX (s) ds; 8A 2 B:
A
Définition 5.3. Soit
R
X une variable aléatoire de densité fX . Alors on dit que X possède
une espérance si R jsjfX (s) ds < 1 et, dans ce cas, l’espérance de X est définie par
Z
E(X ) = sfX (s) ds:
R

Proposition 5.1. Soit


R
X une variable aléatoire à densité, et ' : R ! R une application
mesurable telle que R j'(s)jfX (s)ds < 1. Alors, l’espérance de la variable aléatoire '(X )
satisfait Z
E('(X )) = '(s) fX (s) ds:
R

Remarque 5.4. Observez la similarité formelle avec le résultat correspondant pour les
P
variables discrètes : E('(X )) = x2X ( ) '(x)fX (x).

5.2 Exemples importants de variables aléatoires à densité


On présente ici quelques-unes des lois à densité les plus importantes. Elles sont introduites
à partir de leur densité de probabilité, et il est laissé en exercice de vérifier que ses densités de
probabilité sont proprement normalisées (c’est-à-dire d’intégrale 1).

5.2.1 Loi uniforme


Soient a < b. X est uniforme sur [a;b], noté X  U(a; b), si elle a densité de probabilité
1
fX (x) = 1[a;b] (x):
b a
Cette distribution modélise le tirage d’un élément de l’intervalle [a;b] de façon uniforme, c’est-
à-dire sans en privilégier aucun.
On a alors
Z Z Z Z
( )dx =
f x (f (x) ( ))dx +
fn x ( )dx  (f (x)
fn x fn x ( ))dx + n(A)   + n(A)  2;
A A A R

pour tout A 2 B tel que (A)   = =n. La continuité suit, puisque ([x;x +  ]) =  .
5.2. EXEMPLES IMPORTANTS DE VARIABLES ALÉATOIRES À DENSITÉ 65

0,3

0,25

0,2

0,15

0,1

0,05

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 5.1: Densité de probabilité de la loi uniforme sur [ 2;2].

L’espérance et la variance de X se calcule aisément :


Z b
E(X ) = b 1 a s ds = a+2 b ;
a
Z b
2 (a+b)2 2
Var(X ) = E(X 2 ) E(X )2 = b 1 a s2 ds (a+4b) = a2 +ab3 +b2 4 = (b 12a) :
a
Plus généralement, pour tout A 2 B, on X est uniforme sur A, X  U(A) si
1
fX (x) = 1 (x):
(A) A

5.2.2 Loi exponentielle


X est exponentielle de paramètre  > 0, X  exp() si elle admet pour densité de probabilité
fX (x) =  e x 1
[0;1) (x):

Elle peut être vue comme limite de la distribution géométrique, et apparaît dans la pra-
tique pour la description du temps d’attente entre deux événements imprédictibles (appels té-
léphoniques, tremblements de terre, émission de particules par désintégration radioactive, etc.).
Considérons une suite d’épreuves de Bernoulli effectuées aux temps ; 2;3; : : :, et soit W le
temps du premier succès. Alors, pour tout k 2 N,

P(W > k ) = (1 p)k :


Fixons à présent un temps t > 0. Jusqu’au temps t, il y aura eu approximativement k = t=
épreuves. On veut laisser  tendre vers 0. Pour que le résultat ne soit pas trivial, il faut également
que p tende vers 0 de façon à ce que p= tende vers une constante  > 0. Dans ce cas,

t
P(W > t) = P(W >  ) ' (1  )t= ! e t :

66 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ

1,2

0,8

0,6

0,4

0,2

0
0 1 2 3 4 5

Figure 5.2: Densité de probabilité de la loi exponentielle pour  = 1.

Il est aussi aisé de voir (exercice) que la loi exponentielle possède la même propriété de perte
de mémoire que la loi géométrique, cf. Lemme 2.1.
À nouveau, l’espérance et la variance de X  exp() se calculent aisément :
Z 1 s ds =
Z 1 s ds =  1 ;
E(X ) =  se e
0 Z 0
1 2 s 2
V (X ) =  s e ds  =  2:
0

5.2.3 Loi normale


Il s’agit sans doute de la loi la plus importante, de par son ubiquité (à cause du théorème
central limite, que l’on étudiera plus tard). X suit une loi normale (ou gaussienne) de paramètres
 et 2 , X  N (;2 ), si elle a densité de probabilité
1 (x )2 
fX (x) = p exp ;
2 2 2 2
pour tout x 2 R. Lorsque  = 0 et  2 = 1, on parle de loi normale standard. La fonction de
répartition de la loi normale standard est habituellement notée .
Les paramètres  et  2 ont des interprétations immédiates : lorsque X  N (; 2 ),
Z 1 2 2
Z 1
2 2
E(X ) = p1 2
2
se (s ) =2 ds =  + p212 se s =2 ds = ;
1 1
Z 1 2
Z 1
2 2
Var(X ) = p212 (s )2 e (s ) =2 ds =  2 p212 e s =2 ds = 2 :
1 1
5.2.4 Loi gamma
X suit la loi gamma de paramètres ;t > 0, X  gamma(; t), si elle a densité de probabilité
1 t t 1 x
fX (x) =  x e 1[0;1) (x);
( t)
5.2. EXEMPLES IMPORTANTS DE VARIABLES ALÉATOIRES À DENSITÉ 67

0,4

0,3

0,2

0,1

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 5.3: Densité de probabilité de la loi normale :  = 0; 2 = 1 (bleu),  = 0; 2 = 2 (magenta) et
 = 1; 2 = 1 (vert).

2,5

1
2
2 3
4
5

1,5

0,5

0
0 1 2 3 4 5

Figure 5.4: Densité de probabilité de la loi Gamma pour  = 0:5 et diverses valeurs de t.
68 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ

0,4

0,3

0,2

0,1

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Figure 5.5: Densité de probabilité de la loi de Cauchy.

où est la fonction gamma, Z 1 t 1 x


(t) = x e dx:
0
Lorsque  = 21 , et t = 12 d, d entier, on dit que X suit la loi du 2 à d degrés de liberté. Cette
distribution joue un rôle important en statistiques.
L’espérance et la variance de X  gamma(; t) sont données par

t 1 t 1 s
Z 1 Z
(t+1)
E(X ) = (t) ss e ds = (1t) (s)(t+1) 1 e s ds = (t) = t ;
0 0
Var(X ) = E(X 2 ) E(X )2 = ((tt+2) t2 t(t+1) t2 = t
)2 2 = 2 2 2 :

5.2.5 Loi de Cauchy


X suit la loi de Cauchy 2 , X  cauchy, si elle a densité de probabilité
1
fX (x) = ;
(1 + x2 )
pour tout x 2 R.
Cette loi a un certain nombre de propriétés « pathologiques », et apparaît souvent dans des
contre-exemples. En particulier, elle ne possède pas d’espérance, puisque E(jX j) = 1 (et donc
pas de variance non plus).

5.2.6 Loi bêta


X suit une loi beta de paramètres a;b > 0, X  beta(a; b), si elle a densité de probabilité
1
fX (x) = xa 1 (1 x)b 11
[0;1] (x);
B (a;b)
2. Augustin Louis, baron Cauchy (1789, Paris – 1857, Sceaux), mathématicien français.
5.2. EXEMPLES IMPORTANTS DE VARIABLES ALÉATOIRES À DENSITÉ 69

Figure 5.6: Densité de probabilité de la loi bêta pour diverses valeurs de a et b.

où B (a;b) est la constante de normalisation. On peut montrer que


(a) (b)
B (a;b) = :
(a + b)
Si a = b = 1, X est uniforme sur [0;1].
La distribution bêta est très utilisée en statistiques bayesiennes.
On calcule facilement son espérance et sa variance :
Z 1 Z 1
E(X ) = B (1a;b) ssa 1 (1 s)b 1 ds = B(1a;b) s(a+1) 1 (1 s)b 1 ds = BB(a(+1 ;b) a
a;b) = a+b ;
0 0
Var(X ) = E(X 2 ) E(X )2 = BB(a(+2 ;b) a2 = (a+ab()(aa+1) a2 = (a+b)2ab
a;b) (a+b)2 +b+1) (a+b)2 (a+b+1) :

5.2.7 Loi de Student


X suit une loi de Student 3 ou loi t à >0 degrés de liberté, X student( ), si elle a
densité de probabilité
(( + 1)=2) x 2
fX (x) = p (1 + ) ( +1)=2 ;
 (=2) 
pour x 2 R.
Cette distribution apparaît dans le problème de l’estimation de la moyenne d’une population
normalement distribuée lorsque l’échantillon est petit. C’est la base des célèbres tests de Student
en statistiques.
Son espérance est nulle lorsque  > 1, et n’existe pas pour   1. Sa variance n’est pas
définie lorsque   1, elle est infinie lorsque 1 <   2, et elle est égale à =( 2) lorsque
 > 2.
3. William Sealy Gosset (1876, Canterbury – 1937, Beaconsfield), connu sous le pseudonyme Student, chimiste
et statisticien irlandais. Employé de la brasserie Guinness pour stabiliser le goût de la bière, il a ainsi inventé le
célèbre test de Student.
70 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ

5.2.8 Loi de Weibull


Xsuit une loi de Weibull 4 de paramètre de forme k > 0 et de paramètre d’échelle  > 0 si
elle a densité de probabilité

k x k 1 (x=)k 1
fX (x) = e [0;1) (x):
 
Lorsque k = 1, on retrouve la distribution exponentielle.
La loi de Weibull est très populaire dans les modèles statistiques en fiabilité. Elle est égale-
ment utilisée, par exemple, pour analyser les signaux reçus par les radars, ou dans les réseaux
de communication sans fil. D’un point de vue plus théorique, elle joue un rôle important dans
l’analyse des valeurs extrêmes lors d’expériences aléatoires.
On trouve que son espérance et sa variance sont données par

E(X ) =  (1 + k1 );
Var(X ) = 2 (1 + k2 ) 2 (1 + k1 )2 :

5.3 Vecteurs aléatoires à densité


La notion de vecteur aléatoire s’étend sans difficulté au cas d’univers généraux.

Définition 5.4. Un vecteur aléatoire de dimension n est une application mesurable d’un
espace probabilisable ( ;F ) vers l’espace probabilisable (Rn ;B n ).

Nous nous intéresserons plus particulièrement au cas des vecteurs aléatoires à densité.

Définition 5.5. Un vecteur aléatoire X = (X1 ; : : : ;Xn ) est à densité s’il existe une fonction
positive fX : Rn ! R telle que
Z
P(X 2 A) = fX (x1 ; : : : ;xn ) dx1    dxn ; 8A 2 B(Rn):
A
fX est la densité de probabilité conjointe du vecteur aléatoire X.

Remarque 5.5. On peut montrer qu’il suffit de vérifier la condition pour des ensembles
A de la forme ( 1;x1 ]      ( 1;xn ], x1 ; : : : ;xn 2 R, c’est-à-dire que
Z x1 Z xn
FX (x1 ; : : : ;xn ) = P(X1  x1 ; : : : ;Xn  xn ) = ds1    dsn fX (s1 ; : : : ;sn ):
1 1
La fonction FX est appelée fonction de répartition conjointe de X.
À nouveau, il n’y a pas unicité de la densité conjointe, et on choisira toujours une
n
version de fX satisfaisant fX (x1 ; : : : ;xn ) = @x1@@xn FX (x1 ; : : : ;xn ), en chaque point où la
fonction de répartition conjointe est suffisamment différentiable.

Les densités de probabilité des composantes d’un vecteur aléatoire X peuvent être aisément
extraites de la densité de probabilité conjointe.

Lemme 5.1. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire à densité. Alors, pour tout 1 
k  n, Z 1 Z 1 Z 1 Z 1
fXk (xk ) = d x1    d xk 1 dxk+1    dxn fX (x1 ; : : : ;xn ):
1 1 1 1
4. Ernst Hjalmar Waloddi Weibull (1887, ? ? ? – 1979, Annecy), ingénieur et mathématicien suédois.
5.3. VECTEURS ALÉATOIRES À DENSITÉ 71

Démonstration.

P(Xk 2 A) = ZP(X 2 Rk 1  A  ZRn k ) Z


= k 1 dx1    dxk 1 dxk n k
dxk+1    dxn fX (x1 ; : : : ;xn )
ZR A R
nZ Z o
= dxk dx    dxk
1 1 1 dx    dxn fX (x1 ; : : : ;xn )
k k+1
A Rk Rn

et une version de fXk est donc donnée par l’expression entre accolades.

Définition 5.6. Étant donné un vecteur aléatoire X = (X1 ; : : : ;Xn ), les densités de proba-
bilité fXk , 1  k  n, sont appelées ses densités de probabilité marginales.

L’indépendance de variables aléatoires peut se caractériser simplement en termes de leur densité


de probabilité conjointe.

Lemme 5.2. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire à densité. Les variables aléatoires
X1 ; : : : ;Xn sont indépendantes si et seulement si
fX (x1 ; : : : ;xn ) = fX1 (x1 )    fXn (xn );
pour presque tout (x1 ; : : : ;xn ).
Démonstration. Supposons X1 ; : : : ;Xn indépendantes. Pour tout x1 ; : : : ;xn 2 R,
P(X1  x1; : : : ;Xn  xn) = P(X1  x1)    P(Xn  xn)
Z x1 Z xn
=    fX1 (y1)    fXn (yn) dy1    dyn;
1 1
et par conséquent fX1 (x1 )    fXn (xn ) est une densité de probabilité conjointe de PX .

Exemple 5.1. Soit = D1 = (x;y ) 2 R2 : x2 + y 2 < 1 muni de la densité de probabilité
uniforme.
p On considère les quatre variables aléatoires suivantes : X (! ) = x, Y (! ) = y , R(! ) =
x2 + y2 et (!) 2 [0;2) telle que x = r cos((!)) et y = r sin((!)). Ainsi les vecteurs
aléatoires (X;Y ) et (R;) correspondent à la position d’un point du disque tiré uniformément
au hasard, exprimée, respectivement, en coordonnées cartésiennes et polaires. Déterminons leurs
lois conjointes, ainsi que les lois de ces quatre variables aléatoires.
Pour le couple (X;Y ), on a
ZZ
1
P((X;Y ) 2 A) = jA \ D1 j= = 1 2 2 dxdy;
A  fx +y <1g
et donc fX;Y (x;y ) = 1 1fx2 +y2 <1g . La loi de X est obtenue en prenant la marginale correspon-
dante, p
Z 1
1 1 Z 1 x2 2p
fX (x) = 1fx2 +y2 <1g dy = p 2 dy = 1 x2 ;
1   1 x 
p
2
pour 1 < x < 1 et 0 sinon. De la même façon, fY (y ) =  1 y 2 1fy2 <1g . En particulier, on
voit que f(X;Y ) (x;y ) 6= fX (x)fY (y ), et donc X et Y ne sont pas indépendantes.
Passons au couple (R;). Étant donné A  R2 , notons A~ = f(x;y ) : (R(x;y );(x;y )) 2 Ag.
Alors, ZZ
1
P((R;) 2 A) = jA~ \ D1 j= = 1f0r<1;0<2g rdrd;
A
72 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ

d’où l’on tire la densité de probabilité conjointe fR; (r;) = r 1f0r<1;0<2g . La densité de R
est donc donnée par
r Z 2
fR (r) = d = 2r;
 0
si 0  r < 1 et 0 sinon. Pour ,
1Z 1 1
f () = rdr = ;
 0 2
si 0   < 2 et 0 sinon. On a donc f(R;) (r;) = fR (r)f (), et R et  sont indépendantes. }
Finalement, si X = (X1 ; : : : ;Xn ) est un vecteur aléatoire à densité, et : Rn ! Rn possède de
bonnes propriétés, le théorème suivant permet de déterminer la loi conjointe du vecteur aléatoire
(X) en termes de fX .
Soient U  Rn un ouvert, et : U ! Rn , (x) = ( 1 (x); : : : ; n (x)). On dit que est
continuement différentiable si les dérivées partielles @ i =@xj existent et sont continues sur U .
On note D (x) = (@ i (x)=@xj )1i;j n la matrice Jacobienne, J (x) = det D (x) le Jacobien,
et V = (U ).

Théorème 5.1. Soient U  Rn un ouvert, et : U ! V une application continuement


différentiable et bijective, telle que J (x) 6= 0, pour tout x 2 U . Alors, pour toute fonction
f : V ! R, f 2 L1 , on a
Z Z
f ( (x)) jJ (x)j dx1    dxn = f (y) dy1    dyn :
U V

Démonstration. Dans le cas où f est suffisamment régulière, il s’agit simplement du résultat


classique sur les changements de variables. La preuve lorsque f 2 L1 sera faite en Analyse
avancée.

Corollaire 5.1. On considère un vecteur aléatoire X = (X1 ; : : : ;Xn ) à valeurs dans un


ouvert U  Rn , et une application : Rn ! Rn comme dans le théorème précédent. Alors
la densité de probabilité conjointe du vecteur aléatoire Y = (X) est donnée par

fY (y) = fX ( 1 (y)) jJ 1 (y)j:

Démonstration. Soit A  V . On a
Z
P(Y 2 A) = P( (X) 2 A) = P(X 2 1 (A)) =
1 (A)
fX (x) dx1    dxn :

Une application du théorème à l’intégrale du membre de droite (attention, on l’applique à la


transformation inverse 1 ) donne donc

Z
P(Y 2 A) = fX ( 1 (y)) jJ 1 (y)j dy1    dyn ;
A
d’où le résultat suit.

On en déduit immédiatement le résultat suivant, très important, sur la loi d’une somme de
variables aléatoires.
5.3. VECTEURS ALÉATOIRES À DENSITÉ 73

Lemme 5.3. Soient X;Y deux variables aléatoires à densité. Alors la loi de leur somme
est donnée par Z 1
fX +Y (u) = f(X;Y ) (x;u x) dx:
1
En particulier, si X et Y sont indépendantes, la densité de probabilité de X +Y est donnée
par la convolution des densités de probabilité de X et Y ,
Z 1
fX +Y (u) = fX (x)fY (u x) dx:
1
Démonstration. On considère l’application : R2 ! R2 donnée par (x;y ) = (x;x + y ). Elle
satisfait à toutes les hypothèses du Corollaire précédent. On a donc

f(X;X +Y ) (u;v) = f(X;Y ) (u;v u);


puisque le Jacobien vaut 1. Par conséquent la première affirmation suit en prenant la seconde
marginale, Z 1
fX +Y (v) = f(X;Y ) (u; v u) du:
1
Si X et Y sont indépendantes, leur densité de probabilité conjointe se factorise et la seconde
affirmation suit.

Une autre conséquence utile (et immédiate) du Corollaire précédent est le résultat suivant.

Lemme 5.4. Soit X une variable aléatoire à densité et a;b 2 R, a 6= 0. La densité de


probabilité de la variable aléatoire aX + b est donnée par
1 
faX +b (y) = fX (y b)=a :
jaj
Démonstration. Laissée en exercice.

On déduit immédiatement des deux lemmes précédents l’important résultat suivant.

Lemme 5.5. Soient X1 et X2 deux variables aléatoires indépendantes de loi N (1 ;12 ) et
N (2;22) respectivement. La variable aléatoire X1 + X2 suit une loi N (1 + 2;12 + 22).
Démonstration. Soient Y1 = X1 1 et Y2 = X2 2 ; par le lemme 5.4, ces variables suivent
respectivement les lois N (0;12 ) et N (0;22 ). Une application du Lemme 5.3 montre que la densité
de probabilité de la variable aléatoire Y1 + Y2 est donnée par
Z
1 x2 (z x)2
q expf g dx:
2 12 22 R 212 222

Puisque
q
12 z 2 22
22 x2 + 12 (z x)2 = ( 12 + 22 x q ) + 2 1 2 2 z2;
12 + 22 1 + 2
l’intégration sur x montre que cette densité de probabilité est bien celle d’une variable aléatoire
de loi N (0;12 + 22 ), et donc X1 + X2 suit bien une loi N (1 + 2 ;12 + 22 ).
Chapitre 6

Théorèmes limites

Les théorèmes limites sont omniprésents en théorie des probabilités. Une raison de leur
importance est le fait que, en un certain sens, ils permettent de transformer des événements de
probabilité p 2 [0;1] en des événements de probabilité proche de 0 ou 1, et ce n’est que pour
de tels événements qu’un énoncé probabiliste devient falsifiable. Dans ce chapitre nous donnons
l’énoncé de la loi forte des grands nombre et du théorème central limite sans donner de preuve,
car cela sort du cadre du cours.

6.1 Convergence en loi et fonctions génératrices


Le théorème de continuité suivant montre que les fonctions génératrices permettent l’étude
de la convergence de certaines suites de variables aléatoires. On l’énonce ici pour des variables
aléatoires discrètes mais un résultat analogue existe pour les variables aléatoires à densité, où
la notion de fonction caractéristique remplace celle de fonction génératrice. Cela sort cependant
du cadre du cours.
Théorème 6.1. Soient (Xn )n1 une suite de variables aléatoires à valeurs dans N. Les
deux propositions suivantes sont équivalentes :
1. pk = limn!1 P(Xn = k) existe pour tout k 2 N ;
2. G(s) = limn!1 GXn (s) existe pour tout 0 < s < 1.
P P
De plus, on a alors G(s) = k0 sk pk . En particulier, lorsque k0 pk = 1, il existe une
variable aléatoire X à valeurs dans N telle que

lim P(Xn = k) = P(X = k);


n!1
8k 2 N:
Remarque 6.1. Observez que l’on peut très bien avoir l’existence de toutes les limites
limn!1 P(Xn = k) sans qu’il existe une variable aléatoire limite : il suffit de considérer,
par exemple, des variables aléatoires (Xn )n1 telles que P(Xn = n) = 1. Dans des situations
de ce type, une partie de la probabilité est « perdue à l’infini ».
Démonstration. 1. =) 2. Supposons tout d’abord que pk = limn!1 P(Xn = k) existe pour
P
tout k 2 N, et posons G(s) = k0 sk pk . Soit 0 < s < 1. Comme jP(Xn = k) pk j  1, on a
r 1 r r
jP(Xn = k) pk j + 1 s s :
X X X
jGXn (s) G(s)j  jP(Xn = k) pk j + sk 
k=0 k=r+1 k=0
Les deux termes du membre de droite pouvant être rendus arbitrairement petits en prenant r
suffisamment grand, puis n suffisamment grand, la conclusion suit.

75
76 CHAPITRE 6. THÉORÈMES LIMITES

2. =) 1. Supposons à présent que G(s) = limn!1 GXn (s) existe pour tout 0 < s < 1.
D’une part, G(s) étant nécessairement croissante en s, la limite G(0) = lims#0 G(s) existe.
D’autre part, on a
X s
P(Xn = 0) = GXn (0)  GXn (s)  P(Xn = 0) + sk = P(Xn = 0) + :
k 1 1 s
Ceci implique que
s
G(s)
1 s
 lim
n!1
inf P(Xn = 0)  lim sup P(Xn = 0)  G(s);
n!1
et donc, en laissant s # 0,
lim P(Xn = 0) = G(0):
n!1
On procède à présent par récurrence. Notons pnk = P(Xn = k), et supposons que pk = limn!1 pnk
existe pour tout k < r. On peut alors écrire, pour tout 0 < s < 1,
GXn (s) pn0 pn1 s    pnr 1 sr 1 G(s) p0 p1 s    pr 1 sr 1
lim
n!1 sr
=
sr
 Hr (s):
P
La fraction dans le membre de gauche peut s’écrire k0 pnk+r sk , qui est à nouveau une série
à termes positifs. On peut donc répéter le raisonnement précédent afin de conclure à l’exis-
tence de la limite Hr (0) = lims#0 Hr (s). En procédant comme ci-dessus, on en déduit alors que
limn!1 pnr = Hr (0).
Ceci montre l’existence de pk = limn!1 pnk , pour tout k  0. L’identification G(s) =
P
k0 pk s suit alors de l’implication 1. =) 2..
k

Exemple 6.1. Soit (Xn )n0 une suite de variables aléatoires de loi binom(n; pn ), avec limn!1 npn =
 > 0. On a
lim G (s) = nlim n (s 1) :
n!1 Xn !1(1 + (s 1)pn ) = e
Cette dernière expression étant la fonction génératrice associée à la loi poisson(), on retrouve
la loi des petits nombres. }
6.2 La loi des grands nombres
6.2.1 Loi faible des grands nombres
On rappelle ici le Théorème 2.3 obtenu au Chapitre 2.
Soient X1 ;X2 ; : : : ; Xn une famille de variables aléatoires. Leur moyenne empirique est la
variable aléatoire
1X n
Xn = X:
n i=1 i
Théorème 6.2 (Loi faible des grands nombres). Soient X1 ; : : : ;Xn des variables aléatoires
non-corrélées, de même espérance  et de même variance  2 < 1. Alors, pour tout  > 0,

2
P(jX
n j  )  :
2 n
En particulier, limn!1 P(jXn j  ) = 0, pour tout  > 0.
La loi faible des grands nombres nous fournit des informations sur le comportement de X n
(pour n grand) lorsqu’on considère de nombreuses répétitions de l’expérience : pour tout grand
n fixé, Xn est proche de  pour la plupart des réalisations.
6.3. LE THÉORÈME CENTRAL LIMITE 77

Figure 6.1: Convergence vers une loi normale pour une


Pnsuite de variables aléatoires Xi de loi exp(1). Les
courbes correspondent aux densités des variables p1n i=1 (Xi 1), pour n = 2;8;32;128. La densité de
la loi N (0;1) est aussi tracée.

6.2.2 La loi forte des grands nombres


La loi faible des grands nombres n’affirme cependant pas que, pour une réalisation ! donnée,
la fonction n 7! X n (! ) reste forcément proche de  lorsque n augmente : elle laisse ouverte la
possibilité qu’il existe  > 0 et une sous-suite (nk )k1 , nk ! 1, telle que jXnk (! ) j > ,
pour tout k  1. La loi forte des grands nombres montre que l’ensemble des réalisations !
pour lesquelles ceci se produit a probabilité nulle : pour tout  > 0, avec probabilité 1, seul un
nombre fini des événements
Xn  > 
sont réalisés.

Théorème 6.3. Soit X1 ;X2 ; : : : une suite de variables aléatoires i.i.d. Alors, lorsque n ! 1,

P(f! : X (! ) ! g) = 1
pour une certaine constante , si et seulement si E(jX1 j) < 1. Dans ce cas,  = E(X1 ).

6.3 Le Théorème Central Limite


À présent que l’on sait que la moyenne empirique d’une suite de variables aléatoires indépen-
dantes se concentre autour de son espérance, la question suivante est naturelle : que peut-on dire
des fluctuations de la moyenne empirique autour de l’espérance, c’est-à-dire de la distribution de
Xn  ? La réponse à cette question, le Théorème Central Limite, est un des résultats majeurs
de la théorie des probabilités, et est assez extraordinaire : il affirme que
1.
p
Xn  est de l’ordre de 1= n.
2. n )pn approche la même distribution, lorsque n devient grand,
La distribution de  (X
quelle que soit la distribution des Xi , tant que ceux-ci ont une variance  2 finie !
78 CHAPITRE 6. THÉORÈMES LIMITES

On note  la fonction de répartition de la loi normale standard, i.e.


(x) = P(X  x) si X  N (0;1):
Théorème 6.4 (Théorème Central Limite). Soit X1 ;X2 ; : : : une suite de variables aléatoires
i.i.d. telles que E(X1 ) =  et 0 < Var(X1 ) =  2 < 1. Alors
!
1 n
X
P p (Xk )  x ! (x) :
n2 k=1
Si, de plus, E(jX1 E(X1 )j3 ) < 1, alors

 C E(jX13pEn(X1)j ) ;
n 3
p1
X 
sup P (Xk )  x (x)
x 2R n2 k=1
pour une certaine constante universelle C < 0;4748.
Remarque 6.2. L’estimée explicite de l’erreur dans le théorème central limite donnée ci-
dessus est appelée inégalité de Berry 1 –Esséen 2 . Elle joue un rôle très important lorsque
l’on veut appliquer le théorème central limite dans la pratique.

Le Théorème Central Limite montre que, pour n grand, on a


 Pn
i=1pXi n 
P 2 [a;b] ' (b) (a);
n2
ou encore
n
X  b n
b ab n
P Xi 2 [ab;bb] ' ( p 2 ) ( p 2 ):
i=1 n n

Exemple 6.2. Une chaîne de montage produit des pièces défectueuses avec un taux de 10%.
Quelle est la probabilité d’obtenir au moins 50 pièces défectueuses parmi 400 ?
Modélisons cette situation par une épreuve de Bernoulli de paramètre p = 0;1. Avec n = 400,
n = np = 40 et n2 = np(1 p) = 36, et en notant N le nombre de pièces défectueuses, on
obtient
50 40 
P(N  50) = P(N 2 [50; 400]) ' (1)  p ' 0;05:
36
Il y a environ 5% de chances d’obtenir au moins 50 pièces défectueuses.
À titre de comparaison, N suivant une loi binom(400; 0;1), un calcul exact donne
!
400
X 400
P(N  50) = k
(0;1)k (0;9)400 k ' 0;06;
k=50
ce qui est assez proche de l’approximation précédente. }

1. Andrew C. Berry (1 ? ? ?, - ? ? ? ?, ), mathématicien...


2. Carl-Gustav Esséen (1918, ? ? ? - 2001, ? ? ?), mathématicien suédois.

Vous aimerez peut-être aussi