Proba Bouake
Proba Bouake
Probabilités
24 janvier 2024
2
Table des matières
1 Analyse combinatoire 5
1.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Arrangements sans répétition . . . . . . . . . . . . . . . . 6
1.2.3 Permutations . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Arrangements avec répétition . . . . . . . . . . . . . . . . 7
1.3 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Combinaisons sans répétition . . . . . . . . . . . . . . . . 7
1.3.3 Combinaisons avec répétition . . . . . . . . . . . . . . . . 8
2 Espace probabilisé 9
2.1 Rappels de Théorie des ensembles . . . . . . . . . . . . . . . . . 9
2.2 Univers des possibles . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Evénements, Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6.1 Indépendance de deux évènements . . . . . . . . . . . . . 14
2.6.2 Indépendance de n évènements . . . . . . . . . . . . . . . 15
3
4 TABLE DES MATIÈRES
4 Vecteurs aléatoires 25
4.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . 25
4.2 Distribution marginale . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . 26
4.4 Indépendance des variables aléatoires . . . . . . . . . . . . . . . . 26
4.5 Caractéristique d’une distribution . . . . . . . . . . . . . . . . . . 27
4.5.1 Coefficient de correlation . . . . . . . . . . . . . . . . . . 27
4.5.2 Moments d’un vecteur aléatoire . . . . . . . . . . . . . . . 27
5 Convergences 29
5.1 Quels sont les différents modes de convergence pour une suite de
variables aléatoires ? . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Théorème Central limite . . . . . . . . . . . . . . . . . . . . . . . 30
Chapitre 1
Analyse combinatoire
1.1 Principes
Il existe deux principes fondamentaux en analyse combinatoire :
— Principe additif : c’est la relation entre la somme des cardinaux d’une
partition d’un ensemble E et le cardinal de E. Si des ensembles A1 ,
A2 , . . . , Ap constitue une partition de E alors
Exercice 1.1.2. Le menu d’un restaurant propose un certain jour pour le repas
de midi 3 entrées, 4 plats de résistance et 2 desserts. De combien de façons un
client peut-il composer son menu ce jour là ?
5
6 CHAPITRE 1. ANALYSE COMBINATOIRE
1.2 Arrangements
1.2.1 Définitions
Définition 1.2.1. Etant donné un ensemble E de n objets distincts, on appelle
arrangement de p objets toute suite ordonnée de p objets pris parmi les n objets.
On distingue
— les arrangements sans répétition (chaque objet ne peut être obervé qu’une
seule fois)
— les arrangements avec répétition (un objet peut être observé plusieurs
fois).
n! = n × (n − 1) × . . . × 2 × 1.
Exemple 1. Le nombre d’arrangements sans répétition que l’on peut faire avec
deux éléments choisis parmi trois éléments a, b, c est A23 = 6. Ces 6 arrange-
ments sont : (a,b), (b,a), (a,c), (c,a), (b,c), et (c,b).
Exemple 2. Tirage sans remise : Une urne U contient n boules numérotés de
1 à n. On tire successivement p boules de U sans les remettre dans l’urne. Il y
a Apn tirages différents possibles.
Exercice 1.2.1. A l’occasion d’une compétition sportive groupant 18 athlètes,
on attribue une médaille d’or, une d’argent, une de bronze. Combien y-a-t-il de
distributions possibles.
Exercice 1.2.2. Après les prolongations d’un match de football, l’entraîneur
doit choisir les 5 tireurs de penaltys parmi les onze joueurs et l’ordre de passage.
Combien de choix a-t-il ?
1.2.3 Permutations
Un arrangement sans répétition est une permutation si p = n. Le nombre de
permutations de n éléments est :
Ann = n!
Exemple 3. Le nombre de permutations de 3 éléments a, b, c est P3 = 3! = 6.
Ces 6 permutations sont : (a,b,c), (a,c,b), (b,a,c), (b,c,a), (c,a,b), et (c,b,a).
Exercice 1.2.3. Combien d’anagrammes distinctes peut-on former avec les
lettres du mot BOUAKE ?
1.3. COMBINAISONS 7
Exemple 4. Le nombre d’arrangements avec répétition que l’on peut faire avec
deux éléments choisis parmi trois éléments a, b, c est 32 = 9. Ces 9 arrangements
sont : (a, a), (a, b), (b, a), (a, c), (c, a), (b, b), (b, c), (c, b) et (c, c).
1.3 Combinaisons
1.3.1 Définition
Définition 1.3.1. Une combinaison de p éléments choisis parmi n éléments est
une disposition non ordonnée de p de ces n éléments.
Espace probabilisé
On a
Card(A ∪ B) = Card(A) + Card(B) − Card(A ∩ B).
9
10 CHAPITRE 2. ESPACE PROBABILISÉ
4. Un bus est censé passer toutes les 30 minutes à l’école de police pour
se rendre à Faya. Un passager arrive à l’arrêt de bus. On cherche à
modéliser son temps d’attente. A priori, on peut supposer que ce temps
d’attente est dans l’intervalle Ω = [0, 30].
2.4 Probabilité
Pour une expérience aléatoire donnée, une fois déterminé le couple (Ω, A)
qui représente l’univers Ω associé à cette expérience et la tribu des évènements
A, on définit une application de A à valeurs dans [0, 1] qui à chaque évènement
associe sa probabilité, c’est à dire la chance de réalisation de cet évènement.
12 CHAPITRE 2. ESPACE PROBABILISÉ
2.5 Conditionnement
Soit (Ω, A, P) un espace probabilisé. Dans ce chapitre, nous allons étudier
deux notions importantes : le conditionnement et l’indépendance. Le condition-
nement permet de prendre en compte une information supplémentaire dans le
calcul d’une probabilité. L’indépendance rend compte du fait que deux évène-
ments n’ont aucune incidence l’un sur l’autre.
Définition 2.5.1. Soient A et B deux évènements tels que P(B) > 0. On
appelle probabilité conditionnelle de A sachant que B, le réel défini par
P(A ∩ B)
P(A | B) = .
P(B)
L’application A 7−→ P(A | B) définit une probabilité sur (Ω, A).
2.5. CONDITIONNEMENT 13
n
\
P Ai = P(A0 )×P(A1 | A0 )×P(A2 | A0 ∩A1 )×. . .×P(An | A0 ∩A1 ∩. . .∩An−1 ).
i=0
Pour n = 2, on a
Définition 2.5.2. Une famille finie d’évènements (Ai )1≤i≤n deux à deux incom-
patibles tels que ∪ni=1 Ai = Ω est appelée système complet d’évènements.
Théorème 2.5.1. Formule des probabilités totales.
Soit {B1 , . . . , Bn } un système complet d’évènements. Alors, nous avons
n
X
∀A ∈ A P(A) = P(Bi )P(A | Bi ).
i=1
Exemple 14. Une urne contient des boules blanches et nores, marquées ou
non. On suppose que parmi les boules marquées, il y a 30% de boules blanches
et parmi les non marquées 60%. Par ailleurs, on sait que 80% des boules sont
marquées. Quelle est la probabilité de tirer une boule blanche ?
Solution. On note
B ="la boule est blanche"
M ="la boule est marquée"
On a
P(Bi )P(A | Bi )
P(Bi | A) = n .
X
P (Bk )P(A | Bk )
k=1
14 CHAPITRE 2. ESPACE PROBABILISÉ
Exercice 2.5.1. Une forêt se compose de trois types d’arbres : 30% sont des
chênes, 50% des peupliers, et 20% des hêtres. Suite à une tempête, une maladie
se déclare et touche 10% des chênes, 4% des peupliers, et 25% des hêtres. Sa-
chant qu’un arbre est malade, quelle est la probabilité que ce soit un chêne ? un
peuplier ? un hêtre ?
Solution 2.5.1. Soient les événements suivants :
— C="l’arbre est un chêne"
— Q="l’arbre est un peuplier"
— H="l’arbre est un hêtre"
— M ="l’arbre est malade".
On cherche P(C | M ), P(Q | M ) et P(H | M ).
D’aprèsl’énoncé, nous avons P(C) = 0.3, P(Q) = 0.5 et P(H) = 0.2, P(M |
C) = 0.1, P(M | Q) = 0.1 et P(M | H) = 0.25.
2.6 Indépendance
2.6.1 Indépendance de deux évènements
Deux événements sont indépendants si la réalisation de l’un ne modifie pas
ls chances de réalisation de l’autre. Autrement dit, la probabilité de B sachant
A est réalisé est égale à la probabilité de B.
Proposition 2.6.1. Soient A et B deux événements A et B telles que P(A) > 0
et P(B) > 0. Alors, les propositions suivantes sont équivalentes :
— P(A | B) = P(A)
— P(B | A) = P(B)
— P(A ∩ B) = P(A)P(B).
Ce qui conduit à la définition suivante :
2.6. INDÉPENDANCE 15
Exercice 2.6.1. Votre voisine a deux enfants dont vous ignorez le sexe. On
considère les trois événement suivants :
— A="les deux enfants sont de sexes différents"
— B="l’ainé est une fille"
— C="le cadet est un garçon". Montrer que A, B et C sont deux à deux
indépendants, mais ne sont pas mutuellement indépendants.
Solution 2.6.1. Les quatre possibilités pour les deux enfants, supposées q́uiprobables,
sont (F, G), (F, F ), (G, G), (G, F ). Ainsi P(B) = P(C) = P(A) = 1/2 ; P(A ∩
B) = 1/4 = P(A) × P(B) ; A et B sont donc indépendants. On prouve de la
même façon que B et Csont indépendants et A et C sont indépendants. Cepen-
dant P(A ∩ B ∩ C) = 1/4 6= P(A) × P(B) × P(C). Les événements A , B et C
ne sont pas mutuellement indépendants.
16 CHAPITRE 2. ESPACE PROBABILISÉ
Chapitre 3
17
18 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
En effet
[a, b] =] − ∞, b] \ ] − ∞, a]
Proposition 3.3.1. Soit X une variable aléatoire réelle positive. Alors, pour
tout λ > 0 :
E(X)
P(X > λ) ≤ .
λ
20 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
Exemple 16. Soit X une variable aléatoire suivant une loi normale N (0, 1).
Quelle est la loi de Y = X 2 ?
pour toute fonction continue et bornée sur R. Alors X est une v.a.r continue de
densité f .
Exemple 17. Soit X une variable aléatoire suivant une loi normale N (0, 1).
Quelle est la loi de Y = X 2 ?
Réponse : Soit g une fonction continue et bornée. Nous avons
E(g(Y )) = E(g(X 2 ))
Z +∞
= g(x2 )fX (x)dx
−∞
Z +∞
1 x2
=√ g(x2 )e− 2 dx
2π −∞
Z +∞
2 x2
=√ g(x2 )e− 2 dx
2π 0
Z +∞
2 y dy
=√ g(y)e− 2 √
2π 0 2 y
Z +∞ h 1 i
y
= g(y) √ y −1/2 e− 2 1I[0,+∞[ dy.
−∞ 2π
22 CHAPITRE 3. VARIABLES ALÉATOIRES RÉELLES
(
X(Ω) = {1, . . . , N }
X ,→ UN ⇐⇒
P (X = k) = N1 , ∀k ∈ X(Ω)
N +1
E(X) =
2
et
N2 − 1
var(X) = .
12
Exemple 18. Soit X le résultat d’un lancer de dé non truqué : alors ∀i ∈
X(Ω) = {1, 2, 3, 4, 5, 6}, P (X = i) = 61 ; X suit la loi uniforme U6 .
(
X(Ω) = {0, 1}
X ,→ B(1, p) ⇐⇒
P (X = 1) = p, P (X = 0) = 1 − p
E(X) = p
var(X) = p(1 − p).
Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au
"succès" ou à l’"echec" de l’expérience.
Exemple 19. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit
(bon ou defectueux), sondage elctoral (pour ou contre).
E(X) = np
var(X) = np(1 − p).
Cette loi modélise une succession de "succès" et d’"échecs", p étant la probabilité
du succès.
3.6. LOIS USUELLES 23
E(X) = np.
Cette loi de probabilité est fortement utilisée pour décrire les durées de vie
(par exemple la durée de vie des transistors electroniques).
Chapitre 4
Vecteurs aléatoires
et celle de Y est
FY (y) = lim FX,Y (x, y).
x→+∞
25
26 CHAPITRE 4. VECTEURS ALÉATOIRES
et celle de Y est X
fY (y) = fX,Y (x, y).
x∈X(Ω)
fX,Y (x, y)
fY |X=x (y) =
pX (x)
fX,Y (x, y)
fX|Y =y (x) = .
fY (y)
fX,Y (x, y)
fY |X=x (y) = .
fX (x)
Proposition 4.5.2. Soit g(X) une fonction d’une variable aléatoire X. Alors
X
• E(g(X)) = g(x)P(X = x) dans le cas discret
x∈X(Ω)
Z +∞
• E(g(X)) = g(x)fX (x)dx dans le cas d’une variable aléatoire conti-
−∞
nue X de densité fX .
E(X1 )
E(X) = ..
.
.
E(Xd )
28 CHAPITRE 4. VECTEURS ALÉATOIRES
ΣX = E (X − E(X))t (X − E(X))
var(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xd )
Cov(X1 , X2 ) var(X2 ) · · · Cov(X2 , Xd )
=
.. .. ..
. . ··· .
Cov(X1 , Xd ) Cov(X2 , Xd ) · · · var(Xd )
Chapitre 5
Convergences
L
On note Xn −→ X.
En pratique la loi limite sera utile pour donner une approximation pour le calcul
de la probabilité d’un événement sur Xn quand n sera assez grand :
P(Xn ∈ A) ' P(X ∈ A).
Théorème 5.1.1. de Slutsky. Soient Xn et Yn deux suites de variables aléa-
toires réelles convergeant en loi respectivement vers une constante c et une
variable aléatoire Y . Alors, nous avons
L
• Xn + Yn −→ c + Y
L
• Xn Yn −→ cY
Yn L Y
• −→ si c 6= 0.
Xn c
Définition 5.1.2. On dit que {Xn } converge en probabilité vers X si quelque
soit ε > 0,
lim P {|Xn − X| ≥ ε} = 0.
n→+∞
P
On note Xn −→ X
29
30 CHAPITRE 5. CONVERGENCES
σ2
L
Xn ' N µ, .
n
Ce polycopié est une version faiblement remaniée d’une partie des notes de cours écrites par
Yvan Velenik à l’Université de Genève, voir
http://www.unige.ch/math/folks/velenik/cours.html
0 Introduction 5
0.1 Modélisation des phénomènes aléatoires . . . . . . . . . . . . . . . . . . . . . . . 6
0.2 Quelques résultats combinatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 Probabilité, indépendance 17
1.1 Mesures de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Probabilité conditionnelle, formule de Bayes . . . . . . . . . . . . . . . . . . . . . 20
1.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4 Expériences répétées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Fonctions génératrices 51
3.1 Définition, propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Théorèmes limites 75
6.1 Convergence en loi et fonctions génératrices . . . . . . . . . . . . . . . . . . . . . 75
6.2 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3 Le Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3
Chapitre 0
Introduction
Si la théorie des probabilités a été originellement motivée par l’analyse des jeux de hasard,
elle occupe aujourd’hui une place centrale dans la plupart des sciences. Tout d’abord, de par
ses applications pratiques : en tant que base des statistiques, elle permet l’analyse des données
recueillies lors d’une expérience, lors d’un sondage, etc. ; elle a également conduit au développe-
ment de puissants algorithmes stochastiques pour résoudre des problèmes inabordables par une
approche déterministe ; elle possède en outre de nombreuses applications directes, par exemple
en fiabilité, ou dans les assurances et la finance. D’un côté plus théorique, elle permet la modé-
lisation de nombreux phénomènes, aussi bien en sciences naturelles (physique, chimie, biologie,
etc.) qu’en sciences humaines (économie, sociologie, par exemple) et dans d’autres disciplines
(médecine, climatologie, informatique, réseaux de communication, traitement du signal, etc.).
Elle s’est même révélée utile dans de nombreux domaines de mathématiques pures (algèbre,
théorie des nombres, combinatoire, etc.) et appliquées (EDP, par exemple). Finalement, elle a
acquis une place importante en mathématiques de par son intérêt intrinsèque, et, de par sa
versatilité, possède un des spectres les plus larges en mathématiques, allant des problèmes les
plus appliqués aux questions les plus abstraites.
Le concept de probabilité est aujourd’hui familier à tout un chacun. Nous sommes constam-
ment confrontés à des événements dépendant d’un grand nombre de facteurs hors de notre
contrôle ; puisqu’il nous est impossible dans ces conditions de prédire exactement quel en sera
le résultat, on parle de phénomènes aléatoires. Ceci ne signifie pas nécessairement qu’il y ait
quelque chose d’intrinsèquement aléatoire à l’œuvre, mais simplement que l’information à notre
disposition n’est que partielle. Quelques exemples : le résultat d’un jeu de hasard (pile ou face,
jet de dé, roulette, loterie, etc.) ; la durée de vie d’un atome radioactif, d’un individu ou d’une
ampoule électrique ; le nombre de gauchers dans un échantillon de personnes tirées au hasard ;
le bruit dans un système de communication ; la fréquence d’accidents de la route ; le nombre de
SMS envoyés la nuit du 31 décembre ; le nombre d’étoiles doubles dans une région du ciel ; la
position d’un grain de pollen en suspension dans l’eau ; l’évolution du cours de la bourse ; etc.
5
6 CHAPITRE 0. INTRODUCTION
en 1563), ainsi qu’à Kepler 2 et Galilée 3 . Toutefois, il est généralement admis que la théorie
des probabilités débute réellement avec les travaux de Pascal 4 et de Fermat 5 . La théorie fut
ensuite développée par de nombreuses personnes, dont Huygens 6 , J. Bernoulli 7 , de Moivre 8 ,
D. Bernoulli 9 , Euler 10 , Gauss 11 et Laplace 12 . La théorie moderne des probabilités est fondée
sur l’approche axiomatique de Kolmogorov 13 , basée sur la théorie de la mesure de Borel 14 et
Lebesgue 15 . Grâce à cette approche, la théorie a alors connu un développement très rapide tout
au long du XXème siècle.
0.1.1 Univers.
Il s’agit d’un ensemble, noté habituellement , dont les éléments correspondent à tous les
résultats possibles de l’expérience aléatoire que l’on cherche à modéliser. On l’appelle également
l’espace des observables, ou encore l’espace échantillon.
Exemple 0.1.
1. Un tirage à pile ou face : = fP;Fg.
2. Deux tirages à pile ou face : = fPP;PF;FP;FFg.
3. Une suite de tirages à pile ou face se terminant à la première apparition d’un pile : =
fP;FP;FFP;FFFP; : : :g.
4. Une suite de lancers de dé : = f(ak )k1 : ak 2 f1; : : : ;6g; 8k 1g.
5. Taille d’une personne : = R+ .
6. Durée de vie d’une ampoule : = R+ .
7. L’évolution du cours d’une action sur un intervalle de temps [s;t] : = C ([s;t];R+ ), où
l’on a noté C (A;B ) l’ensemble des fonctions continues de A vers B .
2. Johannes Kepler (1571, Weil der Stadt - 1630, Ratisbonne), mathématicien, astronome et astrologue alle-
mand.
3. Galilée ou Galileo Galilei (1564, Pise - 1642, Arcetri), physicien et astronome italien.
4. Blaise Pascal (1623, Clermont - 1662, Paris), mathématicien, physicien, philosophe, moraliste et théologien
français. Auteur de nombreuses contributions majeures en mathématiques et en physique, il délaisse ces dernières
à la fin de 1654, à la suite d’une expérience mystique, et se consacre à la réflexion philosophique et religieuse.
5. Pierre de Fermat (1601, Beaumont-de-Lomagne - 1665, Castres), juriste et mathématicien français.
6. Christiaan Huygens (1629, La Haye — 1695, La Haye), mathématicien, astronome et physicien néerlandais.
7. Jacques ou Jakob Bernoulli ( 1654, Bâle - 1705, Bâle), mathématicien et physicien suisse.
8. Abraham de Moivre (1667, Vitry-le-François - 1754, Londres), mathématicien français.
9. Daniel Bernoulli (1700, Groningen - 1782, Bâle), médecin, physicien et mathématicien suisse.
10. Leonhard Euler (1707, Bâle - 1783, Saint-Pétersbourg), mathématicien et physicien suisse. Il est considéré
comme le mathématicien le plus prolifique de tous les temps. Complètement aveugle pendant les dix-sept dernières
années de sa vie, il produit presque la moitié de la totalité de son travail durant cette période.
11. Johann Carl Friedrich Gauss (1777, Brunswick - 1855, Göttingen), mathématicien, astronome et physicien
allemand.
12. Pierre-Simon Laplace (1749, Beaumont-en-Auge - 1827, Paris), mathématicien, astronome et physicien
français.
13. Andreï Nikolaïevich Kolmogorov (1903, Tambov - 1987, Moscou), mathématicien russe.
14. Félix Édouard Justin Émile Borel (1871, Saint-Affrique - 1956, Paris), mathématicien et homme politique
français.
15. Henri Léon Lebesgue (1875, Beauvais - 1941, Paris), mathématicien français.
0.1. MODÉLISATION DES PHÉNOMÈNES ALÉATOIRES 7
0.1.2 Événements
Un événement est une propriété dont on peut dire si elle est vérifiée ou non une fois le
résultat de l’expérience connu. Mathématiquement, un événement est caractérisé par l’ensemble
des résultats dans lesquels il est réalisé (un tel résultat est alors appelé une réalisation de
l’événement).
f(m;6) : m 2 f1;2;3;4;5;6gg :
2. L’événement « le premier lancer est supérieur au second » :
f(m;n) 2 : m > ng :
(Dans ce cas, il faudrait dire également comment interpréter les minima ci-dessus lorsque le 6
ou le 1 ne sortent jamais ; la convention usuelle est de poser min ∅ = +1.)
Ceci ne nous concernera pas pour la première partie de ce cours, dans laquelle nous supposons
l’univers fini ou dénombrable : dans ce cas, on verra que l’on peut associer à chaque événement
élémentaire sa probabilité, et en déduire la probabilité des événements composites. Les propriétés
1, 2 et 3’ deviennent alors, dans ce cadre-là, des conséquences de cette construction.
. le tirage avec remise, durant lequel chaque élément de l’ensemble peut être choisi à
plusieurs reprises ;
. le tirage sans remise, durant lequel chaque élément de l’ensemble ne peut être choisi
qu’au plus une fois (dans ce cas, on doit évidemment avoir r n).
Exemple 0.5. . On lance un dé 10 fois en notant la suite de résultats obtenus. On ob-
tient ainsi un échantillon de taille 10 correspondant à un tirage avec remise à partir de
l’ensemble f1; : : : ;6g.
. En Suisse, le résultat d’un tirage au loto correspond à extraire un échantillon de taille 6
par tirage sans remise à partir de l’ensemble f1; : : : ;42g 18 .
}
Lemme 0.1. On considère un ensemble A à n 1 éléments, et r 2 N.
1. Le nombre d’échantillons de taille r distincts que l’on peut obtenir par tirage avec
remise d’éléments de A est égal à nr .
2. Pour r n, le nombre d’échantillons de taille r distincts que l’on peut obtenir par
tirage sans remise d’éléments de A est égal à (n)r .
3. Le nombre de façons d’ordonner l’ensemble est égal à n!.
Démonstration. 1. Dans le cas du tirage avec remise, chacun des r éléments peut être choisi
de n façons différentes. Par conséquent, le nombre total d’échantillons possibles est égal à nr .
2. Dans le cas sans remise, le premier élément est choisi parmi n, le second parmi n 1 (celui
choisi lors du premier tirage ne pouvant pas être choisi à nouveau), le troisième parmi n 2,
etc. On a donc un nombre total d’échantillons possibles égal à (n)r .
3. Suit de 2. puisque cela revient à faire n tirages sans remise et que (n)n = n!.
Jusqu’à présent, il n’a pas été fait mention de probabilité. Lorsque nous parlerons d’échantillon
aléatoire de taille r, l’adjectif « aléatoire » signifiera que l’on a muni l’ensemble de tous les
échantillons possibles d’une mesure de probabilité. Sauf mention explicite du contraire, on
considérera la mesure uniforme.
Considérons à présent un échantillon aléatoire avec remise de taille r. On s’intéresse à l’évé-
nement « aucun élément n’a été choisi plus d’une fois ». Le Lemme 0.1 montre que, parmi les nr
échantillons possibles, (n)r satisfont cette contrainte. Par conséquent, la probabilité que notre
échantillon ne contienne pas de répétition est donnée par (n)r =nr . Ce résultat a des conséquences
qui peuvent sembler surprenantes.
Exemple 0.6. Supposons que, dans une certaine ville, il y ait 7 accidents par semaine. Alors,
durant la quasi-totalité des semaines, certains jours verront plusieurs accidents. En posant n =
r = 7, on voit en effet que la probabilité d’avoir exactement un accident chaque jour de la
semaine est seulement de 0;00612 : : : ; cela signifie qu’un tel événement n’aura lieu en moyenne
qu’environ une fois tous les trois ans ! }
Exemple 0.7. Supposons que 23 personnes se trouvent dans la même salle. Quelle est la probabi-
lité qu’au moins deux d’entre elles aient leur anniversaire le même jour ? On peut modéliser cette
situation, en première approximation, par un tirage aléatoire avec remise à partir de l’ensemble
f1; : : : ;365g, avec la mesure uniforme ; un modèle plus réaliste devrait prendre en compte les
années bissextiles, ainsi que les variations saisonnières du taux de natalité (sous nos latitudes,
le nombre de naissances est plus élevé en été qu’en hiver 19 , par exemple), etc. Pour le modèle
18. Notons toutefois que l’ordre ne joue par contre aucun rôle pour déterminer si une grille est gagnante
19. Ceci dit, considérer une répartition inhomogène des naissances ne peut qu’augmenter la probabilité d’avoir
plusieurs personnes avec la même date d’anniversaire...
0.2. QUELQUES RÉSULTATS COMBINATOIRES 11
0,9
0,8
0,7
0,6
probabilité
0,5
0,4
0,3
0,2
0,1
0
0 10 20 30 40 50 60 70 80 90 100
nombre de personnes
Figure 0.1: La probabilité qu’au moins deux personnes aient leur anniversaire à la même date, en fonction
de la taille du groupe.
précédent, il suit de la discussion ci-dessus que la probabilité qu’au moins deux des 23 personnes
aient leur anniversaire le même jour est donnée par 1 (365)23 =36523 = 0;507 : : : : il y a plus
d’une chance sur deux que ça ait lieu !
Cette probabilité est de 97% s’il y a 50 personnes, et de 99;99996% pour 100 personnes ; voir
la figure 0.1. }
Exemple 0.8.
Au poker, chaque joueur reçoit 5 cartes parmi 52. Le nombre de mains possibles est
52
donc de 5 = 2 598 960. Calculons alors la probabilité d’avoir 5 cartes de valeurs différentes.
On peut choisir ces valeurs de 13 5 façons différentes. Il faut ensuite associer à chacune une
couleur, ce qui donne un facteur additionnel 45 . Par conséquent, la probabilité en question est
52
donnée par 4 5 = 5 = 0;5071 : : :.
5 13 }
Exemple 0.9. Considérons la distribution aléatoire de r boules dans n urnes. Quelle est la
probabilité qu’une urne donnée contienne exactement k boules ? On peut choisir les k boules de
r façons. Les autres r k boules doivent être réparties parmi les n 1 urnes restantes, ce qui
k
peut se faire de (n 1)r k façons. Il s’ensuit que la probabilité en question est donnée par
! !
1 r r 1 1 r k
nr k
(n 1)r k = 1
k nk n
:
Il s’agit d’un cas particulier de la distribution binomiale, que nous reverrons plus tard. }
12 CHAPITRE 0. INTRODUCTION
Exemple 0.10. On offre à 100 condamnés à mort la possibilité d’être graciés s’ils parviennent à
gagner à un « jeu ». On les conduit donc tous dans une salle A et on leur décrit la procédure à
laquelle ils vont être soumis :
. Chaque prisonnier, à tour de rôle, sera conduit dans une salle B .
. La salle B contient 100 coffres, fermés, numérotés de 1 jusqu’à 100. Chacun des coffres
contient le nom d’un unique prisonnier, et le nom de chacun des prisonniers est contenu
dans un des coffres.
. Le prisonnier pourra alors ouvrir au plus 50 de ces 100 coffres, choisis comme il le désire.
. Si son nom se trouve dans un des coffres ouverts, on le conduira dans une salle C . Les
coffres seront alors refermés et on passera au prisonnier suivant.
. Si au moins un des prisonniers ne trouve son nom dans aucun des coffres qu’il aura
ouverts, tous les prisonniers seront exécutés. S’ils trouvent tous leur nom, ils seront
libérés.
Les prisonniers peuvent se mettre d’accord sur une stratégie commune afin de maximiser leur
chance de survie.
La « stratégie » naïve consistant, pour chacun des prisonniers, à ouvrir 50 des coffres au
hasard n’est guère prometteuse : chaque prisonnier a une chance sur deux de trouver son nom
dans les coffres qu’il ouvre (pourquoi ?), et les prisonniers seront donc exécutés avec probabilité
1 2 100 ...
Nous allons montrer qu’il existe une bien meilleure stratégie leur donnant plus de 30% de
chance de survie !
Cette stratégie (dont on peut montrer qu’elle est optimale) consiste pour les prisonniers à
procéder de la façon suivante :
. Les prisonniers commencent par se numéroter de 1 à 100 au hasard (uniformément).
. Lorsque le prisonnier auquel a été associé le numéro i est conduit dans la salle B , il
ouvre le coffre portant le numéro i et lit le nom qui y est contenu. S’il s’agit de son nom,
il s’interrompt et est conduit à la salle C . S’il ne s’agit pas de son nom, alors il s’agit
du nom d’un autre prisonnier dont le numéro est j . Il ouvre alors le coffre j , lit le nom
inscrit, et continue de la même façon jusqu’à ce qu’il ait soit ouvert 50 coffres, soit trouvé
son nom dans un des coffres.
Quelle est la probabilité pour que chaque prisonnier trouve son nom dans un des 50 coffres qu’il
ouvre ?
L’observation cruciale est qu’une fois les prisonniers numérotés, les noms contenus dans les
coffres définissent une permutation de l’ensemble f1; : : : ;100g : la permutation associe au numéro
inscrit sur le coffre le numéro correspondant au prisonnier dont le nom est contenu dans le coffre.
Cette permutation est aléatoire, puisqu’elle dépend de l’ordre dans lequel sont numérotés les
prisonniers. De plus, les permutations sont équiprobables, puisqu’il en est de même de l’ordre
de numérotation des prisonniers.
Ainsi, le prisonnier numéro i trouvera son nom dans l’un des 50 coffres qu’il ouvre si le cycle
de la permutation contenant l’élément i est de longueur au plus 50. En effet, dans ce cas, il va
nécessairement trouver un coffre contenant le nom associé au numéro i (ce qui ferme le cycle).
Or, c’est son nom qui est associé au numéro i.
On voit donc que pour que tous les prisonniers survivent, il est nécessaire et suffisant que
tous les cycles de la permutation soient de longueur au plus 50. On est donc conduit au
problème combinatoire suivant.
Soit S2n l’ensemble des permutations de f1; : : : ;2ng. On munit cet ensemble de la mesure
de probabilité uniforme, c’est-à-dire f ( ) = 1=(2n)!, pour toute permutation 2 S2n .
On veut déterminer la probabilité de l’événement
Il nous faut donc déterminer la cardinalité de A. Il est en fait plus simple de déterminer celle de
l’événement complémentaire « il existe exactement un cycle de longueur strictement supérieure
à n » (pourquoi peut-on écrire « exactement » ?). Dans ce cas, on peut commencer par fixer la
longueur ` > n du plus grand cycle. Le nombre de façons de choisir les ` éléments composant ce
dernier est 2`n . Il convient ensuite de les ordonner afin de former un cycle : ceci peut se faire
de (` 1)! façons différentes (observez que les ordres 1;5;3;7 et 3;7;1;5, par exemple, décrivent
le même cycle !). Finalement, il reste à considérer toutes les permutations possibles des 2n `
éléments n’appartenant pas au plus grand cycle, ce qui contribue un facteur (2n `)!. On obtient
donc finalement que le nombre de permutations appartenant à A est égale à
!
2n 2n
X 2n X 1
(2n)! (` 1)!(2n `)! = (2n)! (2n)! ;
`=n+1 ` `=n+1 `
et la probabilité recherchée est donc
2n
X 1
P(A) = 1 :
`=n+1 `
En particulier, pour tout n,
Z 2n
1
P(A) 1 dx = 1 log 2 > 30%:
n x
}
0.2.3 Partitionnement
Finalement, considérons le nombre de façons de partitionner une population en k sous-
populations de tailles données.
Lemme 0.3. Soit r1 ; : : : ;rk des entiers positifs (éventuellement nuls) tels que r1 + + rk =
n. Le nombre de façons de répartir n objets dans k familles, de sorte à ce que la ième famille
contienne ri éléments, est égal à
n!
:
r1 !r2 ! rk !
Démonstration.
Pour remplir la première famille, il faut choisir r1 objets parmi n, ce qui peut
se faire de rn1 façons. Pour remplir la seconde famille, il faut choisir r2 objets parmi les n r1
objets restants, soit n r2r1 possibilités. En continuant ainsi, on obtient que le nombre de telles
répartitions est de
! ! ! !
n
r1
n r1
r2
n r1 r2
r3
n r1 r rk 1
=
n!
r1 !r2 ! rk !
:
k
Exemple 0.11. À une table de bridge, les 52 cartes sont distribuées à 4 joueurs. Quelle est
la probabilité que chacun reçoive un as ? Le nombre total de différentes répartitions est de
52!=(13!)4 . Les 4 as peuvent être ordonnés de 4! façons différentes, et chaque ordre correspond
à une façon de les répartir parmi les 4 joueurs. Les 48 cartes restantes peuvent ensuite être
réparties de 48!=(12!)4 façons. Par conséquent, la probabilité en question est de
48! . 52!
4! = 0;105 : : :
(12!)4 (13!)4
}
14 CHAPITRE 0. INTRODUCTION
20. Sir Isaac Newton (1643, Woolsthorpe-by-Colsterworth – 1727, Londres), philosophe, mathématicien, phy-
sicien, alchimiste, astronome et théologien anglais.
21. James Stirling (1692, Garden – 1770, Leadhills), mathématicien britannique.
Première partie
Résumé
Dans cette partie du cours, nous nous restreindrons au cas où l’univers associé à l’expé-
rience aléatoire est fini ou dénombrable. On parle alors d’espaces de probabilité discrets. La
formulation mathématique de la théorie est beaucoup plus simple dans ce cas, mais permet
déjà d’étudier de nombreux problèmes d’intérêt.
Chapitre 1
Probabilité, probabilité
conditionnelle et indépendance
Définition 1.2. Soit un ensemble fini ou dénombrable et f une fonction de masse sur
. La probabilité de l’événement A est définie par
X
P(A) = f (! ):
! 2A
L’application P : P ( ) ! [0;1] est la mesure de probabilité sur associée à la fonction de
masse f . La paire ( ;P) définit un espace de probabilité discret.
}
Énonçons à présent quelques propriétés élémentaires, mais extrêmement importantes de
telles mesures de probabilité.
P(A) P(B ):
Un cas particulièrement important est celui où la même probabilité est associée à chaque résultat
possible de l’expérience. Bien entendu, ceci n’est possible que si est fini (pourquoi ?).
N A \B N A \ B N
= :
NB N NB
2. Pál Erdős (1913, Budapest – 1996, Varsovie), également ortographié Paul Erdős, Paul Erdös ou Paul Erdos,
mathématicien hongrois.
3. Alfréd Rényi (1921, Budapest – 1970, Budapest), mathématicien hongrois.
1.2. PROBABILITÉ CONDITIONNELLE, FORMULE DE BAYES 21
Définition 1.4. Soit B un événement tel que P(B ) > 0. Pour tout A , la probabilité
conditionnelle de A sachant B est la quantité
P(A \ B )
P(A j B ) = :
P(B )
Lemme 1.1. Soit B un événement tel que P(B ) > 0. Alors l’application P( j B ) :
P ( ) ! R est une mesure de probabilité sur et sur B .
Démonstration. On vérifie aisément que la fonction
(
P(f! g)=P(B ) si ! 2 B ,
fjB (!) =
0 sinon,
P
est une fonction de masse sur et sur B , et que P(A j B ) = !2A fjB (! ), pour tout A .
Exemple 1.4. On jette deux dés non pipés. Sachant que le premier jet nous donne 3, quelle est
la probabilité que la somme soit supérieure à 6 ? Ici, B = f(3;k) : k = 1; : : : ; 6g, A = f(a;b) 2
f1; : : : ;6g2 : a + b > 6g, et A \ B = f(3;4);(3;5);(3;6)g. On a alors
P(A \ B ) jA \ B j = 3 = 1 :
P(A j B ) = =
P(B ) jB j 6 2
}
Exemple 1.5. Considérons les deux problèmes suivants :
. Vous êtes invité chez une personne dont vous savez qu’elle a exactement deux enfants.
Lorsque vous sonnez à sa porte, un garçon vient vous ouvrir. Quelle est la probabilité
que l’autre enfant soit également un garçon ?
. Vous êtes invité chez une personne dont vous savez qu’elle a exactement deux enfants.
Lorsque vous sonnez à sa porte, un garçon vient vous ouvrir. Vous entendez un bébé
pleurer dans la maison. Quelle est la probabilité que l’autre enfant soit également un
garçon ?
Nous allons voir que les réponses à ces deux problèmes ne sont pas les mêmes : dans le premier
cas, la probabilité est de 1=3, alors que dans le second elle est de 1=2. Afin de vérifier cela,
formalisons plus précisément ces deux situations.
Dans les deux cas, on considère pour l’ensemble de toutes les possibilités pour les sexes des
deux enfants. On a donc = f(G; G); (F; F); (F; G); (G; F)g, où le premier membre de chaque
paire représente le sexe de l’aîné et le second celui du cadet. L’intérêt de distinguer l’aîné et
le cadet est que la mesure de probabilité décrivant notre problème devient uniforme : chacune
de ces 4 possibilités a probabilité 1=4. On désire déterminer la probabilité que les deux enfants
soient des garçons (conditionnellement aux informations disponibles dans chacune des deux
situations décrites), ce qui correspond à l’événement A = f(G; G)g.
Considérons à présent la première situation. L’information que vous obtenez lorsqu’un garçon
ouvre la porte est qu’au moins un des deux enfants est un garçon, ce qui correspond à l’événement
B = f(G; G); (F; G); (G; F)g. On obtient donc
P(f(G; G)g) 1
P(A j B ) = = :
P(f(G; G); (F; G); (G; F)g) 3
22 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE
P(f(G; G)g) 1
P(A j C ) = = :
P(f(G; G); (G; F)g) 2
}
Définition 1.5. Une famille (Bi )i2I , I fini ou dénombrable, est une partition de si
[
Bi \ Bj = ∅, dès que i 6= j , et Bi = :
i 2I
En dépit de sa simplicité, le théorème suivant est crucialement important en théorie des proba-
bilités.
Théorème 1.2. Soit (Bi )i2I une partition de telle que P(Bi ) > 0, pour tout i 2 I , et soit
A .
1. (Loi de la probabilité totale)
X
P(A) = P(A j Bi )P(Bi ):
i2 I
P(A j Bi )P(Bi )
P(Bi j A) = P :
j 2I P(A j Bj )P(Bj )
Exemple 1.6. On se donne deux urnes. La première contient deux balles rouges et trois balles
bleues ; la seconde trois rouges et quatre bleues. Une balle est tirée au hasard de la première
urne et placée dans la seconde. On tire ensuite au hasard une balle de la seconde urne : quelle
est la probabilité qu’elle soit bleue ?
Soit A l’événement « la balle tirée de la seconde urne est bleue », et B l’événement « la balle
déplacée de la première urne à la seconde est bleue ». Puisque B et B c forment une partition
de , une application de la loi de la probabilité totale donne
À présent,
P(A j B ) = P(A j la 2ème urne contient trois balles rouges et cinq bleues) = 58 ;
P(A j B c ) = P(A j la 2ème urne contient quatre balles rouges et quatre bleues) = 21 :
5=8 A \ B
3=5 B
3=8 A \ B
c
1=2 A \ B c
2=5 B c
1=2 A \ B
c c
}
Exemple 1.7. Le test de dépistage d’un certain virus n’est pas infaillible :
. 1 fois sur 100, il est positif, alors que l’individu n’est pas contaminé ;
. 2 fois sur 100, il est négatif, alors que l’individu est contaminé.
Il est donc important de répondre aux questions suivantes :
1. Étant donné que son test est positif, quelle est la probabilité qu’un individu ne soit pas
porteur du virus ?
2. Étant donné que son test est négatif, quelle est la probabilité qu’un individu soit porteur
du virus ?
La formule de Bayes est parfaitement adaptée à ce type de calculs. Afin de pouvoir l’appliquer,
il nous faut une information supplémentaire : dans la population totale, la fraction de porteurs
est approximativement de 1=1000.
Formalisons tout cela. On introduit les événements suivants :
et on veut calculer
1. P(V c j T ); 2. P(V j T c ):
La formule de Bayes nous dit que
P(T j V c )P(V c )
P(V c j T ) =
P(T j V c)P(V c) + P(T j V )P(V ) :
Nous connaissons toutes les valeurs correspondant aux quantités du membre de droite (observez
que P(T j V ) = 1 P(T c j V ) = 98=100). On obtient donc
100 1000
1 999
P(V c j T ) = 1 = 0;91 : : :
100 1000 + 100 1000
999 98 1
Même si son test est positif, un individu a plus de 90% de chances de ne pas être porteur du
virus !
24 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE
P(V j T c) = 0;00002:::
ce qui montre que c’est bien là que se trouve l’utilité de ce test, puisque la probabilité de déclarer
non porteur un individu contaminé est de l’ordre de 2=100 000.
Observez que le calcul ci-dessus ne s’applique qu’à un individu « normal ». Dans le cas
d’un individu appartenant à une population à risques, la probabilité à priori d’être porteur,
P(V ), peut devenir proche de 1 et non pas très petite comme précédemment. Cela change
complètement les conclusions : dans ce cas, la probabilité d’être non porteur alors que le test
est positif est minuscule, tandis que la probabilité d’être porteur alors que le test est négatif est
très importante. }
L’usage des probabilités conditionnelles peut se révéler très délicat, et l’intuition peut parfois
jouer des tours, comme le montrent les exemples suivants.
Exemple 1.8. Un bienfaiteur vous propose le jeu suivant. Il va vous présenter 3 enveloppes
fermées ; 2 d’entre elles contiennent du papier journal, la dernière un chèque de 1 000 000 CHF.
Vous devrez choisir une enveloppe, sans l’ouvrir. Il ouvrira ensuite une des deux enveloppes
restantes et vous montrera qu’elle contient du papier journal. Vous aurez alors le choix entre
conserver l’enveloppe choisie initialement, ou bien changer pour celle qui reste. Quelle est la
meilleure stratégie ? (Réponse : vous avez deux fois plus de chances de gagner si vous changez ;
pourquoi ?) }
Exemple 1.9. (Paradoxe du prisonnier) Trois hommes se sont faits arrêter dans une sombre
dictature. Ils apprennent de leur garde que le dictateur a décidé arbitrairement que l’un d’entre
eux va être libéré, et les 2 autres exécutés ; le garde n’est pas autorisé à annoncer à un prisonnier
quel sera son sort. Le prisonnier A sait donc que la probabilité qu’il soit épargné est de 1=3.
Afin d’obtenir davantage d’informations, il décide d’interroger le garde. Il lui demande de lui
donner en secret le nom d’un de ses camarades qui sera exécuté. Le garde nomme le prisonnier
B . Le prisonnier A sait à présent qu’entre lui-même et C , l’un va être libéré, et l’autre exécuté.
Quelle est la probabilité que A soit exécuté ? }
Remarque 1.3. Dans les 2 exemples précédents, le problème est partiellement mal posé,
car la stratégie employée par votre bienfaiteur, ou par le garde, lorsqu’ils ont à prendre
une décision n’est pas indiquée. Dans une telle situation, supposez qu’il prend sa décision
de façon uniforme (après tout, vous n’avez aucune information sur le sujet, et tout autre
choix serait difficile à justifier).
Si les exemples précédents sont très artificiels et se règlent facilement en appliquant avec
soin les règles de la théorie des probabilités, l’exemple suivant montre que des difficultés réelles,
subtiles et difficiles à traiter apparaissent également dans des applications pratiques.
Exemple 1.10. (Paradoxe de Simpson 4 ) Un scientifique a effectué des expériences cliniques afin
de déterminer les efficacités relatives de deux traitements. Il a obtenu les résultats suivants :
Traitement A Traitement B
Succès 219 1010
Échec 1801 1190
Le traitement A ayant été administré à 2020 personnes, et 219 d’entre elles ayant été guéries,
son taux de succès est donc de 219=2020, ce qui est très inférieur au taux correspondant pour
4. Edward Hugh Simpson. Ce paradoxe, discuté par ce dernier en 1951, l’avait déjà été en 1899 par Karl
Pearson et ses coauteurs, puis en 1903 par George Udny Yule.
1.3. INDÉPENDANCE 25
le traitement B qui est de 1010=2200. Par conséquent, le traitement B est plus efficace que le
traitement A.
Après qu’il ait annoncé sa conclusion, il reçoit la visite de l’un de ses assistants, qui est en
désaccord avec l’interprétation des résultats. Il lui présente le tableau suivant, dans lequel les
résultats précédents sont donnés en tenant compte du sexe des patients :
Femmes Hommes
Traitement A Traitement B Traitement A Traitement B
Succès 200 10 19 1000
Échec 1800 190 1 1000
Chez les femmes, les taux de succès des traitements sont de 1=10 et 1=20 respectivement, et
chez les hommes de 19=20 et 1=2. Le traitement A est donc plus efficace dans les 2 cas. Par
conséquent, le traitement A est plus efficace que le traitement B.
Bien entendu, c’est l’assistant qui a raison : quel que soit le sexe du patient, ses chances de
guérir sont supérieures avec le traitement A.
Ce paradoxe apparaît régulièrement dans des études statistiques. Observez aussi la difficulté
suivante : si l’on n’avait pas relevé le sexe des patients, on aurait été obligé de baser notre
analyse sur le premier raisonnement, et on serait arrivé à une conclusion erronée. En particulier,
comment être certain qu’il n’existe pas d’autres paramètres que le sexe (l’âge, le poids, . . . ) dont
on n’aurait pas tenu compte et qui modifierait une fois de plus la conclusion ?
Un cas réel célèbre s’est produit lorsque l’université de Berkeley a été poursuivie pour dis-
crimination sexuelle en 1973 : les chiffres des admissions montraient que les hommes ayant posé
leur candidature avaient plus de chance d’être admis que les femmes, et la différence était si
importante qu’elle ne pouvait raisonnablement être attribuée au hasard (44% contre 35%). Ce-
pendant, après avoir analysé séparément les différents départements, on a découvert qu’aucun
département n’était significativement biaisé en faveur des hommes ; en fait, la plupart des dé-
partements avaient un petit (et pas très significatif) biais en faveur des femmes ! L’explication
se trouve être que les femmes avaient tendance à porter leur choix sur des départements dont
les taux d’admission sont faibles, tandis que les hommes avaient tendance à postuler dans des
départements avec forts taux d’admission. }
1.3 Indépendance
En général, l’information qu’un événement B est réalisé modifie la probabilité qu’un autre
événement A soit réalisé : la probabilité à priori de A, P(A), est remplacée par la probabilité à
posteriori, P(A j B ), en général différente. Lorsque l’information que B est réalisé ne modifie pas
la probabilité d’occurrence de A, c’est-à-dire lorsque P(A j B ) = P(A), on dit que les événements
A et B sont indépendants. Il y a au moins deux bonnes raisons pour ne pas utiliser cette propriété
comme définition de l’indépendance : d’une part, elle n’a de sens que lorsque P(B ) > 0, et
d’autre part, les deux événements ne jouent pas un rôle symétrique. La notion de probabilité
conditionnelle conduit donc à la définition suivante.
Définition 1.6. Deux événements A et B sont indépendants sous P si
P(A \ B ) = P(A)P(B ):
Plus généralement, une famille d’événements (Ai )i2I est indépendante sous P si
\ Y
P( A i ) = P(Ai );
i2 J i2 J
pour tous les sous-ensembles finis J de I .
26 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE
T Q
Exemple 1.11. Il ne suffit pas, en général, de vérifier que P( i2I Ai ) = i2I P(Ai ) : il est essentiel
de vérifier que la factorisation a lieu pour toute collection finie d’événements. Par exemple, si
l’on jette 2 dés équilibrés de couleur différentes, = f(i;j ) : 1 i;j 6g, et que l’on considère
les événements
}
Proposition 1.1. Soient A;B deux événements indépendants. Alors A et B c sont indépen-
dants, et Ac et B c sont indépendants.
Plus généralement, si A1 ; : : : ;An sont indépendants, alors
B1 ; : : : ;Bn ;
où Bi 2 fAi ;Aci g, sont aussi indépendants.
Remarque 1.4. Si une famille d’événements (Ai )i2I satisfait P(Ai \ Aj ) = P(Ai )P(Aj ),
pour toute paire i 6= j , on dit que la famille est 2 à 2 indépendante. L’indépendance 2 à 2
n’implique pas l’indépendance, comme le montre l’exemple suivant.
Exemple 1.12. On place dans une boîte 4 billets sur lesquels sont respectivement inscrits les 4
nombres suivants : 112, 121, 211 et 222. On tire au hasard un des 4 billets (uniformément) et
on considère les événements suivants :
N 1
m
P(i j ) = m 1
N = :
m N
En effet, le numérateur correspond au nombre total de façons de choisir les m 1 arêtes restantes
parmi les N 1 arêtes encore disponibles.
D’autre part, soient i;j;k;` quatre sommets tels que fi;j g 6= fk;`g. La probabilité qu’on ait
à la fois i j et k ` est donnée par
N 2
m(m 1)
P(i j; k `) = m 2
N = :
m N (N 1)
On voit donc que les événements ij et k ` ne sont pas indépendants. }
Il convient d’être attentif lorsque l’on utilise la notion d’indépendance. En particulier, l’idée
intuitive d’indépendance peut être parfois mise en défaut, comme le montrent les deux exemples
suivants.
Exemple 1.14. Un événement peut être indépendant de lui-même. En effet, ceci a lieu si et
seulement s’il a probabilité 0 ou 1, puisque, dans ce cas, on a bien
}
Exemple 1.15. Considérons des familles avec 3 enfants et intéressons-nous au sexe des enfants ;
on suppose que chacune des 8 possibilités a la même probabilité 1=8. Soit A l’événement « la
famille a des enfants des 2 sexes », et B l’événement « la famille a au plus une fille ». On a
P(A) = 87 ; 5;
P(B ) = 16 P(A \ B ) = 14 ;
Plus généralement, une famille d’événements (Ai )i2I est indépendante conditionnellement
à C sous P si \ Y
P( Ai j C ) = P(Ai j C );
i2 J i2 J
pour tous les sous-ensembles finis J de I .
28 CHAPITRE 1. PROBABILITÉ, INDÉPENDANCE
2 = fPP;PF;FP;FFg;
et f2 est déterminée par f2 (PP) = p2 , f2 (PF) = f2 (FP) = pq et f2 (FF) = q 2 . }
On peut aisément itérer la construction ci-dessus de façon à décrire la répétition d’un nombre
fini quelconque N d’expériences identiques et indépendantes. On obtient alors l’univers N =
1 1 (n fois), et la fonction de masse fn (!1 ; : : : ;!n ) = f1 (!1 ) f1 (!n ).
Comme on le verra, il sera souvent pratique de considérer la répétition d’un nombre infini
d’expériences identiques et indépendantes. L’univers correspondant n’est alors plus dénombrable
et une construction plus sophistiquée est nécessaire. Nous y reviendrons plus tard.
Chapitre 2
Dans un tel cas, il est en général plus utile de se concentrer sur certaines propriétés numériques de
cette réalisation, comme, par exemple, le nombre d’arêtes incidentes en un sommet, le nombre de
composantes connexes, ou la taille de la plus grande composante connexe. Mathématiquement,
de telles valeurs numériques sont des fonctions X : ! R associant à un résultat de l’expérience
une valeur dans R. Une telle fonction est appelée variable aléatoire.
Définition 2.1. Soit ( ;P) un espace de probabilité discret. Une variable aléatoire discrète
est une application X : ! R.
Remarque 2.1. Il est parfois naturel d’autoriser des variables aléatoires à prendre des
valeurs infinies. Bien sûr, ceci n’a d’influence que si la probabilité d’obtenir une valeur
infinie est strictement positive. Une variable aléatoire X telle que P(X = 1) > 0 est
29
30 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
dite défective. Dans la suite, les variables aléatoires seront supposées non-défectives, sauf
mention explicite du contraire.
Exemple 2.1. On considère le graphe aléatoire G (n;m). Pour chaque k 2 N, la fonction Nk
donnant le nombre de sommets ayant k arêtes incidentes est une variable aléatoire. Dans la
réalisation de G (8;4) représentée dans l’Exemple 1.3, on a N0 = 1, N1 = 6, N2 = 1, et Nk = 0
pour les autres valeurs de k. }
Soit ( ;P) un espace de probabilité discret et X : ! R une variable aléatoire. Les probabilités
qui vont nous intéresser prennent la forme
P(f! 2 : X (! ) 2 Ag) = P(X 1 (A)) P(X 2 A);
pour certains sous-ensembles A R. La mesure de probabilité P sur et la variable aléatoire
X induisent une mesure de probabilité PX sur R en posant, pour A R,
PX (A) = P(X 2 A):
Évidemment, R n’est pas un ensemble dénombrable. Toutefois, la mesure de probabilité PX
n’associe une probabilité non-nulle qu’aux éléments du sous-ensemble dénombrable ou fini X ( ).
On peut donc, en faisant un léger abus de langage, considérer le couple (R;PX ) comme un espace
de probabilité discret.
Définition 2.2. La mesure de probabilité PX sur R définie par
Exemple 2.2. Considérons le lancer de deux dés non pipés, et notons X la variable aléatoire
correspondantpà la somme des valeurs obtenues. Alors, la probabilité que la somme appartienne
à l’intervalle [ 5; + 1] est donnée par
p 5
PX ([ 5; + 1]) = P(X 2 f3;4g) = P(f(1;2);(2;1);(1;3);(3;1);(2;2)g) = :
36
}
La mesure de probabilité PX contient toute l’information nécessaire pour étudier les pro-
priétés statistiques de la variable aléatoire X ; en particulier, si l’on n’est intéressé que par cette
variable aléatoire, l’espace de probabilité de départ ( ;P) peut être complétement ignoré, et
souvent n’est même pas spécifié, l’espace de probabilité pertinent étant (R;PX ) (ou, de façon
équivalente, (X ( );PX )). Bien entendu, lorsque n’est plus explicitement mentionné, la va-
riable aléatoire est dite discrète s’il existe un sous-ensemble K R, au plus dénombrable, tel
que PX (K ) = 1.
0.18 0.3
0.16
0.25
0.14
0.12 0.2
0.1
0.15
0.08
0.06 0.1
0.04
0.05
0.02
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k
Figure 2.1: Loi binomiale pour n = 20; p = 0;5 (gauche) et n = 20; p = 0;1 (droite).
Loi de Bernoulli
La loi d’une variable aléatoire X : ! f0;1g, avec fX (1) = p, fX (0) = 1 p, p 2 [0;1], est
appelée loi de Bernoulli de paramètre p. On écrit X bernoulli(p).
On parle souvent d’épreuve de Bernoulli, et les événements fX = 1g et fX = 0g sont
respectivement appelés succès et échec.
Exemple 2.3. 1. Un lancer à pile ou face est une épreuve de Bernoulli (avec, par exemple,
X (P) = 1 et X (F) = 0).
2. Pour tout A , la fonction indicatrice de A, 1A : ! f0;1g, définie par
(
1 si ! 2 A,
1A (! ) =
0 si ! 62 A,
est une variable aléatoire discrète suivant une loi de Bernoulli de paramètre P(A).
}
Loi binomiale
Répétons n fois de manière indépendante une épreuve de Bernoulli de paramètre p, et notons
X la variable aléatoire représentant le nombre de succès obtenus à l’issue des n épreuves. La
loi de X est appelée loi binomiale de paramètres n et p ; X binom(n; p). Puisqu’il y a nk
façons d’obtenir k succès sur n épreuves, on voit que la fonction de masse associée à cette loi
est donnée par !
n k
fX (k) = p (1 p)n k ; k 2 f0; : : : ;ng:
k
Loi de Poisson
Une variable aléatoire X suit une loi de Poisson 1 de paramètre > 0, X poisson(), si
elle prend ses valeurs dans N et possède la fonction de masse
k
fX (k) = e ; k 2 N:
k!
1. Siméon Denis Poisson (1781, Pithiviers – 1840, Sceaux), mathématicien, géomètre et physicien français.
32 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
0.4 0.18
0.35 0.16
0.3 0.14
0.12
0.25
0.1
0.2
0.08
0.15
0.06
0.1 0.04
0.05 0.02
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k
0.2 0.5
0.18 0.45
0.16 0.4
0.14 0.35
0.12 0.3
0.1 0.25
0.08 0.2
0.06 0.15
0.04 0.1
0.02 0.05
0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k
Considérons une variable aléatoire X suivant une loi binomiale de paramètres n et p, avec n
très grand et p très petit (modélisant par exemple la transmission d’un gros fichier via internet :
n est la taille en bits du fichier, et p la probabilité qu’un bit donné soit modifié pendant la
transmission). Alors X suit approximativement une loi de Poisson de paramètre = np (c’est
ce qu’on appelle parfois la loi des petits nombres). Plus précisément,
!
n k
fX (k) = p (1 p)n k
k
1 nn 1n 2 n k+1
=
k! n n n
n (np)k (1 p)n k :
À présent, en prenant, à k fixé, les limites n ! 1 et p ! 0 de telle sorte que np ! , on voit
que chacun des rapports (n i)=n converge vers 1, que (np)k converge vers k , que (1 p)n
converge vers e , et que (1 p) k tend vers 1. Par conséquent,
k
!1 fX (k) = k! e ;
nlim
p!0
np!
pour chaque k 2 N.
Loi géométrique
Répétons de façon indépendante une épreuve de Bernoulli de paramètre p jusqu’à ce que
le premier succès ait lieu. La variable aléatoire X correspondant au temps du premier succès
2.1. VARIABLES ALÉATOIRES DISCRÈTES ET LEURS LOIS 33
suit la loi géométrique de paramètre p ; X geom(p). La fonction de masse associée est donc
donnée par
fX (k) = p(1 p)k 1 ; k 2 N :
Une propriété remarquable de la loi géométrique est sa perte de mémoire.
Lemme 2.1. Soit X une variable aléatoire suivant une loi géométrique. Alors, pour tout
k 1,
P(X = n + k j X > n) = P(X = k) 8n 2 N:
Démonstration. On a
Cette propriété dit par exemple que même si le numéro 53 (sur 90 numéros possibles) n’est pas
sorti pendant 178 tirages consécutifs à la loterie, cela ne rend pas sa prochaine apparition plus
probable 2 .
Loi hypergéométrique
Une urne contient N boules, dont b sont bleues et r = N b sont rouges. Un échantillon
de n N boules est tiré de l’urne, sans remise. On vérifie facilement que le nombre B de
boules bleues dans l’échantillon suit la loi hypergéométrique de paramètres N , b et n, B
hypergeom(N; b; n), dont la fonction de masse est 3
! ! !
b N b N
fB (k) = ; k 2 f(n r) _ 0; : : : ;b ^ ng:
k n k n
Démonstration. Exercice.
Ce lemme montre qu’il est possible de remplacer la loi hypergéométrique de paramètres N;b
et n par une loi binomiale de paramètres n et p = b=N dès que la taille n de l’échantillon est
suffisamment petite par rapport à la taille N de la population. Ceci est intuitif, puisque si l’on
effectue un tirage avec remise d’un petit échantillon à partir d’une grande population, il y a
très peu de chances de tirer le même individu deux fois... Dans la pratique, on remplace la loi
hypergéométrique dès que 10n < N . Un exemple classique concerne le sondage. On considère
fréquemment le sondage de n personnes comme n sondages indépendants alors qu’en réalité le
sondage est exhaustif (on n’interroge jamais deux fois la même personne). Comme n (nombre
de personnes interrogées) < N (population sondée)=10, cette approximation est légitime.
34 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
0.09 0.03
0.08
0.025
0.07
0.06 0.02
0.05
0.015
0.04
0.03 0.01
0.02
0.005
0.01
0 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
k k
Figure 2.4: Loi de Pascal dans le cas k + r = 20 pour p = 0;5 (gauche) et p = 0;1 (droite).
Loi de Pascal
Si X représente le nombre d’échecs avant le rème succès d’une suite d’épreuves de Bernoulli,
alors X suit la loi de Pascal de paramètres r et p, X pascal(r; p), dont la fonction de masse
est (pourquoi ?) !
k+r 1 r
fX (k) = p (1 p)k ; k = 0;1; : : :
k
On parle également de loi binomiale négative ou de loi de Pólya 4 .
Dans certaines applications, il est utile d’autoriser le paramètre r à prendre des valeurs
réelles positives pas nécessairement entières.
Définition 2.3. Deux variables aléatoires X et Y sur un espace de probabilité ( ;P) sont
indépendantes si et seulement si les événements
fX 2 Ag et fY 2 B g
sont indépendants pour tout A;B R. Plus généralement, une famille de variables aléa-
toires (Xi )i2I est indépendante si les événements
fXi 2 Aig; i 2 J;
sont indépendants pour tout Ai R, i 2 J , et tout J I fini.
Le résultat suivant montre qu’il est suffisant de vérifier l’indépendance pour les singletons.
2. Cela s’est produit en 2005 en Italie. De très, très nombreux Italiens ont misé de grosses sommes, certains
tout ce qu’ils possédaient. Le total des mises s’est élevé à 4 milliards d’euros, et cette histoire s’est terminée par
de nombreuses ruines et même des suicides...
3. On utilise les notations usuelles : a _ b = max(a;b) et a ^ b = min(a;b).
4. George Pólya (1887, Budapest – 1985, Palo Alto), mathématicien hongrois.
2.3. VECTEURS ALÉATOIRES DISCRETS 35
Lemme 2.3. La famille (Xi )i2I de variables aléatoires est indépendante si et seulement si
les événements
fXi = xig; i 2 J;
sont indépendants pour tout xi 2 R, i 2 J , et tout J I fini.
Intuitivement, si l’information procurée par une variable aléatoire X ne nous renseigne pas sur
une autre variable aléatoire Y , alors il doit en être de même pour des fonctions de X et Y . C’est
ce que montre le lemme suivant.
Lemme 2.4. Soient (Xi )i2I une famille de variables aléatoires indépendantes, et ('i )i2I
une famille de fonctions de R ! R. Alors la famille
Définition 2.4. Une famille de variables aléatoires (Xi )i2I est dite i.i.d. ( indépendantes
et identiquement distribuées) si elle est indépendante et tous les Xi ont la même loi.
Exemple 2.4. On demande à deux élèves de faire deux jets à pile ou face chacun, et de relever
les résultats. L’élève appliqué jette deux fois la pièce, obtenant une paire (X1 ;X2 ). L’élève
paresseux ne jette la pièce qu’une fois et écrit le résultat deux fois, obtenant une paire (Y1 ;Y2 )
avec Y1 = Y2 . Il est clair que X1 ; X2 ; Y1 ; Y2 sont toutes des variables aléatoires de même loi, et en
particulier fX1 = fX2 = fY1 = fY2 . Or ces couples ont des propriétés satistiques très différentes :
P(X1 = X2 ) = 21 , P(Y1 = Y2 ) = 1. }
Une façon de résoudre ce problème est de considérer X et Y non pas comme deux variables
aléatoires, mais comme les composantes d’un vecteur aléatoire (X;Y ) prenant ses valeurs dans
R2 .
Exemple 2.5. Dans le cas de l’exemple précédent, on a alors
Définition 2.5. On appelle loi conjointe du vecteur aléatoire X = (X1 ; : : : ;Xn ) la mesure
de probabilité sur Rn définie par
Le lemme suivant montre comment on peut récupérer les fonctions de masse marginales à partir
de la fonction de masse conjointe.
Lemme 2.5. X
fXi (xi ) = f(X1 ;:::;Xn ) (x1 ; : : : ;xn ):
x1 ;:::;xi 1 ;xi+1 ;:::;xn
f(X1 ;:::;Xn ) (x1 ; : : : ;xn ) = fX1 (x1 ) fXn (xn ); 8(x1; : : : ;xn) 2 Rn:
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 37
où l’on a noté E l’ensemble des valeurs possibles (supposé discret) et N (x) le nombre d’expé-
riences ayant donné le nombre x. Supposons qu’on modélise cette expérience par une famille
X1 ; : : : ;Xn de variables aléatoires discrètes indépendantes de même fonction de masse f . On
s’attend alors à ce que, pour chaque valeur x 2 E , la fraction N (x)=N soit proche de la proba-
P
bilité f (x). Par conséquent, x2E xf (x) devrait fournir une approximation asymptotiquement
correcte de m ; on appelle la quantité correspondante espérance.
Définition 2.8. Soit X une variable aléatoire discrète et soit fX sa fonction de masse. On
dit que X admet une espérance si
X
jxjfX (x) < 1:
x2 X ( )
Remarque 2.2. La condition d’absolue sommabilité est importante : elle garantit que
l’espérance ne dépend pas de l’ordre dans lequel les termes sont sommés.
La seule exception est lorsque la variable aléatoire possède un signe bien défini. Dans
ce cas, si cette dernière n’est pas absolument sommable, on définit l’espérance comme
étant égale à +1, resp. 1, pour une variable aléatoire positive, resp. négative.
Remarque 2.4. On utilise souvent l’espérance pour déterminer si un jeu est équitable :
si X représente le gain à la fin du jeu (donc une perte s’il est négatif ), alors l’espérance
donne le gain moyen.
Par exemple, considérons le jeu suivant : on lance un dé (équilibré) et on reçoit n CHF
si le dé indique n. Dans ce cas, le joueur va recevoir en moyenne 3;5 CHF. Le jeu lui sera
38 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
donc favorable si sa mise initiale est inférieure à ce montant et défavorable si elle lui est
supérieure.
On pourrait être tenté de dire plus généralement qu’un jeu vaut la peine d’être joué si
E(X ) > 0 puisqu’en moyenne on gagne plus qu’on ne perd. Il faut cependant se méfier de
cette intuition.
Considérons le jeu suivant (très discuté au début du XVIIIème siècle) : on jette une
pièce de monnaie jusqu’à l’apparition du premier « face » ; si cela a lieu au T ème lancer,
votre gain sera de 2T francs. Quelle serait une mise équitable ? On vérifie facilement que
l’espérance est infinie, et que, par conséquent, le jeu est favorable au joueur quelle que
soit sa mise initiale ! C’est le célèbre paradoxe de Saint-Pétersbourg.
Le résultat élémentaire suivant est extrêmement utile.
Lemme 2.7. Soit A;B . Alors, P(A) = E(1A ) et P(A \ B ) = E(1A 1B ).
Démonstration. Laissée en exercice.
Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire discret et ' : Rn ! R. Dans ce cas, '(X) définit
une variable aléatoire discrète. Le résultat suivant permet de déterminer aisément son espérance.
Lemme 2.8. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire discret et ' : Rn ! R. Alors,
X
E('(X)) = '(x)fX (x);
2
x X( )
X + Y possède donc une espérance. En répétant le même calcul sans les valeurs absolues, on
obtient le résultat.
Exemple 2.6. On désire trouver le nombre a 2 R qui approxime le mieux une variable aléatoire
X dans le sens qu’il rend la quantité E((X a)2 ) minimale. On a
E(X ) = 1 p + 0 (1 p) = p:
2. Loi binomiale. La façon la plus simple de calculer l’espérance d’une variable aléatoire X
suivant une loi binomiale de paramètres n et p est d’utiliser le Lemme ??, point 1. On peut
en effet écrire X = X1 + : : : + Xn , où les Xi sont des variables de Bernoulli. En d’autres
termes, on exprime X comme le nombre total de succès après n épreuves de Bernoulli. On
a alors
Xn
E(X ) = E(Xi ) = np:
i=1
40 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
3. Loi de Poisson. L’espérance d’une variable aléatoire X suivant une loi de Poisson est
donnée par
1 k
X 1
X k 1
E(X ) = k e = e = :
k=0 k! k=1 (k 1)!
4. Loi géométrique. L’espérance d’une variable aléatoire X de loi géométrique est donnée
par la série
1
X
E(X ) = kp(1 p)k 1 :
k=1
Pour en calculer la somme, introduisons la fonction
1
X x
G(x) = xk = :
k=1 1 x
Cette série converge absolument lorsque jxj < 1, et, dans ce cas, il est possible d’inter-
changer sommation et dérivation. Par conséquent,
1 1
X
G0 ( x) = = kxk 1 :
(1 x)2 k=1
On a donc
1 1
E(X ) = p G0 (1 p) = p = :
p2 p
5. Loi hypergéométrique. Nous calculerons l’espérance d’une variable hypergéométrique
dans l’Exemple 3.2.
6. Loi de Pascal. Si X suit une loi de Pascal de paramètres r et p, on peut la décomposer
en X + r = X1 + + Xr , où les Xi suivent chacun une loi géométrique de paramètre p.
Par exemple, pour r = 7 (les ronds blancs représentent les échecs, les noirs les succès) :
X +7
X1 X2 X3 X4 X5 X6 X7
On a donc
r
X r 1 p
E(X ) = E(X + r) r = E(Xi ) r= r= r:
i=1 p p
Exemple 2.8. 1. On vous propose le jeu suivant : on vous tend deux enveloppes en vous
informant que le montant contenu dans l’une est le double du montant contenu dans
l’autre, et vous devez en choisir une. Expliquez en quoi le raisonnement suivant est faux :
soit X le montant contenu dans l’enveloppe que vous avez décidé de tirer ; l’espérance de
vos gains si vous changez d’avis est de 12 X=2 + 12 2X = 54 X > X , et donc vous feriez
mieux de choisir l’autre enveloppe (et bien sûr, on peut alors répéter cet argument une
fois que vous avez choisi l’autre enveloppe).
2. On vous présente deux enveloppes contenant chacune un papier sur lequel est inscrit un
nombre entier (positif ou négatif) ; les deux nombres sont arbitraires, mais distincts. Vous
gagnez si vous parvenez à tirer le nombre le plus grand. Vous pouvez choisir une des
enveloppes et l’ouvrir, et ensuite décider si vous préférez garder l’enveloppe choisie, ou
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 41
prendre plutôt l’autre. Montrez qu’il existe un algorithme de décision (changer ou non
d’enveloppe en fonction du nombre découvert) qui vous permet de choisir le plus grand
nombre strictement plus d’une fois sur deux (dans le sens que si une infinité de personnes
appliquaient toutes cette stratégie pour la même paire de nombres, alors la fraction de
bonnes réponses serait strictement supérieure à 1=2).
}
Le résultat élémentaire suivant se révèle parfois utile.
Lemme 2.11. Soit X une variable aléatoire à valeurs dans N. Alors,
X
E(X ) = P(X > n):
n0
Démonstration. Il suffit d’observer que
X X m
X1 X 1
X X
E(X ) = mP(X = m) = P(X = m) = P( X = m) = P(X > n):
m1 m1 n=0 n0 m=n+1 n0
Théorème 2.1 (Inégalité de Jensen5 ). Soient X une variable aléatoire admettant une espé-
rance et ' : R ! R une fonction convexe. Alors
De plus, lorsque ' est strictement convexe, il y a égalité si et seulement si X est une
variable aléatoire constante.
5. Johan Ludwig William Valdemar Jensen (1859, Naksov – 1925, Copenhague), mathématicien et ingénieur
danois.
42 CHAPITRE 2. VARIABLES ALÉATOIRES DISCRÈTES
Remarque 2.5. Si une variable aléatoire possède un moment d’ordre n, alors elle possède
également tous les moments d’ordre 1 k < n. En effet, l’inégalité de Jensen implique
que
1 > E(jX jn) = E (jX jk )n=k E(jX jk )n=k ;
puisque la fonction x 7! xn=k est convexe lorsque n k.
Remarque 2.6. En général, même la donnée de tous les moments d’une variable aléatoire
ne suffit pas pour déterminer sa loi. C’est le cas si cette variable aléatoire possède certaines
bonnes propriétés, que nous ne discuterons pas ici. Mentionnons simplement la condition
suffisante suivante : deux variables aléatoires X et Y satisfaisant E(eX ) < 1 et E(eY ) <
1, 8 2 R, et telles que E(X n) = E(Y n), pour tout n 2 N, ont la même loi.
Une quantité particulièrement importante est la variance. Si l’espérance donne la valeur moyenne
de la variable aléatoire, la variance (ou plutôt sa racine carrée, l’écart-type) mesure sa dispersion.
Définition 2.11. Soit X une variable aléatoire dont l’espérance existe. On appelle variance
de X la quantité 2
Var(X ) = E X E(X )
(la
p
variance de X peut être infinie). On appelle écart-type de X la quantité (X ) =
Var(X ).
Démonstration. Nous ne démontrerons que deux des affirmations, les autres étant immédiates.
Preuve de 2. Soit Z une variable aléatoire telle que E(Z 2 ) < 1. Alors, pour tout a 2 R,
9
E (Z a)2 = E (Z a)2 1fjZ j<2jajg + E (Z a)2 1fjZ j2jajg 9a2 + E(Z 2 ) < 1:
4
En prenant Z=X a = E(X ), on obtient que E(X 2 ) < 1 =) Var(X ) < 1.
et
En prenant Z=X E(X ) et a = E(X ), on obtient que Var(X ) < 1 =) E(X 2 ) < 1.
Preuve de = X E(X ) et Y = Y E(Y ). Comme (a + b)2 2(a2 + b2 ), pour tout
5. Soit X
a;b 2 R, on peut écrire
Var(X + Y ) = E (X + Y )2 2E(X 2 ) + 2E(Y 2 ) = 2Var(X ) + 2Var(Y ) < 1:
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 43
Le résultat suivant, très utile et dont nous verrons des extensions plus tard, montre un sens dans
lequel la variance contrôle les fluctuations d’une variable aléatoire autour de son espérance.
X)
P X E(X ) a Var(
a2 ; 8a > 0: (2.2)
Il n’est pas difficile de déterminer la variance des lois introduites plus haut.
Lemme 2.14. La table 2.1 donne les variances des principales lois introduites précédem-
ment.
Démonstration. 1. Loi de Bernoulli. La variance d’une variable aléatoire X suivant une loi
de Bernoulli de paramètre p sur f0;1g est immédiate à calculer :
En statistiques, une autre quantité est souvent utilisée pour mesurer la corrélation entre deux
variables aléatoires, ayant l’avantage de ne pas changer si les variables aléatoires X et Y sont
multipliées par des coefficients positifs (en particulier, si on change d’unités).
Cov(X;Y )
(X;Y ) = p :
Var(X )Var(Y )
Exemple 2.9. En physiologie, la loi de Kleiber 8 affirme que le métabolisme M d’un animal et
son poids P satisfont la relation
M /P ;
avec souvent proche de 3=4 (alors que des arguments simples de dimensionalité suggéreraient
plutôt 2=3). Afin de vérifier qu’une telle relation est valide pour une population donnée, on peut
procéder comme suit : puisque
Définition 2.14. L’espérance du vecteur aléatoire X = (X1 ; : : : ;Xn ) est le vecteur E(X) =
(E(X1 ); : : : ;E(Xn )), à condition que chacune de ces espérances existe.
Définition 2.15. Soient X = (X1 ; : : : ;Xn ) et Y = (Y1 ; : : : ;Yn ) deux vecteurs aléatoires. Leur
matrice de covariance est la matrice n n Cov(X;Y) dont l’élément i;j est donné par
Cov(Xi ;Yj );
pour 1 i;j n.
Lemme 2.17. Deux variables aléatoires indépendantes dont l’espérance existe sont non-
corrélées.
P P
En particulier, si X1 ; : : : ;Xn sont 2 à 2 indépendantes, Var( ni=1 Xi ) = ni=1 Var(Xi ).
Démonstration. On applique le Lemme 2.8 avec la fonction ' : R2 ! R, '(x;y) = xy. Cela
donne
X
E(XY ) = E('(X;Y )) = '(x;y)f(X;Y ) (x;y)
x2X ( );y2Y ( )
X
= '(x;y)fX (x)fY (y)
x2X ( );y2Y ( )
X
= xyfX (x)fY (y) = E(X )E(Y ):
x2X ( );y2Y ( )
Exemple 2.10. 1. Loi binomiale. On a vu qu’une variable aléatoire X suivant une loi bino-
miale de paramètres n et p pouvait s’écrire X = X1 + + Xn , où les Xi sont des variables
de Bernoulli indépendantes de paramètre p. On obtient donc immédiatement que
2. Loi de Pascal. On a également vu qu’une variable aléatoire X suivant une loi de Pascal
de paramètres r et p pouvait s’écrire X + r = X1 + + Xr , où les Xi sont des variables
géométriques indépendantes de paramètre p. On obtient donc immédiatement que
1 p
Var(X ) = Var(X + r) = r :
p2
}
Nous avons vu que deux variables aléatoires indépendantes sont toujours non-corrélées. La ré-
ciproque est fausse en général, comme le montre l’exemple suivant.
Exemple 2.11. Considérons = f 1;0;1g avec la distribution uniforme. Soient X (! ) = !
et Y (! ) = j! j deux variables aléatoires. Alors, E(X ) = 0, E(Y ) = 2=3 et E(XY ) = 0. Par
conséquent X et Y sont non-corrélées. Elles ne sont par contre manifestement pas indépendantes.
}
Dire que X et Y sont indépendants est donc strictement plus fort en général que de demander
à ce que E(XY ) = E(X )E(Y ). Le résultat suivant montre comment il faut renforcer cette dernière
propriété pour obtenir l’indépendance.
Lemme 2.18. Soit (Xi )i2I une famille de variables aléatoires discrètes. Les propositions
suivantes sont équivalentes :
1. (Xi )i2I est indépendante ;
2. 8'i : R ! R telles que 'i (Xi ), i 2 I , admette une espérance,
Y Y
E 'i (Xi ) = E('i (Xi ));
i2 J i 2J
pour tout J I fini.
Théorème 2.3 (Loi faible des grands nombres). Soient X1 ; : : : ;Xn des variables aléatoires
non-corrélées, de même espérance et de même variance 2 < 1. Alors, pour tout > 0,
2
P(jX
n j ) :
2 n
En particulier, limn!1 P(jXn j ) = 0, pour tout > 0.
Démonstration. Les variables aléatoires Xi étant non-corrélées, il est facile de déterminer la
variance de Sn :
n
1X n
1 X 2
Var(Xn ) = Var Xi = Var(Xi ) = :
n i=1 i=1 n2 n
Le résultat suit donc de l’inégalité de Bienaymé-Tchebychev (2.2) :
Var(Xn ) 2
P(jX
n j ) = :
2 2 n
Exemple 2.12. On effectue 10 000 lancers d’une pièce de monnaie équilibrée. Afin de travailler
avec des variables centrées, on encode le résultat du kème jet par une variable Xk telle que
P(Xk = 1) = P(Xk = 1) = 12 (au lieu de 0 et 1). La loi faible des grands nombres énoncée
n 2 [ ; ] avec grande probabilité lorsque n est suffisamment grand.
ci-dessus affirme que X
L’estimée dans la preuve du théorème nous donne
P jXnj n1 2 :
Par exemple, pour 10 000 jets et = 0;1, on a
1
P(jX
10 000 j 0;1) :
100
Notez que ce n’est qu’une borne supérieure sur cette probabilité. On verra plus tard qu’elle est
très pessimiste dans le cas présent (on montrera en effet que P(jX
10 000 j 0;1) 3;5 10 22 ). }
Remarque 2.7 (Lien avec l’approche fréquentiste). Ce qu’affirme la loi faible des grands
nombres, c’est que pour une précision donnée, la probabilité que l’espérance et la moyenne
empirique diffèrent de plus de peut être rendue aussi petite que l’on désire en considérant
un échantillon suffisamment grand. En ce sens, elle justifie à posteriori l’axiomatique
de la théorie de probabilités, en faisant le lien avec la notion intuitive de fréquence de
réalisation d’un événement. En effet, considérons une expérience aléatoire, décrite par
2.4. ESPÉRANCE, VARIANCE, COVARIANCE ET MOMENTS 49
un espace de probabilité ( ;P), que l’on répète N fois, de façon indépendante, obtenant
une suite de résultats (!1 ;!2 ; : : : ;!N ). Alors, pour tout événement A, les variables aléatoires
Yk (!1 ; : : : ;!N ) = 1A (!k ) sont
PN
i.i.d., avec E(Yk ) = P(A). Par conséquent, si l’on note N (A) =
# f1 k N : !k 2 Ag = k=1 Yk le nombre d’expériences lors desquelles l’événement A
est réalisé, on a, pour tout > 0,
N (A) 1 N
X
lim P
N !1 N
P(A) = Nlim P Y
!1 N k=1 k
E(Y1 ) = 0;
ce qui est parfaitement en accord avec l’interprétation fréquentiste des probabilités.
Nous reviendrons sur la loi des grands nombres, ainsi que sur des résultats plus précis
concernant le comportement asymptotique de la moyenne empirique, au chapitre 6.
Chapitre 3
Fonctions génératrices
3. Loi binomiale. Pour une loi binomiale de paramètres n et p, la formule du binôme implique
que
Xn n!
GX (s) = pk (1 p)n k sk = ((1 p) + ps)n :
k=0 k
4. Loi de Poisson. Pour X suivant une loi de Poisson de paramètre , on obtient
1
X k k (s
GX (s) = e s =e 1) :
k=0 k!
5. Loi géométrique. Pour X suivant une loi géométrique de paramètre p, on a
1
X ps
p(1 p)k 1 sk = :
k=1 1 (1 p)s
}
Le théorème d’Abel fournit une technique efficace pour calculer les moments de X ; par exemple
(k) (k )
(GX (1) devant s’interpréter comme lims"1 GX (s) lorsque R = 1)
1
X
G0X (s) = ksk 1 fX (k) =) G0X (1) = E(X );
k=0
1
X
G00X (s) = k(k 1)sk 2 fX (k) =) G00X (1) = E(X (X 1));
k=0
1
X
G(X`) (s) = k (k ` + 1)sk ` fX (k) =) G(X`) (1) = E(X (X ` + 1)):
k=0
On a donc en particulier le résultat suivant.
Proposition 3.1. Si GX (s) est la fonction génératrice de X , alors
E(X ) = G0X (1); Var(X ) = G00X (1) + G0X (1) G0X (1)2 ;
les expressions dans les membres de droite devant être compris comme des limites s"1
lorsque le rayon de convergence de GX est égal à 1.
Exemple 3.2. Espérance et variance de la loi hypergéométrique. La formule du binôme montre
que la fonction génératrice d’une variable hypergéométrique X de paramètres N , n et b,
! ! !
^n
bX b N b . N
GX (s) = sk ;
k=(n r)_0 k n k n
est précisément le coefficient de xn du polynôme
!
. N
Q(x;s) = (1 + sx)b (1 + x)N b :
n
Il suit que la moyenne de X coïncide avec le coefficient de xn de
!
@Q . N
(x;1) = xb(1 + x)N 1 ;
@s n
et est donc donnée par G0X (1) = bn=N . Similairement, on trouve que la variance de X est égale
à nb(N b)(N n)=(N 3 N 2 ). }
3.1. DÉFINITION, PROPRIÉTÉS 53
Remarque 3.2. En général, si l’on désire calculer les moments d’une variable aléatoire
X , il se révèle avantageux de travailler avec la fonction génératrice des moments de X ,
qui est définie par
MX (t) = GX (et );
pourvu que et < R, le rayon de convergence de GX . En effet, on a alors
1
X 1 X
X 1 (tk)n
MX (t) = etk P(X = k) = P(X = k)
k=0 k=0 n=0 n!
X1 tn X1 X1 tn
= k n P( X = k ) = E(X n ):
n=0 n ! k=0 n=0 n!
Les fonctions génératrices se révèlent particulièrement utiles dans l’analyse de sommes de va-
riables aléatoires.
Proposition 3.2. Soient X1 ; : : : ;Xn des variables aléatoires indépendantes à valeurs dans
N. Alors la fonction génératrice de Sn = X1 + + Xn est donnée par
Exemple 3.3. Loi de Pascal. On peut à présent calculer aisément la fonction génératrice d’une
variable de Pascal X de paramètres r et p. En effet, celle-ci peut se décomposer en X + r =
X1 + + Xr , où les Xi sont des variables géométriques de paramètre p indépendantes, et on
a donc
p r
GX (s) = s r GX +r (s) = s r GX1 (s) r = :
1 (1 p)s
}
Exemple 3.4. Soient X et Y deux variables aléatoires indépendantes, suivant des lois binomiales
de paramètres m et p, et n et p, respectivement. Alors
Remarque 3.3. Dans cette section, on a toujours supposé que les variables aléatoires pre-
naient valeurs dans N. Il est parfois aussi utile de considérer le cas de variables aléatoires
défectives prenant valeurs dans N [ f+1g. Pour une telle variable aléatoire X , on voit
que GX (s) = E(sX ) converge tant que jsj < 1, et que
X1
lim GX (s) = P(X = k) = 1 P(X = 1):
s"1 k=0
Il n’est bien sûr plus possible d’obtenir les moments de X à partir de GX : ceux-ci sont
tous infinis !
Deuxième partie
Résumé
Dans cette partie du cours, nous verrons comment traiter les univers infinis non néces-
sairement dénombrables. Pour ce faire, le formalisme général de la théorie des probabilités,
basé sur les axiomes de Kolmogorov, sera introduit.
Chapitre 4
Nous allons à présent discuter des espaces de probabilité associés à des univers généraux
(c’est-à-dire, potentiellement non dénombrables). Cette situation est substantiellement plus sub-
tile que celle considérée dans la première partie.
Manifestement, on ne peut en général plus considérer l’approche utilisée dans la première
partie, consistant à construire la mesure de probabilité P à partir de la probabilité des événements
élémentaires. On va donc chercher à définir P directement au niveau des événements généraux.
Quelles sont les propriétés qu’il est naturel d’exiger d’une telle mesure ? Les propriétés suivantes
semblent être le minimum :
. P(A) 2 [0;1] pour tout événement A ;
. normalisation : PS( ) = 1 ; P
. -additivité : P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2
à 2 disjoints.
En effet, si ces propriétés sont satisfaites, alors on retrouve les autres propriétés utilisées abon-
damment dans la première partie, le Corollaire 1.1 restant valide. Une justification supplémen-
taire de l’importance de l’hypothèse de -additivité est donnée par le lemme suivant, qui montre
qu’elle implique une forme de continuité de P, dont on a vu à plusieurs reprises dans la première
partie de ce cours à quel point elle est désirable.
Lemme 4.1. Supposons l’hypothèse de -additivité satisfaite. Alors, pour toute suite crois-
sante d’événements A1 A2 A3 , on a
P( lim A ) = nlim
n!1 n !1 P(An );
S
où limn!1 An = n1 An . Similairement, on a, pour toute suite décroissante B1 B2
B3 ,
P( lim Bn ) = lim P(Bn );
n!1 n!1
T
où limn!1 Bn = n1 Bn .
57
58 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ
!1 P(An ):
= nlim
La seconde affirmation suit facilement, puisque la suite des complémentaires (Bic )i1 est crois-
sante. On peut donc appliquer la première partie pour obtenir
\1 [1
P( lim
n!1 n
B ) = P( Bi ) = 1 P( Bic ) = 1 lim P(Bic ) = lim P(Bi ):
i=1 i=1 i!1 i!1
Remarque 4.1. Soit (Ak )k1 une famille d’événements 2 à 2 disjoints. La suite d’événe-
S S
ments Bk = ki=1 Ai est croissante et limk!1 Bk = i1 Ai . Par conséquent, la propriété
de continuité ci-dessus et l’additivité finie de P implique sa -additivité :
[ k
[ k
X 1
X
P( Ai ) = P( lim Bk ) = lim P(Bk ) = lim P( Ai ) = lim P(Ai ) = P(Ai ):
i1 k!1 k!1 k!1 i=1 k!1 i=1 i=1
P est donc -additive si et seulement si elle est finiment additive et continue (au sens
ci-dessus).
La question qui se pose à présent est de déterminer s’il est toujours possible de construire une
mesure de probabilité P : P ( ) ! R possédant ces trois propriétés. Le lemme suivant montre
que cet espoir est vain.
Lemme 4.2. Soit = f0;1gN l’univers correspondant à une suite infinie de lancers d’une
pièce de monnaie équilibrée. Il n’existe pas d’application P : P ( ) ! [0;1] possédant les
propriétés suivantes :
. P(S) = 1 ; P
. P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2 à 2 dis-
joints ;
. Pour tout A et n 1, P(Tn A) = P(A), où
Tn : ! = (!1 ;!2 ; : : :) 7! (!1 ; : : : ;!n 1 ;1 !n ;!n+1 ; : : :)
est l’application inversant le résultat du nème lancer.
Remarque 4.2. La troisième condition exprime à la fois l’indépendance des lancers suc-
cessifs et le fait que la pièce est équilibrée.
Au vu du résultat précédent, il nous faut faire des concessions. Il n’est pas souhaitable de
renoncer aux propriétés énoncées ci-dessus, car cela appauvrirait substantiellement la théorie.
Une autre solution est de renoncer à chercher à définir P sur tous les sous-ensembles de .
59
Définition 4.1. Un ensemble F P ( ) est une tribu sur si elle possède les propriétés
suivantes :
. 2F;
. 8A 2 F , Ac n A 2 F ; S
. pour toute collection A1 ;A2 ; : : : 2 F , n1 An 2 F .
La paire ( ;F ) est appelée un espace probabilisable.
Soit = Rn et soit ( )
n
Y
G= [ai ;bi ] : ai < bi ; ai ;bi 2 Q :
i=1
La tribu B n = (G ) est appelée tribu borélienne sur Rn et les éléments de B n sont appelés les
boréliens de Rn . Observons que B n est un ensemble très riche :
. Bn contient tous les ouverts de Rn . Il suffit en effet d’observer que, si A est un ouvert,
alors on peut trouver, pour tout élément ! 2 A, un ensemble B 2 G tel que ! 2 B A.
S
Par conséquent, A = B 2G B est une union dénombrable d’éléments de G et appartient
B A
donc à B n .
. Bn contient tous les fermés de Rn (par stabilité de F sous passage au complémentaire).
Définition 4.3. Une mesure de probabilité sur un espace probabilisable ( ;F ) est une
application P : F ! [0;1] telle que
. P(S) = 1, P
. P( k1 Ak ) = k1 P(Ak ), pour toute collection (Ak )k1 d’événements 2 à 2 dis-
joints.
Le triplet ( ;F ;P) est alors appelé un espace de probabilité.
60 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ
Définition 4.5. Une variable aléatoire sur un espace probabilisable ( ;F ) est une applica-
tion X : ! R telle que
X 1 (B ) 2 F ; 8B 2 B:
4.0.4 Loi et fonction de répartition
Comme dans le cas discret, la mesure de probabilité P sur ( ;F ) et la variable aléatoire X
induisent une mesure de probabilité PX = P X 1 sur R. Cela suit du résultat général suivant.
Théorème 4.1. Soit X une application mesurable d’un espace de probabilité ( ;F ;P) dans
un espace probabilisable ( 0 ;F 0 ). Alors l’application P0 : F 0 ! [0;1] définie par
Définition 4.6. La mesure de probabilité PX = P X 1 sur (R;B ) induite par une variable
aléatoire X est appelée la loi de X .
On dit de deux variables aléatoires X et Y qu’elles ont la même loi, ou qu’elles sont
loi
identiquement distribuées, lorsque PX = PY . Dans ce cas, on écrira X = Y .
Exemple 4.1. On peut clairement caractériser une variable aléatoire discrète comme étant une
variable aléatoire dont la loi est de la forme
X
PX = p k xk ;
k 2I
où I 6= ∅ est un ensemble au plus dénombrable, P
les xk , k 2 I , sont des réels distincts, et les pk ,
k 2 I , des réels strictement positifs tels que k2I pk = 1. }
61
Une mesure
de probabilité P sur (R;B ) est entièrement déterminée par la fonction FP (x) =
P ( 1; x] . En particulier, la loi d’une variable aléatoire X est entièrement déterminée par la
fonction FX (x) = P(X x).
Démonstration. Les trois premières affirmations sont immédiates. La quatrième est une consé-
quence du Lemme 4.1 : pour toute suite xn # x,
\
lim FP (xn ) = nlim
n!1 !1 P ( 1; xn] = P ( 1; xn] = P ( 1; x] = FP(x):
n1
4.0.5 Indépendance
Les notions de probabilité conditionnelle et d’indépendance d’événements et de variables
aléatoires introduites dans la première partie du cours sont inchangées, modulo la restriction
des événements à la tribu F .
fXi 2 Aig; i 2 J;
sont indépendants pour tout Ai 2 B , i 2 J , et tout J I fini.
À nouveau, on vérifie aisément que P( j B ) est un mesure de probabilité sur les espaces proba-
bilisables ( ;F ) et (B;F (B )), où F (B ) = fA \ B : A 2 Fg.
On a vu dans la première partie du cours qu’afin de vérifier l’indépendance de variables
aléatoires discrètes, il suffisait de considérer des singletons Ai = fxi g avec xi 2 Xi ( ). Dans le
cas général considéré ici, on peut montrer qu’il est également possible de se restreindre à une
classe particulière d’événements.
62 CHAPITRE 4. CONSTRUCTION D’ESPACES DE PROBABILITÉ
Lemme 4.4. La famille de variables aléatoire (Xi )1in est indépendante si et seulement
si
n
Y
P(X1 x1; : : : ; Xn xn) = P(Xi xi);
i=1
pour tout xi 2 R, 1 i n.
Chapitre 5
Remarque 5.1. 1. Insistons sur le fait que la valeur f (s) n’est pas une probabilité (en
particulier, f (s) peut être plus grande que 1). Par contre, il peut être utile de penser
à f (s) ds comme à la probabilité de l’intervalle [s;s + ds].
2. La densité de probabilité associée à une mesure de probabilité absolument continue
P n’est pas unique : si f est une densité de probabilité pour P et g ne diffère de f
que sur un ensemble de mesure de Lebesgue 0, alors g est également une densité de
probabilité pour P. En effet, si B = fx : f (x) 6= g (x)g, alors
Z Z Z Z Z
f (s) ds = f (s) ds + f (s) ds = g(s) ds = g(s) ds;
A AnB A\ B AnB A
R R
puisque (A \ B ) = 0 implique que A\B f (s) ds = A\B g (s) ds = 0.
On vérifie facilement que c’est la seule possibilité. Parler de « la » fonction de densité
associée à une mesure de probabilité P ne portera donc pas à conséquence.
63
64 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ
Remarque 5.2. On peut fabriquer des fonctions de répartition F (assez pathologiques) qui
sont continues, mais qui ne sont pas associées à des mesures de probabilité absolument
continues. Les mesures de probabilité correspondantes sont dites singulières.
Remarque 5.4. Observez la similarité formelle avec le résultat correspondant pour les
P
variables discrètes : E('(X )) = x2X ( ) '(x)fX (x).
pour tout A 2 B tel que (A) = =n. La continuité suit, puisque ([x;x + ]) = .
5.2. EXEMPLES IMPORTANTS DE VARIABLES ALÉATOIRES À DENSITÉ 65
0,3
0,25
0,2
0,15
0,1
0,05
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Elle peut être vue comme limite de la distribution géométrique, et apparaît dans la pra-
tique pour la description du temps d’attente entre deux événements imprédictibles (appels té-
léphoniques, tremblements de terre, émission de particules par désintégration radioactive, etc.).
Considérons une suite d’épreuves de Bernoulli effectuées aux temps ; 2;3; : : :, et soit W le
temps du premier succès. Alors, pour tout k 2 N,
t
P(W > t) = P(W > ) ' (1 )t= ! e t :
66 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ
1,2
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5
Il est aussi aisé de voir (exercice) que la loi exponentielle possède la même propriété de perte
de mémoire que la loi géométrique, cf. Lemme 2.1.
À nouveau, l’espérance et la variance de X exp() se calculent aisément :
Z 1 s ds =
Z 1 s ds = 1 ;
E(X ) = se e
0 Z 0
1 2 s 2
V (X ) = s e ds = 2:
0
0,4
0,3
0,2
0,1
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
Figure 5.3: Densité de probabilité de la loi normale : = 0; 2 = 1 (bleu), = 0; 2 = 2 (magenta) et
= 1; 2 = 1 (vert).
2,5
1
2
2 3
4
5
1,5
0,5
0
0 1 2 3 4 5
Figure 5.4: Densité de probabilité de la loi Gamma pour = 0:5 et diverses valeurs de t.
68 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ
0,4
0,3
0,2
0,1
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
t 1 t 1 s
Z 1 Z
(t+1)
E(X ) = (t) ss e ds = (1t) (s)(t+1) 1 e s ds = (t) = t ;
0 0
Var(X ) = E(X 2 ) E(X )2 = ((tt+2) t2 t(t+1) t2 = t
)2 2 = 2 2 2 :
k x k 1 (x=)k 1
fX (x) = e [0;1) (x):
Lorsque k = 1, on retrouve la distribution exponentielle.
La loi de Weibull est très populaire dans les modèles statistiques en fiabilité. Elle est égale-
ment utilisée, par exemple, pour analyser les signaux reçus par les radars, ou dans les réseaux
de communication sans fil. D’un point de vue plus théorique, elle joue un rôle important dans
l’analyse des valeurs extrêmes lors d’expériences aléatoires.
On trouve que son espérance et sa variance sont données par
E(X ) = (1 + k1 );
Var(X ) = 2 (1 + k2 ) 2 (1 + k1 )2 :
Définition 5.4. Un vecteur aléatoire de dimension n est une application mesurable d’un
espace probabilisable ( ;F ) vers l’espace probabilisable (Rn ;B n ).
Nous nous intéresserons plus particulièrement au cas des vecteurs aléatoires à densité.
Définition 5.5. Un vecteur aléatoire X = (X1 ; : : : ;Xn ) est à densité s’il existe une fonction
positive fX : Rn ! R telle que
Z
P(X 2 A) = fX (x1 ; : : : ;xn ) dx1 dxn ; 8A 2 B(Rn):
A
fX est la densité de probabilité conjointe du vecteur aléatoire X.
Remarque 5.5. On peut montrer qu’il suffit de vérifier la condition pour des ensembles
A de la forme ( 1;x1 ] ( 1;xn ], x1 ; : : : ;xn 2 R, c’est-à-dire que
Z x1 Z xn
FX (x1 ; : : : ;xn ) = P(X1 x1 ; : : : ;Xn xn ) = ds1 dsn fX (s1 ; : : : ;sn ):
1 1
La fonction FX est appelée fonction de répartition conjointe de X.
À nouveau, il n’y a pas unicité de la densité conjointe, et on choisira toujours une
n
version de fX satisfaisant fX (x1 ; : : : ;xn ) = @x1@@xn FX (x1 ; : : : ;xn ), en chaque point où la
fonction de répartition conjointe est suffisamment différentiable.
Les densités de probabilité des composantes d’un vecteur aléatoire X peuvent être aisément
extraites de la densité de probabilité conjointe.
Lemme 5.1. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire à densité. Alors, pour tout 1
k n, Z 1 Z 1 Z 1 Z 1
fXk (xk ) = d x1 d xk 1 dxk+1 dxn fX (x1 ; : : : ;xn ):
1 1 1 1
4. Ernst Hjalmar Waloddi Weibull (1887, ? ? ? – 1979, Annecy), ingénieur et mathématicien suédois.
5.3. VECTEURS ALÉATOIRES À DENSITÉ 71
Démonstration.
et une version de fXk est donc donnée par l’expression entre accolades.
Définition 5.6. Étant donné un vecteur aléatoire X = (X1 ; : : : ;Xn ), les densités de proba-
bilité fXk , 1 k n, sont appelées ses densités de probabilité marginales.
Lemme 5.2. Soit X = (X1 ; : : : ;Xn ) un vecteur aléatoire à densité. Les variables aléatoires
X1 ; : : : ;Xn sont indépendantes si et seulement si
fX (x1 ; : : : ;xn ) = fX1 (x1 ) fXn (xn );
pour presque tout (x1 ; : : : ;xn ).
Démonstration. Supposons X1 ; : : : ;Xn indépendantes. Pour tout x1 ; : : : ;xn 2 R,
P(X1 x1; : : : ;Xn xn) = P(X1 x1) P(Xn xn)
Z x1 Z xn
= fX1 (y1) fXn (yn) dy1 dyn;
1 1
et par conséquent fX1 (x1 ) fXn (xn ) est une densité de probabilité conjointe de PX .
Exemple 5.1. Soit = D1 = (x;y ) 2 R2 : x2 + y 2 < 1 muni de la densité de probabilité
uniforme.
p On considère les quatre variables aléatoires suivantes : X (! ) = x, Y (! ) = y , R(! ) =
x2 + y2 et (!) 2 [0;2) telle que x = r cos((!)) et y = r sin((!)). Ainsi les vecteurs
aléatoires (X;Y ) et (R;) correspondent à la position d’un point du disque tiré uniformément
au hasard, exprimée, respectivement, en coordonnées cartésiennes et polaires. Déterminons leurs
lois conjointes, ainsi que les lois de ces quatre variables aléatoires.
Pour le couple (X;Y ), on a
ZZ
1
P((X;Y ) 2 A) = jA \ D1 j= = 1 2 2 dxdy;
A fx +y <1g
et donc fX;Y (x;y ) = 1 1fx2 +y2 <1g . La loi de X est obtenue en prenant la marginale correspon-
dante, p
Z 1
1 1 Z 1 x2 2p
fX (x) = 1fx2 +y2 <1g dy = p 2 dy = 1 x2 ;
1 1 x
p
2
pour 1 < x < 1 et 0 sinon. De la même façon, fY (y ) = 1 y 2 1fy2 <1g . En particulier, on
voit que f(X;Y ) (x;y ) 6= fX (x)fY (y ), et donc X et Y ne sont pas indépendantes.
Passons au couple (R;). Étant donné A R2 , notons A~ = f(x;y ) : (R(x;y );(x;y )) 2 Ag.
Alors, ZZ
1
P((R;) 2 A) = jA~ \ D1 j= = 1f0r<1;0<2g rdrd;
A
72 CHAPITRE 5. VARIABLES ALÉATOIRES À DENSITÉ
d’où l’on tire la densité de probabilité conjointe fR; (r;) = r 1f0r<1;0<2g . La densité de R
est donc donnée par
r Z 2
fR (r) = d = 2r;
0
si 0 r < 1 et 0 sinon. Pour ,
1Z 1 1
f () = rdr = ;
0 2
si 0 < 2 et 0 sinon. On a donc f(R;) (r;) = fR (r)f (), et R et sont indépendantes. }
Finalement, si X = (X1 ; : : : ;Xn ) est un vecteur aléatoire à densité, et : Rn ! Rn possède de
bonnes propriétés, le théorème suivant permet de déterminer la loi conjointe du vecteur aléatoire
(X) en termes de fX .
Soient U Rn un ouvert, et : U ! Rn , (x) = ( 1 (x); : : : ; n (x)). On dit que est
continuement différentiable si les dérivées partielles @ i =@xj existent et sont continues sur U .
On note D (x) = (@ i (x)=@xj )1i;j n la matrice Jacobienne, J (x) = det D (x) le Jacobien,
et V = (U ).
Démonstration. Soit A V . On a
Z
P(Y 2 A) = P( (X) 2 A) = P(X 2 1 (A)) =
1 (A)
fX (x) dx1 dxn :
Z
P(Y 2 A) = fX ( 1 (y)) jJ 1 (y)j dy1 dyn ;
A
d’où le résultat suit.
On en déduit immédiatement le résultat suivant, très important, sur la loi d’une somme de
variables aléatoires.
5.3. VECTEURS ALÉATOIRES À DENSITÉ 73
Lemme 5.3. Soient X;Y deux variables aléatoires à densité. Alors la loi de leur somme
est donnée par Z 1
fX +Y (u) = f(X;Y ) (x;u x) dx:
1
En particulier, si X et Y sont indépendantes, la densité de probabilité de X +Y est donnée
par la convolution des densités de probabilité de X et Y ,
Z 1
fX +Y (u) = fX (x)fY (u x) dx:
1
Démonstration. On considère l’application : R2 ! R2 donnée par (x;y ) = (x;x + y ). Elle
satisfait à toutes les hypothèses du Corollaire précédent. On a donc
Une autre conséquence utile (et immédiate) du Corollaire précédent est le résultat suivant.
Lemme 5.5. Soient X1 et X2 deux variables aléatoires indépendantes de loi N (1 ;12 ) et
N (2;22) respectivement. La variable aléatoire X1 + X2 suit une loi N (1 + 2;12 + 22).
Démonstration. Soient Y1 = X1 1 et Y2 = X2 2 ; par le lemme 5.4, ces variables suivent
respectivement les lois N (0;12 ) et N (0;22 ). Une application du Lemme 5.3 montre que la densité
de probabilité de la variable aléatoire Y1 + Y2 est donnée par
Z
1 x2 (z x)2
q expf g dx:
2 12 22 R 212 222
Puisque
q
12 z 2 22
22 x2 + 12 (z x)2 = ( 12 + 22 x q ) + 2 1 2 2 z2;
12 + 22 1 + 2
l’intégration sur x montre que cette densité de probabilité est bien celle d’une variable aléatoire
de loi N (0;12 + 22 ), et donc X1 + X2 suit bien une loi N (1 + 2 ;12 + 22 ).
Chapitre 6
Théorèmes limites
Les théorèmes limites sont omniprésents en théorie des probabilités. Une raison de leur
importance est le fait que, en un certain sens, ils permettent de transformer des événements de
probabilité p 2 [0;1] en des événements de probabilité proche de 0 ou 1, et ce n’est que pour
de tels événements qu’un énoncé probabiliste devient falsifiable. Dans ce chapitre nous donnons
l’énoncé de la loi forte des grands nombre et du théorème central limite sans donner de preuve,
car cela sort du cadre du cours.
75
76 CHAPITRE 6. THÉORÈMES LIMITES
2. =) 1. Supposons à présent que G(s) = limn!1 GXn (s) existe pour tout 0 < s < 1.
D’une part, G(s) étant nécessairement croissante en s, la limite G(0) = lims#0 G(s) existe.
D’autre part, on a
X s
P(Xn = 0) = GXn (0) GXn (s) P(Xn = 0) + sk = P(Xn = 0) + :
k 1 1 s
Ceci implique que
s
G(s)
1 s
lim
n!1
inf P(Xn = 0) lim sup P(Xn = 0) G(s);
n!1
et donc, en laissant s # 0,
lim P(Xn = 0) = G(0):
n!1
On procède à présent par récurrence. Notons pnk = P(Xn = k), et supposons que pk = limn!1 pnk
existe pour tout k < r. On peut alors écrire, pour tout 0 < s < 1,
GXn (s) pn0 pn1 s pnr 1 sr 1 G(s) p0 p1 s pr 1 sr 1
lim
n!1 sr
=
sr
Hr (s):
P
La fraction dans le membre de gauche peut s’écrire k0 pnk+r sk , qui est à nouveau une série
à termes positifs. On peut donc répéter le raisonnement précédent afin de conclure à l’exis-
tence de la limite Hr (0) = lims#0 Hr (s). En procédant comme ci-dessus, on en déduit alors que
limn!1 pnr = Hr (0).
Ceci montre l’existence de pk = limn!1 pnk , pour tout k 0. L’identification G(s) =
P
k0 pk s suit alors de l’implication 1. =) 2..
k
Exemple 6.1. Soit (Xn )n0 une suite de variables aléatoires de loi binom(n; pn ), avec limn!1 npn =
> 0. On a
lim G (s) = nlim n (s 1) :
n!1 Xn !1(1 + (s 1)pn ) = e
Cette dernière expression étant la fonction génératrice associée à la loi poisson(), on retrouve
la loi des petits nombres. }
6.2 La loi des grands nombres
6.2.1 Loi faible des grands nombres
On rappelle ici le Théorème 2.3 obtenu au Chapitre 2.
Soient X1 ;X2 ; : : : ; Xn une famille de variables aléatoires. Leur moyenne empirique est la
variable aléatoire
1X n
Xn = X:
n i=1 i
Théorème 6.2 (Loi faible des grands nombres). Soient X1 ; : : : ;Xn des variables aléatoires
non-corrélées, de même espérance et de même variance 2 < 1. Alors, pour tout > 0,
2
P(jX
n j ) :
2 n
En particulier, limn!1 P(jXn j ) = 0, pour tout > 0.
La loi faible des grands nombres nous fournit des informations sur le comportement de X n
(pour n grand) lorsqu’on considère de nombreuses répétitions de l’expérience : pour tout grand
n fixé, Xn est proche de pour la plupart des réalisations.
6.3. LE THÉORÈME CENTRAL LIMITE 77
Théorème 6.3. Soit X1 ;X2 ; : : : une suite de variables aléatoires i.i.d. Alors, lorsque n ! 1,
P(f! : X (! ) ! g) = 1
pour une certaine constante , si et seulement si E(jX1 j) < 1. Dans ce cas, = E(X1 ).
C E(jX13pEn(X1)j ) ;
n 3
p1
X
sup P (Xk ) x (x)
x 2R n2 k=1
pour une certaine constante universelle C < 0;4748.
Remarque 6.2. L’estimée explicite de l’erreur dans le théorème central limite donnée ci-
dessus est appelée inégalité de Berry 1 –Esséen 2 . Elle joue un rôle très important lorsque
l’on veut appliquer le théorème central limite dans la pratique.
Exemple 6.2. Une chaîne de montage produit des pièces défectueuses avec un taux de 10%.
Quelle est la probabilité d’obtenir au moins 50 pièces défectueuses parmi 400 ?
Modélisons cette situation par une épreuve de Bernoulli de paramètre p = 0;1. Avec n = 400,
n = np = 40 et n2 = np(1 p) = 36, et en notant N le nombre de pièces défectueuses, on
obtient
50 40
P(N 50) = P(N 2 [50; 400]) ' (1) p ' 0;05:
36
Il y a environ 5% de chances d’obtenir au moins 50 pièces défectueuses.
À titre de comparaison, N suivant une loi binom(400; 0;1), un calcul exact donne
!
400
X 400
P(N 50) = k
(0;1)k (0;9)400 k ' 0;06;
k=50
ce qui est assez proche de l’approximation précédente. }