CoursProbasStats 240723 145634
CoursProbasStats 240723 145634
Notes du cours
1 Probabilités, événements 1
1.1 Rappels sur les notations mathématiques . . . . . . . . . . . . . . . . . . . 1
1.1.1 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2 Ensembles finis, dénombrables, non dénombrables . . . . . . . . . . 2
1.1.3 Sous-ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4 Ensemble des parties d’un ensemble . . . . . . . . . . . . . . . . . . 3
1.1.5 Couples, triplets, n-uplets et suites . . . . . . . . . . . . . . . . . . 3
1.2 Combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Cardinal de l’ensemble des couples ou des n-uplets . . . . . . . . . . 4
1.2.2 Cardinal de l’ensemble des parties . . . . . . . . . . . . . . . . . . . 4
1.2.3 Ensemble des combinaisons de p éléments parmi n . . . . . . . . . . 4
1.2.4 Ensemble des permutations d’un ensemble à n éléments . . . . . . . 5
1.2.5 Ensemble des arrangements de p éléments parmi n . . . . . . . . . . 5
1.3 Événements et probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Modèle fondamental des probabilités . . . . . . . . . . . . . . . . . 6
1.3.3 Intersections d’événements . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.4 Unions d’événements et probabilité d’une union . . . . . . . . . . . 7
1.3.5 Partition de Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.6 Événement complémentaire . . . . . . . . . . . . . . . . . . . . . . 10
3
3 Variables aléatoires et lois 25
3.1 Définitions générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.2 Support d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . 26
3.1.3 Fonction de répartition d’une variable aléatoire . . . . . . . . . . . 26
3.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Quelques lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Les événements élémentaires [X = x] . . . . . . . . . . . . . . . . . 30
3.3 Variables aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Loi uniforme sur un intervalle . . . . . . . . . . . . . . . . . . . . . 33
3.3.4 Fonction de répartition d’une variable aléatoire à densité . . . . . . 34
3.3.5 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Lois quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Espérance et variance d’une variable aléatoire . . . . . . . . . . . . . . . . 36
3.5.1 Quelques rappels sur les sommes, séries et intégrales . . . . . . . . . 36
3.5.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5.3 Exemples de calculs . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.6 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Exemples de calculs de lois utilisant l’indépendance . . . . . . . . . . . . . 45
3.7.1 Somme de variables indépendantes . . . . . . . . . . . . . . . . . . 45
3.7.2 Maximum ou minimum de variables indépendantes . . . . . . . . . 48
Probabilités, événements
Pour décrire un ensemble à partir de ses éléments, on utilise les accolades. Par exemple,
•A = {1, 5, 3} : A est l’ensemble formé par les nombres 1, 3, et 5. Bien noter que dans
cette notation l’ordre ne compte pas : {1, 5, 3} = {1, 3, 5} = {3, 1, 5}.
•N = {0, 1, 2, 3, . . .} : N est l’ensemble des nombres 0, 1, 2, etc.
•B = {0, 1, 4, 9, . . .} : N est l’ensemble des carrés des entiers.
Souvent on utilise des expressions logiques entre les accolades pour décrire un ensemble
plus précisément. Par exemple, pour le dernier ensemble B, on écrira plutôt :
B = {n2 , n ∈ N},
ce qui se lit : "B est l’ensemble des n2 tels que n appartient à N".
Ou encore :
B = {n ∈ N, n = k 2 , k ∈ N},
c’est-à-dire : "B est l’ensemble des entiers n tels que n = k 2 , avec k n’importe quel entier".
Dans une telle notation la première virgule fait office de "tel que", tandis que les suivantes
se lisent "et" ou "avec". A noter aussi que les lettres utilisées (n, k) dans les expressions
sont complètement interchangeables. On aurait pu aussi bien écrire
B = {k ∈ N, k = n2 , n ∈ N},
ou encore
B = {i ∈ N, i = j 2 , j ∈ N}.
1
Autre exemple : C = {x ∈ R, x ≤ 3, x ≥ 2} : ensemble des nombres réels supérieurs à 2 et
inférieurs à 3 : c’est l’intervalle [2, 3].
Le cardinal d’un ensemble est le nombre de ses éléments. Il est noté "Card" ou "]".
Par exemple,
• Card{1, 5, 3} = ]{1, 5, 3} = 3,
• ](∅) = 0.
Lorsqu’un ensemble n’a qu’un seul élément, comme par exemple l’ensemble {4}, on
l’appelle singleton. Attention, il est essentiel de distinguer éléments et ensembles : on
écrit 4 ∈ {4} (le nombre 4 appartient à l’ensemble {4}) mais surtout pas {4} = 4 !
Un ensemble est dit dénombrable s’il est infini mais que l’on peut énumérer ses élé-
ments, c’est-à-dire attribuer un numéro unique à chacun de ses éléments, ou encore en
termes mathématiques : trouver une bijection de N vers cet ensemble. Par exemple,
• N est dénombrable (puisque N = {0, 1, 2, 3, 4, . . .})
• Z est dénombrable (Z = {0, 1, −1, 2, −2, 3, −3, 4, −4, . . .}.)
• Q est dénombrable (mais la numérotation n’est pas évidente).
1.1.3 Sous-ensembles
On dit qu’un ensemble E est une partie d’un autre ensemble F lorsque tous les élé-
ments de E appartiennent aussi à F . On dit encore que E est un sous-ensemble de F
ou que E est inclus dans F , et on note E ⊂ F . Par exemple, {3, 5} ⊂ {1, 5, 3}, ou bien
{5} ⊂ {1, 5, 3}. (Mais surtout pas 5 ⊂ {1, 5, 3} : 5 est un élément, pas un ensemble).
Par convention, ∅ est toujours sous-ensemble de n’importe quel ensemble.
Pour désigner les ensembles de couples, de triplets, etc, on utilise la notation × (pro-
noncer "croix") :
• {1, 3, 5} × {1, 3, 5} (noté aussi {1, 3, 5}2 ) est l’ensemble des couples d’éléments de
{1, 3, 5}. On a ainsi
{1, 3, 5}2 = {(1, 1), (1, 3), (1, 5), (3, 1), (3, 3), (3, 5), (5, 1), (5, 3), (5, 5)}
On peut remarquer que Card({1, 3, 5}2 ) = 9 = 32 = (Card{1, 3, 5})2 .
• N × N est l’ensemble des couples de nombres entiers, ce qui peut s’écrire N × N =
{(a, b), a ∈ N, b ∈ N}. On écrit aussi N × N = N2 .
• N × N × N = N3 : ensemble des triplets d’entiers.
• N10 : ensemble des 10-uplets d’entiers. Par exemple (1, 3, 5, . . . , 19, 21) ∈ N10 .
• R × N = {(x, n), x ∈ R, n ∈ N}. Par exemple, (2.45, 3) ∈ R × N.
• Rn = {(x1 , x2 , . . . , xn ), x1 ∈ R, . . . , xn ∈ R} : n-uplets de nombres réels (si n est un
entier fixé).
Lorsque la suite a une infinité d’éléments, on parle de suite tout court, et on note
avec des indices de position : par exemple (1, 1/2, 1/3, 1/4, . . .) est la suite (un )n∈N avec
un = 1/n. On note NN l’ensemble des suites de nombres entiers, RN l’ensemble des suites
de nombres réels, etc.
1.2 Combinatoire
1.2.1 Cardinal de l’ensemble des couples ou des n-uplets
Si Card(A) < ∞ et Card(B) < ∞,
Card(A × B) = Card(A)Card(B).
Card(An ) = (Card(A))n .
P0 (A) = {∅},
P1 (A) = {{1}, {3}, {5}},
P2 (A) = {{1, 3}, {3, 5}, {1, 5}},
P3 (A) = {{1, 3, 5}}.
On remarque ici que Card(P0 (A)) = 1, Card(P1 (A)) = 3, Card(P2 (A)) = 3, et
= 1. De manière générale le cardinal de Pp (A) lorsque A contient n éléments
Card(P3 (A))
n
est noté p et vaut
n n!
= .
p (n − p)!p!
Rappelons quelques formules classiques sur ce nombre :
n n n n n
= , = n, = = 1,
p n−p 1 0 n
n n−1 n−1
= + .
p p p−1
S({1, 3, 5}) = {(1, 3, 5), (1, 5, 3), (3, 1, 5), (3, 5, 1), (5, 1, 3), (5, 3, 1)}.
Card(S(A)) = n!.
On voit que pour construire Sp (A), on forme, à partir de chaque élément de Pp (A),
les p-uplets obtenus en permutant ses éléments. Comme il y a p! telles permutations, le
nombre total d’éléments de Sp (A) est égal à
n n!
Card(Sp (A)) = p! Card(Pp (A)) = p! = .
p (n − p)!
1.3 Événements et probabilité
1.3.1 Exemple introductif
On lance un dé. Quelle est la probabilité que le résultat soit un nombre pair supérieur
ou égal à trois ?
Ce problème est très simple et peut se résoudre de tête : le dé doit tomber sur 4 ou 6
pour que le résultat soit à la fois pair et supérieur à 3 ; on peut donc répondre directement
qu’il y a 2 chance sur 6 pour que ça arrive.
Nous allons voir comment introduire des notations mathématiques rigoureuses générales
permettant de résoudre des problèmes tels que celui-ci, ou d’autres plus complexes pour
lesquels l’intuition ne suffit pas. Cependant pour simplifier la compréhension, nous allons
suivre ce premier exemple.
Il s’agit de trouver la probabilité qu’un certain événement se produise, en l’occurrence
l’événement
A = "le résultat du dé est un nombre pair supérieur ou égal à 3".
On note cette probabilité P (A). Par convention la probabilité d’un événement est un
nombre réel compris entre 0 et 1 (c’est-à-dire appartenant à l’intervalle [0, 1]), 0 signifiant
que l’événement n’a aucune chance de se réaliser, et 1 qu’il est certain de se réaliser.
A = B ∩ C.
ou encore :
A = "le résultat du dé est 4" ou "le résultat du dé est 6"
Par conséquent A est composé de deux événements élémentaires, que l’on peut noter D4 , D6 ,
avec Di = "le résultat du dé est i". On a donc
A = D4 ou D6 .
Les "ou" dans l’égalité précédente se traduisent alors par des unions de sous-ensembles.
On écrira donc en fait :
A = D4 ∪ D6 .
Pour calculer la probabilité d’une union d’événements on dispose des formules sui-
vantes :
Probabilité de l’union de deux événements - formule générale. Soient E et F
deux événements. Alors
P (E ∪ F ) = P (E) + P (F ) − P (E ∩ F ).
P (E ∪ F ) = P (E) + P (F ).
• Soient E1 , . . . , En plusieurs événements. S’ils sont deux à deux disjoints (Ei ∩Ej =
∅ pour tous i 6= j) alors
Dans notre exemple les événements D4 et D6 sont disjoints. En effet l’événement D4 ∩D6
correspond à : "Le dé tombe sur 4 et sur 6", ce qui est impossible. Ainsi D4 ∩ D6 = ∅. On
peut donc écrire
P (A) = P (D4 ) + P (D6 ).
Finalement on sait que la probabilité de tomber sur chaque face est de 61 . Ainsi P (A) =
1
6
+ 16 = 13 .
Si E ⊂ F alors P (E) ≤ P (F ).
Encore une fois, ceci se comprend très facilement sur un schéma (cf. figure 1.2)
1.3.5 Partition de Ω
Des événements E1 , . . . , En forment une partition de l’univers Ω s’ils sont deux à deux
incompatibles et que leur réunion est égale à Ω. Autrement dit : un et un seul de ces
événements se réalise. Alors on a la relation :
P (E1 ) + · · · + P (En ) = 1.
Figure 1.2 – Si E ⊂ F alors P (E) ≤ P (F ).
deux fois plus de chances de tomber sur 2 que sur 1 ; trois fois plus de chances de tomber
sur 3 que sur 1, etc. On peut alors calculer ces probabilités en écrivant que la somme de
ces probabilités doit faire 1 :
Or d’après ce qu’on vient de voir, P (D2 ) = 2P (D1 ), P (D3 ) = 3P (D1 ), etc. Ainsi,
P (E c ) = 1 − P (E),
P (E) = P (E ∩ F ) + P (E ∩ F c ).
On comprend facilement cette relation en dessinant des patates (cf. figure 1.5). La
preuve mathématique est assez simple aussi ; la voici :
Figure 1.5 – P (E) = P (E ∩ F ) + P (E ∩ F c ).
A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ).
(A ∩ B) ∩ (A ∩ B c ) = A ∩ B ∩ A ∩ B c = ∅
P (A) = P (A ∩ B) + P (A ∩ B c ).
Chapitre 2
Probabilités conditionnelles et
indépendance d’événements
13
Figure 2.1 – Schéma du changement de situation probabiliste correspondant au condi-
tionnement par rapport à un événement F . A gauche, situation initiale dans l’univers Ω ;
à droite, situation conditionnée à F : l’événement F devient le nouvel univers, et seule la
partie de E comprise dans F est considérée.
Ceci permet de justifier la formule fondamentale suivante, qui est en fait la définition
mathématique de la probabilité conditionnelle :
P (E ∩ F )
P (E|F ) = .
P (F )
On voit par cette formule que P (E|F ) n’est défini que si P (F ) 6= 0 ; ce qui est cohérent :
on ne peut pas supposer que F est réalisé s’il n’a aucune chance de se réaliser.
remarque : Attention, E|F ne signifie rien en soit, ce n’est pas un événement. Seule
l’expression P (E|F ) a un sens. En fait la probabilité conditionnelle P (E|F ) se note par-
fois PF (E), notation moins usuelle mais bien plus juste car elle traduit précisément le
changement de situation probabiliste évoqué plus haut : la fonction PF est la fonction de
probabilité de la nouvelle situation, en remplacement de la fonction P initiale.
On note B1 l’événement "la première boule tirée est blanche", et B2 l’événement "la
deuxième boule tirée est blanche". On cherche donc à calculer P (B2 ). La formule suivante,
vue au premier chapitre, est le point de départ du calcul :
P (B2 ) = P (B2 ∩ B1 ) + P (B2 ∩ B1c ).
Autrement dit on décompose l’événement "la deuxième boule tirée est blanche" en deux :
"la deuxième boule tirée est blanche et la première était blanche", et "la deuxième boule
tirée est blanche et la première n’était pas blanche (donc était noire)". On utilise alors
la définition mathématique des probabilités conditionnelles pour calculer P (B2 ∩ B1 ) et
P (B2 ∩ B1c ), ce qui donne :
P (B2 ) = P (B2 |B1 )P (B1 ) + P (B2 |B1c )P (B1c ).
C’est la formule des probabilités totales. A présent toutes les probabilités à droite de
l’égalité peuvent se calculer :
• Pour déterminer P (B2 |B1 ) on se place dans la situation où B1 est réalisé, c’est-à-dire
que la première boule tirée est blanche. Dans ce cas la deuxième urne contiendra
trois boules blanches et trois boules noires, et donc la probabilité de tirer une boule
blanche sera de 63 = 21 . Ainsi on a montré que P (B2 |B1 ) = 21 .
• Pour déterminer P (B2 |B1c ) on se place dans la situation inverse : la première boule
tirée est noire, donc la deuxième urne contient deux boules blanches et quatre boules
noires. Ainsi P (B2 |B1c ) = 26 = 13 .
• P (B1 ) est la probabilité que la première boule tirée soit blanche : P (B1 ) = 13 .
• Enfin P (B1c ) = 1 − P (B1 ) = 23 .
Finalement on trouve donc
1 1 1 2 7
P (B2 ) = × + × = .
2 3 3 3 18
On a démontré et utilisé dans ce calcul la formule des probabilités totales :
La version générale de la formule consiste à conditionner non plus par seulement deux
événements (F et F c ) pour le calcul de P (E), mais par un nombre n :
Formule des probabilités totales, cas général. Soient E un événement et F1 , F2 , . . . , Fn
des événements formant une partition de Ω, avec P (Fi ) 6= 0 pour tout i. Alors
Pour traiter une maladie, les médecins disposent de trois nouveaux médicaments M A,
M B, M C. Dans un premier cas, les médecins prescrivent indifféremment l’un des trois
médicaments pour chaque traitement. Dans un deuxième cas, ils commencent à connaître
mieux ces médicaments, et prescrivent M A dans 50% des cas, M B dans 30% des cas, et
M C dans 20% des cas. En fait les taux de réussite de ces médicaments sont respectivement
de 98%, 96% et 95%. Calculer la probabilité d’échec du traitement dans chaque cas.
1er cas : P (A) = P (B) = P (C) = 31 . Donc P (E c ) = 0.98 × 13 + 0.96 × 13 + 0.95 × 13 = 0.963.
Finalement P (E) = 1 − P (E c ) = 0.037.
2e cas : P (A) = 0.5, P (B) = 0.3 et P (C) = 0.2. Donc P (E c ) = 0.98 × 0.5 + 0.96 × 0.3 +
0.95 × 0.2 = 0.968, et P (E) = 0.032.
Si la deuxième boule tirée est blanche, quelle est la probabilité que la première boule
tirée ait été blanche aussi ?
Ici on demande de calculer P (B1 |B2 ). Cette probabilité conditionnelle ne peut pas
être trouvée directement comme c’est le cas pour P (B2 |B1 ). En effet ici on cherche la
probabilité d’un événement en conditionnant par rapport à un événement qui en découle, ce
qui va contre l’intuition. Il faut donc faire une manipulation pour "retourner" la probabilité
conditionnelle :
1 1
2
× 3 3
P (B1 |B2 ) = 7 = .
18
7
Nous avons donc utilisé la formule suivante, qui est la base de la formule de Bayes :
P (E|F )P (F )
P (F |E) = .
P (E)
P (E|F )P (F )
P (F |E) = .
P (E|F )P (F ) + P (E|F c )P (F c )
Dans l’exercice des deux urnes, cette formule aurait permis de répondre à la deuxième
question directement. A présent voici la version générale de la formule :
P (E|F )P (F )
P (F |E) = .
P (E|F1 )P (F1 ) + P (E|F2 )P (F2 ) + · · · + P (E|Fn )P (Fn )
Or P (E|F ) = P P(E∩F
(F )
)
et P (F |E) = P P(E∩F
(F )
)
, et par conséquent on voit que les deux condi-
tions ci-dessus se résument en une seule : P (E ∩ F ) = P (E)P (F ). C’est la définition
mathématique de l’indépendance :
P (E ∩ F ) = P (E)P (F ).
exemple 1 : On lance une pièce de monnaie deux fois de suite sur une table. Quelle
est la probabilité d’obtenir deux fois face ?
On note A ="on obtient face au premier lancer" et B ="on obtient face au deuxième
lancer". Ici ces deux événements sont clairement indépendants : le fait d’obtenir face en
premier ne change pas la probabilité d’obtenir face au deuxième. Par conséquent la proba-
bilité demandée ("obtenir deux fois face") sera : P (A ∩ B) = P (A)P (B) = 21 × 12 = 14 .
exemple 2 : A Paris il pleut en moyenne un jour sur deux en octobre. Quelle est la
probabilité qu’il pleuve à la fois le 15 et le 16 octobre ?
exemple 3 : On lance un dé. Quelle est la probabilité que le résultat soit un nombre
pair supérieur ou égal à trois ?
Il s’agit ici du premier exemple du chapitre 1. On avait noté B="le résultat est un
nombre pair", C="le résultat est ≥ 3", et la probabilité cherchée est P (A) avec A = B ∩C.
En principe B et C n’ont aucune raison d’être indépendants puisqu’ils concernent le même
lancer de dé. Pourtant on a P (B) = 12 , P (C) = 23 , et on avait trouvé P (A) = P (B ∩C) = 13 .
On a donc P (B ∩ C) = P (B)P (C), et donc B et C sont mathématiquement indépendants.
C’est une sorte d’indépendance fortuite, qui va contre l’intuition.
Modifions à présent légèrement l’énoncé : On lance un dé. Quelle est la probabilité que
le résultat soit un nombre pair supérieur ou égal à quatre ?
Ici l’analyse est la même, à savoir que les événements B et D="le résultat est ≥ 4" n’ont
pas de raison d’être indépendants ; et le calcul montre en effet que P (B)P (D) = 12 × 12 6=
P (B ∩ D) = 13 ; c’est-à-dire que B et D ne sont pas indépendants.
Pour résumer, l’intuition peut nous dire si des événements sont indépendants, mais à
l’inverse on ne peut jamais être certain que des événements ne sont pas indépendants sans
faire le calcul.
E et F indépendants ⇔ E et F c indépendants,
⇔ E c et F indépendants,
⇔ E c et F c indépendant.
Intuitivement, on est simplement en train de dire que le fait que E se réalise/ne se réalise
pas est indépendant du fait que F se réalise/ne se réalise pas.
P (E ∩ F ) = P (E)P (F ),
P (E ∩ G) = P (E)P (G),
P (F ∩ G) = P (F )P (G),
P (E ∩ F ∩ G) = P (E)P (F )P (G).
Pourquoi a-t-on besoin de toutes ces relations ? On pourrait penser que les deux pre-
mières ou les trois premières suffisent et entraînent les autres. Mais ceci est faux, comme
le montre le contre-exemple suivant :
Exemple : On tire deux fois un dé à six faces. Les événements suivants sont-ils indé-
pendants ?
A ="le premier dé tombe sur un nombre pair",
B ="le deuxième dé tombe sur un nombre impair",
C ="les deux dés ont même parité".
P (A ∩ B) = P (A)P (B),
P (A ∩ C) = P (A)P (C),
P (B ∩ C) = P (B)P (C).
Cependant il est facile de voir que P (A ∩ B ∩ C) = 0 (les trois événements ne peuvent
se réaliser ensemble) ; et donc que P (A ∩ B ∩ C) est différent de P (A)P (B)P (C). Ainsi
les trois événements ne sont pas indépendants puisqu’il manque la dernière relation, alors
qu’ils sont indépendants deux-à-deux.
exemple : On lance trois dés, et on note A ="le 1er dé tombe sur 3", B ="le deuxième
dé tombe sur un nombre pair", et C ="le 3e dé tombe sur un nombre impair". Calculer
P (A ∩ B ∩ C).
Les trois lancers de dé sont ici clairement des expériences aléatoires indépendantes. On
en déduit que A, B et C sont indépendants, puisque chacun de ces événements se réfère à
un lancer différent. Ainsi P (A ∩ B ∩ C) = P (A)P (B)P (C) = 16 × 12 × 21 = 241
.
P (E ∩ F |G)
P (E|F ∩ G) = .
P (F |G)
Cette formule devient claire si on la comprend comme la définition, sous l’hypothèse que
G est réalisé, de la probabilité conditionnelle de E sachant F . Autrement, elle se démontre
très facilement à partir des définitions :
Preuve.
P (E ∩ F ∩ G) P (E ∩ F |G)P (G) P (E ∩ F |G)
P (E|F ∩ G) = = = .
P (F ∩ G) P (F |G)P (G) P (F |G)
On appelle variable aléatoire tout nombre réel aléatoire, c’est-à-dire dont la valeur
dépend du résultat d’une expérience probabiliste. Par exemple :
Ici X est une variable aléatoire et les valeurs possibles de X sont 1, 2, 3, 4, 5, 6. Pour
chacune de ces valeurs, X a une certaine probabilité de lui être égal. Ici en fait on peut
donner directement les probabilités des événements ”X = 1”, ”X = 2”, . . . , ”X = 6” : on
a P (”X = 1”) = P (”X = 2”) = · · · = P (”X = 6”) = 61 .
Remarque : Un nombre réel fixé (c’est-à-dire non aléatoire) peut être vu comme une
variable aléatoire ayant une probabilité 1 d’être égale à la valeur considérée. Par exemple
le nombre x = 2 sera identifié à une variable X telle que P (X = 2) = 1.
25
3.1.2 Support d’une variable aléatoire
Le support d’une variable aléatoire est l’ensemble des ses valeurs possibles. C’est la
première chose à préciser lorsqu’on considère une variable aléatoire. On notera S(X) le
support d’une variable aléatoire X.
Exemple 2 : Soit X le nombre de jours avant la prochaine pluie (en supposant que ça
va forcément arriver). Alors X ∈ {0, 1, 2, . . .} = N.
Exemple 3 : On lance une balle, et on note X la distance parcourue par la balle avant
de s’arrêter. Alors on aura X ∈ [0, d] (en supposant qu’il y a une distance maximale d
possible), ou bien simplement X ∈ [0, +∞[.
On vient en fait de voir trois types de support différents avec ces trois exemples :
support fini pour le premier, support infini dénombrable pour le second, support infini
non dénombrable pour le troisième. Cette distinction est essentielle en probabilités, car les
calculs de probabilités vont s’effectuer de façon complètement différentes suivant les cas.
Définition. Une variable aléatoire discrète est une variable aléatoire dont le support
est un ensemble fini ou infini dénombrable.
Loi d’une variable discrète. Donner la loi d’une variable aléatoire discrète X, c’est
calculer les probabilités P (X = x) pour toutes les valeurs x possibles prises par X (autre-
ment dit pour tous les x appartenant au support de X).
Figure 3.1 – Loi et fonction de répartition d’un lancer de dé
x 1 2 3 4 5 6
1 1 1 1 1 1
P (X = x)
6 6 6 6 6 6
Lorsque toutes les probabilités formant la loi de X sont égales, comme dans l’exemple
du dé, on parle de loi uniforme. C’est l’exemple le plus simple de variable aléatoire.
Définition. On dit que la variable X suit la loi uniforme sur {x1 , x2 , . . . , xn } lorsque le
support de X est égal à {x1 , x2 , . . . , xn } et que P (X = xi ) = n1 pour tout 1 ≤ i ≤ n.
Le support de X est ici {0, 1, 2, 3}. On doit donc calculer P (X = 0), P (X = 1), P (X =
2) et P (X = 3).
Définissons F1 ="la première pièce tombe sur Face" ; et de même F2 et F3 . On peut clai-
rement supposer que les trois lancers de pièce sont indépendants ici ; et donc que F1 , F2 , F3
sont indépendants.
• [X = 0] = F1c ∩ F2c ∩ F3c donc P (X = 0) = P (F1c )P (F2c )P (F3c ) grâce à l’indépendance.
Ainsi P (X = 0) = 21 × 21 × 21 = 18 .
• [X = 1] = (F1 ∩ F2c ∩ F3c ) ∪ (F1c ∩ F2 ∩ F3c ) ∪ (F1c ∩ F2c ∩ F3 ). Cette union est disjointe,
Figure 3.2 – Loi et fonction de répartition de X pour l’exemple 2
La loi de X est en fait un exemple de loi binomiale. Le cas général sera vu un peu plus
loin. La figure 3.2 montre le graphique de cette loi ainsi que la fonction de répartition.
P (X = n) = (1 − p)n−1 p.
Loi binomiale. C’est la loi du nombre de succès lors de n essais indépendants d’une
même expérience probabiliste. Nous allons la calculer sur un exemple simple.
exemple : On lance n dés et on note X le nombre de fois que l’on obtient 6. Quelle
est la loi de X ?
La figure 3.3 montre des exemples de lois binomiales pour différents paramètres.
Loi de Poisson. La loi de Poisson sera vu plus en détail par la suite. Nous donnons
simplement la définition ici :
Il faut toujours penser à le vérifier lorsqu’on calcule une loi. Pour les exemples précédents,
on a :
• pour le dé : 61 + 16 + 61 + 16 + 61 + 16 = 1,
• pour l’exemple 2 : 18 + 38 + 38 + 81 = 1,
• pour la loi géométrique :
+∞ +∞
X X 1
(1 − p)n−1 p = p (1 − p)n = p = 1.
n=1 n=0
1 − (1 − p)
Figure 3.3 – lois binomiales (à gauche) et fonctions de répartition FX correspondantes (à
droite) pour différents paramètres : 1e ligne : n = 5, p = 0.4 ; 2e ligne : n = 15, p = 0.6 ; 3e
ligne : n = 10, p = 0.05.
2) De plus ces événements [X = x] sont les événements élémentaires pour la variable
X, au sens où tout événement relatif à X s’exprime comme une union de ces événements,
et sa probabilité est la somme des P (X = x) correspondants.
exemple : L’événement "le dé tombe sur un nombre pair supérieur à 3" est égal à
[X = 4] ∪ [X = 6] si X est le résultat du dé. Sa probabilité est donc de 16 + 16 = 13 .
L’ensemble des valeurs possibles pour cette variable aléatoire est [0, π]. En suivant l’idée
vue auparavant, on voudrait donc chercher à calculer tous les P (X = α) pour α ∈ [0, π].
En fait on verra que P (X = α) sera toujours égal à 0, ce qui signifie que quelle que soit la
valeur de α, le mikado n’a aucune chance de former exactement l’angle α avec la table. On
est obligé pour donner un sens aux probabilités ici, de considérer des intervalles et non des
valeurs uniques, et de regarder les probabilités que X soit dans ces intervalles. Par exemple
on peut raisonnablement penser ici que P (0 ≤ X ≤ π2 ) = 12 , ou que P ( π4 ≤ X ≤ π2 ) = 14 .
Plus généralement, on peut raisonnablement supposer que la probabilité que X appartienne
à un intervalle [α, β] correspond à la proportion d’angles compris dans cet intervalle, c’est-
à-dire que
β−α
P (α ≤ X ≤ β) = .
π
Ceci permet de caractériser entièrement la variable X car la probabilité de tout événement
lié à X peut se calculer à partir de cette formule.
On va néanmoins ici pouvoir donner une valeur de probabilité associée à un angle α
donné en considérant un petit intervalle [α − ε, α + ε] : on a
(α + ε) − (α + ε) 2ε
P (α − ε ≤ X ≤ α + ε) = = .
π π
On obtient ce qu’on souhaite en prenant la limite pour ε tendant vers 0 de
P (α − ε ≤ X ≤ α + ε)
,
2ε
Figure 3.4 – Graphe d’une densité de probabilité fX . La partie colorée correspond à
P (a ≤ X ≤ b).
3.3.2 Définition
Une variable aléatoire X est dite à densité lorsqu’il existe une fonction fX : R → R+
telle que
Z b
P (a ≤ X ≤ b) = fX (x)dx pour tous a, b ∈ R, a ≤ b.
a
On note X ∼ U([α, β]) ("X suit la loi uniforme sur [α, β]").
exemple 1 : Dans le premier exemple, il est raisonnable de supposer que X suit la loi
uniforme sur [0, π]. On aura donc par exemple :
Z π
π 2 1 1
P X≤ = dx = ,
2 0 π 2
ou encore : Z π
π π 2 1 1
P ≤X≤ = dx = .
4 2 π
4
π 4
et donc
0 si x ≤ α
x−α
FX (x) = si x ∈ [α, β],
β−α
1 si x ≥ β
La densité et la fonction de répartition d’une loi uniforme sont représentées sur la figure
3.5.
Figure 3.6 – Graphes de la densité et de la fonction de répartition de la loi exponentielle
pour a = 1 (traits pleins) et a = 0.5 (pointillés).
Une machine à remplir les bouteilles est défectueuse : elle verse dans chaque bouteille
(de 75cL) une quantité aléatoire de boisson comprise entre 0 et 1 litre.
valeurs possibles correspondent à l’intervalle [0, 0.75]), et n’est pas non plus une variable
à densité car P (Y = 0.75) = P (X > 0.75) = 0.25 6= 0. On dit que la loi de Y possède un
atome en x = 0.75.
On peut calculer facilement la fonction de répartition de Y :
0 si t ≤ 0,
FY (t) = t si 0 < t < 0.75,
1 si t ≥ 0.75.
• Décalage d’indices :
n−1
X n
X
ai+1 = ak (en posant k=i+1)
i=0 k=1
n
X
= ai (puisque l’indice est "muet")
i=1
n
X n
X
• Factorisation : xai = x ai
i=0 i=0
• Série géométrique :
n
X 1 − xn+1
xi = si x 6= 1.
i=0
1−x
+∞
X 1
xn = si |x| < 1.
n=0
1−x
Par exemple,
n n−3 n−3
X X X 1 − xn−2
xi = xi+3 = x3 xi = x3 .
i=3 i=0 i=0
1−x
• Séries entières : Dans certains cas on peut obtenir un développement en série entière
d’une fonction f (x) :
+∞
X
f (x) = an x n .
n=0
Par exemple
+∞
1 X
= xn pour x ∈] − 1, 1[,
1 − x n=0
+∞ n
x
X x
e = pour tout x ∈ R.
n=0
n!
On a alors le droit de dériver la série entière :
+∞
X +∞
X
0 n−1
f (x) = nan x = (n + 1)an+1 xn .
n=1 n=0
Cette propriété est très utile pour les calculs d’espérance et de variance.
3.5.2 Définitions
Espérance
L’espérance d’une variable aléatoire X est la moyenne des valeurs prises par la variable,
pondérées par leurs probabilités. On la note E(X). Avant de voir des définitions plus
précises, voyons un exemple :
exemple : On lance un dé. Si on obtient 6 on reçoit 8 euros ; sinon on perd 2 euros.
On note G le gain obtenu. Quelle est l’espérance de ce gain ?
5
La loi de G est très simple : G ∈ {−2, 8}, et on a P (G = −2) = 6
et P (G = 8) = 16 . La
moyenne pondérée des gains est donc
5 1 1
E(G) = (−2) × + 8 × = − = −0.33.
6 6 3
Cette espérance est négative, ce qui signifie que le jeu est plutôt défavorable.
On verra plus tard que l’espérance correspond aussi à l’idée de valeur moyenne obte-
nue lorsqu’on répète un grand nombre de fois la même expérience : intuitivement, dans
l’exemple précédent, si on joue à ce jeu un grand nombre n de fois, on perdra environ n × 13
euros.
Lorsque le support est infini, cette somme est une série infinie ; il peut donc arriver
qu’elle ne soit pas absolument convergente : l’espérance n’est alors pas définie.
Ici encore cette intégrale peut ne pas être absolument convergente ; dans ce cas l’espé-
rance n’est pas définie.
Z
E(g(X)) = g(x)fX (x)dx si X est une variable à densité.
R
Ici encore ces sommes ou ces intégrales peuvent ne pas être absolument convergentes.
Par exemple il se peut très bien que E(g(X)) n’existe pas alors que E(X) existe.
Variance
La variance permet de mesurer l’écart des valeurs de la variable par rapport à l’espé-
rance :
par la propriété de linéarité. A présent E(X) est un nombre réel ; on peut donc écrire
E(E(X)) = E(X), et E(XE(X)) = E(X)E(X) = E(X)2 . Ainsi
La variance est un nombre positif qui peut être infini, même lorsque l’espérance est
définie.
P (X = n) = (1 − p)n−1 p pour n ≥ 1.
Calculons E(X) :
X
E(X) = nP (X = n)
n≥1
X
= n(1 − p)n−1 p
n≥1
X
= p n(1 − p)n−1 .
n≥1
X X X 1
Notons f (x) = nxn−1 . f (x) est la dérivée de xn = xn − x0 = − 1, donc
n≥1 n≥1 n≥0
1−x
1
0 1
f (x) = 1−x
−1 = (1−x)2
. Ainsi
1 1
E(X) = pf (1 − p) = p 2
= .
p p
1
E(X) =
p
Calculons V (X) :
X X
f (x) = n(n + 1)xn−1 − nxn−1
n≥1 n≥1
!00 !0
X X
= xn+1 − xn
n≥1 n≥1
!00 !0
X X
= xn − xn
n≥2 n≥1
00 0
1 1
= −1−x − −1
1−x 1−x
2 1
= 3
− ,
(1 − x) (1 − x)2
et donc
1 2 1 1 1 1
V (X) = pf (1 − p) − 2 = p − − = − .
p p3 p2 p2 p2 p
1−p
V (X) =
p2
Calculons E(X) :
n n
X X n k
E(X) = kP (X = k) = k p (1 − p)n−k .
k=0 k=0
k
Tout d’abord le terme k = 0 de cette somme est nul, donc
n
X n k
E(X) = k p (1 − p)n−k .
k=1
k
De plus pour k ≥ 1,
n n! n! (n − 1)!
k = k = =n
k k!(n − k)! (k − 1)!(n − k)! (k − 1)!(n − k)!
(n − 1)!
= n
(k − 1)!((n − 1) − (k − 1))!
n−1
= n .
k−1
Ainsi
n n
X n−1 k n−k
X n−1 k
E(X) = n p (1 − p) = n p (1 − p)n−k
k=1
k − 1 k=1
k − 1
n−1
X n−1 n−1
k+1 n−(k+1)
X n−1 k
= n p (1 − p) = np p (1 − p)n−(k+1)
k=0
k k=0
k
n−1
X n−1 k
= np p (1 − p)(n−1)−k = np(p + (1 − p))n−1 .
k=0
k
E(X) = np
Calculons V (X) :
V (X) = E(X 2 ) − E(X)2 = E(X 2 ) − n2 p2 .
n n n
2
X
2
X n k
2 n−k
X
2 n
E(X ) = k P (X = k) = k p (1 − p) = k pk (1 − p)n−k
k=0 k=0
k k=1
k
n n
X n k X n k
= k(k − 1) p (1 − p)n−k + k p (1 − p)n−k
k=1
k k=1
k
n n
X n k n−k
X n k
= k(k − 1) p (1 − p) + k p (1 − p)n−k .
k=2
k k=1
k
Le deuxième terme est égal à E(X), donc à np. De plus pour k ≥ 2,
n! n!
k(k − 1) =
(k!(n − k)! (k − 2)!(n − k)!
(n − 2)!
= n(n − 1)
(k − 2)!((n − 2) − (k − 2)!
n−2
= n(n − 1) .
k−2
Ainsi
n
2
X n−2 k
E(X ) = n(n − 1) p (1 − p)n−k + np
k=2
k − 2
n−2
X n − 2
= n(n − 1) pk+2 (1 − p)n−k−2 + np
k=0
k
n−2
2
X n−2 k
= n(n − 1)p p (1 − p)n−2−k + np
k=0
k
= n(n − 1)p2 (p + (1 − p))n−2 = n(n − 1)p2 + np.
Finalement,
V (X) = np(1 − p)
1
E(X) =
a
Calculons V (X) :
Z Z +∞
1 1
2
V (X) = E(X ) − E(X) = 2
x fX (x)dx − 2 =2
x2 ae−ax dx − .
R a 0 a2
On pose u = x2 , u0 = 2x et v 0 = ae−ax , v = −e−ax :
Z +∞
−ax +∞ 1
2x(−e−ax )dx − 2
2
V (X) = x (−e ) 0 −
0 a
Z +∞
1
= 0+2 xe−ax dx − 2
0 a
+∞ Z +∞
1 1 1
= 2 x(− e−ax ) −2 (− e−ax )dx − 2
a 0 0 a a
Z +∞
2 1
= 0+ e−ax dx − 2
a 0 a
+∞
2 1 1
= − e−ax − 2
a a 0 a
21 1 1
= − 2 = 2.
aa a a
1
V (X) =
a2
S ∈ {2, 3, 4, . . . , 12}. Si on note X et Y les résultats des deux dés, X et Y sont des
variables aléatoires indépendantes, de même loi uniforme sur {1, 2, . . . , 6} : P (X = i) =
P (Y = i) = 61 .
1
[S = 2] = [X = 1] ∩ [Y = 1] donc P (S = 2) = P (X = 1)P (Y = 1) = 36 .
[S = 3] = ([X = 1] ∩ [Y = 2]) ∪ ([X = 2] ∩ [Y = 1]) donc P (S = 3) = P (X = 1)P (Y =
2
2) + P (X = 2)P (Y = 1) = 36 .
[S = 4] = ([X = 1] ∩ [Y = 3]) ∪ ([X = 2] ∩ [Y = 2]) ∪ ([X = 3] ∩ [Y = 1]) donc
3
P (S = 4) = P (X = 1)P (Y = 3) + P (X = 2)P (Y = 2) + P (X = 3)P (Y = 1) = 36 .
Ainsi de suite. On voit donc que pour chaque valeur possible de la somme S, la proba-
bilité correspondante s’obtient en comptant le nombre de façons différentes d’obtenir cette
somme avec les deux résultats. On aboutit ainsi à la loi suivante :
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P (X = x)
36 36 36 36 36 36 36 36 36 36 36
[Z = n] = [Z = n, X = 0] ∪ [Z = n, X = 1] ∪ [Z = n, X = 2] ∪ · · · .
P (Z = n) = P (Z = n, X = 0) + P (Z = n, X = 1) + P (Z = n, X = 2) + · · ·
X
= P (Z = n, X = k).
k≥0
Or
P (Z = n, X = k) = P (X + Y = n, X = k)
= P (k + Y = n, X = k)
= P (Y = n − k, X = k)
= P (Y = n − k)P (X = k),
grâce à l’indépendance de X et Y .
k
Or X ∼ P(λ) et Y ∼ P(µ) donc P (X = k) = e−λ λk! si k ≥ 0 (et P (X = k) = 0 sinon),
µn−k
et P (Y = n − k) = e−µ (n−k)! si n − k ≥ 0, soit k ≥ n (et P (Y = n − k) = 0 sinon). Ainsi
on voit que P (X = k)P (Y = n − k) est non nul seulement si 0 ≤ k ≤ n, et donc la somme
sur k s’arrête en fait à k = n :
n
X X λk −µ µn−k
P (Z = n) = P (Z = n, X = k) = e−λ e
k≥0 k=0
k! (n − k)!
n
X 1
= e−λ−µ λk µn−k
k=0
k!(n − k)!
n
−(λ+µ)1 X n!
= e λk µn−k
n! k=0 k!(n − k)!
n
−(λ+µ) 1 n k n−k
X
= e λ µ
n! k=0 k
(λ + µ)n
= e−(λ+µ) .
n!
Ceci correspond à la formule de la loi de Poisson de paramètre λ + µ. Ainsi la loi de X + Y
est la loi de Poisson de paramètre λ + µ.
Le principe de calcul qui vient d’être vu dans ces deux exemples se généralise : il s’agit
de calculer la loi de la somme de deux variables discrètes indépendantes :
Proposition. Soient X et Y deux variables discrètes indépendantes, et Z = X + Y . Alors
la loi de Z se calcule à partir de celles de X et Y via la formule : pour tout z ∈ S(Z),
X
P (Z = z) = P (X = x)P (Y = z − x).
x∈S(X)
Ainsi la densité de Z est fZ (z) = a2 ze−az si z ≥ 0, 0 sinon. Cette fonction est représentée
sur la figure 3.8 dans le cas a = 0.5.
D = min{X, 10 − X, Y, 10 − Y }.
Le support de D est [0, 5]. Pour calculer la loi de D nous allons déterminer sa fonction de
Figure 3.10 – Exemple 3 : position du planeur dans le lac
FD (t) = P (D ≤ t)
= P (X ≤ t ou 10 − X ≤ t ou Y ≤ t ou 10 − Y ≤ t)
= P ([X ≤ t] ∪ [10 − X ≤ t] ∪ [Y ≤ t] ∪ [10 − Y ≤ t])
= P ([X ≤ t] ∪ [X ≥ 10 − t] ∪ [Y ≤ t] ∪ [Y ≥ 10 − t])
= 1 − P ([X > t] ∩ [X < 10 − t] ∩ [Y > t] ∩ [Y < 10 − t])
= 1 − P ([t < X < 10 − t] ∩ [t < Y < 10 − t]).
Ces probabilités se calculent à partir de la densité de la loi uniforme sur [0, 10] :
Z 10−t Z 10−t
1 1
FD (t) = 1 − du du
t 10 t 10
(10 − t) − t (10 − t) − t (10 − 2t)2 100 + 4t2 − 40t 4t(10 − t)
= 1− =1− =1− = .
10 10 100 100 100
On a ainsi calculé FD (t) pour 0 ≤ t ≤ 5. A présent si t < 0, FD (t) = P (D ≤ t) = 0, et si
t > 5, FD (t) = P (D ≤ t) = 1. Pour résumer, la fonction FD (t) est donnée par :
0 si t < 0
4t(10−t)
FD (t) = si 0 ≤ t ≤ 5
100
1 si t > 5
Exemple : A titre d’exemple, présentons trois expériences similaires : Dans les trois
expériences on dispose d’un grand nombre de billes, de deux sacs notés A et B, vides au
départ, et d’une pièce de monnaie.
• première expérience : On lance 10 fois successivement la pièce de monnaie ; à chaque
fois, si la pièce tombe sur face, on met une bille dans le sac A, sinon on met une bille
dans le sac B.
• deuxième expérience : On lance 10 fois successivement la pièce de monnaie ; à chaque
fois, si la pièce tombe sur face, on met une bille dans le sac A et une bille dans le sac
B, sinon on ne fait rien.
• troisième expérience : On lance 10 fois successivement la pièce de monnaie ; à chaque
fois, si la pièce tombe sur face, on met une bille dans le sac A, sinon on ne fait rien.
Puis on relance 10 fois la pièce et à chaque fois, si la pièce tombe sur face, on met
une bille dans le sac B, sinon on ne fait rien.
Notons X le nombre de billes contenues dans le sac A à la fin de l’expérience, Y le nombre
de billes dans le sac B, et Z le nombre de billes total dans les deux sacs. On a donc
toujours Z = X + Y . Il est facile de voir que quelle que soit l’expérience, X et Y suivent
toutes les deux la loi binomiale de paramètres n = 10 et p = 0.5. En effet chaque sac
contient au plus 10 billes et le nombre de billes correspond au nombre de succès lors de
10 lancers successifs indépendants, avec probabilité de succès 0.5. Par contre la loi de
Z n’est pas la même dans les trois expériences. En effet dans la premières expérience
on a forcément Z = 10 : on a placé 10 billes en tout. Dans la deuxième expérience, le
nombre de billes dans B est égal au nombre de billes dans A, autrement dit Y = X, et
donc Z = 2X. Les valeurs possibles dek Z sont donc 0, 2, 4, . . . , 20, et sa loi est donnée
par P (Z = 2k) = P (X = k) = 20 k
0.5 (1 − 0.5)20−k
= 0.520 20 k
. Enfin dans la troisème
expérience on peut voir que X et Y sont indépendantes et que la loi de Z est la loi binomiale
51
de paramètres n = 20 et p = 0.5 (on fait 20 lancers de dé en tout, et on place une bille
dans un des deux sacs à chaque fois qu’on tombe sur face).
Cet exemple montre que la loi d’une somme Z = X + Y ne dépend pas uniquement
des lois des deux variables X et Y . En fait lorsqu’une variable ou un événement dépend
du résultat de deux variables X et Y discrètes, il faut pour faire des calculs connaître les
probabilités P ([X = x] ∩ [Y = y]) pour toutes les valeurs possibles de X et Y , et ces
probabilités ne se déduisent pas des probabilités P (X = x) et P (Y = y) à moins que les
variables soient indépendantes. Ces probabilités P ([X = x] ∩ [Y = y]) forment ce qu’on
appelle la loi jointe de X et Y , ou encore la loi du couple (X, Y ).
Définition. Le support d’un couple aléatoire (X, Y ) est l’ensemble des valeurs prises
par (X, Y ), c’est-à-dire l’ensemble des couples de valeurs prises par X et Y . On le note
S(X, Y ), et il est donc égal à S(X) × S(Y ).
exemples :
• Si X et Y correspondent à des lancers de dés, on a S(X) = S(Y ) = {1, 2, 3, 4, 5, 6} et
S(X, Y ) = {(x, y), x, y ∈ {1, 2, 3, 4, 5, 6}} = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, ce qui
se note aussi {1, 2, 3, 4, 5, 6}2 . Le cardinal de S(X, Y ) (nombre de valeurs prises par
(X, Y )) est donc 62 = 36.
• Avec 10 lancers de dé, on obtient 10 variables X1 , . . . , X10 , et donc un vecteur aléa-
toire (X1 , . . . , X10 ). Le support de ce vecteur est l’ensemble S((X1 , . . . , X10 )) =
{1, 2, 3, 4, 5, 6}10 , et donc Card(S((X1 , . . . , X10 ))) = 610 , soit environ 60 millions de
valeurs possibles.
En faisant les additions de chaque ligne et de chaque colonne, on obtient les lois de X
et de Y . On a en fait les formules : pour tout x ∈ S(X),
X
P (X = x) = P (X = x, Y = y),
y∈S(Y )
qui vient du fait que l’événement [X = x] est l’union disjointe des événements [X =
x] ∩ [Y = y] pour tous les y ∈ S(Y ). De même pour tout y ∈ S(Y ),
X
P (Y = y) = P (X = x, Y = y).
x∈S(X)
On appelle les lois de X et de Y les lois marginales du couple (X, Y ) (puisqu’on les
lit à la "marge" du tableau). Souvent on les appelle aussi lois marginales de X et de Y , ce
qui n’est pas logique (mais usuel).
En général on ne peut pas retrouver la loi du couple (X, Y ) à partir des lois marginales.
En revanche, si X et Y sont des variables indépendantes, alors on déduit la loi du couple
des lois marginales : P (X = x, Y = y) = P (X = x)P (Y = y).
exemple : On reprend l’exemple des deux sacs A et B. Les trois tableaux suivants
correspondent aux trois cas proposés plus haut pour la loi du couple (XA , XB ) (mais il y
a une infinité d’autres possibilités) :
= E(X)E(Y ).
Attention : La réciproque de la proposition est fausse en général : cov(X, Y ) = 0
n’implique pas que X et Y sont indépendantes.
Proposition. Pour toutes variables aléatoires X et Y ,
|Cov(X, Y )| ≤ σ(X)σ(Y ).
Ce résultat est en fait une conséquence immédiate de l’inégalité de Cauchy-Schwartz :
Inégalité de Cauchy-Schwarz Soient X, Y deux variables aléatoires dont les variances
sont bien définies. Alors p p
E(XY ) ≤ E(X 2 ) E(Y 2 ).
donc
E(X12 ) E(X1 X2 ) E(X1 X3 ) · · · E(X1 Xn )
E(X1 X2 ) E(X 2 ) E(X2 X3 ) · · · E(X2 Xn )
2
t E(X1 X3 ) E(X2 X3 ) E(X 2 ) · · · E(X3 Xn )
E(XX ) = 3 .
.. ... ..
. .
2
E(X1 Xn ) E(X2 Xn ) E(X3 Xn ) · · · E(Xn )
et
E(X1 )
E(X2 )
E(X)E(X)t
= .. E(X1 ) E(X2 ) · · · E(Xn )
.
E(Xn )
E(X1 )2 E(X1 )E(X2 ) E(X1 )E(X3 ) · · · E(X1 )E(Xn )
E(X1 )E(X2 )
E(X2 )2 E(X2 )E(X3 ) · · · E(X2 )E(Xn )
E(X1 )E(X3 ) E(X2 )E(X3 )
= E(X3 )2 · · · E(X3 )E(Xn )
.
.. .. ..
. . .
2
E(X1 )E(Xn ) E(X2 )E(Xn ) E(X3 )E(Xn ) ··· E(Xn )
grand ?
L’intuition laisse penser que lorsque n devient grand, cette moyenne devient proche de
l’espérance d’un des lancers Xi , c’est-à-dire de E(Xi ) = 16 + 26 + 63 + 46 + 56 + 66 = 3.5. On
voudrait donc pouvoir dire que la limite de X̄n lorsque n → +∞ vaut 3.5. C’est ce qu’on
appelle la loi des grands nombres. Pour cela, il faut d’abord définir ce que signifie converger
pour une suite de variables aléatoires, puis prouver qu’il y a bien convergence.
b) Cette fois le dé dont on dispose est truqué : il a une probabilité p inconnue de tom-
ber sur 6, et 1−p
5
sur chacune des autres faces. Comment connaître la valeur de p
simplement à partir des résultats obtenus en lançant n fois le dé ?
Si laP
loi des grands nombres est correcte, on peut l’utiliser ici et dire que la moyenne
X̄n = n ni=1 Xi des résultats est proche de l’espérance E(Xi ) = (1+2+3+4+5)× 1−p
1
5
+6p =
1 1
3(1 − p) + 6p = 3(p + 1). Or si X̄n ' 3(p + 1), c’est que 3 X̄n ' p + 1, donc que 3 X̄n − 1 ' p.
Ainsi une valeur approchée de p est donnée par 13 X̄n − 1. On a donc donné une estimation
de p, et on dit que 13 X̄n − 1 est un estimateur de p car c’est une quantité que l’on peut
calculer à partir des résultats des lancers, et qui donne une valeur approchée de la valeur
inconnue p.
59
5.2 Convergence de variables aléatoires
remarque : Il existe plusieurs notions de convergence de variables aléatoires. Dans ce
cours nous ne donnerons qu’une seule définition, qui correspond à la convergence presque
sûre en théorie des probabilités.
De la même manière que l’on peut s’intéresser à la convergence d’une suite (xn )n≥0 de
nombres réels déterminés, on peut aussi regarder la convergence d’une suite (Xn )n≥0 de va-
riables aléatoires, mais cette convergence aura forcément un caractère aléatoire puisque les
Xn sont aléatoires. Autrement dit, si X est une autre variable, on peut définir l’événement
[Xn −→ X] ="la suite (Xn )n≥0 converge vers X".
n→∞
Définition. On dit que (Xn )n≥0 converge vers X si P Xn −→ X = 1.
n→∞
Proposition. Soit (Xn )n≥0 une suite de variables indépendantes et toutes de même loi. On
suppose que l’espérance et la variance communes à tous les Xn : µ = E(Xn ), σ 2 = V (Xn ),
sont bien définies. Alors pour tout n ≥ 0,
σ2
E(X̄n ) = µ et V (X̄n ) = .
n
Preuve.
• E(X̄n ) = E( n1 ni=1 Xi ) = n1 ni=1 E(Xi ) = n1 × nµ puisque tous les Xi ont même
P P
espérance. Donc PE( X̄n ) = µ.
• V (X̄n ) = V ( n i=1 Xi ) = n12 V ( ni=1 Xi ) = n12 ni=1 V (Xi ) car les Xi sont des va-
1 n P P
2
riables indépendantes. Donc V (X̄n ) = n12 × nσ 2 = σn puisque tous les Xi ont même
variance.
Ce résultat est très important car il montre que lorsque n tend vers +∞, la variance
de X̄n tend vers 0, ce qui laisse penser que X̄n converge vers un nombre non aléatoire, égal
à son espérance E(X̄n ) = µ. C’est précisément la loi des grands nombres.
5.3.2 La loi des grands nombres
Théorème 1. Soit (Xn )n≥0 une suite de variables indépendantes et toutes
Pn de même loi.
1
On suppose que l’espérance µ = E(Xn ) est bien définie. Alors X̄n = n i=1 Xi converge
vers µ.
La preuve de ce théorème est très difficile ; il n’est pas question de la faire dans ce cours.
exemple 1 : Pour une série de lancers de dés (non truqués), si Xi représente le résultat du
ie lancer, alors les Xi sont des variables indépendantes et toutes de même loi (loi uniforme
sur {1, 2, 3, 4, 5, 6}). L’espérance des XP
i est bien définie, donc on peut appliquer la loi des
grands nombres : la moyenne X̄n = n1 ni=1 Xi converge vers 3.5 lorque n tend vers +∞ :
X̄n −→ 3.5.
n→∞
exemple 2 : On suppose qu’à chaque minute il y a une probabilité p qu’un client entre
dans une banque (un seul client peut entrer par minute, et toutes les arrivées de clients sont
indépendantes) et on note Xn le temps d’arrivée du ne client. En fait Xn est la somme de
n variables Yi , où Yi représente le temps d’attente entre les clients i − 1 et i. Les Yi sont des
variables indépendantes et de même loi géométrique de paramètre p. La loi géométrique
admet une espérance,P donc on peut appliquer la loi des grands nombres : la moyenne
empirique Ȳn = n1 ni=1 Yi = n1 Xn converge vers E(Y1 ) = p1 . Autrement dit, lorsque n est
grand, n1 Xn est proche de p1 , et donc le temps d’arrivée Xn du ne client est proche de np .
Définition. Un paramètre inconnu λ est un nombre réel, fixé mais inconnu, dont on
voudrait connaître la valeur.
Par exemple si l’espérance µ = E(X) d’une variable est inconnue, µ est un paramètre
inconnu. Dans l’exemple du dé truqué, la probabilité p que le dé tombe sur 6 est un
paramètre inconnu.
n k n−k n
tout k ∈ {1, . . . , n}, P (X =
SoitX une variable de loi binomiale B(n, p) : on a, pour
k) = k p (1 − p) . Lorsque n est grand, les coefficients k deviennent difficile à calculer
numériquement. On cherche donc à approcher la loi binomiale par des lois plus simples à
calculer.
Preuve.
a)
k n−k
n λ λ
P (Xn = k) = 1−
k n n
λ (n − λ)−k
k
n
n! λ
= 1−
k! (n − k)! nk n−k n
k
n
λ n! 1 λ
= k
1−
k! (n − k)! (n − λ) n
n
λk n (n − 1) · · · (n − k + 1)
λ
= 1−
k! (n − λ) (n − λ) · · · (n − λ) n
k
n
λ n (n − 1) (n − k + 1) λ
= ··· 1− .
k! (n − λ) (n − λ) (n − λ) n
(n−1)
Or n
tend vers 1 lorsque n tend vers l’infini, de même que (n−λ)
(n−λ)
, . . . , (n−k+1)
(n−λ)
. De
n λ λ 1
plus 1 − nλ = en ln(1− n ) = en(− n +o( n )) = e−λ+o(1) −→ e−λ . Ainsi P (Xn = k) −→ λk! e−λ =
k
n→∞ n→∞
P (X = k) pour tout k ≥ 0, et donc la loi de Xn converge vers celle de X.
En pratique :
• Si X ∼ B(n, p) avec n ≥ 30 et p ≤ 0.2, alors on approche la loi de X par une loi de
Poisson(np).
• Si X ∼ B(n, p) avec n ≥ 30 et p ≥ 0.8, alors on approche la loi de n − X par une loi
de Poisson(n(1 − p)).
exemple : A chaque minute un client peut entrer dans un magasin avec une probabilité
p = 0.05. On suppose qu’un seul client peut entrer à chaque minute et que toutes les entrées
de clients sont indépendantes. Quelle est la probabilité qu’exactement 5 clients entrent en
une heure ?
Soit X le nombre de clients entrés en une heure. X suit une loi binomiale B(60, 0.05).
Puisque 60 ≥ 30 et 60 ∗ 0.05 = 3 ≤ 5, on peut approcher la loi de X par une loi de
5
Poisson(3). Par conséquent, P (X = 5) ' e−3 35! ' 0.1.
En√ pratique : Si X ∼ B(n, p) avec n ≥ 30 et 0.2 < p < 0.8, alors on approche la loi
de √ n ( n1 X − p) par une loi normale N (0, 1), ou encore la loi de X par une loi normale
p(1−p)
√
n
N (np, np(1 − p)). ceci vient du fait que si √ (1X − p) suit une loi N (0, 1), alors X
p(1−p) n
suit une loi N (np, np(1 − p)).
V (X)
P (|X − E(X)| ≥ a) ≤ .
a2
Preuve. V (X) = E((X − E(X))2 ) et P (|X − E(X)| ≥ a) = P ((X − E(X))2 ≥ a2 ). Donc
si on pose Y = (X− E(X))2 , l’inégalité à démontrer est équivalente à P (Y ≥ a2 ) ≤ E(Y
α2
)
.
2 2
a si Y ≥ a
Posons alors Z = On a Z ≤ Y donc E(Z) ≤ E(Y ). Or E(Z) = a2 P (Y ≥
0 sinon.
a2 ) + 0 × P (Y < a2 ) = a2 P (Y ≥ a2 ). Donc a2 P (Y ≥ a2 ) ≤ E(Y ).