Cours Proba 1
Cours Proba 1
COURS DE PROBABILITES 1
ECOLE D’INGENIERIE
Licence 1
*Les objectifs
Il s’agit de consolider d’une part les acquis du calcul de probabilités effectués dans les classes
de terminale et d’autre part effectuer une étude élémentaire des lois discrètes, continues ou à
densité.
*Les prérequis
Les mathématiques des classes de Lycées.
*Le contenu
Nous couvrirons les thèmes suivants :
- L’analyse combinatoire.
- Le calcul de probabilités.
- Les lois de probabilités discrètes, continues.
- Les densités de probabilités.
*Programme du cours
N° de Séance Contenu Lectures/travaux
[2] Rick Durrett. Elementary probability for applications. Cambridge university press, 2009.
CHAPITRE I.
COMBINATOIRE ELEMENTAIRE
A
⋅x
Ε
x∈A⊆E
1
I.1.c. Cardinal d’un ensemble fini
Un ensemble E est fini s’il possède un nombre fini d’éléments. On appelle cardinal de
E, le nombre de ces éléments qu’on note card E (ou #E ou |E|).
Ac = {x∈E, x∉A}.
Evidemment on a la relation
2
I.1.e. Suites de sous-ensembles
Soient A1, A2,…, Ai, Ai+1,… des sous-ensembles d’un ensemble E. On peut généraliser
les notions de réunion et d’intersection en définissant :
∞
• ∪A
i =1
i comme le sous-ensemble de E constitué des éléments de E qui
Définition : Les (Ai)1≤i sont disjoints deux à deux si et seulement si (en abrégé ssi),
pour tout i ≠ j Ai ∩ Aj = ∅. Les (Ai)1≤i forment une partition de l’ensemble E s’ils sont
∞
disjoints deux à deux et si : ∪ Ai = E . Dans ce cas pour tout élément x de E, il existe
i =1
un i et un seul i tel que x∈ Ai.
Le cardinal d’un produit cartésien : Si E et F sont des ensembles finis alors le produit
cartésien E × F est un ensemble fini et card(E × F) = card(E) card(F). Dans le cas
général, on a pour n ensembles finis (Ei)1≤i≤n:
×F
Tableau 1: Produit cartésien E×
F
E 1 2 3 4 5 6
a a1 a2 a3 a4 a5 a6
b b1 b2 b3 b4 b5 b6
c c1 c2 c3 c4 c5 c6
d d1 d2 d3 d4 d5 d6
3
I.1.g. Propriétés élémentaires du complémentaire et des opérations booléennes
1) (Ac)c = A
2) (A ∪ B)c = Ac ∩ Bc
3) (A ∩ B)c = Ac ∪ Bc
4) (∪i≥1 Ai)c = ∩ i≥1 Aic
5) (∩i≥1 Ai)c = ∪i≥1 Aic
6) A ∩ (B ∪ C) = (A ∩ B ) ∪ (A ∩ C)
7) A ∪ (B ∩ C) = (A ∪ B ) ∩ (A ∪ C)
Formulation mathématique :
1 1 1
2 2 2
. . . oui
. . .
. . . non
k n 15
questions réponses
par question
4
I.2.b. Permutations et arrangements
Formulation mathématique :
1 1
2 2
. .
. .
. .
n 1à1 n
livre position
Question : 12 personnes font parties d’un club de probabilistes. Combien y-a-t-il de façons de choisir :
1 président, 1 vice-président, 1 trésorier et 1 secrétaire ?
Formulation mathématique :
Il y a An =
k n!
( n − k )!
injections d’un ensemble à k éléments dans un ensemble à n éléments.
1 1
2 2
. .
. .
. .
k n
fonctions membres
5
I.2.c. Combinaisons (sans répétition)
12⋅1110
⋅ ⋅9
Réponse: 4⋅3⋅2⋅1
= 495 (l'ordre n'est pas important).
Ank n! n
= = Cnk =
k ! (n − k )! k ! k
Formulation mathématique :
Il y a Cn =
k n!
k !( n − k )!
sous-ensemble à k éléments dans un ensemble à n éléments
pour 0 ≤ k ≤ n.
Exemples:
Cn0 = 1
Cn1 = n
Cn2 = n ( n2−1)
n ( n +1)
Remarquons que Cn2 est différent du nombre des paires (= Cn2+1 = 2
) et du nombre
des couples (= n2).
Question: Un code binaire est une suite (ou un vecteur) constituée des chiffres 0 et [Link] considère des
codes binaires de longueur 12. Combien y-a-t-il des codes contenants exactement 4 fois le chiffre 1?
Réponse: C412 = 495. Noter l’équivalence au problème de comité : On choisit 4 positions (membres)
sur 12.
6
I.2.d. Propriétés des coefficients binomiaux
n
(a + b ) = ∑ Cnk a n −k bk
n
k =0
Exemples
(a + b)0 = 1
(a + b)1 = C10 a + C11b = a + b
(a + b)2 = C20 a 2 b 0 + C21a 1b1 + C20 a 0b 2 = a 2 + 2ab + b 2
(a + b)3 = C30 a 3b 0 + C31a 2 b 1 + C32 a 1b 2 + C33 a 0b 2 = a 3 + 3a 2 b + 3ab 2 + b 3
k =0
n
(1 − x ) = ∑ Cnk ( −1)k x k
n
k =0
n
2n = ∑ Cnk
k =0
n
0 = ∑ ( −1) k Cnk
k =0
La première identité signifie que le nombre total des sous-ensembles d’un ensemble à
n éléments est 2n.
7
Théorème : (Triangle de Pascal ) Cnk = Cnk−−11 + Cnk−1 .
0 1 2 3 4 5 . k
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
.
n 1 . . . . . Cnk
Représentation symétrique:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. .
1 1
k
∑
j =0
Cmj Cnk − j = Cnk+m
8
1.2.e. Coefficients multinomiaux
Question : Combien y a-t-il de façons de distribuer les 52 cartes d'un jeu de bridge en 4 mains ?
Réponse:
13
C52 ⋅ C39
13
⋅ C26
13
⋅ C13
13
= 13!13!13!13!
52!
= 53 644 737 765 488 792 839 237 440 000.
Formulation mathématique :
Il y a Cn 1 ⋅ Cn−2 n ⋅ … ⋅ Cn−k n −...−n =
n n n n!
n1 !n2 !...nk !
façons de partager un ensemble de
1 1 k −1
k
cardinal n en k sous-ensembles (disjoints deux à deux) de cardinaux ni où ∑ ni = n .
i =1
(a1 + a2 + ... + ak ) n = ∑ n! n n n
a 1 a 2 ...ak k
n1 !n2 !...nk ! 1 2
( n1 ,...,nk ):
n1 +...+ nk = n
k
Les termes n!
n1 !n2 !...nk !
avec ∑ ni = n sont appelés coefficients multinomiaux.
i =1
Réponse: On va réduire ce problème au problème du code binaire présenté au Ch.1.2.d. On désigne les
boules par des « 0 » et les tiroirs par des « 1 ». On place le premier « 1 » à la première position. Les
zéros entre ce premier « 1 » et le deuxième « 1 » correspondent aux boules dans le premier tiroir, les
zéros entre le deuxième « 1 » et le troisième « 1 » correspondent aux boules dans le deuxième tiroir et
les zéros situés à droite du troisième « 1 » correspondent aux boules dans le troisième tiroir. Par
exemple :
1000101 signifie qu’il y a trois boules dans le premier tiroir, une dans le deuxième tiroir et aucune dans
le troisième tiroir. 1110000 signifie que les 4 boules sont dans le troisième tiroir.
Puisque on a toujours un chiffre « 1 » à la première position on cherche le nombre des codes binaires de
longueur 4+3-1= 6 qui contient 3-1=2 chiffres « 1 ». Donc il y a C26 = 15 façons de placer 4 boules
indiscernables dans 3 tiroirs.
Question: Combien y-a-t-il de vecteurs (x1, x2, x3) distincts à composantes entières et non négatives
satisfaisant x1 + x2 + x3 = 10?
9
I.3. Quelques exemples de dénombrement
I.3.a. Bridge
Donner le nombre total de mains au bridge.
13
Pour avoir une main, on doit choisir 13 cartes parmi 52 : C52 = [Link]
possibilités.
Combien de mains sans honneurs, c’est-à-dire sans cartes plus grandes que le 10 (10,
Valet, Dame, Roi, As), y a-t-il au bridge ?
13
Il faut cette fois choisir les 13 cartes parmi 32 : C32 = 347.373.600 possibilités.
1.3.b. Poker
Une main de poker est la donnée de 5 cartes choisies au hasard dans un jeu de 52
cartes. On associe à chaque main une valeur selon les combinaisons particulières
qu'elle présente. Les différentes combinaisons valables sont décrites dans le tableau ci-
dessous, avec la valeur qui leur est associée.
10
Dans la suite, on caractérise une carte par sa couleur (Pique, Cœur, Carreau, Trèfle) et
sa hauteur (2, 3, 4, ... Valet, Dame, Roi, As).
Le nombre total de mains est le nombre de choix de 5 cartes parmi les 52 du jeu.
Il y a donc C525 =2.598.960 mains.
V=8 : Pour obtenir une quinte flush, il faut choisir une couleur (4 choix) puis une
hauteur, par exemple la plus haute de la suite (9 choix).
V8 = 4*9 = 36 quintes flush.
V=7 : Pour obtenir un carré, il faut choisir une hauteur (13 choix) puis la dernière carte
1
de la main ( C48 = 48 choix).
V7 = 48*13 = 624 carrés.
V=6 : Pour obtenir un full, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix) puis la hauteur de la paire, qui ne peut pas être la même (12
choix) et ses couleurs ( C42 = 6 choix).
V6 = 13*4*12*6=3.744 full.
V=5 : Pour obtenir une couleur, il faut choisir la couleur (4 choix) puis les hauteurs
5
( C13 choix). Mais en procédant ainsi, on compte aussi les quintes flush, qu'il faut donc
soustraire.
5
V5 = 4* C13 - V8=5.112 couleurs.
V=4 : Pour obtenir une suite, il faut choisir la hauteur de la carte la plus haute (9
choix) puis la couleur de chaque carte(45 choix). De nouveau, il faut en soustraire le
nombre de quintes flush.
V4 = 9*45-V8 = 9.180 suites.
V=3 : Pour obtenir un brelan, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix), puis les hauteurs des 2 cartes restantes, forcément différentes
2
pour ne pas avoir un full ( C12 = 66 choix) et leurs couleurs (42 choix).
2
V3 = 13*4* C12 *42=54.912 brelans.
Alternative 1 : On peut aussi choisir la hauteur du brelan (13 choix) et ses couleurs
( C43 = 4 choix), puis 2 cartes parmi les 48 cartes restantes (la 49ème donne un carré)
2
donc C48 choix. Il faut alors en soustraire le nombre de full :
2
V3 = 13*4* C48 -3744= 54 912.
11
Alternative 2 : On peut encore choisir deux cartes parmi les 49 restantes ; dans ce cas,
il faut soustraire quatre fois le nombre de carrés :
2
V3 = 13*4* C49 - 3744 - 4*624= 54 912.
2
V=2 : Pour obtenir deux paires, il faut choisir la hauteur de chaque paire ( C13 = 78
choix), la couleur des 4 cartes des paires ( C42 * C42 = 36) puis la hauteur et la couleur
de la dernière carte (11*4 = 44 choix).
V2 = 6*13*6*6*11*4=123.552 doubles paires.
V=1 : Pour obtenir une paire, il faut choisir la hauteur (13 choix) et les couleurs
( C42 choix) de la paire, puis 3 hauteurs différentes ( C12
2
choix) et les couleurs des 3
3
cartes restantes (4 choix).
2
V1= 13*6* C13 *43 = 1.098.240 paires.
V=0 : Le nombre de mains sans aucune combinaison valable est la différence entre le
nombre total de mains et le nombre de celles qui ont une valeur plus grande que 1.
V0=2.598.960 - (V8 + V7 + V6 + V5 + V4 + V3 + V2 + V1) = 1.303.560.
5
Alternative2 : Il y a ( C13 - 9) choix de valeurs qui ne forment pas une suite de valeurs
consécutives. Pour ne pas avoir des cartes de même couleur on a 45- 4 possibilités. Par
conséquent on a :
5
V0=( C13 - 9)*(45-4)= 1.303.560.
12
CHAPITRE II
NOTIONS DE PROBABILITES
Distribuer une main de poker (5 cartes sur 52) revient à tirer au hasard 5 cartes parmi 52. On
appelle expérience aléatoire une telle expérience dont l’issue est soumise au hasard. Une
main ainsi effectivement tirée au hasard est une réalisation de l’expérience, appelée une
épreuve ou expérience élémentaire.
Pour permettre l’analyse des mains distribuées on doit d’abord identifier l’ensemble des
mains possibles.
L’ensemble de tous les résultats possibles d’une expérience aléatoire est appelé ensemble
fondamental de l’expérience aléatoire ou univers des possibles, ou espace des épreuves,
(anglais : sample space), dénoté par Ω ou E ou S. Pour le poker c’est l’ensemble de toutes les
mains possibles. Il s’agit bien entendu ici de l’ensemble de tous les sous-ensembles à 5
éléments d’un ensemble à 52 éléments. Le nombre d’épreuves possibles est alors donné par le
coefficient binomial C552 (voir Ch. I), i.e.
Pour attribuer une probabilité à l’événement A = « la main est un brelan » on fait l’hypothèse
que chaque main à la même probabilité ! Ainsi pour chaque événement A, la probabilité de A
doit être naturellement donnée par la somme de probabilités des mains qui constituent A, ce
qui s’écrit :
Probabilité (A) = card A/card E = nombre de cas favorable/ nombre de cas possibles
Il y a 54912 mains qui sont un brelan. On peut ainsi calculer la probabilité d’avoir un brelan
Ici, on distribue, par exemple, 1 million de fois les cartes et on compte la fréquence des
brelans. Dans la loi des grands nombres nous démontrerons que
pour la probabilité définie ci-dessus. Ceci pourrait constituer une définition de « type
fréquentiste » de la probabilité de A.
Dans une expérience aléatoire, on commence par recenser l’ensemble de tous les résultats
possibles de l’expérience. Cet ensemble non vide noté E (ou quelquefois Ω ou S) est
l’ensemble fondamental ou l’univers des possibles ; ses éléments ω sont appelés épreuves.
L’ensemble fondamental E peut-être fini, dénombrable ou infini non-dénombrable.
Exemples :
Exemples :
1. On jette un dé. L’ événement «Le résultat est pair » est représenté par
l’ensemble A = {2,4,6}
2. Poker: L’ événement «La main est un full» est représenté par l’ensemble A
={{c1,c2,c3,c4,c5} ∈ E dont la main {c1,c2,c3,c4,c5} est un full}
Si E est fini, de cardinal N , i.e. E = {ω1, ω2,.., ωN}, toute probabilité sur E est déterminée par
la donnée de N nombres réels pi compris entre 0 et 1 et de somme 1 : p1 + p2 +…+pN = 1.
En effet, si on pose pi = probabilité que ωi soit réalisé, il est clair que ces deux propriétés sont
satisfaites et que l’on peut calculer la probabilité de tout événement A par la formule très
simple
P( A) = ∑
i:ωi ∈A
pi
1. P(A) ∈ [0,1]
2. P(E) = 1
3. Si A et B sont des événements incompatibles, alors P(A ∪ B) = P(A) + P(B).
Ces trois propriétés vont servir d’axiomes dans le cas général où E n’est pas fini.
L’exemple fondateur de la théorie est le cas équiprobable (pour E fini) : tous les résultats
possibles (i.e. tous les ωi ) ont la même probabilité pi = 1/N = 1/card E. C’est le cas d’une
distribution uniforme discrète. Donc dans ce cas équiprobable la probabilité d’un événement
A est donnée par :
On ne peut pas en déduire que P(S=9)=P(S=10) car les configurations ne sont pas
équiprobables. Il faut tenir compte de l'ordre et donc des permutations possibles de chaque
configuration. Ainsi (3,3,3) ne "compte qu'une fois" alors que (5,2,2) "compte triple" et
(5,3,1) "compte six fois". On obtient ainsi: P(S=9) = 25/216 et P(S=10) = 27/216
II.3. Propriétés d’une distribution de probabilité
Dans la suite du cours nous allons adopter une approche axiomatique qui consiste à déduire
des axiomes précédents les propriétés des distributions de probabilités.
3. P(∅) = 0
7. P(A ∪ B) = P(A) + P(B) - P(A ∩ B), et par conséquent P(A ∪ B) ≤ P(A) + P(B)
∞ ∞
8. Soit (Ai)i∈ IN une suite d’événements, alors P(∪ Ai ) ≤ ∑ P( Ai ) (inégalité de Boole)
i =1 i =1
∞
9. Soit (Ai)i∈ IN une suite croissante, i.e. Ai ⊆ Ai+1, alors limi→∞ P( Ai ) = P(∪ Ai ) .
i =1
∞
10. Soit (Ai)i∈ IN , une suite décroissante i.e. Ai ⊇ Ai+1, alors limi→∞ P( Ai ) = P(∩ Ai ) .
i =1
II.3.b. Probabilités de réunions d’ensembles : Règle d’inclusion-exclusion
N N
P ∪ Ai = ∑ P ( Ai ) − ∑ P ( Ai1 ∩ Ai2 ) + ∑ P ( Ai1 ∩ Ai2 ∩ Ai3 ) + ...
i =1 i =1 i1 <i2 i1 <i2 <i3
i1 <i2 <...<ik
Remarque : Dans la 1ere somme il y a N termes, dans la 2ème il y a N⋅(N-1)/2 = CN2 termes. En
général il y a CNk termes dans la kème somme.
Exemples :
En fait, la méthode la plus rapide pour répondre à la question posée est de passer au
complémentaire : L’événement de n’avoir aucun six lorsqu’on jette trois dés est donné
par Ac = A1c ∩ A2c ∩ A3c (par la formule de de Morgan) et P(Ac) = P(A1c) ⋅ P(A2c) ⋅
P(A3c). Avec P(Aic) = 5/6 on obtient P(Ac) = 125/216 donc P(A) = 91/216.
2. Quelle est la probabilité pour qu’une main de bridge ait au moins une coupe, i.e.
une couleur absente ?
Dans cet exemple la règle inclusion-exclusion est la bonne méthode pour répondre à la
question posée.
P(Ai) = C1339/C1352.
Pour chaque (i,j), i≠j il y a C1326 possibilités de choisir une main sans les couleurs i et
j. La probabilité de chaque intersection Ai ∩ Aj est alors
La probabilité cherchée est donc 1 621 364 909/31 750 677 980= 0.05106552087.
II.4. Evénements indépendants
Exemples :
P(A ∩ B) = P(A)P(B)
Il est très facile de vérifier que cette définition est compatible avec l’intuition donnée dans les
exemples précédents. Passons des exemples moins intuitifs.
Définition 1: On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants deux à deux si et
seulement si, pour tout (i, j) et i ≠ j, Ai et Aj sont indépendants.
L’exemple suivant montre que cette définition est trop faible pour prolonger la notion
d’indépendance aux suites d’événements.
P((A ∩ B) ∩ C) = 1/365 ⋅ 1/365 ≠ P(A ∩ B) ⋅P(C) = P(A) ⋅ P(B) ⋅P(C) = 1/365 ⋅ 1/365 ⋅ 1/365.
Pour prolonger notre notion d’indépendance aux cas de trois événements on devra imposer
une condition supplémentaire non comprise dans la définition de l’indépendance deux à
deux, à savoir :
P(A1 ∩ A2 ∩ A3) = P(A1) ⋅ P(A2) ⋅ P(A3).
Définition 2 : On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants (ou mutuellement
indépendants) si et seulement si pour toute sous-suite d’événements distincts, on a :
On a déjà vu que N (N > 2) événements peuvent être indépendants deux à deux sans être
indépendants mutuellement. Si N événements sont mutuellement indépendants ils sont
indépendants deux à deux.
Exemple 1: On suppose que une personne est soumise N fois à un risque p d’accident où
0 < p < 1. Quelle est la probabilité d’avoir au moins un accident ? Pour répondre à cette
question on pose Ai = « la ième expérience provoque un accident » et on suppose que les Ai
sont mutuellement indépendants. Avec p = P(Ai) on a
II.5.a. Définition
Définition : Soient (E, P) un espace probabilisé et A, B des événements quelconques tel que
P(B) > 0. On note
Les formules suivantes sont souvent très utiles pour calculer des probabilités d’intersections :
La généralisation de ces formules au cas des plusieurs événements est considérée dans le Ch.
II.5.b. (théorème de multiplication ou conditionnement multiple)
1. Pour tout événement B fixe tel que P(B) > 0 la fonction d’ensembles A → P(A|B) satisfait
les axiomes A1 – A3, i.e. P(A|B) est une distribution de probabilité sur E.
Nous avons déjà vu que la probabilité de la conjonction des deux événements peut être
calculée par le conditionnement sur un des événements. L’itération de cette technique est
appelée conditionnement multiple.
Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule du
conditionnement multiple s’écrit:
Exemple 1: Considérons une urne contenant quatre boules blanches et six boules rouges.
Quelle est la probabilité de la suite « blanc, blanc, rouge » si on tire les boules sans remise ?
Pour répondre à cette question nous désignons les événements B1 = « la première boule est
blanche », B2 = « la deuxième boule est blanche » et B3 = « la troisième boule est rouge ».
Alors
Remarquons qu’il faut conditionner dans le bon ordre. Par exemple, la formule
P(B1 ∩ B2 ∩ B3) = P(B3) ⋅P(B2|B3) ⋅P(B1| B2 ∩ B3) est juste mais inutilisable.
II.5.c. Formule des probabilités totales
Si B et Bc sont de probabilité non nulle on peut utiliser des probabilités conditionnelles pour
calculer les probabilités d’intersections. Donc
Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité d’obtenir trois piles?
Pour résoudre ce problème on conditionne par la pièce choisie, i.e. on applique la formule des
probabilités totales pour les événements A = « on tire trois piles », B1 = « la pièce est
honnête» et B2 = « la pièce a deux piles». On a
Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité que la pièce choisie est la
pièce honnête si on a tiré trois piles ?
II.5.e. Exemples
1. Exemple élémentaire
Soit A1 l’événement que l’aîné est un garçon, A2 l’événement que le second est un garçon.
Sous des hypothèses convenables A1 et A2 sont indépendants. Alors P(A2) = ½.
b. On sait qu’un des enfants est un garçon. Quelle est la probabilité que l’autre soit un
garçon ?
On sait que A1 ∪ A2 , i.e. A1 ou A2, est réalisé. On veut donc calculer la probabilité de A1 ∩ A2
sachant A1 ∪ A2 . Alors
Pour dépister une maladie, on applique un test. Si le patient est effectivement atteint, le test
donne un résultat positif dans 96% des cas. Mais il se peut aussi que le résultat du test soit
positif alors que le patient est en bonne santé, et ceci se produit dans 2% des cas.
Sachant qu'en moyenne 0.05% des patients sont atteints de la maladie à dépister, calculer la
probabilité pour qu'un patient soit atteint sachant que son test a été positif.
Soit A l'événement: "le test est positif", B l'événement: "le patient est en bonne santé" et M =
BC l'événement: "le patient est atteint de la maladie". Remarquons que:
P(A|M) = 0.96 P(A|B) = 0.02 .
et
P(M) = 0.0005.
= 0.96×0.0005/[0.96×0.0005+0.02×0.9995] = 0.023.
Il est intéressant de constater que seul 2.3% des patients testés positifs sont effectivement
malades. Pourtant le test semble avoir des caractéristiques techniques raisonnables. Comment
comprendre un chiffre si bas ?
CHAPITRE III
III.1. Le modèle
Nous commençons par introduire un modèle abstrait, qui généralise le jeu « pile ou face ».
Considérons une suite d’essais d’une même expérience aléatoire que l’on répète indéfiniment
de telle sorte que les conditions soient toujours identiques et que les résultats des différents
essais soient sans influence mutuelle. Supposons que l’expérience n’a que deux résultats
possibles, succès ou échec, et la probabilité du succès soit un nombre p dans l’intervalle [0,1].
Nous appelons une telle suite d’essais un processus de Bernoulli. Il s’agit d’un cas particulier
simple du concept plus général (étudié au Ch.V.) de suite d’expériences aléatoires
indépendantes.
Il est commode d’écrire 1 ou 0 au lieu de « succès » ou « échec ». On peut donc décrire les
résultats d’une suite d’expériences par une suite de 0 et de 1 que l’on notera (Xi) où Xi vaut 0
ou 1 suivant que la i-ième expérience est un échec ou un succès. On dit que (Xi) est une suite
de variables aléatoires indépendantes (voir Ch. IV. pour la définition formelle des variables
aléatoires et Ch. V. pour la définition de l’indépendance).
L’espace fondamental d’un essai est l’ensemble {0,1}. Le processus de Bernoulli dépend d’un
seul paramètre p, la probabilité du succès, et on a
P(Xi = 1) = p et P(Xi = 0) = 1 – p
Définition : On dit que Xi suit une loi de Bernoulli de paramètre p où p est la probabilité de
succès. On écrit
Xi ∼ Bernoulli( p ) ou Xi ∼ B(1, p )
III.1.b. Exemples
Exemple 3 :
Dans chaque unité de temps un appel arrive dans un central téléphonique avec une probabilité
égale à p. On pose Xi = 1 si un appel arrive dans la ième unité du temps et Xi = 0 sinon.
Exemple 4 :
Les transistors fabriqués par une machine sont affectés d’un défaut avec probabilité p. L’état
d’un transistor est indépendant de celui des précédents ou suivants. On pose Xi = 1 si le
transistor a un défaut et Xi = 0 sinon.
Exemple 5 :
On exécute une suite d’épreuves indépendantes. La probabilité qu’un certain événement A est
réalisé dans une épreuve est égale à p = P(A). On pose Xi = 1 si A est réalisé et Xi = 0 sinon.
III.2. La loi binomiale
On définit
SN = X1 + … + XN
où Xi prend des valeurs dans {0,1}. Donc SN est égal au nombre de succès pendant les N
premières expériences. La loi de SN est donnée par
Pour établir cette loi il faut d’abord remarquer que chaque suite de longueur N comportant k
succès a pour probabilité pk(1 – p)N – k. Evidemment il y a CkN possibilités de placer k succès
parmi les N tirages.
Notons, qu’une application de la formule du binôme de Newton (voir Ch. I.2.d.), donne que la
somme de tous les P(SN = k) est 1 :
N N
∑ P( SN = k ) = ∑ CNk p k (1 − p) N −k = ( p + (1 − p) ) = 1 .
N
k =0 k =0
Définition : On dit que SN suit une loi binomiale de paramètres (N, p ) où N désigne le
nombre d’expériences et p est la probabilité de succès dans un essai. On écrit
SN ∼ B(N, p )
Exemple 1: On tire (avec remise) 5 boules dans une urne contenant 10 blanches, 15 noires et
25 rouges. Quelle est la probabilité de tirer 3 boules blanches ?
Solution : On décide ici que le tirage d’une boule blanche est un succès et que le tirage d’une
boule rouge ou d’une boule noire est un échec. Ainsi la probabilité p de succès pour chaque
tirage est p = 10/50 = 1/5. Les tirages s’effectuant avec remise, nous sommes dans le cadre
des tirages indépendants, i.e. d’un processus de Bernoulli. Le nombre S5 de boules blanches
tirées lors de 5 tirages avec remise suit donc une loi binomiale de paramètres N = 5 et p = 1/5.
Alors
III.2.b. Stabilité
Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p). Si les N
expériences de Bernoulli sont indépendantes des M expériences de Bernoulli, on dit que les
variables aléatoires binomiales SM et SN sont indépendantes. Dans ce cas la somme SM + SN
est égale au nombre de succès pendant une suite des N + M expériences de Bernoulli de
paramètre p. Par conséquent, on a
SM + SN = SM+N .
On introduit un temps aléatoire T, défini comme temps du 1er succès dans une suite infinie
d’expériences de Bernoulli, i.e. T = min(k : Xk = 1) = min(k : Sk = 1), où Sk = X1 + … + Xk.
Nous vérifierons ci-dessous que ce temps est fini avec probabilité 1. Pour tout k notons Ak
l’événement { Xk = 1}. L’événement {T = k} est égal à (A1)c ∩ … ∩ (Ak-1)c ∩ Ak. On calcule
alors la loi de probabilité de T.
P(T = 1) = p ,
P(T = 2) = (1 – p) ⋅ p ,
P(T = k) = (1 – p)k – 1 ⋅ p
En particulier, P(T = ∞) = lim k→∞ P(T > k) = lim k→∞ (1 – p)k = 0 si p > 0.
Donc P(T < ∞) = 1, i.e., avec probabilité 1, le temps T est fini.
Définition : On dit que T suit une loi géométrique de paramètre p où p est la probabilité de
succès dans un essai. On écrit
T ∼ Geom(1, p )
Exemple : On jette un dé équilibré jusqu’à un « 6 » sort. Quelle est la probabilité qu’on lance
le dé au plus trois fois ?
P(T ≤ 3) = P(T =1) + P(T =2) + P(T =3) = 1/6 + 5/6 ⋅1/6 + 5/6 ⋅ 5/6 ⋅1/6 = 91/216 ≅ .4212962963.
La loi géométrique est caractérisée par une propriété très importante, la propriété de « perte
de mémoire », i.e. par
pour tous les entiers j et k non négatifs. Ainsi sachant qu’il n’y a pas eu de succès jusqu’au
temps j (inclus), la probabilité qu’il y ait un succès dans les k essais suivants est indépendante
de j. En particulier, cette probabilité est identique à celle de n’avoir aucun succès dans les k
premiers essais.
{ Tr = n } = { Xn = 1 et Sn-1 = r – 1}
pour n = r , r + 1, r + 2, …
Définition : On dit que Tr suit une loi binomiale négative de paramètres p et r, où r désigne le
nombre de succès à achever et où p est la probabilité de succès dans un essai. On écrit
Tr ∼ Geom(r, p)
Tr est appelé variable aléatoire binomiale négative ou plus brièvement variable binomiale
négative.
Exemple (problème des points) : Deux joueurs A et B jettent un dé honnête. Si le résultat est
un « 6 » c’est le joueur A qui marque un point, sinon c’est B qui marque un point. Quelle est
la probabilité que A marque 2 points avant que B marque 9 points ?
Solution : Les deux joueurs réalisent des épreuves indépendantes dont la probabilité du succès
est p = 1/6. Nous cherchons la probabilité que r = 2 succès apparaissent avant m = 9 échecs,
i.e. que le deuxième succès survient au plus tard à la (r + m – 1) = 10-ième épreuve. Donc
cette probabilité est égale à P(T2 ≤ 10) et l’on a
10 10
P(T2 ≤ 10) = ∑ P(T2 = k ) = ∑ Ck1−1 ( 16 ) 2 ( 56 )k −2 = 10389767
20155392 ≅ 0.5154832513 .
k =2 k =2
r + m −1 r + m −1
P(Tr ≤ r + m − 1) = ∑
k =r
P(Tr = k ) = ∑C
k =r
r −1
k −1 p r (1 − p ) k − r .
III.3.d. Stabilité
La loi binomiale négative satisfait une propriété de stabilité. En particulier, chaque variable
binomiale négative s’écrit comme somme de variables géométriques indépendantes.
Nous présentons des résultats concernant le comportement asymptotique des lois probabilités
liées au processus de Bernoulli et ses généralisations. Ces résultats, appelés théorèmes limites,
permettront de simplifier considérablement le calcul de probabilités. Ils sont souvent des cas
particuliers d’un théorème plus général qu’on présentera au chapitre V.
Lorsque le nombre d’essai est grand et la probabilité du succès est petite alors la loi de
nombres de succès s’approche d’une loi très importante en calcul de probabilités, la loi de
Poisson.
On écrit
Z ∼ Poisson(λ)
Ainsi une variable de Poisson modélise le nombre de succès dans un très grand nombre
d’expériences indépendantes où la probabilité de succès est petite ( p ∼ λ/N). L’approximation
poissonnienne fonctionne en fait assez bien même si N n’est pas très grand.
Exemple 1: On jette deux dés 12 fois et on considère le nombre U de double six. La variable
U satisfait une loi binomiale de paramètres N = 12 et p = 1/36, donc on pose λ = 1/3.
Comparer les probabilités exactes et les probabilités calculées en utilisant la loi de Poisson.
k (U = k) exp(-λ)⋅ λk/k!
0 0.7131592556 0.7165313106
1 0.2445117448 0.2388437702
2 0.0384232742 0.0398072950
3 0.0036593594 0.0044230328
Soit T une variable géométrique de paramètre p. Rappelons que T signifie le nombre d’essais
jusqu’au premier succès ou le temps du 1er succès. Comme précédemment on considère le cas
N → ∞ et p → 0 tel que N⋅p → λ pour un λ > 0. Alors, pour tout t réel positif, on a
Définition: On dit que U suit une loi exponentielle de paramètre λ > 0, si pour tout t réel
positif
La loi exponentielle est parmi les lois les plus souvent rencontrées dans la pratique de
l’ingénieur. Mentionnons quelques applications de la loi exponentielle : la durée du
fonctionnement ou la durée de vie d’un équipement technique, la désintégration radioactive et
les temps d’attente de clients devant un guichet.
Nous donnons une première version d’un théorème fondamental du calcul de probabilités : la
loi des grands nombres. Des versions plus générales et mathématiquement plus précises sont
présentées au Ch. V.
Si on lance un grand nombre de fois une pièce honnête, la fréquence d’apparition de pile se
stabilise autour de la valeur 0.5, la valeur théorique de probabilité d’apparition de pile. On
regarde SN, le nombre de succès dans le modèle binomial. Pour p fixé on laisse N → ∞.
Loi des grands nombres : Le nombre moyen de succès lors des N premiers essais, i.e.
C’est pourquoi l’on se pose la question de savoir si le nombre moyen de succès lors des N
premiers essais, SN /N , reste tout près de son espérance E[SN/N]. Il y a évidemment des
événements de probabilité non nulle pour lesquelles la différence SN /N – p n’est pas petite
comme c’est le cas par exemple pour l’événement { SN /N = 1}. Mais cette probabilité tend
vers zéro lorsque N tend vers l’infini : P(SN /N = 1) = pN → 0 lorsque N → ∞. On peut donc
espérer que c’est aussi le cas pour tous les événements de la forme | SN /N – p | > ε pour tout ε
> 0. Ceci est l’énoncé de la loi (faible) des grands nombres présentée dans le chapitre V.
CHAPITRE IV
VARIABLES ALEATOIRES
Dans de nombreuses expériences stochastiques, on représente les résultats possibles par des
nombres réels X(ω) pour tout ω dans l’ensemble fondamental. Pour étudier des grandeurs
dépendant du hasard on est amené à introduire des fonctions définies sur des espaces
probabilisés.
Exemple 1: On jette deux pièces équilibrées. On peut décrire l’ensemble fondamental de cette
expérience par Ω ={(P,P), (P,F), (F,P),(F,F)}, la lettre F représentant « face » et P
représentant « pile ». Ici on s’intéresse au nombre X de piles qui apparaissent et on définit
l’ensemble fondamental par l’image de X, i.e. E = {0 piles, 1 pile, 2 piles} ou simplement E
={0,1,2}. Alors, la distribution de probabilité de X est donnée par
Donc X associe à chaque résultat possible de l’expérience un nombre réel, i.e. X est une
fonction à valeurs réelles définie sur l’ensemble fondamental Ω. Pour des raisons historiques
X est appelé variable aléatoire ou plus précisément une variable aléatoire réelle.
Pour tout événement A dans Ω la variable aléatoire X peut être restreinte en une application de
l’ensemble A dans la partie des nombres réels J = X(A) = {X(ω), ω ∈ A }. En particulier,
l’ensemble fondamental Ω d’une expérience aléatoire correspond à l’ensemble E de tous les
valeurs possibles de X, i.e. E = X(Ω). Pour des ensembles fondamentaux finis ou
dénombrables, E se confond avec un ensemble des entiers.
Exemple 1(suite) : On jette deux pièces équilibrées. On considère l’événement A = " au
moins une pile apparaît". Alors, X a pour valeurs 1 ou 2 , i.e. X ∈ {1,2} ou encore 1 ≤ X ≤ 2.
Temps jusqu’aux r premiers succès Tr: Tr désigne le premier index i tel que Si = r, i.e.
Tr = min(i, Si = r), Tr prend ses valeurs dans E = {r, r+1, r+2,...}.
Exemple 3: Pour tout événement A dans Ω on définit la variable indicatrice de A, noté IA , par
IA = 1 si A est réalisé,
IA = 0 si Ac est réalisé.
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, P). On a défini dans
le chapitre IV.1.a. un ensemble caractéristique de X , l’ensemble de ses valeurs possibles noté
E = {X(ω), ω ∈ Ω}. Rappelons que E est un sous-ensemble des nombres réels. Maintenant il
faut se donner sa distribution de probabilité. Pour une variable aléatoire discrète on peut
définir une densité de probabilités fX(x) par
Définition : Soit X : Ω → E une variable aléatoire réelle. Sa fonction de répartition FX(t) est
définie par
FX(t) = P(X ≤ t) pour tout t réel.
d. F est continu à droite, i.e. pour tout t réel, FX(t+s) → FX(t) lorsque s → 0+.
Exemple 1 (suite) : On jette un dé équilibré. Soit X le nombre des points obtenus. La fonction
de répartition FX(t) est donnée par
0 si t <1
k
FX (t) = si k ≤ t < k + 1 pour k = 1,2, 3, 4,5
6
1 si 6≤t
Etant donné une variable aléatoire discrète à valeurs dans E = {x1,x2,...}, sa fonction de
répartition n’est pas continue dans les points xi et elle constante entre xi-1 et xi (plus
précisément sur l’intervalle [xi-1 , xi [ ) pour tout i. Donc, en général, la fonction de répartition
peut être représentée par une fonction en escalier élémentaire.
IV.2. Couples de variables aléatoires
Définition : La fonction de répartition conjointe FX,Y (s,t) pour tout couple de variables
aléatoires (X, Y) est définie par
Définition : Les fonctions FX(s) = FX,Y(s,∞) et FY(t) = FX,Y(∞, t) sont appelées fonctions de
répartition marginales de X et Y.
P(s1 < X ≤ s2 , t1 < Y≤ t2) = FX,Y(s2 , t2) + FX,Y(s1 , t1) – FX,Y(s1 , t2) – FX,Y(s2 , t1) pour s1 < s2 ,
t1 < t2.
IV.2.d. Loi discrète conjointe
Si X et Y sont des variables aléatoires discrètes, alors la distribution (ou la loi) de probabilité
conjointe du couple (X, Y) est la donnée des nombres : P(X = xi , Y = yj). Si on définit
f X ( x ) = P( X = x ) = ∑
y: f X ,Y ( x , y )>0
f X ,Y (x, y)
fY ( y ) = P(Y = y) = ∑
x: f X ,Y ( x , y )> 0
f X ,Y (x, y)
IV.3. Espérance
IV.3.a. Définition
E[ X ] = ∑ x ⋅ P( X = x ) = ∑ x ⋅ f X (x)
x∈E x∈E
La quantité E[X] est parfois aussi appelée valeur moyenne de X. Nous utilisons l’expression
de valeur moyenne uniquement pour des quantités empiriques.
IV.3.b. Exemples
IV.3.b.1. Variable uniforme discrète
X prend ses valeurs dans {x1,...,xN} avec des probabilités P(X = xi) = 1/N pour i = 1,...,N.
L’espérance de X correspond à la moyenne arithmétique des xi.
E[X] = (x1+ .. .+ xN)/N
E[IA] = P(A) .
E[X] = Np.
E[X] = 1/p.
E[X] = λ.
IV.3.c. Propriétés élémentaires de l’espérance
E[X] ≥ 0.
Monotonie : Soient X et Y deux variables aléatoires telles que X ≥ Y. Par les propriétés de
linéarité et positivité on a
E[X] ≥ E[Y].
La propriété de linéarité est souvent utilisée pour calculer l’espérance d’une loi de probabilité.
SN = X1 + … + XN.
MN = I1 + I2 + … + IN.
Théorème :
Si X est une variable aléatoire discrète à valeurs xk, k ≥ 1, alors pour toute fonction réelle ϕ on
a
Exemples:
1. Fonctions indicatrices
E[1[a,b](X)] = P(a≤X≤b)
2. Moments
L’espérance de ϕ(x) = xk est appelée k-ième moment de X. La variance (voir Ch. IV.5.)
contient le deuxième moment de X.
3. Fonction exponentielle
L’espérance de ϕ(x) = exp(tx) pour t réel (ou complexe), correspond à la transformée de
Laplace (ou de Fourier) d’une loi de probabilité. Voir Ch. IV.5.
IV.3.e. Espérance : Inégalités
Inégalité de Cauchy-Schwarz
Soient X et Y deux variables aléatoires réelles. Evidemment,
(X − aY ) 2 ≥ 0 ,
a
donc 2⋅XY ≤ X2/a + aY2 pour tout réel positif a. Par les propriétés de linéarité et de positivité
l’espérance du produit XY satisfait l’inégalité suivante:
Inégalité de Jensen
Si ϕ(x) est une fonction convexe, on a
ϕ(tx+(1-t)y) ≤ tϕ(x) + (1- t)ϕ(y)
pour tous x,y réels et pour tout t dans [0,1]. L’espérance d’une variable aléatoire X satisfait
l’inégalité de Jensen:
ϕ(E[X]) ≤ E[ϕ(X)]
Inégalité de Markov
Soit X une variable aléatoire positive. Pour tout a > 0
P(X ≥ a) ≤ E[X]/a.
Preuve: Notons que 1[a,∞)(x) ≤ x/a. En utilisant les propriétés de monotonie et de linéarité de
l’espérance on obtient
P(X ≥ a) = E[1[a,∞)(X)] ≤ E[X/a] = E[X]/a.
IV.4. Variance et Covariance
IV.4.a. Définitions
La variance d’une variable aléatoire X nous permet de mesurer les variations de X autour de
l’espérance.
Définition : Soit X une variable aléatoire d’espérance µ = E[X]. La variance de X est définie
par
Définition : L’écart type, noté σ, est défini comme la racine carré de la variance :
σ = (Var[X])1/2.
Par définition, Cov[X,X] = Var[X]. Si Cov[X,Y] = 0 on dit que X et Y ne sont pas corrélés.
Dans le chapitre V nous montrons que des variables aléatoires indépendantes ne sont jamais
corrélées. Pour mesurer la dépendance des deux variables aléatoires X et Y on définit la
corrélation de X et Y par
ρ[X,Y] = Cov[X,Y]/(Var[X]Var[Y])½.
IV.4.b. Exemples (Variance)
Var[X] = (1 - p)/p2.
IV.4.c.1. Homogénéité
Pour tout λ réel
Var[λX] = λ2Var[X]
IV.4.c.2. Positivité
Var[X] ≥ 0,
et Var[X] = 0 si et seulement si X = E[X] , i.e. X est une variable aléatoire constante.
Soit X une variable aléatoire d’espérance µ=E[X] et de variance σ2= Var[X] finies. Pour tout
réel a > 0 :
σ2
P( X − µ ≥ a) ≤ 2
a
Preuve : On applique l’inégalité de Markov (voir IV.3.e.) avec a2 à la variable (X - µ)2.
IV.5. Moments et transformée de Laplace
IV.5.a. Moments
Pour tout entier positif k, on appelle moment d’ordre k de X et on note mk
mk = E[Xk].
Le moment centré d’ordre k de X noté mc,k est la valeur
mc,k = E[(X-m1)k].
Notons, que mc,2 = Var[X].
pour les valeurs de t où LX[t] est finie. La transformée de Laplace est un outil de calcul très
utile. Elle caractérise la distribution de X, i.e. si LX[t] = LY[t] pour tout t sur un voisinage de 0,
alors X et Y ont la même distribution. Alors, en particulier, pour tout t, FX(t) = FY(t).
p ⋅ et
LX [ t ] =
1 − (1 − p ) ⋅ et
Il est facile de montrer que la définition (1) est un cas particulier de l’identité (2).
En effet, si φ 1 = 1A (i.e. φ 1(x) = 1 si x ∈ A et φ 1(x) = 0 sinon) et
φ 2 = 1B (i.e. φ 2(x) = 1 si x ∈ B et φ 2(x) = 0 sinon), alors (2) s’écrit :
1 si x1 ∈ A et x2 ∈ B
φ1 ( x1 ) φ2 ( x2 ) =
0 sinon
Remarque : Pour prouver l’indépendance (1) est plus facile. Pour utiliser
l’indépendance (2) est plus puissant.
Si X1 et X2 sont indépendantes alors Cov [X1, X2] = 0, donc aussi Corr [X1, X2] =
0, i.e. X1 et X2 sont non-corrélées.
(3) Les fonctions de répartition respectives F, F1 ,.., Fn de X = (X1 ,.., Xn) , X1 ,..,
Xn vérifient pour tous xi réels , i = 1,2 :
En général, cette distribution conjointe est difficile à calculer, mais facile dans le
cas indépendant.
Cas des variables aléatoires discrètes : Soient X1, X2 deux variables aléatoires
indépendantes et discrètes. On se donne la distribution de X1 :
P ( X 1 = X (1)
j ) = Pj
(1)
et celle de X2
P ( X 2 = X k(2) ) = Pk(2)
Les valeurs possibles du couple (X1, X2) sont tous les couples de la forme
( )
X h(1) , X d( 2) donc la distribution jointe :
P (( X 1 , X 2 ) = (X (1)
j , X k ))
(2)
= P ( X 1 = X (1)
j )⋅ P ( X2 = Xk )
(2)
= Pj(1) ⋅ Pk(2)
V.2 Variables aléatoires indépendantes et ordre
FM N (t ) = P ( M N ≤ t ) = P ( X 1 ≤ t et X 2 ≤ t et ... et X N ≤ t )
= P ( X 1 ≤ t ) ... P ( X 2 ≤ t ) ... P ( X N ≤ t )
Par conséquent la fonction de répartition de MN s’écrit comme produit des
fonctions de répartition des Xj :
FM N (t ) = FX1 (t ) ⋅ ... ⋅ FX N (t )
Les valeurs possibles de S2 = X1 + X2 sont les valeurs y telles que y = x(1)j + x(2)k
pour un ou plusieurs couples (j,k). Donc
P ( S2 = y ) = ∑ P( X 1 = x (1)
j et X 2 = xk )
(2)
( j ,k ): y = x (1)
j + xk
(2)
et par l’indépendance
P ( S2 = y ) = ∑ P( X 1 = x (1)
j ) ⋅ P ( X 2 = xk ) =
(2)
∑ j ⋅ pk
p (1) (2)
( j ,k ): y = x (1)
j + xk
(2)
( j ,k ): y = x (1)
j + xk
(2)
(convolution discrète)
Soient X1, X2, …, XN des variables indépendantes discrètes. Avec des notations
analogues au ch. VI.3.a. on a
P( S N = y ) = ∑ pk(1)1 ⋅ pk(2)
2
⋅ ... ⋅ pk( NN )
( k1 ,k2, ...,k N ): y = xk(1) + xk( 2 ) +...+ xk( N )
1 2 N
V.4. Lois des grands nombres
Ce problème a été étudié par J. Bernoulli (Ars Conjectandi, publié 1713) qui a
montré que la suite des moyennes empiriques converge (selon un mode qui
ressembla la convergence en probabilité) vers la moyenne théorique. Ses
arguments ont été considérablement simplifiés par Tchebychev. Des
généralisations de ce problème nous donnent différentes versions de la loi des
grands nombres.
Soit X1, X2, …, XN ,… une suite de variables aléatoires iid. On note µ = E[Xj] (ne
dépend pas de j), la moyenne théorique et SN/N = (X1 + X2 + …+ XN)/N , la
moyenne empirique. Supposons que σ2 = Var[Xj] <∞.
Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires iid de moyenne
µ et variance σ2 finis. La moyenne empirique SN/N converge en probabilité vers µ,
i.e.
Donc la probabilité que l’erreur soit plus grande qu’un nombre ε donné est zéro
lorsque N tends vers l’infini. On dit que SN/N converge vers µ en probabilité.
Remarque : Ce résultat affirme que les concepts et méthodes dans le Ch. II sont
parfaitement compatible avec l’évaluation expérimentale de la probabilité d’un
événement à l’aide de sa moyenne empirique ou sa fréquence relative.
Par conséquent la variance de la moyenne empirique tend vers zéro lorsque N tend
vers l’infini, i.e. SN/N devient de moins en moins aléatoire ou dispersée autours de
sa moyenne µ. Par l’inégalité de Bienaymé-Tchebychev
La loi faible des grands nombres implique que SN/N converge vers µ en loi ou en
distribution, i.e. pour toute fonction f continue, bornée on a
Nous donnons un énoncé de la loi forte des grands nombres pour les variables
aléatoires de variance finie.
Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires réelles iid de
moyenne µ et variance σ2.
Alors, la moyenne empirique SN/N = (X1 + X2 + …+ XN)/N converge presque
sûrement vers µ, i.e.
Remarque : Soit (Zj)j une suite de variables aléatoires sur un espace probabilisé.
On peut montrer l’équivalence suivante : Zj → Z p.s. (presque sûrement) si et
seulement si pour tout ε > 0, limN→∞ P(supj ≥ N |Zj - Z | ≥ ε) = 0.
On applique à (SN/N)4 (noter que cette variable aléatoire est positive) l’inégalité de
Markov. Alors
On choisit ε = εN = 1/N 1/8, donc P(|SN/N | ≥ εN) ≤ E[Xj4]/N 3/2, d’où la somme
∑N=1..∞ P(|SN/N | ≥ εN) est convergente. Par le lemme de Borel-Cantelli
Lemme de Borel-Cantelli :
Soit (An)n≥1 une suite d’événements et posons A* = lim supn→∞ An .
Si ∑n=1..∞ P(An) < ∞, alors P(A*) = 0. Autrement dit avec une probabilité égale à 1,
au plus un nombre fini d’événements An se réalisent.
01 BP 12159 Abidjan 01, Tél : 22 42 22 65 /07 23 18 62, Fax : 22 42 27 24
*Les objectifs
Il s’agit de consolider d’une part les acquis du calcul de probabilités effectués dans les classes
de terminale et d’autre part effectuer une étude élémentaire des lois discrètes, continues ou à
densité.
*Les prérequis
Les mathématiques des classes de Lycées.
*Le contenu
Nous couvrirons les thèmes suivants :
- L’analyse combinatoire.
- Le calcul de probabilités.
- Les lois de probabilités discrètes, continues.
- Les densités de probabilités.
*Programme du cours
N° de Séance Contenu Lectures/travaux
[2] Rick Durrett. Elementary probability for applications. Cambridge university press, 2009.
Un ensemble E est fini s’il possède un nombre fini d’éléments. On appelle cardinal de
E, le nombre de ces éléments qu’on note card E (ou #E ou |E|).
Ac = {x∈E, x∉A}.
Evidemment on a la relation
2
I.1.e. Suites de sous-ensembles
Soient A1, A2,…, Ai, Ai+1,… des sous-ensembles d’un ensemble E. On peut généraliser
les notions de réunion et d’intersection en définissant :
∞
• ∪A
i =1
i comme le sous-ensemble de E constitué des éléments de E qui
Définition : Les (Ai)1≤i sont disjoints deux à deux si et seulement si (en abrégé ssi),
pour tout i ≠ j Ai ∩ Aj = ∅. Les (Ai)1≤i forment une partition de l’ensemble E s’ils sont
∞
disjoints deux à deux et si : ∪ Ai = E . Dans ce cas pour tout élément x de E, il existe
i =1
un i et un seul i tel que x∈ Ai.
Le cardinal d’un produit cartésien : Si E et F sont des ensembles finis alors le produit
cartésien E × F est un ensemble fini et card(E × F) = card(E) card(F). Dans le cas
général, on a pour n ensembles finis (Ei)1≤i≤n:
×F
Tableau 1: Produit cartésien E×
F
E 1 2 3 4 5 6
a a1 a2 a3 a4 a5 a6
b b1 b2 b3 b4 b5 b6
c c1 c2 c3 c4 c5 c6
d d1 d2 d3 d4 d5 d6
3
I.1.g. Propriétés élémentaires du complémentaire et des opérations booléennes
1) (Ac)c = A
2) (A ∪ B)c = Ac ∩ Bc
3) (A ∩ B)c = Ac ∪ Bc
4) (∪i≥1 Ai)c = ∩ i≥1 Aic
5) (∩i≥1 Ai)c = ∪i≥1 Aic
6) A ∩ (B ∪ C) = (A ∩ B ) ∪ (A ∩ C)
7) A ∪ (B ∩ C) = (A ∪ B ) ∩ (A ∪ C)
Formulation mathématique :
1 1 1
2 2 2
. . . oui
. . .
. . . non
k n 15
questions réponses
par question
4
I.2.b. Permutations et arrangements
Formulation mathématique :
1 1
2 2
. .
. .
. .
n 1à1 n
livre position
Question : 12 personnes font parties d’un club de probabilistes. Combien y-a-t-il de façons de choisir :
1 président, 1 vice-président, 1 trésorier et 1 secrétaire ?
Formulation mathématique :
Il y a An =
k n!
( n − k )!
injections d’un ensemble à k éléments dans un ensemble à n éléments.
1 1
2 2
. .
. .
. .
k n
fonctions membres
5
I.2.c. Combinaisons (sans répétition)
12⋅1110
⋅ ⋅9
Réponse: 4⋅3⋅2⋅1
= 495 (l'ordre n'est pas important).
Ank n! n
= = Cnk =
k ! (n − k )! k ! k
Formulation mathématique :
Il y a Cn =
k n!
k !( n − k )!
sous-ensemble à k éléments dans un ensemble à n éléments
pour 0 ≤ k ≤ n.
Exemples:
Cn0 = 1
Cn1 = n
Cn2 = n ( n2−1)
n ( n +1)
Remarquons que Cn2 est différent du nombre des paires (= Cn2+1 = 2
) et du nombre
des couples (= n2).
Question: Un code binaire est une suite (ou un vecteur) constituée des chiffres 0 et [Link] considère des
codes binaires de longueur 12. Combien y-a-t-il des codes contenants exactement 4 fois le chiffre 1?
Réponse: C412 = 495. Noter l’équivalence au problème de comité : On choisit 4 positions (membres)
sur 12.
6
I.2.d. Propriétés des coefficients binomiaux
n
(a + b ) = ∑ Cnk a n −k bk
n
k =0
Exemples
(a + b)0 = 1
(a + b)1 = C10 a + C11b = a + b
(a + b)2 = C20 a 2 b 0 + C21a 1b1 + C20 a 0b 2 = a 2 + 2ab + b 2
(a + b)3 = C30 a 3b 0 + C31a 2 b 1 + C32 a 1b 2 + C33 a 0b 2 = a 3 + 3a 2 b + 3ab 2 + b 3
k =0
n
(1 − x ) = ∑ Cnk ( −1)k x k
n
k =0
n
2n = ∑ Cnk
k =0
n
0 = ∑ ( −1) k Cnk
k =0
La première identité signifie que le nombre total des sous-ensembles d’un ensemble à
n éléments est 2n.
7
Théorème : (Triangle de Pascal ) Cnk = Cnk−−11 + Cnk−1 .
0 1 2 3 4 5 . k
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
.
n 1 . . . . . Cnk
Représentation symétrique:
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. .
1 1
k
∑
j =0
Cmj Cnk − j = Cnk+m
8
1.2.e. Coefficients multinomiaux
Question : Combien y a-t-il de façons de distribuer les 52 cartes d'un jeu de bridge en 4 mains ?
Réponse:
13
C52 ⋅ C39
13
⋅ C26
13
⋅ C13
13
= 13!13!13!13!
52!
= 53 644 737 765 488 792 839 237 440 000.
Formulation mathématique :
Il y a Cn 1 ⋅ Cn−2 n ⋅ … ⋅ Cn−k n −...−n =
n n n n!
n1 !n2 !...nk !
façons de partager un ensemble de
1 1 k −1
k
cardinal n en k sous-ensembles (disjoints deux à deux) de cardinaux ni où ∑ ni = n .
i =1
(a1 + a2 + ... + ak ) n = ∑ n! n n n
a 1 a 2 ...ak k
n1 !n2 !...nk ! 1 2
( n1 ,...,nk ):
n1 +...+ nk = n
k
Les termes n!
n1 !n2 !...nk !
avec ∑ ni = n sont appelés coefficients multinomiaux.
i =1
Réponse: On va réduire ce problème au problème du code binaire présenté au Ch.1.2.d. On désigne les
boules par des « 0 » et les tiroirs par des « 1 ». On place le premier « 1 » à la première position. Les
zéros entre ce premier « 1 » et le deuxième « 1 » correspondent aux boules dans le premier tiroir, les
zéros entre le deuxième « 1 » et le troisième « 1 » correspondent aux boules dans le deuxième tiroir et
les zéros situés à droite du troisième « 1 » correspondent aux boules dans le troisième tiroir. Par
exemple :
1000101 signifie qu’il y a trois boules dans le premier tiroir, une dans le deuxième tiroir et aucune dans
le troisième tiroir. 1110000 signifie que les 4 boules sont dans le troisième tiroir.
Puisque on a toujours un chiffre « 1 » à la première position on cherche le nombre des codes binaires de
longueur 4+3-1= 6 qui contient 3-1=2 chiffres « 1 ». Donc il y a C26 = 15 façons de placer 4 boules
indiscernables dans 3 tiroirs.
Question: Combien y-a-t-il de vecteurs (x1, x2, x3) distincts à composantes entières et non négatives
satisfaisant x1 + x2 + x3 = 10?
9
I.3. Quelques exemples de dénombrement
I.3.a. Bridge
Donner le nombre total de mains au bridge.
13
Pour avoir une main, on doit choisir 13 cartes parmi 52 : C52 = [Link]
possibilités.
Combien de mains sans honneurs, c’est-à-dire sans cartes plus grandes que le 10 (10,
Valet, Dame, Roi, As), y a-t-il au bridge ?
13
Il faut cette fois choisir les 13 cartes parmi 32 : C32 = 347.373.600 possibilités.
1.3.b. Poker
Une main de poker est la donnée de 5 cartes choisies au hasard dans un jeu de 52
cartes. On associe à chaque main une valeur selon les combinaisons particulières
qu'elle présente. Les différentes combinaisons valables sont décrites dans le tableau ci-
dessous, avec la valeur qui leur est associée.
10
Dans la suite, on caractérise une carte par sa couleur (Pique, Cœur, Carreau, Trèfle) et
sa hauteur (2, 3, 4, ... Valet, Dame, Roi, As).
Le nombre total de mains est le nombre de choix de 5 cartes parmi les 52 du jeu.
Il y a donc C525 =2.598.960 mains.
V=8 : Pour obtenir une quinte flush, il faut choisir une couleur (4 choix) puis une
hauteur, par exemple la plus haute de la suite (9 choix).
V8 = 4*9 = 36 quintes flush.
V=7 : Pour obtenir un carré, il faut choisir une hauteur (13 choix) puis la dernière carte
1
de la main ( C48 = 48 choix).
V7 = 48*13 = 624 carrés.
V=6 : Pour obtenir un full, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix) puis la hauteur de la paire, qui ne peut pas être la même (12
choix) et ses couleurs ( C42 = 6 choix).
V6 = 13*4*12*6=3.744 full.
V=5 : Pour obtenir une couleur, il faut choisir la couleur (4 choix) puis les hauteurs
5
( C13 choix). Mais en procédant ainsi, on compte aussi les quintes flush, qu'il faut donc
soustraire.
5
V5 = 4* C13 - V8=5.112 couleurs.
V=4 : Pour obtenir une suite, il faut choisir la hauteur de la carte la plus haute (9
choix) puis la couleur de chaque carte(45 choix). De nouveau, il faut en soustraire le
nombre de quintes flush.
V4 = 9*45-V8 = 9.180 suites.
V=3 : Pour obtenir un brelan, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix), puis les hauteurs des 2 cartes restantes, forcément différentes
2
pour ne pas avoir un full ( C12 = 66 choix) et leurs couleurs (42 choix).
2
V3 = 13*4* C12 *42=54.912 brelans.
Alternative 1 : On peut aussi choisir la hauteur du brelan (13 choix) et ses couleurs
( C43 = 4 choix), puis 2 cartes parmi les 48 cartes restantes (la 49ème donne un carré)
2
donc C48 choix. Il faut alors en soustraire le nombre de full :
2
V3 = 13*4* C48 -3744= 54 912.
11
Alternative 2 : On peut encore choisir deux cartes parmi les 49 restantes ; dans ce cas,
il faut soustraire quatre fois le nombre de carrés :
2
V3 = 13*4* C49 - 3744 - 4*624= 54 912.
2
V=2 : Pour obtenir deux paires, il faut choisir la hauteur de chaque paire ( C13 = 78
choix), la couleur des 4 cartes des paires ( C42 * C42 = 36) puis la hauteur et la couleur
de la dernière carte (11*4 = 44 choix).
V2 = 6*13*6*6*11*4=123.552 doubles paires.
V=1 : Pour obtenir une paire, il faut choisir la hauteur (13 choix) et les couleurs
( C42 choix) de la paire, puis 3 hauteurs différentes ( C12
2
choix) et les couleurs des 3
3
cartes restantes (4 choix).
2
V1= 13*6* C13 *43 = 1.098.240 paires.
V=0 : Le nombre de mains sans aucune combinaison valable est la différence entre le
nombre total de mains et le nombre de celles qui ont une valeur plus grande que 1.
V0=2.598.960 - (V8 + V7 + V6 + V5 + V4 + V3 + V2 + V1) = 1.303.560.
5
Alternative2 : Il y a ( C13 - 9) choix de valeurs qui ne forment pas une suite de valeurs
consécutives. Pour ne pas avoir des cartes de même couleur on a 45- 4 possibilités. Par
conséquent on a :
5
V0=( C13 - 9)*(45-4)= 1.303.560.
12
CHAPITRE II
NOTIONS DE PROBABILITES
Distribuer une main de poker (5 cartes sur 52) revient à tirer au hasard 5 cartes parmi 52. On
appelle expérience aléatoire une telle expérience dont l’issue est soumise au hasard. Une
main ainsi effectivement tirée au hasard est une réalisation de l’expérience, appelée une
épreuve ou expérience élémentaire.
Pour permettre l’analyse des mains distribuées on doit d’abord identifier l’ensemble des
mains possibles.
L’ensemble de tous les résultats possibles d’une expérience aléatoire est appelé ensemble
fondamental de l’expérience aléatoire ou univers des possibles, ou espace des épreuves,
(anglais : sample space), dénoté par Ω ou E ou S. Pour le poker c’est l’ensemble de toutes les
mains possibles. Il s’agit bien entendu ici de l’ensemble de tous les sous-ensembles à 5
éléments d’un ensemble à 52 éléments. Le nombre d’épreuves possibles est alors donné par le
coefficient binomial C552 (voir Ch. I), i.e.
Pour attribuer une probabilité à l’événement A = « la main est un brelan » on fait l’hypothèse
que chaque main à la même probabilité ! Ainsi pour chaque événement A, la probabilité de A
doit être naturellement donnée par la somme de probabilités des mains qui constituent A, ce
qui s’écrit :
Probabilité (A) = card A/card E = nombre de cas favorable/ nombre de cas possibles
Il y a 54912 mains qui sont un brelan. On peut ainsi calculer la probabilité d’avoir un brelan
Ici, on distribue, par exemple, 1 million de fois les cartes et on compte la fréquence des
brelans. Dans la loi des grands nombres nous démontrerons que
pour la probabilité définie ci-dessus. Ceci pourrait constituer une définition de « type
fréquentiste » de la probabilité de A.
Dans une expérience aléatoire, on commence par recenser l’ensemble de tous les résultats
possibles de l’expérience. Cet ensemble non vide noté E (ou quelquefois Ω ou S) est
l’ensemble fondamental ou l’univers des possibles ; ses éléments ω sont appelés épreuves.
L’ensemble fondamental E peut-être fini, dénombrable ou infini non-dénombrable.
Exemples :
Exemples :
1. On jette un dé. L’ événement «Le résultat est pair » est représenté par
l’ensemble A = {2,4,6}
2. Poker: L’ événement «La main est un full» est représenté par l’ensemble A
={{c1,c2,c3,c4,c5} ∈ E dont la main {c1,c2,c3,c4,c5} est un full}
Si E est fini, de cardinal N , i.e. E = {ω1, ω2,.., ωN}, toute probabilité sur E est déterminée par
la donnée de N nombres réels pi compris entre 0 et 1 et de somme 1 : p1 + p2 +…+pN = 1.
En effet, si on pose pi = probabilité que ωi soit réalisé, il est clair que ces deux propriétés sont
satisfaites et que l’on peut calculer la probabilité de tout événement A par la formule très
simple
P( A) = ∑
i:ωi ∈A
pi
1. P(A) ∈ [0,1]
2. P(E) = 1
3. Si A et B sont des événements incompatibles, alors P(A ∪ B) = P(A) + P(B).
Ces trois propriétés vont servir d’axiomes dans le cas général où E n’est pas fini.
L’exemple fondateur de la théorie est le cas équiprobable (pour E fini) : tous les résultats
possibles (i.e. tous les ωi ) ont la même probabilité pi = 1/N = 1/card E. C’est le cas d’une
distribution uniforme discrète. Donc dans ce cas équiprobable la probabilité d’un événement
A est donnée par :
On ne peut pas en déduire que P(S=9)=P(S=10) car les configurations ne sont pas
équiprobables. Il faut tenir compte de l'ordre et donc des permutations possibles de chaque
configuration. Ainsi (3,3,3) ne "compte qu'une fois" alors que (5,2,2) "compte triple" et
(5,3,1) "compte six fois". On obtient ainsi: P(S=9) = 25/216 et P(S=10) = 27/216
II.3. Propriétés d’une distribution de probabilité
Dans la suite du cours nous allons adopter une approche axiomatique qui consiste à déduire
des axiomes précédents les propriétés des distributions de probabilités.
3. P(∅) = 0
7. P(A ∪ B) = P(A) + P(B) - P(A ∩ B), et par conséquent P(A ∪ B) ≤ P(A) + P(B)
∞ ∞
8. Soit (Ai)i∈ IN une suite d’événements, alors P(∪ Ai ) ≤ ∑ P( Ai ) (inégalité de Boole)
i =1 i =1
∞
9. Soit (Ai)i∈ IN une suite croissante, i.e. Ai ⊆ Ai+1, alors limi→∞ P( Ai ) = P(∪ Ai ) .
i =1
∞
10. Soit (Ai)i∈ IN , une suite décroissante i.e. Ai ⊇ Ai+1, alors limi→∞ P( Ai ) = P(∩ Ai ) .
i =1
II.3.b. Probabilités de réunions d’ensembles : Règle d’inclusion-exclusion
N N
P ∪ Ai = ∑ P ( Ai ) − ∑ P ( Ai1 ∩ Ai2 ) + ∑ P ( Ai1 ∩ Ai2 ∩ Ai3 ) + ...
i =1 i =1 i1 <i2 i1 <i2 <i3
i1 <i2 <...<ik
Remarque : Dans la 1ere somme il y a N termes, dans la 2ème il y a N⋅(N-1)/2 = CN2 termes. En
général il y a CNk termes dans la kème somme.
Exemples :
En fait, la méthode la plus rapide pour répondre à la question posée est de passer au
complémentaire : L’événement de n’avoir aucun six lorsqu’on jette trois dés est donné
par Ac = A1c ∩ A2c ∩ A3c (par la formule de de Morgan) et P(Ac) = P(A1c) ⋅ P(A2c) ⋅
P(A3c). Avec P(Aic) = 5/6 on obtient P(Ac) = 125/216 donc P(A) = 91/216.
2. Quelle est la probabilité pour qu’une main de bridge ait au moins une coupe, i.e.
une couleur absente ?
Dans cet exemple la règle inclusion-exclusion est la bonne méthode pour répondre à la
question posée.
P(Ai) = C1339/C1352.
Pour chaque (i,j), i≠j il y a C1326 possibilités de choisir une main sans les couleurs i et
j. La probabilité de chaque intersection Ai ∩ Aj est alors
La probabilité cherchée est donc 1 621 364 909/31 750 677 980= 0.05106552087.
II.4. Evénements indépendants
Exemples :
P(A ∩ B) = P(A)P(B)
Il est très facile de vérifier que cette définition est compatible avec l’intuition donnée dans les
exemples précédents. Passons des exemples moins intuitifs.
Définition 1: On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants deux à deux si et
seulement si, pour tout (i, j) et i ≠ j, Ai et Aj sont indépendants.
L’exemple suivant montre que cette définition est trop faible pour prolonger la notion
d’indépendance aux suites d’événements.
P((A ∩ B) ∩ C) = 1/365 ⋅ 1/365 ≠ P(A ∩ B) ⋅P(C) = P(A) ⋅ P(B) ⋅P(C) = 1/365 ⋅ 1/365 ⋅ 1/365.
Pour prolonger notre notion d’indépendance aux cas de trois événements on devra imposer
une condition supplémentaire non comprise dans la définition de l’indépendance deux à
deux, à savoir :
P(A1 ∩ A2 ∩ A3) = P(A1) ⋅ P(A2) ⋅ P(A3).
Définition 2 : On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants (ou mutuellement
indépendants) si et seulement si pour toute sous-suite d’événements distincts, on a :
On a déjà vu que N (N > 2) événements peuvent être indépendants deux à deux sans être
indépendants mutuellement. Si N événements sont mutuellement indépendants ils sont
indépendants deux à deux.
Exemple 1: On suppose que une personne est soumise N fois à un risque p d’accident où
0 < p < 1. Quelle est la probabilité d’avoir au moins un accident ? Pour répondre à cette
question on pose Ai = « la ième expérience provoque un accident » et on suppose que les Ai
sont mutuellement indépendants. Avec p = P(Ai) on a
II.5.a. Définition
Définition : Soient (E, P) un espace probabilisé et A, B des événements quelconques tel que
P(B) > 0. On note
Les formules suivantes sont souvent très utiles pour calculer des probabilités d’intersections :
La généralisation de ces formules au cas des plusieurs événements est considérée dans le Ch.
II.5.b. (théorème de multiplication ou conditionnement multiple)
1. Pour tout événement B fixe tel que P(B) > 0 la fonction d’ensembles A → P(A|B) satisfait
les axiomes A1 – A3, i.e. P(A|B) est une distribution de probabilité sur E.
Nous avons déjà vu que la probabilité de la conjonction des deux événements peut être
calculée par le conditionnement sur un des événements. L’itération de cette technique est
appelée conditionnement multiple.
Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule du
conditionnement multiple s’écrit:
Exemple 1: Considérons une urne contenant quatre boules blanches et six boules rouges.
Quelle est la probabilité de la suite « blanc, blanc, rouge » si on tire les boules sans remise ?
Pour répondre à cette question nous désignons les événements B1 = « la première boule est
blanche », B2 = « la deuxième boule est blanche » et B3 = « la troisième boule est rouge ».
Alors
Remarquons qu’il faut conditionner dans le bon ordre. Par exemple, la formule
P(B1 ∩ B2 ∩ B3) = P(B3) ⋅P(B2|B3) ⋅P(B1| B2 ∩ B3) est juste mais inutilisable.
II.5.c. Formule des probabilités totales
Si B et Bc sont de probabilité non nulle on peut utiliser des probabilités conditionnelles pour
calculer les probabilités d’intersections. Donc
Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité d’obtenir trois piles?
Pour résoudre ce problème on conditionne par la pièce choisie, i.e. on applique la formule des
probabilités totales pour les événements A = « on tire trois piles », B1 = « la pièce est
honnête» et B2 = « la pièce a deux piles». On a
Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité que la pièce choisie est la
pièce honnête si on a tiré trois piles ?
II.5.e. Exemples
1. Exemple élémentaire
Soit A1 l’événement que l’aîné est un garçon, A2 l’événement que le second est un garçon.
Sous des hypothèses convenables A1 et A2 sont indépendants. Alors P(A2) = ½.
b. On sait qu’un des enfants est un garçon. Quelle est la probabilité que l’autre soit un
garçon ?
On sait que A1 ∪ A2 , i.e. A1 ou A2, est réalisé. On veut donc calculer la probabilité de A1 ∩ A2
sachant A1 ∪ A2 . Alors
Pour dépister une maladie, on applique un test. Si le patient est effectivement atteint, le test
donne un résultat positif dans 96% des cas. Mais il se peut aussi que le résultat du test soit
positif alors que le patient est en bonne santé, et ceci se produit dans 2% des cas.
Sachant qu'en moyenne 0.05% des patients sont atteints de la maladie à dépister, calculer la
probabilité pour qu'un patient soit atteint sachant que son test a été positif.
Soit A l'événement: "le test est positif", B l'événement: "le patient est en bonne santé" et M =
BC l'événement: "le patient est atteint de la maladie". Remarquons que:
P(A|M) = 0.96 P(A|B) = 0.02 .
et
P(M) = 0.0005.
= 0.96×0.0005/[0.96×0.0005+0.02×0.9995] = 0.023.
Il est intéressant de constater que seul 2.3% des patients testés positifs sont effectivement
malades. Pourtant le test semble avoir des caractéristiques techniques raisonnables. Comment
comprendre un chiffre si bas ?
CHAPITRE III
III.1. Le modèle
Nous commençons par introduire un modèle abstrait, qui généralise le jeu « pile ou face ».
Considérons une suite d’essais d’une même expérience aléatoire que l’on répète indéfiniment
de telle sorte que les conditions soient toujours identiques et que les résultats des différents
essais soient sans influence mutuelle. Supposons que l’expérience n’a que deux résultats
possibles, succès ou échec, et la probabilité du succès soit un nombre p dans l’intervalle [0,1].
Nous appelons une telle suite d’essais un processus de Bernoulli. Il s’agit d’un cas particulier
simple du concept plus général (étudié au Ch.V.) de suite d’expériences aléatoires
indépendantes.
Il est commode d’écrire 1 ou 0 au lieu de « succès » ou « échec ». On peut donc décrire les
résultats d’une suite d’expériences par une suite de 0 et de 1 que l’on notera (Xi) où Xi vaut 0
ou 1 suivant que la i-ième expérience est un échec ou un succès. On dit que (Xi) est une suite
de variables aléatoires indépendantes (voir Ch. IV. pour la définition formelle des variables
aléatoires et Ch. V. pour la définition de l’indépendance).
L’espace fondamental d’un essai est l’ensemble {0,1}. Le processus de Bernoulli dépend d’un
seul paramètre p, la probabilité du succès, et on a
P(Xi = 1) = p et P(Xi = 0) = 1 – p
Définition : On dit que Xi suit une loi de Bernoulli de paramètre p où p est la probabilité de
succès. On écrit
Xi ∼ Bernoulli( p ) ou Xi ∼ B(1, p )
III.1.b. Exemples
Exemple 3 :
Dans chaque unité de temps un appel arrive dans un central téléphonique avec une probabilité
égale à p. On pose Xi = 1 si un appel arrive dans la ième unité du temps et Xi = 0 sinon.
Exemple 4 :
Les transistors fabriqués par une machine sont affectés d’un défaut avec probabilité p. L’état
d’un transistor est indépendant de celui des précédents ou suivants. On pose Xi = 1 si le
transistor a un défaut et Xi = 0 sinon.
Exemple 5 :
On exécute une suite d’épreuves indépendantes. La probabilité qu’un certain événement A est
réalisé dans une épreuve est égale à p = P(A). On pose Xi = 1 si A est réalisé et Xi = 0 sinon.
III.2. La loi binomiale
On définit
SN = X1 + … + XN
où Xi prend des valeurs dans {0,1}. Donc SN est égal au nombre de succès pendant les N
premières expériences. La loi de SN est donnée par
Pour établir cette loi il faut d’abord remarquer que chaque suite de longueur N comportant k
succès a pour probabilité pk(1 – p)N – k. Evidemment il y a CkN possibilités de placer k succès
parmi les N tirages.
Notons, qu’une application de la formule du binôme de Newton (voir Ch. I.2.d.), donne que la
somme de tous les P(SN = k) est 1 :
N N
∑ P( SN = k ) = ∑ CNk p k (1 − p) N −k = ( p + (1 − p) ) = 1 .
N
k =0 k =0
Définition : On dit que SN suit une loi binomiale de paramètres (N, p ) où N désigne le
nombre d’expériences et p est la probabilité de succès dans un essai. On écrit
SN ∼ B(N, p )
Exemple 1: On tire (avec remise) 5 boules dans une urne contenant 10 blanches, 15 noires et
25 rouges. Quelle est la probabilité de tirer 3 boules blanches ?
Solution : On décide ici que le tirage d’une boule blanche est un succès et que le tirage d’une
boule rouge ou d’une boule noire est un échec. Ainsi la probabilité p de succès pour chaque
tirage est p = 10/50 = 1/5. Les tirages s’effectuant avec remise, nous sommes dans le cadre
des tirages indépendants, i.e. d’un processus de Bernoulli. Le nombre S5 de boules blanches
tirées lors de 5 tirages avec remise suit donc une loi binomiale de paramètres N = 5 et p = 1/5.
Alors
III.2.b. Stabilité
Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p). Si les N
expériences de Bernoulli sont indépendantes des M expériences de Bernoulli, on dit que les
variables aléatoires binomiales SM et SN sont indépendantes. Dans ce cas la somme SM + SN
est égale au nombre de succès pendant une suite des N + M expériences de Bernoulli de
paramètre p. Par conséquent, on a
SM + SN = SM+N .
On introduit un temps aléatoire T, défini comme temps du 1er succès dans une suite infinie
d’expériences de Bernoulli, i.e. T = min(k : Xk = 1) = min(k : Sk = 1), où Sk = X1 + … + Xk.
Nous vérifierons ci-dessous que ce temps est fini avec probabilité 1. Pour tout k notons Ak
l’événement { Xk = 1}. L’événement {T = k} est égal à (A1)c ∩ … ∩ (Ak-1)c ∩ Ak. On calcule
alors la loi de probabilité de T.
P(T = 1) = p ,
P(T = 2) = (1 – p) ⋅ p ,
P(T = k) = (1 – p)k – 1 ⋅ p
En particulier, P(T = ∞) = lim k→∞ P(T > k) = lim k→∞ (1 – p)k = 0 si p > 0.
Donc P(T < ∞) = 1, i.e., avec probabilité 1, le temps T est fini.
Définition : On dit que T suit une loi géométrique de paramètre p où p est la probabilité de
succès dans un essai. On écrit
T ∼ Geom(1, p )
Exemple : On jette un dé équilibré jusqu’à un « 6 » sort. Quelle est la probabilité qu’on lance
le dé au plus trois fois ?
P(T ≤ 3) = P(T =1) + P(T =2) + P(T =3) = 1/6 + 5/6 ⋅1/6 + 5/6 ⋅ 5/6 ⋅1/6 = 91/216 ≅ .4212962963.
La loi géométrique est caractérisée par une propriété très importante, la propriété de « perte
de mémoire », i.e. par
pour tous les entiers j et k non négatifs. Ainsi sachant qu’il n’y a pas eu de succès jusqu’au
temps j (inclus), la probabilité qu’il y ait un succès dans les k essais suivants est indépendante
de j. En particulier, cette probabilité est identique à celle de n’avoir aucun succès dans les k
premiers essais.
{ Tr = n } = { Xn = 1 et Sn-1 = r – 1}
pour n = r , r + 1, r + 2, …
Définition : On dit que Tr suit une loi binomiale négative de paramètres p et r, où r désigne le
nombre de succès à achever et où p est la probabilité de succès dans un essai. On écrit
Tr ∼ Geom(r, p)
Tr est appelé variable aléatoire binomiale négative ou plus brièvement variable binomiale
négative.
Exemple (problème des points) : Deux joueurs A et B jettent un dé honnête. Si le résultat est
un « 6 » c’est le joueur A qui marque un point, sinon c’est B qui marque un point. Quelle est
la probabilité que A marque 2 points avant que B marque 9 points ?
Solution : Les deux joueurs réalisent des épreuves indépendantes dont la probabilité du succès
est p = 1/6. Nous cherchons la probabilité que r = 2 succès apparaissent avant m = 9 échecs,
i.e. que le deuxième succès survient au plus tard à la (r + m – 1) = 10-ième épreuve. Donc
cette probabilité est égale à P(T2 ≤ 10) et l’on a
10 10
P(T2 ≤ 10) = ∑ P(T2 = k ) = ∑ Ck1−1 ( 16 ) 2 ( 56 )k −2 = 10389767
20155392 ≅ 0.5154832513 .
k =2 k =2
r + m −1 r + m −1
P(Tr ≤ r + m − 1) = ∑
k =r
P(Tr = k ) = ∑C
k =r
r −1
k −1 p r (1 − p ) k − r .
III.3.d. Stabilité
La loi binomiale négative satisfait une propriété de stabilité. En particulier, chaque variable
binomiale négative s’écrit comme somme de variables géométriques indépendantes.
Nous présentons des résultats concernant le comportement asymptotique des lois probabilités
liées au processus de Bernoulli et ses généralisations. Ces résultats, appelés théorèmes limites,
permettront de simplifier considérablement le calcul de probabilités. Ils sont souvent des cas
particuliers d’un théorème plus général qu’on présentera au chapitre V.
Lorsque le nombre d’essai est grand et la probabilité du succès est petite alors la loi de
nombres de succès s’approche d’une loi très importante en calcul de probabilités, la loi de
Poisson.
On écrit
Z ∼ Poisson(λ)
Ainsi une variable de Poisson modélise le nombre de succès dans un très grand nombre
d’expériences indépendantes où la probabilité de succès est petite ( p ∼ λ/N). L’approximation
poissonnienne fonctionne en fait assez bien même si N n’est pas très grand.
Exemple 1: On jette deux dés 12 fois et on considère le nombre U de double six. La variable
U satisfait une loi binomiale de paramètres N = 12 et p = 1/36, donc on pose λ = 1/3.
Comparer les probabilités exactes et les probabilités calculées en utilisant la loi de Poisson.
k (U = k) exp(-λ)⋅ λk/k!
0 0.7131592556 0.7165313106
1 0.2445117448 0.2388437702
2 0.0384232742 0.0398072950
3 0.0036593594 0.0044230328
Soit T une variable géométrique de paramètre p. Rappelons que T signifie le nombre d’essais
jusqu’au premier succès ou le temps du 1er succès. Comme précédemment on considère le cas
N → ∞ et p → 0 tel que N⋅p → λ pour un λ > 0. Alors, pour tout t réel positif, on a
Définition: On dit que U suit une loi exponentielle de paramètre λ > 0, si pour tout t réel
positif
La loi exponentielle est parmi les lois les plus souvent rencontrées dans la pratique de
l’ingénieur. Mentionnons quelques applications de la loi exponentielle : la durée du
fonctionnement ou la durée de vie d’un équipement technique, la désintégration radioactive et
les temps d’attente de clients devant un guichet.
Nous donnons une première version d’un théorème fondamental du calcul de probabilités : la
loi des grands nombres. Des versions plus générales et mathématiquement plus précises sont
présentées au Ch. V.
Si on lance un grand nombre de fois une pièce honnête, la fréquence d’apparition de pile se
stabilise autour de la valeur 0.5, la valeur théorique de probabilité d’apparition de pile. On
regarde SN, le nombre de succès dans le modèle binomial. Pour p fixé on laisse N → ∞.
Loi des grands nombres : Le nombre moyen de succès lors des N premiers essais, i.e.
C’est pourquoi l’on se pose la question de savoir si le nombre moyen de succès lors des N
premiers essais, SN /N , reste tout près de son espérance E[SN/N]. Il y a évidemment des
événements de probabilité non nulle pour lesquelles la différence SN /N – p n’est pas petite
comme c’est le cas par exemple pour l’événement { SN /N = 1}. Mais cette probabilité tend
vers zéro lorsque N tend vers l’infini : P(SN /N = 1) = pN → 0 lorsque N → ∞. On peut donc
espérer que c’est aussi le cas pour tous les événements de la forme | SN /N – p | > ε pour tout ε
> 0. Ceci est l’énoncé de la loi (faible) des grands nombres présentée dans le chapitre V.
CHAPITRE IV
VARIABLES ALEATOIRES
Dans de nombreuses expériences stochastiques, on représente les résultats possibles par des
nombres réels X(ω) pour tout ω dans l’ensemble fondamental. Pour étudier des grandeurs
dépendant du hasard on est amené à introduire des fonctions définies sur des espaces
probabilisés.
Exemple 1: On jette deux pièces équilibrées. On peut décrire l’ensemble fondamental de cette
expérience par Ω ={(P,P), (P,F), (F,P),(F,F)}, la lettre F représentant « face » et P
représentant « pile ». Ici on s’intéresse au nombre X de piles qui apparaissent et on définit
l’ensemble fondamental par l’image de X, i.e. E = {0 piles, 1 pile, 2 piles} ou simplement E
={0,1,2}. Alors, la distribution de probabilité de X est donnée par
Donc X associe à chaque résultat possible de l’expérience un nombre réel, i.e. X est une
fonction à valeurs réelles définie sur l’ensemble fondamental Ω. Pour des raisons historiques
X est appelé variable aléatoire ou plus précisément une variable aléatoire réelle.
Pour tout événement A dans Ω la variable aléatoire X peut être restreinte en une application de
l’ensemble A dans la partie des nombres réels J = X(A) = {X(ω), ω ∈ A }. En particulier,
l’ensemble fondamental Ω d’une expérience aléatoire correspond à l’ensemble E de tous les
valeurs possibles de X, i.e. E = X(Ω). Pour des ensembles fondamentaux finis ou
dénombrables, E se confond avec un ensemble des entiers.
Exemple 1(suite) : On jette deux pièces équilibrées. On considère l’événement A = " au
moins une pile apparaît". Alors, X a pour valeurs 1 ou 2 , i.e. X ∈ {1,2} ou encore 1 ≤ X ≤ 2.
Temps jusqu’aux r premiers succès Tr: Tr désigne le premier index i tel que Si = r, i.e.
Tr = min(i, Si = r), Tr prend ses valeurs dans E = {r, r+1, r+2,...}.
Exemple 3: Pour tout événement A dans Ω on définit la variable indicatrice de A, noté IA , par
IA = 1 si A est réalisé,
IA = 0 si Ac est réalisé.
Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, P). On a défini dans
le chapitre IV.1.a. un ensemble caractéristique de X , l’ensemble de ses valeurs possibles noté
E = {X(ω), ω ∈ Ω}. Rappelons que E est un sous-ensemble des nombres réels. Maintenant il
faut se donner sa distribution de probabilité. Pour une variable aléatoire discrète on peut
définir une densité de probabilités fX(x) par
Définition : Soit X : Ω → E une variable aléatoire réelle. Sa fonction de répartition FX(t) est
définie par
FX(t) = P(X ≤ t) pour tout t réel.
d. F est continu à droite, i.e. pour tout t réel, FX(t+s) → FX(t) lorsque s → 0+.
Exemple 1 (suite) : On jette un dé équilibré. Soit X le nombre des points obtenus. La fonction
de répartition FX(t) est donnée par
0 si t <1
k
FX (t) = si k ≤ t < k + 1 pour k = 1,2, 3, 4,5
6
1 si 6≤t
Etant donné une variable aléatoire discrète à valeurs dans E = {x1,x2,...}, sa fonction de
répartition n’est pas continue dans les points xi et elle constante entre xi-1 et xi (plus
précisément sur l’intervalle [xi-1 , xi [ ) pour tout i. Donc, en général, la fonction de répartition
peut être représentée par une fonction en escalier élémentaire.
IV.2. Couples de variables aléatoires
Définition : La fonction de répartition conjointe FX,Y (s,t) pour tout couple de variables
aléatoires (X, Y) est définie par
Définition : Les fonctions FX(s) = FX,Y(s,∞) et FY(t) = FX,Y(∞, t) sont appelées fonctions de
répartition marginales de X et Y.
P(s1 < X ≤ s2 , t1 < Y≤ t2) = FX,Y(s2 , t2) + FX,Y(s1 , t1) – FX,Y(s1 , t2) – FX,Y(s2 , t1) pour s1 < s2 ,
t1 < t2.
IV.2.d. Loi discrète conjointe
Si X et Y sont des variables aléatoires discrètes, alors la distribution (ou la loi) de probabilité
conjointe du couple (X, Y) est la donnée des nombres : P(X = xi , Y = yj). Si on définit
f X ( x ) = P( X = x ) = ∑
y: f X ,Y ( x , y )>0
f X ,Y (x, y)
fY ( y ) = P(Y = y) = ∑
x: f X ,Y ( x , y )> 0
f X ,Y (x, y)
IV.3. Espérance
IV.3.a. Définition
E[ X ] = ∑ x ⋅ P( X = x ) = ∑ x ⋅ f X (x)
x∈E x∈E
La quantité E[X] est parfois aussi appelée valeur moyenne de X. Nous utilisons l’expression
de valeur moyenne uniquement pour des quantités empiriques.
IV.3.b. Exemples
IV.3.b.1. Variable uniforme discrète
X prend ses valeurs dans {x1,...,xN} avec des probabilités P(X = xi) = 1/N pour i = 1,...,N.
L’espérance de X correspond à la moyenne arithmétique des xi.
E[X] = (x1+ .. .+ xN)/N
E[IA] = P(A) .
E[X] = Np.
E[X] = 1/p.
E[X] = λ.
IV.3.c. Propriétés élémentaires de l’espérance
E[X] ≥ 0.
Monotonie : Soient X et Y deux variables aléatoires telles que X ≥ Y. Par les propriétés de
linéarité et positivité on a
E[X] ≥ E[Y].
La propriété de linéarité est souvent utilisée pour calculer l’espérance d’une loi de probabilité.
SN = X1 + … + XN.
MN = I1 + I2 + … + IN.
Théorème :
Si X est une variable aléatoire discrète à valeurs xk, k ≥ 1, alors pour toute fonction réelle ϕ on
a
Exemples:
1. Fonctions indicatrices
E[1[a,b](X)] = P(a≤X≤b)
2. Moments
L’espérance de ϕ(x) = xk est appelée k-ième moment de X. La variance (voir Ch. IV.5.)
contient le deuxième moment de X.
3. Fonction exponentielle
L’espérance de ϕ(x) = exp(tx) pour t réel (ou complexe), correspond à la transformée de
Laplace (ou de Fourier) d’une loi de probabilité. Voir Ch. IV.5.
IV.3.e. Espérance : Inégalités
Inégalité de Cauchy-Schwarz
Soient X et Y deux variables aléatoires réelles. Evidemment,
(X − aY ) 2 ≥ 0 ,
a
donc 2⋅XY ≤ X2/a + aY2 pour tout réel positif a. Par les propriétés de linéarité et de positivité
l’espérance du produit XY satisfait l’inégalité suivante:
Inégalité de Jensen
Si ϕ(x) est une fonction convexe, on a
ϕ(tx+(1-t)y) ≤ tϕ(x) + (1- t)ϕ(y)
pour tous x,y réels et pour tout t dans [0,1]. L’espérance d’une variable aléatoire X satisfait
l’inégalité de Jensen:
ϕ(E[X]) ≤ E[ϕ(X)]
Inégalité de Markov
Soit X une variable aléatoire positive. Pour tout a > 0
P(X ≥ a) ≤ E[X]/a.
Preuve: Notons que 1[a,∞)(x) ≤ x/a. En utilisant les propriétés de monotonie et de linéarité de
l’espérance on obtient
P(X ≥ a) = E[1[a,∞)(X)] ≤ E[X/a] = E[X]/a.
IV.4. Variance et Covariance
IV.4.a. Définitions
La variance d’une variable aléatoire X nous permet de mesurer les variations de X autour de
l’espérance.
Définition : Soit X une variable aléatoire d’espérance µ = E[X]. La variance de X est définie
par
Définition : L’écart type, noté σ, est défini comme la racine carré de la variance :
σ = (Var[X])1/2.
Par définition, Cov[X,X] = Var[X]. Si Cov[X,Y] = 0 on dit que X et Y ne sont pas corrélés.
Dans le chapitre V nous montrons que des variables aléatoires indépendantes ne sont jamais
corrélées. Pour mesurer la dépendance des deux variables aléatoires X et Y on définit la
corrélation de X et Y par
ρ[X,Y] = Cov[X,Y]/(Var[X]Var[Y])½.
IV.4.b. Exemples (Variance)
Var[X] = (1 - p)/p2.
IV.4.c.1. Homogénéité
Pour tout λ réel
Var[λX] = λ2Var[X]
IV.4.c.2. Positivité
Var[X] ≥ 0,
et Var[X] = 0 si et seulement si X = E[X] , i.e. X est une variable aléatoire constante.
Soit X une variable aléatoire d’espérance µ=E[X] et de variance σ2= Var[X] finies. Pour tout
réel a > 0 :
σ2
P( X − µ ≥ a) ≤ 2
a
Preuve : On applique l’inégalité de Markov (voir IV.3.e.) avec a2 à la variable (X - µ)2.
IV.5. Moments et transformée de Laplace
IV.5.a. Moments
Pour tout entier positif k, on appelle moment d’ordre k de X et on note mk
mk = E[Xk].
Le moment centré d’ordre k de X noté mc,k est la valeur
mc,k = E[(X-m1)k].
Notons, que mc,2 = Var[X].
pour les valeurs de t où LX[t] est finie. La transformée de Laplace est un outil de calcul très
utile. Elle caractérise la distribution de X, i.e. si LX[t] = LY[t] pour tout t sur un voisinage de 0,
alors X et Y ont la même distribution. Alors, en particulier, pour tout t, FX(t) = FY(t).
p ⋅ et
LX [ t ] =
1 − (1 − p ) ⋅ et
Il est facile de montrer que la définition (1) est un cas particulier de l’identité (2).
En effet, si φ 1 = 1A (i.e. φ 1(x) = 1 si x ∈ A et φ 1(x) = 0 sinon) et
φ 2 = 1B (i.e. φ 2(x) = 1 si x ∈ B et φ 2(x) = 0 sinon), alors (2) s’écrit :
1 si x1 ∈ A et x2 ∈ B
φ1 ( x1 ) φ2 ( x2 ) =
0 sinon
Remarque : Pour prouver l’indépendance (1) est plus facile. Pour utiliser
l’indépendance (2) est plus puissant.
Si X1 et X2 sont indépendantes alors Cov [X1, X2] = 0, donc aussi Corr [X1, X2] =
0, i.e. X1 et X2 sont non-corrélées.
(3) Les fonctions de répartition respectives F, F1 ,.., Fn de X = (X1 ,.., Xn) , X1 ,..,
Xn vérifient pour tous xi réels , i = 1,2 :
En général, cette distribution conjointe est difficile à calculer, mais facile dans le
cas indépendant.
Cas des variables aléatoires discrètes : Soient X1, X2 deux variables aléatoires
indépendantes et discrètes. On se donne la distribution de X1 :
P ( X 1 = X (1)
j ) = Pj
(1)
et celle de X2
P ( X 2 = X k(2) ) = Pk(2)
Les valeurs possibles du couple (X1, X2) sont tous les couples de la forme
( )
X h(1) , X d( 2) donc la distribution jointe :
P (( X 1 , X 2 ) = (X (1)
j , X k ))
(2)
= P ( X 1 = X (1)
j )⋅ P ( X2 = Xk )
(2)
= Pj(1) ⋅ Pk(2)
V.2 Variables aléatoires indépendantes et ordre
FM N (t ) = P ( M N ≤ t ) = P ( X 1 ≤ t et X 2 ≤ t et ... et X N ≤ t )
= P ( X 1 ≤ t ) ... P ( X 2 ≤ t ) ... P ( X N ≤ t )
Par conséquent la fonction de répartition de MN s’écrit comme produit des
fonctions de répartition des Xj :
FM N (t ) = FX1 (t ) ⋅ ... ⋅ FX N (t )
Les valeurs possibles de S2 = X1 + X2 sont les valeurs y telles que y = x(1)j + x(2)k
pour un ou plusieurs couples (j,k). Donc
P ( S2 = y ) = ∑ P( X 1 = x (1)
j et X 2 = xk )
(2)
( j ,k ): y = x (1)
j + xk
(2)
et par l’indépendance
P ( S2 = y ) = ∑ P( X 1 = x (1)
j ) ⋅ P ( X 2 = xk ) =
(2)
∑ j ⋅ pk
p (1) (2)
( j ,k ): y = x (1)
j + xk
(2)
( j ,k ): y = x (1)
j + xk
(2)
(convolution discrète)
Soient X1, X2, …, XN des variables indépendantes discrètes. Avec des notations
analogues au ch. VI.3.a. on a
P( S N = y ) = ∑ pk(1)1 ⋅ pk(2)
2
⋅ ... ⋅ pk( NN )
( k1 ,k2, ...,k N ): y = xk(1) + xk( 2 ) +...+ xk( N )
1 2 N
V.4. Lois des grands nombres
Ce problème a été étudié par J. Bernoulli (Ars Conjectandi, publié 1713) qui a
montré que la suite des moyennes empiriques converge (selon un mode qui
ressembla la convergence en probabilité) vers la moyenne théorique. Ses
arguments ont été considérablement simplifiés par Tchebychev. Des
généralisations de ce problème nous donnent différentes versions de la loi des
grands nombres.
Soit X1, X2, …, XN ,… une suite de variables aléatoires iid. On note µ = E[Xj] (ne
dépend pas de j), la moyenne théorique et SN/N = (X1 + X2 + …+ XN)/N , la
moyenne empirique. Supposons que σ2 = Var[Xj] <∞.
Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires iid de moyenne
µ et variance σ2 finis. La moyenne empirique SN/N converge en probabilité vers µ,
i.e.
Donc la probabilité que l’erreur soit plus grande qu’un nombre ε donné est zéro
lorsque N tends vers l’infini. On dit que SN/N converge vers µ en probabilité.
Remarque : Ce résultat affirme que les concepts et méthodes dans le Ch. II sont
parfaitement compatible avec l’évaluation expérimentale de la probabilité d’un
événement à l’aide de sa moyenne empirique ou sa fréquence relative.
Par conséquent la variance de la moyenne empirique tend vers zéro lorsque N tend
vers l’infini, i.e. SN/N devient de moins en moins aléatoire ou dispersée autours de
sa moyenne µ. Par l’inégalité de Bienaymé-Tchebychev
La loi faible des grands nombres implique que SN/N converge vers µ en loi ou en
distribution, i.e. pour toute fonction f continue, bornée on a
Nous donnons un énoncé de la loi forte des grands nombres pour les variables
aléatoires de variance finie.
Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires réelles iid de
moyenne µ et variance σ2.
Alors, la moyenne empirique SN/N = (X1 + X2 + …+ XN)/N converge presque
sûrement vers µ, i.e.
Remarque : Soit (Zj)j une suite de variables aléatoires sur un espace probabilisé.
On peut montrer l’équivalence suivante : Zj → Z p.s. (presque sûrement) si et
seulement si pour tout ε > 0, limN→∞ P(supj ≥ N |Zj - Z | ≥ ε) = 0.
On applique à (SN/N)4 (noter que cette variable aléatoire est positive) l’inégalité de
Markov. Alors
On choisit ε = εN = 1/N 1/8, donc P(|SN/N | ≥ εN) ≤ E[Xj4]/N 3/2, d’où la somme
∑N=1..∞ P(|SN/N | ≥ εN) est convergente. Par le lemme de Borel-Cantelli
Lemme de Borel-Cantelli :
Soit (An)n≥1 une suite d’événements et posons A* = lim supn→∞ An .
Si ∑n=1..∞ P(An) < ∞, alors P(A*) = 0. Autrement dit avec une probabilité égale à 1,
au plus un nombre fini d’événements An se réalisent.