0% ont trouvé ce document utile (0 vote)
12 vues126 pages

Cours Proba 1

Le document présente le syllabus du cours de Probabilités 1 pour la Licence 1 en ingénierie à l'IUA pour l'année académique 2023-2024, enseigné par Dr KOUAME Yao Simplice. Il détaille les objectifs, le contenu, le programme, les méthodes pédagogiques et les modalités d'évaluation du cours. Les thèmes abordés incluent l'analyse combinatoire, le calcul de probabilités, et les lois de probabilités discrètes et continues.

Transféré par

jojocarter508
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
12 vues126 pages

Cours Proba 1

Le document présente le syllabus du cours de Probabilités 1 pour la Licence 1 en ingénierie à l'IUA pour l'année académique 2023-2024, enseigné par Dr KOUAME Yao Simplice. Il détaille les objectifs, le contenu, le programme, les méthodes pédagogiques et les modalités d'évaluation du cours. Les thèmes abordés incluent l'analyse combinatoire, le calcul de probabilités, et les lois de probabilités discrètes et continues.

Transféré par

jojocarter508
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

2 Plateau, 7ème tranche rue L40, Carrefour Cascade, Lot 3016, Ilot 251 BIS

01BP 12159 Abidjan 01, Tél. 22 42 22 65/ 22 42 27 24 / 22 52 55 67 /07 23 18 62 / 05 23 52 35


Site web : [Link]

Nous formons les leaders de demain

COURS DE PROBABILITES 1

ECOLE D’INGENIERIE
Licence 1

Année Académique : 2023-2024 Par Dr KOUAME Yao Simplice


01 BP 12159 Abidjan 01, Tél : 22 42 22 65 /07 23 18 62, Fax : 22 42 27 24

Année universitaire : 2023- 2024.

SYLLABUS DU COURS IUA

*INTITULE DU COURS : Probabilités 1


*Code : ………….
*Type : CM
*Volume horaire : 20 Heures.
*UE de rattachement : ………………………………………………………………
*Niveau/ Spécialité : Licence1 Ingénierie
*Département : École d’ Ingénierie .
*Semestre : 2
*Nombre de crédit :
*Nom de l’enseignant : Dr. KOUAME Yao Simplice
*Contact téléphonique : 07 – 070 - 144 - 72
*Email : simplice_vie16@[Link]
*Statut : Enseignant à l’Université × Professionnel d’Entreprise

*Les objectifs
Il s’agit de consolider d’une part les acquis du calcul de probabilités effectués dans les classes
de terminale et d’autre part effectuer une étude élémentaire des lois discrètes, continues ou à
densité.

*Les objectifs spécifiques


- Assurer la rigueur propre du raisonnement probabiliste des événements aléatoires.
- Utiliser les outils probabilistes pour la résolution de problèmes réels en société à travers
l’étude des lois.

*Les prérequis
Les mathématiques des classes de Lycées.

*Le contenu
Nous couvrirons les thèmes suivants :
- L’analyse combinatoire.
- Le calcul de probabilités.
- Les lois de probabilités discrètes, continues.
- Les densités de probabilités.

*Programme du cours
N° de Séance Contenu Lectures/travaux

Prise de contact et Présentation du Syllabus

Chapitre 1 : Combinatoires élémentaires Pages


Séance 1
1.1 Rappel des notions de la théorie des ensembles. (04h/20h)
1.2 Notions de combinatoires.
1.3 Quelques exemples de dénombrement.

Chapitre 2 : Notions de probabilités

2.1. Un exemple : Le poker.


2.2. La définition du modèle probabiliste. Pages
Séance 2
2.3. Propriété d’une distribution de probabilité.
2.4. Exemples. (08h/20h)
2.5. Evènements indépendants.
2.6. Probabilités conditionnelles.

Chapitre 3 : Suites d’expériences aléatoires


Pages
Séance 3 3.1. Le modèle.
3.2. La loi binomiale. (12h/20h)
3.3. La loi géométrique et la loi binomiale négative.
3.4. Théorèmes limites.
Chapitre 4 : Variables aléatoires

4.1. Définitions et exemples. Pages


Séance 4
4.2. Couples de variables aléatoires.
4.3. Espérance. (16h/20h)
4.4. Variance et Covariance.
4.5. Moment et transformée de Laplace.
Chapitre 5 : Variables indépendantes et
théorèmes limites.

5.1. Définition de l’indépendance des variables


Séance 5 aléatoires. (20h/ 20h)
5.2. Variables aléatoires indépendantes et ordre.
5.3. Somme de variables indépendantes.
5.4. Loi des grands nombres.
5.5. Moment et transformée de Laplace.

*Méthodes et stratégies pédagogiques


Pour atteindre les objectifs visés dans cette unité d’enseignement, avant le début de chaque
cours, nous procédons à un rappel des notions du cours précédent par les apprenants eux-
mêmes. Pendant le cours, nous utilisons aussi bien la méthode magistrale que les méthodes :
démonstrative, interrogative pour évaluer le suivi du cours par les apprenants. Après chaque
cours, nous demandons aux apprenants de préparer les notes correspondant aux prochains
cours. Un support du cours et le syllabus-ci sont remis aux étudiants en tout début du cours afin
de leur permettre de suivre et apprécier l’évolution du cours.
*Langue d’enseignement : Français.
*Modalités d’évaluation

Evaluation continue : 40%


Participation 05%
Interrogations 10%
Devoirs sur table 15%
Travaux à rendre 10%
Examen final en fin de semestre 60%
1ère session : à la fin du cours

Session de rattrapage (2ème session)

*Les références bibliographiques


[1] Sheldon M. Ross. Initiation aux probabilités. Presses polytechniques et universitaires
romandes, 2007.

[2] Rick Durrett. Elementary probability for applications. Cambridge university press, 2009.

[3] P. Barbe et M. Ledoux. Probabilit´e. Espaces 34, Belin, 1998.


Partie 2 : Probabilités

CHAPITRE I.

COMBINATOIRE ELEMENTAIRE

I.1. Rappel des notations de la théorie des ensemble

I.1.a. Ensembles et sous-ensembles

Un ensemble E est une collection d'objets appelés éléments. Si x est un élément de E


on dit que x appartient à E ou que E contient x, et on note x ∈ E. Si x n’est pas un
élément de E on note x ∉ E. L’ensemble E peut avoir un nombre fini ou infini
d’éléments. Dans le dernier cas E peut être dénombrable (par exemple E = Z,
l’ensemble des entiers) ou pas dénombrable (par exemple E = R, l’ensemble des
nombres réels).

L’ensemble vide, noté { }ou ∅, n’a aucun élément.

L’ensemble A est un sous-ensemble (on dit aussi partie) de l’ensemble de E si chaque


élément de A est un élément de E. On note : A ⊆ E.

Si A ⊆ B et B ⊆ A, A et B contiennent les mêmes éléments. On le note A = B.

I.1.b. Diagrammes (dits de Venn)

A
⋅x

Ε
x∈A⊆E

1
I.1.c. Cardinal d’un ensemble fini

Un ensemble E est fini s’il possède un nombre fini d’éléments. On appelle cardinal de
E, le nombre de ces éléments qu’on note card E (ou #E ou |E|).

Propriétés évidentes : 1) Si E = ∅ alors card E = 0.


2) Si A ⊆ E alors card A ≤ card E.

I.1.d. Opérations booléennes

Si A ⊆ E et si B ⊆ E, on définit la réunion de A et B comme l’ensemble des éléments


de E qui sont éléments de A ou B :

A ∪ B = {x∈E, x∈A ou x∈B }.

Evidemment la réunion de A et B contient au plus tous les éléments de A et tous de B


(si A et B n’ont aucun élément en commun), ce qui donne pour des ensembles
finis l’inégalité:

card(A ∪ B) ≤ card(A) + card(B).

On définit ainsi l’intersection de A et B comme l’ensemble des éléments de E qui sont


éléments de A et B :

A ∩ B = {x∈E, x∈A et x∈B }.

Le principe d’exclusion-inclusion nous fournit une relation pour le cardinal de A , B,


A ∩ B, et A ∪ B :

card(A ∪ B) + card(A ∩ B) = card(A) + card(B).

On définit le complémentaire de A comme l’ensemble des éléments de E qui ne sont


pas des éléments de A :

Ac = {x∈E, x∉A}.

Evidemment on a la relation

card(A) + card(Ac) = card(E).

La différence de A et B est définie comme l’ensemble des éléments de E qui sont


éléments de A et qui ne sont pas éléments de B :

A \ B = {x∈E, x∈A et x∉B } = A ∩ Bc.

La différence symétrique de A et B est définie par : A ∆ B = (A \ B) ∪ (B \ A).

2
I.1.e. Suites de sous-ensembles

Soient A1, A2,…, Ai, Ai+1,… des sous-ensembles d’un ensemble E. On peut généraliser
les notions de réunion et d’intersection en définissant :

• ∪A
i =1
i comme le sous-ensemble de E constitué des éléments de E qui

appartiennent à au moins un des sous-ensembles Ai



• ∩ Ai comme le sous-ensemble de E constitué des éléments de E qui
i =1
appartiennent à tous les sous-ensembles Ai.

Définition : Les (Ai)1≤i sont disjoints deux à deux si et seulement si (en abrégé ssi),
pour tout i ≠ j Ai ∩ Aj = ∅. Les (Ai)1≤i forment une partition de l’ensemble E s’ils sont

disjoints deux à deux et si : ∪ Ai = E . Dans ce cas pour tout élément x de E, il existe
i =1
un i et un seul i tel que x∈ Ai.

I.1.f. Ensemble produit cartésien

Soient E, F deux ensembles. On définit le produit cartésien de E et F par :


E × F = {(x,y), x∈E et y∈F}. C’est l’ensemble des couples (x,y) ou x∈E et y∈F.

Attention: Couple et paire sont des notions différentes et donc E × F ≠ F × E.

De même on définit le produit cartésien pour n ensembles (Ei)1≤i≤n:

E1 × …× En = {(x1,…, xn), x1∈E1,…, xn∈En}.

Si Ei = E pour tout i on écrit En pour le produit cartésien .

Le cardinal d’un produit cartésien : Si E et F sont des ensembles finis alors le produit
cartésien E × F est un ensemble fini et card(E × F) = card(E) card(F). Dans le cas
général, on a pour n ensembles finis (Ei)1≤i≤n:

card(E1 × …× En) = card(E1)⋅…⋅card(En).

×F
Tableau 1: Produit cartésien E×
F
E 1 2 3 4 5 6

a a1 a2 a3 a4 a5 a6

b b1 b2 b3 b4 b5 b6

c c1 c2 c3 c4 c5 c6

d d1 d2 d3 d4 d5 d6

3
I.1.g. Propriétés élémentaires du complémentaire et des opérations booléennes

1) (Ac)c = A
2) (A ∪ B)c = Ac ∩ Bc
3) (A ∩ B)c = Ac ∪ Bc
4) (∪i≥1 Ai)c = ∩ i≥1 Aic
5) (∩i≥1 Ai)c = ∪i≥1 Aic
6) A ∩ (B ∪ C) = (A ∩ B ) ∪ (A ∩ C)
7) A ∪ (B ∩ C) = (A ∪ B ) ∩ (A ∪ C)

I.2. Notions de combinatoire

I.2.a. La règle de multiplication

Question: Monsieur Hasard a 6 pantalons, 4 chemises, 2 vestes et 3 paires de chaussures. Combien a-


t-il de façons de s’habiller?

Réponse: Evidemment il y a 6⋅4⋅2⋅3 = 144 façons de s’habiller pour Monsieur Hasard.

Principe : Si l’on fait m expériences de suite et si (indépendamment des résultats des


expériences 1,2, …, k-1) l’expérience k a nk résultats possibles alors le nombre de
résultats possibles pour la suite de m expériences est n1⋅ n2⋅...⋅ nm.

Formulation mathématique : (→ cardinal du produit cartésien, Ch. I.1.f)

Soit Ek l’ensemble des résultats possibles de la kème expérience et card Ek = nk.


Alors E1 × …× Em = {(x1,…, xm), x1∈E1,…, xm∈Em} est l'ensemble des résultats
possibles pour la suite de m expériences.

Question : Combien y-a-t-il de façons de répondre à un questionnaire de 15 questions?


1) Si on répond par oui/non. (réponse: 215)
2) Si on répond par oui/non/je ne saisi pas. (réponse: 315)

Formulation mathématique :

Le nombre d’applications d’un ensemble à k éléments dans un ensemble à n éléments


est nk.

1 1 1
2 2 2
. . . oui
. . .
. . . non

k n 15

questions réponses
par question

4
I.2.b. Permutations et arrangements

Question: Combien y-a-t-il de façons de ranger 6 livres sur une étagère?

Réponse: Par le principe de multiplication on a 6⋅5⋅4⋅3⋅2⋅1 = 6!

Formulation mathématique :

Il y a n ! = n⋅(n-1)⋅…⋅2⋅1 bijections (permutations) d’un ensemble à n éléments dans


un ensemble à n éléments.

1 1
2 2
. .
. .
. .

n 1à1 n

livre position

Question : 12 personnes font parties d’un club de probabilistes. Combien y-a-t-il de façons de choisir :
1 président, 1 vice-président, 1 trésorier et 1 secrétaire ?

Réponse: 12⋅11⋅10⋅9= 11 880.

Considérons le cas général de n membres du club et k fonctions, 0 ≤ k ≤ n. La


réponse est n⋅(n-1)⋅...⋅(n-k+1) = n! / (n-k)!

Formulation mathématique :

Il y a An =
k n!
( n − k )!
injections d’un ensemble à k éléments dans un ensemble à n éléments.

1 1
2 2
. .
. .
. .

k n

fonctions membres

5
I.2.c. Combinaisons (sans répétition)

Question: Il y a toujours 12 membres dans le club de probabilistes. Combien y-a-t-il de façons de


constituer un comité de 4 membres ?

12⋅1110
⋅ ⋅9
Réponse: 4⋅3⋅2⋅1
= 495 (l'ordre n'est pas important).

Généralisation: n membres et un comité de k , 0 ≤ k ≤ n:

Ank n!  n
= = Cnk =  
k ! (n − k )! k !  k

Question: Combien y-a-t-il de mains de poker ?


5
Réponse: C52 .

Formulation mathématique :

Il y a Cn =
k n!
k !( n − k )!
sous-ensemble à k éléments dans un ensemble à n éléments
pour 0 ≤ k ≤ n.

Exemples:
Cn0 = 1
Cn1 = n
Cn2 = n ( n2−1)

n ( n +1)
Remarquons que Cn2 est différent du nombre des paires (= Cn2+1 = 2
) et du nombre
des couples (= n2).

Le problème suivant amène également aux coefficients binomiaux :

Question: Un code binaire est une suite (ou un vecteur) constituée des chiffres 0 et [Link] considère des
codes binaires de longueur 12. Combien y-a-t-il des codes contenants exactement 4 fois le chiffre 1?

Réponse: C412 = 495. Noter l’équivalence au problème de comité : On choisit 4 positions (membres)
sur 12.

Généralisation: code binaire de longueur n contenant k fois « 1 », 0 ≤ k ≤ n: Ckn.

6
I.2.d. Propriétés des coefficients binomiaux

Théorème : (Formule du binôme de Newton ):

n
(a + b ) = ∑ Cnk a n −k bk
n

k =0

Exemples
(a + b)0 = 1
(a + b)1 = C10 a + C11b = a + b
(a + b)2 = C20 a 2 b 0 + C21a 1b1 + C20 a 0b 2 = a 2 + 2ab + b 2
(a + b)3 = C30 a 3b 0 + C31a 2 b 1 + C32 a 1b 2 + C33 a 0b 2 = a 3 + 3a 2 b + 3ab 2 + b 3

En appliquant le théorème de Newton avec a = 1 et b = x ou b = -x on obtient les deux


identités suivantes:
n
(1 + x ) = ∑ Cnk x k
n

k =0
n
(1 − x ) = ∑ Cnk ( −1)k x k
n

k =0

Pour x=1 ceci nous donne

n
2n = ∑ Cnk
k =0
n
0 = ∑ ( −1) k Cnk
k =0

La première identité signifie que le nombre total des sous-ensembles d’un ensemble à
n éléments est 2n.

Exemple : Pour E ={a, b, c} les sous-ensembles possibles sont :

∅: C30 = 1 sous-ensemble de cardinal 0,


{a},{b},{c} C31 = 3 sous-ensembles de cardinal 1,
{a, b},{b, c},{a, c} C32 = 3 sous-ensembles de cardinal 2,
{a, b, c} C33 = 1 sous-ensemble de cardinal 3,

soit 23 = 8 sous-ensembles au total.

7
Théorème : (Triangle de Pascal ) Cnk = Cnk−−11 + Cnk−1 .

0 1 2 3 4 5 . k
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
.
n 1 . . . . . Cnk

Représentation symétrique:

1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. .
1 1

Théorème : (Formule de Vandermonde)

k

j =0
Cmj Cnk − j = Cnk+m

8
1.2.e. Coefficients multinomiaux

Question : Combien y a-t-il de façons de distribuer les 52 cartes d'un jeu de bridge en 4 mains ?
Réponse:
13
C52 ⋅ C39
13
⋅ C26
13
⋅ C13
13
= 13!13!13!13!
52!
= 53 644 737 765 488 792 839 237 440 000.

Formulation mathématique :
Il y a Cn 1 ⋅ Cn−2 n ⋅ … ⋅ Cn−k n −...−n =
n n n n!
n1 !n2 !...nk !
façons de partager un ensemble de
1 1 k −1
k
cardinal n en k sous-ensembles (disjoints deux à deux) de cardinaux ni où ∑ ni = n .
i =1

Théorème (formule du multinôme) :

(a1 + a2 + ... + ak ) n = ∑ n! n n n
a 1 a 2 ...ak k
n1 !n2 !...nk ! 1 2
( n1 ,...,nk ):
n1 +...+ nk = n
k
Les termes n!
n1 !n2 !...nk !
avec ∑ ni = n sont appelés coefficients multinomiaux.
i =1

I.2.f. Combinaisons (avec répétition)

Question: Combien y-a-t-il de façons de placer 4 boules indiscernables dans 3 tiroirs?

Réponse: On va réduire ce problème au problème du code binaire présenté au Ch.1.2.d. On désigne les
boules par des « 0 » et les tiroirs par des « 1 ». On place le premier « 1 » à la première position. Les
zéros entre ce premier « 1 » et le deuxième « 1 » correspondent aux boules dans le premier tiroir, les
zéros entre le deuxième « 1 » et le troisième « 1 » correspondent aux boules dans le deuxième tiroir et
les zéros situés à droite du troisième « 1 » correspondent aux boules dans le troisième tiroir. Par
exemple :

1000101 signifie qu’il y a trois boules dans le premier tiroir, une dans le deuxième tiroir et aucune dans
le troisième tiroir. 1110000 signifie que les 4 boules sont dans le troisième tiroir.

Puisque on a toujours un chiffre « 1 » à la première position on cherche le nombre des codes binaires de
longueur 4+3-1= 6 qui contient 3-1=2 chiffres « 1 ». Donc il y a C26 = 15 façons de placer 4 boules
indiscernables dans 3 tiroirs.

Généralisation: k boules distribuées dans n tiroirs : Cnk+ k −1 = Cnn+−k1−1

Question: Combien y-a-t-il de vecteurs (x1, x2, x3) distincts à composantes entières et non négatives
satisfaisant x1 + x2 + x3 = 10?

Réponse: On va réduire ce problème au problème de tiroirs ci-dessus. Les composantes correspondent


aux tiroirs et la somme de composantes correspond au nombre de boules. Donc il y a C212 = 66 tels
vecteurs.

Généralisation: vecteurs (x1, x2,…, xn) à composantes entières et non négatives


satisfaisant x1 + x2 + … + xn = k : Cnk+ k −1 = Cnn+−k1−1

9
I.3. Quelques exemples de dénombrement

I.3.a. Bridge
Donner le nombre total de mains au bridge.
13
Pour avoir une main, on doit choisir 13 cartes parmi 52 : C52 = [Link]
possibilités.

Combien de mains sans honneurs, c’est-à-dire sans cartes plus grandes que le 10 (10,
Valet, Dame, Roi, As), y a-t-il au bridge ?
13
Il faut cette fois choisir les 13 cartes parmi 32 : C32 = 347.373.600 possibilités.

1.3.b. Poker
Une main de poker est la donnée de 5 cartes choisies au hasard dans un jeu de 52
cartes. On associe à chaque main une valeur selon les combinaisons particulières
qu'elle présente. Les différentes combinaisons valables sont décrites dans le tableau ci-
dessous, avec la valeur qui leur est associée.

Valeur Main Détails Exemple Nombre


8 quinte flush 5 cartes qui se suivent de la 7♠,8♠,9♠,10♠,V♠ 36
même couleur
7 carré 4 cartes de même hauteur 9♣,9♦,9♥,9♠,As♠ 624

6 full 3 cartes de même hauteur et 8♣,8♦,8♥,As♥,As♠ 3 744


une paire
5 couleur 5 cartes de même couleur et As♣,D♣,9♣,8♣,7♣ 5 112
qui se ne suivent pas
4 suite 5 cartes qui se suivent et ne 10♣,9♣,8♣,7♣,6♥ 9 180
sont pas de même couleur
3 brelan 3 cartes de même hauteur 7♣,9♦,9♥,9♠,As♠ 54 912

2 2 paires 2 fois 2 cartes de même 9♣,9♦,V♥,V♠,As♠ 123 552


hauteur
1 1 paire 2 cartes de même hauteur R♣,R♦,9♥,D♠,V♠ 1 098 240

0 rien de tout 9♣,8♦,5♥,V♠,As♠ 1 303 560


cela
Total 2 598 960

10
Dans la suite, on caractérise une carte par sa couleur (Pique, Cœur, Carreau, Trèfle) et
sa hauteur (2, 3, 4, ... Valet, Dame, Roi, As).

Le nombre total de mains est le nombre de choix de 5 cartes parmi les 52 du jeu.
Il y a donc C525 =2.598.960 mains.

V=8 : Pour obtenir une quinte flush, il faut choisir une couleur (4 choix) puis une
hauteur, par exemple la plus haute de la suite (9 choix).
V8 = 4*9 = 36 quintes flush.

V=7 : Pour obtenir un carré, il faut choisir une hauteur (13 choix) puis la dernière carte
1
de la main ( C48 = 48 choix).
V7 = 48*13 = 624 carrés.

V=6 : Pour obtenir un full, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix) puis la hauteur de la paire, qui ne peut pas être la même (12
choix) et ses couleurs ( C42 = 6 choix).
V6 = 13*4*12*6=3.744 full.

V=5 : Pour obtenir une couleur, il faut choisir la couleur (4 choix) puis les hauteurs
5
( C13 choix). Mais en procédant ainsi, on compte aussi les quintes flush, qu'il faut donc
soustraire.
5
V5 = 4* C13 - V8=5.112 couleurs.

V=4 : Pour obtenir une suite, il faut choisir la hauteur de la carte la plus haute (9
choix) puis la couleur de chaque carte(45 choix). De nouveau, il faut en soustraire le
nombre de quintes flush.
V4 = 9*45-V8 = 9.180 suites.

V=3 : Pour obtenir un brelan, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix), puis les hauteurs des 2 cartes restantes, forcément différentes
2
pour ne pas avoir un full ( C12 = 66 choix) et leurs couleurs (42 choix).
2
V3 = 13*4* C12 *42=54.912 brelans.

Alternative 1 : On peut aussi choisir la hauteur du brelan (13 choix) et ses couleurs
( C43 = 4 choix), puis 2 cartes parmi les 48 cartes restantes (la 49ème donne un carré)
2
donc C48 choix. Il faut alors en soustraire le nombre de full :
2
V3 = 13*4* C48 -3744= 54 912.

11
Alternative 2 : On peut encore choisir deux cartes parmi les 49 restantes ; dans ce cas,
il faut soustraire quatre fois le nombre de carrés :
2
V3 = 13*4* C49 - 3744 - 4*624= 54 912.

2
V=2 : Pour obtenir deux paires, il faut choisir la hauteur de chaque paire ( C13 = 78
choix), la couleur des 4 cartes des paires ( C42 * C42 = 36) puis la hauteur et la couleur
de la dernière carte (11*4 = 44 choix).
V2 = 6*13*6*6*11*4=123.552 doubles paires.

V=1 : Pour obtenir une paire, il faut choisir la hauteur (13 choix) et les couleurs
( C42 choix) de la paire, puis 3 hauteurs différentes ( C12
2
choix) et les couleurs des 3
3
cartes restantes (4 choix).
2
V1= 13*6* C13 *43 = 1.098.240 paires.

V=0 : Le nombre de mains sans aucune combinaison valable est la différence entre le
nombre total de mains et le nombre de celles qui ont une valeur plus grande que 1.
V0=2.598.960 - (V8 + V7 + V6 + V5 + V4 + V3 + V2 + V1) = 1.303.560.

Alternative1 : Pour n’avoir ni carré, ni full, ni brelan, ni deux ni une paire on a


5
52*48*44*40*36/5! = 45* C13 choix. Il faut ensuite en soustraire le nombre des quintes
flushs, des couleurs et des suites.
5
V0= 45* C13 - 36 - 5112 – 9180 = 1.303.560.

5
Alternative2 : Il y a ( C13 - 9) choix de valeurs qui ne forment pas une suite de valeurs
consécutives. Pour ne pas avoir des cartes de même couleur on a 45- 4 possibilités. Par
conséquent on a :
5
V0=( C13 - 9)*(45-4)= 1.303.560.

12
CHAPITRE II

NOTIONS DE PROBABILITES

II.1. Un exemple : le poker

Distribuer une main de poker (5 cartes sur 52) revient à tirer au hasard 5 cartes parmi 52. On
appelle expérience aléatoire une telle expérience dont l’issue est soumise au hasard. Une
main ainsi effectivement tirée au hasard est une réalisation de l’expérience, appelée une
épreuve ou expérience élémentaire.

Pour permettre l’analyse des mains distribuées on doit d’abord identifier l’ensemble des
mains possibles.

L’ensemble de tous les résultats possibles d’une expérience aléatoire est appelé ensemble
fondamental de l’expérience aléatoire ou univers des possibles, ou espace des épreuves,
(anglais : sample space), dénoté par Ω ou E ou S. Pour le poker c’est l’ensemble de toutes les
mains possibles. Il s’agit bien entendu ici de l’ensemble de tous les sous-ensembles à 5
éléments d’un ensemble à 52 éléments. Le nombre d’épreuves possibles est alors donné par le
coefficient binomial C552 (voir Ch. I), i.e.

card E = C552 = 2 598 960.

Un événement aléatoire A est représenté par un sous-ensemble, également noté A, de


l’ensemble fondamental. Par exemple, l’événement aléatoire A = « la main est un brelan » est
décrit par l’ensemble de toutes les mains contenant trois cartes de même hauteur et deux
autres cartes de hauteurs différentes. Les opérations logiques sur les événements vont être des
opérations (booléennes) sur les parties d’un ensemble. Par exemple, l’événement aléatoire
Ac = « la main n’est pas un brelan » va être décrit par le complémentaire de A dans
l’ensemble fondamental. Ceci indique pourquoi les notions de théorie des ensembles sont
importantes.

Pour attribuer une probabilité à l’événement A = « la main est un brelan » on fait l’hypothèse
que chaque main à la même probabilité ! Ainsi pour chaque événement A, la probabilité de A
doit être naturellement donnée par la somme de probabilités des mains qui constituent A, ce
qui s’écrit :

Probabilité (A) = card A/card E = nombre de cas favorable/ nombre de cas possibles

Il y a 54912 mains qui sont un brelan. On peut ainsi calculer la probabilité d’avoir un brelan

Probabilité (A = « la main est un brelan ») = 54 912/2 598 960 ≅ 0.0211.


Dans cette approche axiomatique on a attribué a priori une probabilité pour chaque main de
poker. Dans des expériences réelles avec des cartes ou des simulations numériques on observe
que la fréquence d’apparition de A dans une longue série d’expérience converge vers cette
probabilité.

Plus précisément, on répète l’expérience aléatoire (indépendamment) N fois. La fréquence


d’apparition d’un événement A est définie par :

νN(A) = nombre de fois où A est réalisé/nombre total d’expériences

Ici, on distribue, par exemple, 1 million de fois les cartes et on compte la fréquence des
brelans. Dans la loi des grands nombres nous démontrerons que

limN→∞νN(A) = Probabilité (A)

pour la probabilité définie ci-dessus. Ceci pourrait constituer une définition de « type
fréquentiste » de la probabilité de A.

II.2. La définition du modèle probabiliste

II.2.a. L’ensemble fondamental

Dans une expérience aléatoire, on commence par recenser l’ensemble de tous les résultats
possibles de l’expérience. Cet ensemble non vide noté E (ou quelquefois Ω ou S) est
l’ensemble fondamental ou l’univers des possibles ; ses éléments ω sont appelés épreuves.
L’ensemble fondamental E peut-être fini, dénombrable ou infini non-dénombrable.

Exemples :

1. On jette un dé : E = {1,2,3,4,5,6}, card E = 6.


2. On jette une pièce : E = {P, F}, card E = 2.
3. On jette 3 dés : E = {(k1, k2, k3) : kj ∈ {1,2,3,4,5,6} pour j = 1,2,3} =
{1,2,3,4,5,6}3, card E = 63 = 216.
4. On jette 4 pièces : E = {P, F}4 = 24 = 16.
5. On tire 5 cartes parmi 52 (Poker) : E = ensemble de toutes les parties à 5
éléments d’un ensemble à 52 éléments = ensemble de toutes les mains
possibles, card E = C552 = 2 598 960.
6. On tire k boules (sans remise) dans une urne qui en contient n ≥ k boules
numérotées 1 à n. E = ensemble de toutes les parties à k éléments d’un
ensemble à n éléments, card E = Ckn .
7. On tire k boules (avec remise) dans une urne qui en contient n boules
numérotées 1 à n. E = ensemble de toutes les tuples à k éléments d’un ensemble
à n éléments, card E = nk.
II.2.b. La notion d’événement

Un événement aléatoire A est représenté par un sous-ensemble, également noté A, de


l’ensemble fondamental. Un ω ∈ A est un résultat possible. Si ω est une épreuve et ω ∈ A on
dit que l’ événement se réalise dans l’épreuve ω. L’ensemble vide ∅ est appelé événement
impossible et l’ensemble fondamental E est un événement appelé événement certain.

Exemples :

1. On jette un dé. L’ événement «Le résultat est pair » est représenté par
l’ensemble A = {2,4,6}
2. Poker: L’ événement «La main est un full» est représenté par l’ensemble A
={{c1,c2,c3,c4,c5} ∈ E dont la main {c1,c2,c3,c4,c5} est un full}

On utilise parfois simultanément le langage de la théorie des ensembles et celui des


probabilités. Le dictionnaire suivant donne la correspondance entre les notions fréquemment
utilisées.

Théorie des ensembles Probabilités


A sous-ensemble A événement
A = ∅ ensemble vide A événement impossible
A = E ensemble fondamental E événement certain
A⊂B A entraîne B
A ∩ B intersection A et B, conjonction de A et B
A ∪ B réunion A ou B, au moins un de A et B
Ac complémentaire de A Contraire de A
A \ B différence A et contraire de B
A ∆ B différence symétrique Exactement un événement de A ou B
A ∩ B = ∅ ensembles disjoints A et B sont des événements incompatibles
(Ai)i∈I partition de E (Ai)i∈I système complet d’événement
II.2.c. La notion de probabilité

Cas discret (fini ou dénombrable)

Si E est fini, de cardinal N , i.e. E = {ω1, ω2,.., ωN}, toute probabilité sur E est déterminée par
la donnée de N nombres réels pi compris entre 0 et 1 et de somme 1 : p1 + p2 +…+pN = 1.
En effet, si on pose pi = probabilité que ωi soit réalisé, il est clair que ces deux propriétés sont
satisfaites et que l’on peut calculer la probabilité de tout événement A par la formule très
simple

P( A) = ∑
i:ωi ∈A
pi

On vérifie sur cette formule les propriétés fondamentales suivantes de P :

1. P(A) ∈ [0,1]
2. P(E) = 1
3. Si A et B sont des événements incompatibles, alors P(A ∪ B) = P(A) + P(B).

Ces trois propriétés vont servir d’axiomes dans le cas général où E n’est pas fini.

L’exemple fondateur de la théorie est le cas équiprobable (pour E fini) : tous les résultats
possibles (i.e. tous les ωi ) ont la même probabilité pi = 1/N = 1/card E. C’est le cas d’une
distribution uniforme discrète. Donc dans ce cas équiprobable la probabilité d’un événement
A est donnée par :

P(A) = card A/card E = nombre de cas favorable/ nombre de cas possible

Exemple 1 : On jette un dé honnête. Donc l’ensemble fondamental est E = {1,2,3,4,5,6} et


P({i}) = 1/6 pour i = 1,2,3,4,5,6. L’ événement «Le résultat est pair », donné par A = {2,4,6},
a pour probabilité P(A) = ½.

Exemple 2: (Galilée, 1564-1642)


On compte la somme des valeurs de trois dés jetés simultanément. Il y a six configurations
différentes qui permettent d'obtenir 9 ou 10:
• pour 9 : (6,2,1), (5,3,1), (5,2,2), (4,4,1), (4,3,2) et (3,3,3),
• pour 10 : (6,3,1), (6,2,2), (5,4,1), (5,3,2), (4,4,2) et (4,3,3).

Soit S la somme obtenue, peut-on en déduire que P(S=9) = P(S=10) ?

On ne peut pas en déduire que P(S=9)=P(S=10) car les configurations ne sont pas
équiprobables. Il faut tenir compte de l'ordre et donc des permutations possibles de chaque
configuration. Ainsi (3,3,3) ne "compte qu'une fois" alors que (5,2,2) "compte triple" et
(5,3,1) "compte six fois". On obtient ainsi: P(S=9) = 25/216 et P(S=10) = 27/216
II.3. Propriétés d’une distribution de probabilité

Dans la suite du cours nous allons adopter une approche axiomatique qui consiste à déduire
des axiomes précédents les propriétés des distributions de probabilités.

II.3.a. Propriétés élémentaires

Donnons une liste de propriétés élémentaires d’une distribution de probabilité.

Théorème : Soient (E, P) un espace probabilisé et A, B, (Ai) des événements quelconques. P


satisfait les propriétés suivantes :
1. 0 ≤ P(A) ≤ 1
2. P(E) = 1

3. P(∅) = 0

4. Si A et B sont incompatibles, i.e. A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B)


5. P(Ac) = 1 - P(A)

6. Si A entraîne B, i.e. A ⊆ B, alors P(A) ≤ P(B) et P(B \ A) = P(B) - P(A)

7. P(A ∪ B) = P(A) + P(B) - P(A ∩ B), et par conséquent P(A ∪ B) ≤ P(A) + P(B)
∞ ∞
8. Soit (Ai)i∈ IN une suite d’événements, alors P(∪ Ai ) ≤ ∑ P( Ai ) (inégalité de Boole)
i =1 i =1


9. Soit (Ai)i∈ IN une suite croissante, i.e. Ai ⊆ Ai+1, alors limi→∞ P( Ai ) = P(∪ Ai ) .
i =1


10. Soit (Ai)i∈ IN , une suite décroissante i.e. Ai ⊇ Ai+1, alors limi→∞ P( Ai ) = P(∩ Ai ) .
i =1
II.3.b. Probabilités de réunions d’ensembles : Règle d’inclusion-exclusion

La règle d’inclusion-exclusion s’applique à une suite (Ai) 1 ≤ i ≤ N d’événements pour lesquels


on connaît a priori les probabilités des conjonctions d’événements. On peut ainsi calculer la
probabilité de A = A1 ∪ A2 ∪ ... ∪ AN ,i.e. la probabilité que « au moins l’un des Ai est
réalisé » .

Théorème (Formule d’inclusion-exclusion) :


Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule
d’inclusion-exclusion s’écrit :

1. dans le cas de deux événements

P(A1 ∪ A2) = P(A1) + P(A2) - P(A1 ∩ A2)

2. dans le cas de trois événements

P(A1 ∪ A2 ∪ A3) = P(A1) + P(A2) + P(A3)


- P(A1 ∩ A2) - P(A1 ∩ A3) - P(A2 ∩ A3)
+ P(A1 ∩ A2 ∩ A3)

3. dans le cas général

N  N
P  ∪ Ai  = ∑ P ( Ai ) − ∑ P ( Ai1 ∩ Ai2 ) + ∑ P ( Ai1 ∩ Ai2 ∩ Ai3 ) + ...
 i =1  i =1 i1 <i2 i1 <i2 <i3

+ ( −1) ∑ P ( Ai1 ∩ Ai2 ∩ ... ∩ Aik ) + ...


k +1

i1 <i2 <...<ik

+ ( −1) P ( Ai1 ∩ Ai2 ∩ ... ∩ Ain )


N +1

Remarque : Dans la 1ere somme il y a N termes, dans la 2ème il y a N⋅(N-1)/2 = CN2 termes. En
général il y a CNk termes dans la kème somme.
Exemples :

1. On jette 3 dés honnêtes. Quelle est la probabilité d’avoir au moins un 6?

La formule d’inclusion-exclusion permet de répondre à cette question mais n’est pas la


méthode la plus rapide.
Soit A1 l’événement que le premier dé est un six, A2 l’événement que le deuxième dé
est un six et A3 l’événement que le troisième dé est un six. Alors A = A1 ∪ A2 ∪ A3 est
l’événement qu’au moins l’un des dés est un six. Nous appliquons la formule
d’inclusion-exclusion. D’abord on calcule les probabilités des conjonctions
d’événements. On trouve
P(Ai) = 1/6 pour i = 1,2,3

P(Ai ∩ Aj) = 1/36 = P(Ai) ⋅P(Aj) si i ≠ j

P(A1 ∩ A2 ∩ A3) = 1/216 = P(A1) ⋅P(A2) ⋅P(A3).


Alors P(A) = 91/216.

En fait, la méthode la plus rapide pour répondre à la question posée est de passer au
complémentaire : L’événement de n’avoir aucun six lorsqu’on jette trois dés est donné
par Ac = A1c ∩ A2c ∩ A3c (par la formule de de Morgan) et P(Ac) = P(A1c) ⋅ P(A2c) ⋅
P(A3c). Avec P(Aic) = 5/6 on obtient P(Ac) = 125/216 donc P(A) = 91/216.

2. Quelle est la probabilité pour qu’une main de bridge ait au moins une coupe, i.e.
une couleur absente ?

Dans cet exemple la règle inclusion-exclusion est la bonne méthode pour répondre à la
question posée.

Soit Ai l'événement "la couleur i est absente"


où i prend des valeurs dans {♣, ♠, ♥, ♦}. L'événement "au moins une couleur est
absente" est donné par la réunion des toutes les Ai.

On applique le principe d'inclusion-exclusion à la réunion A de quatre événements Ai.


Pour chaque i il y a C1339 possibilités de choisir une main sans la couleur i. Quand il y
a C1352 mains possibles la probabilité de chaque Ai est

P(Ai) = C1339/C1352.

Pour chaque (i,j), i≠j il y a C1326 possibilités de choisir une main sans les couleurs i et
j. La probabilité de chaque intersection Ai ∩ Aj est alors

P(Ai ∩ Aj) = C1326/C1352.


Pour chaque (i,j,k), i≠j, i≠k et j≠k, il y a C1313 possibilités de choisir une main sans les
couleurs i, j et k (i.e il y a seulement la quatrième couleur). La probabilité de chaque
intersection Ai ∩ Aj ∩ Ak est alors
P(Ai ∩ Aj ∩ Ak) = C1313/C1352.
L'intersection de 4 événements Ai a probabilité 0 (chaque main a toujours au moins
une couleur). En appliquant la formule d’inclusion-exclusion pour N = 4 on trouve

P(A1 ∪ A2 ∪ A3 ∪ A4) = 4·P(A1) - 6·P(A1 ∩ A2) + 4·P(A1 ∩ A2 ∩ A3).

La probabilité cherchée est donc 1 621 364 909/31 750 677 980= 0.05106552087.
II.4. Evénements indépendants

II.4.a. Indépendance de deux événements

Nous allons introduire la notion d’indépendance. Commençons par deux exemples où


l’intuition de la notion d’indépendance est évidente.

Exemples :

1. On jette 2 pièces honnêtes. Soient A = « la première donne pile » et B = « la


seconde donne pile ». A et B sont indépendants.

2. On tire 2 cartes. Soient A = « la première donne pique » et B = « la seconde donne


pique ». Si on tire sans remise A et B ne sont pas indépendants, si on tire avec
remise A et B sont indépendants.

Passons à la définition formelle.

Définition : Soient (E, P) un espace probabilisé et A, B des événements.


A et B sont indépendants si et seulement si :

P(A ∩ B) = P(A)P(B)

Il est très facile de vérifier que cette définition est compatible avec l’intuition donnée dans les
exemples précédents. Passons des exemples moins intuitifs.

Exemple 3 : Une famille a n enfants où n ≥ 2. Nous étudions les événements A = « la famille a


des enfants des deux sexes » et B = « la famille a au plus une fille ». A et B sont deux
événements indépendants si et seulement si n = 3! En effet, en faisant l’hypothèse
d’équiprobabilité, on trouve P(A ∩ B) = n/2n, P(A) = 1 - 2/2n et P(B) = (n + 1)/2n.

Exemple 4 : On jette deux dés. Considérons les événements A = « la somme est 7 »,


B = « le premier dé donne 4 » et C = « la différence est paire ». Ici l’ensemble fondamental
est bien entendu E = {(k1, k2) : kj ∈ {1,2,3,4,5,6} pour j = 1,2} = {1,2,3,4,5,6}2. Les
événements A, B et C sont les sous-ensembles de E donnés par
A = {(1,6) , (2,5) , (3,4) , (4,3) , (5,2) , (6,1)}, B = {(4,6) , (4,5) , (4,4) , (4,3) , (4,2) , (4,1)} et
C = {(1,1) , (1,3) , (1,5) , (2,2) , (2,4) , (2,6) ,…, (6,2) , (6,4), (6,6) }. Ainsi card(A) = 6,
card(B) = 6 et card(C) = 18. En faisant l’hypothèse d’équiprobabilité, on calcule aisément
P(A) = 1/6, P(B) = 1/6, P(C) = 1/2, P(A ∩ B) = 1/36, P(A ∩ C) = 0 et P(B ∩ C) = 1/12. A et
B sont indépendants, A et C sont dépendants et B et C sont indépendants. On voit que la
relation d’indépendance n’est pas transitive (A et B sont indépendants, B et C sont
indépendants, mais A et C ne sont pas indépendants).
II.4.b. Indépendance de plusieurs événements

On prolonge la notion d’indépendance de deux événements au cas des suites d’événements.


Soit (Ai) 1 ≤ i ≤ N une suite d’événements.

Définition 1: On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants deux à deux si et
seulement si, pour tout (i, j) et i ≠ j, Ai et Aj sont indépendants.

L’exemple suivant montre que cette définition est trop faible pour prolonger la notion
d’indépendance aux suites d’événements.

Exemple 1: Considérons les anniversaires des trois personnes et les événements A = « 1 et 2


ont le même anniversaire », B = « 1 et 3 ont le même anniversaire » et C = « 2 et 3 ont le
même anniversaire ». Evidemment P(A) = P(B) = P(C) = 1/365 et P(A ∩ B) = P(A ∩ C) =
P(B ∩ C) = 1/365 ⋅ 1/365. Donc A, B, et C sont indépendants deux à deux. Par contre, si deux
événements sont réalisés, par exemple A et B, le troisième événement C est sûrement réalisé,
car les trois personnes ont toutes le même anniversaire. Par conséquent C n’est pas
indépendant de la conjonction de A et B, i.e.

P((A ∩ B) ∩ C) = 1/365 ⋅ 1/365 ≠ P(A ∩ B) ⋅P(C) = P(A) ⋅ P(B) ⋅P(C) = 1/365 ⋅ 1/365 ⋅ 1/365.

Pour prolonger notre notion d’indépendance aux cas de trois événements on devra imposer
une condition supplémentaire non comprise dans la définition de l’indépendance deux à
deux, à savoir :
P(A1 ∩ A2 ∩ A3) = P(A1) ⋅ P(A2) ⋅ P(A3).

Pour une suite de N événements on a la définition suivante.

Définition 2 : On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants (ou mutuellement
indépendants) si et seulement si pour toute sous-suite d’événements distincts, on a :

P( Ai1 ∩ Ai2 ∩ ... ∩ Aik ) = P( Ai1 ) ⋅ P( Ai2 ) ⋅ ... ⋅ P( Aik )

On a déjà vu que N (N > 2) événements peuvent être indépendants deux à deux sans être
indépendants mutuellement. Si N événements sont mutuellement indépendants ils sont
indépendants deux à deux.

Remarque : Le nombre de conditions imposées dans la définition 2 est égal à :

CN2 + CN3 +…+ CNN = 2N – CN1 – CN0 = 2N – N – 1.


Proposition : Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants.

1. Pour chaque i , 1 ≤ i ≤ N , posons Bi = Ai ou Bi = Aic. Alors (Bi) 1 ≤ i ≤ N est une suite


d’événements mutuellement indépendants.
2. Toute sous-famille de (Ai) 1 ≤ i ≤ N est constituée des événements mutuellement
indépendants.

II.4.c. Probabilité de réunions d’événements indépendants

Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants. Il y a une formule


simple pour calculer la probabilité de A1 ∪ A2 ∪ ... ∪ AN .

Proposition : Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants. Alors

P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – [1 - P(A1)]⋅ [1 - P(A2)]⋅…⋅ [1 - P(AN)]

Preuve: On passe au complémentaire de A1 ∪ A2 ∪ ... ∪ AN et on applique la règle de de


Morgan ( ∪ Ai)c = ∩ Aic. Par la proposition du Ch. II.4.b. les événements Aic sont
mutuellement indépendants. Donc

P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – P((A1 ∪ A2 ∪ ... ∪ AN)c)

= 1 – P(A1c ∩ A2c ∩ ... ∩ ANc)

= 1 - P(A1c) ⋅P(A2c) ⋅…⋅P(ANc).

Exemple 1: On suppose que une personne est soumise N fois à un risque p d’accident où
0 < p < 1. Quelle est la probabilité d’avoir au moins un accident ? Pour répondre à cette
question on pose Ai = « la ième expérience provoque un accident » et on suppose que les Ai
sont mutuellement indépendants. Avec p = P(Ai) on a

P(« au moins un accident ») = P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – (1 – p)N.

Si N →∞ et p est fixe cette probabilité tend vers 1. Si N →∞ et p → 0 où p est de l’ordre 1/N ,


i.e. p = λ/N pour un λ fixe, alors P(« au moins un accident ») → 1 – exp(-λ). Donc la
probabilité qu’il n’arrive aucun accident est environ P(« pas d’accident ») ∼ exp(-λ) si N est
très grand.
II.5. Probabilités conditionnelles

Dans de nombreuses applications les probabilités conditionnelles ou le conditionnement


constituent un outil précieux pour calculer des probabilités inconnues à partir de probabilités
données.

II.5.a. Définition

Définition : Soient (E, P) un espace probabilisé et A, B des événements quelconques tel que
P(B) > 0. On note

P(A|B) = P(A ∩ B) / P(B)

la probabilité de A conditionnellement à B ou la probabilité de A sachant B.

Les formules suivantes sont souvent très utiles pour calculer des probabilités d’intersections :

P(A ∩ B) = P(A|B) ⋅P(B)

P(A ∩ B) = P(B|A) ⋅P(A)

Cette technique est appelée conditionnement.

La généralisation de ces formules au cas des plusieurs événements est considérée dans le Ch.
II.5.b. (théorème de multiplication ou conditionnement multiple)

Des probabilités conditionnelles ont des propriétés suivantes :

1. Pour tout événement B fixe tel que P(B) > 0 la fonction d’ensembles A → P(A|B) satisfait
les axiomes A1 – A3, i.e. P(A|B) est une distribution de probabilité sur E.

2. Si A et B sont des événements indépendants et P(B) > 0, alors P(A|B) = P(A).

Exemple 1: On jette deux dés. Considérons les événements A = « la somme est 5 »,


B = « le premier dé donne 3 » et C = « le premier dé donne au moins 3 ». Calculer P(A|B) et
P(A|C). On a P(A) = 4/36 = 1/9, P(B) = 1/6, P(A ∩ B) = P({3,2}) = 1/36, donc P(A|B) = 1/6.
La probabilité conditionnelle de A sachant que B est réalisé a augmenté : P(A|B) > P(A). Avec
P(A) = 4/36 = 1/9, P(C) = 4/6 = 2/3, P(A ∩ C) = P({3,2},{4,1}) = 2/36 = 1/18 on trouve
P(A|C) = 1/12. La probabilité conditionnelle de A sachant que C est réalisé a diminué :
P(A|C) < P(A).
II.5.b. Conditionnement multiple

Nous avons déjà vu que la probabilité de la conjonction des deux événements peut être
calculée par le conditionnement sur un des événements. L’itération de cette technique est
appelée conditionnement multiple.

Théorème (théorème ou conditionnement multiple) :

Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule du
conditionnement multiple s’écrit:

1. dans le cas de deux événements

P(A1 ∩ A2) = P(A1) ⋅P(A2|A1)

2. dans le cas de trois événements

P(A1 ∩ A2 ∩ A3) = P(A1) ⋅P(A2|A1) ⋅P(A3| A1 ∩ A2)

3. dans le cas général

P(A1 ∩ A2 ∩ ... ∩ AN) = P(A1) ⋅P(A2|A1) ⋅ … ⋅P(AN| A1 ∩ A2∩ ... ∩ AN-1)

si tous les événements A1 ∩ ... ∩ Ak ,1 ≤ k ≤ N – 1, sont de probabilité non nulle.

Exemple 1: Considérons une urne contenant quatre boules blanches et six boules rouges.
Quelle est la probabilité de la suite « blanc, blanc, rouge » si on tire les boules sans remise ?
Pour répondre à cette question nous désignons les événements B1 = « la première boule est
blanche », B2 = « la deuxième boule est blanche » et B3 = « la troisième boule est rouge ».
Alors

P(B1 ∩ B2 ∩ B3) = P(B1) ⋅P(B2|B1) ⋅P(B3| B1 ∩ B2) = 4/10·3/9·6/8 = 1/10.

Remarquons qu’il faut conditionner dans le bon ordre. Par exemple, la formule
P(B1 ∩ B2 ∩ B3) = P(B3) ⋅P(B2|B3) ⋅P(B1| B2 ∩ B3) est juste mais inutilisable.
II.5.c. Formule des probabilités totales

Soient (E, P) un espace probabilisé et A, B des événements quelconques. Les événements B et


Bc forment un système complet d’événements et

P(A) = P(A ∩ B) + P(A ∩ Bc)

Si B et Bc sont de probabilité non nulle on peut utiliser des probabilités conditionnelles pour
calculer les probabilités d’intersections. Donc

P(A) = P(A|B) ⋅P(B) + P(A|Bc) ⋅P(Bc).

Cette formule se généralise au cas d’un système complet d’événement

Théorème (formule des probabilités totales) :

Soient (E, P) un espace probabilisé et (Bi) 1 ≤ i ≤ N un système complet d’événements, tous de


probabilité non nulle. Alors, pour tout événement A, on a:

P(A) = P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) + … + P(A|BN) ⋅P(BN).

Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité d’obtenir trois piles?

Pour résoudre ce problème on conditionne par la pièce choisie, i.e. on applique la formule des
probabilités totales pour les événements A = « on tire trois piles », B1 = « la pièce est
honnête» et B2 = « la pièce a deux piles». On a

P(A) = P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) = 1/8·1/2 + 1·1/2 = 9/16.


II.5.d. Formule de Bayes

On continue la discussion de l’exemple précédent. Maintenant on pose la question inverse.

Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité que la pièce choisie est la
pièce honnête si on a tiré trois piles ?

Nous cherchons la probabilité P(B1|A). En utilisant la définition des probabilités


conditionnelles deux fois on obtient

P(B1|A) = P(A ∩ B1) / P(A) = P(A|B1) ⋅P(B1) / P(A)


= P(A|B1) ⋅P(B1) / [P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2)].

Donc P(B1|A) = 1/8·1/2 : 9/16 = 1/9.

Théorème (formule de Bayes) :

Soient (E, P) un espace probabilisé et (Bi) 1 ≤ i ≤ N un système complet d’événements, tous de


probabilité non nulle. Alors, pour tout événement A de probabilité non nulle, on a, pour tout k,
1≤k≤N:

P(Bk|A) = P(A|Bk) ⋅P(Bk) / [P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) + … + P(A|BN) ⋅P(BN)].

II.5.e. Exemples

1. Exemple élémentaire

Une famille a deux enfants.


a. On sait que l’aîné est un garçon. Quelle est la probabilité que le second soit un garçon ?

Soit A1 l’événement que l’aîné est un garçon, A2 l’événement que le second est un garçon.
Sous des hypothèses convenables A1 et A2 sont indépendants. Alors P(A2) = ½.

b. On sait qu’un des enfants est un garçon. Quelle est la probabilité que l’autre soit un
garçon ?

On sait que A1 ∪ A2 , i.e. A1 ou A2, est réalisé. On veut donc calculer la probabilité de A1 ∩ A2
sachant A1 ∪ A2 . Alors

P(A1 ∩ A2 | A1 ∪ A2) = P(A1 ∩ A2) : P(A1 ∪ A2) = ¼ : ¾ = 1/3.


2. Problème de tests

Pour dépister une maladie, on applique un test. Si le patient est effectivement atteint, le test
donne un résultat positif dans 96% des cas. Mais il se peut aussi que le résultat du test soit
positif alors que le patient est en bonne santé, et ceci se produit dans 2% des cas.
Sachant qu'en moyenne 0.05% des patients sont atteints de la maladie à dépister, calculer la
probabilité pour qu'un patient soit atteint sachant que son test a été positif.

Soit A l'événement: "le test est positif", B l'événement: "le patient est en bonne santé" et M =
BC l'événement: "le patient est atteint de la maladie". Remarquons que:
P(A|M) = 0.96 P(A|B) = 0.02 .
et
P(M) = 0.0005.

Par la formule de Bayes

P(M|A) = P(A|M)P(M)/ [P(A|M)P(M) + P(A|B)P(B)]

= 0.96×0.0005/[0.96×0.0005+0.02×0.9995] = 0.023.

Il est intéressant de constater que seul 2.3% des patients testés positifs sont effectivement
malades. Pourtant le test semble avoir des caractéristiques techniques raisonnables. Comment
comprendre un chiffre si bas ?
CHAPITRE III

SUITES D’EXPERIENCES ALEATOIRES

III.1. Le modèle

Nous commençons par introduire un modèle abstrait, qui généralise le jeu « pile ou face ».

III.1.a. Le modèle abstrait – le processus de Bernoulli

Considérons une suite d’essais d’une même expérience aléatoire que l’on répète indéfiniment
de telle sorte que les conditions soient toujours identiques et que les résultats des différents
essais soient sans influence mutuelle. Supposons que l’expérience n’a que deux résultats
possibles, succès ou échec, et la probabilité du succès soit un nombre p dans l’intervalle [0,1].
Nous appelons une telle suite d’essais un processus de Bernoulli. Il s’agit d’un cas particulier
simple du concept plus général (étudié au Ch.V.) de suite d’expériences aléatoires
indépendantes.

Il est commode d’écrire 1 ou 0 au lieu de « succès » ou « échec ». On peut donc décrire les
résultats d’une suite d’expériences par une suite de 0 et de 1 que l’on notera (Xi) où Xi vaut 0
ou 1 suivant que la i-ième expérience est un échec ou un succès. On dit que (Xi) est une suite
de variables aléatoires indépendantes (voir Ch. IV. pour la définition formelle des variables
aléatoires et Ch. V. pour la définition de l’indépendance).

L’espace fondamental d’un essai est l’ensemble {0,1}. Le processus de Bernoulli dépend d’un
seul paramètre p, la probabilité du succès, et on a

P(Xi = 1) = p et P(Xi = 0) = 1 – p

Définition : On dit que Xi suit une loi de Bernoulli de paramètre p où p est la probabilité de
succès. On écrit

Xi ∼ Bernoulli( p ) ou Xi ∼ B(1, p )

Xi est appelé variable aléatoire de Bernoulli ou plus brièvement variable de Bernoulli.


Si on fait un nombre d’essais N < ∞, l’ensemble fondamental du processus de Bernoulli est
donné par E = {0,1}N. E est l’ensemble de toutes les suites finies de longueur N (ou de N-
uplets) de 0 et de 1, donc card(E) = 2N. En utilisant l’indépendance des essais on trouve que la
probabilité d’une suite est donnée par

P(X1 = x1 , X2 = x2 ,…, XN = xN ) = pnombre de 1(1 – p)nombre de 0 =p #1(1 – p)#0 = p #1(1 – p)N - #1

où xi ∈ {0,1}. En particulier, si p = ½, chaque suite a la même probabilité 1/2N.

Dans le cas où le nombre d’expériences est infini l’ensemble fondamental du processus de


Bernoulli est donné par E = {0,1}IN. E est l’ensemble de toutes les suites infinies indexées
par 0 et 1. On peut montrer que E n’est pas dénombrable, et la probabilité de toute suite (xi)
donnée est nulle ! Bien entendu cela ne signifie pas que la probabilité de tout événement est
nulle.

III.1.b. Exemples

Exemple 1 : Pile ou face


On jette une pièce N fois. On pose Xi = 1 si le résultat du ième jet est pile et Xi = 0 si le résultat
du ième jet est face. Pour une pièce non biaisée p = ½.

Exemple 2 : Problèmes d’urne – tirages avec remise


Une urne contient m boules dont k sont blanches et l = m – k sont noires. On tire N fois une
boule avec remise. On pose Xi = 1 si la ième boule est blanche et Xi = 0 si la ième boule est
noire. On a p = k/m.

Exemple 3 :
Dans chaque unité de temps un appel arrive dans un central téléphonique avec une probabilité
égale à p. On pose Xi = 1 si un appel arrive dans la ième unité du temps et Xi = 0 sinon.

Exemple 4 :
Les transistors fabriqués par une machine sont affectés d’un défaut avec probabilité p. L’état
d’un transistor est indépendant de celui des précédents ou suivants. On pose Xi = 1 si le
transistor a un défaut et Xi = 0 sinon.

Exemple 5 :
On exécute une suite d’épreuves indépendantes. La probabilité qu’un certain événement A est
réalisé dans une épreuve est égale à p = P(A). On pose Xi = 1 si A est réalisé et Xi = 0 sinon.
III.2. La loi binomiale

III.2.a. Le nombre de succès

On définit

SN = X1 + … + XN

où Xi prend des valeurs dans {0,1}. Donc SN est égal au nombre de succès pendant les N
premières expériences. La loi de SN est donnée par

P(SN = k) = CkN pk(1 – p)N – k.

Pour établir cette loi il faut d’abord remarquer que chaque suite de longueur N comportant k
succès a pour probabilité pk(1 – p)N – k. Evidemment il y a CkN possibilités de placer k succès
parmi les N tirages.

Notons, qu’une application de la formule du binôme de Newton (voir Ch. I.2.d.), donne que la
somme de tous les P(SN = k) est 1 :

N N

∑ P( SN = k ) = ∑ CNk p k (1 − p) N −k = ( p + (1 − p) ) = 1 .
N

k =0 k =0

Définition : On dit que SN suit une loi binomiale de paramètres (N, p ) où N désigne le
nombre d’expériences et p est la probabilité de succès dans un essai. On écrit

SN ∼ B(N, p )

SN est appelé variable aléatoire binomiale ou plus brièvement variable binomiale.

Exemple 1: On tire (avec remise) 5 boules dans une urne contenant 10 blanches, 15 noires et
25 rouges. Quelle est la probabilité de tirer 3 boules blanches ?

Solution : On décide ici que le tirage d’une boule blanche est un succès et que le tirage d’une
boule rouge ou d’une boule noire est un échec. Ainsi la probabilité p de succès pour chaque
tirage est p = 10/50 = 1/5. Les tirages s’effectuant avec remise, nous sommes dans le cadre
des tirages indépendants, i.e. d’un processus de Bernoulli. Le nombre S5 de boules blanches
tirées lors de 5 tirages avec remise suit donc une loi binomiale de paramètres N = 5 et p = 1/5.
Alors

P(S5 = 3) = C35 (1/5)3(4/5)2 = 32/625


Exemple 2: Un système de communication comporte 5 composants. Chacun d'entre eux
fonctionnera, indépendamment des autres, avec une probabilité 0.7. Le système total pourra
fonctionner si au moins la moitié de ces composants sont opérationnels. Calculer la
probabilité que le système ne fonctionne pas.

Solution : Soit X le nombre de composants opérationnels. X est une variable aléatoire


binomiale de paramètres 5 et 0.7. La probabilité que le système ne fonctionne pas est donnée
par

P(X=0) + P(X=1) + P(X=2) = C05*0.70*0.35 + C15*0.71*0.34 + C25*0.72*0.33 = 0.16308

III.2.b. Stabilité

Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p). Si les N
expériences de Bernoulli sont indépendantes des M expériences de Bernoulli, on dit que les
variables aléatoires binomiales SM et SN sont indépendantes. Dans ce cas la somme SM + SN
est égale au nombre de succès pendant une suite des N + M expériences de Bernoulli de
paramètre p. Par conséquent, on a

SM + SN = SM+N .

Cette propriété est appelée stabilité.

Proposition : Soient SM et SN deux variables aléatoires binomiales indépendantes de


paramètres (M, p ) et (N, p ). Alors SM + SN suit une loi binomiale de paramètres (M + N, p ),
i.e.

P(SM + SN = k) = CkM+N pk(1 – p)M+N – k.

Au chapitre V on donnera une définition plus précise de l’indépendance de deux variables


aléatoires : Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p).
On dit que SM et SN sont indépendants si et seulement si

P(SM = k et SN = l) = P(SM = k) ⋅ P(SN = l)

pour tout k = 0,…,M et l = 0,…,N .


III.3. La loi géométrique et loi binomiale négative

On considère un processus de Bernoulli de paramètre p. On s’intéresse au nombre T d’essais


jusqu’au premier succès.

III.3.a. Loi du temps du 1er succès

On introduit un temps aléatoire T, défini comme temps du 1er succès dans une suite infinie
d’expériences de Bernoulli, i.e. T = min(k : Xk = 1) = min(k : Sk = 1), où Sk = X1 + … + Xk.
Nous vérifierons ci-dessous que ce temps est fini avec probabilité 1. Pour tout k notons Ak
l’événement { Xk = 1}. L’événement {T = k} est égal à (A1)c ∩ … ∩ (Ak-1)c ∩ Ak. On calcule
alors la loi de probabilité de T.

P(T = 1) = p ,

P(T = 2) = (1 – p) ⋅ p ,

P(T = k) = (1 – p)k – 1 ⋅ p

d’où l’on peut déduire, par exemple, que

P(T > k) = ∑j > k P(T = j) = ∑j > k (1 – p)j – 1 ⋅ p = (1 – p)k.

En particulier, P(T = ∞) = lim k→∞ P(T > k) = lim k→∞ (1 – p)k = 0 si p > 0.
Donc P(T < ∞) = 1, i.e., avec probabilité 1, le temps T est fini.

Définition : On dit que T suit une loi géométrique de paramètre p où p est la probabilité de
succès dans un essai. On écrit

T ∼ Geom(1, p )

T est appelé variable aléatoire géométrique ou plus brièvement variable géométrique.

Exemple : On jette un dé équilibré jusqu’à un « 6 » sort. Quelle est la probabilité qu’on lance
le dé au plus trois fois ?

Solution : Soit T le temps jusqu’à un « 6 » sort. On a T ∼ Geom(1, 1/6). La probabilité


cherchée est

P(T ≤ 3) = P(T =1) + P(T =2) + P(T =3) = 1/6 + 5/6 ⋅1/6 + 5/6 ⋅ 5/6 ⋅1/6 = 91/216 ≅ .4212962963.

On pourra aussi calculer cette probabilité en passant par le complémentaire :

P(T ≤ 3) = 1 - P(T > 3) = 1- (5/6)3 = 1 - 125/216 = 91/216.


III.3.b. Propriété caractéristique de la loi géométrique : perte de mémoire

La loi géométrique est caractérisée par une propriété très importante, la propriété de « perte
de mémoire », i.e. par

P(T > j+k|T > j) = P(T > k)

pour tous les entiers j et k non négatifs. Ainsi sachant qu’il n’y a pas eu de succès jusqu’au
temps j (inclus), la probabilité qu’il y ait un succès dans les k essais suivants est indépendante
de j. En particulier, cette probabilité est identique à celle de n’avoir aucun succès dans les k
premiers essais.

Pour vérifier cette propriété utiliser l’identité P(T > k) = (1 – p)k.

III.3.c. Loi binomiale négative

On s’intéresse au nombre Tr d’essais jusqu’aux r premiers succès.


On définit Tr = min(k : Sk = r), où Sk = X1 + … + Xk. En particulier, T1 est une variable
géométrique. On voit que le support de Tr est l’ensemble { r , r + 1, r + 2, …}. Si Tr = n ,
alors le n-ième essai est un succès et le nombre de succès dans les (n – 1) premières
expériences est égal à (r – 1). Par conséquent, on a l’égalité des événements suivants :

{ Tr = n } = { Xn = 1 et Sn-1 = r – 1}

En utilisant l’indépendance de Xk et Sk-1 on trouve

P(Tr = n) = P(Sn-1 = r – 1) ⋅ P(Xn = 1) = Cr-1n-1 pr-1(1 – p)n – r⋅ p.

La loi de Tr est alors donnée par

P(Tr = n) = Cr-1n-1 pr(1 – p)n – r

pour n = r , r + 1, r + 2, …

Définition : On dit que Tr suit une loi binomiale négative de paramètres p et r, où r désigne le
nombre de succès à achever et où p est la probabilité de succès dans un essai. On écrit

Tr ∼ Geom(r, p)

Tr est appelé variable aléatoire binomiale négative ou plus brièvement variable binomiale
négative.
Exemple (problème des points) : Deux joueurs A et B jettent un dé honnête. Si le résultat est
un « 6 » c’est le joueur A qui marque un point, sinon c’est B qui marque un point. Quelle est
la probabilité que A marque 2 points avant que B marque 9 points ?

Solution : Les deux joueurs réalisent des épreuves indépendantes dont la probabilité du succès
est p = 1/6. Nous cherchons la probabilité que r = 2 succès apparaissent avant m = 9 échecs,
i.e. que le deuxième succès survient au plus tard à la (r + m – 1) = 10-ième épreuve. Donc
cette probabilité est égale à P(T2 ≤ 10) et l’on a

10 10
P(T2 ≤ 10) = ∑ P(T2 = k ) = ∑ Ck1−1 ( 16 ) 2 ( 56 )k −2 = 10389767
20155392 ≅ 0.5154832513 .
k =2 k =2

Cas général : Dans un processus de Bernoulli de paramètre p la probabilité que r succès


apparaissent avant que le m-ième échec ne survienne est donnée par

r + m −1 r + m −1
P(Tr ≤ r + m − 1) = ∑
k =r
P(Tr = k ) = ∑C
k =r
r −1
k −1 p r (1 − p ) k − r .

III.3.d. Stabilité

La loi binomiale négative satisfait une propriété de stabilité. En particulier, chaque variable
binomiale négative s’écrit comme somme de variables géométriques indépendantes.

Proposition : Soient Y1 , … , Yr des variables géométriques indépendantes de paramètre p.


Alors, la variable aléatoire Tr = Y1 + … + Yr suit une loi binomiale négative Geom(r, p).

Corollaire : Soient Tr ∼ Geom(r, p) et Ts ∼ Geom(s, p) deux variables binomiales négatives


indépendantes. Alors, Tr + Ts suit une loi Geom(r + s, p).
III.4. Théorèmes limites

Nous présentons des résultats concernant le comportement asymptotique des lois probabilités
liées au processus de Bernoulli et ses généralisations. Ces résultats, appelés théorèmes limites,
permettront de simplifier considérablement le calcul de probabilités. Ils sont souvent des cas
particuliers d’un théorème plus général qu’on présentera au chapitre V.

III.4.a. Convergence du modèle binomial vers la loi de Poisson

Lorsque le nombre d’essai est grand et la probabilité du succès est petite alors la loi de
nombres de succès s’approche d’une loi très importante en calcul de probabilités, la loi de
Poisson.

Définition: On dit que Z suit une loi de Poisson de paramètre λ > 0, si

P(Z = k) = exp(-λ)⋅ λ k/k!

On écrit

Z ∼ Poisson(λ)

Proposition : Soit SN une variable aléatoire binomiale de paramètres (N, p). Si N → ∞


et p → 0 tel que N⋅p → λ, alors pour tout entier nonnégatif k

P(SN = k) → exp(-λ)⋅ λk/k!,

Ainsi une variable de Poisson modélise le nombre de succès dans un très grand nombre
d’expériences indépendantes où la probabilité de succès est petite ( p ∼ λ/N). L’approximation
poissonnienne fonctionne en fait assez bien même si N n’est pas très grand.

Exemple 1: On jette deux dés 12 fois et on considère le nombre U de double six. La variable
U satisfait une loi binomiale de paramètres N = 12 et p = 1/36, donc on pose λ = 1/3.
Comparer les probabilités exactes et les probabilités calculées en utilisant la loi de Poisson.

k (U = k) exp(-λ)⋅ λk/k!
0 0.7131592556 0.7165313106
1 0.2445117448 0.2388437702
2 0.0384232742 0.0398072950
3 0.0036593594 0.0044230328

Exemple 2: On considère le problème de « matchings » présenté au Ch. II.3.b. On a vu que la


distribution de « matchings » converge vers une distribution de Poisson de paramètre 1.
III.4.b. Convergence de la loi géométrique vers la loi exponentielle

Soit T une variable géométrique de paramètre p. Rappelons que T signifie le nombre d’essais
jusqu’au premier succès ou le temps du 1er succès. Comme précédemment on considère le cas
N → ∞ et p → 0 tel que N⋅p → λ pour un λ > 0. Alors, pour tout t réel positif, on a

P(T/N > t) = P(T > tN) = (1-p)tN ~ (1-λ/N)tN = (1-λt/tN)tN → exp(-λt).

Définition: On dit que U suit une loi exponentielle de paramètre λ > 0, si pour tout t réel
positif

P(U > t) = exp(-λt).

La loi exponentielle est parmi les lois les plus souvent rencontrées dans la pratique de
l’ingénieur. Mentionnons quelques applications de la loi exponentielle : la durée du
fonctionnement ou la durée de vie d’un équipement technique, la désintégration radioactive et
les temps d’attente de clients devant un guichet.

Nous avons donc démontré la proposition suivante.

Proposition : Soit T une variable aléatoire géometrique de paramètre p. Si N → ∞


et p → 0 tel que N⋅p → λ, alors pour tout t réel positif, on a

P(T/N > t) → exp(-λt).

III.4.c. Loi des grands nombres

Nous donnons une première version d’un théorème fondamental du calcul de probabilités : la
loi des grands nombres. Des versions plus générales et mathématiquement plus précises sont
présentées au Ch. V.

Si on lance un grand nombre de fois une pièce honnête, la fréquence d’apparition de pile se
stabilise autour de la valeur 0.5, la valeur théorique de probabilité d’apparition de pile. On
regarde SN, le nombre de succès dans le modèle binomial. Pour p fixé on laisse N → ∞.

Loi des grands nombres : Le nombre moyen de succès lors des N premiers essais, i.e.

SN /N = nombre de succès/nombre d’essais,

tend vers p, la probabilité théorique de succès lorsque N → ∞.


Dans le Ch. IV nous introduisons une quantité, appelée espérance d’une variable aléatoire, qui
donne la valeur moyenne de la fréquence de succès. Pour une variable binomiale cette valeur
est égale à la probabilité théorique de succès (voir aussi Ch. IV) :

E[SN/N] = 0/N*P(SN = 0) + 1/N*P(SN = 1) + ... + k/N*P(SN = k) + ... + N/N*P(SN = N) = p.

C’est pourquoi l’on se pose la question de savoir si le nombre moyen de succès lors des N
premiers essais, SN /N , reste tout près de son espérance E[SN/N]. Il y a évidemment des
événements de probabilité non nulle pour lesquelles la différence SN /N – p n’est pas petite
comme c’est le cas par exemple pour l’événement { SN /N = 1}. Mais cette probabilité tend
vers zéro lorsque N tend vers l’infini : P(SN /N = 1) = pN → 0 lorsque N → ∞. On peut donc
espérer que c’est aussi le cas pour tous les événements de la forme | SN /N – p | > ε pour tout ε
> 0. Ceci est l’énoncé de la loi (faible) des grands nombres présentée dans le chapitre V.
CHAPITRE IV

VARIABLES ALEATOIRES

IV.1. Définitions et exemples


Nous introduisons les notions de variable aléatoire et de fonction de répartition. Soit Ω un
ensemble fondamental et P une probabilité définie sur Ω.

IV.1.a. Variables aléatoires (discrètes)

Dans de nombreuses expériences stochastiques, on représente les résultats possibles par des
nombres réels X(ω) pour tout ω dans l’ensemble fondamental. Pour étudier des grandeurs
dépendant du hasard on est amené à introduire des fonctions définies sur des espaces
probabilisés.

Exemple 1: On jette deux pièces équilibrées. On peut décrire l’ensemble fondamental de cette
expérience par Ω ={(P,P), (P,F), (F,P),(F,F)}, la lettre F représentant « face » et P
représentant « pile ». Ici on s’intéresse au nombre X de piles qui apparaissent et on définit
l’ensemble fondamental par l’image de X, i.e. E = {0 piles, 1 pile, 2 piles} ou simplement E
={0,1,2}. Alors, la distribution de probabilité de X est donnée par

P(X = 0) = P(0 piles) = P({(F,F)}) = ¼


P(X = 1) = P(1 pile) = P({(P,F), (F,P)}) = ½
P(X = 2) = P(2 piles) = P({(P,P)}) = ¼.

Donc X associe à chaque résultat possible de l’expérience un nombre réel, i.e. X est une
fonction à valeurs réelles définie sur l’ensemble fondamental Ω. Pour des raisons historiques
X est appelé variable aléatoire ou plus précisément une variable aléatoire réelle.

Définition: Une variable aléatoire (réelle) X est une fonction X: Ω → E (E ⊂ R ou Z ou N),


i.e. pour tout ω ∈ Ω , X(ω) ∈ E.

On peut interpréter X comme une observable dépendant du hasard. Si le résultat de


l’expérience est ω, alors la variable aléatoire X prend la valeur X(ω). Souvent on prend
directement l’ensemble E des valeurs comme l’ensemble fondamental de l’expérience.

Pour tout événement A dans Ω la variable aléatoire X peut être restreinte en une application de
l’ensemble A dans la partie des nombres réels J = X(A) = {X(ω), ω ∈ A }. En particulier,
l’ensemble fondamental Ω d’une expérience aléatoire correspond à l’ensemble E de tous les
valeurs possibles de X, i.e. E = X(Ω). Pour des ensembles fondamentaux finis ou
dénombrables, E se confond avec un ensemble des entiers.
Exemple 1(suite) : On jette deux pièces équilibrées. On considère l’événement A = " au
moins une pile apparaît". Alors, X a pour valeurs 1 ou 2 , i.e. X ∈ {1,2} ou encore 1 ≤ X ≤ 2.

Exemple 2 : On reconsidère les observables dans le schéma de Bernoulli.


Pour le i-ème essai on définit la variable aléatoire Xi par

Xi = 0 si le résultat est un échec,


Xi = 1 si le résultat est un succès.

Donc pour chaque essai on a E = {0,1}.


Pour une suite de N essais, le vecteur X = (X1,...,XN) est à valeurs dans E = {0,1}N. Dans le
chapitre précédent on a déjà étudié les variables aléatoires suivantes :

Nombre de succès SN : SN = X1 + ... + XN


SN prend ses valeurs dans E = {0,1,...,N}.

Temps du premier succès T: T désigne le premier index i tel que Xi = 1, i.e.


T = min(i, Xi = 1) = min(i, Si = 1), T prend ses valeurs dans E = {1,2,3,...}.

Temps jusqu’aux r premiers succès Tr: Tr désigne le premier index i tel que Si = r, i.e.
Tr = min(i, Si = r), Tr prend ses valeurs dans E = {r, r+1, r+2,...}.

Exemple 3: Pour tout événement A dans Ω on définit la variable indicatrice de A, noté IA , par

IA = 1 si A est réalisé,
IA = 0 si Ac est réalisé.

La variable aléatoire IA est une variable de Bernoulli de paramètre p = P(A).

Définition (variables aléatoires discrètes):


Une variable aléatoire X : Ω → E est dite discrète si E = {x1,x2,...} est un sous-
ensemble discret (fini ou dénombrable) des nombres réels.

IV.1.b. Distribution de probabilités : densité de probabilités et fonction de répartition

Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, P). On a défini dans
le chapitre IV.1.a. un ensemble caractéristique de X , l’ensemble de ses valeurs possibles noté
E = {X(ω), ω ∈ Ω}. Rappelons que E est un sous-ensemble des nombres réels. Maintenant il
faut se donner sa distribution de probabilité. Pour une variable aléatoire discrète on peut
définir une densité de probabilités fX(x) par

fX(x) = P(X = x).

Définition : Si X : Ω → E est une variable aléatoire discrète, alors la distribution de


probabilité de X est la donnée des nombres : P(X = xi). La fonction fX(x) = P(X = x) est appelée
fonction de masse.
Remarque : On utilise la même lettre P pour la probabilité sur l’ensemble E. Plus précisément
on a : Pour ω ∈ Ω soit X(ω) = x. Alors P(X = x) := P({ω}) = P(X-1(x)) = (P o X-1)(x) où X-1
désigne l’application réciproque de X.

Exemple 1 : On jette un dé équilibré. Soit X le nombre des points obtenu. La fonction de


masse fX(x) est donnée par

fX(x) = P(X = x) = 1/6 pour x ∈ {1,2,3,4,5,6}

Définition : Soit X : Ω → E une variable aléatoire réelle. Sa fonction de répartition FX(t) est
définie par
FX(t) = P(X ≤ t) pour tout t réel.

La fonction de répartition détermine aussi la distribution. Si X et Y sont deux variables


aléatoires telles que FX(t) = FY(t), alors X et Y ont la même distribution de probabilités.

La fonction de répartition FX(t) vérifie les propriétés suivantes:

Proposition : Soit X : Ω → E une variable aléatoire et FX(t) sa fonction de répartition. Alors :

a. lim t→-∞ FX(t) = 0,

b. lim t→+∞ FX(t) = 1,

c. si s < t alors FX(s) ≤ FX(t)

d. F est continu à droite, i.e. pour tout t réel, FX(t+s) → FX(t) lorsque s → 0+.

e. P(X > s) = 1 - FX(s)

f. P(s < X ≤ t) = FX(t) - FX(s)

Exemple 1 (suite) : On jette un dé équilibré. Soit X le nombre des points obtenus. La fonction
de répartition FX(t) est donnée par

0 si t <1
 k
FX (t) =  si k ≤ t < k + 1 pour k = 1,2, 3, 4,5
6
 1 si 6≤t

Etant donné une variable aléatoire discrète à valeurs dans E = {x1,x2,...}, sa fonction de
répartition n’est pas continue dans les points xi et elle constante entre xi-1 et xi (plus
précisément sur l’intervalle [xi-1 , xi [ ) pour tout i. Donc, en général, la fonction de répartition
peut être représentée par une fonction en escalier élémentaire.
IV.2. Couples de variables aléatoires

On considère des événements relatifs à deux variables aléatoires X et Y sur un espace


probabilisé. Pour traiter de tels problèmes on va introduire les notions de fonctions de
répartitions conjointes et de lois conjointes d’un couple de variables aléatoires (X, Y). Souvent
le couple (X, Y) est appelé vecteur aléatoire (à deux dimensions).

IV.2.a. Fonction de répartition conjointe

Définition : La fonction de répartition conjointe FX,Y (s,t) pour tout couple de variables
aléatoires (X, Y) est définie par

FX,Y(s,t) = P(X ≤ s, Y ≤ t) pour tout couple (s,t) de nombres réels.

IV.2.b. Fonction de répartition marginale

La fonction de répartition de X (respectivement de Y) peut être déduite de la fonction de


répartition conjointe du couple (X, Y) comme suit :

FX(s) = P(X ≤ s) = P(X ≤ s, Y < ∞) = P(lim t→∞ {X ≤ s, Y ≤ t}).

Par la propriété de continuité de P on obtient :

FX(s) = lim t→∞ P(X ≤ s, Y ≤ t) = lim t→∞ FX,Y(s,t) = FX,Y(s,∞).

De façon similaire on trouve la fonction de répartition de Y :

FY(t) = FX,Y(∞, t).

Définition : Les fonctions FX(s) = FX,Y(s,∞) et FY(t) = FX,Y(∞, t) sont appelées fonctions de
répartition marginales de X et Y.

IV.2.c. Propriétés de la fonction de répartition conjointe

Les probabilités de tous les événements peuvent s’exprimer à l’aide de la fonction de


répartition conjointe du couple (X, Y). En particulier, on a

P(s1 < X ≤ s2 , t1 < Y≤ t2) = FX,Y(s2 , t2) + FX,Y(s1 , t1) – FX,Y(s1 , t2) – FX,Y(s2 , t1) pour s1 < s2 ,

t1 < t2.
IV.2.d. Loi discrète conjointe

Si X et Y sont des variables aléatoires discrètes, alors la distribution (ou la loi) de probabilité
conjointe du couple (X, Y) est la donnée des nombres : P(X = xi , Y = yj). Si on définit

fX,Y(x,y) = P(X = x, Y = y),

alors la loi de probabilité marginale de X s’en déduit ainsi :

f X ( x ) = P( X = x ) = ∑
y: f X ,Y ( x , y )>0
f X ,Y (x, y)

et de manière similaire la loi de probabilité marginale de Y est

fY ( y ) = P(Y = y) = ∑
x: f X ,Y ( x , y )> 0
f X ,Y (x, y)

IV.3. Espérance

IV.3.a. Définition

Soit X : Ω → E une variable aléatoire réelle discrète définie sur un espace


probabilisé (Ω, P). L’espérance de X, notée E[X], est définie par

E[ X ] = ∑ x ⋅ P( X = x ) = ∑ x ⋅ f X (x)
x∈E x∈E

La quantité E[X] est parfois aussi appelée valeur moyenne de X. Nous utilisons l’expression
de valeur moyenne uniquement pour des quantités empiriques.

IV.3.b. Exemples
IV.3.b.1. Variable uniforme discrète
X prend ses valeurs dans {x1,...,xN} avec des probabilités P(X = xi) = 1/N pour i = 1,...,N.
L’espérance de X correspond à la moyenne arithmétique des xi.
E[X] = (x1+ .. .+ xN)/N

IV.3.b.2. Variables discrètes: cas fini


X prend des valeurs dans {x1,...,xN}. La loi de probabilités est données par P(X = xi) = pi pour
i = 1,...,N. L’espérance de X correspond à la moyenne arithmétique des xi pondérée avec pi.
E[X] = (p1x1 + ... + pNxN)
Il y a une analogie avec la notion du centre de gravité d’un groupe de masses, au sens de la
mécanique classique: Soit xi la position de la i-ème particule de masse mi sur une ligne. La
mass totale du système est alors m = m1+...+mN. Son centre de gravité se trouve à la position
xc = (m1x1+...+mNxN)/m . Donc, en posant pi = mi/m, on voit que xc = E[X].
IV.3.b.3. Variable indicatrice d’un événement et variable de Bernoulli

Soit A un événement dans Ω. IA est une variable de Bernoulli de paramètre p = P(A).


L’espérance de sa variable indicatrice IA est égale à la probabilité P(A) :

E[IA] = P(A) .

IV.3.b.4. Variable binomiale


Soit X ∼ B(N, p), alors X a pour fonction de masse P(X = k) = CkN·pk·(1-p)N-k pour k = 0,1,...,N.
L’espérance de X est donnée par

E[X] = Np.

IV.3.b.5. Variable géométrique


Soit X ∼ Geom(1, p), alors X a pour distribution P(X = k) = (1-p)k-1p pour tout k = 1,2,3,...
L’espérance de X est donnée par

E[X] = 1/p.

IV.3.b.6. Variable de Poisson


La distribution de X est donnée par P(X = k) = exp(-λ)λk/k! pour k = 0,1,2,…Son espérance est

E[X] = λ.
IV.3.c. Propriétés élémentaires de l’espérance

L’opérateur E[] vérifie les propriétés suivantes :

Linéarité : Soient X et Y deux variables aléatoires et a, b des nombres réels. Alors


E[aX + bY]= aE[X] + bE[Y].

Positivité : Soit X une variable aléatoire telle que X ≥ 0. Alors

E[X] ≥ 0.

Monotonie : Soient X et Y deux variables aléatoires telles que X ≥ Y. Par les propriétés de
linéarité et positivité on a

E[X] ≥ E[Y].

Espérance d’une constante : Si X = c où c est une constante réelle, alors


E[X] = E[c] = c.

La propriété de linéarité est souvent utilisée pour calculer l’espérance d’une loi de probabilité.

Exemple 1: Calcul de l’espérance d’une variable aléatoire binomiale


Une variable binomiale B(N,p), noté SN , s’écrit comme la somme de N variables de Bernoulli
X1 de paramètre p:

SN = X1 + … + XN.

Donc E[SN] = N⋅E[X1] = Np.

Exemple 2: Calcul de l’espérance de la distribution de points fixes


On désigne MN la variable aléatoire représentant le nombre de points fixes dans une
permutation aléatoire σ de {1,2,…,N}. On a calculé la loi MN de dans le chapitre II. On peut
calculer son espérance sans connaître explicitement sa loi de probabilité : comme dans le
chapitre II soit Ai l’événement qu’il y a un point fixe à la position i, i.e. σ(i) = i. Evidemment
P(Ai) = 1/N. On considère la variable indicatrice, notée Ii, de Ai. On a

MN = I1 + I2 + … + IN.

Par conséquent E[MN] = N⋅E[I1] = N⋅P(Ai) = 1. On s’attend en moyenne à un point fixe,


indépendamment de N.
IV.3.d. Espérance d’une fonction d’une variable aléatoire

Considérons une variable aléatoire X , discrète ou continue, et sa distribution de probabilité.


Supposons qu’on veuille calculer l’espérance d’une fonction de X, disons ϕ(X). Remarquons
que ϕ(X) est une variable aléatoire dont la distribution peut être calculer à partir de celle de X.
Si on a pu déterminer cette distribution, on trouve E[ϕ(X)] en appliquant la définition de
l’espérance. Dans le théorème suivant nous montrons qu’il y a une façon de calculer E[ϕ(X)]
sans passer par la distribution de ϕ(X).

Théorème :
Si X est une variable aléatoire discrète à valeurs xk, k ≥ 1, alors pour toute fonction réelle ϕ on
a

E[ϕ(X)] = Σk ϕ(xk)P(X = xk),


sous la condition que la somme soit absolument convergente.

Nous présentons quelques choix de ϕ(X) importants.

Exemples:

1. Fonctions indicatrices

Pour ϕ(x) = 1[a,b](x), i.e. ϕ est la fonction indicatrice de [a,b], on a

E[1[a,b](X)] = P(a≤X≤b)

2. Moments

L’espérance de ϕ(x) = xk est appelée k-ième moment de X. La variance (voir Ch. IV.5.)
contient le deuxième moment de X.

3. Fonction exponentielle
L’espérance de ϕ(x) = exp(tx) pour t réel (ou complexe), correspond à la transformée de
Laplace (ou de Fourier) d’une loi de probabilité. Voir Ch. IV.5.
IV.3.e. Espérance : Inégalités

Inégalité de Cauchy-Schwarz
Soient X et Y deux variables aléatoires réelles. Evidemment,

(X − aY ) 2 ≥ 0 ,
a

donc 2⋅XY ≤ X2/a + aY2 pour tout réel positif a. Par les propriétés de linéarité et de positivité
l’espérance du produit XY satisfait l’inégalité suivante:

2⋅E[XY] ≤ E[X2]/a + aE[Y2].


Si on optimise par rapport à la constante a on obtient l’inégalité de Cauchy-Schwarz :
E[XY] ≤ (E[X2]E[Y2])½.

Inégalité de Jensen
Si ϕ(x) est une fonction convexe, on a
ϕ(tx+(1-t)y) ≤ tϕ(x) + (1- t)ϕ(y)
pour tous x,y réels et pour tout t dans [0,1]. L’espérance d’une variable aléatoire X satisfait
l’inégalité de Jensen:
ϕ(E[X]) ≤ E[ϕ(X)]
Inégalité de Markov
Soit X une variable aléatoire positive. Pour tout a > 0
P(X ≥ a) ≤ E[X]/a.
Preuve: Notons que 1[a,∞)(x) ≤ x/a. En utilisant les propriétés de monotonie et de linéarité de
l’espérance on obtient
P(X ≥ a) = E[1[a,∞)(X)] ≤ E[X/a] = E[X]/a.
IV.4. Variance et Covariance

IV.4.a. Définitions

La variance d’une variable aléatoire X nous permet de mesurer les variations de X autour de
l’espérance.

Définition : Soit X une variable aléatoire d’espérance µ = E[X]. La variance de X est définie
par

Var[X] = E[(X - µ)2].

En utilisant la propriété de linéarité de l’espérance on peut établir la formule suivant pour la


variance qui est en général plus commode :

Var[X] = E[X 2] - µ2.

Définition : L’écart type, noté σ, est défini comme la racine carré de la variance :

σ = (Var[X])1/2.

Définition : La covariance de deux variables aléatoires X et Y, notée Cov[X,Y], est définie


comme suit :
Cov[X,Y] = E[(X – E[X])(Y – E[Y]] = E[XY] – E[X]E[Y].

Par définition, Cov[X,X] = Var[X]. Si Cov[X,Y] = 0 on dit que X et Y ne sont pas corrélés.
Dans le chapitre V nous montrons que des variables aléatoires indépendantes ne sont jamais
corrélées. Pour mesurer la dépendance des deux variables aléatoires X et Y on définit la
corrélation de X et Y par

ρ[X,Y] = Cov[X,Y]/(Var[X]Var[Y])½.
IV.4.b. Exemples (Variance)

IV.4.b.1. Variable uniforme discrète


X prend ses valeurs dans {x1,...,xN}, et P(X = xi) = 1/N pour i = 1,...,N. La variance de X est
donnée par
Var[X] = ((x1 - xc)2+...+ (xN - xc)2) /N
où xc= E[X].

IV.4.b.2. Variables discrètes: cas fini


X prend des valeurs dans {x1,...,xN}. La loi de probabilités est données par P(X = xi) = pi pour
i = 1,...,N. La variance de X est donnée par
Var[X] = (p1(x1 - xc)2+...+ pN(xN - xc)2).
Dans l’analogie mécanique présentée dans IV.3.b.2 la variance correspond au moment
d’inertie du système de particules.

IV.4.b.3. Variable indicatrice d’un événement et variable de Bernoulli

Soit A un événement dans Ω. IA est une variable de Bernoulli de paramètre p = P(A).


La variance de sa variable indicatrice IA est donnée par :

Var[IA] = P(A) (1 – P(A)).

IV.3.b.4. Variable binomiale


Soit X ∼ B(N, p), alors X a pour fonction de masse P(X = k) = CkN·pk·(1-p)N-k pour k = 0,1,...,N.
On a E[X] = Np. X a pour variance

Var[X] = Np(1 - p).

IV.3.b.5. Variable géométrique


Soit X ∼ Geom(1, p), alors X a pour distribution P(X = k) = (1-p)k-1p for all k = 1,2,3,... Pour sa
variance on trouve

Var[X] = (1 - p)/p2.

IV.3.b.8. Variable de Poisson


La distribution de X est donnée par P(X = k) = exp(-λ)λk/k! pour k = 0,1,2,…Sa variance est
Var[X] = λ.
IV.4.c. Propriétés élémentaires
L’opérateur Var[] a des propriétés suivantes :

IV.4.c.1. Homogénéité
Pour tout λ réel
Var[λX] = λ2Var[X]

IV.4.c.2. Positivité
Var[X] ≥ 0,
et Var[X] = 0 si et seulement si X = E[X] , i.e. X est une variable aléatoire constante.

IV.4.c.3. Variance de la somme des deux variables aléatoires


En général, la variance n’est pas additive. On a
Var[X+Y] = Var[X] + Var[Y] + 2Cov[X,Y].
Si les variables X et Y ne sont pas corrélées , i.e. Cov[X,Y] = 0, la variance est additive.

IV.4.c.4. (Bi-) Linéarité de la Covariance


La covariance Cov[X,Y] est linéaire en chaque composante, i.e.
Cov[a1X1+a2X2,Y] = a1Cov[X1,Y] + a2Cov[X2,Y]

IV.4.c.5. Borne sur la corrélation


En utilisant l’inégalité de Cauchy-Schwarz on obtient une borne sur la corrélation de deux
variables aléatoires X et Y:
-1 ≤ ρ(X,Y) ≤ 1

IV.4.c.5. Inégalité de Bienaymé - Tchebychev

Soit X une variable aléatoire d’espérance µ=E[X] et de variance σ2= Var[X] finies. Pour tout
réel a > 0 :

σ2
P( X − µ ≥ a) ≤ 2
a
Preuve : On applique l’inégalité de Markov (voir IV.3.e.) avec a2 à la variable (X - µ)2.
IV.5. Moments et transformée de Laplace

IV.5.a. Moments
Pour tout entier positif k, on appelle moment d’ordre k de X et on note mk
mk = E[Xk].
Le moment centré d’ordre k de X noté mc,k est la valeur
mc,k = E[(X-m1)k].
Notons, que mc,2 = Var[X].

Exemple: Variable aléatoire de Bernoulli de paramètre p


On a Xk = X et par conséquent E[Xk] = p tout k entier. Le moment centré d’ordre k de X est
donné par
mc,k = E[(X-p)k] = (1-p)kp + (1-p)(-p)k.

IV.5.b. Définition de la transformée de Laplace


Soit X une variable aléatoire. On appelle transformé de Laplace de X la fonction LX[t] définie
par
LX[t] = E[exp(tX)]

pour les valeurs de t où LX[t] est finie. La transformée de Laplace est un outil de calcul très
utile. Elle caractérise la distribution de X, i.e. si LX[t] = LY[t] pour tout t sur un voisinage de 0,
alors X et Y ont la même distribution. Alors, en particulier, pour tout t, FX(t) = FY(t).

IV.5.c. Relation avec les moments


La transformée de Laplace permet de calculer les moments simplement. Si LX[t] < ∞ sur un
voisinage de 0, alors LX[t] est indéfiniment dérivable. La dérivée de LX[t] par rapport à t,
notée L'X[t], est donnée par L'X[t] = E[X ⋅ exp(tX)]. On trouve donc
E[X] = L'X[0],
Plus général, le moment d’ordre k de X est donné par la k-iéme derivée de LX[t]
E[Xk] = L(k)X[0].
IV.5.d. Exemples

IV.5.d.1. Variable de Bernoulli


Soit X une variable de Bernoulli de paramètre p. Sa transformée de Laplace est donnée par
LX[t] = p·exp(t) + 1 - p.

IV.5.d.2. Variable binomiale


Soit X une variable binomiale de paramètres p et N. On a
LX[t] = (p·exp(t) + 1 - p)N.

IV.5.d.3. Variable géométrique


Soit X une variable géométrique de paramètre p. On a

p ⋅ et
LX [ t ] =
1 − (1 − p ) ⋅ et

IV.5.d.4. Variable de Poisson


Soit X une variable de Poisson de paramètre λ. On a
LX[t] = exp[λexp(t)-1].
CHAPITRE V

VARIABLES INDEPENDANTES ET THEOREMES LIMITES

V.1 Définition de l’indépendance des variables aléatoires

La notion d’indépendance joue un rôle fondamental en calcul des probabilités et


des statistiques.

VI.1.a. Définition : Indépendance des deux variables aléatoires

Soient X1 et X2 deux variables aléatoires sur le même espace probabilisé. On dit


que X1 et X2 sont indépendantes si et seulement si pour tout couple A et B les
événements { X1 ∈ A } et { X2 ∈ B } sont indépendants, i.e.

(1) P(X1 ∈ A et X2 ∈ B) = P(X1 ∈ A) P(X2 ∈ B) .

De façon équivalente on peut définir l’indépendance des deux variables aléatoires


par une propriété de l’espérance.

X1 et X2 sont indépendantes si et seulement si pour toute fonction φ1 et φ2

(2) E[φ 1(X1) φ 2(X2)] = E[φ 1(X1)]E[φ 2(X2)].

Il est facile de montrer que la définition (1) est un cas particulier de l’identité (2).
En effet, si φ 1 = 1A (i.e. φ 1(x) = 1 si x ∈ A et φ 1(x) = 0 sinon) et
φ 2 = 1B (i.e. φ 2(x) = 1 si x ∈ B et φ 2(x) = 0 sinon), alors (2) s’écrit :

1 si x1 ∈ A et x2 ∈ B 
φ1 ( x1 ) φ2 ( x2 ) =  
0 sinon 

Donc E[φ 1(X1) φ 2(X2)] = P(X1 ∈ A et X2 ∈ B) . Or E[φ 1(X1)] = P(X1 ∈ A)


et E[φ 2(X2)] = P(X2 ∈ B) et (2) s’écrit (1).

En fait on peut montrer que (1) est équivalent à (2).

Remarque : Pour prouver l’indépendance (1) est plus facile. Pour utiliser
l’indépendance (2) est plus puissant.

Une troisième condition équivalente est donnée en terme des fonctions de


répartition. Les fonctions de répartition respectives F, F1 et F2 de X = (X1 , X2) , X1
, X2 vérifient pour tous xi réels, i = 1,2 :

(3) F(x1, x2) = F1(x1) F2(x2)


V.2.b. Indépendance et covariance

Si X1 et X2 sont indépendantes alors Cov [X1, X2] = 0, donc aussi Corr [X1, X2] =
0, i.e. X1 et X2 sont non-corrélées.

Preuve : En utilisant la définition de la covariance et la définition (2) de


l’indépendance on a
Cov [X1,X2] = E[X1 X2] – E[X1] E[X2] = 0.

Attention : La réciproque est fausse. Il y a des variables aléatoires X1 et X2 non-


corrélées (i.e. Corr [X1 , X2] = 0) mais dépendantes.

V.1.c. Indépendance de plusieurs variables aléatoires

Les variables aléatoires X1, X2, …, XN sont indépendantes si et seulement si elles


vérifient l’une des conditions équivalentes suivantes

(1) ∀ A1, A2, .., AN : P(X1 ∈ A1 ,.., XN ∈ AN ) = P(X1 ∈ A1 )⋅ … ⋅P(XN ∈ AN )

(2) Pour toutes fonctions φ 1, …, φ N :

E [φ 1 (X1) … φ N (XN)] = E [φ 1 (X1] … E [φ N (XN)]

(3) Les fonctions de répartition respectives F, F1 ,.., Fn de X = (X1 ,.., Xn) , X1 ,..,
Xn vérifient pour tous xi réels , i = 1,2 :

F(x1,.., xn) = F1(x1) ⋅… ⋅ Fn(xn)

Remarque : Si X1, X2, …, XN sont indépendantes alors (Xi, Xj) sont


indépendantes pour tout i ≠ j. La réciproque est fausse, puisqu’il est possible que
les variables aléatoires soient indépendantes 2 à 2 mais dépendantes.

V.1.d. Distribution conjointe de variables aléatoires indépendantes

La distribution conjointe d’un couple de variables aléatoires

Soient X1 et X2 deux variables aléatoires sur le même espace probabilisé. La


distribution conjointe du couple (X1, X2) est la donnée de = P((X1, X2) ∈ C) ∀ C
possibles.

En général, cette distribution conjointe est difficile à calculer, mais facile dans le
cas indépendant.
Cas des variables aléatoires discrètes : Soient X1, X2 deux variables aléatoires
indépendantes et discrètes. On se donne la distribution de X1 :

P ( X 1 = X (1)
j ) = Pj
(1)

et celle de X2
P ( X 2 = X k(2) ) = Pk(2)

Les valeurs possibles du couple (X1, X2) sont tous les couples de la forme
( )
X h(1) , X d( 2) donc la distribution jointe :
P (( X 1 , X 2 ) = (X (1)
j , X k ))
(2)

= P ( X 1 = X (1)
j )⋅ P ( X2 = Xk )
(2)

= Pj(1) ⋅ Pk(2)
V.2 Variables aléatoires indépendantes et ordre

V.2.a. Maximum ou minimum de variables aléatoires indépendantes

Soient X1, X2, …, XN des variables aléatoires indépendantes. On pose :

MN = max (X1, X2, …, XN)

mN = min (X1, X2, …, XN)

Le problème consiste à calculer la distribution des variables aléatoires MN et mN.


La fonction de répartition de MN est donnée par

FM N (t ) = P ( M N ≤ t ) = P ( X 1 ≤ t et X 2 ≤ t et ... et X N ≤ t )

= P ( X 1 ≤ t ) ... P ( X 2 ≤ t ) ... P ( X N ≤ t )
Par conséquent la fonction de répartition de MN s’écrit comme produit des
fonctions de répartition des Xj :

FM N (t ) = FX1 (t ) ⋅ ... ⋅ FX N (t )

La fonction de répartition de mN est donnée par

FmN (t ) = P (mN ≤ t ) = 1 - P (mN > t ) = 1 - P ( X 1 > t et ... et X N > t )

= 1 - P ( X 1 > t ) ⋅ ... ⋅ P ( X N > t )


et donc par

FmN (t ) = 1 − (1 − FX1 (t )) ⋅ ... ⋅ (1 − FX N (t ))

Exemple : Soient X1 et X2 deux variables aléatoires exponentielles indépendantes


des paramètres θ1 et θ2. On va montrer que le minimum m2 = min (X1, X2) est une
variable exponentielle de paramètre θ1 + θ2.
On a FX1 (t ) = 1 - e −θ1t , FX 2 (t ) = 1 - e −θ2t et Fm2 (t ) = 1 − (1 − FX1 (t )) ⋅ (1 − FX 2 (t ))

= 1 − (e −θ1t )( e −θ2t ) = 1 − e − (θ1 +θ2 ) t


V.3. Sommes de variables indépendantes

Le problème consiste à calculer la distribution, l’espérance, la variance de la


somme de N variables aléatoires indépendantes. Soient X1, X2, …, XN des
variables aléatoires et SN = X1 + X2 + …+ XN .

On rappelle les faits suivants.


L’espérance de SN est égale à la somme des espérances des Xj car l’espérance est
linéaire :

E[SN] = E[X1] + E[X2]+…+E[XN]

Si les variables aléatoires sont non-corrélées la variance de SN est égale à la


somme des variances des Xj car la variance est linéaire pour des variables
aléatoires non-corrélées.

Var[SN] = Var [X1] + Var [X2]+…+ Var [XN]

Pour calculer la distribution de SN on a besoin de l’hypothèse de l’indépendance


des Xj .

V.3.a. Somme de deux variables indépendantes discrètes

Soient X1, X2 deux variables indépendantes discrètes. Supposons que X1 a pour


valeurs (x(1)j) , X2 a pour valeurs (x(2)k) et leurs distributions sont données par

P(X1 = x(1)j) = p(1)j et P(X1 = x(2)j) = p(2)j .

Les valeurs possibles de S2 = X1 + X2 sont les valeurs y telles que y = x(1)j + x(2)k
pour un ou plusieurs couples (j,k). Donc

P ( S2 = y ) = ∑ P( X 1 = x (1)
j et X 2 = xk )
(2)

( j ,k ): y = x (1)
j + xk
(2)

et par l’indépendance

P ( S2 = y ) = ∑ P( X 1 = x (1)
j ) ⋅ P ( X 2 = xk ) =
(2)
∑ j ⋅ pk
p (1) (2)

( j ,k ): y = x (1)
j + xk
(2)
( j ,k ): y = x (1)
j + xk
(2)

(convolution discrète)

V.3.b. Somme de N variables indépendantes discrètes

Soient X1, X2, …, XN des variables indépendantes discrètes. Avec des notations
analogues au ch. VI.3.a. on a

P( S N = y ) = ∑ pk(1)1 ⋅ pk(2)
2
⋅ ... ⋅ pk( NN )
( k1 ,k2, ...,k N ): y = xk(1) + xk( 2 ) +...+ xk( N )
1 2 N
V.4. Lois des grands nombres

Si on lance un grand nombre de fois une pièce équilibrée, la fréquence


d’apparition de pile se stabilise autour de la valeur 0.5, la valeur théorique de la
probabilité d’apparition de pile. Ou plus général :

“La moyenne empirique d’une longue série de variables aléatoires (indépendantes


de même distribution) converge vers la moyenne théorique”.

Ce problème a été étudié par J. Bernoulli (Ars Conjectandi, publié 1713) qui a
montré que la suite des moyennes empiriques converge (selon un mode qui
ressembla la convergence en probabilité) vers la moyenne théorique. Ses
arguments ont été considérablement simplifiés par Tchebychev. Des
généralisations de ce problème nous donnent différentes versions de la loi des
grands nombres.

V.4.a. Loi faible des grands nombres

Soit X1, X2, …, XN ,… une suite de variables aléatoires iid. On note µ = E[Xj] (ne
dépend pas de j), la moyenne théorique et SN/N = (X1 + X2 + …+ XN)/N , la
moyenne empirique. Supposons que σ2 = Var[Xj] <∞.

Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires iid de moyenne
µ et variance σ2 finis. La moyenne empirique SN/N converge en probabilité vers µ,
i.e.

limN→∞ P(|SN/N - µ| ≥ ε) = 0 pour tout ε > 0.

Donc la probabilité que l’erreur soit plus grande qu’un nombre ε donné est zéro
lorsque N tends vers l’infini. On dit que SN/N converge vers µ en probabilité.

Remarque : Ce résultat affirme que les concepts et méthodes dans le Ch. II sont
parfaitement compatible avec l’évaluation expérimentale de la probabilité d’un
événement à l’aide de sa moyenne empirique ou sa fréquence relative.

Preuve: La démonstration est fondée sur l’inégalité de Bienaymé-Tchebychev et


sur les faits suivants:

E[SN/N] = E[SN]/N = N⋅ E[Xj]/N = µ

Var[SN/N] = Var[SN]/N2 = N⋅ Var[Xj]/N2 = σ2/N

Par conséquent la variance de la moyenne empirique tend vers zéro lorsque N tend
vers l’infini, i.e. SN/N devient de moins en moins aléatoire ou dispersée autours de
sa moyenne µ. Par l’inégalité de Bienaymé-Tchebychev

P(|SN/N - E[SN/N] | ≥ ε) ≤ Var[SN/N]/ε2


i.e.

P(|SN/N - µ| ≥ ε) ≤ σ2/(N ε2) → 0 lorsque N →∞.

La loi faible des grands nombres implique que SN/N converge vers µ en loi ou en
distribution, i.e. pour toute fonction f continue, bornée on a

limN→∞ E[f(SN/N)] = f(µ).

En appliquant ce résultat au modèle de Bernoulli (pile ou face) on trouve une


démonstration du théorème d’approximation de Weierstrass, qui affirme qu’une
fonction continue sur un intervalle borné peut être approchée uniformément sur
cet intervalle par des polynômes. En effet, si Xj ∼ Bernoulli(p), alors SN ∼ B(N, p)
et donc

E[f(SN/N)] = ∑k=0..NP(SN = k) f(k/N) = ∑k=0..NCkN pk(1-p)N-k f(k/N).

V.4.b. Loi forte des grands nombres

Nous donnons un énoncé de la loi forte des grands nombres pour les variables
aléatoires de variance finie.

Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires réelles iid de
moyenne µ et variance σ2.
Alors, la moyenne empirique SN/N = (X1 + X2 + …+ XN)/N converge presque
sûrement vers µ, i.e.

P({ω: limN→∞ SN(ω)/N = µ}) = 1,

ou autrement dit, la probabilité de l’événement « SN/N converge vers µ » est


égale à 1.

Remarque : Soit (Zj)j une suite de variables aléatoires sur un espace probabilisé.
On peut montrer l’équivalence suivante : Zj → Z p.s. (presque sûrement) si et
seulement si pour tout ε > 0, limN→∞ P(supj ≥ N |Zj - Z | ≥ ε) = 0.

Preuve : On va démontrer la loi forte des grands nombre sous l’hypothèse


supplémentaire que E[Xj4] < ∞. En plus, supposons que µ = 0.

On applique à (SN/N)4 (noter que cette variable aléatoire est positive) l’inégalité de
Markov. Alors

P(|SN/N | ≥ ε) ≤ E[(SN/N)4]/ε4 = E[(SN)4]/ (Nε)4 pour tout ε > 0.

Or E[(SN)4] ≤ E[Xj4]⋅N 2 , donc on a


P(|SN/N | ≥ ε) ≤ E[Xj4]/(N 2ε4) pour tout ε > 0.

On choisit ε = εN = 1/N 1/8, donc P(|SN/N | ≥ εN) ≤ E[Xj4]/N 3/2, d’où la somme
∑N=1..∞ P(|SN/N | ≥ εN) est convergente. Par le lemme de Borel-Cantelli

P(|SN/N | ≤ εN pour tout N suffisamment grand) = 1,

i.e. P(SN/N converge vers 0) = 1.

Lemme de Borel-Cantelli :
Soit (An)n≥1 une suite d’événements et posons A* = lim supn→∞ An .
Si ∑n=1..∞ P(An) < ∞, alors P(A*) = 0. Autrement dit avec une probabilité égale à 1,
au plus un nombre fini d’événements An se réalisent.
01 BP 12159 Abidjan 01, Tél : 22 42 22 65 /07 23 18 62, Fax : 22 42 27 24

Année universitaire : 2023- 2024.

SYLLABUS DU COURS IUA

*INTITULE DU COURS : Probabilités 1


*Code : ………….
*Type : CM
*Volume horaire : 20 Heures.
*UE de rattachement : ………………………………………………………………
*Niveau/ Spécialité : Licence1 Ingénierie
*Département : École d’ Ingénierie .
*Semestre : 2
*Nombre de crédit :
*Nom de l’enseignant : Dr. KOUAME Yao Simplice
*Contact téléphonique : 07 – 070 - 144 - 72
*Email : simplice_vie16@[Link]
*Statut : Enseignant à l’Université × Professionnel d’Entreprise

*Les objectifs
Il s’agit de consolider d’une part les acquis du calcul de probabilités effectués dans les classes
de terminale et d’autre part effectuer une étude élémentaire des lois discrètes, continues ou à
densité.

*Les objectifs spécifiques


- Assurer la rigueur propre du raisonnement probabiliste des événements aléatoires.
- Utiliser les outils probabilistes pour la résolution de problèmes réels en société à travers
l’étude des lois.

*Les prérequis
Les mathématiques des classes de Lycées.

*Le contenu
Nous couvrirons les thèmes suivants :
- L’analyse combinatoire.
- Le calcul de probabilités.
- Les lois de probabilités discrètes, continues.
- Les densités de probabilités.

*Programme du cours
N° de Séance Contenu Lectures/travaux

Prise de contact et Présentation du Syllabus

Chapitre 1 : Combinatoires élémentaires Pages


Séance 1
1.1 Rappel des notions de la théorie des ensembles. (04h/20h)
1.2 Notions de combinatoires.
1.3 Quelques exemples de dénombrement.

Chapitre 2 : Notions de probabilités

2.1. Un exemple : Le poker.


2.2. La définition du modèle probabiliste. Pages
Séance 2
2.3. Propriété d’une distribution de probabilité.
2.4. Exemples. (08h/20h)
2.5. Evènements indépendants.
2.6. Probabilités conditionnelles.

Chapitre 3 : Suites d’expériences aléatoires


Pages
Séance 3 3.1. Le modèle.
3.2. La loi binomiale. (12h/20h)
3.3. La loi géométrique et la loi binomiale négative.
3.4. Théorèmes limites.
Chapitre 4 : Variables aléatoires

4.1. Définitions et exemples. Pages


Séance 4
4.2. Couples de variables aléatoires.
4.3. Espérance. (16h/20h)
4.4. Variance et Covariance.
4.5. Moment et transformée de Laplace.
Chapitre 5 : Variables indépendantes et
théorèmes limites.

5.1. Définition de l’indépendance des variables


Séance 5 aléatoires. (20h/ 20h)
5.2. Variables aléatoires indépendantes et ordre.
5.3. Somme de variables indépendantes.
5.4. Loi des grands nombres.
5.5. Moment et transformée de Laplace.

*Méthodes et stratégies pédagogiques


Pour atteindre les objectifs visés dans cette unité d’enseignement, avant le début de chaque
cours, nous procédons à un rappel des notions du cours précédent par les apprenants eux-
mêmes. Pendant le cours, nous utilisons aussi bien la méthode magistrale que les méthodes :
démonstrative, interrogative pour évaluer le suivi du cours par les apprenants. Après chaque
cours, nous demandons aux apprenants de préparer les notes correspondant aux prochains
cours. Un support du cours et le syllabus-ci sont remis aux étudiants en tout début du cours afin
de leur permettre de suivre et apprécier l’évolution du cours.
*Langue d’enseignement : Français.
*Modalités d’évaluation

Evaluation continue : 40%


Participation 05%
Interrogations 10%
Devoirs sur table 15%
Travaux à rendre 10%
Examen final en fin de semestre 60%
1ère session : à la fin du cours

Session de rattrapage (2ème session)

*Les références bibliographiques


[1] Sheldon M. Ross. Initiation aux probabilités. Presses polytechniques et universitaires
romandes, 2007.

[2] Rick Durrett. Elementary probability for applications. Cambridge university press, 2009.

[3] P. Barbe et M. Ledoux. Probabilit´e. Espaces 34, Belin, 1998.


I.1.c. Cardinal d’un ensemble fini

Un ensemble E est fini s’il possède un nombre fini d’éléments. On appelle cardinal de
E, le nombre de ces éléments qu’on note card E (ou #E ou |E|).

Propriétés évidentes : 1) Si E = ∅ alors card E = 0.


2) Si A ⊆ E alors card A ≤ card E.

I.1.d. Opérations booléennes

Si A ⊆ E et si B ⊆ E, on définit la réunion de A et B comme l’ensemble des éléments


de E qui sont éléments de A ou B :

A ∪ B = {x∈E, x∈A ou x∈B }.

Evidemment la réunion de A et B contient au plus tous les éléments de A et tous de B


(si A et B n’ont aucun élément en commun), ce qui donne pour des ensembles
finis l’inégalité:

card(A ∪ B) ≤ card(A) + card(B).

On définit ainsi l’intersection de A et B comme l’ensemble des éléments de E qui sont


éléments de A et B :

A ∩ B = {x∈E, x∈A et x∈B }.

Le principe d’exclusion-inclusion nous fournit une relation pour le cardinal de A , B,


A ∩ B, et A ∪ B :

card(A ∪ B) + card(A ∩ B) = card(A) + card(B).

On définit le complémentaire de A comme l’ensemble des éléments de E qui ne sont


pas des éléments de A :

Ac = {x∈E, x∉A}.

Evidemment on a la relation

card(A) + card(Ac) = card(E).

La différence de A et B est définie comme l’ensemble des éléments de E qui sont


éléments de A et qui ne sont pas éléments de B :

A \ B = {x∈E, x∈A et x∉B } = A ∩ Bc.

La différence symétrique de A et B est définie par : A ∆ B = (A \ B) ∪ (B \ A).

2
I.1.e. Suites de sous-ensembles

Soient A1, A2,…, Ai, Ai+1,… des sous-ensembles d’un ensemble E. On peut généraliser
les notions de réunion et d’intersection en définissant :

• ∪A
i =1
i comme le sous-ensemble de E constitué des éléments de E qui

appartiennent à au moins un des sous-ensembles Ai



• ∩ Ai comme le sous-ensemble de E constitué des éléments de E qui
i =1
appartiennent à tous les sous-ensembles Ai.

Définition : Les (Ai)1≤i sont disjoints deux à deux si et seulement si (en abrégé ssi),
pour tout i ≠ j Ai ∩ Aj = ∅. Les (Ai)1≤i forment une partition de l’ensemble E s’ils sont

disjoints deux à deux et si : ∪ Ai = E . Dans ce cas pour tout élément x de E, il existe
i =1
un i et un seul i tel que x∈ Ai.

I.1.f. Ensemble produit cartésien

Soient E, F deux ensembles. On définit le produit cartésien de E et F par :


E × F = {(x,y), x∈E et y∈F}. C’est l’ensemble des couples (x,y) ou x∈E et y∈F.

Attention: Couple et paire sont des notions différentes et donc E × F ≠ F × E.

De même on définit le produit cartésien pour n ensembles (Ei)1≤i≤n:

E1 × …× En = {(x1,…, xn), x1∈E1,…, xn∈En}.

Si Ei = E pour tout i on écrit En pour le produit cartésien .

Le cardinal d’un produit cartésien : Si E et F sont des ensembles finis alors le produit
cartésien E × F est un ensemble fini et card(E × F) = card(E) card(F). Dans le cas
général, on a pour n ensembles finis (Ei)1≤i≤n:

card(E1 × …× En) = card(E1)⋅…⋅card(En).

×F
Tableau 1: Produit cartésien E×
F
E 1 2 3 4 5 6

a a1 a2 a3 a4 a5 a6

b b1 b2 b3 b4 b5 b6

c c1 c2 c3 c4 c5 c6

d d1 d2 d3 d4 d5 d6

3
I.1.g. Propriétés élémentaires du complémentaire et des opérations booléennes

1) (Ac)c = A
2) (A ∪ B)c = Ac ∩ Bc
3) (A ∩ B)c = Ac ∪ Bc
4) (∪i≥1 Ai)c = ∩ i≥1 Aic
5) (∩i≥1 Ai)c = ∪i≥1 Aic
6) A ∩ (B ∪ C) = (A ∩ B ) ∪ (A ∩ C)
7) A ∪ (B ∩ C) = (A ∪ B ) ∩ (A ∪ C)

I.2. Notions de combinatoire

I.2.a. La règle de multiplication

Question: Monsieur Hasard a 6 pantalons, 4 chemises, 2 vestes et 3 paires de chaussures. Combien a-


t-il de façons de s’habiller?

Réponse: Evidemment il y a 6⋅4⋅2⋅3 = 144 façons de s’habiller pour Monsieur Hasard.

Principe : Si l’on fait m expériences de suite et si (indépendamment des résultats des


expériences 1,2, …, k-1) l’expérience k a nk résultats possibles alors le nombre de
résultats possibles pour la suite de m expériences est n1⋅ n2⋅...⋅ nm.

Formulation mathématique : (→ cardinal du produit cartésien, Ch. I.1.f)

Soit Ek l’ensemble des résultats possibles de la kème expérience et card Ek = nk.


Alors E1 × …× Em = {(x1,…, xm), x1∈E1,…, xm∈Em} est l'ensemble des résultats
possibles pour la suite de m expériences.

Question : Combien y-a-t-il de façons de répondre à un questionnaire de 15 questions?


1) Si on répond par oui/non. (réponse: 215)
2) Si on répond par oui/non/je ne saisi pas. (réponse: 315)

Formulation mathématique :

Le nombre d’applications d’un ensemble à k éléments dans un ensemble à n éléments


est nk.

1 1 1
2 2 2
. . . oui
. . .
. . . non

k n 15

questions réponses
par question

4
I.2.b. Permutations et arrangements

Question: Combien y-a-t-il de façons de ranger 6 livres sur une étagère?

Réponse: Par le principe de multiplication on a 6⋅5⋅4⋅3⋅2⋅1 = 6!

Formulation mathématique :

Il y a n ! = n⋅(n-1)⋅…⋅2⋅1 bijections (permutations) d’un ensemble à n éléments dans


un ensemble à n éléments.

1 1
2 2
. .
. .
. .

n 1à1 n

livre position

Question : 12 personnes font parties d’un club de probabilistes. Combien y-a-t-il de façons de choisir :
1 président, 1 vice-président, 1 trésorier et 1 secrétaire ?

Réponse: 12⋅11⋅10⋅9= 11 880.

Considérons le cas général de n membres du club et k fonctions, 0 ≤ k ≤ n. La


réponse est n⋅(n-1)⋅...⋅(n-k+1) = n! / (n-k)!

Formulation mathématique :

Il y a An =
k n!
( n − k )!
injections d’un ensemble à k éléments dans un ensemble à n éléments.

1 1
2 2
. .
. .
. .

k n

fonctions membres

5
I.2.c. Combinaisons (sans répétition)

Question: Il y a toujours 12 membres dans le club de probabilistes. Combien y-a-t-il de façons de


constituer un comité de 4 membres ?

12⋅1110
⋅ ⋅9
Réponse: 4⋅3⋅2⋅1
= 495 (l'ordre n'est pas important).

Généralisation: n membres et un comité de k , 0 ≤ k ≤ n:

Ank n!  n
= = Cnk =  
k ! (n − k )! k !  k

Question: Combien y-a-t-il de mains de poker ?


5
Réponse: C52 .

Formulation mathématique :

Il y a Cn =
k n!
k !( n − k )!
sous-ensemble à k éléments dans un ensemble à n éléments
pour 0 ≤ k ≤ n.

Exemples:
Cn0 = 1
Cn1 = n
Cn2 = n ( n2−1)

n ( n +1)
Remarquons que Cn2 est différent du nombre des paires (= Cn2+1 = 2
) et du nombre
des couples (= n2).

Le problème suivant amène également aux coefficients binomiaux :

Question: Un code binaire est une suite (ou un vecteur) constituée des chiffres 0 et [Link] considère des
codes binaires de longueur 12. Combien y-a-t-il des codes contenants exactement 4 fois le chiffre 1?

Réponse: C412 = 495. Noter l’équivalence au problème de comité : On choisit 4 positions (membres)
sur 12.

Généralisation: code binaire de longueur n contenant k fois « 1 », 0 ≤ k ≤ n: Ckn.

6
I.2.d. Propriétés des coefficients binomiaux

Théorème : (Formule du binôme de Newton ):

n
(a + b ) = ∑ Cnk a n −k bk
n

k =0

Exemples
(a + b)0 = 1
(a + b)1 = C10 a + C11b = a + b
(a + b)2 = C20 a 2 b 0 + C21a 1b1 + C20 a 0b 2 = a 2 + 2ab + b 2
(a + b)3 = C30 a 3b 0 + C31a 2 b 1 + C32 a 1b 2 + C33 a 0b 2 = a 3 + 3a 2 b + 3ab 2 + b 3

En appliquant le théorème de Newton avec a = 1 et b = x ou b = -x on obtient les deux


identités suivantes:
n
(1 + x ) = ∑ Cnk x k
n

k =0
n
(1 − x ) = ∑ Cnk ( −1)k x k
n

k =0

Pour x=1 ceci nous donne

n
2n = ∑ Cnk
k =0
n
0 = ∑ ( −1) k Cnk
k =0

La première identité signifie que le nombre total des sous-ensembles d’un ensemble à
n éléments est 2n.

Exemple : Pour E ={a, b, c} les sous-ensembles possibles sont :

∅: C30 = 1 sous-ensemble de cardinal 0,


{a},{b},{c} C31 = 3 sous-ensembles de cardinal 1,
{a, b},{b, c},{a, c} C32 = 3 sous-ensembles de cardinal 2,
{a, b, c} C33 = 1 sous-ensemble de cardinal 3,

soit 23 = 8 sous-ensembles au total.

7
Théorème : (Triangle de Pascal ) Cnk = Cnk−−11 + Cnk−1 .

0 1 2 3 4 5 . k
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
.
n 1 . . . . . Cnk

Représentation symétrique:

1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
. .
1 1

Théorème : (Formule de Vandermonde)

k

j =0
Cmj Cnk − j = Cnk+m

8
1.2.e. Coefficients multinomiaux

Question : Combien y a-t-il de façons de distribuer les 52 cartes d'un jeu de bridge en 4 mains ?
Réponse:
13
C52 ⋅ C39
13
⋅ C26
13
⋅ C13
13
= 13!13!13!13!
52!
= 53 644 737 765 488 792 839 237 440 000.

Formulation mathématique :
Il y a Cn 1 ⋅ Cn−2 n ⋅ … ⋅ Cn−k n −...−n =
n n n n!
n1 !n2 !...nk !
façons de partager un ensemble de
1 1 k −1
k
cardinal n en k sous-ensembles (disjoints deux à deux) de cardinaux ni où ∑ ni = n .
i =1

Théorème (formule du multinôme) :

(a1 + a2 + ... + ak ) n = ∑ n! n n n
a 1 a 2 ...ak k
n1 !n2 !...nk ! 1 2
( n1 ,...,nk ):
n1 +...+ nk = n
k
Les termes n!
n1 !n2 !...nk !
avec ∑ ni = n sont appelés coefficients multinomiaux.
i =1

I.2.f. Combinaisons (avec répétition)

Question: Combien y-a-t-il de façons de placer 4 boules indiscernables dans 3 tiroirs?

Réponse: On va réduire ce problème au problème du code binaire présenté au Ch.1.2.d. On désigne les
boules par des « 0 » et les tiroirs par des « 1 ». On place le premier « 1 » à la première position. Les
zéros entre ce premier « 1 » et le deuxième « 1 » correspondent aux boules dans le premier tiroir, les
zéros entre le deuxième « 1 » et le troisième « 1 » correspondent aux boules dans le deuxième tiroir et
les zéros situés à droite du troisième « 1 » correspondent aux boules dans le troisième tiroir. Par
exemple :

1000101 signifie qu’il y a trois boules dans le premier tiroir, une dans le deuxième tiroir et aucune dans
le troisième tiroir. 1110000 signifie que les 4 boules sont dans le troisième tiroir.

Puisque on a toujours un chiffre « 1 » à la première position on cherche le nombre des codes binaires de
longueur 4+3-1= 6 qui contient 3-1=2 chiffres « 1 ». Donc il y a C26 = 15 façons de placer 4 boules
indiscernables dans 3 tiroirs.

Généralisation: k boules distribuées dans n tiroirs : Cnk+ k −1 = Cnn+−k1−1

Question: Combien y-a-t-il de vecteurs (x1, x2, x3) distincts à composantes entières et non négatives
satisfaisant x1 + x2 + x3 = 10?

Réponse: On va réduire ce problème au problème de tiroirs ci-dessus. Les composantes correspondent


aux tiroirs et la somme de composantes correspond au nombre de boules. Donc il y a C212 = 66 tels
vecteurs.

Généralisation: vecteurs (x1, x2,…, xn) à composantes entières et non négatives


satisfaisant x1 + x2 + … + xn = k : Cnk+ k −1 = Cnn+−k1−1

9
I.3. Quelques exemples de dénombrement

I.3.a. Bridge
Donner le nombre total de mains au bridge.
13
Pour avoir une main, on doit choisir 13 cartes parmi 52 : C52 = [Link]
possibilités.

Combien de mains sans honneurs, c’est-à-dire sans cartes plus grandes que le 10 (10,
Valet, Dame, Roi, As), y a-t-il au bridge ?
13
Il faut cette fois choisir les 13 cartes parmi 32 : C32 = 347.373.600 possibilités.

1.3.b. Poker
Une main de poker est la donnée de 5 cartes choisies au hasard dans un jeu de 52
cartes. On associe à chaque main une valeur selon les combinaisons particulières
qu'elle présente. Les différentes combinaisons valables sont décrites dans le tableau ci-
dessous, avec la valeur qui leur est associée.

Valeur Main Détails Exemple Nombre


8 quinte flush 5 cartes qui se suivent de la 7♠,8♠,9♠,10♠,V♠ 36
même couleur
7 carré 4 cartes de même hauteur 9♣,9♦,9♥,9♠,As♠ 624

6 full 3 cartes de même hauteur et 8♣,8♦,8♥,As♥,As♠ 3 744


une paire
5 couleur 5 cartes de même couleur et As♣,D♣,9♣,8♣,7♣ 5 112
qui se ne suivent pas
4 suite 5 cartes qui se suivent et ne 10♣,9♣,8♣,7♣,6♥ 9 180
sont pas de même couleur
3 brelan 3 cartes de même hauteur 7♣,9♦,9♥,9♠,As♠ 54 912

2 2 paires 2 fois 2 cartes de même 9♣,9♦,V♥,V♠,As♠ 123 552


hauteur
1 1 paire 2 cartes de même hauteur R♣,R♦,9♥,D♠,V♠ 1 098 240

0 rien de tout 9♣,8♦,5♥,V♠,As♠ 1 303 560


cela
Total 2 598 960

10
Dans la suite, on caractérise une carte par sa couleur (Pique, Cœur, Carreau, Trèfle) et
sa hauteur (2, 3, 4, ... Valet, Dame, Roi, As).

Le nombre total de mains est le nombre de choix de 5 cartes parmi les 52 du jeu.
Il y a donc C525 =2.598.960 mains.

V=8 : Pour obtenir une quinte flush, il faut choisir une couleur (4 choix) puis une
hauteur, par exemple la plus haute de la suite (9 choix).
V8 = 4*9 = 36 quintes flush.

V=7 : Pour obtenir un carré, il faut choisir une hauteur (13 choix) puis la dernière carte
1
de la main ( C48 = 48 choix).
V7 = 48*13 = 624 carrés.

V=6 : Pour obtenir un full, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix) puis la hauteur de la paire, qui ne peut pas être la même (12
choix) et ses couleurs ( C42 = 6 choix).
V6 = 13*4*12*6=3.744 full.

V=5 : Pour obtenir une couleur, il faut choisir la couleur (4 choix) puis les hauteurs
5
( C13 choix). Mais en procédant ainsi, on compte aussi les quintes flush, qu'il faut donc
soustraire.
5
V5 = 4* C13 - V8=5.112 couleurs.

V=4 : Pour obtenir une suite, il faut choisir la hauteur de la carte la plus haute (9
choix) puis la couleur de chaque carte(45 choix). De nouveau, il faut en soustraire le
nombre de quintes flush.
V4 = 9*45-V8 = 9.180 suites.

V=3 : Pour obtenir un brelan, il faut choisir la hauteur du brelan (13 choix) et ses
couleurs ( C43 = 4 choix), puis les hauteurs des 2 cartes restantes, forcément différentes
2
pour ne pas avoir un full ( C12 = 66 choix) et leurs couleurs (42 choix).
2
V3 = 13*4* C12 *42=54.912 brelans.

Alternative 1 : On peut aussi choisir la hauteur du brelan (13 choix) et ses couleurs
( C43 = 4 choix), puis 2 cartes parmi les 48 cartes restantes (la 49ème donne un carré)
2
donc C48 choix. Il faut alors en soustraire le nombre de full :
2
V3 = 13*4* C48 -3744= 54 912.

11
Alternative 2 : On peut encore choisir deux cartes parmi les 49 restantes ; dans ce cas,
il faut soustraire quatre fois le nombre de carrés :
2
V3 = 13*4* C49 - 3744 - 4*624= 54 912.

2
V=2 : Pour obtenir deux paires, il faut choisir la hauteur de chaque paire ( C13 = 78
choix), la couleur des 4 cartes des paires ( C42 * C42 = 36) puis la hauteur et la couleur
de la dernière carte (11*4 = 44 choix).
V2 = 6*13*6*6*11*4=123.552 doubles paires.

V=1 : Pour obtenir une paire, il faut choisir la hauteur (13 choix) et les couleurs
( C42 choix) de la paire, puis 3 hauteurs différentes ( C12
2
choix) et les couleurs des 3
3
cartes restantes (4 choix).
2
V1= 13*6* C13 *43 = 1.098.240 paires.

V=0 : Le nombre de mains sans aucune combinaison valable est la différence entre le
nombre total de mains et le nombre de celles qui ont une valeur plus grande que 1.
V0=2.598.960 - (V8 + V7 + V6 + V5 + V4 + V3 + V2 + V1) = 1.303.560.

Alternative1 : Pour n’avoir ni carré, ni full, ni brelan, ni deux ni une paire on a


5
52*48*44*40*36/5! = 45* C13 choix. Il faut ensuite en soustraire le nombre des quintes
flushs, des couleurs et des suites.
5
V0= 45* C13 - 36 - 5112 – 9180 = 1.303.560.

5
Alternative2 : Il y a ( C13 - 9) choix de valeurs qui ne forment pas une suite de valeurs
consécutives. Pour ne pas avoir des cartes de même couleur on a 45- 4 possibilités. Par
conséquent on a :
5
V0=( C13 - 9)*(45-4)= 1.303.560.

12
CHAPITRE II

NOTIONS DE PROBABILITES

II.1. Un exemple : le poker

Distribuer une main de poker (5 cartes sur 52) revient à tirer au hasard 5 cartes parmi 52. On
appelle expérience aléatoire une telle expérience dont l’issue est soumise au hasard. Une
main ainsi effectivement tirée au hasard est une réalisation de l’expérience, appelée une
épreuve ou expérience élémentaire.

Pour permettre l’analyse des mains distribuées on doit d’abord identifier l’ensemble des
mains possibles.

L’ensemble de tous les résultats possibles d’une expérience aléatoire est appelé ensemble
fondamental de l’expérience aléatoire ou univers des possibles, ou espace des épreuves,
(anglais : sample space), dénoté par Ω ou E ou S. Pour le poker c’est l’ensemble de toutes les
mains possibles. Il s’agit bien entendu ici de l’ensemble de tous les sous-ensembles à 5
éléments d’un ensemble à 52 éléments. Le nombre d’épreuves possibles est alors donné par le
coefficient binomial C552 (voir Ch. I), i.e.

card E = C552 = 2 598 960.

Un événement aléatoire A est représenté par un sous-ensemble, également noté A, de


l’ensemble fondamental. Par exemple, l’événement aléatoire A = « la main est un brelan » est
décrit par l’ensemble de toutes les mains contenant trois cartes de même hauteur et deux
autres cartes de hauteurs différentes. Les opérations logiques sur les événements vont être des
opérations (booléennes) sur les parties d’un ensemble. Par exemple, l’événement aléatoire
Ac = « la main n’est pas un brelan » va être décrit par le complémentaire de A dans
l’ensemble fondamental. Ceci indique pourquoi les notions de théorie des ensembles sont
importantes.

Pour attribuer une probabilité à l’événement A = « la main est un brelan » on fait l’hypothèse
que chaque main à la même probabilité ! Ainsi pour chaque événement A, la probabilité de A
doit être naturellement donnée par la somme de probabilités des mains qui constituent A, ce
qui s’écrit :

Probabilité (A) = card A/card E = nombre de cas favorable/ nombre de cas possibles

Il y a 54912 mains qui sont un brelan. On peut ainsi calculer la probabilité d’avoir un brelan

Probabilité (A = « la main est un brelan ») = 54 912/2 598 960 ≅ 0.0211.


Dans cette approche axiomatique on a attribué a priori une probabilité pour chaque main de
poker. Dans des expériences réelles avec des cartes ou des simulations numériques on observe
que la fréquence d’apparition de A dans une longue série d’expérience converge vers cette
probabilité.

Plus précisément, on répète l’expérience aléatoire (indépendamment) N fois. La fréquence


d’apparition d’un événement A est définie par :

νN(A) = nombre de fois où A est réalisé/nombre total d’expériences

Ici, on distribue, par exemple, 1 million de fois les cartes et on compte la fréquence des
brelans. Dans la loi des grands nombres nous démontrerons que

limN→∞νN(A) = Probabilité (A)

pour la probabilité définie ci-dessus. Ceci pourrait constituer une définition de « type
fréquentiste » de la probabilité de A.

II.2. La définition du modèle probabiliste

II.2.a. L’ensemble fondamental

Dans une expérience aléatoire, on commence par recenser l’ensemble de tous les résultats
possibles de l’expérience. Cet ensemble non vide noté E (ou quelquefois Ω ou S) est
l’ensemble fondamental ou l’univers des possibles ; ses éléments ω sont appelés épreuves.
L’ensemble fondamental E peut-être fini, dénombrable ou infini non-dénombrable.

Exemples :

1. On jette un dé : E = {1,2,3,4,5,6}, card E = 6.


2. On jette une pièce : E = {P, F}, card E = 2.
3. On jette 3 dés : E = {(k1, k2, k3) : kj ∈ {1,2,3,4,5,6} pour j = 1,2,3} =
{1,2,3,4,5,6}3, card E = 63 = 216.
4. On jette 4 pièces : E = {P, F}4 = 24 = 16.
5. On tire 5 cartes parmi 52 (Poker) : E = ensemble de toutes les parties à 5
éléments d’un ensemble à 52 éléments = ensemble de toutes les mains
possibles, card E = C552 = 2 598 960.
6. On tire k boules (sans remise) dans une urne qui en contient n ≥ k boules
numérotées 1 à n. E = ensemble de toutes les parties à k éléments d’un
ensemble à n éléments, card E = Ckn .
7. On tire k boules (avec remise) dans une urne qui en contient n boules
numérotées 1 à n. E = ensemble de toutes les tuples à k éléments d’un ensemble
à n éléments, card E = nk.
II.2.b. La notion d’événement

Un événement aléatoire A est représenté par un sous-ensemble, également noté A, de


l’ensemble fondamental. Un ω ∈ A est un résultat possible. Si ω est une épreuve et ω ∈ A on
dit que l’ événement se réalise dans l’épreuve ω. L’ensemble vide ∅ est appelé événement
impossible et l’ensemble fondamental E est un événement appelé événement certain.

Exemples :

1. On jette un dé. L’ événement «Le résultat est pair » est représenté par
l’ensemble A = {2,4,6}
2. Poker: L’ événement «La main est un full» est représenté par l’ensemble A
={{c1,c2,c3,c4,c5} ∈ E dont la main {c1,c2,c3,c4,c5} est un full}

On utilise parfois simultanément le langage de la théorie des ensembles et celui des


probabilités. Le dictionnaire suivant donne la correspondance entre les notions fréquemment
utilisées.

Théorie des ensembles Probabilités


A sous-ensemble A événement
A = ∅ ensemble vide A événement impossible
A = E ensemble fondamental E événement certain
A⊂B A entraîne B
A ∩ B intersection A et B, conjonction de A et B
A ∪ B réunion A ou B, au moins un de A et B
Ac complémentaire de A Contraire de A
A \ B différence A et contraire de B
A ∆ B différence symétrique Exactement un événement de A ou B
A ∩ B = ∅ ensembles disjoints A et B sont des événements incompatibles
(Ai)i∈I partition de E (Ai)i∈I système complet d’événement
II.2.c. La notion de probabilité

Cas discret (fini ou dénombrable)

Si E est fini, de cardinal N , i.e. E = {ω1, ω2,.., ωN}, toute probabilité sur E est déterminée par
la donnée de N nombres réels pi compris entre 0 et 1 et de somme 1 : p1 + p2 +…+pN = 1.
En effet, si on pose pi = probabilité que ωi soit réalisé, il est clair que ces deux propriétés sont
satisfaites et que l’on peut calculer la probabilité de tout événement A par la formule très
simple

P( A) = ∑
i:ωi ∈A
pi

On vérifie sur cette formule les propriétés fondamentales suivantes de P :

1. P(A) ∈ [0,1]
2. P(E) = 1
3. Si A et B sont des événements incompatibles, alors P(A ∪ B) = P(A) + P(B).

Ces trois propriétés vont servir d’axiomes dans le cas général où E n’est pas fini.

L’exemple fondateur de la théorie est le cas équiprobable (pour E fini) : tous les résultats
possibles (i.e. tous les ωi ) ont la même probabilité pi = 1/N = 1/card E. C’est le cas d’une
distribution uniforme discrète. Donc dans ce cas équiprobable la probabilité d’un événement
A est donnée par :

P(A) = card A/card E = nombre de cas favorable/ nombre de cas possible

Exemple 1 : On jette un dé honnête. Donc l’ensemble fondamental est E = {1,2,3,4,5,6} et


P({i}) = 1/6 pour i = 1,2,3,4,5,6. L’ événement «Le résultat est pair », donné par A = {2,4,6},
a pour probabilité P(A) = ½.

Exemple 2: (Galilée, 1564-1642)


On compte la somme des valeurs de trois dés jetés simultanément. Il y a six configurations
différentes qui permettent d'obtenir 9 ou 10:
• pour 9 : (6,2,1), (5,3,1), (5,2,2), (4,4,1), (4,3,2) et (3,3,3),
• pour 10 : (6,3,1), (6,2,2), (5,4,1), (5,3,2), (4,4,2) et (4,3,3).

Soit S la somme obtenue, peut-on en déduire que P(S=9) = P(S=10) ?

On ne peut pas en déduire que P(S=9)=P(S=10) car les configurations ne sont pas
équiprobables. Il faut tenir compte de l'ordre et donc des permutations possibles de chaque
configuration. Ainsi (3,3,3) ne "compte qu'une fois" alors que (5,2,2) "compte triple" et
(5,3,1) "compte six fois". On obtient ainsi: P(S=9) = 25/216 et P(S=10) = 27/216
II.3. Propriétés d’une distribution de probabilité

Dans la suite du cours nous allons adopter une approche axiomatique qui consiste à déduire
des axiomes précédents les propriétés des distributions de probabilités.

II.3.a. Propriétés élémentaires

Donnons une liste de propriétés élémentaires d’une distribution de probabilité.

Théorème : Soient (E, P) un espace probabilisé et A, B, (Ai) des événements quelconques. P


satisfait les propriétés suivantes :
1. 0 ≤ P(A) ≤ 1
2. P(E) = 1

3. P(∅) = 0

4. Si A et B sont incompatibles, i.e. A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B)


5. P(Ac) = 1 - P(A)

6. Si A entraîne B, i.e. A ⊆ B, alors P(A) ≤ P(B) et P(B \ A) = P(B) - P(A)

7. P(A ∪ B) = P(A) + P(B) - P(A ∩ B), et par conséquent P(A ∪ B) ≤ P(A) + P(B)
∞ ∞
8. Soit (Ai)i∈ IN une suite d’événements, alors P(∪ Ai ) ≤ ∑ P( Ai ) (inégalité de Boole)
i =1 i =1


9. Soit (Ai)i∈ IN une suite croissante, i.e. Ai ⊆ Ai+1, alors limi→∞ P( Ai ) = P(∪ Ai ) .
i =1


10. Soit (Ai)i∈ IN , une suite décroissante i.e. Ai ⊇ Ai+1, alors limi→∞ P( Ai ) = P(∩ Ai ) .
i =1
II.3.b. Probabilités de réunions d’ensembles : Règle d’inclusion-exclusion

La règle d’inclusion-exclusion s’applique à une suite (Ai) 1 ≤ i ≤ N d’événements pour lesquels


on connaît a priori les probabilités des conjonctions d’événements. On peut ainsi calculer la
probabilité de A = A1 ∪ A2 ∪ ... ∪ AN ,i.e. la probabilité que « au moins l’un des Ai est
réalisé » .

Théorème (Formule d’inclusion-exclusion) :


Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule
d’inclusion-exclusion s’écrit :

1. dans le cas de deux événements

P(A1 ∪ A2) = P(A1) + P(A2) - P(A1 ∩ A2)

2. dans le cas de trois événements

P(A1 ∪ A2 ∪ A3) = P(A1) + P(A2) + P(A3)


- P(A1 ∩ A2) - P(A1 ∩ A3) - P(A2 ∩ A3)
+ P(A1 ∩ A2 ∩ A3)

3. dans le cas général

N  N
P  ∪ Ai  = ∑ P ( Ai ) − ∑ P ( Ai1 ∩ Ai2 ) + ∑ P ( Ai1 ∩ Ai2 ∩ Ai3 ) + ...
 i =1  i =1 i1 <i2 i1 <i2 <i3

+ ( −1) ∑ P ( Ai1 ∩ Ai2 ∩ ... ∩ Aik ) + ...


k +1

i1 <i2 <...<ik

+ ( −1) P ( Ai1 ∩ Ai2 ∩ ... ∩ Ain )


N +1

Remarque : Dans la 1ere somme il y a N termes, dans la 2ème il y a N⋅(N-1)/2 = CN2 termes. En
général il y a CNk termes dans la kème somme.
Exemples :

1. On jette 3 dés honnêtes. Quelle est la probabilité d’avoir au moins un 6?

La formule d’inclusion-exclusion permet de répondre à cette question mais n’est pas la


méthode la plus rapide.
Soit A1 l’événement que le premier dé est un six, A2 l’événement que le deuxième dé
est un six et A3 l’événement que le troisième dé est un six. Alors A = A1 ∪ A2 ∪ A3 est
l’événement qu’au moins l’un des dés est un six. Nous appliquons la formule
d’inclusion-exclusion. D’abord on calcule les probabilités des conjonctions
d’événements. On trouve
P(Ai) = 1/6 pour i = 1,2,3

P(Ai ∩ Aj) = 1/36 = P(Ai) ⋅P(Aj) si i ≠ j

P(A1 ∩ A2 ∩ A3) = 1/216 = P(A1) ⋅P(A2) ⋅P(A3).


Alors P(A) = 91/216.

En fait, la méthode la plus rapide pour répondre à la question posée est de passer au
complémentaire : L’événement de n’avoir aucun six lorsqu’on jette trois dés est donné
par Ac = A1c ∩ A2c ∩ A3c (par la formule de de Morgan) et P(Ac) = P(A1c) ⋅ P(A2c) ⋅
P(A3c). Avec P(Aic) = 5/6 on obtient P(Ac) = 125/216 donc P(A) = 91/216.

2. Quelle est la probabilité pour qu’une main de bridge ait au moins une coupe, i.e.
une couleur absente ?

Dans cet exemple la règle inclusion-exclusion est la bonne méthode pour répondre à la
question posée.

Soit Ai l'événement "la couleur i est absente"


où i prend des valeurs dans {♣, ♠, ♥, ♦}. L'événement "au moins une couleur est
absente" est donné par la réunion des toutes les Ai.

On applique le principe d'inclusion-exclusion à la réunion A de quatre événements Ai.


Pour chaque i il y a C1339 possibilités de choisir une main sans la couleur i. Quand il y
a C1352 mains possibles la probabilité de chaque Ai est

P(Ai) = C1339/C1352.

Pour chaque (i,j), i≠j il y a C1326 possibilités de choisir une main sans les couleurs i et
j. La probabilité de chaque intersection Ai ∩ Aj est alors

P(Ai ∩ Aj) = C1326/C1352.


Pour chaque (i,j,k), i≠j, i≠k et j≠k, il y a C1313 possibilités de choisir une main sans les
couleurs i, j et k (i.e il y a seulement la quatrième couleur). La probabilité de chaque
intersection Ai ∩ Aj ∩ Ak est alors
P(Ai ∩ Aj ∩ Ak) = C1313/C1352.
L'intersection de 4 événements Ai a probabilité 0 (chaque main a toujours au moins
une couleur). En appliquant la formule d’inclusion-exclusion pour N = 4 on trouve

P(A1 ∪ A2 ∪ A3 ∪ A4) = 4·P(A1) - 6·P(A1 ∩ A2) + 4·P(A1 ∩ A2 ∩ A3).

La probabilité cherchée est donc 1 621 364 909/31 750 677 980= 0.05106552087.
II.4. Evénements indépendants

II.4.a. Indépendance de deux événements

Nous allons introduire la notion d’indépendance. Commençons par deux exemples où


l’intuition de la notion d’indépendance est évidente.

Exemples :

1. On jette 2 pièces honnêtes. Soient A = « la première donne pile » et B = « la


seconde donne pile ». A et B sont indépendants.

2. On tire 2 cartes. Soient A = « la première donne pique » et B = « la seconde donne


pique ». Si on tire sans remise A et B ne sont pas indépendants, si on tire avec
remise A et B sont indépendants.

Passons à la définition formelle.

Définition : Soient (E, P) un espace probabilisé et A, B des événements.


A et B sont indépendants si et seulement si :

P(A ∩ B) = P(A)P(B)

Il est très facile de vérifier que cette définition est compatible avec l’intuition donnée dans les
exemples précédents. Passons des exemples moins intuitifs.

Exemple 3 : Une famille a n enfants où n ≥ 2. Nous étudions les événements A = « la famille a


des enfants des deux sexes » et B = « la famille a au plus une fille ». A et B sont deux
événements indépendants si et seulement si n = 3! En effet, en faisant l’hypothèse
d’équiprobabilité, on trouve P(A ∩ B) = n/2n, P(A) = 1 - 2/2n et P(B) = (n + 1)/2n.

Exemple 4 : On jette deux dés. Considérons les événements A = « la somme est 7 »,


B = « le premier dé donne 4 » et C = « la différence est paire ». Ici l’ensemble fondamental
est bien entendu E = {(k1, k2) : kj ∈ {1,2,3,4,5,6} pour j = 1,2} = {1,2,3,4,5,6}2. Les
événements A, B et C sont les sous-ensembles de E donnés par
A = {(1,6) , (2,5) , (3,4) , (4,3) , (5,2) , (6,1)}, B = {(4,6) , (4,5) , (4,4) , (4,3) , (4,2) , (4,1)} et
C = {(1,1) , (1,3) , (1,5) , (2,2) , (2,4) , (2,6) ,…, (6,2) , (6,4), (6,6) }. Ainsi card(A) = 6,
card(B) = 6 et card(C) = 18. En faisant l’hypothèse d’équiprobabilité, on calcule aisément
P(A) = 1/6, P(B) = 1/6, P(C) = 1/2, P(A ∩ B) = 1/36, P(A ∩ C) = 0 et P(B ∩ C) = 1/12. A et
B sont indépendants, A et C sont dépendants et B et C sont indépendants. On voit que la
relation d’indépendance n’est pas transitive (A et B sont indépendants, B et C sont
indépendants, mais A et C ne sont pas indépendants).
II.4.b. Indépendance de plusieurs événements

On prolonge la notion d’indépendance de deux événements au cas des suites d’événements.


Soit (Ai) 1 ≤ i ≤ N une suite d’événements.

Définition 1: On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants deux à deux si et
seulement si, pour tout (i, j) et i ≠ j, Ai et Aj sont indépendants.

L’exemple suivant montre que cette définition est trop faible pour prolonger la notion
d’indépendance aux suites d’événements.

Exemple 1: Considérons les anniversaires des trois personnes et les événements A = « 1 et 2


ont le même anniversaire », B = « 1 et 3 ont le même anniversaire » et C = « 2 et 3 ont le
même anniversaire ». Evidemment P(A) = P(B) = P(C) = 1/365 et P(A ∩ B) = P(A ∩ C) =
P(B ∩ C) = 1/365 ⋅ 1/365. Donc A, B, et C sont indépendants deux à deux. Par contre, si deux
événements sont réalisés, par exemple A et B, le troisième événement C est sûrement réalisé,
car les trois personnes ont toutes le même anniversaire. Par conséquent C n’est pas
indépendant de la conjonction de A et B, i.e.

P((A ∩ B) ∩ C) = 1/365 ⋅ 1/365 ≠ P(A ∩ B) ⋅P(C) = P(A) ⋅ P(B) ⋅P(C) = 1/365 ⋅ 1/365 ⋅ 1/365.

Pour prolonger notre notion d’indépendance aux cas de trois événements on devra imposer
une condition supplémentaire non comprise dans la définition de l’indépendance deux à
deux, à savoir :
P(A1 ∩ A2 ∩ A3) = P(A1) ⋅ P(A2) ⋅ P(A3).

Pour une suite de N événements on a la définition suivante.

Définition 2 : On dit que les événements (Ai) 1 ≤ i ≤ N sont indépendants (ou mutuellement
indépendants) si et seulement si pour toute sous-suite d’événements distincts, on a :

P( Ai1 ∩ Ai2 ∩ ... ∩ Aik ) = P( Ai1 ) ⋅ P( Ai2 ) ⋅ ... ⋅ P( Aik )

On a déjà vu que N (N > 2) événements peuvent être indépendants deux à deux sans être
indépendants mutuellement. Si N événements sont mutuellement indépendants ils sont
indépendants deux à deux.

Remarque : Le nombre de conditions imposées dans la définition 2 est égal à :

CN2 + CN3 +…+ CNN = 2N – CN1 – CN0 = 2N – N – 1.


Proposition : Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants.

1. Pour chaque i , 1 ≤ i ≤ N , posons Bi = Ai ou Bi = Aic. Alors (Bi) 1 ≤ i ≤ N est une suite


d’événements mutuellement indépendants.
2. Toute sous-famille de (Ai) 1 ≤ i ≤ N est constituée des événements mutuellement
indépendants.

II.4.c. Probabilité de réunions d’événements indépendants

Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants. Il y a une formule


simple pour calculer la probabilité de A1 ∪ A2 ∪ ... ∪ AN .

Proposition : Soit (Ai) 1 ≤ i ≤ N une suite d’événements mutuellement indépendants. Alors

P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – [1 - P(A1)]⋅ [1 - P(A2)]⋅…⋅ [1 - P(AN)]

Preuve: On passe au complémentaire de A1 ∪ A2 ∪ ... ∪ AN et on applique la règle de de


Morgan ( ∪ Ai)c = ∩ Aic. Par la proposition du Ch. II.4.b. les événements Aic sont
mutuellement indépendants. Donc

P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – P((A1 ∪ A2 ∪ ... ∪ AN)c)

= 1 – P(A1c ∩ A2c ∩ ... ∩ ANc)

= 1 - P(A1c) ⋅P(A2c) ⋅…⋅P(ANc).

Exemple 1: On suppose que une personne est soumise N fois à un risque p d’accident où
0 < p < 1. Quelle est la probabilité d’avoir au moins un accident ? Pour répondre à cette
question on pose Ai = « la ième expérience provoque un accident » et on suppose que les Ai
sont mutuellement indépendants. Avec p = P(Ai) on a

P(« au moins un accident ») = P(A1 ∪ A2 ∪ ... ∪ AN) = 1 – (1 – p)N.

Si N →∞ et p est fixe cette probabilité tend vers 1. Si N →∞ et p → 0 où p est de l’ordre 1/N ,


i.e. p = λ/N pour un λ fixe, alors P(« au moins un accident ») → 1 – exp(-λ). Donc la
probabilité qu’il n’arrive aucun accident est environ P(« pas d’accident ») ∼ exp(-λ) si N est
très grand.
II.5. Probabilités conditionnelles

Dans de nombreuses applications les probabilités conditionnelles ou le conditionnement


constituent un outil précieux pour calculer des probabilités inconnues à partir de probabilités
données.

II.5.a. Définition

Définition : Soient (E, P) un espace probabilisé et A, B des événements quelconques tel que
P(B) > 0. On note

P(A|B) = P(A ∩ B) / P(B)

la probabilité de A conditionnellement à B ou la probabilité de A sachant B.

Les formules suivantes sont souvent très utiles pour calculer des probabilités d’intersections :

P(A ∩ B) = P(A|B) ⋅P(B)

P(A ∩ B) = P(B|A) ⋅P(A)

Cette technique est appelée conditionnement.

La généralisation de ces formules au cas des plusieurs événements est considérée dans le Ch.
II.5.b. (théorème de multiplication ou conditionnement multiple)

Des probabilités conditionnelles ont des propriétés suivantes :

1. Pour tout événement B fixe tel que P(B) > 0 la fonction d’ensembles A → P(A|B) satisfait
les axiomes A1 – A3, i.e. P(A|B) est une distribution de probabilité sur E.

2. Si A et B sont des événements indépendants et P(B) > 0, alors P(A|B) = P(A).

Exemple 1: On jette deux dés. Considérons les événements A = « la somme est 5 »,


B = « le premier dé donne 3 » et C = « le premier dé donne au moins 3 ». Calculer P(A|B) et
P(A|C). On a P(A) = 4/36 = 1/9, P(B) = 1/6, P(A ∩ B) = P({3,2}) = 1/36, donc P(A|B) = 1/6.
La probabilité conditionnelle de A sachant que B est réalisé a augmenté : P(A|B) > P(A). Avec
P(A) = 4/36 = 1/9, P(C) = 4/6 = 2/3, P(A ∩ C) = P({3,2},{4,1}) = 2/36 = 1/18 on trouve
P(A|C) = 1/12. La probabilité conditionnelle de A sachant que C est réalisé a diminué :
P(A|C) < P(A).
II.5.b. Conditionnement multiple

Nous avons déjà vu que la probabilité de la conjonction des deux événements peut être
calculée par le conditionnement sur un des événements. L’itération de cette technique est
appelée conditionnement multiple.

Théorème (théorème ou conditionnement multiple) :

Soient (E, P) un espace probabilisé et (Ai) 1 ≤ i ≤ N une suite d’événements. Alors, la formule du
conditionnement multiple s’écrit:

1. dans le cas de deux événements

P(A1 ∩ A2) = P(A1) ⋅P(A2|A1)

2. dans le cas de trois événements

P(A1 ∩ A2 ∩ A3) = P(A1) ⋅P(A2|A1) ⋅P(A3| A1 ∩ A2)

3. dans le cas général

P(A1 ∩ A2 ∩ ... ∩ AN) = P(A1) ⋅P(A2|A1) ⋅ … ⋅P(AN| A1 ∩ A2∩ ... ∩ AN-1)

si tous les événements A1 ∩ ... ∩ Ak ,1 ≤ k ≤ N – 1, sont de probabilité non nulle.

Exemple 1: Considérons une urne contenant quatre boules blanches et six boules rouges.
Quelle est la probabilité de la suite « blanc, blanc, rouge » si on tire les boules sans remise ?
Pour répondre à cette question nous désignons les événements B1 = « la première boule est
blanche », B2 = « la deuxième boule est blanche » et B3 = « la troisième boule est rouge ».
Alors

P(B1 ∩ B2 ∩ B3) = P(B1) ⋅P(B2|B1) ⋅P(B3| B1 ∩ B2) = 4/10·3/9·6/8 = 1/10.

Remarquons qu’il faut conditionner dans le bon ordre. Par exemple, la formule
P(B1 ∩ B2 ∩ B3) = P(B3) ⋅P(B2|B3) ⋅P(B1| B2 ∩ B3) est juste mais inutilisable.
II.5.c. Formule des probabilités totales

Soient (E, P) un espace probabilisé et A, B des événements quelconques. Les événements B et


Bc forment un système complet d’événements et

P(A) = P(A ∩ B) + P(A ∩ Bc)

Si B et Bc sont de probabilité non nulle on peut utiliser des probabilités conditionnelles pour
calculer les probabilités d’intersections. Donc

P(A) = P(A|B) ⋅P(B) + P(A|Bc) ⋅P(Bc).

Cette formule se généralise au cas d’un système complet d’événement

Théorème (formule des probabilités totales) :

Soient (E, P) un espace probabilisé et (Bi) 1 ≤ i ≤ N un système complet d’événements, tous de


probabilité non nulle. Alors, pour tout événement A, on a:

P(A) = P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) + … + P(A|BN) ⋅P(BN).

Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité d’obtenir trois piles?

Pour résoudre ce problème on conditionne par la pièce choisie, i.e. on applique la formule des
probabilités totales pour les événements A = « on tire trois piles », B1 = « la pièce est
honnête» et B2 = « la pièce a deux piles». On a

P(A) = P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) = 1/8·1/2 + 1·1/2 = 9/16.


II.5.d. Formule de Bayes

On continue la discussion de l’exemple précédent. Maintenant on pose la question inverse.

Exemple 1: On dispose de deux pièces. L’une est honnête, l’autre a deux piles. On choisit une
pièce au hasard et on la lance trois fois. Quelle est la probabilité que la pièce choisie est la
pièce honnête si on a tiré trois piles ?

Nous cherchons la probabilité P(B1|A). En utilisant la définition des probabilités


conditionnelles deux fois on obtient

P(B1|A) = P(A ∩ B1) / P(A) = P(A|B1) ⋅P(B1) / P(A)


= P(A|B1) ⋅P(B1) / [P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2)].

Donc P(B1|A) = 1/8·1/2 : 9/16 = 1/9.

Théorème (formule de Bayes) :

Soient (E, P) un espace probabilisé et (Bi) 1 ≤ i ≤ N un système complet d’événements, tous de


probabilité non nulle. Alors, pour tout événement A de probabilité non nulle, on a, pour tout k,
1≤k≤N:

P(Bk|A) = P(A|Bk) ⋅P(Bk) / [P(A|B1) ⋅P(B1) + P(A|B2) ⋅P(B2) + … + P(A|BN) ⋅P(BN)].

II.5.e. Exemples

1. Exemple élémentaire

Une famille a deux enfants.


a. On sait que l’aîné est un garçon. Quelle est la probabilité que le second soit un garçon ?

Soit A1 l’événement que l’aîné est un garçon, A2 l’événement que le second est un garçon.
Sous des hypothèses convenables A1 et A2 sont indépendants. Alors P(A2) = ½.

b. On sait qu’un des enfants est un garçon. Quelle est la probabilité que l’autre soit un
garçon ?

On sait que A1 ∪ A2 , i.e. A1 ou A2, est réalisé. On veut donc calculer la probabilité de A1 ∩ A2
sachant A1 ∪ A2 . Alors

P(A1 ∩ A2 | A1 ∪ A2) = P(A1 ∩ A2) : P(A1 ∪ A2) = ¼ : ¾ = 1/3.


2. Problème de tests

Pour dépister une maladie, on applique un test. Si le patient est effectivement atteint, le test
donne un résultat positif dans 96% des cas. Mais il se peut aussi que le résultat du test soit
positif alors que le patient est en bonne santé, et ceci se produit dans 2% des cas.
Sachant qu'en moyenne 0.05% des patients sont atteints de la maladie à dépister, calculer la
probabilité pour qu'un patient soit atteint sachant que son test a été positif.

Soit A l'événement: "le test est positif", B l'événement: "le patient est en bonne santé" et M =
BC l'événement: "le patient est atteint de la maladie". Remarquons que:
P(A|M) = 0.96 P(A|B) = 0.02 .
et
P(M) = 0.0005.

Par la formule de Bayes

P(M|A) = P(A|M)P(M)/ [P(A|M)P(M) + P(A|B)P(B)]

= 0.96×0.0005/[0.96×0.0005+0.02×0.9995] = 0.023.

Il est intéressant de constater que seul 2.3% des patients testés positifs sont effectivement
malades. Pourtant le test semble avoir des caractéristiques techniques raisonnables. Comment
comprendre un chiffre si bas ?
CHAPITRE III

SUITES D’EXPERIENCES ALEATOIRES

III.1. Le modèle

Nous commençons par introduire un modèle abstrait, qui généralise le jeu « pile ou face ».

III.1.a. Le modèle abstrait – le processus de Bernoulli

Considérons une suite d’essais d’une même expérience aléatoire que l’on répète indéfiniment
de telle sorte que les conditions soient toujours identiques et que les résultats des différents
essais soient sans influence mutuelle. Supposons que l’expérience n’a que deux résultats
possibles, succès ou échec, et la probabilité du succès soit un nombre p dans l’intervalle [0,1].
Nous appelons une telle suite d’essais un processus de Bernoulli. Il s’agit d’un cas particulier
simple du concept plus général (étudié au Ch.V.) de suite d’expériences aléatoires
indépendantes.

Il est commode d’écrire 1 ou 0 au lieu de « succès » ou « échec ». On peut donc décrire les
résultats d’une suite d’expériences par une suite de 0 et de 1 que l’on notera (Xi) où Xi vaut 0
ou 1 suivant que la i-ième expérience est un échec ou un succès. On dit que (Xi) est une suite
de variables aléatoires indépendantes (voir Ch. IV. pour la définition formelle des variables
aléatoires et Ch. V. pour la définition de l’indépendance).

L’espace fondamental d’un essai est l’ensemble {0,1}. Le processus de Bernoulli dépend d’un
seul paramètre p, la probabilité du succès, et on a

P(Xi = 1) = p et P(Xi = 0) = 1 – p

Définition : On dit que Xi suit une loi de Bernoulli de paramètre p où p est la probabilité de
succès. On écrit

Xi ∼ Bernoulli( p ) ou Xi ∼ B(1, p )

Xi est appelé variable aléatoire de Bernoulli ou plus brièvement variable de Bernoulli.


Si on fait un nombre d’essais N < ∞, l’ensemble fondamental du processus de Bernoulli est
donné par E = {0,1}N. E est l’ensemble de toutes les suites finies de longueur N (ou de N-
uplets) de 0 et de 1, donc card(E) = 2N. En utilisant l’indépendance des essais on trouve que la
probabilité d’une suite est donnée par

P(X1 = x1 , X2 = x2 ,…, XN = xN ) = pnombre de 1(1 – p)nombre de 0 =p #1(1 – p)#0 = p #1(1 – p)N - #1

où xi ∈ {0,1}. En particulier, si p = ½, chaque suite a la même probabilité 1/2N.

Dans le cas où le nombre d’expériences est infini l’ensemble fondamental du processus de


Bernoulli est donné par E = {0,1}IN. E est l’ensemble de toutes les suites infinies indexées
par 0 et 1. On peut montrer que E n’est pas dénombrable, et la probabilité de toute suite (xi)
donnée est nulle ! Bien entendu cela ne signifie pas que la probabilité de tout événement est
nulle.

III.1.b. Exemples

Exemple 1 : Pile ou face


On jette une pièce N fois. On pose Xi = 1 si le résultat du ième jet est pile et Xi = 0 si le résultat
du ième jet est face. Pour une pièce non biaisée p = ½.

Exemple 2 : Problèmes d’urne – tirages avec remise


Une urne contient m boules dont k sont blanches et l = m – k sont noires. On tire N fois une
boule avec remise. On pose Xi = 1 si la ième boule est blanche et Xi = 0 si la ième boule est
noire. On a p = k/m.

Exemple 3 :
Dans chaque unité de temps un appel arrive dans un central téléphonique avec une probabilité
égale à p. On pose Xi = 1 si un appel arrive dans la ième unité du temps et Xi = 0 sinon.

Exemple 4 :
Les transistors fabriqués par une machine sont affectés d’un défaut avec probabilité p. L’état
d’un transistor est indépendant de celui des précédents ou suivants. On pose Xi = 1 si le
transistor a un défaut et Xi = 0 sinon.

Exemple 5 :
On exécute une suite d’épreuves indépendantes. La probabilité qu’un certain événement A est
réalisé dans une épreuve est égale à p = P(A). On pose Xi = 1 si A est réalisé et Xi = 0 sinon.
III.2. La loi binomiale

III.2.a. Le nombre de succès

On définit

SN = X1 + … + XN

où Xi prend des valeurs dans {0,1}. Donc SN est égal au nombre de succès pendant les N
premières expériences. La loi de SN est donnée par

P(SN = k) = CkN pk(1 – p)N – k.

Pour établir cette loi il faut d’abord remarquer que chaque suite de longueur N comportant k
succès a pour probabilité pk(1 – p)N – k. Evidemment il y a CkN possibilités de placer k succès
parmi les N tirages.

Notons, qu’une application de la formule du binôme de Newton (voir Ch. I.2.d.), donne que la
somme de tous les P(SN = k) est 1 :

N N

∑ P( SN = k ) = ∑ CNk p k (1 − p) N −k = ( p + (1 − p) ) = 1 .
N

k =0 k =0

Définition : On dit que SN suit une loi binomiale de paramètres (N, p ) où N désigne le
nombre d’expériences et p est la probabilité de succès dans un essai. On écrit

SN ∼ B(N, p )

SN est appelé variable aléatoire binomiale ou plus brièvement variable binomiale.

Exemple 1: On tire (avec remise) 5 boules dans une urne contenant 10 blanches, 15 noires et
25 rouges. Quelle est la probabilité de tirer 3 boules blanches ?

Solution : On décide ici que le tirage d’une boule blanche est un succès et que le tirage d’une
boule rouge ou d’une boule noire est un échec. Ainsi la probabilité p de succès pour chaque
tirage est p = 10/50 = 1/5. Les tirages s’effectuant avec remise, nous sommes dans le cadre
des tirages indépendants, i.e. d’un processus de Bernoulli. Le nombre S5 de boules blanches
tirées lors de 5 tirages avec remise suit donc une loi binomiale de paramètres N = 5 et p = 1/5.
Alors

P(S5 = 3) = C35 (1/5)3(4/5)2 = 32/625


Exemple 2: Un système de communication comporte 5 composants. Chacun d'entre eux
fonctionnera, indépendamment des autres, avec une probabilité 0.7. Le système total pourra
fonctionner si au moins la moitié de ces composants sont opérationnels. Calculer la
probabilité que le système ne fonctionne pas.

Solution : Soit X le nombre de composants opérationnels. X est une variable aléatoire


binomiale de paramètres 5 et 0.7. La probabilité que le système ne fonctionne pas est donnée
par

P(X=0) + P(X=1) + P(X=2) = C05*0.70*0.35 + C15*0.71*0.34 + C25*0.72*0.33 = 0.16308

III.2.b. Stabilité

Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p). Si les N
expériences de Bernoulli sont indépendantes des M expériences de Bernoulli, on dit que les
variables aléatoires binomiales SM et SN sont indépendantes. Dans ce cas la somme SM + SN
est égale au nombre de succès pendant une suite des N + M expériences de Bernoulli de
paramètre p. Par conséquent, on a

SM + SN = SM+N .

Cette propriété est appelée stabilité.

Proposition : Soient SM et SN deux variables aléatoires binomiales indépendantes de


paramètres (M, p ) et (N, p ). Alors SM + SN suit une loi binomiale de paramètres (M + N, p ),
i.e.

P(SM + SN = k) = CkM+N pk(1 – p)M+N – k.

Au chapitre V on donnera une définition plus précise de l’indépendance de deux variables


aléatoires : Soient SM et SN deux variables aléatoires binomiales de paramètres (M, p) et (N, p).
On dit que SM et SN sont indépendants si et seulement si

P(SM = k et SN = l) = P(SM = k) ⋅ P(SN = l)

pour tout k = 0,…,M et l = 0,…,N .


III.3. La loi géométrique et loi binomiale négative

On considère un processus de Bernoulli de paramètre p. On s’intéresse au nombre T d’essais


jusqu’au premier succès.

III.3.a. Loi du temps du 1er succès

On introduit un temps aléatoire T, défini comme temps du 1er succès dans une suite infinie
d’expériences de Bernoulli, i.e. T = min(k : Xk = 1) = min(k : Sk = 1), où Sk = X1 + … + Xk.
Nous vérifierons ci-dessous que ce temps est fini avec probabilité 1. Pour tout k notons Ak
l’événement { Xk = 1}. L’événement {T = k} est égal à (A1)c ∩ … ∩ (Ak-1)c ∩ Ak. On calcule
alors la loi de probabilité de T.

P(T = 1) = p ,

P(T = 2) = (1 – p) ⋅ p ,

P(T = k) = (1 – p)k – 1 ⋅ p

d’où l’on peut déduire, par exemple, que

P(T > k) = ∑j > k P(T = j) = ∑j > k (1 – p)j – 1 ⋅ p = (1 – p)k.

En particulier, P(T = ∞) = lim k→∞ P(T > k) = lim k→∞ (1 – p)k = 0 si p > 0.
Donc P(T < ∞) = 1, i.e., avec probabilité 1, le temps T est fini.

Définition : On dit que T suit une loi géométrique de paramètre p où p est la probabilité de
succès dans un essai. On écrit

T ∼ Geom(1, p )

T est appelé variable aléatoire géométrique ou plus brièvement variable géométrique.

Exemple : On jette un dé équilibré jusqu’à un « 6 » sort. Quelle est la probabilité qu’on lance
le dé au plus trois fois ?

Solution : Soit T le temps jusqu’à un « 6 » sort. On a T ∼ Geom(1, 1/6). La probabilité


cherchée est

P(T ≤ 3) = P(T =1) + P(T =2) + P(T =3) = 1/6 + 5/6 ⋅1/6 + 5/6 ⋅ 5/6 ⋅1/6 = 91/216 ≅ .4212962963.

On pourra aussi calculer cette probabilité en passant par le complémentaire :

P(T ≤ 3) = 1 - P(T > 3) = 1- (5/6)3 = 1 - 125/216 = 91/216.


III.3.b. Propriété caractéristique de la loi géométrique : perte de mémoire

La loi géométrique est caractérisée par une propriété très importante, la propriété de « perte
de mémoire », i.e. par

P(T > j+k|T > j) = P(T > k)

pour tous les entiers j et k non négatifs. Ainsi sachant qu’il n’y a pas eu de succès jusqu’au
temps j (inclus), la probabilité qu’il y ait un succès dans les k essais suivants est indépendante
de j. En particulier, cette probabilité est identique à celle de n’avoir aucun succès dans les k
premiers essais.

Pour vérifier cette propriété utiliser l’identité P(T > k) = (1 – p)k.

III.3.c. Loi binomiale négative

On s’intéresse au nombre Tr d’essais jusqu’aux r premiers succès.


On définit Tr = min(k : Sk = r), où Sk = X1 + … + Xk. En particulier, T1 est une variable
géométrique. On voit que le support de Tr est l’ensemble { r , r + 1, r + 2, …}. Si Tr = n ,
alors le n-ième essai est un succès et le nombre de succès dans les (n – 1) premières
expériences est égal à (r – 1). Par conséquent, on a l’égalité des événements suivants :

{ Tr = n } = { Xn = 1 et Sn-1 = r – 1}

En utilisant l’indépendance de Xk et Sk-1 on trouve

P(Tr = n) = P(Sn-1 = r – 1) ⋅ P(Xn = 1) = Cr-1n-1 pr-1(1 – p)n – r⋅ p.

La loi de Tr est alors donnée par

P(Tr = n) = Cr-1n-1 pr(1 – p)n – r

pour n = r , r + 1, r + 2, …

Définition : On dit que Tr suit une loi binomiale négative de paramètres p et r, où r désigne le
nombre de succès à achever et où p est la probabilité de succès dans un essai. On écrit

Tr ∼ Geom(r, p)

Tr est appelé variable aléatoire binomiale négative ou plus brièvement variable binomiale
négative.
Exemple (problème des points) : Deux joueurs A et B jettent un dé honnête. Si le résultat est
un « 6 » c’est le joueur A qui marque un point, sinon c’est B qui marque un point. Quelle est
la probabilité que A marque 2 points avant que B marque 9 points ?

Solution : Les deux joueurs réalisent des épreuves indépendantes dont la probabilité du succès
est p = 1/6. Nous cherchons la probabilité que r = 2 succès apparaissent avant m = 9 échecs,
i.e. que le deuxième succès survient au plus tard à la (r + m – 1) = 10-ième épreuve. Donc
cette probabilité est égale à P(T2 ≤ 10) et l’on a

10 10
P(T2 ≤ 10) = ∑ P(T2 = k ) = ∑ Ck1−1 ( 16 ) 2 ( 56 )k −2 = 10389767
20155392 ≅ 0.5154832513 .
k =2 k =2

Cas général : Dans un processus de Bernoulli de paramètre p la probabilité que r succès


apparaissent avant que le m-ième échec ne survienne est donnée par

r + m −1 r + m −1
P(Tr ≤ r + m − 1) = ∑
k =r
P(Tr = k ) = ∑C
k =r
r −1
k −1 p r (1 − p ) k − r .

III.3.d. Stabilité

La loi binomiale négative satisfait une propriété de stabilité. En particulier, chaque variable
binomiale négative s’écrit comme somme de variables géométriques indépendantes.

Proposition : Soient Y1 , … , Yr des variables géométriques indépendantes de paramètre p.


Alors, la variable aléatoire Tr = Y1 + … + Yr suit une loi binomiale négative Geom(r, p).

Corollaire : Soient Tr ∼ Geom(r, p) et Ts ∼ Geom(s, p) deux variables binomiales négatives


indépendantes. Alors, Tr + Ts suit une loi Geom(r + s, p).
III.4. Théorèmes limites

Nous présentons des résultats concernant le comportement asymptotique des lois probabilités
liées au processus de Bernoulli et ses généralisations. Ces résultats, appelés théorèmes limites,
permettront de simplifier considérablement le calcul de probabilités. Ils sont souvent des cas
particuliers d’un théorème plus général qu’on présentera au chapitre V.

III.4.a. Convergence du modèle binomial vers la loi de Poisson

Lorsque le nombre d’essai est grand et la probabilité du succès est petite alors la loi de
nombres de succès s’approche d’une loi très importante en calcul de probabilités, la loi de
Poisson.

Définition: On dit que Z suit une loi de Poisson de paramètre λ > 0, si

P(Z = k) = exp(-λ)⋅ λ k/k!

On écrit

Z ∼ Poisson(λ)

Proposition : Soit SN une variable aléatoire binomiale de paramètres (N, p). Si N → ∞


et p → 0 tel que N⋅p → λ, alors pour tout entier nonnégatif k

P(SN = k) → exp(-λ)⋅ λk/k!,

Ainsi une variable de Poisson modélise le nombre de succès dans un très grand nombre
d’expériences indépendantes où la probabilité de succès est petite ( p ∼ λ/N). L’approximation
poissonnienne fonctionne en fait assez bien même si N n’est pas très grand.

Exemple 1: On jette deux dés 12 fois et on considère le nombre U de double six. La variable
U satisfait une loi binomiale de paramètres N = 12 et p = 1/36, donc on pose λ = 1/3.
Comparer les probabilités exactes et les probabilités calculées en utilisant la loi de Poisson.

k (U = k) exp(-λ)⋅ λk/k!
0 0.7131592556 0.7165313106
1 0.2445117448 0.2388437702
2 0.0384232742 0.0398072950
3 0.0036593594 0.0044230328

Exemple 2: On considère le problème de « matchings » présenté au Ch. II.3.b. On a vu que la


distribution de « matchings » converge vers une distribution de Poisson de paramètre 1.
III.4.b. Convergence de la loi géométrique vers la loi exponentielle

Soit T une variable géométrique de paramètre p. Rappelons que T signifie le nombre d’essais
jusqu’au premier succès ou le temps du 1er succès. Comme précédemment on considère le cas
N → ∞ et p → 0 tel que N⋅p → λ pour un λ > 0. Alors, pour tout t réel positif, on a

P(T/N > t) = P(T > tN) = (1-p)tN ~ (1-λ/N)tN = (1-λt/tN)tN → exp(-λt).

Définition: On dit que U suit une loi exponentielle de paramètre λ > 0, si pour tout t réel
positif

P(U > t) = exp(-λt).

La loi exponentielle est parmi les lois les plus souvent rencontrées dans la pratique de
l’ingénieur. Mentionnons quelques applications de la loi exponentielle : la durée du
fonctionnement ou la durée de vie d’un équipement technique, la désintégration radioactive et
les temps d’attente de clients devant un guichet.

Nous avons donc démontré la proposition suivante.

Proposition : Soit T une variable aléatoire géometrique de paramètre p. Si N → ∞


et p → 0 tel que N⋅p → λ, alors pour tout t réel positif, on a

P(T/N > t) → exp(-λt).

III.4.c. Loi des grands nombres

Nous donnons une première version d’un théorème fondamental du calcul de probabilités : la
loi des grands nombres. Des versions plus générales et mathématiquement plus précises sont
présentées au Ch. V.

Si on lance un grand nombre de fois une pièce honnête, la fréquence d’apparition de pile se
stabilise autour de la valeur 0.5, la valeur théorique de probabilité d’apparition de pile. On
regarde SN, le nombre de succès dans le modèle binomial. Pour p fixé on laisse N → ∞.

Loi des grands nombres : Le nombre moyen de succès lors des N premiers essais, i.e.

SN /N = nombre de succès/nombre d’essais,

tend vers p, la probabilité théorique de succès lorsque N → ∞.


Dans le Ch. IV nous introduisons une quantité, appelée espérance d’une variable aléatoire, qui
donne la valeur moyenne de la fréquence de succès. Pour une variable binomiale cette valeur
est égale à la probabilité théorique de succès (voir aussi Ch. IV) :

E[SN/N] = 0/N*P(SN = 0) + 1/N*P(SN = 1) + ... + k/N*P(SN = k) + ... + N/N*P(SN = N) = p.

C’est pourquoi l’on se pose la question de savoir si le nombre moyen de succès lors des N
premiers essais, SN /N , reste tout près de son espérance E[SN/N]. Il y a évidemment des
événements de probabilité non nulle pour lesquelles la différence SN /N – p n’est pas petite
comme c’est le cas par exemple pour l’événement { SN /N = 1}. Mais cette probabilité tend
vers zéro lorsque N tend vers l’infini : P(SN /N = 1) = pN → 0 lorsque N → ∞. On peut donc
espérer que c’est aussi le cas pour tous les événements de la forme | SN /N – p | > ε pour tout ε
> 0. Ceci est l’énoncé de la loi (faible) des grands nombres présentée dans le chapitre V.
CHAPITRE IV

VARIABLES ALEATOIRES

IV.1. Définitions et exemples


Nous introduisons les notions de variable aléatoire et de fonction de répartition. Soit Ω un
ensemble fondamental et P une probabilité définie sur Ω.

IV.1.a. Variables aléatoires (discrètes)

Dans de nombreuses expériences stochastiques, on représente les résultats possibles par des
nombres réels X(ω) pour tout ω dans l’ensemble fondamental. Pour étudier des grandeurs
dépendant du hasard on est amené à introduire des fonctions définies sur des espaces
probabilisés.

Exemple 1: On jette deux pièces équilibrées. On peut décrire l’ensemble fondamental de cette
expérience par Ω ={(P,P), (P,F), (F,P),(F,F)}, la lettre F représentant « face » et P
représentant « pile ». Ici on s’intéresse au nombre X de piles qui apparaissent et on définit
l’ensemble fondamental par l’image de X, i.e. E = {0 piles, 1 pile, 2 piles} ou simplement E
={0,1,2}. Alors, la distribution de probabilité de X est donnée par

P(X = 0) = P(0 piles) = P({(F,F)}) = ¼


P(X = 1) = P(1 pile) = P({(P,F), (F,P)}) = ½
P(X = 2) = P(2 piles) = P({(P,P)}) = ¼.

Donc X associe à chaque résultat possible de l’expérience un nombre réel, i.e. X est une
fonction à valeurs réelles définie sur l’ensemble fondamental Ω. Pour des raisons historiques
X est appelé variable aléatoire ou plus précisément une variable aléatoire réelle.

Définition: Une variable aléatoire (réelle) X est une fonction X: Ω → E (E ⊂ R ou Z ou N),


i.e. pour tout ω ∈ Ω , X(ω) ∈ E.

On peut interpréter X comme une observable dépendant du hasard. Si le résultat de


l’expérience est ω, alors la variable aléatoire X prend la valeur X(ω). Souvent on prend
directement l’ensemble E des valeurs comme l’ensemble fondamental de l’expérience.

Pour tout événement A dans Ω la variable aléatoire X peut être restreinte en une application de
l’ensemble A dans la partie des nombres réels J = X(A) = {X(ω), ω ∈ A }. En particulier,
l’ensemble fondamental Ω d’une expérience aléatoire correspond à l’ensemble E de tous les
valeurs possibles de X, i.e. E = X(Ω). Pour des ensembles fondamentaux finis ou
dénombrables, E se confond avec un ensemble des entiers.
Exemple 1(suite) : On jette deux pièces équilibrées. On considère l’événement A = " au
moins une pile apparaît". Alors, X a pour valeurs 1 ou 2 , i.e. X ∈ {1,2} ou encore 1 ≤ X ≤ 2.

Exemple 2 : On reconsidère les observables dans le schéma de Bernoulli.


Pour le i-ème essai on définit la variable aléatoire Xi par

Xi = 0 si le résultat est un échec,


Xi = 1 si le résultat est un succès.

Donc pour chaque essai on a E = {0,1}.


Pour une suite de N essais, le vecteur X = (X1,...,XN) est à valeurs dans E = {0,1}N. Dans le
chapitre précédent on a déjà étudié les variables aléatoires suivantes :

Nombre de succès SN : SN = X1 + ... + XN


SN prend ses valeurs dans E = {0,1,...,N}.

Temps du premier succès T: T désigne le premier index i tel que Xi = 1, i.e.


T = min(i, Xi = 1) = min(i, Si = 1), T prend ses valeurs dans E = {1,2,3,...}.

Temps jusqu’aux r premiers succès Tr: Tr désigne le premier index i tel que Si = r, i.e.
Tr = min(i, Si = r), Tr prend ses valeurs dans E = {r, r+1, r+2,...}.

Exemple 3: Pour tout événement A dans Ω on définit la variable indicatrice de A, noté IA , par

IA = 1 si A est réalisé,
IA = 0 si Ac est réalisé.

La variable aléatoire IA est une variable de Bernoulli de paramètre p = P(A).

Définition (variables aléatoires discrètes):


Une variable aléatoire X : Ω → E est dite discrète si E = {x1,x2,...} est un sous-
ensemble discret (fini ou dénombrable) des nombres réels.

IV.1.b. Distribution de probabilités : densité de probabilités et fonction de répartition

Soit X une variable aléatoire réelle définie sur un espace probabilisé (Ω, P). On a défini dans
le chapitre IV.1.a. un ensemble caractéristique de X , l’ensemble de ses valeurs possibles noté
E = {X(ω), ω ∈ Ω}. Rappelons que E est un sous-ensemble des nombres réels. Maintenant il
faut se donner sa distribution de probabilité. Pour une variable aléatoire discrète on peut
définir une densité de probabilités fX(x) par

fX(x) = P(X = x).

Définition : Si X : Ω → E est une variable aléatoire discrète, alors la distribution de


probabilité de X est la donnée des nombres : P(X = xi). La fonction fX(x) = P(X = x) est appelée
fonction de masse.
Remarque : On utilise la même lettre P pour la probabilité sur l’ensemble E. Plus précisément
on a : Pour ω ∈ Ω soit X(ω) = x. Alors P(X = x) := P({ω}) = P(X-1(x)) = (P o X-1)(x) où X-1
désigne l’application réciproque de X.

Exemple 1 : On jette un dé équilibré. Soit X le nombre des points obtenu. La fonction de


masse fX(x) est donnée par

fX(x) = P(X = x) = 1/6 pour x ∈ {1,2,3,4,5,6}

Définition : Soit X : Ω → E une variable aléatoire réelle. Sa fonction de répartition FX(t) est
définie par
FX(t) = P(X ≤ t) pour tout t réel.

La fonction de répartition détermine aussi la distribution. Si X et Y sont deux variables


aléatoires telles que FX(t) = FY(t), alors X et Y ont la même distribution de probabilités.

La fonction de répartition FX(t) vérifie les propriétés suivantes:

Proposition : Soit X : Ω → E une variable aléatoire et FX(t) sa fonction de répartition. Alors :

a. lim t→-∞ FX(t) = 0,

b. lim t→+∞ FX(t) = 1,

c. si s < t alors FX(s) ≤ FX(t)

d. F est continu à droite, i.e. pour tout t réel, FX(t+s) → FX(t) lorsque s → 0+.

e. P(X > s) = 1 - FX(s)

f. P(s < X ≤ t) = FX(t) - FX(s)

Exemple 1 (suite) : On jette un dé équilibré. Soit X le nombre des points obtenus. La fonction
de répartition FX(t) est donnée par

0 si t <1
 k
FX (t) =  si k ≤ t < k + 1 pour k = 1,2, 3, 4,5
6
 1 si 6≤t

Etant donné une variable aléatoire discrète à valeurs dans E = {x1,x2,...}, sa fonction de
répartition n’est pas continue dans les points xi et elle constante entre xi-1 et xi (plus
précisément sur l’intervalle [xi-1 , xi [ ) pour tout i. Donc, en général, la fonction de répartition
peut être représentée par une fonction en escalier élémentaire.
IV.2. Couples de variables aléatoires

On considère des événements relatifs à deux variables aléatoires X et Y sur un espace


probabilisé. Pour traiter de tels problèmes on va introduire les notions de fonctions de
répartitions conjointes et de lois conjointes d’un couple de variables aléatoires (X, Y). Souvent
le couple (X, Y) est appelé vecteur aléatoire (à deux dimensions).

IV.2.a. Fonction de répartition conjointe

Définition : La fonction de répartition conjointe FX,Y (s,t) pour tout couple de variables
aléatoires (X, Y) est définie par

FX,Y(s,t) = P(X ≤ s, Y ≤ t) pour tout couple (s,t) de nombres réels.

IV.2.b. Fonction de répartition marginale

La fonction de répartition de X (respectivement de Y) peut être déduite de la fonction de


répartition conjointe du couple (X, Y) comme suit :

FX(s) = P(X ≤ s) = P(X ≤ s, Y < ∞) = P(lim t→∞ {X ≤ s, Y ≤ t}).

Par la propriété de continuité de P on obtient :

FX(s) = lim t→∞ P(X ≤ s, Y ≤ t) = lim t→∞ FX,Y(s,t) = FX,Y(s,∞).

De façon similaire on trouve la fonction de répartition de Y :

FY(t) = FX,Y(∞, t).

Définition : Les fonctions FX(s) = FX,Y(s,∞) et FY(t) = FX,Y(∞, t) sont appelées fonctions de
répartition marginales de X et Y.

IV.2.c. Propriétés de la fonction de répartition conjointe

Les probabilités de tous les événements peuvent s’exprimer à l’aide de la fonction de


répartition conjointe du couple (X, Y). En particulier, on a

P(s1 < X ≤ s2 , t1 < Y≤ t2) = FX,Y(s2 , t2) + FX,Y(s1 , t1) – FX,Y(s1 , t2) – FX,Y(s2 , t1) pour s1 < s2 ,

t1 < t2.
IV.2.d. Loi discrète conjointe

Si X et Y sont des variables aléatoires discrètes, alors la distribution (ou la loi) de probabilité
conjointe du couple (X, Y) est la donnée des nombres : P(X = xi , Y = yj). Si on définit

fX,Y(x,y) = P(X = x, Y = y),

alors la loi de probabilité marginale de X s’en déduit ainsi :

f X ( x ) = P( X = x ) = ∑
y: f X ,Y ( x , y )>0
f X ,Y (x, y)

et de manière similaire la loi de probabilité marginale de Y est

fY ( y ) = P(Y = y) = ∑
x: f X ,Y ( x , y )> 0
f X ,Y (x, y)

IV.3. Espérance

IV.3.a. Définition

Soit X : Ω → E une variable aléatoire réelle discrète définie sur un espace


probabilisé (Ω, P). L’espérance de X, notée E[X], est définie par

E[ X ] = ∑ x ⋅ P( X = x ) = ∑ x ⋅ f X (x)
x∈E x∈E

La quantité E[X] est parfois aussi appelée valeur moyenne de X. Nous utilisons l’expression
de valeur moyenne uniquement pour des quantités empiriques.

IV.3.b. Exemples
IV.3.b.1. Variable uniforme discrète
X prend ses valeurs dans {x1,...,xN} avec des probabilités P(X = xi) = 1/N pour i = 1,...,N.
L’espérance de X correspond à la moyenne arithmétique des xi.
E[X] = (x1+ .. .+ xN)/N

IV.3.b.2. Variables discrètes: cas fini


X prend des valeurs dans {x1,...,xN}. La loi de probabilités est données par P(X = xi) = pi pour
i = 1,...,N. L’espérance de X correspond à la moyenne arithmétique des xi pondérée avec pi.
E[X] = (p1x1 + ... + pNxN)
Il y a une analogie avec la notion du centre de gravité d’un groupe de masses, au sens de la
mécanique classique: Soit xi la position de la i-ème particule de masse mi sur une ligne. La
mass totale du système est alors m = m1+...+mN. Son centre de gravité se trouve à la position
xc = (m1x1+...+mNxN)/m . Donc, en posant pi = mi/m, on voit que xc = E[X].
IV.3.b.3. Variable indicatrice d’un événement et variable de Bernoulli

Soit A un événement dans Ω. IA est une variable de Bernoulli de paramètre p = P(A).


L’espérance de sa variable indicatrice IA est égale à la probabilité P(A) :

E[IA] = P(A) .

IV.3.b.4. Variable binomiale


Soit X ∼ B(N, p), alors X a pour fonction de masse P(X = k) = CkN·pk·(1-p)N-k pour k = 0,1,...,N.
L’espérance de X est donnée par

E[X] = Np.

IV.3.b.5. Variable géométrique


Soit X ∼ Geom(1, p), alors X a pour distribution P(X = k) = (1-p)k-1p pour tout k = 1,2,3,...
L’espérance de X est donnée par

E[X] = 1/p.

IV.3.b.6. Variable de Poisson


La distribution de X est donnée par P(X = k) = exp(-λ)λk/k! pour k = 0,1,2,…Son espérance est

E[X] = λ.
IV.3.c. Propriétés élémentaires de l’espérance

L’opérateur E[] vérifie les propriétés suivantes :

Linéarité : Soient X et Y deux variables aléatoires et a, b des nombres réels. Alors


E[aX + bY]= aE[X] + bE[Y].

Positivité : Soit X une variable aléatoire telle que X ≥ 0. Alors

E[X] ≥ 0.

Monotonie : Soient X et Y deux variables aléatoires telles que X ≥ Y. Par les propriétés de
linéarité et positivité on a

E[X] ≥ E[Y].

Espérance d’une constante : Si X = c où c est une constante réelle, alors


E[X] = E[c] = c.

La propriété de linéarité est souvent utilisée pour calculer l’espérance d’une loi de probabilité.

Exemple 1: Calcul de l’espérance d’une variable aléatoire binomiale


Une variable binomiale B(N,p), noté SN , s’écrit comme la somme de N variables de Bernoulli
X1 de paramètre p:

SN = X1 + … + XN.

Donc E[SN] = N⋅E[X1] = Np.

Exemple 2: Calcul de l’espérance de la distribution de points fixes


On désigne MN la variable aléatoire représentant le nombre de points fixes dans une
permutation aléatoire σ de {1,2,…,N}. On a calculé la loi MN de dans le chapitre II. On peut
calculer son espérance sans connaître explicitement sa loi de probabilité : comme dans le
chapitre II soit Ai l’événement qu’il y a un point fixe à la position i, i.e. σ(i) = i. Evidemment
P(Ai) = 1/N. On considère la variable indicatrice, notée Ii, de Ai. On a

MN = I1 + I2 + … + IN.

Par conséquent E[MN] = N⋅E[I1] = N⋅P(Ai) = 1. On s’attend en moyenne à un point fixe,


indépendamment de N.
IV.3.d. Espérance d’une fonction d’une variable aléatoire

Considérons une variable aléatoire X , discrète ou continue, et sa distribution de probabilité.


Supposons qu’on veuille calculer l’espérance d’une fonction de X, disons ϕ(X). Remarquons
que ϕ(X) est une variable aléatoire dont la distribution peut être calculer à partir de celle de X.
Si on a pu déterminer cette distribution, on trouve E[ϕ(X)] en appliquant la définition de
l’espérance. Dans le théorème suivant nous montrons qu’il y a une façon de calculer E[ϕ(X)]
sans passer par la distribution de ϕ(X).

Théorème :
Si X est une variable aléatoire discrète à valeurs xk, k ≥ 1, alors pour toute fonction réelle ϕ on
a

E[ϕ(X)] = Σk ϕ(xk)P(X = xk),


sous la condition que la somme soit absolument convergente.

Nous présentons quelques choix de ϕ(X) importants.

Exemples:

1. Fonctions indicatrices

Pour ϕ(x) = 1[a,b](x), i.e. ϕ est la fonction indicatrice de [a,b], on a

E[1[a,b](X)] = P(a≤X≤b)

2. Moments

L’espérance de ϕ(x) = xk est appelée k-ième moment de X. La variance (voir Ch. IV.5.)
contient le deuxième moment de X.

3. Fonction exponentielle
L’espérance de ϕ(x) = exp(tx) pour t réel (ou complexe), correspond à la transformée de
Laplace (ou de Fourier) d’une loi de probabilité. Voir Ch. IV.5.
IV.3.e. Espérance : Inégalités

Inégalité de Cauchy-Schwarz
Soient X et Y deux variables aléatoires réelles. Evidemment,

(X − aY ) 2 ≥ 0 ,
a

donc 2⋅XY ≤ X2/a + aY2 pour tout réel positif a. Par les propriétés de linéarité et de positivité
l’espérance du produit XY satisfait l’inégalité suivante:

2⋅E[XY] ≤ E[X2]/a + aE[Y2].


Si on optimise par rapport à la constante a on obtient l’inégalité de Cauchy-Schwarz :
E[XY] ≤ (E[X2]E[Y2])½.

Inégalité de Jensen
Si ϕ(x) est une fonction convexe, on a
ϕ(tx+(1-t)y) ≤ tϕ(x) + (1- t)ϕ(y)
pour tous x,y réels et pour tout t dans [0,1]. L’espérance d’une variable aléatoire X satisfait
l’inégalité de Jensen:
ϕ(E[X]) ≤ E[ϕ(X)]
Inégalité de Markov
Soit X une variable aléatoire positive. Pour tout a > 0
P(X ≥ a) ≤ E[X]/a.
Preuve: Notons que 1[a,∞)(x) ≤ x/a. En utilisant les propriétés de monotonie et de linéarité de
l’espérance on obtient
P(X ≥ a) = E[1[a,∞)(X)] ≤ E[X/a] = E[X]/a.
IV.4. Variance et Covariance

IV.4.a. Définitions

La variance d’une variable aléatoire X nous permet de mesurer les variations de X autour de
l’espérance.

Définition : Soit X une variable aléatoire d’espérance µ = E[X]. La variance de X est définie
par

Var[X] = E[(X - µ)2].

En utilisant la propriété de linéarité de l’espérance on peut établir la formule suivant pour la


variance qui est en général plus commode :

Var[X] = E[X 2] - µ2.

Définition : L’écart type, noté σ, est défini comme la racine carré de la variance :

σ = (Var[X])1/2.

Définition : La covariance de deux variables aléatoires X et Y, notée Cov[X,Y], est définie


comme suit :
Cov[X,Y] = E[(X – E[X])(Y – E[Y]] = E[XY] – E[X]E[Y].

Par définition, Cov[X,X] = Var[X]. Si Cov[X,Y] = 0 on dit que X et Y ne sont pas corrélés.
Dans le chapitre V nous montrons que des variables aléatoires indépendantes ne sont jamais
corrélées. Pour mesurer la dépendance des deux variables aléatoires X et Y on définit la
corrélation de X et Y par

ρ[X,Y] = Cov[X,Y]/(Var[X]Var[Y])½.
IV.4.b. Exemples (Variance)

IV.4.b.1. Variable uniforme discrète


X prend ses valeurs dans {x1,...,xN}, et P(X = xi) = 1/N pour i = 1,...,N. La variance de X est
donnée par
Var[X] = ((x1 - xc)2+...+ (xN - xc)2) /N
où xc= E[X].

IV.4.b.2. Variables discrètes: cas fini


X prend des valeurs dans {x1,...,xN}. La loi de probabilités est données par P(X = xi) = pi pour
i = 1,...,N. La variance de X est donnée par
Var[X] = (p1(x1 - xc)2+...+ pN(xN - xc)2).
Dans l’analogie mécanique présentée dans IV.3.b.2 la variance correspond au moment
d’inertie du système de particules.

IV.4.b.3. Variable indicatrice d’un événement et variable de Bernoulli

Soit A un événement dans Ω. IA est une variable de Bernoulli de paramètre p = P(A).


La variance de sa variable indicatrice IA est donnée par :

Var[IA] = P(A) (1 – P(A)).

IV.3.b.4. Variable binomiale


Soit X ∼ B(N, p), alors X a pour fonction de masse P(X = k) = CkN·pk·(1-p)N-k pour k = 0,1,...,N.
On a E[X] = Np. X a pour variance

Var[X] = Np(1 - p).

IV.3.b.5. Variable géométrique


Soit X ∼ Geom(1, p), alors X a pour distribution P(X = k) = (1-p)k-1p for all k = 1,2,3,... Pour sa
variance on trouve

Var[X] = (1 - p)/p2.

IV.3.b.8. Variable de Poisson


La distribution de X est donnée par P(X = k) = exp(-λ)λk/k! pour k = 0,1,2,…Sa variance est
Var[X] = λ.
IV.4.c. Propriétés élémentaires
L’opérateur Var[] a des propriétés suivantes :

IV.4.c.1. Homogénéité
Pour tout λ réel
Var[λX] = λ2Var[X]

IV.4.c.2. Positivité
Var[X] ≥ 0,
et Var[X] = 0 si et seulement si X = E[X] , i.e. X est une variable aléatoire constante.

IV.4.c.3. Variance de la somme des deux variables aléatoires


En général, la variance n’est pas additive. On a
Var[X+Y] = Var[X] + Var[Y] + 2Cov[X,Y].
Si les variables X et Y ne sont pas corrélées , i.e. Cov[X,Y] = 0, la variance est additive.

IV.4.c.4. (Bi-) Linéarité de la Covariance


La covariance Cov[X,Y] est linéaire en chaque composante, i.e.
Cov[a1X1+a2X2,Y] = a1Cov[X1,Y] + a2Cov[X2,Y]

IV.4.c.5. Borne sur la corrélation


En utilisant l’inégalité de Cauchy-Schwarz on obtient une borne sur la corrélation de deux
variables aléatoires X et Y:
-1 ≤ ρ(X,Y) ≤ 1

IV.4.c.5. Inégalité de Bienaymé - Tchebychev

Soit X une variable aléatoire d’espérance µ=E[X] et de variance σ2= Var[X] finies. Pour tout
réel a > 0 :

σ2
P( X − µ ≥ a) ≤ 2
a
Preuve : On applique l’inégalité de Markov (voir IV.3.e.) avec a2 à la variable (X - µ)2.
IV.5. Moments et transformée de Laplace

IV.5.a. Moments
Pour tout entier positif k, on appelle moment d’ordre k de X et on note mk
mk = E[Xk].
Le moment centré d’ordre k de X noté mc,k est la valeur
mc,k = E[(X-m1)k].
Notons, que mc,2 = Var[X].

Exemple: Variable aléatoire de Bernoulli de paramètre p


On a Xk = X et par conséquent E[Xk] = p tout k entier. Le moment centré d’ordre k de X est
donné par
mc,k = E[(X-p)k] = (1-p)kp + (1-p)(-p)k.

IV.5.b. Définition de la transformée de Laplace


Soit X une variable aléatoire. On appelle transformé de Laplace de X la fonction LX[t] définie
par
LX[t] = E[exp(tX)]

pour les valeurs de t où LX[t] est finie. La transformée de Laplace est un outil de calcul très
utile. Elle caractérise la distribution de X, i.e. si LX[t] = LY[t] pour tout t sur un voisinage de 0,
alors X et Y ont la même distribution. Alors, en particulier, pour tout t, FX(t) = FY(t).

IV.5.c. Relation avec les moments


La transformée de Laplace permet de calculer les moments simplement. Si LX[t] < ∞ sur un
voisinage de 0, alors LX[t] est indéfiniment dérivable. La dérivée de LX[t] par rapport à t,
notée L'X[t], est donnée par L'X[t] = E[X ⋅ exp(tX)]. On trouve donc
E[X] = L'X[0],
Plus général, le moment d’ordre k de X est donné par la k-iéme derivée de LX[t]
E[Xk] = L(k)X[0].
IV.5.d. Exemples

IV.5.d.1. Variable de Bernoulli


Soit X une variable de Bernoulli de paramètre p. Sa transformée de Laplace est donnée par
LX[t] = p·exp(t) + 1 - p.

IV.5.d.2. Variable binomiale


Soit X une variable binomiale de paramètres p et N. On a
LX[t] = (p·exp(t) + 1 - p)N.

IV.5.d.3. Variable géométrique


Soit X une variable géométrique de paramètre p. On a

p ⋅ et
LX [ t ] =
1 − (1 − p ) ⋅ et

IV.5.d.4. Variable de Poisson


Soit X une variable de Poisson de paramètre λ. On a
LX[t] = exp[λexp(t)-1].
CHAPITRE V

VARIABLES INDEPENDANTES ET THEOREMES LIMITES

V.1 Définition de l’indépendance des variables aléatoires

La notion d’indépendance joue un rôle fondamental en calcul des probabilités et


des statistiques.

VI.1.a. Définition : Indépendance des deux variables aléatoires

Soient X1 et X2 deux variables aléatoires sur le même espace probabilisé. On dit


que X1 et X2 sont indépendantes si et seulement si pour tout couple A et B les
événements { X1 ∈ A } et { X2 ∈ B } sont indépendants, i.e.

(1) P(X1 ∈ A et X2 ∈ B) = P(X1 ∈ A) P(X2 ∈ B) .

De façon équivalente on peut définir l’indépendance des deux variables aléatoires


par une propriété de l’espérance.

X1 et X2 sont indépendantes si et seulement si pour toute fonction φ1 et φ2

(2) E[φ 1(X1) φ 2(X2)] = E[φ 1(X1)]E[φ 2(X2)].

Il est facile de montrer que la définition (1) est un cas particulier de l’identité (2).
En effet, si φ 1 = 1A (i.e. φ 1(x) = 1 si x ∈ A et φ 1(x) = 0 sinon) et
φ 2 = 1B (i.e. φ 2(x) = 1 si x ∈ B et φ 2(x) = 0 sinon), alors (2) s’écrit :

1 si x1 ∈ A et x2 ∈ B 
φ1 ( x1 ) φ2 ( x2 ) =  
0 sinon 

Donc E[φ 1(X1) φ 2(X2)] = P(X1 ∈ A et X2 ∈ B) . Or E[φ 1(X1)] = P(X1 ∈ A)


et E[φ 2(X2)] = P(X2 ∈ B) et (2) s’écrit (1).

En fait on peut montrer que (1) est équivalent à (2).

Remarque : Pour prouver l’indépendance (1) est plus facile. Pour utiliser
l’indépendance (2) est plus puissant.

Une troisième condition équivalente est donnée en terme des fonctions de


répartition. Les fonctions de répartition respectives F, F1 et F2 de X = (X1 , X2) , X1
, X2 vérifient pour tous xi réels, i = 1,2 :

(3) F(x1, x2) = F1(x1) F2(x2)


V.2.b. Indépendance et covariance

Si X1 et X2 sont indépendantes alors Cov [X1, X2] = 0, donc aussi Corr [X1, X2] =
0, i.e. X1 et X2 sont non-corrélées.

Preuve : En utilisant la définition de la covariance et la définition (2) de


l’indépendance on a
Cov [X1,X2] = E[X1 X2] – E[X1] E[X2] = 0.

Attention : La réciproque est fausse. Il y a des variables aléatoires X1 et X2 non-


corrélées (i.e. Corr [X1 , X2] = 0) mais dépendantes.

V.1.c. Indépendance de plusieurs variables aléatoires

Les variables aléatoires X1, X2, …, XN sont indépendantes si et seulement si elles


vérifient l’une des conditions équivalentes suivantes

(1) ∀ A1, A2, .., AN : P(X1 ∈ A1 ,.., XN ∈ AN ) = P(X1 ∈ A1 )⋅ … ⋅P(XN ∈ AN )

(2) Pour toutes fonctions φ 1, …, φ N :

E [φ 1 (X1) … φ N (XN)] = E [φ 1 (X1] … E [φ N (XN)]

(3) Les fonctions de répartition respectives F, F1 ,.., Fn de X = (X1 ,.., Xn) , X1 ,..,
Xn vérifient pour tous xi réels , i = 1,2 :

F(x1,.., xn) = F1(x1) ⋅… ⋅ Fn(xn)

Remarque : Si X1, X2, …, XN sont indépendantes alors (Xi, Xj) sont


indépendantes pour tout i ≠ j. La réciproque est fausse, puisqu’il est possible que
les variables aléatoires soient indépendantes 2 à 2 mais dépendantes.

V.1.d. Distribution conjointe de variables aléatoires indépendantes

La distribution conjointe d’un couple de variables aléatoires

Soient X1 et X2 deux variables aléatoires sur le même espace probabilisé. La


distribution conjointe du couple (X1, X2) est la donnée de = P((X1, X2) ∈ C) ∀ C
possibles.

En général, cette distribution conjointe est difficile à calculer, mais facile dans le
cas indépendant.
Cas des variables aléatoires discrètes : Soient X1, X2 deux variables aléatoires
indépendantes et discrètes. On se donne la distribution de X1 :

P ( X 1 = X (1)
j ) = Pj
(1)

et celle de X2
P ( X 2 = X k(2) ) = Pk(2)

Les valeurs possibles du couple (X1, X2) sont tous les couples de la forme
( )
X h(1) , X d( 2) donc la distribution jointe :
P (( X 1 , X 2 ) = (X (1)
j , X k ))
(2)

= P ( X 1 = X (1)
j )⋅ P ( X2 = Xk )
(2)

= Pj(1) ⋅ Pk(2)
V.2 Variables aléatoires indépendantes et ordre

V.2.a. Maximum ou minimum de variables aléatoires indépendantes

Soient X1, X2, …, XN des variables aléatoires indépendantes. On pose :

MN = max (X1, X2, …, XN)

mN = min (X1, X2, …, XN)

Le problème consiste à calculer la distribution des variables aléatoires MN et mN.


La fonction de répartition de MN est donnée par

FM N (t ) = P ( M N ≤ t ) = P ( X 1 ≤ t et X 2 ≤ t et ... et X N ≤ t )

= P ( X 1 ≤ t ) ... P ( X 2 ≤ t ) ... P ( X N ≤ t )
Par conséquent la fonction de répartition de MN s’écrit comme produit des
fonctions de répartition des Xj :

FM N (t ) = FX1 (t ) ⋅ ... ⋅ FX N (t )

La fonction de répartition de mN est donnée par

FmN (t ) = P (mN ≤ t ) = 1 - P (mN > t ) = 1 - P ( X 1 > t et ... et X N > t )

= 1 - P ( X 1 > t ) ⋅ ... ⋅ P ( X N > t )


et donc par

FmN (t ) = 1 − (1 − FX1 (t )) ⋅ ... ⋅ (1 − FX N (t ))

Exemple : Soient X1 et X2 deux variables aléatoires exponentielles indépendantes


des paramètres θ1 et θ2. On va montrer que le minimum m2 = min (X1, X2) est une
variable exponentielle de paramètre θ1 + θ2.
On a FX1 (t ) = 1 - e −θ1t , FX 2 (t ) = 1 - e −θ2t et Fm2 (t ) = 1 − (1 − FX1 (t )) ⋅ (1 − FX 2 (t ))

= 1 − (e −θ1t )( e −θ2t ) = 1 − e − (θ1 +θ2 ) t


V.3. Sommes de variables indépendantes

Le problème consiste à calculer la distribution, l’espérance, la variance de la


somme de N variables aléatoires indépendantes. Soient X1, X2, …, XN des
variables aléatoires et SN = X1 + X2 + …+ XN .

On rappelle les faits suivants.


L’espérance de SN est égale à la somme des espérances des Xj car l’espérance est
linéaire :

E[SN] = E[X1] + E[X2]+…+E[XN]

Si les variables aléatoires sont non-corrélées la variance de SN est égale à la


somme des variances des Xj car la variance est linéaire pour des variables
aléatoires non-corrélées.

Var[SN] = Var [X1] + Var [X2]+…+ Var [XN]

Pour calculer la distribution de SN on a besoin de l’hypothèse de l’indépendance


des Xj .

V.3.a. Somme de deux variables indépendantes discrètes

Soient X1, X2 deux variables indépendantes discrètes. Supposons que X1 a pour


valeurs (x(1)j) , X2 a pour valeurs (x(2)k) et leurs distributions sont données par

P(X1 = x(1)j) = p(1)j et P(X1 = x(2)j) = p(2)j .

Les valeurs possibles de S2 = X1 + X2 sont les valeurs y telles que y = x(1)j + x(2)k
pour un ou plusieurs couples (j,k). Donc

P ( S2 = y ) = ∑ P( X 1 = x (1)
j et X 2 = xk )
(2)

( j ,k ): y = x (1)
j + xk
(2)

et par l’indépendance

P ( S2 = y ) = ∑ P( X 1 = x (1)
j ) ⋅ P ( X 2 = xk ) =
(2)
∑ j ⋅ pk
p (1) (2)

( j ,k ): y = x (1)
j + xk
(2)
( j ,k ): y = x (1)
j + xk
(2)

(convolution discrète)

V.3.b. Somme de N variables indépendantes discrètes

Soient X1, X2, …, XN des variables indépendantes discrètes. Avec des notations
analogues au ch. VI.3.a. on a

P( S N = y ) = ∑ pk(1)1 ⋅ pk(2)
2
⋅ ... ⋅ pk( NN )
( k1 ,k2, ...,k N ): y = xk(1) + xk( 2 ) +...+ xk( N )
1 2 N
V.4. Lois des grands nombres

Si on lance un grand nombre de fois une pièce équilibrée, la fréquence


d’apparition de pile se stabilise autour de la valeur 0.5, la valeur théorique de la
probabilité d’apparition de pile. Ou plus général :

“La moyenne empirique d’une longue série de variables aléatoires (indépendantes


de même distribution) converge vers la moyenne théorique”.

Ce problème a été étudié par J. Bernoulli (Ars Conjectandi, publié 1713) qui a
montré que la suite des moyennes empiriques converge (selon un mode qui
ressembla la convergence en probabilité) vers la moyenne théorique. Ses
arguments ont été considérablement simplifiés par Tchebychev. Des
généralisations de ce problème nous donnent différentes versions de la loi des
grands nombres.

V.4.a. Loi faible des grands nombres

Soit X1, X2, …, XN ,… une suite de variables aléatoires iid. On note µ = E[Xj] (ne
dépend pas de j), la moyenne théorique et SN/N = (X1 + X2 + …+ XN)/N , la
moyenne empirique. Supposons que σ2 = Var[Xj] <∞.

Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires iid de moyenne
µ et variance σ2 finis. La moyenne empirique SN/N converge en probabilité vers µ,
i.e.

limN→∞ P(|SN/N - µ| ≥ ε) = 0 pour tout ε > 0.

Donc la probabilité que l’erreur soit plus grande qu’un nombre ε donné est zéro
lorsque N tends vers l’infini. On dit que SN/N converge vers µ en probabilité.

Remarque : Ce résultat affirme que les concepts et méthodes dans le Ch. II sont
parfaitement compatible avec l’évaluation expérimentale de la probabilité d’un
événement à l’aide de sa moyenne empirique ou sa fréquence relative.

Preuve: La démonstration est fondée sur l’inégalité de Bienaymé-Tchebychev et


sur les faits suivants:

E[SN/N] = E[SN]/N = N⋅ E[Xj]/N = µ

Var[SN/N] = Var[SN]/N2 = N⋅ Var[Xj]/N2 = σ2/N

Par conséquent la variance de la moyenne empirique tend vers zéro lorsque N tend
vers l’infini, i.e. SN/N devient de moins en moins aléatoire ou dispersée autours de
sa moyenne µ. Par l’inégalité de Bienaymé-Tchebychev

P(|SN/N - E[SN/N] | ≥ ε) ≤ Var[SN/N]/ε2


i.e.

P(|SN/N - µ| ≥ ε) ≤ σ2/(N ε2) → 0 lorsque N →∞.

La loi faible des grands nombres implique que SN/N converge vers µ en loi ou en
distribution, i.e. pour toute fonction f continue, bornée on a

limN→∞ E[f(SN/N)] = f(µ).

En appliquant ce résultat au modèle de Bernoulli (pile ou face) on trouve une


démonstration du théorème d’approximation de Weierstrass, qui affirme qu’une
fonction continue sur un intervalle borné peut être approchée uniformément sur
cet intervalle par des polynômes. En effet, si Xj ∼ Bernoulli(p), alors SN ∼ B(N, p)
et donc

E[f(SN/N)] = ∑k=0..NP(SN = k) f(k/N) = ∑k=0..NCkN pk(1-p)N-k f(k/N).

V.4.b. Loi forte des grands nombres

Nous donnons un énoncé de la loi forte des grands nombres pour les variables
aléatoires de variance finie.

Théorème : Soit X1, X2, …, XN ,… une suite de variables aléatoires réelles iid de
moyenne µ et variance σ2.
Alors, la moyenne empirique SN/N = (X1 + X2 + …+ XN)/N converge presque
sûrement vers µ, i.e.

P({ω: limN→∞ SN(ω)/N = µ}) = 1,

ou autrement dit, la probabilité de l’événement « SN/N converge vers µ » est


égale à 1.

Remarque : Soit (Zj)j une suite de variables aléatoires sur un espace probabilisé.
On peut montrer l’équivalence suivante : Zj → Z p.s. (presque sûrement) si et
seulement si pour tout ε > 0, limN→∞ P(supj ≥ N |Zj - Z | ≥ ε) = 0.

Preuve : On va démontrer la loi forte des grands nombre sous l’hypothèse


supplémentaire que E[Xj4] < ∞. En plus, supposons que µ = 0.

On applique à (SN/N)4 (noter que cette variable aléatoire est positive) l’inégalité de
Markov. Alors

P(|SN/N | ≥ ε) ≤ E[(SN/N)4]/ε4 = E[(SN)4]/ (Nε)4 pour tout ε > 0.

Or E[(SN)4] ≤ E[Xj4]⋅N 2 , donc on a


P(|SN/N | ≥ ε) ≤ E[Xj4]/(N 2ε4) pour tout ε > 0.

On choisit ε = εN = 1/N 1/8, donc P(|SN/N | ≥ εN) ≤ E[Xj4]/N 3/2, d’où la somme
∑N=1..∞ P(|SN/N | ≥ εN) est convergente. Par le lemme de Borel-Cantelli

P(|SN/N | ≤ εN pour tout N suffisamment grand) = 1,

i.e. P(SN/N converge vers 0) = 1.

Lemme de Borel-Cantelli :
Soit (An)n≥1 une suite d’événements et posons A* = lim supn→∞ An .
Si ∑n=1..∞ P(An) < ∞, alors P(A*) = 0. Autrement dit avec une probabilité égale à 1,
au plus un nombre fini d’événements An se réalisent.

Vous aimerez peut-être aussi