Probabilités et Variables Aléatoires
Probabilités et Variables Aléatoires
Jean-Christophe Breton
Université de La Rochelle
Janvier–Mai 2010
2 Mesures de probabilité 13
2.1 Espace de cardinal fini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Espaces infinis dénombrables (par exemple N, Z) . . . . . . . . . . . . . . . 14
2.3 Espace Ω général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Indépendance et conditionnement 21
3.1 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
i
ii Table des matières
7 Vecteurs aléatoires 71
7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Vecteurs aléatoires discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.3 Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4 Vecteurs aléatoires réels à densité . . . . . . . . . . . . . . . . . . . . . . . 75
7.5 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . 77
7.6 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.6.2 Cas continu : densité conditionnelle . . . . . . . . . . . . . . . . . . 83
Introduction
Dans la vie courante, il existe de nombreuses expériences dont le résultat n’est pas
connu avec certitude. C’est l’objet de la théorie des probabilités que de fournir des modèles
mathématiques permettant l’étude d’expériences dont le résultat n’est pas connu ou ne
peut pas être prévu avec une totale certitude. Par exemple :
Dans ce cours, nous verrons les outils probabilistes de base pour calculer des probabilités
d’évènements.
Nous définirons les lois classiques et nous étudierons leurs utilisations. Les cas des
variables aléatoires discrètes et des variables aléatoires à densité sont traités.
Dans une deuxième partie, nous considérerons les vecteurs aléatoires et les sommes de
variables aléatoires (indépendantes).
Nous terminerons avec la loi des grands nombres et le théorème central limite qui sont
les premiers résultats fondamentaux des Probabilités.
Chapitre 1
La théorie moderne des probabilités utilise le langage des ensembles pour modéliser
une expérience aléatoire. Nous commencons donc par quelques rappels sur les opérations
usuelles entre les ensembles.
Démonstration : Exercice
Rappelons enfin que de façon générale, pour montrer l’égalité A = B de deux ensembles
A et B, il faut (et il suffit de) voir la double inclusion
A⊂B et B ⊂ A.
3
4 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle
C’est à dire, montrer que pour tout ω ∈ A, on a ω ∈ B et de la même façon pour tout
ω 0 ∈ B, on a ω 0 ∈ A. On peut éventuellement le faire en une seule étape si on raisonne par
équivalence : il faut alors montrer que ω ∈ A est équivalent à ω ∈ B.
Notez enfin que en mathématiques le « ou » est un ou inclusif alors que dans le langage
usuel il s’agit d’un ou exclusif (dessert ou fromage ? c’est l’un ou l’autre mais pas les deux
alors qu’avec le « ou » mathématiques, ça pourrait être les deux).
Les opérations sur les ensembles (ou sur les évènements) peuvent faire intervenir plus
de deux évènements. Ainsi si A1 , . . . , An sont des évènements,
n
[
Ai = A1 ∪ A2 ∪ · · · ∪ An
i=1
est l’ensemble des ω qui sont dans tous les Ai . On étend encore ces définitions aux réunions
et intersections dénombrables (i.e. en nombre infini mais qu’on peut énumérer) :
[ +∞
[
Ai = Ai = {réalisation d’au moins un Ai },
i∈N i=1
\ +∞
\
Ai = Ai = {réalisation de tous les Ai }.
i∈N i=1
Rappel (dénombrabilité) : une partie infinie est dénombrable si elle peut être mise en
bijection avec N, c’est à dire si on peut énumérer tous ses éléments. L’ensemble N, bien
sûr, est dénombrable mais Z, Q le sont aussi. Par contre [0, 1] ou R ne le sont pas.
Comme on peut énumérer aussi les éléments d’une partie finie, il est usage d’inclure
le cas fini dans le cas dénombrable, même si d’ordinaire, le terme dénombrable est utilisé
pour les parties infinies dénombrables.
Ces opérations logiques sur des suites d’évènements sont très utiles pour analyser les
évènements complexes : il s’agit de les réexprimer comme réunion, intersection, complémen-
taire d’évènements plus simples. Il importe donc de bien traduire en langage ensembliste
un énoncé et ses enchaı̂nements logiques.
Démonstration :
• Pour le premier point : Soit ω qui, à partir d’un certain rang, est dans tous les Ai .
On traduit cela de la façon suivante : il existe un rang i tel que pour tout rang j > i, ω est
dans Aj . D’après la signification des symboles ∀, ∃, ∩, ∪, cela revient à écrire
[ \
ω∈ Aj
|{z}
i≥0 j>i
|{z} ω est
il existe pour tout dans Aj .
|{z}
i≥0 j>i
• Pour le second point, dire que ω est dans une infinité de Ai est équivalent à dire que
En effet, si tel est le cas, ω est bien dans une infinité de Ai car, d’après cette propriété,
– avec p = 0, il existe p1 > p tel que ω est dans Ap1
– avec p = p1 , il existe p2 > p1 tel que ω est dans Ap2
– avec p = p2 , il existe p3 > p2 tel que ω est dans Ap3
– ...
– avec p = pn , il existe pn+1 > pn tel que ω est dans Apn+1
– ...
et finalement, ω est dans chaque Apn , n ∈ N∗ , c’est à dire dans une infinité de Ai . Récipro-
quement, s’il est dans une infinité de Ai , alors pour tout p, on trouve q > p tel que ω ∈ Aq ;
sinon, ce serait qu’il existe p tel que pour q > p, ω n’est pas dans Aq . Ou encore : ω ne
peut appartenir qu’aux Ai d’indice i ≤ p, c’est à dire seulement à un nombre fini d’entre
eux, ce qui est faux.
Donc, pour ce deuxième point, pour tout p, on trouve q > p, tel que ω ∈ Aq , en langage
∀, ∃, cela s’écrit \ [
ω∈ Aq
|{z}
p≥0 q>p
|{z} ω est
pour tout il existe dans Aq .
|{z}
p≥0 q>p
1.3 Dénombrement
Considérons un ensemble Ω = {ω1 , . . . , ωn } de cardinal n.
• Permutation
1.3. Dénombrement 7
n!
n(n − 1) . . . (n − p + 1) =
(n − p)!
tirage). Il y a donc p! fois plus de tirages de p objets lorsque l’on tient compte de l’ordre.
Finalement, le nombre de tirages (sans tenir compte de l’ordre) est
n!
.
p!(n − p)!
Exemple. Dénombrer le nombre de tirages sans remise de 2 éléments parmi 4 avec ordre
puis sans ordre.
Exemple. 3500 personnes se présentent au concours de l’agrégation de Mathématiques.
300 places sont mises au concours. Combien y-a-t-il de promotions possibles ?
300
Réponse : C3500 . Ici, Ω est l’ensemble des candidats et il s’agit de choisir 300 d’entre
eux. On s’intéresse aux différentes promotions possibles, prises dans leur ensemble, sans
tenir compte du classement de la promotion.
• Rappelons d’abord la définition des coefficients binomiaux et la formule du binome
de Newton :
n
n n! X
Cnk = = 0 ≤ k ≤ n, (a + b)n = Cnk ak bn−k .
k k!(n − k)! k=0
Cnk s’interprète comme le nombre d’échantillons de taille k dans une population de taille
n. Par exemple, si dans une urne de n boules distinctes, on en tire k, il y a Cnk tirages
différents possibles.
Rappelons les propriétés immédiates suivantes pour tout n ∈ N∗ et k ≤ n :
Séries numériques
Les séries numériques sont des sommes infinies de réels (ou de complexes). Généra-
lement, il s’agit de la somme de tous les termes d’une suite réelle (ai )i∈N . On la définit
(lorsqu’elle existe) comme la limite quand n tend vers +∞ de la somme des n premiers
termes :
+∞
X Xn
S= ai = lim ai . (1.1)
n→+∞
i=0 i=0
1
S = lim Sn = a0 .
n→+∞ 1−ρ
10 Chapitre 1. c JCB – L2 IMAE – Université de La Rochelle
Ce type de série est le cas particulier d’autres séries qui définissent des fonctions : les
séries entières.
Séries entières
Définition 1.4.1 Étant donnée une suite (an )n∈N , la série entière associée est la série de
terme général un = an xn , c’est donc une fonction de x :
+∞
X
f (x) = an x n .
n=0
qui est de rayon nul. Donc en pratique, cette série n’existe pas (ou si peu : seulement pour
x = 0).
1.4. Rappel sur les séries 11
Un résultat important concernant les séries entières est qu’on les dérive termes à termes
sur leur domaine de convergence (i.e. pour |x| < R) :
+∞ +∞ +∞ +∞
X 0 X X X
f 0 (x) = an x n = an (xn )0 = nan xn−1 = (n + 1)an+1 xn pour |x| < R.
n=0 n=0 n=1 n=0
On intègre aussi les séries entières termes à termes sur le disque (ouvert) de convergence :
Z t Z t X +∞
! +∞ Z t +∞ +∞
n
X
n
X an n+1 X an−1 n
f (x)dx = an x dx = an x dx = x = x pour |x| < R.
0 0 n=0 n=0 0 n=0
n+1 n=1
n
Mesures de probabilité
On rappelle que P(Ω) désigne l’ensemble des parties de Ω, et que card P(Ω) = 2card Ω .
Ainsi, si Ω = {a, b, c} alors
P(Ω) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} .
Une mesure de probabilités P est une fonction définie sur l’ensemble des parties de Ω.
Formellement, on a
P(Ω) → [0, 1]
P:
A 7→ P(A)
Remarque 2.1.1 On constate facilement que P satisfait les propriétés suivantes :
– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)
et plus généralement si A1 , A2 , . . . , Ap sont 2 à 2 disjoints, alors
13
14 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle
Exemple : On effectue une partie de pile ou face en trois coups. Quelle est la probabilité
d’obtenir face au premier lancer et pile au dernier ?
On modélise la situation en prenant Ω = {p, f }3 où p désigne pile et f face. P est définie
sur l’ensemble de toutes les parties de Ω, P(Ω). Il y a 8 = 23 triplets de résultats possibles :
(p, p, p), (p, p, f ), (p, f, p), (f, p, p), (f, f, p), (f, p, f ), (p, f, f ), (f, f, f ).
Si on suppose la pièce bien équilibrée, a priori chacun de ces triplets est équiprobable (i.e. a
la même probabilité de survenir). Comme la somme de leur probabilité doit faire 1, chacun
a pour probabilité 1/8. L’évènement A cherché se décompose en :
D’où P(A) = P{(f, f, p), (f, p, p)} = P{(f, f, p)} + P{(f, p, p)} = 1/8 + 1/8 = 1/4.
Lorsque l’espace est fini, la probabilité la plus simple est l’équiprobabilité qui donne la
même probabilité à chaque évènement élémentaire ωi . C’est la probabilité qui est utilisée
en général sur les espaces Ω finis lorsque rien n’est précisé.
Exemple. • Lorsqu’on lance un dé équilibré à 6 faces, il est naturel de choisir l’équi-
probabilité qui associe la probabilité 1/6 à chaque face 1, 2, 3, 4, 5, 6.
• Au loto, la probabilité de chaque boule est 1/49.
Exercice. On jette deux fois deux dés. Quelle est la probabilité d’avoir au moins une
fois au moins un six ?
Remarque 2.2.1 Il revient au même dans le cas discret fini ou infini d’indexer à partir de
0 ou de 1. Dans le cas fini, se méfier cependant si l’indexation va de 0 à n que le cardinal
de l’ensemble Ω est n + 1.
On constate encore que P satisfait les propriétés suivantes :
2.2. Espaces infinis dénombrables (par exemple N, Z) 15
– P(Ac ) = 1 − P(A),
– si A ∩ B = ∅, alors
P(A ∪ B) = P(A) + P(B)
+∞
[ +∞
X
P Ai = P(A1 ∪ · · · ∪ An ∪ . . . ) = P(Ai ) (propriété de σ-additivité).
i=1 i=1
Noter que l’équiprobabilité n’existe plus lorsque l’espace est dénombrable non fini : si
on accorde la même probabilité p à chaque ωi , par σ-additivité, on doit avoir
+∞
! +∞ +∞
[ X X
1 = P(Ω) = P {ωi } = P{ωi } = p;
i=1 i=1 i=1
la somme est alors infinie si p > 0 et elle est nulle si p = 0, ce qui dans les deux cas est
absurde.
Exemple de probabilité définie sur (N, P(N)). Soit a ∈ R∗+ , posons
e−a ak
∀k ∈ N, pk = P({k}) = .
k!
+∞ +∞ −a k +∞ k
X X e a −a
X a
pk = =e = e−a ea = 1.
k=0 k=0
k! k=0
k!
X e−a ak
P(A) = .
k∈A
k!
+∞ −a 2k
X e a ea + e−a 1 + e−2a
P(2N) = = e−a cosh(a) = e−a =
k=0
2k! 2 2
−2a
et celle des nombres impairs est P(2N + 1) = 1 − P(2N) = 1−e2 .
On verra au chapitre prochain qu’il s’agit de la loi de Poisson de paramètre a.
16 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle
Remarque 2.3.1 – En pratique, pour vérifier que P est une probabilité, on se conten-
tera de vérifier que P(A) ≥ 0 pour tout observable A, que P(Ω) = 1 et que P est
additive : P(A ∪ B) = P(A) + P(B) quand A et B sont disjoints.
– Lorsque l’espace Ω est discret (c’est à dire fini ou dénombrable, par exemple N ou
une partie de N), tous les ensembles sont observables et on peut choisir F = P(Ω).
C’est la raison pour laquelle cette restriction aux familles d’observables n’est jamais
apparue lors de cours de Probabilités en espaces finis ou discrets.
– Lorsque l’espace est R, pour le choix de la famille d’observables, on peut se restreindre
aux ensembles qui sont des intervalles.
Exemples. Soit f (x) = 21 e−|x| , montrer que
Z b
P([a, b]) = f (x)dx
a
• P(∅) = 0.
En effet ∅ = Ωc donc P(∅) = 1 − P(Ω) = 1 − 1 = 0.
• Additivité (cas particulier du point (ii) de la définition d’une probabilité) :
– Si A ∩ B = ∅, P(A ∪ B) = P(A) + P(B),
– Si les Ai (1 ≤ i ≤ n) sont deux à deux disjoints,
n
! n
[ X
P Ai = P(Ai ).
i=1 i=1
En effet cela suit pour une réunion de deux ensembles A ∪ B du point précédent. Le
cas d’une réunion dénombrable est une simple généralisation.
• Propriété de continuité monotone séquentielle
18 Chapitre 2. c JCB – L2 IMAE – Université de La Rochelle
(i) Si (An )n∈N∗ est une suite croissante d’évènements (i.e. pour tout n An ⊂ An+1 ) alors
[
lim P(An ) = P(A) où A = An . (2.2)
n→+∞
n∈N∗
(ii) Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n Bn+1 ⊂ Bn )
alors \
lim P(Bn ) = P(B) où B = Bn . (2.3)
n→+∞
n∈N∗
S
Démonstration : Notons Ω0 = i Ai , il s’agit d’un évènement de probabilité 1 (par
définition de {Ai }i système complet). Observons que les ensembles B ∩ Ai , i = 1 . . . , n . . . ,
sont deux à deux disjoints : (B ∩ Ai ) ∩ (B ∩ Aj ) ⊂ Ai ∩ Aj = ∅ si i 6= j. Par σ-additivité,
on a maintenant
Indépendance et conditionnement
3.1 Conditionnement
Le conditionnement a pour objet de répondre à la question suivante : comment se
modifie la probabilité d’un évènement lorsque l’on connaı̂t déjà une information supplé-
mentaire ?
Exemple. On choisit au hasard deux chiffres entre 1 et 9. Sachant que la somme
obtenue est paire, calculer la probabilité p pour que les deux chiffres soient impairs.
Dans la suite, on fixe un espace probabilisé (Ω, F, P).
Définition 3.1.1 Soit B un évènement de probabilité non nulle P(B) 6= 0. Pour tout
évènement observable A, on définit la probabilité conditionnelle de A sachant B :
P(A ∩ B)
P(A|B) = .
P(B)
L’intérêt de cette notion vient du fait que souvent, compte tenu des informations dis-
ponibles dans un problème, il est plus facile d’attribuer une valeur à la probabilité condi-
tionnelle P(A|B) que de calculer P(A ∩ B) ou P(A).
Exemple. Une urne U1 contient 9 boules dont 5 rouges, une urne U2 contient 5 boules
dont 3 rouges. On choisit une urne au hasard et on tire une boule de cette urne. Si cette
boule est rouge, calculer la probabilité pour que la boule tirée vienne de l’urne U1 .
21
22 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle
Proposition 3.1.1 Soit dans un espace probabilisé (Ω, F, P), B ∈ F un évènement ob-
servable fixé tel que P(B) > 0. Alors la fonction d’ensemble P(·|B) :
A ∈ F −→ P(A|B)
De ce fait, on dispose pour les probabilités conditionnelles de toutes les propriétés d’une
probabilité vues à la proposition ??.
Notons que pour chaque observable B de probabilité non nulle, on définit une probabi-
lité conditionnelle P(·|B). Ce ne sont pas les mêmes probabilités conditionnelles pour des
évènements B et B 0 différents.
On dispose par ailleurs des propriétés suivantes propres aux conditionnements :
n−1
\ i
\
Démonstration : Notons d’abord que pour 1 ≤ i ≤ n − 1, Aj ⊂ Aj donc
j=1 j=1
n−1
\ i
\
0<P Aj ≤ P Aj
j=1 j=1
Ti
si bien qu’on peut conditionner par j=1 Aj pour tout 1 ≤ i ≤ n − 1. On a alors par
simplifications en cascade.
Définition 3.1.2 Une famille finie ou non d’ensembles (Ai )i∈I est une partition de Ω si
– les ensembles sont deux à deux disjoints : ∀i 6= j, Ai ∩ Aj = ∅,
3.1. Conditionnement 23
[
– leur réunion est Ω : Ω = Ai .
i∈I
La partition est dite finie, infinie, dénombrable si I est un ensemble d’indices respectivement
fini, infini, dénombrable.
On peut aussi calculer la probabilité d’un évènement en conditionnant par tous les cas
possibles, c’est l’objet de la proposition suivante :
Démonstration : Les premier et deuxième points sont des cas particuliers du dernier
qu’on prouve : comme (Bi )i∈N∗ est une partition de Ω, on a
!
[ [
A=A∩Ω=A∩ Bi = A ∩ Bi ,
i∈N∗ i∈N∗
Exercice. Revenons à l’exemple précédent avec deux urnes où il y a des boules rouges.
Calculer la probabilité de tirer une boule rouge.
Au passage, notons le résultat utile suivant qui souligne que pour calculer une proba-
bilité, il suffit parfois de diviser les cas :
24 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle
Proposition 3.1.4 Soit (Ω, F, P) un espace probabilisé, (Bi )i∈N∗ une partition de Ω. Alors,
on a
X+∞
∀A ∈ F, P(A) = P(A ∩ Bi ).
i=1
Lorsque l’on sait calculer les probabilités conditionnelles P(A|Bi ) pour tout un système de
partition (Bi )i∈I , on peut chercher les probabilités conditionnelles avec les conditionnements
inverses P(Bi |A). Elles sont données par :
Le résultat est vrai que I soit un ensemble d’indice fini ou infini dénombrable.
Démonstration : Par définition des probabilités conditionnelles :
Il ne reste plus qu’à développer P(A) par la formule des probabilités totale en
X
P(A) = P(A|Bi )P(Bi ).
i∈I
Exemple. Dans une population, chaque individu a une probabilité 0, 2 d’être droitier.
On pratique un test de latéralisation sur les individus de cette population. Un individu qui
n’est pas droitier a une probabilité 0, 6 d’échouer au test. Un individu qui est droitier a une
probabilité 0, 8 de réussir le test. On fait le test sur une personne. Quelle est la probabilité
pour qu’elle ne soit pas droitière sachant que le test est positif ?
Notons D l’évènement « être droitier » et T l’évènement « réussir le test ».
L’énoncé indique que P(D) = 0, 2, P(T c |Dc ) = 0, 6 et P(T |D) = 0, 8. On cherche
P(Dc |T ).
Pour cela, on utilise la formule de Bayes (ou celle des probabilités totales)
3.2 Indépendance
Il arrive que la connaissance d’un évènement influe sur celle d’un autre par exemple,
quand on considère la population française, savoir {habiter près de la mer} influe sur la
réalisation de {habiter à La Rochelle}. Parfois, ce n’est pas le cas : {parler une langue
étrangère} n’influencera pas, a priori, sur {habiter à La Rochelle}. Dans ce dernier cas, on
parle d’évènements indépendants.
C’est aussi le cas dans les situations suivantes :
• lors de tirages aléatoires avec remises dans une urne contenant des boules bleues et
rouges ou
• lors de deux lancers successifs d’un dé.
Dans le premier cas, la couleur de la boule au premier tirage ne donne aucune informa-
tion sur le tirage de la seconde.
Dans le cas d’un dé, l’obtention de l’as au premier lancer ne modifie pas la probabilité
d’obtention d’un quatre, par exemple, au second lancer.
Voyons un autre exemple.
Exemple : Considérons une population de 100 étudiants composée de 60 étudiants en
mathématiques et de 40 en informatique. On étudie deux caractéristiques de ces individus :
être attiré par le métier d’enseignant et pratiquer régulièrement un sport. La répartition
observée est la suivante :
– 31 matheux veulent devenir enseignant, 29 non,
– 10 informaticiens veulent devenir enseignant, 30 non.
– 24 matheux font du sport, 36 non,
– 16 informaticiens font du sport, 24 non,
Notons A = {pratiquer un sport}, B = {être matheux} et C = {vouloir devenir enseignant}.
On a
24 + 16 31 + 10
P(A) = = 0, 40, P(B) = 0, 60, P(C) = = 0, 41.
100 100
Par ailleurs, A ∩ B = {être matheux et pratiquer un sport} d’où P(A ∩ B) = 0, 24.
Et B ∩ C = {être matheux et vouloir devenir enseignant} d’où P(B ∩ C) = 0, 31.
On remarque alors que
P(A ∩ B) = 0, 24 = 0, 40 × 0, 60 = P(A) × P(B). (3.1)
et
P(B ∩ C) = 0, 31 6= P(B) × P(C) = 0, 60 × 0, 41 = 0, 246 (3.2)
Intuitivement, on comprend bien que la pratique d’un sport est sans rapport avec le fait
d’être étudiant en mathématiques ou en informatique. Par contre, la spécialité influe sur
l’attrait du métier d’enseignant : comme le nombre de postes au concours d’enseignants
est plus important en mathématiques qu’en informatique, il est légitime que davantage
d’étudiant en mathématiques envisage sérieusement cette carrière.
On dit alors que A et B sont indépendants tandis que B et C ne le sont pas.
Compte tenu de (3.1) et (3.2), la notion d’indépendance de deux évènements se définit
de la façon suivante :
26 Chapitre 3. c JCB – L2 IMAE – Université de La Rochelle
1
B = {f f, f p}, P(B) =
2
3
C = {f f, f p, pf }, P(C) =
4
1 1 1
A ∩ B = {f f }, P(A ∩ B) = = × = P(A) × P(B)
4 2 2
1
A ∩ C = {f f }, P(A ∩ C) = 6= P(A) × P(B).
4
Les évènements A et B sont donc indépendants alors que A et C ne le sont pas.
Les évènements B et C ne sont pas indépendants car B ⊂ C et donc B ∩ C = B ce qui
empêche d’avoir P(B ∩ C) = P(B)P(C) car P(C) 6= 1.
Remarques.
• Il faut faire attention à ne pas confondre « être indépendants » et « être disjoints ».
En particulier deux évènements A et B disjoints ne peuvent pas être indépendants quand
ils sont de probabilités non nulles.
C’est clair intuitivement : avoir une information sur A, c’est en avoir une sur B (si A
se réalise alors par disjonction B ne peut pas se réaliser).
C’est clair aussi par le calcul car
P(A ∩ B) = P(∅) = 0 6= P(A) × P(B).
• Il faut faire attention encore : l’indépendance de deux évènements A et B n’est pas
intrinsèque mais dépend de l’espace de probabilité (Ω, F, P) utilisé (c’est à dire du choix
du modèle) :
Exemple : Une urne contient 12 boules numérotées de 1 à 12. On en tire une au hasard
et on considère : A = {tirage d’un nombre pair}, B = {tirage d’un multiple de 3}. Que
dire de A et B ?
L’espace à considérer est Ω = {1, 2, . . . , 12} munie de l’equiprobabilité P, chaque boule
étant équiprobable. On a
A = {2, 4, 6, 8, 10, 12}, B = {3, 6, 9, 12}, A ∩ B = {6, 12}.
On a P(A) = 6/12 = 1/2, P(B) = 4/12 = 1/3 et
2 1 1 1
P(A ∩ B) = = = × = P(A) × P(B).
12 6 2 3
Les évènements A et B sont indépendants dans l’espace (Ω, F, P).
On rajoute maintenant une treizième boule. Que dire de A et B ?
Le modèle –c’est à dire l’espace de probabilité– change. Il faut désormais considérer
Ω = {1, 2, . . . , 12, 13} munie de la nouvelle equiprobabilité P0 . A, B gardent les mêmes
0
P(A ∩ B)
P(A|B) = .
P(B)
Ac ∩ B = (Ω \ A) ∩ B = (Ω ∩ B) \ (A ∩ B) = B \ (A ∩ B),
on a :
X : Ω −→ R, ω 7−→ X(ω)
telle que l’ensemble de ses images X(Ω) = {X(ω), ω ∈ Ω} est une partie au plus dé-
nombrable de R. On peut donc numéroter ses éléments par des indices entiers : X(Ω) =
{x1 , x2 , . . . , xk , . . .}.
31
32 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle
Dans cette écriture, les sommes sont des séries convergentes si X(Ω) est infini, des sommes
finies si l’ensemble X(Ω) est fini.
Pour tout B ⊂ R : X X
PX (B) = P(X = xk ) = pk .
xk ∈B xk ∈B
Remarque 4.1.1
– Attention, deux v.a. peuvent avoir la même loi sans pour autant être égales. Par
exemple si on dispose d’un dé rouge et d’un dé bleu et que X, Y désignent la somme
des points obtenus après un lancer respectivement du dé rouge et du dé bleu, X et
Y ont la même loi. Pourtant bien sûr, on n’a pas X = Y , ce qui équivaudrait à dire
que les tirages des deux dés sont nécessairement identiques.
– Désormais, on utilise la notation suivante où le ω est implicite :
Notons que FX détermine complètement la loi de X : les points du support sont les points
de sauts de FX et la probabilité associée est donnée par
pk = FX (xk ) − FX (xk−1 ).
Autrement dit PX ([a, b]) = FX (b) − limt→a− FX (t). On retrouve donc la loi à partir de FX .
Démonstration : D’abord FX est à valeurs positives car une probabilité est toujours
positive. Si s < t,
donc FX est croissante. Puis si s < t sont dans [xk , xk+1 [ alors
X
F (t) − F (s) = pi = 0
i | s<xi ≤t
car la somme est vide : il n’y a pas d’atome xi entre s et t. S’il y en avait un, il serait a
fortiori entre xk et xk+1 , ce qui est exclu, car par l’indexation, les atomes xk et xk+1 sont
consécutifs.
Puis avec s = xk et t = xk+1 , on a
X X
F (xk+1 ) − F (xk ) = pi = pi = pk+1
i | xk <xi ≤xk+1 i | xi ∈]xk ,xk+1 ]
car xk+1 est le seul atome dans ]xk , xk+1 ]. Il y a donc un saut pk+1 en xk+1 . Enfin,
X
lim FX (t) = lim pi = 0
t→−∞ t→−∞
i | xi ≤t
34 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle
car pour t ≤ inf k (xk ), la somme est vide donc –par convention– nulle. Et
X X
lim FX (t) = lim pi = pi = 1
t→+∞ t→+∞
i | xi ≤t i
P
car pour t ≥ supk (xk ), la somme devient i | xi ∈R pi = 1.
Exemple. Soit S la variable aléatoire qui donne la somme des faces obtenues en lançant
deux fois un dé à six faces bien équilibré. La loi de S est donnée par l’ensemble des valeurs
possibles S(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} et les probabilités associées
P(S = 2) = 1/36, P(S = 6) = 5/36, P(S = 10) = 3/36,
P(S = 3) = 2/36, P(S = 7) = 6/36, P(S = 11) = 2/36,
P(S = 4) = 3/36, P(S = 8) = 5/36, P(S = 12) = 1/36.
P(S = 5) = 4/36, P(S = 9) = 4/36,
La fonction de répartition est alors donnée par :
1
0 1 2 3 4 5 6 7 8 9 10 11 12 x
Loi equirépartie sur un ensemble fini {x1 , . . . , xn } notée U{x1 , . . . , xn }. Une v.a. X
prenant un nombre fini de valeurs x1 , . . . , xn suit une loi equirépartie quand
1
PX ({xi }) = , 1 ≤ i ≤ n.
n
4.2. Lois discrètes classiques 35
X(Ω) = {0, 1, 2, . . . , n}
et pour tout k = 0, 1, . . . , n, on a
n!
où Cnk = est le coefficient binomial. Il s’agit bien d’une loi de probabilité car la
k!(n − k)!
formule du binome de Newton (d’où le nom de la loi) donne :
n
X n
Cnk pk (1 − p)n−k = p + (1 − p) = 1n = 1.
k=0
Remarque 4.2.1 Il est souvent pratique de voir cette loi comme celle du nombre de succès
obtenus dans une suite de n épreuves répétées indépendantes avec pour chaque épreuve
une probabilité p de succès (par exemple des tirages avec remises de n boules rouges dans
une urne contenant des boules rouges, en proportion p ∈ [0, 1], et des boules noires). Ainsi,
P(X = k) est la probabilité d’avoir exactement k succès en n épreuves (dans l’exemple, k
boules rouges en n tirages). On en déduit l’explication suivante des différents facteurs de
(4.1) :
– pk est la probabilité des k succès (par indépendance des tirages),
– (1 − p)n−k est la probabilité des n − k échecs (pour avoir exactement k succès, il
faut bien que les n − k autres épreuves soient des échecs),
– et Cnk pour tenir compte de tous les choix possibles des k épreuves réussies sur les n
réalisées (il y a Cnk tirages différents de n boules comprenant k boules rouges).
Une autre façon de dire la même chose est qu’une v.a. Y de loi binomiale B(n, p) peut
se voir comme la somme de n v.a. Xi indépendantes de loi de Bernoulli b(p) :
Y = X1 + · · · + Xn .
D’après cette interprétation, la loi binomiale intervient dans les tirages avec remises : elle
modélise la v.a. qui compte le nombre de bons tirages en un nombre fixé, n, de tirages. Ici
chaque Xi indique si à l’épreuve i on a eu un succès (Xi = 1) ou un échec (Xi = 0).
Intéressons nous maintenant aux lois des v.a. discrètes prenant un nombre infini de
valeurs.
36 Chapitre 4. c JCB – L2 IMAE – Université de La Rochelle
k−1
\ k−1
Y
P(X = k) = P Ric ∩ Rk = P(Ric ) × P(Rk ) = (1 − p)k−1 p.
i=1 i=1
X +∞
X ∞
X
∗ k−1
P(X ∈ N ) = P(X = k) = q p=p ql (en posant l = k − 1)
k∈N∗ k=1 l=0
1 1
= p = p =1 (somme d’une suite géométrique).
1−q 1 − (1 − p)
Ainsi, avec probabilité 1, le premier succès intervient au bout d’un nombre fini d’épreuves
(car dire X ∈ N∗ , c’est dire que X est un entier donc prend une valeur finie). On en déduit
immédiatement
P(X = +∞) = P(X 6∈ N∗ ) = 1 − P(X ∈ N∗ ) = 0.
Définition 4.2.1 Une v.a. X suit la loi géométrique de paramètre p ∈]0, 1[ notée G(p) si
X(Ω) = N∗ et
P(X = k) = (1 − p)k−1 p, k ∈ N∗ .
Exercice. Notons que si X suit une loi G(p), les probabilités P(X > n) ont une ex-
pression simple qu’on pourra montrer à titre d’exercice :
Définition 4.2.2 On dit qu’une v.a. discrète X suit une loi de Poisson de paramètre λ > 0
si l’ensemble de ses valeurs possibles est X(Ω) = N et
e−λ λk
∀k ∈ N, P(X = k) = .
k!
La loi de Poisson de paramètre λ > 0 est notée P(λ).
alors
λk
Cnk pkn (1 − pn )n−k −→ e−λ , quand n → +∞.
k!
Autrement dit, si Xn est une suite de v.a. de loi binomiale B(n, pn ) et X une v.a. de
loi P(λ) alors pour tout k ∈ N :
Comme 500 est « grand » et np = 500/365 ' 1, 37, la règle ci-dessus permet l’approxima-
tion par la loi P(λ) avec λ = 500/365. Voici une comparaison numérique pour les petites
valeurs de k :
k 0 1 2 3 4 5
P(X = k) 0, 2537 0, 3484 0, 2388 0, 1089 0, 0372 0, 0101
e−λ λk
0, 2541 0, 3481 0, 2385 0, 1089 0, 0373 0, 0102
k!
On constate que les valeurs approchées sont très proches des valeurs réelles.
Remarque 5.1.1
– Si X(Ω) est fini, la somme dans (5.1) est forcément finie et l’espérance dans (5.2) est
forcément définie.
– L’espérance généralise la notion intuitive de moyenne et peut être vue comme le
barycentre des points xk avec le poids donné par leur probabilité ponctuelle pk =
P(X = xk ). Elle donne donc la valeur moyenne de la v.a. au sens probabiliste.
– L’espérance ne dépend que de la loi de X : si X et Y sont deux v.a. de même loi,
alors E[X] = E[Y ] car ça ne dépend que des atomes xk et de leur probabilité pk . On
devrait ainsi plutôt parler de l’espérance de la loi de X.
41
42 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle
E[X] = 0 × (1 − p) + 1 × p = p.
– X de loi géométrique G(p) : avec la propriété de dérivation des séries entières rappelée
en section 1.4 (ou à voir en cours d’analyse) :
+∞ +∞ " +∞
#
X X d d X
E[X] = kq k−1 p = p (xk ) =p ( xk )
k=1 k=1
dx x=q dx k=0 x=q
1 p 1
= p 2
= 2 = .
(1 − q) 1 − (1 − p) p
par hypothèse de l’existence de E[X]. Puis la même chose sans les valeurs absolues donne :
+∞
X ∞
X
E[aX] = axk P(aX = axk ) = a xk P(X = xk ) = aE[X].
k=1 k=0
La condition (5.1) est remplie dans ce cas car Z prend un nombre finie de valeur (et donc
la somme dans (5.1) est finie). On a alors
X
E[Z] = zk P(Z = zk ) (5.3)
k
X X
= zk P(X = xi , Y = yj )
k xi +yj =zk
X X
= (xi + yj ) P(X = xi , Y = yj )
k xi +yj =zk
X
= (xi + yj ) P(X = xi , Y = yj ) (5.4)
i,j
X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj ) (5.5)
i,j i,j
Dans le cas général, X et/ou Y prennent un nombre dénombrable infini de valeurs (i.e.
X(Ω), Y (Ω) sont infinis). On commence alors à remplacer zk par |zk | et xi + yj par |xi + yj |
dans les égalités (5.3)–(5.7). On passe alors de (5.4) à (5.5) par l’inégalité triangulaire
|xi + yj | ≤ |xi | + |yj |, ce qui donne :
X X X
|zk | P(Z = zk ) ≤ |xi | P(X = xi ) + |yj | P(Y = yj ) < +∞
k i j
les deux dernières séries sont finies d’après les hypothèses sur les existences des espérances
E[X] et E[Y ].
On obtient alors la condition qui garantit l’existence de E[Z] et les égalités (5.3)–
(5.7) restent vraies, dans le cas infini dénombrable, par les propriétés des séries doubles
absolument convergentes (théorème de Fubini).
Démonstration : Notons Y = F (X), l’ensemble des valeurs prises par la v.a. Y est
{F (x1 ), . . . , F (xk ), . . .} avec éventuellement des répétitions car F n’est pas nécessairement
injective. En notant {y1 , . . . , yk , . . .} l’ensemble des valeurs de Y sans répétition (i.e. les yi
sont deux à deux distincts), on a :
+∞
X
E[Y ] = E[F (X)] = yi P(Y = yi ). (5.8)
i=1
5.1. Espérance d’une v.a. 45
La série précédente est absolument convergente car F est constante sur Bi . Comme les Bi
forment une partition de X(Ω), les propriétés des séries à termes positifs donnent
+∞
X +∞ X
X +∞
X
|F (xk )| P(X = xk ) = |F (xk )| P(X = xk ) = |yi | P(Y = yi ) < +∞
k=1 i=1 xk ∈Bi i=1
par hypothèse (existence de E[Y ]). Ceci légitime le même calcul sans les valeurs absolues
et prouve la proposition.
La condition de définition des espérances (cf. Déf. 5.1.1) pour l’existence de E[X] n’est
donc rien d’autre que E[|X|] < +∞.
On a de plus facilement
Démonstration : car par l’inégalité triangulaire, la valeur absolue d’une somme est ma-
jorée par la somme des valeurs absolues.
46 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle
Théorème 5.1.1 (Inégalité de Markov) Si X est une v.a. positive ayant une espérance
alors
E[X]
∀t > 0, P(X ≥ t) ≤ .
t
Démonstration : Dans la série E[X], on regroupe les termes en deux paquets selon la
position de xk par rapport à t :
+∞
X X X
E[X] = xk P(X = xk ) = xk P(X = xk ) + xk P(X = xk )
k=1 k | xk <t k | xk ≥t
X
≥ 0+t P(X = xk ) = t P(X ≥ t).
k | xk ≥t
[
car {X ≥ t} = {X = xk }.
k | xk ≥t
Lorsque une v.a. est bornée, il est facile de voir qu’elle a des moments de tous les ordres.
De façon générale, l’existence de moment d’ordre r implique celles des moments d’ordre
inférieurs.
Regroupons les termes de la série précédente en deux selon le module des xk par rapport
à 1 :
X+∞ +∞
X
n n
E[|X| ] = |xk | P(X = xk ) + |xk |n P(X = xk ).
k=1, k=1,
|xk |≤1 |xk |>1
car |xk |n ≤ 1. Pour la deuxième, comme |xk | > 1, on a |xk |n ≤ |xk |r et on la majore par
+∞
X +∞
X
r
|xk | P(X = xk ) ≤ |xk |r P(X = xk ) = E[|X|r ] < +∞.
k=1, k=1
|xk |≤1
E[|X|n ] ≤ 1 + E[|X|r ]
Définition 5.2.2 (Variance d’une va) Soit X une v.a. de domaine X(Ω) = {x1 , . . . , xk , . . .}
et avec un moment d’ordre 2. On appelle respectivement variance de X et écart-type de X
les quantités
+∞
X
2
Var(X) = E[(X − E[X]) ] = (xk − E[X])2 P(X = xk ),
k=1
p
σX = Var(X).
48 Chapitre 5. c JCB – L2 IMAE – Université de La Rochelle
Démonstration :
Var(X +b) = E[(X +b−E[X +b])2 ] = E[(X +b−E[X]−b)2 ] = E[(X −E[X])2 ] = Var(X).
Proposition 5.2.3
Cette série à termes positifs est nulle si et seulement si chacun de ses termes est nuls c’est
à dire si
xk = µ ou P(X = xk ) = 0.
Par définition d’un atome, xk ∈ X(Ω), sa probabilité ponctuelle P (X = xk ) est non nulle.
On a donc forcément xk = µ. En fait, il y a un seul atome et c’est µ = E[X] et sa
probabilité ponctuelle est alors forcément 1. La valeur µ = E[X] est donc prise par la v.a.
X avec probabilité 1 (et il est bien logique que cette valeur soit l’espérance).
5.2. Variance d’une va 49
En pratique, on calcule la variance par cette formule. On commence par calculer E[X] puis
E[X 2 ] pour en déduire la variance par Koenig.
Démonstration : Il suffit de développer Var(X), notons encore µ = E[X] :
= E[X 2 ] − 2E[Xµ] + µ2
= E[X 2 ] − 2E[X]µ + µ2
= E[X 2 ] − 2µ2 + µ2 = E[X 2 ] − E[X]2 .
n
!0 n
!0 !0
X X
= x x Cnk (xk )0 q n−k =x x Cnk xk q n−k
k=1 k=1
n
!0 !0
0
X
= x x Cnk xk q n−k = x (x[(x + q)n ]0 )
k=0
0
= x x × n(x + q)n−1 = xn(x + q)n−1 + x2 × n(n − 1)(x + q)n−2 .
+∞ +∞
X e−λ λk X e−λ λk
= +
k=2
(k − 2)! k=1 (k − 1)!
+∞ −λ l +∞ −λ l
2
X e λ X e λ
= λ +λ
l=0
l! l=0
l!
= λ2 + λ,
Var(X) = λ.
Var(X)
P(|X − E[X]| ≥ t) ≤ .
t2
Démonstration : Par l’inégalité de Markov, on a
E[|X − E[X]|2 ] Var(X)
P(|X − E[X]| ≥ t) = P(|X − E[X]|2 ≥ t2 ) ≤ 2
≤ .
t t2
Application. On jette 3600 fois un dé. Minorer la probabilité que le nombre d’apparitions
du 1 soit compris strictement entre 480 et 720.
Notons S le nombre d’apparitions du 1. On peut voir S comme la somme de 3600 v.a.
de Bernoulli indépendantes de paramètre p = 1/6 (probabilité d’apparition du 1 au cours
d’un lancer). Par un raisonnement classique, S suit une loi B(3600, p). On cherche ici
719
X
P(480 < S < 720) = Cnk pk (1 − p)n−k .
k=481
Ce résultat exact ne peut être calculé en pratique, même un ordinateur très puissant ne
pouvant calculer tous ces coefficients binomiaux pour des chiffres aussi grands.
On peut penser à approximer la loi B(3600, 1/6) par P(600) mais il resterait à calculer
719 k
−600 600
X
e ,
k=481
k!
D’où
P(480 < S < 720) = P(−120 < S − 600 < 120) = P(|S − 600| < 120)
= 1 − P(|S − 600| ≥ 120)
500
≥ 1−
1202
≥ 0, 95833 . . .
Remarque 5.2.3 Les valeurs 480 et 720 sont symétriques par rapport à la moyenne 600
de la v.a. considérée, ce sont 600±120. Ce n’est pas nécessaire : on peut aussi appliquer l’in-
égalité de Tchebychev sur un intervalle non centré autour de l’espérance. Il suffit pour cela
d’utiliser le plus grand intervalle centré sur l’espérance qu’il contient. Ainsi pour minorer
P(550 < S < 700), il suffit de remarquer que
et
P(550 < S < 700) ≥ P(550 < S < 650) = P(−50 < S − 600 < 50)
= P(|S − 600| < 50)
= 1 − P(|S − 600| ≥ 50)
500
≥ 1 − 2 = 0, 8.
50
Chapitre 6
6.1 Généralités
Dans l’observation de grandeurs physiques (longueur, aire, volume, temps, poids), les
données à modéliser prennent souvent une infinité de valeurs non nécessairement discrètes.
D’où la nécessité de définir des variables aléatoires qui prennent un ensemble diffus de
valeurs réelles.
Jusqu’à maintenant, pour les variables aléatoires discrètes, on s’est ramené aux proba-
bilités des points où la v.a. est répartie (les masses ou probabilités ponctuelles P(X = xk )
en les atomes xk ). Pour les variables continues, les probabilités des points seront la plupart
du temps nulles (il y a en quelque sorte trop de points pour qu’ils aient chacun une pro-
babilité ponctuelle non nulle). Par contre les probabilités des intervalles ne s’annulent pas.
Il apparaı̂t alors pertinent de baser la théorie des v.a. réelles non plus sur les quantités du
type P(X = xk ) mais sur P(X ∈ [a, b]) où [a, b] désigne un intervalle réel. La définition qui
suit est donc motivée par la nécessité d’attribuer une définition cohérente aux probabilités
des ensembles {ω ∈ Ω; X(ω) ∈ [a, b]} = {X ∈ [a, b]}.
Définition 6.1.1 (Variable aléatoire réelle) On appellera, dans ce cours, variable aléa-
toire réelle (notée v.a.r.) sur un espace de probabilité (Ω, F, P) une fonction X : Ω −→ R,
ω 7→ X(ω) dont le domaine X(Ω) est un intervalle (qui peut être borné ou une demi-droite
ou encore R tout entier).
À nouveau, à chaque v.a.r., on associe sa loi. Elle définit une probabilité sur R :
Définition 6.1.2 Soit X une v.a.r. sur (Ω, F, P). On lui associe la fonction d’ensembles
PX qu’on considérera sur l’ensemble des intervalles de R en posant
∀I intervalle de R, PX (I) = P(ω ∈ Ω; X(ω) ∈ I) = P(X ∈ I) = P(X −1 (I)).
La fonction d’ensemble PX ainsi définie est une probabilité sur R muni de la famille des
observables obtenue à partir des intervalles. On l’appelle la loi de la v.a.r. X.
53
54 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Il est facile de vérifier qu’il s’agit bien d’une probabilité sur R : en effet, d’abord PX (R) =
P(X ∈ R) = P(Ω) = 1. Puis si (In )n∈N est une famille d’intervalles de R deux à deux
disjoints, on a :
[ [ [ [
X −1 In = {ω ∈ Ω; X(ω) ∈ In } = {ω ∈ Ω; X(ω) ∈ In } = X −1 (In ).
n n n n
Comme les évènements {X ∈ In }, n ∈ N∗ , sont deux à deux disjoints, il suit par σ-additivité
de P :
[ [ [ X X
PX In = P X −1 In = P X −1 (In ) = P(X −1 (In )) = PX (In ).
n n n n n
Proposition 6.1.1 Soit X une v.a.r. Sa loi PX est caractérisée par la fonction de répar-
tition FX : R −→ [0, 1] définie par
Ainsi en pratique pour montrer que deux v.a.r. X, Y ont même loi, il suffit de montrer
que pour tous réels a, b on a P(X ∈ [a, b]) = P(Y ∈ [a, b]), ou que X, Y ont même fonction
de répartition. La caractérisation de la loi par la fonction de répartition FX se déduit
facilement de
P(X ∈]a, b]) = FX (b) − FX (a).
La fonction de répartition FX d’une v.a.r. X jouit des mêmes propriétés que celles des
v.a. discrètes qu’on énonce de la même façon :
Démonstration : Le premier point est clair car une probabilité est toujours positive. Le
deuxième vient de ce que {X ≤ s} ⊂ {X ≤ t} si s ≤ t, car si ω ∈ Ω vérifie X(ω) ≤ s alors
il vérifie a fortiori X(ω) ≤ t, il suit par croissance de P :
Pour le dernier point : en tant que fonction croissante FX a des limites à droite et à gauche
en tout point (résultat élémentaire d’analyse) : en effet, si h > 0,
Si (Bn )n∈N∗ est une suite décroissante d’évènements (i.e. pour tout n, Bn+1 ⊂ Bn ) alors
\
lim P(Bn ) = P(B) où B = Bn . (6.2)
n→+∞
n∈N∗
La\
limite 0 en
\−∞ vient alors de (6.2) appliquée à PX et Bn =] − ∞, −n] pour lequel
B= Bn = ] − ∞, −n] = ∅ et qui donne
n∈N∗ n∈N∗
La limite
[ 1 en [ +∞ vient alors de (6.1) appliquée à PX et An =] − ∞, n] pour lequel
A= An = ] − ∞, n] = R et qui donne
n∈N∗ n∈N∗
Théorème 6.1.1 Soit F une fonction définie et croissante sur R. On suppose de plus que
F est continue à droite, qu’elle admet une limite à gauche en tout point et qu’elle tend vers
0 en −∞ et vers 1 en +∞. Alors, il existe un espace probabilisé (Ω, F, P) et une v.a.r. X
définie sur cet espace et ayant F pour fonction de répartition.
56 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Si f est définie sur R, son intégrale impropre est donnée, si elle existe, par
Z +∞ Z M
f (x)dx = lim f (x)dx.
−∞ M →+∞ −M
Là encore, on parle d’intégrale convergente ou divergente selon que la limite existe et est
finie ou non.
Critère d’intégrabilité en x0 ∈ R : (souvent x0 = 0) Soit f : [a, b] → R+ et x0 ∈]a, b[,
si ∃α < 1 tel que
lim (x − x0 )α f (x) = 0
x→x0
lim xα f (x) = 0
x→+∞
Notons que pour une v.a. X de densité f , la probabilité que X vaille un point est 0, car
c’est une intégrale sur un intervalle réduit à un point :
Z x0
P(X = x0 ) = P(X ∈ [x0 , x0 ]) = f (x)dx = 0.
x0
Par conséquent, le sens des bornes des intervalles (fermées ou ouvertes) n’est pas important :
P(X ∈ [a, b]) = P(X ∈]a, b[) et P(X ≤ t) = P(X < t),
Généralement, les densités que nous considérerons seront de l’un de deux types suivants
R +∞
– f est définie et continue sur R et son intégrale de Riemann généralisée −∞ f (t) dt
converge et vaut 1.
– f est définie sur R privé d’un point ou d’un ensemble fini de point, a1 < · · · < an .
Sur chaque intervalle ouvert ] − ∞, a1 [, · · · , ]ai , ai+1 [, · · · , ]an , +∞[, f est continue
et a une intégrale de Riemann (généralisée ou non) convergente et la somme de ces
intégrales vaut 1.
Dans l’exemple ci-dessus f1 , f2 , f3 sont du deuxième type, f4 du premier.
58 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Proposition 6.3.1 (Domaine d’une v.a. à densité) Le domaine d’une v.a.r. à densité
coı̈ncide avec le support de sa densité.
car f est nulle sur I ⊂ Dc . Les seuls intervalles que X visite avec une probabilité non nulle
sont ceux inclus dans le support D de sa densité. R
Réciproquement, si P(X ∈ I) = 0 alors I f (t)dt = 0 et comme f est positive et
continue, on a f (t) = 0 pour tout t ∈ I. Il suit I ∩ D = ∅. On en déduit X(Ω) = D.
D’après (ii), la fonction de répartition est continue. De là, vient aussi qu’on parle de variable
aléatoire continue pour v.a. à densité.
Démonstration : Puisque X a pour densité f , et comme
FX (b) = P(X ∈] − ∞, b]) = P(X ∈] − ∞, a]∪]a, b]) = FX (a) + P(X ∈]a, b]),
(i) : Il suffit d’appliquer (6.3) avec b = x fixé et a = −n pour chaque n ∈ N tel que
x > −n. La suite d’évènements
est croissante pour l’inclusion et de réunion A = {ω, X(ω) ∈] − ∞, x]} = {X ≤ x}. Par la
propriété de monotonie séquentielle, on a P(An ) & P(A), d’où
Z x Z x
FX (x) = P(X ≤ x) = P(A) = lim P(An ) = lim f (t) dt = f (t) dt
n→+∞ n→+∞ −n −∞
(ii) : On fixe x0 ∈ R quelconque. D’abord FX est continue à droite en tout point car
c’est une fonction de répartition et que c’est vrai de toute fonction de répartition (cf. Prop.
6.1.2).
Il reste à voir la continuité à gauche. On se contente de le faire avec l’hypothèse sup-
plémentaire suivante : « il existe a < x0 tel que f soit définie et Riemann intégrable sur
tout intervalle [a, a0 ] ⊃ [a, x0 ] ». On a alors :
Z x Z x0
lim f (t) dt = f (t) dt,
x&x0 a a
où la deuxième intégrale est soit une intégrale de Riemann ordinaire soit une intégrale de
Riemann impropre convergente. On peut réécrire
Z x0 +h Z x0 +h
|FX (x0 + h) − FX (x0 ) − hf (x0 )| = f (t)dt − f (x0 )dt
x0 x0
Z x0 +h Z x0 +h
= f (t) − f (x0 ) dt ≤ f (t) − f (x0 ) dt
x0 x0
≤ hε.
Cette loi est l’équivalent continue de la loi discrète equirépartie. L’allure de la densité d’une
v.a. de loi uniforme est :
f (t)
a 0 b t
Remarque
R +∞ 6.4.1 Le facteur 1/(b − a) permet de normaliser l’intégrale de f sur R pour
que −∞ f (t) dt = 1. On comprend bien dès lors pourquoi on ne parle de lois uniformes
que sur les intervalles finis : si a ou b est infini le facteur de normalisation est nul et la
densité f vaut 0 partout. Son intégrale ne peut plus dès lors valoir 1.
b x
a 0
6.4. Lois à densité classiques 61
Le résultat suivant permet d’éviter des calculs fastidieux pour la probabilité uniforme
d’un intervalle.
Proposition 6.4.1 Si X est une v.a.r. de loi uniforme sur [a, b] alors pour tout intervalle
I de R :
l([a, b] ∩ I)
P(X ∈ I) =
l([a, b])
où l(J) désigne la longueur de l’intervalle J (l([a, b]) = b − a).
Les lois exponentielles sont souvent utilisées pour modéliser des temps d’attente ou des
durées de vie. Par exemple, les temps d’attente à partir de maintenant du prochain trem-
blement de terre, de la prochaine panne d’un appareil, de la prochaine désintégration dans
un réacteur nucléaire suivent des lois exponentielles. On verra bientôt que le paramètre a
désigne alors l’inverse du temps d’attente moyen.
Une propriété intéressante de ce type de loi est l’absence de mémoire. Cette propriété
caractérise les lois exponentielles.
Théorème 6.4.1 (i) Si la v.a.r. X suit une loi exponentielle alors elle vérifie la pro-
priété d’absence de mémoire :
(ii) Réciproquement, si une v.a.r. X vérifie (6.4) alors elle suit une loi exponentielle.
Autrement dit si X survit jusqu’en t, sa survie pendant encore s unités de temps est la
même qu’une survie de durée s depuis le départ : tout se passe comme si, ce qui se passe
de 0 à t est oublié pour survivre encore s unités de temps. C’est à comparer, par exemple,
avec la vie humaine qui a une mémoire : pour un homme de 60, la probabilité de vivre
encore 30 ans n’est pas la même que pour celle d’un nouveau né (de 0 an).
62 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
Définition 6.4.5 On dit que la v.a.r. X suit une loi gaussienne ou normale N (m, σ 2 ) si
elle a pour densité la fonction :
1 (t − m)2
fm,σ : R −→ R, t 7−→ √ exp − .
σ 2π 2σ 2
1 2
La loi normale standard N (0, 1) est celle de densité f0,1 (t) = √ e−t /2 .
2π
Remarque 6.4.2 Cette loi est fondamentale en théorie des probabilités et en statistique :
c’est la loi limite de la moyenne dans une suite infinie d’épreuves répétées indépendantes.
En pratique elle sert à modéliser les effets additifs de petits phénomènes aléatoires indé-
pendants répétés souvent.
On parle de densité gaussienne pour fm,σ . Le paramètre m est un paramètre de loca-
lisation (c’est la valeur où fm,σ atteint son maximum), le paramètre σ est un paramètre
d’échelle. Nous verrons que ce sont en fait la moyenne et l’écart-type de la loi.
La fonction f0,1 s’appelle la densité normale standard (ou gaussienne standard). Sa courbe
représentative est bien connue, il s’agit de la « courbe en cloche » (ou courbe de Gauss)
à laquelle il est souvent fait référence. Les courbes des fm,σ sont aussi des « courbes en
cloche » obtenues par translation et dilatation de celle de f0,1 (ce phénomène est lié à la
Proposition 6.4.2).
6.4. Lois à densité classiques 63
√
Notez que le facteur 1/ 2π dans les densités gaussiennes a été choisi car on montre que
Z +∞
2 √
e−t /2 dt = 2π.
−∞
Notez encore qu’on peut facilement passer d’une loi normale à la loi standard :
X −m
Proposition 6.4.2 Si la v.a.r. X suit une loi N (m, σ 2 ), alors Y := suit la loi
σ
N (0, 1).
Cette loi est l’analogue multiplicatif de la loi normale : elle modélise les effets multipli-
catifs de phénomènes aléatoires nombreux et indépendants.
La terminologie vient de ce que :
Proposition 6.4.3 Si X est de loi log-normale alors ln(X) suit une loi normale et réci-
proquement.
ln(x)
(s − m)2
1
Z
= √ exp − ds en posant s = ln(t),
−∞ σ 2π 2σ 2
= FY (ln(x))
La variable ln X a la même fonction de répartition que Y , variable normale, elle est donc
normale de paramètres m, σ 2 .
Remarque 6.5.1 P Noter R la ressemblance formelle du cas continu avec le cas discret : on a
juste remplacé par , et il s’agit encore de faire la moyenne des x
– pondérés par la densité f (x) dans le cas continu avec densité,
– pondérés par les probabilités ponctuelles P(X = xk ) dans le cas discret.
Il faut retenir que la densité du cas continu est l’équivalent des probabilités ponctuelles du
cas discret.
• Si X suit une loi exponentielle de paramètre a > 0, son espérance est (en intégrant
par parties)
Z +∞ Z +∞ +∞
Z +∞
−at −at
te−at 0 e−at dt
E[X] = ate 1R+ (t)dt = at e dt = − +
−∞ 0 0
−at
+∞
e
= 0+ = 1/a.
a 0
6.5. Espérance et variance des lois à densité 65
• Si X suit une loi de Cauchy de paramètre a alors, l’espérance n’est pas définie. En
effet, Z +∞
a|t| dt
2 2
= +∞,
−∞ π(a + t )
car t/(a2 + t2 ) '+∞ 1/t qui n’est pas intégrable en +∞ (on fait de même en −∞). Finale-
ment, la condition d’existence de l’espérance n’est pas remplie.
X −m
• Si X suit une loi normale N (m, σ 2 ), son espérance vaut E[X] = m : comme Y :=
σ
suit une loi N (0, 1) (cf. la proposition 6.4.2), il suffit de voir d’après la linéarité (justifiée
dans la proposition 6.5.1 à venir) E[Y ] = 0 c’est à dire
Z +∞
1 2
√ te−t /2 dt = 0
2π −∞
ce qui est clair car comme l’intégrant est impair :
Z 0 Z +∞
−t2 /2 2
te dt = − se−s /2 ds avec le changement de variables s = −t
−∞ 0
et donc
+∞ +∞ +∞
1 1 1
Z Z Z
−t2 /2 −t2 /2 2 /2
√ te dt = √ te dt − √ se−s ds = 0.
2π −∞ 2π 0 2π 0
(Au passage, noter que la convergence de l’intégrale ne pose pas de problème grâce au
2
facteur e−t /2 qui assure que les critères de convergence sont vérifiés car par exemple
2
t2 e−t /2 → 0, t → ±∞, cf. page 56.)
Les principales propriétés des espérances ont déjà été vues précédemment pour les v.a.
discrètes. Elles ont leurs analogues pour des v.a. à densité. On se contente de les citer, les
preuves étant essentiellement de simples adaptations de celles déjà vues.
Proposition 6.5.1 (Linéarité de l’espérance) Soient X et Y deux v.a.r. admettant
des espérances. Alors
(1) E[X + Y ] = E[X] + E[Y ],
(2) Pour tout réel a, E[aX] = aE[X].
Démonstration : On prouve seulement le 2) pour a > 0 :
Z x/a
FaX (x) = P(aX ≤ x) = P(X ≤ x/a) = FX (x/a) = fX (t)dt
−∞
0
En dérivant, on déduit la densité de aX : faX (t) = FaX (t) = a1 fX (t/a) et
u u
Z Z Z
E[aX] = ufaX (u)du = fX ( )du = a xfX (x)dx
R R a a R
Lorsque une v.a. est bornée, il est facile de voir qu’elle a des moments de tous les ordres.
De façon générale, l’existence de moment d’ordre r implique celles des moments d’ordre
inférieurs. En effet, on montre comme dans le cas discret (cf. Prop. 5.2.1) que pour n ≤ r :
E[|X|n ] ≤ 1 + E[|X|r ].
On définit en particulier la variance et l’écart-type de la même façon que pour les v.a.
discrètes. p
Var(X) = E[(X − E[X])2 ], σX = Var(X).
On dispose des mêmes propriétés que dans le cas des v.a. discrètes :
–
Var(aX) = a2 Var(X), Var(X + b) = Var(X), ∀a, b ∈ R.
– Formule de Koenig :
Var(X) = E[X 2 ] − E[X]2 .
– Inégalité de Tchebychev : si Var(X) existe, on a
Var(X)
P(|X − E[X]| ≥ t) ≤ , ∀t > 0.
t2
(b − a)2
Var(X) = .
12
En effet
Z b
2 1 b 3 − a3 a2 + ab + b2
E[X ] = t2 dt = =
b−a a 3(b − a) 3
2 2 2
a + ab + b (a + b) (b − a)2
Var(X) = − = .
3 4 12
68 Chapitre 6. c JCB – L2 IMAE – Université de La Rochelle
• Si X suit une loi exponentielle de paramètre a, sa variance est 1/a2 : en intégrant par
parties (deux fois),
Z +∞ +∞
Z +∞
−at
2 2
t2 e−at 0 2te−at dt
E[X ] = at e dt = − +
0 0
−at +∞ Z +∞ −at −at +∞
te e e
= 0−2 +2 dt = 0 − 2 2
= 2/a2
a 0 0 a a 0
Var(X) = E[X 2 ] − E[X]2 = 2/a2 − 1/a2 = 1/a2 .
• Si X suit une loi de Cauchy alors elle n’a pas de moment d’ordre 2 car n’en a déjà
pas d’ordre 1 (pas de moyenne). Elle n’admet donc pas de variance.
• Si X suit une loi normale N (m, σ 2 ), sa variance vaut Var(X) = σ 2 , en effet comme
X −m
Y := est de loi N (0, 1) et que Var(X) = σ 2 Var(Y ) (cf. Prop. 6.4.2), il suffit de
σ
voir Var(Y ) = E[Y 2 ] − E[Y ]2 = 1. Or E[Y ] = 0 et
Z +∞
1 2
2
E[Y ] = √ t2 e−t /2 dt
2π −∞
Z +∞
1 h −t2 /2
i+∞ 1 2
= √ −te +√ e−t /2 dt
2π −∞ 2π −∞
= 0 + 1 = 1.
Vecteurs aléatoires
Dans des situations où interviennent plusieurs variables aléatoires, le calcul de la pro-
babilité d’un évènement dont la réalisation dépend des valeurs de ces variables doit faire
intervenir ces variables considérées dans leur ensemble et non chacune isolément. Cela
amène ainsi à étudier une nouvelle notion : celle de vecteur aléatoire.
7.1 Généralités
Définition 7.1.1 Soient X, Y des v.a. définies sur le même espace probabilisé (Ω, F, P).
L’application
Ω −→ R2 , ω 7−→ (X(ω), Y (ω))
est appelé couple aléatoire, on le note (X, Y ). Les variables aléatoires X et Y sont alors
appelées ses marginales.
Définition 7.1.2 De même, si X1 , X2 , . . . , Xn sont n variables aléatoires, sur le même
espace (Ω, F, P), on définit le vecteur aléatoire (X1 , . . . , Xn ) comme l’application
Ω −→ Rn , ω 7−→ (X1 (ω), . . . , Xn (ω)).
La v.a. Xi est appelée la i-ème marginale du vecteur. Pour n = 2, on retrouve les couples
aléatoires.
Le couple aléatoire (X, Y ) permet de transporter la probabilité P de l’espace Ω sur
l’espace R2 . Rappelons qu’un produit cartésien A × B de deux ensembles A, B ⊂ R désigne
l’ensemble suivant de R2 :
A × B = {(a, b) tel que a ∈ A et b ∈ B}.
Définition 7.1.3 La loi PX,Y du couple (X, Y ) est la probabilité définie sur l’ensemble des
produits d’intervalles I × J de R2 par ∀I, J intervalles de R
PX,Y (I × J) = P(ω ∈ Ω; (X(ω), Y (ω)) ∈ I × J) (7.1)
= P(X ∈ I, Y ∈ J).
71
72 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle
Puis {x1 , . . . , xi , . . .} et {y1 , . . . , yj , . . .} sont bien d’une part les projections de (X, Y )(Ω)
sur les premier et second facteurs de R2 = R × R et d’autre part les domaines de X et de
Y.
7.3. Intégrales multiples 73
Remarque 7.2.1 La connaissance du couple (X, Y ) permet de connaı̂tre les lois margi-
nales de X et de Y . Il est important de comprendre que la réciproque est fausse : les lois
marginales ne permettent pas de reconstruire la loi du couple (X, Y ) en général. C’est
possible dans le cas particulier où X et Y sont indépendantes comme nous le verrons
bientôt.
X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 05 0, 15 0 0, 3
x2 = 2 0, 05 0, 2 0, 05 0, 1 0, 4
x3 = 3 0, 1 0 0, 1 0, 1 0, 3
0, 25 0, 25 0, 3 0, 2 1
On en déduit la loi de X : X(Ω) = {0, 2, 3} et
Notons qu’il n’y a pas unicité des couples (X, Y ) donnant les mêmes marginales. Ainsi, le
couple suivant est différent du précédent mais partage les mêmes marginales.
X \ Y y1 = −1 y2 = 2 y3 = 3 y4 = 5
x1 = 0 0, 1 0, 1 0 0, 1 0, 3
x2 = 2 0, 1 0, 1 0, 1 0, 1 0, 4
x3 = 3 0, 05 0, 05 0, 2 0 0, 3
0, 25 0, 25 0, 3 0, 2 1
Théorème 7.3.1 (Fubini en dimension 2) Soit F : [a, b] × [c, d] → R telle que l’une
ou l’autre des conditions suivantes est vérifiée :
– F est positive : ∀(x, y) ∈ [a, b] × [c, d], F (x, y) ≥ 0, (Fubini-Tonelli)
– |F | est intégrable sur le pavé [a, b] × [c, d] (Fubini) :
Z
|F (x, y)|dxdy < +∞, (7.2)
[a,b]×[c,d]
alors
Z Z d Z b Z bZ d
F (x, y) dxdy = F (x, y) dxdy = F (x, y) dydx.
[a,b]×[c,d] c a a c
Si F est positive, on peut intervertir directement les intégrations (par la version Fubini-
Tonelli du théorème). Si F ne l’est pas, il faut vérifier (7.2) en calculant l’intégrale double
de |F |. Pour cela, on peut appliquer par exemple la version Fubini-Tonelli à la fonction
postive |F | pour se ramener à des intégrales simples.
Des changements de variables sont souvent utiles pour calculer des intégrales multiples.
En particulier le changement de variables en polaire qui consiste à passer de (x, y) repré-
sentant des coordonneés cartésiennes dans un repère orthonormée à (r, θ) les coordonnées
polaires correspondantes. Ces coordonnées polaires sont données par :
x = r cos θ
, r ∈ [0, +∞[, θ ∈ [0, 2π[.
y = r sin θ
On remplace alors dxdy par rdrdθ car le jacobien du changement de variables est r. Ainsi :
Z ∞Z ∞ Z 2π Z +∞
F (x, y)dxdy = F (r cos θ, r sin θ)rdrdθ.
−∞ −∞ 0 0
2
Z√ +∞
Exemple : Normalisation de la loi normale e−x /2 dx = 2π.
R +∞ −x2 /2 −∞
2
Notons I = −∞ e dx et montrons que I = 2π. On a
Z +∞ Z +∞
−x2 /2 2
2
I = e dx × e−y /2 dy
−∞ −∞
Z +∞ Z +∞ Z Z
−x /2 −y 2 /2
2 2 2
= e e dxdy = e−(x +y )/2 dxdy
−∞ −∞ R×R
Z 2π Z +∞
2
= e−r /2 rdrdθ
Z0 2π 0 Z +∞ h i+∞
2 2
= dθ re−r /2 dr = 2π −e−r /2 = 2π
0 0 0
Définition 7.4.2 Le vecteur aléatoire (X1 , . . . , Xn ) suit la loi de densité f si pour tous
intervalles [ai , bi ], i = 1, . . . , n
Z b1 Z b2 Z bn
P (X1 , . . . , Xn ) ∈ [a1 , b1 ] × · · · × [an , bn ] = ... f (t1 , t2 , . . . , tn ) dt1 . . . dtn .
a1 a2 an
À nouveau, le sens des bornes dans les intervalles (ouvertes ou fermées) n’est pas important.
À nouveau encore, la densité caractérise la loi : si (Y1 , . . . , Yn ) a même loi que (X1 , . . . , Xn )
alors ce vecteur a la même densité et réciproquement.
Proposition 7.4.1 Si (X, Y ) est un couple aléatoire de loi de densité f , ses lois marginales
PX , PY sont données par :
Z b Z +∞
∀[a, b] intervalle, PX ([a, b]) = P(X ∈ [a, b]) = f (x, y) dxdy,
a −∞
Z bZ +∞
∀[a, b] intervalle, PY ([a, b]) = P(Y ∈ [a, b]) = f (x, y) dydx.
a −∞
R +∞
Autrement dit, la loi de X est de densité fX (x) = −∞
f (x, y)dy, celle de Y est de densité
R +∞
fY (y) = −∞ f (x, y) dx.
Démonstration : La preuve est une application directe du théorème de Fubini-Tonelli
sur les intégrales doubles une fois qu’on a remarqué que
PX ([a, b]) = P(X ∈ [a, b]) = P(X ∈ [a, b], Y ∈ R) = P(X,Y ) ([a, b] × R)
Z Z b Z Z b
= f (x, y) dxdy = f (x, y)dy dx = fX (x)dx
[a,b]×R a R a
R +∞
avec la densité anoncée fX (x) = −∞ f (x, y)dy. Il s’applique sans problème car par défini-
tion d’une densité, f est positive (et même intégrable sur R2 ). Idem pour Y .
76 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle
Remarque 7.4.1 À nouveau la connaissance de la loi du couple permet d’en déduire celle
des lois marginales, la réciproque est en général fausse.
Exemples : • Considérons f (x, y) = 31 1[0,1]×[−1,2] (x, y). Il s’agit bien d’une densité car f
est positive et
1
Z Z Z Z
f (x, y) dxdy = 1[0,1]×[−1,2] (x, y) dxdy
R2 3 R2
1
Z Z
= 1[0,1] (x) × 1[−1,2] (y) dxdy
3 R2
1 +∞
Z Z +∞
= 1[0,1] (x) dx 1[−1,2] (y) dy
3 −∞ −∞
| {z } | {z }
=1 =2−(−1)=3
= 1.
Considérons un couple (X, Y ) de loi de densité f . La loi de X est alors de densité donnée
par :
Z +∞
1 +∞ 1 +∞
Z Z
fX (x) = f (x, y)dy = 1[0,1]×[−1,2] (x, y)dy = 1[0,1] (x) × 1[−1,2] (y)dy
−∞ 3 −∞ 3 −∞
1 +∞
Z
= 1[0,1] (x) × 1[−1,2] (y)dy
3 −∞
| {z }
=1
= 1[0,1] (x).
N (0, (σ 0 )2 ).
• Montrer que
f (x, y) = ye−xy 1R+ (x)1[0,1] (y)
est la densité d’un couple (X, Y ) de R2 . Montrer que X est de loi donnée par la densité
1 − e−x − xe−x
fX (x) = 1R+ (x)
x2
et Y de loi uniforme sur [0, 1].
7.5. Variables aléatoires indépendantes 77
x2 +2xy+5y 2
1 −
• Soit f (x, y) = 3π e 6 . Il s’agit d’une densité car
x2 +2xy+5y 2 dxdy
Z Z Z Z
f (x, y)dxdy = e− 6
R2 R2 3π
(x+y)2 +4y 2 dxdy 4y 2 dxdy
Z Z Z Z
(x+y)2
= e − 6 = e− 2×3 e− 2×3
2 3π R2 3π
Z RZ Z Z
(x+y) 2 4y dy
2 z2 4y 2 dy
= e− 2×3 dx e− 2×3 = e− 2×3 dz e− 2×3
3π 3π
ZR R R R
√ 4y dy dy
2
Z 2
y
= 2π × 3e− 2×3 = e− 2×(3/4) p =1
R 3π R 2π × 3/4
Z
t2 √
en utilisant la normalisation de la loi normale N (0, σ ) : 2
e− 2σ2 dt = 2πσ 2 .
R
Considérons un couple (X, Y ) de densité f , alors X est de densité
√
( √1 x+ 5y)2 +4x2 /5
dy dy
Z Z Z
2 +2xy+5y 2
−x − 5
fX (x) = f (x, y)dy = e 6 = e 6
R R 3π R 3π
√
( √1 x+ 5y)2
√
4x2 dy dz 2π × 3
Z Z
5 4x2 z2 4x2
= e− 6 e− 30 = e− 30 e− 2×3 √ = e− 30 √
R 3π R 3π 5 3π 5
1 4x2
= p e− 30 .
15π/2
dx (x+y)2 +4y 2 dx 4y 2 dx
Z Z Z Z
2 2 (x+y)2
− x +2xy+5y
fY (y) = f (x, y)dx = e 6 = e− 6 = e− 2×3 e− 6
3π 3π 3π
R R
√ R R
(x+y) dx 2π × 3 1
Z 2
4y 2 4y 2 4y 2
= e− 6 e− 2×3 = e− 6 =p e− 6 .
R 3π 3π 3π/2
Dans la suite, on traite simultanément le cas des v.a. discrètes et des v.a. à densité. On
énoncera les résultats avec la restriction I intervalle de R pour les ensembles considérés.
On a besoin de cette restriction pour les v.a. à densité. Par contre, pour les v.a. discrètes,
ce n’est pas nécéssaire et il est possible de prendre des sous-ensembles A quelconques de
R.
Définition 7.5.1 (Indépendance de deux va) Deux v.a. X, Y sont dites indépendantes
si pour I, J intervalles de R, les évènements {X ∈ I}, {Y ∈ J} sont indépendants :
ce qui s’écrit encore en termes de loi PX,Y (I × J) = PX (I) × PY (J) : la loi du couple est
le « produit » des lois marginales.
Remarque 7.5.1 Pour l’indépendance de n évènements, il faut tester toutes les sous
familles des n évènements et pas seulement la famille entière ou l’indépendance deux à
deux. Pour une famille de n va, il suffit de tester la famille des n v.a. toutes ensembles.
L’apparente différence est due au fait que le test pour n v.a. contient les tests pour toutes
les sous familles : il suffit par exemple de prendre Ik = R pour faire le test sur la famille
de (n − 1) v.a. où on a exclu la k-ème v.a. c Car dire Xk ∈ R, c’est ne rien dire sur Xk et
donc faire comme s’il n’y avait aucune contrainte sur Xk . On comprend bien dès lors que
l’on peut tester toutes les sous familles avec des choix adéquats de Ik = R.
Définition 7.5.3 (Indépendance d’une suite de va) Une suite (Xi )i∈N de v.a. est dite
indépendante si toute sous-suite finie de (Xi )i∈N est indépendante au sens de la définition
7.5.2.
Proposition 7.5.1
– Les v.a. discrètes X et Y sont indépendantes si et seulement si
P(X ∈ A, Y ∈ B) = P((X, Y ) ∈ A × B)
X
= P((X, Y ) = (xi , yj ))
(xi ,yj )∈A×B
X
= P(X = xi , Y = yj )
(xi ,yj )∈A×B
X
= P(X = xi ) P(Y = yj )
(xi ,yj )∈A×B
X X
= P(X = xi ) P(Y = yj )
xi ∈A yj ∈B
par le théorème de Fubini, ce qui montre que f (x)g(y) est densité du couple (X, Y ). Réci-
proquement, si le couple a pour densité (f ⊗ g)(x, y) = f (x)g(y) alors pour tous intervalles
[a, b], [c, d] :
Z bZ d Z b Z d
P(X,Y ) ([a, b] × [c, d]) = f (x)g(y) dxdy = f (x) dx g(y)dy
a c a c
= P(X ∈ [a, b]) P(Y ∈ [c, d]),
Dans les deux exemples de la page 73, X et Y ne sont pas indépendantes car par exemple
pour le premier :
Et pour le second :
Exemples :
• On donne le tableau de la loi d’un couple (X, Y ) en donnant les probabilités ponc-
tuelles P(X = xi , Y = yj ) :
X \ Y y1 y2 y3
x1 0, 12 0, 08 0, 20 0, 4
x2 0, 18 0, 12 0, 30 0, 6
0, 3 0, 2 0, 5 = 1
On vérifie ici que X et Y sont indépendantes car pour tout i = 1, 2 et j = 1, 2, 3, on a
• Considérons le couple (X, Y ) de loi donnée par la densité f(X,Y ) (x, y) = 31 1[0,1]×[−1,2] (x, y).
On a vu que X et Y avaient pour densité fX (x) = 1[0,1] (x) et fY (y) = 13 1[−1,2] (y). On a
alors
1 1
f(X,Y ) (x, y) = 1[0,1]×[−1,2] (x, y) = 1[0,1] (x) × 1[−1,2] (y) = fX (x)fY (y).
3 3
Les variables X et Y sont donc indépendantes.
2 2
1 − x +2xy+5y
• Soit (X, Y ) le couple aléatoire de loi donnée par la densité f(X,Y ) (x, y) = 3π e 6 .
On a vu que les densités marginales sont
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2
On a alors
1 4x2 1 4y 2 1 − x2 +2xy+5y2
fX (x)fY (y) = p e− 30 × p e− 6 6= e 6 = f(X,Y ) (x, y).
15π/2 3π/2 3π
Proposition 7.5.2 Soient X, Y des v.a. indépendantes, F , G des fonctions dont les do-
maines de définition contiennent respectivement X(Ω) et Y (Ω). Alors les v.a. F (X) et
G(Y ) sont indépendantes.
7.5. Variables aléatoires indépendantes 81
Démonstration : Plaçons nous dans le cas de v.a. discrètes. Rappelons que F (X) désigne
l’application F ◦ X définie par
F ◦ X : Ω −→ R, ω 7→ F (X(ω)).
Il s’agit bien d’une v.a. discrète car l’ensemble de ses valeurs est {F (x1 ), . . . , F (xk ), . . .} si
celui de X est {x1 , . . . , xk , . . .}. De même celui de G(Y ) est {G(y1 ), . . . , G(yk ), . . .}. Pour
prouver l’indépendance de F (X) et G(Y ), il suffit d’après la proposition 7.5.1, de voir pour
t ∈ F (X)(Ω) et s ∈ G(Y )(Ω) :
P(F (X) = t, G(Y ) = s) = P(F (X) = t) P(G(Y ) = s).
Or
X
P(F (X) = t, G(Y ) = s) = P(X = xi , Y = yj )
i:F (xi )=t
j:G(yj )=s
X
= P(X = xi ) P(Y = yj )
i:F (xi )=t
j:G(yj )=s
X X
= P(X = xi ) P(Y = yj )
i:F (xi )=t j:G(yj )=s
Remarque 7.5.3 En particulier pour X et Y des v.a.r. indépendantes, quand les espé-
rances sont bien définies :
E[XY ] = E[X] E[Y ]. (7.5)
82 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle
Exemple : Une variable aléatoire Y suit la loi de Poisson P(λ). La loi conditionnelle de
X sachant Y = m est la loi binomiale de paramètres m et p. Déterminer la loi de X.
On détermine d’abord la loi jointe du couple (X, Y ) : pour des entiers n, m, on a
P(X = n|Y = m) P(Y = m) si P(Y = m) 6= 0,
P(X = n, Y = m) =
0 si P(Y = m) = 0.
e−λ λm
Comme P(Y = m) = > 0 mais P(X = n|Y = m) = 0 si n > m, on a :
m!
−λ m
e−λ λm
n n m−n e λ n m−n
Cm p (1 − p) = p (1 − p) si n ≤ m,
P(X = n, Y = m) = m! n!(m − n)!
0 si n > m.
f (x, y)
fX|Y =y (x) =
fY (y)
Z +∞
où fY (y) = f (x, y) dx est la densité (marginale) de Y .
−∞
La loi conditionnelle de X sachant Y = y est alors définie par cette densité fX|Y =y :
f (x, y)
Z Z
∀I intervalle de R, P(X ∈ I | Y = y) = fX|Y =y (x) dy = dy.
I I fY (y)
84 Chapitre 7. c JCB – L2 IMAE – Université de La Rochelle
La densité conditionnelle fX|Y =y est une fonction de la seule variable x. Par contre, y est
seulement un paramètre de la fonction.
Exemple : Reprenons le couple (X, Y ) de loi donnée par la densité
1 − x2 +2xy+5y2
e
f (x, y) = 6 .
3π
On a vu que X et Y sont de loi N (0; 15/4) et N (0; 3/4) avec les densités
1 4x2 1 4y 2
fX (x) = p e− 30 , fY (y) = p e− 6 .
15π/2 3π/2
La loi de X conditionnellement à {Y = y} est alors de densité
2 +2xy+5y 2
1 −x
f (x, y) e 6 1 x2 +2xy+y 2
fX|Y =y (x) = = 3π
4y 2
= √ e− 6 .
fY (y) √1 e− 6 6π
3π/2
Comme pour la Proposition 7.6.2 dans le cas discret, on a dans le cas avec des densités :
Proposition 7.6.3 Si les variables aléatoires X et Y sont indépendantes de densité fX et
fY alors les densités conditionnelles sont les densités marginales :
fX|Y =y (x) = fX (x) ∀y, et fY |X=x (y) = fY (y) ∀x.
À nouveau le conditionnement est sans effet car les variables sont indépendantes.
Démonstration : Comme X et Y sont indépendantes, le couple (X, Y ) est de densité
f(X,Y ) (x, y) = fX (x)fY (y). On a alors :
f(X,Y ) (x, y) fX (x)fY (y)
fX|Y =y (x) = = = fX (x),
fY (y) fY (y)
f(X,Y ) (x, y) fX (x)fY (y)
fY |X=x (y) = = = fY (y).
fX (x) fX (x)
Le plus important résultat est la loi des grands nombres (LGN) qui énonce la conver-
gence de la moyenne arithmétique (8.1) vers l’espérance de la loi. Puis le théorème central
limite (TCL) qui précise (en un certain sens la LGN).
Proposition 8.1.1 Soient X, Y deux v.a. discrètes indépendantes à valeurs entières (i.e.
avec X(Ω) ⊂ N, Y (Ω) ⊂ N). La loi de X + Y est donnée par :
X
∀n ∈ N, P(X + Y = n) = P(X = i) P(Y = j)
i+j=n
Xn
= P(X = i) P(Y = n − i).
i=0
85
86 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Exemple : Si X, Y sont des v.a. indépendantes de lois binomiales B(n, p) et B(m, p),
alors X + Y suit une loi binomiale B(n + m, p).
En effet, on sait que X, de loi B(n, p), peut être vue comme une somme de n v.a.
indépendantes εi , 1 ≤ i ≤ n, de loi de Bernoulli b(p)
X + Y = ε1 + · · · + εn + ε̃1 + · · · + ε̃m
est une somme de n + m v.a. de Bernoulli b(p) indépendantes. X + Y suit donc la loi
B(n + m, p).
On peut aussi le faire directement : pour i = 0, . . . , n + m, on a
i
X i
X
P(X + Y = i) = P(X = j, Y = i − j) = P(X = i)P(Y = i − j)
j=0 j=0
i
X
= Cnj pj (1 − p)n−j Cm
i−j i−j
p (1 − p)m−i+j
j=0
i
X
= pi (1 − p)n+m−i Cnj Cm
i−j
j=0
8.1. Somme de deux v.a. indépendantes 87
i
= Cn+m pi (1 − p)n+m−i
en utilisant l’identité
i
X
Cnj Cm
i−j i
= Cn+m
j=0
e−α αi e−β β j
P(X = i) = , P(Y = j) = , i, j ∈ N.
i! j!
On fait le changement de variable (x, y) −→ (t, s) = (x, x + y). Comme (x, y) varie dans
R2 de façon que x + y ∈ [a, b], t décrit tout R et s décrit [a, b]. On a alors :
Z b Z +∞ Z b
P X + Y ∈ [a, b] = 1 ×dtds =
f (t)g(s − t) × |{z} (f ∗ g)(s) ds,
a −∞ a
Jac
car le jacobien du changement de variable est
∂t ∂s
∂x ∂x 1 1
Jac = = = 1,
∂t ∂s 0 1
∂y ∂y
ce qui prouve la proposition.
où à la 3ème ligne on a utilisé 1[0,+∞[ (x − y)1[0,+∞[ (y) = 1[0,+∞[ (x)1[0,x] (y). Si a = b, la
densité est
Z +∞ Z +∞
f ∗ g(x) = g(y)f (x − y) dy = a 2
e−ay 1{y≥0} e−a(x−y) 1{x−y≥0} dy
−∞ −∞
Z x Z x
−ay −a(x−y) −ax
2
= a 1{x≥0} e e 2
dy = a 1{x≥0} e dy = a2 x1{x≥0} e−ax .
0 0
• Soient X1 de loi N (m1 , σ12 ) et X2 de loi N (m2 , σ22 ) alors X1 + X2 est de loi normale
N (m1 + m2 , σ12 + σ22 ).
Pour simplifier ( ? ! ?) les calculs qui suivent, prenons m1 = m2 = 0, et notons f1 et f2
les densités de X1 et de X2 . Celle de X1 + X2 est donnée par
+∞ +∞
dt
Z Z
2 /(2σ 2 ) 2 /(2σ 2 )
f1 ∗ f2 (x) = f1 (t)f2 (x − t)dt = e−t 1 e−(x−t) 2 p p
−∞ −∞ 2πσ12 2πσ22
+∞
(σ12 + σ22 )t2 − 2σ12 xt + σ12 x2
dt
Z
= exp − 2 2
−∞ 2σ1 σ2 2πσ1 σ2
2 σ14
2
2 2 1/2 σ1 2 2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x − (σ12 +σ22 )
x + σ1 x
= exp − 2 2
dt
2πσ1 σ2 −∞ 2σ1 σ2
σ12 σ12 σ22
2
2 2 1/2 2
1
Z +∞ (σ 1 + σ 2 ) t − (σ12 +σ22 )1/2
x + (σ12 +σ22 )
x
= exp − 2 2
dt
2πσ1 σ2 −∞ 2σ1 σ2
σ2
2
2
exp − 2(σ2x+σ2 ) Z +∞ (σ12 + σ22 )1/2 t − (σ2 +σ12 )1/2 x
1 2
= exp − 2 2
1 2 dt
2πσ1 σ2 −∞ 2σ σ
1 2
2
exp − 2(σ2x+σ2 ) Z +∞
u2
du
1 2
= exp − 2 2
2πσ1 σ2 −∞ 2σ1 σ2 (σ1 + σ22 )1/2
2
σ12
avec le changement de variable u = (σ12 + σ22 )1/2 t − x.
(σ12 + σ22 )1/2
90 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Puis d’après la normalisation de la loi normale N (0, σ12 σ22 ), la dernière intégrale vaut
Z +∞ p
u2 2πσ12 σ22
du
exp − 2 2 = .
−∞ 2σ1 σ2 (σ12 + σ22 )1/2 (σ12 + σ22 )1/2
On a finalement :
2
x2
exp − 2(σ2x+σ2 ) exp −
p
2 2
1 2 2πσ1 σ2 2 2
2(σ1 +σ2 )
f1 ∗ f2 (x) = 2 2 1/2
= p .
2πσ1 σ2 (σ1 + σ2 ) 2π(σ12 + σ22 )
Remarque 8.1.4 Notez que la même propriété est vraie pour l’espérance (qui est linéaire)
sans hypothèse d’indépendance alors qu’en général, c’est faux pour la variance si X et Y
ne sont pas indépendantes. Par exemple
Démonstration :
Exemple : Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des variables normales indépen-
dantes. Retrouvons les paramètres de la loi de Y = X1 + X2 .
On a vu que Y suit une loi normale, pour connaı̂tre les paramètres, il s’agit de connaı̂tre
E[X1 + X2 ] = E[X1 ] + E[X2 ] = m1 + m2 et Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) = σ12 + σ22 .
D’où
Y = X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
Retenons des exemples précédents que :
Proposition 8.1.4 Soient X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) des v.a. normales indé-
pendantes. Alors
X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 ).
8.2. Convergences probabilistes 91
Définition 8.2.2 (Convergence en probabilité) Soit (Xn )n≥1 une suite de variables
aléatoires et X une v.a. définies sur le même espace de probabilité (Ω, F, P). On dit que
Xn converge en probabilité vers X si :
P
On la note Xn → X.
92 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Remarque 8.2.1 Il faut bien comprendre que quand Xn converge en probabilité vers X,
il est toujours possible que pour certain ω ∈ Ω, Xn (ω) s’écarte de X(ω) même quand n
est grand. Mais, c’est de moins en moins probable, c’est à dire que cela arrive pour peu de
ω ∈ Ω : la probabilité que Xn soit distant de plus de ε > 0 de X est de plus en plus faible.
Il est clair que Ω0 ⊂ Ω0ε et donc P(Ω0ε ) = 1. Par traduction des opérateurs logiques ∀ et ∃
en opérateur ensemblistes ∩, ∪, on exprime facilement :
[ \
Ω0ε = ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
m0 ∈N n≥m0
Posons
\
Ak = ω ∈ Ω; ∀n ≥ k |Xn (ω) − X(ω)| < ε = {ω ∈ Ω; |Xn (ω) − X(ω)| < ε .
n≥k
Il est clair que la suite d’ensembles (Ak )k∈N est croissante (Ak ⊂ Ak+1 ) pour l’inclusion et
de réunion Ω0ε . Par continuité monotone de P, on a
[
Ak = P(Ω0ε ) = 1.
lim P(Ak ) = P
k→+∞
k
Remarque 8.2.2 La réciproque n’est pas vraie. Cependant, si Xn converge vers X en pro-
babilité, on peut montrer qu’il existe une sous-suite de Xn qui converge presque sûrement
vers X.
8.3. Loi des grands nombres 93
Théorème 8.3.1 (Loi faible des grands nombres) Soit (Xn )n∈N∗ une suite de variables
aléatoires (deux à deux) indépendantes et de même loi avec un moment d’ordre 2. Alors
n
1X P
Xi −→ E[X1 ], n → +∞.
n i=1
n
! n
! n
1X 1 X 1 X
Var(Mn ) = Var Xi = 2 Var Xi = Var(Xi )
n i=1 n i=1
n2 i=1
n
1 X 1 Var(X1 )
= 2
Var(X1 ) = 2 × (n Var(X1 )) = .
n i=1 n n
Var(X1 )
≤ . (8.4)
nε2
On conclut en faisant tendre n vers +∞.
Remarque 8.3.1 Plus que la convergence, nous avons obtenu la vitesse de convergence :
d’après (8.4) elle est en 1/n. Si on connaı̂t Var(X1 ), on peut donc pour une proportion
donnée, trouver un rang n0 tel Pque que pour n ≥ n0 et pour cette proportion de ω ∈ Ω, on
ait la moyenne arithmétique n1 ni=1 Xi à moins de ε de l’espérance E[X1 ].
Souvent, on se trouve dans le cas particulier où les v.a. considérées sont de loi de
Bernoulli, la LGN se réécrit alors :
Corollaire 8.3.1 Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes de Ber-
noulli de même paramètre p. Alors
n
1X P
Xi −→ p, n → +∞.
n i=1
Démonstration : La LGN (théorème 8.3.1) s’applique car E[Xi2 ] = p < ∞ et elle donne
le résultat car E[Xi ] = p quand Xi ∼ b(p).
C’est ce résultat qui formalise le résultat intuitif sur le lancer des dés ou des pièces :
avec
1 si on obtient le 4 au i-ème lancer
Xi = = 1{obtenir le 4 au i-ème lancer} ,
0 si on n’obtient pas le 4 au i-ème lancer
n
1X
on a Xi ∼ b(1/6) et p = 1/6 et Xi désigne la fréquence d’apparition du 4 sur les n
n i=1
premiers lancers qui tend vers 1/6 d’après le corollaire 8.3.1.
Exemple (Sondage) : Avant le second tour d’une élection, opposant les candidats D
et G, un institut de sondage interroge au hasard 1000 personnes dans la rue. On note p
la proportion d’électeurs décidés à voter pour G dans la population totale et on suppose
l’échantillon de personnes intérrogées représentatif. Dans l’échantillon sondé, cette propor-
tion est égale à 0, 54. Proposer un intervalle de confiance pour p avec un risque d’erreur de
5%.
96 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Le sondage peut être assimilé à une suite de 1000 tirages de boules avec remise (la
réponse d’un électeur de l’échantillon correspondant au tirage d’une boule d’une certaine
couleur selon son choix de vote), on est alors ramené à la situation de l’exemple précédent.
Ici, la fréquence observée du choix du candidat G sur les 1000 électeurs est M1000 (ω) = 0, 54
et l’intervalle de confiance est
I =]0, 54 − t; 0, 54 + t[
1 − 1/(4 × 1000 × t2 ).
L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans une infinité d’en-
sembles Ai .
L’ensemble limn→+∞ An désigne l’ensemble des ω ∈ Ω qui sont dans tous les ensembles
Ai à partir d’un certain rang.
Notons de plus que limn→+∞ An ⊂ limn→+∞ An .
Théorème 8.3.2 (Premier lemme de Borel-Cantelli) Soit (An )n≥1 une suite d’évè-
nements observables. Si la série suivante converge
+∞
X
P(An ) < +∞,
n=1
alors
P limn→+∞ An = 0.
[
Démonstration : Posons Bn = Ak . La suite (Bn )n est décroissante (Bn+1 ⊂ Bn ) et
k≥n
l’intersection des Bn est limn→+∞ An . D’après le théorème de continuité monotone séquen-
tielle (cf. Proposition ??), on a
[
P limn→+∞ An = P( Bn ) = lim P(Bn ).
n→+∞
n
Or
[ +∞
X
P(Bn ) = P Ak ≤ P(Ak ) := rn .
k≥n k=n
Comme rn est le reste d’une série convergente, rn est de limite nulle et donc
P limn→+∞ An = 0.
Remarque
P 8.3.2 Le deuxième lemme de Borel-Cantelli complète le premier : si la série
n P(A n ) diverge et qu’en plus les An sont des évènements indépendants alors la limite
supérieure des An est de probabilité 1.
Théorème 8.3.3 (Loi forte des grands nombres) Soit (Xn )n≥1 une suite de variables
aléatoires indépendantes et de même loi avec un moment d’ordre quatre (i.e. E[X14 ] < +∞).
Alors n
1X p.s.
Xi −→ E[X1 ].
n i=1
n
1X
Réciproquement, si Xi converge presque sûrement vers c quand n → +∞ alors les
n i=1
variables ont un moment d’ordre 1, E[|X1 |] < +∞ et leur espérance est E[Xi ] = c.
Remarque 8.3.3 En fait, il suffit qu’un moment d’ordre 1 existe. Mais on se contente de
la preuve dans le cas où le moment d’ordre 4 existe (c’est déjà assez compliqué).
Démonstration : Il suffit de prouver le théorème quand E[X1 ] = 0, le cas général
s’obtenant par translation. Posons
n n
1X X
Mn = Xi , Sn = Xi .
n i=1 i=1
n
X X
M (4) Xi4 + M (1, 3) Xi3 Xj
i=1 1≤i<j≤n
X X
= + M (2, 2) Xi2 Xj2 + M (2, 1, 1) Xi2 Xj Xk
1≤i<j≤n 1≤i<j<k≤n
X
+ M (1, 1, 1, 1) X i Xj Xk Xl
1≤i<j<k<l≤n
8.3. Loi des grands nombres 99
Comme E[Xi ] = 0, les deuxième, quatrième et cinquième termes sont nuls. Comme on
montre que M (4) = 1, M (2, 2) = 6, on obtient
n
X X
E(Sn4 ) = E[Xi4 ] + 6 E[Xi2 ]E[Xj2 ]
i=1 1≤i<j≤n
= nE[X14 ]
+ 6Cn (E[X12 ])2
2
= nE[X14 ]
+ 3n(n − 1)(E[X12 ])2
≤ M n + 3M n(n − 1)
≤ 3M n2 < +∞
E[Sn4 ] 3M
P(|Mn | ≥ ε) ≤ ≤ .
n 4 ε4 n 2 ε4
Comme 3M/n2 ε4 est le terme général d’une série convergente, P(|Mn | ≥ ε) aussi. Le lemme
de Borel-Cantelli s’applique et donne P(Dε ) = 0. Posons alors
+∞
[
D= D1/p
p=1
On a P(Ω0 ) = 1 et pour tout ω ∈ Ω0 , par traduction dans le langage logique des symboles
ensemblistes, pour tout p ∈ N∗ , il existe un entier k tel que pour tout n ≥ k |Mn | ≤ 1/p.
On a donc Mn qui converge presque sûrement vers 0 ; ce qui achève la preuve de la
LGN forte.
100 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Théorème 8.4.1 (Théorème central limite) Soit (Xn )n≥1 une suite de variables aléa-
toires indépendantes et de même loi, de moyenne m et de variance σ 2 (i.e. avec un moment
d’ordre deux fini). Notons Mn les moyennes arithmétiques
n
X1 + · · · + Xn 1X
Mn = = Xi ,
n n i=1
En particulier si Xn est de loi B(n, p), on peut voir Xn comme une somme de n v.a.
indépendantes de loi de Bernoulli b(p). D’après la remarque précédente, on a
Proposition 8.4.1 (Moivre-Laplace) La loi binomiale B(n, p) s’approxime par la
loi normale N (np, np(1 − p)) lorsque n est grand.
On a donc deux approximations possibles pour les lois binomiales B(n, p) : celle par
une loi de Poisson P(np) lorsque n est grand, p petit et np de l’ordre de quelques
unités et celle par N (np, np(1 − p)) lorsque n est grand. Seule la pratique permet de
décider laquelle des deux est la meilleure approximation.
– Le TCL est fondamental en statistique pour l’obtention d’intervalles de confiance. Il
est à l’origine de beaucoup d’approximation de lois et permet de se ramener à la loi
normale pour laquelle on dispose de tables des valeurs.
Exemple : Un joueur lance une pièce équilibrée : lorsqu’il obtient pile, il gagne 100
Euros, lorsqu’il obtient face, il perd 100 Euros. Estimer le nombre maximal de lancers à
effectuer pour que ce joueur ait plus de 95 chances sur 100 de perdre au plus 2000 Euros.
Notons n le nombre de lancers effectués, la v.a. Xn égale au nombre de piles obtenus
sur les n premiers lancers suit une loi B(n, 1/2) et le gain (algébrique) vaut :
On cherche alors n tel que P(Gn ≥ −2000) ≥ 0, 95. Or {Gn ≥ −2000} = {Xn −n/2 ≥ −10}.
Comme Xn de loi binomiale, peut être vue comme une somme Xn = 1 + · · · + n de v.a.
n n
de loi b(1/2), on peut approximer la loi de Xn , d’après le TCL par la loi normale N ( , )
2 4
X n − n/2
et donc celle de Xn∗ = p par la loi N (0, 1).
n/4
Chercher n tel que P(Gn ≥ −2000) = P(Xn − n/2 ≥ −10) ≥ 0, 95 revient à estimer n
tel que
√ √
P(N (0, 1) ≥ −20/ n) ≥ 0, 95 ou par symétrie de la loi P(N (0, 1) ≤ 20/ n) ≥ 0, 95.
Exemple : On lance 3600 fois un dé. Évaluer la probabilité que le nombre d’apparitions
du 1 soit compris entre 540 et 660.
102 Chapitre 8. c JCB – L2 IMAE – Université de La Rochelle
Soit S le nombre d’apparitions du 1. S suit la loi B(3600, 1/6) et donc sa loi peut être
approchée par celle de S̃ ∼ N (600, 500).
S̃ − 600
Mais comme X0 = √ ∼ N (0, 1), on a
500
P(540 ≤ S ≤ 660) ' P(540 ≤ S̃ ≤ 660)
!
540 − 600 S̃ − 600 660 − 600
= P √ ≤ √ ≤ √
500 500 500
= P(−2, 68 ≤ X0 ≤ 2, 68)
= P(X0 ≤ 2, 68) − P(X0 ≤ −2, 68)
= 2P(X0 ≤ 2, 68) − 1
' 0, 9926.
Exemple : Une entreprise emploie 500 personnes qui déjeunent à la cantine à l’un ou
l’autre des deux services avec une probabilité égale de manger au premier ou au second
service. Si le gérant veut avoir une probabilité supérieure à 95% de disposer d’assez de
couverts, combien devra-t-il en prévoir à chacun des deux services ?
On commence par numéroter les 500 personnes de 1 à 500 et on note pour chacune Xi la
variable aléatoire qui vaut 1 si la ième personne choisit le premier service (avec probabilité
1/2) et 0 sinon. Les Xi sont donc des v.a. de Bernoulli b(1/2).
Nous cherchons k le nombre minimal de couverts à disposer à chaque service, sinon 500
couverts conviennent sans prendre le moindre risque. P500
Le nombre de personnes déjeunant au premier service est S500 = i=1 Xi de loi
B(500, 1/2). Le nombre de personnes déjeunant au second service est 500 − Sn (on suppose
que tout le monde mange exactement une fois).
Le problème revient à chercher le plus petit k tel que
P(S500 ≤ k, 500 − S500 ≤ k) ≥ 0, 95
c’est à dire
P(500 − k ≤ S500 ≤ k) ≥ 0, 95.
D’après le théorème de Moivre-Laplace, on peut approcher la loi de S500 par N (250, 125).
X0 − 250
Notons X0 une v.a. suivant une telle loi, on a √ ∼ N (0, 1). Notons F0 la fonction
125
de répartition de X0 (pour laquelle on dispose d’une table des valeurs approchées). On a
alors
P(500 − k ≤ S500 ≤ k) ' P(500 − k ≤ X0 ≤ k)
250 − k k − 250
= P √ ≤ X0 ≤ √
125 125
k − 250 250 − k
= F0 √ − F0 √
125 125
8.4. Théorème central limite 103
k − 250
= 2F0 √ − 1.
125
k−250
Pour obtenir une probabilité d’au moins 0, 95, il faut que F0 √
125
≥ 0, 975, ce qui d’après
la table de la loi normale standard est vrai pour
k − 250 √
√ ≥ 1, 96 c’est à dire k ≥ 250 + 1, 96 125 ' 271, 91.
125
Il faut donc au minimum 272 couverts à chacun des deux services pour qu’avec une pro-
babilité de 95%, chacun puisse manger au service ce son choix.
En acceptant les 5% de risque, il y a moyen de réaliser une économie considérable en
place et en mobilier.