Cours de Probabilites L1MIF
Cours de Probabilites L1MIF
Licence-I Math-Info
1. Il dit à l’homme: Puisque tu as écouté la voix de ta femme, ... C’est à la sueur de ton visage que tu
mangeras du pain, jusqu’à ce que tu retournes dans la terre, d’où tu as été pris; car tu es poussière, et tu
retourneras dans la poussière. (Genèse 3.17-19)
Table des matières
1
TABLE DES MATIÈRES
3 Convergences 48
3.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.1 Inégalité de Bienaymé-Tchébychev . . . . . . . . . . . . . . . . . . . . . 48
3.1.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Convergence en loi et approximation . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Approximation de la loi binomiale par la loi de Poisson . . . . . . . . . . . 52
3.2.3 Approximation de la loi hypergéométrique par la loi binomiale . . . . . . . 54
3.2.4 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.5 Approximation de la loi binomiale par la loi normale . . . . . . . . . . . . 55
Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– connaître les propriétés fondamentales de la fonction de répartition,
– définir la notion de variable aléatoire discrète,
– connaître les distributions discrètes usuelles,
– calculer leurs espérances et variances ,
– connaître les situations où ces distributions sont applicables.
3
Sec 1.2 Fonctions de Répartition
1
P(X = 2) = P ({(1, 1)}) =
36
2
P(X = 3) = P ({(1, 2), (2, 1)}) =
36
3
P(X = 4) = P ({(1, 3), (2, 2), (3, 1)}) =
36
et, de manière similaire :
Somme, i 5 6 7 8 9 10 11 12
P(X = i) 4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
Il est clair que l’ensemble des valeurs possibles de X est {2, 3, 4, . . . , 12}. Comme X ∈ {2, 3, 4, . . . , 12},
nous devons avoir :
12
X
P (X = i) = 1
i=2
ce qui est facilement vérifiable. La valeur numérique d’une variable aléatoire dépend du résultat
de l’expérience. Par exemple, si le résultat du lancer est (2, 3), alors X = 5, et si le résultat est
(5, 6), alors X = 11. La variable X n’est pas définie pour les points qui ne font pas partie de
l’espace échantillon S. Ainsi, X est une fonction à valeurs réelles définie sur S. Cependant, toutes
les fonctions à valeurs réelles définies sur S ne sont pas considérées comme des variables aléatoires.
Pour des raisons théoriques, il est nécessaire que l’image réciproque d’un intervalle de R soit un
événement de S, ce qui motive la définition suivante.
Définition 1 Soit S l’espace échantillon d’une expérience. Une fonction à valeurs réelles X : S →
R est appelée variable aléatoire de l’expérience si, pour tout intervalle I ⊆ R, l’ensemble
{s ∈ S : X(s) ∈ I}
est un événement.
En probabilité, cet ensemble est souvent noté {X ∈ I}, ou simplement (X ∈ I).
(ii) Si X est le nombre de votes obtenus par le prochain candidat démocrate à l’élection prési-
dentielle, alors X ≥ 5 × 107 est l’événement où ce candidat obtient au moins 50 millions de
votes.
(iii) Si X est le nombre de faces obtenues lors de 100 lancers d’une pièce, alors 40 < X ≤ 60 est
l’événement où le nombre de faces est d’au moins 41 et au plus 60.
En général, lorsqu’on traite une variable aléatoire X, pour des constantes a et b (avec b < a),
le calcul de l’une ou plusieurs des probabilités P(X = a), P(X < a), P(X ≤ a), P(X > b),
P(X ≥ b), P(b ≤ X ≤ a), P(b < X ≤ a), P(b ≤ X < a) et P(b < X < a) est notre objectif
principal. Pour cette raison, nous calculons P(X ≤ t) pour tout t ∈ (−∞, +∞). Comme nous
le montrerons bientôt, si P(X ≤ t) est connu pour tout t ∈ R, alors pour tout a et b, toutes les
probabilités mentionnées ci-dessus peuvent être calculées. En fait, puisque la fonction à valeurs
réelles P(X ≤ t) caractérise X, elle nous donne presque toutes les informations sur X. Cette
fonction est appelée la fonction de répartition de X.
Définition 2 Si X est une variable aléatoire, alors la fonction FX définie sur ]−∞, +∞[ par
FX (t) = P(X ≤ t) est appelée la fonction de répartition ou fonction de distribution de X.
Puisque F « accumule » toutes les probabilités des valeurs de X jusqu’à t inclus, on l’appelle parfois
la fonction de distribution cumulative de X. Les propriétés les plus importantes des fonctions de
répartition sont les suivantes :
(i) FX est une fonction croissante ; c’est-à-dire que si t < u, alors FX (t) ≤ FX (u). Pour voir
cela, notons que l’événement {X ≤ t} implique l’occurrence de l’événement {X ≤ u}. Ainsi,
{X ≤ t} ⊆ {X ≤ u} et donc P(X ≤ t) ≤ P(X ≤ u). Autrement dit, FX (t) ≤ FX (u).
(ii) limt→∞ FX (t) = 1. Pour prouver cela, il suffit de montrer que pour toute suite croissante {tn }
de nombres réels convergeant vers ∞, on a limn→∞ FX (tn ) = 1. Cela découle de la propriété
de continuité de la probabilité. Les événements {X ≤ tn } forment une suite croissante qui
∞
[
converge vers l’événement {X ≤ tn } = {X < ∞}, c’est-à-dire,
n=1
∞
!
lim P (X ≤ tn ) = P {X ≤ tn } = P(X < ∞) = 1
[
n→∞
n=1
lim FX (t) = 1
n→∞
Exemple 1 (i) Pour calculer P(X > a), notons que P(X > a) = 1 − P(X ≤ a), ainsi
(ii) Pour calculer P(a < X ≤ b) avec b > a, notons que {a < X ≤ b} = {X ≤ b} − {X ≤ a} et
que {X ≤ a} ⊆ {X ≤ b}. Ainsi,
1
P(X < a) = lim FX a − .
n→∞ n
D’autres probabilités peuvent être calculées de manière similaire, ce qui donne le tableau suivant :
i=1
En raison de cette définition, si, pour un ensemble {x1 , x2 , x3 , . . .}, il existe une fonction p : R → R
telle que :
– p(xi ) ≥ 0 pour i = 1, 2, 3, . . .,
– p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .},
∞
X
– et p(xi ) = 1,
i=1
– Si x2 ≤ t < x3 , alors
Ainsi, FX est constante sur les intervalles [xn−1 , xn [ avec des sauts aux points x1 , x2 , x3 , . . .. L’am-
plitude du saut en xi est donnée par p(xi ).
Cela donne une moyenne de -0.08 FCFA, soit une perte d’environ 8 centimes par partie. Plus le
joueur joue, moins la chance intervient, et plus sa perte se rapproche de 0.08 FCFA par partie.
Si X est la variable aléatoire représentant le gain lors d ?une partie, alors le nombre -0.08 est appelé
valeur espérée de X. On note :
E(X) = −0.08.
E(X) est la valeur moyenne de X. C’est-à-dire que si nous jouons n fois et calculons la moyenne
des valeurs de X, alors lorsque n → ∞, nous obtenons E(X).
Dans ce jeu, comme E(X) < 0, cela signifie qu’en moyenne, plus nous jouons, plus nous perdons.
Si, pour un jeu donné, E(X) = 0, alors à long terme, le joueur ne gagne ni ne perd. De tels jeux
sont appelés jeux équitables.
Dans cet exemple, X est une variable aléatoire discrète dont l’ensemble des valeurs possibles est
{−1, 1, 2, 3}. La fonction de masse de probabilité de X, p(x), est donnée par :
i −1 1 2 3
p(i) = P (X = i) 0.6 0.3 0.08 0.02
et p(x) = 0 si x ∈
/ {−1, 1, 2, 3}.
En divisant les deux côtés de l’Equation (1.1) par n, nous obtenons :
Définition 4 L’espérance d’une variable aléatoire discrète X, dont l’ensemble des valeurs possibles
est A et dont la fonction de masse de probabilité est p(x), est définie par :
E(X) =
X
xp(x)
x∈A
Remarque 1
– Chaque valeur x de X est pondérée par p(x) = P(X = x), alors la somme
X
xp(x) n’est
x∈A
rien d’autre que la moyenne pondérée de X. De manière analogue, si l’on considère une masse
unitaire distribuée le long de la droite réelle aux points de A, de sorte que la masse en x ∈ A
est P (X = x), alors E(X) correspond au centre de gravité.
– Soit X une variable aléatoire discrète dont l’ensemble des valeurs possibles est A et dont la
fonction de masse de probabilité est p. On dit que E(X) existe si la somme
X
xp(x)
x∈A
converge, c’est-à-dire si
X
xp(x) < ∞.
x∈A
E(X) = c.
Preuve 1 Il n’existe qu’une seule valeur possible pour X, qui est c. Ainsi :
E(X) = c · P (X = c) = c · 1 = c
Soit g : R → R une fonction à valeurs réelles et X une variable aléatoire discrète dont l’ensemble
des valeurs possibles est A et dont la fonction de masse de probabilité est p(x).
De manière similaire à E(X) =
X
xp(x), il existe une relation importante :
x∈A
E[g(X)] =
X
g(x)p(x),
x∈A
connue sous le nom de loi du statisticien inconscient, que nous allons maintenant démontrer. Cette
relation permet de calculer l’espérance de la variable aléatoire g(X) sans avoir à déterminer sa
fonction de masse de probabilité.
Elle implique, par exemple, que :
E X2 = x2 p(x),
X
x∈A
E X − 2X + 4 =
2
(x2 − 2x + 4)p(x),
X
x∈A
E(X cos X) =
X
(x cos x)p(x),
x∈A
E eX = ex p(x).
X
x∈A
Théorème 2 Soit X une variable aléatoire discrète dont l’ensemble des valeurs possibles est A et
dont la fonction de masse de probabilité est p(x). Soit g une fonction à valeurs réelles. Alors g(X)
est une variable aléatoire dont l’espérance est donnée par :
E[g(X)] =
X
g(x)p(x).
x∈A
Preuve 2 Soit S l’espace échantillon. On suppose que g : R → R est une fonction à valeurs réelles
et que X : S → A ⊆ R est une variable aléatoire dont l’ensemble des valeurs possibles est A.
Comme nous le savons, la composition g(X) est une fonction de S vers l’ensemble g(A) = {g(x) :
x ∈ A}. Ainsi, g(X) est une variable aléatoire avec pour ensemble de valeurs possibles g(A).
D’après la définition de l’espérance :
E[g(X)] =
X
zP{g(X) = z}.
z∈g(A)
Définissons l’ensemble :
Ainsi,
E[g(X)] =
X
zP(g(X) = z)
z∈g(A)
X X
= z p(x)
z∈g(A) {x:g(x)=z}
X X
= zp(x)
z∈g(A) {x:g(x)=z}
X X
= g(x)p(x)
z∈g(A) {x:g(x)=z}
X
= g(x)p(x),
x∈A
où la dernière égalité provient du fait que la somme sur A peut être réalisée en deux étapes : d’abord
en sommant sur tous les x tels que g(x) = z, puis en sommant sur tous les z
Corollaire 1 Soit X une variable aléatoire discrète, et soient g1 , g2 , . . . , gn des fonctions à valeurs
réelles et α1 , α2 , . . . , αn des nombres réels. Alors :
E [α1 g1 (X) + α2 g2 (X) + · · · + αn gn (X)] = α1 E [g1 (X)] + α2 E [g2 (X)] + · · · + αn E [gn (X)] .
Preuve 3 Soit A l’ensemble des valeurs possibles de X et p(x) sa fonction de masse de probabilité.
D’après le Théorème 2, nous avons :
Définition 5 Soit X une variable aléatoire discrète ayant pour ensemble de valeurs possibles A,
une fonction de masse de probabilité p(x), et une espérance E(X) = µ.
L’écart-type (standard deviation) σX et la variance Var(X) de X sont définis par :
q h i
σX = E [(X − µ)2 ] et Var(X) = E (X − µ)2 .
x∈A
Soit X une variable aléatoire discrète ayant pour ensemble de valeurs possibles A et une fonction de
masse de probabilité p(x). Supposons que l’on cherche à prédire la valeur de X et que si la valeur t
est choisie comme estimation de X, une pénalité est appliquée en fonction de l’erreur X − t.
Pour minimiser cette pénalité, il semble raisonnable de minimiser :
h i
E (X − t)2 .
Or,
h i
E (X − t)2 = (x − t)2 p(x).
X
x∈A
En supposant que cette somme converge (c’est-à-dire E(X 2 ) < ∞), nous dérivons cette expression
par rapport à t pour trouver sa valeur minimale :
d h i d X
E (X − t)2 = (x − t)2 p(x) =
X
−2(x − t)p(x) = 0.
dt dt x∈A x∈A
Ce qui donne :
X X
xp(x) = t p(x) = t.
x∈A x∈A
xp(x) = E(X),
X
t=
x∈A
Nous avons mentionné précédemment que si l’on considère une masse unitaire répartie le long de
la droite réelle aux points de A, de sorte que la masse en x ∈ A est donnée par p(x) = P(X = x),
alors E(X) représente le centre de gravité.
Cependant, comme nous le savons, le centre de gravité ne fournit aucune information sur la répartition
de la masse autour de ce centre. C’est pourquoi, en physique, on introduit le moment d’inertie, qui
mesure la dispersion de la répartition de la masse autour du centre de gravité.
De manière analogue, E(X) est comparable au centre de gravité, et ne fournit aucune information
sur la dispersion de X autour de cette position centrale.
En revanche, la variance, qui est l’analogue du moment d’inertie, mesure la dispersion ou l’étalement
d’une distribution autour de sa valeur espérée.
Théorème 3 Soit X une variable aléatoire discrète ; alors, pour des constantes a et b, nous avons :
Var(aX + b) = a2 Var(X),
σaX+b = |a|σX .
σaX+b = |a|σX .
Remarque 2
Comme nous le savons, la variance mesure la dispersion ou l’étalement d’une distribution autour de
son espérance. Une manière de comparer la dispersion de deux variables aléatoires X et Y autour
d’un point arbitraire ω consiste à examiner laquelle des deux est la plus concentrée autour de ω. La
définition suivante formalise cette notion.
Définition 6 Soient X et Y deux variables aléatoires et ω un point donné. Si, pour tout t > 0, nous
avons :
Théorème 4 Supposons que X et Y sont deux variables aléatoires vérifiant E(X) = E(Y ) = µ. Si
X est plus concentrée autour de µ que Y , alors :
Var(X) ≤ Var(Y ).
1.6 Moments
Soit X une variable aléatoire dont l’espérance est µ. Soit c une constante, n ≥ 0 un entier, et r > 0
un nombre réel, entier ou non. L’espérance E(X) est également appelée le premier moment de X.
En pratique, les espérances de certaines fonctions de X ont une signification numérique et théorique
importante. Parmi ces fonctions, on trouve :
– g(X) = X n ,
– g(X) = |X|n ,
– g(X) = X − c,
– g(X) = (X − c)n ,
– g(X) = (X − µ)n .
À condition que E(|g(X)|) < ∞, l’espérance E[g(X)] est définie pour chaque cas comme suit :
E[g(X)] Définition
E(X n ) Le n-ième moment de X
E(|X|r ) Le r-ième moment absolu de X
E(X − c) Le premier moment de X autour de c
E((X − c)n ) Le n-ième moment de X autour de c
E((X − µ)n ) Le n-ième moment central de X
Remarque 3 Soit X une variable aléatoire discrète de fonction de masse p(x) dont l’ensemble de
valeurs possibles est A. Soit n un entier positif. Il est important de noter que si E(X n+1 ) existe,
alors E(X n ) existe aussi. En d’autres termes, l’existence de moments d’ordre supérieur implique
l’existence des moments d’ordre inférieur. En particulier, cela signifie que si E(X 2 ) existe, alors
E(X) et, par conséquent, Var(X) existent également. Pour démontrer ce fait, remarquons que, par
définition, E(X n+1 ) existe si :
x∈A
Définissons :
|x|n p(x) ≤
X X X
p(x) ≤ p(x) = 1.
x∈B x∈B x∈A
1 − p ≡ q, si x = 0
p (x) = p, si x = 1 (1.3)
0, autrement.
Il est à noter que le même symbole p est utilisé à la fois pour la fonction de masse et pour le
paramètre de Bernoulli. Cette duplication ne doit pas prêter à confusion, car les p apparaissant dans
la fonction de masse sont généralement sous la forme p(x).
Une définition mathématique précise des variables aléatoires de Bernoulli est donnée ci-dessous :
Définition 8 Une variable aléatoire est dite de Bernoulli de paramètre p si sa fonction de masse est
donnée par l’Équation (1.3).
D’après l’Équation (1.3), l’espérance mathématique d’une variable aléatoire de Bernoulli X, de
paramètre p, est :
Théorème 5 Soit X une variable aléatoire binomiale de taille n et paramètre p ∈ [0, 1] et on note
X B (n, p). Alors p(x), la fonction de masse de probabilité de X, est donnée par :
nx px (1 − p)n−x
si x = 0, 1, 2, . . . , n
p(x) = P(X = x) = (1.4)
0
ailleurs.
Définition 9 La fonction p(x) donnée par l’Équation (1.4) est appelée fonction de masse binomiale
de taille n et paramètre p ∈ [0, 1].
Soit X une variable aléatoire binomiale avec les paramètres (n, p). Intuitivement, nous nous atten-
dons à ce que la valeur espérée de X soit np. Par exemple, si nous lançons une pièce équilibrée 100
fois, nous nous attendons à ce que le nombre moyen de faces soit 50, soit 100 × 21 = 50. De même,
si nous choisissons 10 fusibles dans un lot où 30 % sont défectueux, nous nous attendons à ce que le
nombre moyen de fusibles défectueux soit np = 10(0, 30) = 3.
La formule E(X) = np peut être vérifiée directement à partir de la définition de l’espérance
mathématique comme suit :
n n
!
n x n−x n!
px (1 − p)n−x
X X
E(X) = x p (1 − p) = x
x=0 x x=1 x!(n − x)!
n
n!
px (1 − p)n−x
X
=
x=1 (x − 1)!(n − x)!
n
(n − 1)!
px−1 (1 − p)n−x
X
= np
x=1 (x − 1)!(n − x)!
n
!
n − 1 x−1
p (1 − p)n−x .
X
= np
x=1 x−1
En posant i = x − 1 (en changeant l’indice de la somme), on obtient :
n−1
!
n−1 i
p (1 − p)(n−1)−i = np[p + (1 − p)]n−1 = np,
X
E(X) = np
i=0 i
où l’avant-dernière égalité découle du développement binomial.
Pour calculer la variance de X, en suivant une procédure similaire à celle utilisée pour obtenir E(X),
nous trouvons :
n
!
n x
2 2
p (1 − p)n−x = n2 p2 + np.
X
E(X ) = x
x=1 x
Par conséquent,
e−λ λk
P(X = k) = , k = 0, 1, 2, 3, . . . (1.5)
k!
Puisque la fonction de masse de Poisson est la limite d’une fonction de masse binomiale (à démon-
trer), et que l’espérance d’une variable aléatoire binomiale de taille n et de paramètres p est np, où
np = λ, il est raisonnable de s’attendre à ce que l’espérance d’une variable aléatoire de Poisson de
paramètre λ soit λ. Pour prouver cela, remarquons que :
∞ ∞
e−λ λi
E(X) =
X X
iP (X = i) = i
i=0 i=1 i!
∞ ∞
λi−1 λi
= λe−λ = λe−λ
X X
= λe−λ eλ = λ.
La variance d’une variable aléatoire de Poisson X de paramètre λ est aussi λ. Pour le voir, notons
que :
∞ ∞
e−λ λi
E(X 2 ) = i2 P (X = i) = i2
X X
i=0 i=1 i!
∞ ∞
iλi−1 1 d i
= λe−λ = λe−λ
X X
(λ )
i=1 (i − 1)! i=1 (i − 1)! dλ
∞
λi
!
−λ d X d λ
= λe = λe−λ λe
dλ i=1 (i − 1)! dλ
= λe−λ eλ + λeλ = λ + λ2 .
Par conséquent,
S = {s, f s, f f s, f f f s, f f f f s, . . .}.
Supposons maintenant qu’une suite d’épreuves de Bernoulli indépendantes soit réalisée, chacun
ayant une probabilité de succès p, où 0 < p < 1, et soit X le nombre d’épreuves jusqu’à ce que le
premier succès se produise. Alors X est une variable aléatoire discrète dite géométrique. Elle est
définie sur S, son ensemble de valeurs possibles, qui est {1, 2, 3, . . .}, et
P(X = n) = (1 − p)n−1 p, n = 1, 2, 3, . . .
Cette équation découle du fait que (a) les n − 1 premiers essais sont tous des échecs, (b) le n-ième
essai est un succès et (c) les essais de Bernoulli successifs sont tous indépendants.
Soit p(x) = (1 − p)x−1 p avec x = 1, 2, 3, . . ., et 0 ailleurs. Alors, pour toutes les valeurs de x dans
R, p(x) ≥ 0 et
∞ ∞
p
(1 − p)x−1 p =
X X
p(x) = = 1,
x=1 x=1 1 − (1 − p)
par le théorème de la somme des séries géométriques. Ainsi, p(x) est bien une fonction de masse.
Définition 11 Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire X suit la loi géométrique de
paramètre p et on note X G (p), lorsque X prend les valeurs n ∈ N∗ avec les probabilités :
(1 − p)x−1 p, 0 < p < 1, x = 1, 2, 3, . . .
p(x) = (1.6)
0, ailleurs.
x=1 x=1
!
1 1
=p = ,
p2 p
∞
xrx−1 = 1/(1 − r)2 , pour |r| < 1. L’expression
X
où la troisième égalité découle de la relation
x=1
E(X) = 1/p indique qu’en moyenne, 1/p épreuves de Bernoulli indépendantes sont nécessaires
pour obtenir le premier succès.
∞
r(r + 1)
x2 rx−1 =
X
La relation , pour |r| < 1, implique que :
x=1 (1 − r)3
∞
1+p 2−p
E(X 2 ) = x2 p(1 − p)x−1 = p 3 =
X
.
x=1 p p2
Ainsi,
!2
2−p 1 1−p
Var(X) = E(X ) − [E(X)] =
2
2
2
− = .
p p p2
Nous avons donc établi les formules suivantes :
Si X est une variable aléatoire géométrique de paramètre p, où 0 < p < 1, alors :
√
1 1−p 1−p
E(X) = , Var(X) = , σ X = .
p p2 p
!
n−1 r
P (X = n) = p (1 − p)n−r , n = r, r + 1, . . . (1.7)
r−1
Cette équation est justifiée par le fait que si le résultat du n-ième épreuve est le r-ième succès, alors
dans les (n − 1) premiers épreuves, exactement (r − 1) succès ont eu lieu, et le n-ième épreuve est
un succès. La probabilité de cet événement est :
! !
n − 1 r−1 n − 1 r−1
p (1 − p)(n−1)−(r−1) = p (1 − p)n−r ,
r−1 r−1
et la probabilité du dernier succès est p. Ainsi, par indépendance des épreuves, l’Expression (1.7) en
découle.
Toute variable aléatoire X ayant une telle fonction de probabilité est appelée variable aléatoire
hypergéométrique. Le fait que p(x) soit une fonction de probabilité est facilement vérifié. Il est
n
X
clair que p(x) ≥ 0, ∀x. Pour prouver que p(x) = 1, notons que cela est équivalent à :
x=0
n
! ! !
X D N −D N
= ,
x=0 x n−x n
ce qui peut être démontré par un simple argument combinatoire .
Définition 13 Soient N , D et n des entiers positifs tels que n ≤ min(D, N − D). Alors :
D N −D
( x )( n−x ) ,
si x ∈ {0, 1, 2, . . . , n},
p(x) = P(X = x) = (Nn ) (1.8)
0, ailleurs.
nD nD(N − D) n−1
E(X) = , Var(X) = 1− .
N N 2 N −1
Remarquons que si l’expérience consistant à tirer n objets d’une boîte contenant D objets défectueux
et N −D objets non défectueux est réalisée avec remise, alors X suit une loi binomiale de paramètres
n et D/N . Ainsi :
nD D D nD(N − D)
E(X) = , Var(X) = 1− n= .
N N N N2
Cela montre que si les objets sont tirés avec remise, alors la valeur espérée (l’espérance) de X
ne change pas, mais la variance augmente. Cependant, si n est beaucoup plus petit que N , alors,
comme le confirme la formule de la variance, le tirage avec remise est une bonne approximation
du tirage sans remise.
Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– Comprendre la notion de densité de probabilité pour une variable aléatoire réelle.
– Connaître la relation entre densité et fonction de répartition.
– Calculer des probabilités à l’aide d’intégrales de densité.
– Déterminer l’espérance, la variance et les moments d’une variable continue.
– Manipuler les lois continues usuelles : uniforme, exponentielle, gaussienne et normale.
– Maîtriser les propriétés fondamentales de la loi normale (symétrie, standardisation).
– Résoudre des problèmes probabilistes impliquant des lois à densité.
2.1 Généralités
2.1.1 Densité et fonction de répartition
Définition 14 On dit qu’une V.A.R. X admet une densité fX lorsque sa fonction de répartition FX
peut s’écrire sous la forme :
Z x
FX (x) = fX (t) dt
−∞
où fX est une fonction à valeurs réelles positives, ayant un nombre fini de points de discontinuité et
telle que :
Z +∞
fX (t) dt = 1.
−∞
Remarque 5 Toute fonction g positive, égale à fX sauf éventuellement en un nombre fini de points,
est aussi une densité de X.
22
Sec 2.1 Généralités
Théorème 6 Une fonction réelle fX définie sur R est une densité de probabilité si et seulement si :
– fX est continue sur R sauf éventuellement en un nombre fini de points,
– fZX (x) ≥ 0 pour tout x ∈ R,
+∞
– fX (x) dx = 1.
−∞
Proposition 1 Soit X une V.A.R. admettant une densité f , et soit sa fonction de répartition FX :
– FX est continue ;
– En tout point x0 où f est continue, FX est dérivable et F 0 (x0 ) = fX (x0 ). FX est croissante
de 0 à 1, dérivable sauf peut-être en un nombre fini de points ; sa dérivée est continue là où
elle est définie.
Remarque 6 Cette proposition est souvent utilisée pour déterminer la loi d’une V.A.R. Y fonction
d’une V.A.R. à densité X, c’est-à-dire pour déterminer une densité de Y .
Proposition 3 Soit X une V.A.R. admettant une densité fX et une fonction de répartition FX :
(1) Pour tout a ∈ R, P(X = a) = 0.
(2) Pour tous a et b réels tels que a < b :
Z b
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) = fX (t) dt.
a
Z +∞
P(X > b) = P(X ≥ b) = fX (t) dt.
b
Preuve
(1) Pour tout a ∈ R, et tout n ∈ N∗ , on a :
1
0 ≤ P(X = a) ≤ P a − < X ≤ a .
n
Or
1 1
P a− < X ≤ a = F (a) − F a −
n n
et
1
lim FX a − = FX (a) car FX est continue sur R, donc en a,
n→∞ n
donc
1
lim P a − <X≤a =0 ⇒ P(X = a) = 0.
n→∞ n
(2) Si a et b sont tels que a < b, on sait que :
Z b Z a
P(a < X ≤ b) = FX (b) − FX (a) = fX (t) dt − fX (t) dt
−∞ −∞
donc Z b
P(a < X ≤ b) = fX (t) dt
a
et comme P(X = a) = P(X = b) = 0, on a
On a
Remarque 7 Si fX est nulle en dehors de [a, b], P(X < a) = 0 et P(X > b) = 0 donc on peut
considérer que X prend ses valeurs dans [a, b].
Plus généralement, si fX est nulle en dehors de I, on dit que X prend ses valeurs dans I.
GY (x) = FX (ln x)
GY est continue sur ] − ∞, 0] car sur cet intervalle GY est composée de F et de ln qui sont continues
sur leurs domaines de définition.
Y est donc une V.A.R. à densité et une densité de Y est la fonction g définie par :
0 si x ≤ 0
gY (x) =
1 fX (ln x) si x > 0
x
Remarque 8 On a posé gY (0) = 0 et gY (x) = x1 fX (ln x) mais on aurait pu choisir d’autres valeurs
pour gY (x) lorsque x ∈ {0, ex1 , . . . , exn }.
Exemple 4 (Transformation affine d’une variable aléatoire) Soit X une V.A.R. de densité fX et
a et b deux nombres réels (a 6= 0). Déterminons la loi de la V.A.R. Y = aX + b.
Soit FX (resp. GY ) la fonction de répartition de X (resp. Y ).
en un nombre fini de points et G0Y est continue sur R privée de ces points.
On en déduit que Y est une V.A.R. à densité. En tout point où G0Y est défini, on a :
1 fX x−b
si a > 0
a
G0Y (x) = a
− 1 fX x−b
si a < 0
a a
Théorème 7 (Méthode des transformations) Soit X une variable aléatoire continue de densité
fX et d’ensemble de valeurs possibles ΩX . Pour une fonction inversible h : ΩX → R, posons
Y = h(X) une variable aléatoire avec pour ensemble de valeurs possibles ΩY = h (ΩX ) = {h(a) :
a ∈ ΩX }. Supposons que l’inverse de la fonction y = h(x) est la fonction x = h−1 (y), qui est
différentiable pour toutes les valeurs de y ∈ ΩY . Alors fY , la fonction de probabilité de Y , est
donnée par
fY (y) = fX h−1 (y) (h−1 )0 (y) , y ∈ ΩY .
Théorème 8 Pour toute variable aléatoire continue X ayant pour fonction de répartition FX et
pour fonction densité de probabilité fX , on a
Z +∞ Z +∞
E(X) = [1 − FX (t)] dt − FX (−t) dt.
0 0
Remarque 9 Dans la preuve de ce théorème, on a supposé que la variable aléatoire X est continue.
Même sans cette condition, le théorème reste valide. De plus, comme 1 − FX (t) = P(X > t), ce
théorème peut aussi s’énoncer ainsi :
Pour toute variable aléatoire X,
Z +∞ Z +∞
E(X) = P(X > t) dt − P(X ≤ −t) dt.
0 0
Théorème 9 Soit X une variable aléatoire réelle continue définie sur (Ω, A, P) de fonction densité
de probabilité fX (x) ; alors pour toute fonction h : R → R, on a :
Z +∞
E[h(X)] = h(x)fX (x) dx.
−∞
Preuve 7 Soit
h−1 (t, +∞) = {x : h(x) ∈ (t, +∞)} = {x : h(x) > t}
avec une représentation similaire pour h−1 (−∞, −t). Remarquons que nous n’affirmons pas que h
possède une fonction inverse. Nous considérons simplement l’ensemble {x : h(x) ∈ (t, +∞)}, qui
est appelé l’image réciproque de (t, +∞) et est notée h−1 (t, +∞).
Par le Théorème 8, nous avons :
Z +∞ Z +∞
E[h(X)] = P(h(X) > t) dt − P(h(X) ≤ −t) dt
0 0
Z +∞ Z +∞
= P(X ∈ h−1 (t, +∞)) dt − P(X ∈ h−1 (−∞, −t)) dt
0 0
Z +∞ Z ! Z +∞ Z !
= f (x) dx dt − f (x) dx dt
0 {x:h(x)>t} 0 {x:h(x)≤−t}
Z Z h(x) ! Z Z 0 !
= dt f (x) dx − dt f (x) dx.
{x:h(x)>0} 0 {x:h(x)≤0} h(x)
Maintenant, nous changeons l’ordre d’intégration pour ces deux intégrales doubles. En effet :
{(t, x) : 0 < t < +∞, h(x) > t} = {(t, x) : h(x) > 0, 0 < t < h(x)},
et
{(t, x) : 0 < t < +∞, h(x) ≤ −t} = {(t, x) : h(x) < 0, 0 < t < −h(x)}.
Ainsi, nous obtenons :
Z Z h(x) ! Z Z −h(x) !
E[h(X)] = dt f (x) dx − dt f (x) dx
{x:h(x)>0} 0 {x:h(x)<0} 0
Z Z
= h(x)f (x) dx + h(x)f (x) dx
{x:h(x)>0} {x:h(x)<0}
Z +∞
= h(x)f (x) dx.
−∞
Corollaire 2 Soit X une variable aléatoire continue ayant pour fonction densité de probabilité
fX (x). Soient h1 , h2 , . . . , hn des fonctions réelles, et α1 , α2 , . . . , αn des réels. Alors :
E [α1 h1 (X) + α2 h2 (X) + · · · + αn hn (X)] = α1 E[h1 (X)] + α2 E[h2 (X)] + · · · + αn E[hn (X)].
Ce corollaire affirme que si α et β sont des réels, alors :
E(αX + β) = αE(X) + β.
Définition 16 Si E(X) = 0, on dit que X est une V.A.R. centrée. Si X admet une espérance
mathématique, X − E(X) est appelée V.A.R. centrée associée à X.
Définition 18 Soit σX (X) = 1, on dit que X est une V.A.R. réduite. Si X admet une espérance
mathématique et un écart-type non nul,
X − E(X)
σ(X)
est appelée V.A.R. centrée réduite associée à X.
P (X ∈ A, Y ∈ B) = P (X ∈ A) P (X ∈ B) . (2.1)
P (X ≤ a, Y ≤ b) = P (X ≤ a) P (Y ≤ b) . (2.2)
l’Expression (2.2) affirme que X et Y sont des variables aléatoires indépendantes si et seulement
si leur fonction de répartition conjointe est le produit de leurs fonctions de répartition marginales.
Le théorème suivant exprime ce fait.
Théorème 10 Soient X et Y deux variables aléatoires définies sur le même espace probabilisé.
Si F est la fonction de répartition conjointe de X et Y , alors X et Y sont indépendantes si et
seulement si, pour tous réels x et y,
Théorème 11 (sur les fonctions de variables aléatoires indépendantes) Soient X et Y deux va-
riables aléatoires indépendantes. Alors, pour les fonctions réelles g : R → R et h : R → R, g(X)
et h(Y ) sont aussi des variables aléatoires indépendantes.
Preuve 8 Pour montrer que g(X) et h(Y ) sont indépendantes, il suffit, d’après l’Expression (2.2),
de prouver que, pour tous réels a et b,
P (g(X) ≤ a, h(Y ) ≤ b) = P (X ∈ A, Y ∈ B)
= P (X ∈ A) P (Y ∈ B)
= P (g(X) ≤ a) P (h(Y ) ≤ b) .
Exemple 6 Ainsi, d’après ce théorème, si X et Y sont des variables aléatoires indépendantes, alors
des ensembles tels que {X 2 , Y }, {sin X, eY }, {X 2 − 2X, Y 3 + 3Y } sont des ensembles de variables
aléatoires indépendantes.
Une autre propriété importante des variables aléatoires indépendantes est que l’espérance de leur
produit est égale au produit de leurs espérances respectives.
Théorème 12 Soient X et Y deux variables aléatoires indépendantes. Alors, pour toutes fonctions
réelles g : R → R et h : R → R,
E(XY ) = E(X)E(Y ).
Théorème 13 Soient X et Y deux variables aléatoires continues dont la fonction densité de proba-
bilité conjointe est fX,Y (x, y). Alors, X et Y sont indépendantes si et seulement si fX,Y (x, y) est le
produit de leurs densités marginales fX (x) et fY (y).
Preuve 10 La partie « seulement si » est prouvée en posant g(x) = fX (x) et h(y) = fY (y) et en
utilisant le Théorème 13. Pour prouver la partie « si » pour des variables aléatoires continues,
supposons que f (x, y) = g(x)h(y). Définissons :
Z ∞ Z ∞
g(x) dx = c et h(y) dy = d,
−∞ −∞
Z ∞ Z ∞
cd = g(x) dx h(y) dy (2.3)
−∞ −∞
Z ∞ Z ∞
= g(x)h(y) dx dy
−∞ −∞
Z ∞ Z ∞
= f (x, y) dx dy
−∞ −∞
= 1, car fX,Y (x, y) est une densité conjointe
De plus, les densités marginales sont données par :
Z ∞
fX (x) = g(x)h(y) dy = g(x)d
−∞
Z ∞
fY (y) = g(x)h(y) dx = h(y)c (2.4)
−∞
Preuve
Var (X + Y ) = E((X + Y )2 ) − [E(X + Y )]2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E(X)2 − 2E(X)E(Y ) − E(Y )2
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 = V (X) + V (Y ).
Proposition 6 Soit ai ∈ R, i ∈ J1 ; nK. Si X1 , X2 , . . . , Xn sont indépendantes deux à deux, alors :
n n
!
a2i Var(Xi ),
X X
Var ai Xi =
i=1 i=1
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1
MX (t) = E(etX ).
Si MX (t) est finie pour toutes les valeurs de t appartenant à un intervalle ]−δ, δ[, avec δ > 0, alors
MX (t) est appelée la fonction génératrice des moments de X. Dans le cas contraire, on dit que la
fonction génératrice des moments de X n’existe pas.
Ainsi, si X est une variable aléatoire discrète prenant ses valeurs dans un ensemble A et admettant
une fonction de masse p(x), alors :
etx P (X = x) ,
X
MX (t) =
x∈ΩX
et si X est une variable aléatoire continue admettant une fonction de densité de probabilité f (x),
alors : Z +∞
MX (t) = etx fX (x) dx.
−∞
Il est important de noter que la condition selon laquelle MX (t) est finie dans un voisinage de 0,
c’est-à-dire sur un intervalle ]−δ, δ[ pour un certain δ > 0, est essentielle. Sans cette hypothèse,
certains moments de X peuvent ne pas exister.
Comme son nom l’indique et comme cela sera précisé par la suite, la fonction génératrice des
moments d’une variable aléatoire X permet de retrouver les moments de X en différentiant MX (t)
et en évaluant les dérivées en t = 0.
Théorème 15 Soit X une variable aléatoire admettant une fonction génératrice des moments
MX (t). Alors, pour tout entier n ≥ 1,
(n)(n)
E(X n ) = MX (0)
(0),
où l’on définit :
(n)
(n) dn
MX (0) = MX (t) ,
dtn t=0
(n)
(n)
où MX (t) désigne la dérivée n-ième de MX (t) relativement à t. Autrement dit, le n-ième moment
est égal à la n-ième dérivée de MX (t) évaluée en t = 0.
Le but du Théorème 16 suivant est non seulement de caractériser les conditions sous lesquelles il
est légitime d’interchanger l’ordre d’intégration et de différentiation, mais aussi de nous préparer à
établir la preuve du Théorème 15.
Beaucoup de ces conditions peuvent être établies en utilisant des théorèmes standards du calcul
différentiel et intégral, et des démonstrations détaillées peuvent être trouvées dans la plupart des
cours d’analyse. Ainsi, elles ne seront pas présentées ici.
Nous souhaitons d’abord donner la méthode de calcul suivante :
d Z b(θ)
f (x, θ) dx,
dθ a(θ)
où −∞ < a(θ), b(θ) < +∞ pour tout θ. La règle pour dériver cette expression est appelée règle de
Leibniz, et elle constitue une application du théorème fondamental du calcul intégral ainsi que
de la règle de la chaîne.
Théorème 16 (Règle de Leibniz) Si f (x, θ), a(θ) et b(θ) sont différentiables par rapport à θ,
alors :
d Z b(θ) d d Z b(θ)
∂
f (x, θ) dx = f (b(θ), θ) b(θ) − f (a(θ), θ) a(θ) + f (x, θ) dx.
dθ a(θ) dθ dθ a(θ) ∂θ
Remarquons que si a(θ) et b(θ) sont constants, nous obtenons un cas particulier de la règle de
Leibniz :
d Zb Z b
∂
f (x, θ) dx = f (x, θ) dx. (2.5)
dθ a a ∂θ
Ainsi, en général, si l’on considère l’intégrale d’une fonction différentiable sur un intervalle fini, la
différentiation sous le signe intégral ne pose aucun problème. En revanche, si l’intervalle d’intégra-
tion est infini, des problèmes peuvent survenir.
Remarquons que l’interversion entre dérivée et intégrale dans l’Équation (2.5) précédente correspond
à identifier une dérivée partielle avec une dérivée ordinaire. Formellement, cela doit être le cas
puisque le membre de gauche est une fonction uniquement de θ, tandis que l’intégrande du membre
de droite dépend à la fois de θ et de x.
Preuve 11 (du Théorème 15) Si X est continue et admet une fonction de densité f (x), alors :
d +∞
Z Z +∞
MX0 (t) = tx
e fX dx = xetx fX dx,
dt −∞ −∞
Z +∞ Z +∞
d
MX00 (t) = xetx fX dx = x2 etx fX dx,
dt −∞ −∞
..
. Z +∞
(n)
MX (t) = xn etx fX (x) dx. (2.6)
−∞
La validité du passage de la dérivation sous le signe intégral repose sur la régularité suffisante de
la fonction fX . En prenant t = 0 dans l’Équation (2.6), on obtient :
Z +∞
(n)
MX (0) = xn fX dx = E(X n ),
−∞
Remarque 10 Puisque MX (t) est finie dans un intervalle ]−δ, δ[ avec δ > 0, il en résulte que pour
(n)
tout entier n ≥ 1, la dérivée MX (t) existe.
Preuve 12 (du Théorème 15) Supposons que l’on puisse différencier sous le signe intégral. Alors :
Z +∞
d d
MX (t) = etx fX (x) dx
dt dt −∞
!
Z +∞
d tx
= e fX (x) dx
−∞ dt
Z +∞
= (xetx )fX (x) dx
−∞
= E(XetX ).
Ainsi,
d
MX (t) = E(XetX ) = E(X).
dt t=0 t=0
dn
n
MX (t) = E(X n etX ) = E(X n ).
dt t=0 t=0
Ainsi, E(X n ) est le coefficient de tn /n! dans le développement en série de Maclaurin de MX (t).
Il est important de savoir que si MX doit être fini, alors les moments de tous les ordres de X doivent
être finis. Mais la réciproque n’est pas nécessairement vraie. C’est-à-dire que tous les moments
peuvent être finis et pourtant il n’existe aucun voisinage de 0, de la forme ]−δ, δ[, avec δ > 0, sur
lequel MX soit fini.
Lemme 1 Soit X une variable aléatoire admettant une fonction génératrice des moments MX (t).
Pour des constantes a et b, soit Y = aX + b. Alors, la fonction génératrice des moments de Y est
donnée par :
Théorème 17 Soient X et Y deux variables aléatoires ayant pour fonctions génératrices des
moments MX (t) et MY (t). S’il existe un δ > 0 tel que MX (t) = MY (t) pour toutes les valeurs de t
dans ]−δ, δ[, alors X et Y ont la même fonction de probabilité.
La définition est la même sur chacun des intervalles ]a, b[, [a, b] et ]a, b].
Proposition 7 Si X suit la loi uniforme sur [a, b], alors X admet une espérance mathématique :
a+b
E(X) = .
2
Preuve
Z b
Z +∞
x 1 Zb
E(X) = xf (x) dx = dx = x dx
−∞ a b−a b−a a
" #b
1 x2 1 b 2 − a2 b+a
= = · = .
b−a 2 a b−a 2 2
b+a
Donc E(X) existe et E(X) = .
2
On a :
Z A h iA Z A
−αx
αxe dx = −xe−αx + e−αx dx
0 0 0
−αx A
" #
e
= −Ae−αA + −
α 0
−αA
" #
−αA 1 e
= −Ae − − +
α α
e−αA 1
= −Ae−αA + − .
α α
1 −αA 1
limA→+∞ (−A − )e = 0 donc Eα (X) existe et Eα (X) = .
α α
Remarquons que
Z +∞ Z A
2
x fX (x) dx = lim αx2 e−αx dx
0 A→+∞ 0
et
"Z #
A h iA Z A Z A
2 −αx
lim αx e dx = −x2 e−αx + 2xe −αx
dx = −A e 2 −αA
+2 −αx
xe dx = 0.
A→+∞ 0 0 0 0
2 Z +∞ −αx 2 1 2
Donc Eα (X 2 ) existe et Eα (X 2 ) = xe dx = · = 2 .
α 0 α α α
Par suite, Varα (X) existe et
1
Varα (X) = Eα (X 2 ) − Eα (X)2 = .
α2
Proposition 9 (Caractérisation de la loi exponentielle) Une X une V.A.R. suit une loi exponen-
tielle si et seulement si :
Preuve
X suit la loi exponentielle E(α), X(Ω) = R+∗ et
Z +∞
∀s ∈ R ,+
P(X > s) = αe−αx dx = e−αs 6= 0
s
FX est continue sur ] − ∞, 0[ et [0, +∞[. FX (0) = 0 = lim− FX (x), donc FX est continue sur R.
x→0
De plus, FX est dérivable sur R sauf peut-être en 0, et
0 si x < 0
FX0 (x) = −αx
αe si x > 0
Z ∞ Z ∞
Γ(a + 1) = ta e−t dt = − ta de−t
0 0
h i∞ Z ∞
= −e−t ta + e−t ata−1 dt
0 0
Z ∞
= a e−t ta−1 dt = aΓ(a), a > 0.
0
Théorème 18
Γ(a + 1) = aΓ(a), a > 0. (2.7)
De plus, on a : Z ∞ h i∞
Γ(1) = e−t dt = −e−t = 1. (2.8)
0 0
Définition 23 Z 1
B(u, v) = tu−1 (1 − t)v−1 dt, u > 0, v > 0.
0
Cette intégrale est souvent appelée l’intégrale bêta.
D’après la Définition 23, on obtient facilement la symétrie :
B (u, v) = B (v, u) .
La connexion entre la fonction bêta et la fonction gamma est donnée par le théorème suivant :
Théorème 19
Γ(u)Γ(v)
B(u, v) = , u > 0, v > 0.
Γ(u + v)
1 a a−1 −θx
fX (x) =
θ x e , si x > 0,
Γ(a)
fX (x) = 0, sinon.
En particulier, pour a = 1, la variable aléatoire X Γ(1, θ) n’est rien d’autre que la loi
exponentielle de paramètre θ.
On peut reformuler cette définition de la manière suivante.
Proposition 10 Si X suit la loi Gamma (b, t), alors X admet une espérance mathématique :
E(X) = bt
Preuve
Sous réserve d’existence,
x
Z +∞ Z +∞
xe− t xb−1 1 Z +∞ −u 1−b t
xf (x) dx = dx = e b u b du (changement de variable x = bu)
−∞ 0 Γ(t)bt Γ(t)bt 0
b Z +∞ −u t bΓ(t + 1)
= e u du = = bt
Γ(t) 0 Γ(t)
Donc E(X) existe et E(X) = bt
Théorème 20 (Stabilité de la loi Gamma) Si X et Y sont deux V.A.R. indépendantes, suivant
respectivement les lois Gamma (b, t) et Gamma (b, s), alors X + Y suit la loi Gamma (b, s + t).
Plus généralement, si X1 , X2 , . . . , Xn sont n V.A.R. indépendantes telles que : pour tout k ∈ J1, nK,
Xk suit la loi Gamma (b, tk ), alors
n n
!
X X
Sn = Xk Gamma b, tk .
k=1 k=1
Preuve
– X admet pour densité la fonction f définie par :
x
− t b−1
e x
si x > 0
f (x) = Γ(t)bt .
0 si x ≤ 0
D’après le Théorème 14, X + Y admet pour densité la fonction fX+Y définie par :
Z +∞
∀x ∈ R, fX+Y (x) = fX (u)fY (x − u) du.
−∞
Si x ≤ 0, fX+Y (x) = 0 car si u ≤ 0, f (u) = 0 si u > 0, x − u < 0 et fY (x − u) = 0.
Si ∀x > 0,
Z x − ub t−1 x−u
e u e− b (x − u)s−1
fX+Y (x) = · du
Γ(t)bt
0 Γ(s)bs
x
e− b Z x
= t+s
ut−1 (x − u)s−1 du
Γ(t)Γ(s)b 0
− xb s+t−1 Z 1
e x
= ut−1 (1 − u)s−1 dx (changement de variable u = vx)
Γ(t)Γ(s)bt+s 0
x x
e− b xs+t−1 e− b xs+t−1
= B(t, s) = t+s
Γ(t)Γ(s)bt+s b Γ(t + s)
– Cette courbe est symétrique par Zrapport à l’axe des ordonnées car fX est paire.
t
– L’aire du domaine hachuré vaut fX (x)dx = Φ(t) où Φ désigne la fonction de répartition
−∞
de X. Z +∞
– L’aire du domaine compris entre la courbe et l’axe des abscisses vaut fX (x)dx = 1.
−∞
Proposition 12 Si X suit la loi normale N (0, 1), alors X admet une espérance mathématique et
une variance :
E(X) = 0 Var(X) = 1
Preuve
Z +∞ Z +∞
1 x2
xfX (x)dx = √ xe− 2 dx
−∞ −∞ 2π
Pour tout A > 0,
Z A 2
2
A
A2 A2
− x2 − x2
xe dx = −e = −e− 2 + e− 2 =0
−A −A
RA x2
et limA→+∞ −A xe− 2 dx converge (et vaut 1).
x2
Comme x 7→ xe− 2 est impaire, alors
Z +∞
xfX (x)dx = 0, ce qui prouve que X admet une espérance mathématique nulle.
−∞
Par ailleurs, Z +∞ Z +∞
1 x2
2
x fX (x)dx = √ x2 e− 2 dx
−∞ −∞ 2π
Pour tout A > 0,
Z A 2
2
A Z A
x2
2 − x2 − x2
xe dx = −xe + e− 2 dx
0 0 0
Z A √
− A2
2
− x2
2 2π
lim −Ae = 0 et lim e dx =
A→+∞ A→+∞ 0 2
√
Z +∞
− x2
2 √ − x2
2
Z +∞ 2
− x2 2π
e dx = 2π et x 7→ e est paire donc e dx = .
−∞ −∞ 2
Ainsi
√
Z +∞
− x2
2 2π
x2 e dx = .
0 2
2
− x2
De plus, x 7→ x2 e est paire, donc
Z +∞
x2 √
x2 e− 2 dx = 2π.
−∞
Donc Z +∞
x2 ϕ(x)dx = 1, ce qui prouve que E(X 2 ) existe et vaut 1.
−∞
Par suite Var(X) existe et Var(X) = 1.
Preuve
Z −t
1 x2
Z t
1 u2
Φ(−t) = √ e− 2 dt = − √ e− 2 du (changement de variable x = −u).
−∞ 2π +∞ 2π
Donc
Z +∞
1 − x2 Z +∞
1 − x2 Z t
1 x2
Φ(−t) = √ e dt =
2 √ e dx −
2 √ e− 2 dx = 1 − Φ(t).
t 2π −∞ 2π −∞ 2π
F IGURE 2.2
Les domaines hachurés en rouge sont symétriques l’un de l’autre par rapport à Oy, donc leurs
aires sont égales.
– Il est impossible d’exprimer les primitives de ϕ à l’aide des fonctions usuelles. La table donnée
en annexe permet d’obtenir les valeurs approchées à 10−4 près de Φ(x) pour certaines valeurs
positives de x.
Par exemple : Φ(1,96) = 0,9750 (valeur située sur la ligne 1,9 et la colonne 0,06).
Pour x = −1,96, on écrit Φ(−1,96) = 1 − Φ(1,96) = 0,0250.
Par contre : Φ(1,964) ne figure pas dans la table.
On peut : soit approcher Φ(1,964) par Φ(1,96) = 0,9750
soit effectuer une interpolation linéaire,
c’est-à-dire approcher Φ(1,964) par
Définition 27 Une V.A.R. X suit la loi normale (ou : de Laplace-Gauss) de paramètres m (moyenne)
et σ > 0 (écart-type), et on note X N (m, σ), lorsque X admet pour densité la fonction fX
définie par :
1 1 x−m 2
fX (x) = √ e− 2 ( σ ) , −∞ < x < +∞.
σ 2π
On dit aussi que X est une variable aléatoire gaussienne.
– Graphe de fX :
F IGURE 2.3
Proposition 15 Si X suit la loi normale N (m, σ), X admet une espérance mathématique et une
variance :
E(X) = m et Var(X) = σ 2 .
Preuve
Remarquons que X ∗ = X−m
σ
suit la loi N (0, 1), donc E(X ∗ ) = 0 et Var(X ∗ ) = 1. On en déduit :
E(X) = E(σX + m) = σE(X ∗ ) + m = m et Var(X) = Var(σX ∗ + m) = σ 2 Var(X ∗ ) = σ 2 .
∗
Théorème 21 I Soit X1 et X2 deux V.A.R. indépendantes qui suivent respectivement les lois
normales N (m1 , σ1 ) et N (m2 , σ2 ). q
Alors X1 + X2 suit la loi normale N (m1 + m2 , σ12 + σ22 ).
I Plus généralement, si X1 , . . . , Xn sont n V.A.R. indépendantes qui suivent respectivement les lois
normales N (mk , σk ) pour k ∈ {1, . . . , n}, alors Sn = nk=1 Xk suit la loi normale :
P
v
n
X
u n
uX
N mk , t σk2 .
k=1 k=1
σ1 u xσ1
Dans l’intégrale on pose t = σσ2
− σσ2
1 x2 σ1 σ2 Z +∞ − t2 1 − x22 √ 1 x2
f (x) = e− 2σ2 · e 2 dt = e 2σ · 2π = √ e− 2σ2 .
2πσ1 σ2 σ −∞ 2πσ 2πσ
q
Donc X1 + X2 suit la loi normale N (0, σ) avec σ = σ12 + σ22 .
Cas général :
X1 suit la loi N (m1 , σ1 ) ⇒ X1 − m1 suit la loi N (0, σ1 )
De même X2 − m2 suit la loi N (0, σ2 ) q
D’après ce qui précède, X1 + X2 − (m1 + m2 ) suit la loi N (0, σ12 + σ22 ), donc
X1 + X2 − (m1 + m2 ) q
q N (0, σ12 + σ22 ) ⇒ X1 + X2 N (m1 + m2 , σ12 + σ22 )
σ12 + σ22
Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– Comprendre la loi faible des grands nombres et son lien avec la convergence en probabilité.
– Appliquer la loi des grands nombres à des situations concrètes d’estimation statistique.
– Appliquer le théorème de la limite centrée (TCL) à des sommes de variables aléatoires
indépendantes et identiquement distribuées.
– Utiliser correctement la standardisation pour se ramener à la loi normale centrée réduite.
– Approcher une loi binomiale par une loi normale avec correction de continuité.
– Approcher une loi binomiale par une loi de Poisson dans les cas limites.
– Approcher une loi hypergéométrique par une loi binomiale lorsque la population est grande.
49
Sec 3.1 Loi des grands nombres
donc
(xi − E(X))2 pi ≥ ε2 p i = ε2
X X X
Var(X) ≥ pi .
i∈I i∈I i∈I
Par suite,
Var(X)
P(|X − E(X)| ≥ ε) ≤ .
ε2
2) Si X est une V.A.R. de densité fX
Z +∞
Var(X) = (x − E(X))2 f (x) dx
−∞
Z E(X)−ε Z E(X)+ε
= (x − E(X))2 f (x) dx + (x − E(X))2 f (x) dx +
−∞ E(X)−ε
Z +∞
+ (x − E(X))2 f (x) dx,
E(X)+ε
et
Donc
Z E(X)−ε Z +∞
Var(X) ≥ (x − E(X)) f (x) dx +
2
(x − E(X))2 f (x) dx
−∞ E(X)+ε
Z E(X)−ε Z +∞
≥ ε2 f (x) dx + ε2 f (x) dx
−∞ E(X)+ε
et
Var(X)
P(|X − E(X)| ≥ ε) ≤
ε2
Remarque 20 P(|X − E(X)| ≥ ε) est la probabilité pour que X prenne des valeurs éloignées de
E(X) d’au moins ε. Cette probabilité est d’autant plus faible que Var(X) est plus petit et que ε est
plus grand. Var(X) mesure la tendance qu’a X à s’écarter de E(X).
Exemple 7 Lorsque l’on lance un dé parfait, la probabilité d’obtenir un as est 16 , ce qui ne veut pas
dire que l’as apparaît une fois sur 6.
On utilise un dé cubique parfait. Cherchons le nombre de lancers qu’il faut effectuer pour pouvoir
affirmer avec un risque d’erreur inférieur à 5 %, que la fréquence d’apparition de l’as au cours de
ces lancers différera de 61 d’au plus 100
1
.
On effectue n lancers. Soit X le nombre d’as obtenus. F = Xn est la fréquence d’apparition de l’as
au cours des n lancers.
On cherche le n tel que :
1 1
P F− ≤ ≥ 0,95.
6 100
X est le nombre de réalisations de l’événement « l’as apparaît », de probabilité constant 16 , au cours
de n lancers indépendants. Donc
1 n 5n
X B n, , E(X) = , V (X) = .
6 6 36
On en déduit
1 1 5
E(F ) = , V (F ) = 2
V (X) = .
6 n 36n
D’après l’inégalité de Bienaymé-Tchébychev :
1 1 V (F ) 5 · 104
P F− ≥ ≤ 2 =
6 100 1 36n
100
donc
1 1 1 1 5 · 104
P F− ≤ =1−P F− ≥ ≥1− .
6 100 6 100 36n
Pour que
1 1
P F− ≤ ≥ 0,95,
6 100
il suffit donc de choisir n tel que :
5 · 104
1− ≥ 0,95 ⇒ n ≥ 27 778.
36n
Remarque 21 On étudiera à la fin de ce chapitre une méthode plus précise, car on a « perdu de
l’information » en utilisant l’inégalité de Bienaymé-Tchébychev plutôt que la loi binomiale pour
calculer
1 1
P F− ≤ .
6 100
Cas particulier. Si (Xn ) est une suite de V.A.R. deux à deux indépendantes qui suivent la loi de
Bernoulli de paramètre p, alors :
Preuve
On a : n
1X 1
E(X̄n ) = E(Xi ) = (nm) = m
n i=1 n
et
n
1 X 1 2 σ2
Var(X̄n ) = Var(X i ) = (nσ ) = , car les Xi sont deux à deux indépendantes.
n2 i=1 n2 n
Théorème 24 Soit (Xn )n∈N une suite de V.A.R. et X une V.A.R. définies sur le même espace
probabilisé (Ω, A, P) et prenant leurs valeurs dans N.
La suite (Xn )n∈N converge en loi vers X si et seulement si :
Preuve
– Supposons que pour tout k ∈ N, limn→+∞ P(Xn = k) = P(X = k).
Pour tout x ∈ R+ où FX est continue, il existe un nombre fini d’entiers k ≤ x, donc :
k≤x
Or :
P(Xn = k) = P(X = k) = P(X ≤ x)
X X
lim
n→+∞
k≤x k≤x
donc :
lim FXn (x) = FX (x).
n→+∞
Si x < 0, alors FXn (x) = 0 = FX (x), donc aussi limn→+∞ FXn (x) = FX (x). Donc (Xn )
converge en loi vers X.
– Réciproquement, supposons que (Xn ) converge en loi vers X.
Pour tout k ∈ N, les points k ± 12 sont des points de continuité de FX .
Donc :
1 1 1 1
P(Xn = k) = P k − < Xn ≤ k + = FXn k + − FXn k −
2 2 2 2
Ainsi :
1 1
lim P(Xn = k) = FX k+ − FX k − = P(X = k).
n→+∞ 2 2
Preuve
Pour tout n ∈ N∗ , Xn prend les valeurs k ∈ {0, 1, . . . , n}.
Soit k ∈ N. Pour tout n ≥ k,
! !k !n−k
n λ λ
P(Xn = k) = 1−
k n n
!n−k
n(n − 1) · · · (n − k + 1) λk λ
= · k · 1−
k! n n
!n−k
λk n n − 1 n−k+1 λ
= · · ··· · 1− .
k! n n n n
Donc : !n−k
λ λk −λ
lim 1− =e −λ
et lim P(Xn = k) = e .
n→+∞ n n→+∞ k!
En pratique
La loi B(n, p) peut être approchée par la loi P(np) lorsque :
– p ≤ 0,1
– n ≥ 30
– np < 15
(ou lorsque d’autres conditions données par l’énoncé sont vérifiées !)
Pour retenir ce résultat, on peut se souvenir que :
– Si X ∼ B(n, p), alors E(X) = np
– Si X ∼ P(λ), alors E(X) = λ.
40 × 0,03 = 1,2.
Si Y ∼ P(1,2), alors :
e−1,2 (1,2)2
P(Y = 2) = ≈ 0,2169.
2!
On constate que les deux probabilités sont peu différentes.
En pratique
La loi H(N, n, p) peut être approchée par la loi B(n, p) lorsque N ≥ 10n, c’est-à-dire si le taux de
sondage Nn est inférieur ou égal à 0,1.
En pratique
On considère que pour n ≥ 30, la loi de Sn∗ peut être approchée par la loi N (0, 1).
Correction de continuité
Si X ∼ B(n, p), X prend des valeurs entières.
q
Remplacer la loi B(n, p) par la loi N (np, np(1 − p)) revient à considérer X comme une variable
gaussienne prenant toutes les valeurs réelles.
L’intervalle [k − 0,5, k + 0,5[ est l’ensemble des réels qui s’arrondissent à k.
Pour k ∈ J1, n − 1K, on remplace :
D’autre part, pour que la somme des probabilités approchées P(X = k) pour k = 0, 1, . . . , n fasse
1, on remplace :
Exemple 9 Si X suit la loi B(40, √ 0,5), les calculs de probabilités concernant X peuvent être
effectués en utilisant la loi N (20, 10).
Donc :
!
19,5 − 20 20,5 − 20
P(X = 20) = P(19,5 ≤ X ≤ 20,5) = P √ ≤ X∗ ≤ √
10 10
! ! !
0,5 0,5 0,5
= Φ √ − Φ −√ = 2Φ √ − 1.
10 10 10
Une valeur approchée :
2Φ(0,16) − 1 = 0,1272.
Meilleure valeur par interpolation linéaire :
De même,
!
16,5 − 20 24,5 − 20
P(17 ≤ X < 25) = P(16,5 ≤ X < 24,5) = P √ ≤ X∗ < √
10 10
! ! ! !
4,5 −3,5 4,5 3,5
= Φ √ −Φ √ =Φ √ +Φ √ − 1.
10 10 10 10
Valeur approchée :
k=17 k
Et on considère que : √ !
X 1 5
F = ∼N , √ .
n 6 6 n
D’où
1 1 1 1 1 1
P F− ≤ = P − ≤F ≤ +
6 100 6 100 6 100
100 − 5 100 + 5
= P ≤F ≤
600 600
95 105
= P ≤F ≤
600
600
0,01
= 2Φ − 1.
5
√
36n
Donc
1 1 0,01
P F− ≤ ≥ 0,95 ⇔ 2Φ
5 − 1 ≥ 0,95
6 100
√
36n
0,01 0,01
⇔ Φ ≥ 0,975 ⇔ Φ(1,96) ⇔ 5 ≥ 1,96
5
√ √
36n 36n
√ !2
1,96 · 5
⇔ n≥ ⇒ n ≥ 5 336.
0,06
Cette valeur est nettement inférieure à celle obtenue en utilisant l’inégalité de Bienaymé-Tchébychev.
Cette méthode est plus précise car elle utilise la loi de X.