0% ont trouvé ce document utile (0 vote)
23 vues59 pages

Cours de Probabilites L1MIF

Ce document est un cours de probabilités pour les étudiants de Licence I en Math-Info, couvrant des concepts fondamentaux tels que les variables aléatoires, les fonctions de répartition, et les distributions discrètes. Il présente également des objectifs pédagogiques clairs et des exemples pratiques pour illustrer l'application des théories abordées. La structure du cours est organisée en sections détaillées pour faciliter l'apprentissage des notions de base en probabilités.

Transféré par

ebassombi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
23 vues59 pages

Cours de Probabilites L1MIF

Ce document est un cours de probabilités pour les étudiants de Licence I en Math-Info, couvrant des concepts fondamentaux tels que les variables aléatoires, les fonctions de répartition, et les distributions discrètes. Il présente également des objectifs pédagogiques clairs et des exemples pratiques pour illustrer l'application des théories abordées. La structure du cours est organisée en sections détaillées pour faciliter l'apprentissage des notions de base en probabilités.

Transféré par

ebassombi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours de Probabilités

Licence-I Math-Info

Dr Prevot Chirac BATSINDILA NGANGA 1


Faculté des Sciences Appliquées
E-mails: [email protected] /
[email protected]

1. Il dit à l’homme: Puisque tu as écouté la voix de ta femme, ... C’est à la sueur de ton visage que tu
mangeras du pain, jusqu’à ce que tu retournes dans la terre, d’où tu as été pris; car tu es poussière, et tu
retourneras dans la poussière. (Genèse 3.17-19)
Table des matières

Table des matières 1

1 Rappels et Compléments Sur Les Fonctions de Répartition et Les Variables Aléatoires


Discrètes 2
1.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Fonctions de Répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Espérance des variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . 7
1.5 Variances et moment des variables aléatoires discrètes . . . . . . . . . . . . . . . . 10
1.6 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.7 Variables Aléatoires Centrées et Réduites . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Distributions Discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8.1 Variables Aléatoires de Bernoulli et Binomiales . . . . . . . . . . . . . . . 14
1.8.1.1 Variable Aléatoire de Bernoulli . . . . . . . . . . . . . . . . . . 14
1.8.1.2 Variable Aléatoire de Binomiale . . . . . . . . . . . . . . . . . 15
1.8.2 Variable aléatoire de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.8.3 Variables aléatoires géométriques . . . . . . . . . . . . . . . . . . . . . . 18
1.8.4 Variables aléatoires binomiales négatives . . . . . . . . . . . . . . . . . . 19
1.8.5 Variables aléatoires hypergéométriques . . . . . . . . . . . . . . . . . . . 20

2 Variables aléatoires à densité 21


2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Densité et fonction de répartition . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 Exemples de fonctions d’une V.A.R. à densité . . . . . . . . . . . . . . . . 24
2.1.3 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.5 V.A.R. à densité indépendantes . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.6 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.3.1 Rappel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.3.2 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.4 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2.5 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1
TABLE DES MATIÈRES

3 Convergences 48
3.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.1 Inégalité de Bienaymé-Tchébychev . . . . . . . . . . . . . . . . . . . . . 48
3.1.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Convergence en loi et approximation . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.2 Approximation de la loi binomiale par la loi de Poisson . . . . . . . . . . . 52
3.2.3 Approximation de la loi hypergéométrique par la loi binomiale . . . . . . . 54
3.2.4 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.5 Approximation de la loi binomiale par la loi normale . . . . . . . . . . . . 55

Dr Prevot Chirac BATSINDILA NGANGA page 2 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
1 Rappels et Compléments Sur Les
Fonctions de Répartition et Les Variables
Aléatoires Discrètes

Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– connaître les propriétés fondamentales de la fonction de répartition,
– définir la notion de variable aléatoire discrète,
– connaître les distributions discrètes usuelles,
– calculer leurs espérances et variances ,
– connaître les situations où ces distributions sont applicables.

1.1 Variables aléatoires


Dans les problèmes du monde réel, nous sommes souvent confrontés à une ou plusieurs quantités
dont les valeurs ne sont pas fixes. Les valeurs de ces quantités dépendent d’actions aléatoires et
varient généralement d’une expérience à l’autre. Par exemple, le nombre de bébés nés dans un certain
hôpital chaque jour n’est pas une quantité fixe. Il s’agit d’une fonction complexe de nombreux
facteurs aléatoires qui varient d’un jour à l’autre. Il en va de même pour les quantités suivantes :
l’heure d’arrivée d’un bus à une station, la somme des résultats obtenus en lançant deux dés, la
quantité de précipitations dans la forêt du Mayombe pendant une année donnée, le nombre de
tremblements de terre à Brazzaville par mois, ou encore le poids des grains de blé cultivés sur une
parcelle donnée (qui varie d’un grain à l’autre).
En probabilité, les quantités introduites dans ces divers exemples sont appelées variables aléatoires.
Les valeurs numériques des variables aléatoires sont inconnues. Elles dépendent des éléments
aléatoires survenant au moment de l’expérience et sur lesquels nous n’avons aucun contrôle.
Par exemple, si l’on lance deux dés équilibrés et que X représente la somme des résultats, alors X
peut prendre uniquement les valeurs 2, 3, 4, . . . , 12 avec les probabilités suivantes :

3
Sec 1.2 Fonctions de Répartition

1
P(X = 2) = P ({(1, 1)}) =
36
2
P(X = 3) = P ({(1, 2), (2, 1)}) =
36
3
P(X = 4) = P ({(1, 3), (2, 2), (3, 1)}) =
36
et, de manière similaire :

Somme, i 5 6 7 8 9 10 11 12
P(X = i) 4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36

Il est clair que l’ensemble des valeurs possibles de X est {2, 3, 4, . . . , 12}. Comme X ∈ {2, 3, 4, . . . , 12},
nous devons avoir :
12
X
P (X = i) = 1
i=2

ce qui est facilement vérifiable. La valeur numérique d’une variable aléatoire dépend du résultat
de l’expérience. Par exemple, si le résultat du lancer est (2, 3), alors X = 5, et si le résultat est
(5, 6), alors X = 11. La variable X n’est pas définie pour les points qui ne font pas partie de
l’espace échantillon S. Ainsi, X est une fonction à valeurs réelles définie sur S. Cependant, toutes
les fonctions à valeurs réelles définies sur S ne sont pas considérées comme des variables aléatoires.
Pour des raisons théoriques, il est nécessaire que l’image réciproque d’un intervalle de R soit un
événement de S, ce qui motive la définition suivante.

Définition 1 Soit S l’espace échantillon d’une expérience. Une fonction à valeurs réelles X : S →
R est appelée variable aléatoire de l’expérience si, pour tout intervalle I ⊆ R, l’ensemble

{s ∈ S : X(s) ∈ I}
est un événement.
En probabilité, cet ensemble est souvent noté {X ∈ I}, ou simplement (X ∈ I).

1.2 Fonctions de Répartition


Les variables aléatoires sont souvent utilisées pour le calcul des probabilités d’événements. Par
exemple, dans l’expérience du lancer de deux dés, si nous nous intéressons à une somme d’au moins
8, nous définissons X comme étant la somme et nous calculons P(X > 8). D’autres exemples sont
les suivants :
(i) Si un bus arrive à un moment aléatoire entre 10h00 et 10h30 à une station, et que X représente
l’heure d’arrivée, alors X < 10 16 est l’événement où le bus arrive avant 10h10.

(ii) Si X est le nombre de votes obtenus par le prochain candidat démocrate à l’élection prési-
dentielle, alors X ≥ 5 × 107 est l’événement où ce candidat obtient au moins 50 millions de
votes.

Dr Prevot Chirac BATSINDILA NGANGA page 4 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.2 Fonctions de Répartition

(iii) Si X est le nombre de faces obtenues lors de 100 lancers d’une pièce, alors 40 < X ≤ 60 est
l’événement où le nombre de faces est d’au moins 41 et au plus 60.
En général, lorsqu’on traite une variable aléatoire X, pour des constantes a et b (avec b < a),
le calcul de l’une ou plusieurs des probabilités P(X = a), P(X < a), P(X ≤ a), P(X > b),
P(X ≥ b), P(b ≤ X ≤ a), P(b < X ≤ a), P(b ≤ X < a) et P(b < X < a) est notre objectif
principal. Pour cette raison, nous calculons P(X ≤ t) pour tout t ∈ (−∞, +∞). Comme nous
le montrerons bientôt, si P(X ≤ t) est connu pour tout t ∈ R, alors pour tout a et b, toutes les
probabilités mentionnées ci-dessus peuvent être calculées. En fait, puisque la fonction à valeurs
réelles P(X ≤ t) caractérise X, elle nous donne presque toutes les informations sur X. Cette
fonction est appelée la fonction de répartition de X.

Définition 2 Si X est une variable aléatoire, alors la fonction FX définie sur ]−∞, +∞[ par
FX (t) = P(X ≤ t) est appelée la fonction de répartition ou fonction de distribution de X.
Puisque F « accumule » toutes les probabilités des valeurs de X jusqu’à t inclus, on l’appelle parfois
la fonction de distribution cumulative de X. Les propriétés les plus importantes des fonctions de
répartition sont les suivantes :
(i) FX est une fonction croissante ; c’est-à-dire que si t < u, alors FX (t) ≤ FX (u). Pour voir
cela, notons que l’événement {X ≤ t} implique l’occurrence de l’événement {X ≤ u}. Ainsi,
{X ≤ t} ⊆ {X ≤ u} et donc P(X ≤ t) ≤ P(X ≤ u). Autrement dit, FX (t) ≤ FX (u).
(ii) limt→∞ FX (t) = 1. Pour prouver cela, il suffit de montrer que pour toute suite croissante {tn }
de nombres réels convergeant vers ∞, on a limn→∞ FX (tn ) = 1. Cela découle de la propriété
de continuité de la probabilité. Les événements {X ≤ tn } forment une suite croissante qui

[
converge vers l’événement {X ≤ tn } = {X < ∞}, c’est-à-dire,
n=1

!
lim P (X ≤ tn ) = P {X ≤ tn } = P(X < ∞) = 1
[
n→∞
n=1

ce qui signifie que

lim FX (t) = 1
n→∞

(iii) limt→−∞ FX (t) = 0. La démonstration est similaire à celle de limt→∞ F (t) = 1.


(iv) F est continue à droite. C’est-à-dire que pour tout t ∈ R, FX (t+) = FX (t). Cela signifie que
si tn est une suite décroissante de nombres réels convergeant vers t, alors

lim FX (tn ) = FX (t).


n→∞

Grâce à la fonction de répartition FX d’une variable aléatoire X, un large éventail de questions


probabilistes sur X peuvent être résolues. Voici quelques exemples :

Exemple 1 (i) Pour calculer P(X > a), notons que P(X > a) = 1 − P(X ≤ a), ainsi

P(X > a) = 1 − FX (a).

Dr Prevot Chirac BATSINDILA NGANGA page 5 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.3 Variables aléatoires discrètes

(ii) Pour calculer P(a < X ≤ b) avec b > a, notons que {a < X ≤ b} = {X ≤ b} − {X ≤ a} et
que {X ≤ a} ⊆ {X ≤ b}. Ainsi,

P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).


(iii) Pour calculer P(X < a), la suite des événements {X ≤ a − 1/n} est une suite croissante

[
qui converge vers {X ≤ a − 1/n} = {X < a}. Donc, par la propriété de continuité de la
n=1
probabilité,

1
 
P(X < a) = lim FX a − .
n→∞ n
D’autres probabilités peuvent être calculées de manière similaire, ce qui donne le tableau suivant :

Événement sur X Probabilité en termes de FX Événement sur X Probabilité en termes de FX


X≤a FX (a) a<X≤b FX (b) − FX (a)
X>a 1 − FX (a) a<X<b FX (b−) − FX (a)
X<a FX (a−) a≤X≤b FX (b) − FX (a−)
X≥a 1 − FX (a−) a≤X<b FX (b−) − FX (a−)
X=a FX (a) − FX (a−)

1.3 Variables aléatoires discrètes


L’ensemble des valeurs possibles d’une variable aléatoire peut être fini, infini mais dénombrable, ou
non dénombrable. Par exemple, soient X, Y et Z trois variables aléatoires représentant respective-
ment le nombre de faces obtenues en lançant une pièce deux fois, le nombre de lancers nécessaires
jusqu’à l’obtention de la première face, et la quantité de précipitations de l’année prochaine. Alors,
les ensembles de valeurs possibles pour X, Y et Z sont respectivement l’ensemble fini {0, 1, 2},
l’ensemble dénombrable {1, 2, 3, 4, . . .}, et l’ensemble non dénombrable {x : x ≥ 0}.
Chaque fois que l’ensemble des valeurs possibles qu’une variable aléatoire X peut prendre est au
plus dénombrable, X est dite discrète. Ainsi, X est discrète si son ensemble de valeurs possibles est
soit fini, soit infiniment dénombrable. À chaque variable aléatoire discrète est associée une fonction à
valeurs réelles p : R → R, définie par p(x) = P(X = x), appelée fonction de masse de probabilité
de X ou simplement fonction de masse de X . Elle est aussi appelée fonction de probabilité de X
ou fonction de probabilité discrète de X.
Puisque l’ensemble des valeurs de X est dénombrable, p(x) est positive au plus pour un ensemble
dénombrable de valeurs et est nulle ailleurs. Autrement dit, si les valeurs possibles de X sont
x1 , x2 , x3 , . . ., alors p(xi ) ≥ 0 pour i = 1, 2, 3, . . ., et p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .}.
Il est clair que la réalisation de l’événement {x1 , x2 , x3 , . . .} est certaine. Par conséquent, nous
avons : ∞
P(X = xi ) = 1
X

i=1

Dr Prevot Chirac BATSINDILA NGANGA page 6 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.3 Variables aléatoires discrètes

ou, de manière équivalente,



X
p(xi ) = 1.
i=1

Définition 3 La fonction de masse de probabilité p d’une variable aléatoire X dont l’ensemble


des valeurs possibles est {x1 , x2 , x3 , . . .} est une fonction de R vers R qui satisfait les propriétés
suivantes :
(a) p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .}.
(b) p(xi ) = P(X = xi ) et donc p(xi ) ≥ 0 pour i = 1, 2, 3, . . ..
(c)

X
p(xi ) = 1.
i=1

En raison de cette définition, si, pour un ensemble {x1 , x2 , x3 , . . .}, il existe une fonction p : R → R
telle que :
– p(xi ) ≥ 0 pour i = 1, 2, 3, . . .,
– p(x) = 0 si x ∈
/ {x1 , x2 , x3 , . . .},

X
– et p(xi ) = 1,
i=1

alors p est appelée une fonction de masse de probabilité.


La fonction de masse de probabilité d’une variable aléatoire est souvent représentée graphiquement
par un ensemble de segments verticaux reliant les points (xi , 0) et (xi , p(xi )).
La fonction de répartition FX d’une variable aléatoire discrète X, dont l’ensemble des valeurs
possibles est {x1 , x2 , x3 , . . .}, est une fonction en escaliers. En supposant que x1 < x2 < x3 < · · ·,
nous avons :
– Si t < x1 , alors
FX (t) = 0.
– Si x1 ≤ t < x2 , alors

FX (t) = P(X ≤ t) = P(X = x1 ) = p(x1 ).

– Si x2 ≤ t < x3 , alors

FX (t) = P(X ≤ t) = P(X = x1 ou X = x2 ) = p(x1 ) + p(x2 ).

– Plus généralement, si xn−1 ≤ t < xn , alors


n−1
X
FX (t) = p(xi ).
i=1

Ainsi, FX est constante sur les intervalles [xn−1 , xn [ avec des sauts aux points x1 , x2 , x3 , . . .. L’am-
plitude du saut en xi est donnée par p(xi ).

Dr Prevot Chirac BATSINDILA NGANGA page 7 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.4 Espérance des variables aléatoires discrètes

1.4 Espérance des variables aléatoires discrètes


Pour clarifier le concept d’espérance, considérons un jeu de casino dans lequel la probabilité de
perdre 1 FCFA par partie est de 0,6, et les probabilités de gagner 1 FCFA, 2 FCFA et 3 FCFA par
partie sont respectivement 0,3, 0,08 et 0,02. Le gain ou la perte d’un joueur qui participe à ce jeu
quelques fois dépend essentiellement de la chance. Par exemple, en une seule partie, un joueur
chanceux peut gagner 3 FCFA, mais il a 60 % de chances de perdre 1 FCFA.
Cependant, si un joueur décide de jouer un grand nombre de fois, son gain ou sa perte dépend
davantage du nombre de parties jouées que de la chance. Un joueur qui fait ses calculs peut
argumenter que s’il joue n fois, pour un grand n, alors dans environ 0.6n parties, il perdra 1 FCFA
par partie, et dans environ 0.3n, 0.08n et 0.02n parties, il gagnera respectivement 1 FCFA, 2 FCFA
et 3 FCFA. Par conséquent, son gain total est :

(0.6)n · (−1) + (0.3)n · 1 + (0.08)n · 2 + (0.02)n · 3 = (−0.08)n (1.1)

Cela donne une moyenne de -0.08 FCFA, soit une perte d’environ 8 centimes par partie. Plus le
joueur joue, moins la chance intervient, et plus sa perte se rapproche de 0.08 FCFA par partie.
Si X est la variable aléatoire représentant le gain lors d ?une partie, alors le nombre -0.08 est appelé
valeur espérée de X. On note :

E(X) = −0.08.
E(X) est la valeur moyenne de X. C’est-à-dire que si nous jouons n fois et calculons la moyenne
des valeurs de X, alors lorsque n → ∞, nous obtenons E(X).
Dans ce jeu, comme E(X) < 0, cela signifie qu’en moyenne, plus nous jouons, plus nous perdons.
Si, pour un jeu donné, E(X) = 0, alors à long terme, le joueur ne gagne ni ne perd. De tels jeux
sont appelés jeux équitables.
Dans cet exemple, X est une variable aléatoire discrète dont l’ensemble des valeurs possibles est
{−1, 1, 2, 3}. La fonction de masse de probabilité de X, p(x), est donnée par :

i −1 1 2 3
p(i) = P (X = i) 0.6 0.3 0.08 0.02
et p(x) = 0 si x ∈
/ {−1, 1, 2, 3}.
En divisant les deux côtés de l’Equation (1.1) par n, nous obtenons :

(0.6) · (−1) + (0.3) · 1 + (0.08) · 2 + (0.02) · 3 = −0.08


Ainsi,

−1 · p(−1) + 1 · p(1) + 2 · p(2) + 3 · p(3) = −0.08


Cette relation montre que la valeur espérée de X peut être calculée directement en sommant le
produit des valeurs possibles de X par leurs probabilités.
Cet exemple motive la définition générale suivante, qui fut utilisée de manière informelle par Pascal,
mais formellement introduite par Huygens à la fin du XVIIe siècle.

Dr Prevot Chirac BATSINDILA NGANGA page 8 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.4 Espérance des variables aléatoires discrètes

Définition 4 L’espérance d’une variable aléatoire discrète X, dont l’ensemble des valeurs possibles
est A et dont la fonction de masse de probabilité est p(x), est définie par :

E(X) =
X
xp(x)
x∈A

On dit que E(X) existe si cette somme converge absolument.


L’espérance d’une variable aléatoire X est également appelée moyenne, espérance mathématique,
ou simplement espérance de X. Elle est parfois notée E[X], EX, µX ou µ.

Remarque 1
– Chaque valeur x de X est pondérée par p(x) = P(X = x), alors la somme
X
xp(x) n’est
x∈A
rien d’autre que la moyenne pondérée de X. De manière analogue, si l’on considère une masse
unitaire distribuée le long de la droite réelle aux points de A, de sorte que la masse en x ∈ A
est P (X = x), alors E(X) correspond au centre de gravité.
– Soit X une variable aléatoire discrète dont l’ensemble des valeurs possibles est A et dont la
fonction de masse de probabilité est p. On dit que E(X) existe si la somme
X
xp(x)
x∈A

converge, c’est-à-dire si
X
xp(x) < ∞.
x∈A

Théorème 1 Si X est une variable aléatoire constante, c’est-à-dire si P (X = c) = 1 pour une


constante c, alors :

E(X) = c.

Preuve 1 Il n’existe qu’une seule valeur possible pour X, qui est c. Ainsi :

E(X) = c · P (X = c) = c · 1 = c 

Soit g : R → R une fonction à valeurs réelles et X une variable aléatoire discrète dont l’ensemble
des valeurs possibles est A et dont la fonction de masse de probabilité est p(x).
De manière similaire à E(X) =
X
xp(x), il existe une relation importante :
x∈A

E[g(X)] =
X
g(x)p(x),
x∈A

connue sous le nom de loi du statisticien inconscient, que nous allons maintenant démontrer. Cette
relation permet de calculer l’espérance de la variable aléatoire g(X) sans avoir à déterminer sa
fonction de masse de probabilité.
Elle implique, par exemple, que :

Dr Prevot Chirac BATSINDILA NGANGA page 9 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.4 Espérance des variables aléatoires discrètes

 
E X2 = x2 p(x),
X

x∈A
 
E X − 2X + 4 =
2
(x2 − 2x + 4)p(x),
X

x∈A

E(X cos X) =
X
(x cos x)p(x),
x∈A
 
E eX = ex p(x).
X

x∈A

Théorème 2 Soit X une variable aléatoire discrète dont l’ensemble des valeurs possibles est A et
dont la fonction de masse de probabilité est p(x). Soit g une fonction à valeurs réelles. Alors g(X)
est une variable aléatoire dont l’espérance est donnée par :
E[g(X)] =
X
g(x)p(x).
x∈A

Preuve 2 Soit S l’espace échantillon. On suppose que g : R → R est une fonction à valeurs réelles
et que X : S → A ⊆ R est une variable aléatoire dont l’ensemble des valeurs possibles est A.
Comme nous le savons, la composition g(X) est une fonction de S vers l’ensemble g(A) = {g(x) :
x ∈ A}. Ainsi, g(X) est une variable aléatoire avec pour ensemble de valeurs possibles g(A).
D’après la définition de l’espérance :

E[g(X)] =
X
zP{g(X) = z}.
z∈g(A)

Définissons l’ensemble :

g −1 ({z}) = {x : g(x) = z},


et notons que nous ne supposons pas que g est une fonction inversible. Nous considérons simplement
l’ensemble {x : g(x) = z}, qui est appelé image réciproque de z et est noté g −1 ({z}).
Nous avons alors :
 
P(g(X) = z) = P X ∈ g −1 ({z}) = P(X = x) =
X X
p(x).
{x:x∈g −1 ({z})} {x:g(x)=z}

Ainsi,

E[g(X)] =
X
zP(g(X) = z)
z∈g(A)
X X
= z p(x)
z∈g(A) {x:g(x)=z}
X X
= zp(x)
z∈g(A) {x:g(x)=z}
X X
= g(x)p(x)
z∈g(A) {x:g(x)=z}
X
= g(x)p(x),
x∈A
où la dernière égalité provient du fait que la somme sur A peut être réalisée en deux étapes : d’abord
en sommant sur tous les x tels que g(x) = z, puis en sommant sur tous les z 

Dr Prevot Chirac BATSINDILA NGANGA page 10 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.5 Variances et moment des variables aléatoires discrètes

Corollaire 1 Soit X une variable aléatoire discrète, et soient g1 , g2 , . . . , gn des fonctions à valeurs
réelles et α1 , α2 , . . . , αn des nombres réels. Alors :

E [α1 g1 (X) + α2 g2 (X) + · · · + αn gn (X)] = α1 E [g1 (X)] + α2 E [g2 (X)] + · · · + αn E [gn (X)] .
Preuve 3 Soit A l’ensemble des valeurs possibles de X et p(x) sa fonction de masse de probabilité.
D’après le Théorème 2, nous avons :

E[α1 g1 (X) + α2 g2 (X) + · · · + αn gn (X)]


X
= [α1 g1 (x) + α2 g2 (x) + · · · + αn gn (x)] p(x)
x∈A
X X X
= α1 g1 (x)p(x) + α2 g2 (x)p(x) + · · · + αn gn (x)p(x)
x∈A x∈A x∈A
= α1 E [g1 (X)] + α2 E [g2 (X)] + · · · + αn E [gn (X)] . 

Grâce à ce corollaire, nous obtenons par exemple les relations suivantes :


     
E 2X 3 + 5X 2 + 7X + 4 = 2E X 3 + 5E X 2 + 7E(X) + 4,
   
E eX + 2 sin X + log X = E eX + 2E(sin X) + E(log X).
De plus, ce corollaire implique que E(X) est linéaire. Autrement dit, si α, β ∈ R, alors :
E(αX + β) = αE(X) + β. (1.2)

1.5 Variances et moment des variables aléatoires discrètes


La variance mesure l’amplitude moyenne des fluctuations d’une variable aléatoire par rapport à son
espérance. Cela est particulièrement important, car les variables aléatoires fluctuent autour de leur
valeur espérée.
Pour définir mathématiquement la variance d’une variable aléatoire X, la première idée serait de
considérer l’espérance de la différence entre X et son espérance, c’est-à-dire E[X − E(X)].
Cependant, cette quantité pose un problème : les écarts positifs et négatifs de X par rapport à E(X)
s’annulent, et l’on obtient toujours 0. Cela peut être vérifié mathématiquement à partir du corollaire
du Théorème 2. En posant E(X) = µ, nous avons :

E[X − E(X)] = E(X − µ) = E(X) − µ = E(X) − E(X) = 0.


Ainsi, E[X − E(X)] n’est pas une mesure appropriée pour la variance.
En revanche, si l’on considère E(|X − E(X)|), le problème d’annulation entre les écarts positifs et
négatifs disparaît. Comme cette quantité représente l’amplitude moyenne réelle des fluctuations de
X autour de E(X), elle semble être une bonne candidate pour exprimer la variance de X.
Cependant, E(|X − E(X)|) est mathématiquement difficile à manipuler. Pour cette raison, on utilise
plutôt la quantité E [(X − E(X))2 ], qui est analogue à la distance euclidienne en géométrie, et que
l’on appelle variance de X.
La racine carrée de E [(X − E(X))2 ] est appelée écart-type de X.

Dr Prevot Chirac BATSINDILA NGANGA page 11 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.5 Variances et moment des variables aléatoires discrètes

Définition 5 Soit X une variable aléatoire discrète ayant pour ensemble de valeurs possibles A,
une fonction de masse de probabilité p(x), et une espérance E(X) = µ.
L’écart-type (standard deviation) σX et la variance Var(X) de X sont définis par :
q h i
σX = E [(X − µ)2 ] et Var(X) = E (X − µ)2 .

D’après cette définition et le Théorème 2, nous avons :


h i
Var(X) = E (X − µ)2 = (x − µ)2 p(x).
X

x∈A

Soit X une variable aléatoire discrète ayant pour ensemble de valeurs possibles A et une fonction de
masse de probabilité p(x). Supposons que l’on cherche à prédire la valeur de X et que si la valeur t
est choisie comme estimation de X, une pénalité est appliquée en fonction de l’erreur X − t.
Pour minimiser cette pénalité, il semble raisonnable de minimiser :
h i
E (X − t)2 .
Or,
h i
E (X − t)2 = (x − t)2 p(x).
X

x∈A

En supposant que cette somme converge (c’est-à-dire E(X 2 ) < ∞), nous dérivons cette expression
par rapport à t pour trouver sa valeur minimale :
d h i d X
E (X − t)2 = (x − t)2 p(x) =
X
−2(x − t)p(x) = 0.
dt dt x∈A x∈A

Ce qui donne :
X X
xp(x) = t p(x) = t.
x∈A x∈A

Ainsi, E [(X − t)2 ] est minimisée lorsque :

xp(x) = E(X),
X
t=
x∈A

et la valeur minimale est donnée par :


h i
E (X − E(X))2 = Var(X).
Par conséquent, plus Var(X) est faible, meilleure est l’estimation de X par E(X).
Nous avons donc :
h i
Var(X) = min E (X − t)2 .
t

Nous avons mentionné précédemment que si l’on considère une masse unitaire répartie le long de
la droite réelle aux points de A, de sorte que la masse en x ∈ A est donnée par p(x) = P(X = x),
alors E(X) représente le centre de gravité.

Dr Prevot Chirac BATSINDILA NGANGA page 12 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.5 Variances et moment des variables aléatoires discrètes

Cependant, comme nous le savons, le centre de gravité ne fournit aucune information sur la répartition
de la masse autour de ce centre. C’est pourquoi, en physique, on introduit le moment d’inertie, qui
mesure la dispersion de la répartition de la masse autour du centre de gravité.
De manière analogue, E(X) est comparable au centre de gravité, et ne fournit aucune information
sur la dispersion de X autour de cette position centrale.
En revanche, la variance, qui est l’analogue du moment d’inertie, mesure la dispersion ou l’étalement
d’une distribution autour de sa valeur espérée.

Théorème 3 Soit X une variable aléatoire discrète ; alors, pour des constantes a et b, nous avons :

Var(aX + b) = a2 Var(X),
σaX+b = |a|σX .

Preuve 4 Pour démontrer cette propriété, considérons :

Var(aX + b) = E [(aX + b) − E(aX + b)]2


= E [(aX + b) − (aE(X) + b)]2
= E [a(X − E(X))]2
h i
= E a2 (X − E(X))2
h i
= a2 E (X − E(X))2
= a2 Var(X).
En prenant la racine carrée des deux côtés de cette relation, nous obtenons :

σaX+b = |a|σX . 

Remarque 2
Comme nous le savons, la variance mesure la dispersion ou l’étalement d’une distribution autour de
son espérance. Une manière de comparer la dispersion de deux variables aléatoires X et Y autour
d’un point arbitraire ω consiste à examiner laquelle des deux est la plus concentrée autour de ω. La
définition suivante formalise cette notion.

Définition 6 Soient X et Y deux variables aléatoires et ω un point donné. Si, pour tout t > 0, nous
avons :

P(|Y − ω| ≤ t) ≤ P(|X − ω| ≤ t),


alors on dit que X est plus concentrée autour de ω que Y .
Une conséquence utile de cette définition est le théorème suivant, dont la démonstration est laissée
en exercice. Ce résultat devrait être intuitivement clair.

Théorème 4 Supposons que X et Y sont deux variables aléatoires vérifiant E(X) = E(Y ) = µ. Si
X est plus concentrée autour de µ que Y , alors :

Var(X) ≤ Var(Y ).

Dr Prevot Chirac BATSINDILA NGANGA page 13 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.6 Moments

1.6 Moments
Soit X une variable aléatoire dont l’espérance est µ. Soit c une constante, n ≥ 0 un entier, et r > 0
un nombre réel, entier ou non. L’espérance E(X) est également appelée le premier moment de X.
En pratique, les espérances de certaines fonctions de X ont une signification numérique et théorique
importante. Parmi ces fonctions, on trouve :
– g(X) = X n ,
– g(X) = |X|n ,
– g(X) = X − c,
– g(X) = (X − c)n ,
– g(X) = (X − µ)n .
À condition que E(|g(X)|) < ∞, l’espérance E[g(X)] est définie pour chaque cas comme suit :

E[g(X)] Définition
E(X n ) Le n-ième moment de X
E(|X|r ) Le r-ième moment absolu de X
E(X − c) Le premier moment de X autour de c
E((X − c)n ) Le n-ième moment de X autour de c
E((X − µ)n ) Le n-ième moment central de X

Remarque 3 Soit X une variable aléatoire discrète de fonction de masse p(x) dont l’ensemble de
valeurs possibles est A. Soit n un entier positif. Il est important de noter que si E(X n+1 ) existe,
alors E(X n ) existe aussi. En d’autres termes, l’existence de moments d’ordre supérieur implique
l’existence des moments d’ordre inférieur. En particulier, cela signifie que si E(X 2 ) existe, alors
E(X) et, par conséquent, Var(X) existent également. Pour démontrer ce fait, remarquons que, par
définition, E(X n+1 ) existe si :

|x|n+1 p(x) < ∞.


X

x∈A

Définissons :

B = {x ∈ A : |x| < 1}, et son complément B c = {x ∈ A : |x| ≥ 1}.


Nous avons alors :

|x|n p(x) ≤
X X X
p(x) ≤ p(x) = 1.
x∈B x∈B x∈A

|x|n p(x) ≤ |x|n+1 p(x) ≤ |x|n+1 p(x) < ∞.


X X X

x∈B c x∈B c x∈A

Grâce à ces inégalités, nous obtenons :

|x|n p(x) = |x|n p(x) + |x|n p(x) ≤ 1 + |x|n+1 p(x) < ∞.


X X X X

x∈A x∈B x∈B c x∈A

Ce qui montre que E(X n ) existe également.

Dr Prevot Chirac BATSINDILA NGANGA page 14 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.7 Variables Aléatoires Centrées et Réduites

1.7 Variables Aléatoires Centrées et Réduites


Définition 7 Soit X une variable aléatoire d’espérance µ et d’écart-type σ. La variable aléatoire :
X −µ
X∗ =
σ
est appelée la variable aléatoire centrée et réduite de X.

Nous avons alors :


1 µ 1 µ µ µ
 

E (X ) = E X− = E(X) − = − = 0,
σ σ σ σ σ σ
1 µ 1 σ2
 
Var (X ∗ ) = Var X− = 2 Var(X) = 2 = 1.
σ σ σ σ
Lorsque l’on standardise une variable aléatoire X, on change l’origine en µ et l’échelle en unités
d’écart-type. La valeur obtenue pour X ∗ est indépendante des unités dans lesquelles X est mesuré.
Elle représente le nombre d’unités d’écart-type par lequel X s’écarte de E(X).

1.8 Distributions Discrètes usuelles


Dans cette section, nous étudions quelques exemples de variables aléatoires discrètes. Ces va-
riables aléatoires apparaissent fréquemment dans la théorie et les applications des probabilités, des
statistiques et dans divers domaines scientifiques et techniques.

1.8.1 Variables Aléatoires de Bernoulli et Binomiales


1.8.1.1 Variable Aléatoire de Bernoulli
Les épreuves de Bernoulli, nommés d’après le mathématicien suisse James Bernoulli, sont le type
le plus simple de variable aléatoire. Ils ne possèdent que deux issues possibles. Une issue est
généralement appelée « succès », notée s. L’autre issue est appelée « échec » , notée f .
L’expérience du lancer de pièce est un épreuve de Bernoulli. Ses seules issues sont « face » et
« pile » . Si l’on s’intéresse à la face, on peut l’appeler un succès ; dans ce cas, pile est un échec. De
même, l’expérience du lancer d’un dé est un épreuve de Bernoulli si, par exemple, nous cherchons
à savoir si le résultat est pair ou impair. Un résultat pair peut être considéré comme un succès, et
donc un résultat impair comme un échec, ou inversement. Lorsqu’un fusible est inspecté, il est
soit « défectueux » , soit « en bon état » . Ainsi, l’expérience d’inspection des fusibles est un essai
de Bernoulli. Un fusible en bon état peut être considéré comme un succès, un fusible défectueux
comme un échec.
L’espace échantillon d’un essai de Bernoulli contient deux résultats possibles, s et f . La variable
aléatoire définie par X(s) = 1 et X(f ) = 0 est appelée variable aléatoire de Bernoulli. Une
variable aléatoire de Bernoulli prend donc la valeur 1 lorsque l’issue de l’épreuve est un succès
et 0 lorsque c’est un échec. Si p est la probabilité d’un succès, alors 1 − p (parfois noté q) est la
probabilité d’un échec. Ainsi, la fonction de masse de X est donnée par :

Dr Prevot Chirac BATSINDILA NGANGA page 15 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles


1 − p ≡ q, si x = 0


p (x) = p, si x = 1 (1.3)



0, autrement.

Il est à noter que le même symbole p est utilisé à la fois pour la fonction de masse et pour le
paramètre de Bernoulli. Cette duplication ne doit pas prêter à confusion, car les p apparaissant dans
la fonction de masse sont généralement sous la forme p(x).
Une définition mathématique précise des variables aléatoires de Bernoulli est donnée ci-dessous :

Définition 8 Une variable aléatoire est dite de Bernoulli de paramètre p si sa fonction de masse est
donnée par l’Équation (1.3).
D’après l’Équation (1.3), l’espérance mathématique d’une variable aléatoire de Bernoulli X, de
paramètre p, est :

E(X) = 0 · P(X = 0) + 1 · P(X = 1) = P(X = 1) = p.


De plus, puisque :

E(X 2 ) = 0 · P(X = 0) + 1 · P(X = 1) = p,


on obtient :

Var(X) = E(X 2 ) − [E(X)]2 = p − p2 = p(1 − p).

1.8.1.2 Variable Aléatoire de Binomiale


Soit X1 , X2 , X3 , . . . une suite de variables aléatoires de Bernoulli. Si, pour tout ji ∈ {0, 1}, les événe-
ments {X1 = j1 }, {X2 = j2 }, {X3 = j3 }, . . . sont indépendants, alors on dit que {X1 , X2 , X3 , . . .}
et les épreuves de Bernoulli correspondants sont indépendants.
Bien que les épreuves de Bernoulli soient simples, lorsqu’elles sont répétés indépendamment, elles
peuvent soulever des questions intéressantes, voire parfois complexes. Considérons une expérience
où n épreuves de Bernoulli sont réalisés indépendamment. L’espace échantillon de cette expérience,
S, est l’ensemble des différentes séquences de longueur n contenant x succès (s) et (n − x) échecs
(f ).
Par exemple, si trois épreuves de Bernoulli sont réalisés indépendamment, alors l’espace échantillon
est :

{f f f, sf f, f sf, f f s, f ss, sf s, ssf, sss}.


Si n épreuves de Bernoulli, toutes avec une probabilité de succès p, sont réalisées indépendamment,
alors X, le nombre de succès, est l’une des variables aléatoires les plus importantes. Elle est appelée
variable binomiale de paramètres n et p. L’ensemble des valeurs possibles de X est {0, 1, 2, ..., n},
il est défini sur l’ensemble S décrit précédemment, et sa fonction de masse est donnée par le
théorème suivant.

Dr Prevot Chirac BATSINDILA NGANGA page 16 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles

Théorème 5 Soit X une variable aléatoire binomiale de taille n et paramètre p ∈ [0, 1] et on note
X B (n, p). Alors p(x), la fonction de masse de probabilité de X, est donnée par :

 
 nx px (1 − p)n−x
 si x = 0, 1, 2, . . . , n
p(x) = P(X = x) = (1.4)
0

ailleurs.

La démonstration de ce résultat est laissée en exercice.

Définition 9 La fonction p(x) donnée par l’Équation (1.4) est appelée fonction de masse binomiale
de taille n et paramètre p ∈ [0, 1].

Soit X une variable aléatoire binomiale avec les paramètres (n, p). Intuitivement, nous nous atten-
dons à ce que la valeur espérée de X soit np. Par exemple, si nous lançons une pièce équilibrée 100
fois, nous nous attendons à ce que le nombre moyen de faces soit 50, soit 100 × 21 = 50. De même,
si nous choisissons 10 fusibles dans un lot où 30 % sont défectueux, nous nous attendons à ce que le
nombre moyen de fusibles défectueux soit np = 10(0, 30) = 3.
La formule E(X) = np peut être vérifiée directement à partir de la définition de l’espérance
mathématique comme suit :
n n
!
n x n−x n!
px (1 − p)n−x
X X
E(X) = x p (1 − p) = x
x=0 x x=1 x!(n − x)!
n
n!
px (1 − p)n−x
X
=
x=1 (x − 1)!(n − x)!
n
(n − 1)!
px−1 (1 − p)n−x
X
= np
x=1 (x − 1)!(n − x)!
n
!
n − 1 x−1
p (1 − p)n−x .
X
= np
x=1 x−1
En posant i = x − 1 (en changeant l’indice de la somme), on obtient :
n−1
!
n−1 i
p (1 − p)(n−1)−i = np[p + (1 − p)]n−1 = np,
X
E(X) = np
i=0 i
où l’avant-dernière égalité découle du développement binomial.
Pour calculer la variance de X, en suivant une procédure similaire à celle utilisée pour obtenir E(X),
nous trouvons :
n
!
n x
2 2
p (1 − p)n−x = n2 p2 + np.
X
E(X ) = x
x=1 x
Par conséquent,

Var(X) = E(X 2 ) − [E(X)]2 = −np2 + np = np(1 − p).


Nous avons ainsi établi que :

Dr Prevot Chirac BATSINDILA NGANGA page 17 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles

Si X est une variable aléatoire binomiale avec les paramètres n et p, alors :


q
E(X) = np, Var(X) = np(1 − p), σX = np(1 − p).

1.8.2 Variable aléatoire de Poisson


Définition 10 Une variable aléatoire discrète X prenant les valeurs possibles 0, 1, 2, 3, . . . est
appelée variable de Poisson de paramètre λ, λ > 0, et on note X P (λ), si

e−λ λk
P(X = k) = , k = 0, 1, 2, 3, . . . (1.5)
k!
Puisque la fonction de masse de Poisson est la limite d’une fonction de masse binomiale (à démon-
trer), et que l’espérance d’une variable aléatoire binomiale de taille n et de paramètres p est np, où
np = λ, il est raisonnable de s’attendre à ce que l’espérance d’une variable aléatoire de Poisson de
paramètre λ soit λ. Pour prouver cela, remarquons que :
∞ ∞
e−λ λi
E(X) =
X X
iP (X = i) = i
i=0 i=1 i!
∞ ∞
λi−1 λi
= λe−λ = λe−λ
X X

i=1 (i − 1)! i=0 i!

= λe−λ eλ = λ.
La variance d’une variable aléatoire de Poisson X de paramètre λ est aussi λ. Pour le voir, notons
que :
∞ ∞
e−λ λi
E(X 2 ) = i2 P (X = i) = i2
X X

i=0 i=1 i!
∞ ∞
iλi−1 1 d i
= λe−λ = λe−λ
X X
(λ )
i=1 (i − 1)! i=1 (i − 1)! dλ

λi
!
−λ d X d  λ
= λe = λe−λ λe
dλ i=1 (i − 1)! dλ
 
= λe−λ eλ + λeλ = λ + λ2 .
Par conséquent,

Var(X) = E(X 2 ) − [E(X)]2 = (λ + λ2 ) − λ2 = λ.


Nous avons donc démontré que :
Si X est une variable aléatoire de Poisson de paramètre λ, alors :

E(X) = Var(X) = λ, σX = λ.

Dr Prevot Chirac BATSINDILA NGANGA page 18 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles

1.8.3 Variables aléatoires géométriques


Considérons une expérience dans laquelle des essais de Bernoulli indépendants sont effectués jusqu’à
ce que le premier succès se produise. L’espace des échantillons pour une telle expérience est :

S = {s, f s, f f s, f f f s, f f f f s, . . .}.
Supposons maintenant qu’une suite d’épreuves de Bernoulli indépendantes soit réalisée, chacun
ayant une probabilité de succès p, où 0 < p < 1, et soit X le nombre d’épreuves jusqu’à ce que le
premier succès se produise. Alors X est une variable aléatoire discrète dite géométrique. Elle est
définie sur S, son ensemble de valeurs possibles, qui est {1, 2, 3, . . .}, et

P(X = n) = (1 − p)n−1 p, n = 1, 2, 3, . . .
Cette équation découle du fait que (a) les n − 1 premiers essais sont tous des échecs, (b) le n-ième
essai est un succès et (c) les essais de Bernoulli successifs sont tous indépendants.
Soit p(x) = (1 − p)x−1 p avec x = 1, 2, 3, . . ., et 0 ailleurs. Alors, pour toutes les valeurs de x dans
R, p(x) ≥ 0 et
∞ ∞
p
(1 − p)x−1 p =
X X
p(x) = = 1,
x=1 x=1 1 − (1 − p)
par le théorème de la somme des séries géométriques. Ainsi, p(x) est bien une fonction de masse.

Définition 11 Soit p ∈ ]0, 1[. On dit qu’une variable aléatoire X suit la loi géométrique de
paramètre p et on note X G (p), lorsque X prend les valeurs n ∈ N∗ avec les probabilités :


(1 − p)x−1 p, 0 < p < 1, x = 1, 2, 3, . . .
p(x) = (1.6)
0, ailleurs.

Soit X une variable aléatoire géométrique de paramètre p. Alors :


∞ ∞
E(X) = xp(1 − p)x−1 = x(1 − p)x−1 p
X X

x=1 x=1
!
1 1
=p = ,
p2 p

xrx−1 = 1/(1 − r)2 , pour |r| < 1. L’expression
X
où la troisième égalité découle de la relation
x=1
E(X) = 1/p indique qu’en moyenne, 1/p épreuves de Bernoulli indépendantes sont nécessaires
pour obtenir le premier succès.

r(r + 1)
x2 rx−1 =
X
La relation , pour |r| < 1, implique que :
x=1 (1 − r)3

1+p 2−p
E(X 2 ) = x2 p(1 − p)x−1 = p 3 =
X
.
x=1 p p2
Ainsi,

Dr Prevot Chirac BATSINDILA NGANGA page 19 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles

!2
2−p 1 1−p
Var(X) = E(X ) − [E(X)] =
2
2
2
− = .
p p p2
Nous avons donc établi les formules suivantes :
Si X est une variable aléatoire géométrique de paramètre p, où 0 < p < 1, alors :

1 1−p 1−p
E(X) = , Var(X) = , σ X = .
p p2 p

1.8.4 Variables aléatoires binomiales négatives


Les variables aléatoires binomiales négatives sont des généralisations des variables aléatoires
géométriques. Supposons qu’une suite d’épreuves de Bernoulli indépendantes, chacune avec une
probabilité de succès p, où 0 < p < 1, soit réalisée. Soit X le nombre d’épreuves nécessaires jusqu’à
l’apparition du r-ième succès. Alors X est une variable aléatoire discrète appelée binomiale négative.
Son ensemble de valeurs possibles est {r, r + 1, r + 2, r + 3, . . .}, et

!
n−1 r
P (X = n) = p (1 − p)n−r , n = r, r + 1, . . . (1.7)
r−1

Cette équation est justifiée par le fait que si le résultat du n-ième épreuve est le r-ième succès, alors
dans les (n − 1) premiers épreuves, exactement (r − 1) succès ont eu lieu, et le n-ième épreuve est
un succès. La probabilité de cet événement est :
! !
n − 1 r−1 n − 1 r−1
p (1 − p)(n−1)−(r−1) = p (1 − p)n−r ,
r−1 r−1
et la probabilité du dernier succès est p. Ainsi, par indépendance des épreuves, l’Expression (1.7) en
découle.

Définition 12 La fonction de probabilité


!
x−1 r
p(x) = p (1 − p)x−r , 0 < p < 1, x = r, r + 1, r + 2, r + 3, . . .
r−1

est appelée loi binomiale négative de paramètres (r, p).

Remarque 4 Remarquons qu’une fonction de masse de la loi binomiale négative de paramètres


(1, p) équivaut à celle la loi géométrique de paramètre p.
Si X est une variable aléatoire binomiale négative avec les paramètres (r, p), alors :
q
r r(1 − p) r(1 − p)
E(X) = , Var(X) = , σX = .
p p2 p

Dr Prevot Chirac BATSINDILA NGANGA page 20 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 1.8 Distributions Discrètes usuelles

1.8.5 Variables aléatoires hypergéométriques


Supposons que, dans une boîte contenant D objets défectueux et N − D objets non défectueux,
on tire n objets au hasard et sans remise. De plus, supposons que le nombre d’objets tirés ne
dépasse pas le nombre d’objets défectueux ni celui des objets non défectueux. Ainsi, supposons que
n ≤ min(D, N − D). Soit X le nombre d’objets défectueux tirés. Alors X est une variable aléatoire
discrète dont l’ensemble des valeurs possibles est {0, 1, . . . , n}, et dont la fonction de masse de
probabilité est :
  
D N −D
x n−x
p(x) = P(X = x) =  
N
, x = 0, 1, 2, . . . , n.
n

Toute variable aléatoire X ayant une telle fonction de probabilité est appelée variable aléatoire
hypergéométrique. Le fait que p(x) soit une fonction de probabilité est facilement vérifié. Il est
n
X
clair que p(x) ≥ 0, ∀x. Pour prouver que p(x) = 1, notons que cela est équivalent à :
x=0
n
! ! !
X D N −D N
= ,
x=0 x n−x n
ce qui peut être démontré par un simple argument combinatoire .

Définition 13 Soient N , D et n des entiers positifs tels que n ≤ min(D, N − D). Alors :

 D N −D
 ( x )( n−x ) ,

si x ∈ {0, 1, 2, . . . , n},
p(x) = P(X = x) = (Nn ) (1.8)


0, ailleurs.

est appelée fonction de masse de la loi hypergéométrique de paramètres N , D et n .


Pour la variable aléatoire hypergéométrique X de paramètres N , D et n, définie ci-dessus :

nD nD(N − D) n−1
 
E(X) = , Var(X) = 1− .
N N 2 N −1
Remarquons que si l’expérience consistant à tirer n objets d’une boîte contenant D objets défectueux
et N −D objets non défectueux est réalisée avec remise, alors X suit une loi binomiale de paramètres
n et D/N . Ainsi :

nD D D nD(N − D)
 
E(X) = , Var(X) = 1− n= .
N N N N2
Cela montre que si les objets sont tirés avec remise, alors la valeur espérée (l’espérance) de X
ne change pas, mais la variance augmente. Cependant, si n est beaucoup plus petit que N , alors,
comme le confirme la formule de la variance, le tirage avec remise est une bonne approximation
du tirage sans remise.

Dr Prevot Chirac BATSINDILA NGANGA page 21 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
2 Variables aléatoires à densité

Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– Comprendre la notion de densité de probabilité pour une variable aléatoire réelle.
– Connaître la relation entre densité et fonction de répartition.
– Calculer des probabilités à l’aide d’intégrales de densité.
– Déterminer l’espérance, la variance et les moments d’une variable continue.
– Manipuler les lois continues usuelles : uniforme, exponentielle, gaussienne et normale.
– Maîtriser les propriétés fondamentales de la loi normale (symétrie, standardisation).
– Résoudre des problèmes probabilistes impliquant des lois à densité.

2.1 Généralités
2.1.1 Densité et fonction de répartition
Définition 14 On dit qu’une V.A.R. X admet une densité fX lorsque sa fonction de répartition FX
peut s’écrire sous la forme :
Z x
FX (x) = fX (t) dt
−∞

où fX est une fonction à valeurs réelles positives, ayant un nombre fini de points de discontinuité et
telle que :
Z +∞
fX (t) dt = 1.
−∞

On dit alors que X est une V.A.R. à densité.

Remarque 5 Toute fonction g positive, égale à fX sauf éventuellement en un nombre fini de points,
est aussi une densité de X.

22
Sec 2.1 Généralités

Théorème 6 Une fonction réelle fX définie sur R est une densité de probabilité si et seulement si :
– fX est continue sur R sauf éventuellement en un nombre fini de points,
– fZX (x) ≥ 0 pour tout x ∈ R,
+∞
– fX (x) dx = 1.
−∞

Exemple 2 Soit fX la fonction définie sur R par :


 h i
cos x si x ∈ 0, π2
fX (x) =
0 sinon

– fX est continue sur R sauf au point 0 ;


– fX (x) ≥ 0 pour tout x ∈ R ;
Z 0 Z +∞ π π
π
Z Z
2 2
– fX (x) dx = π
fX (x) dx = 0 et fX (x) dx = cos x dx = [sin x]02 = 1.
−∞ 2
0 0
Donc fX est une densité de probabilité.

Proposition 1 Soit X une V.A.R. admettant une densité f , et soit sa fonction de répartition FX :
– FX est continue ;
– En tout point x0 où f est continue, FX est dérivable et F 0 (x0 ) = fX (x0 ). FX est croissante
de 0 à 1, dérivable sauf peut-être en un nombre fini de points ; sa dérivée est continue là où
elle est définie.

Proposition 2 Soit X une V.A.R. de fonction de répartition FX .


– Si FX est continue sur R,
– Si FX est dérivable sur R sauf peut-être en un nombre fini de points x1 , . . . , xn ,
– et si FX0 est continue sur R − {x1 , . . . , xn },
alors X est une V.A.R. à densité et toute fonction positive sur R qui coïncide avec FX0 en tout point
de R − {x1 , . . . , xn } est une densité de X.

Remarque 6 Cette proposition est souvent utilisée pour déterminer la loi d’une V.A.R. Y fonction
d’une V.A.R. à densité X, c’est-à-dire pour déterminer une densité de Y .

Proposition 3 Soit X une V.A.R. admettant une densité fX et une fonction de répartition FX :
(1) Pour tout a ∈ R, P(X = a) = 0.
(2) Pour tous a et b réels tels que a < b :
Z b
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) = fX (t) dt.
a

(3) Pour tous a et b réels :


Z a
P(X < a) = P(X ≤ a) = fX (t) dt.
−∞

Z +∞
P(X > b) = P(X ≥ b) = fX (t) dt.
b

Dr Prevot Chirac BATSINDILA NGANGA page 23 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Preuve
(1) Pour tout a ∈ R, et tout n ∈ N∗ , on a :
1
 
0 ≤ P(X = a) ≤ P a − < X ≤ a .
n
Or
1 1
   
P a− < X ≤ a = F (a) − F a −
n n
et
1
 
lim FX a − = FX (a) car FX est continue sur R, donc en a,
n→∞ n
donc
1
 
lim P a − <X≤a =0 ⇒ P(X = a) = 0.
n→∞ n
(2) Si a et b sont tels que a < b, on sait que :
Z b Z a
P(a < X ≤ b) = FX (b) − FX (a) = fX (t) dt − fX (t) dt
−∞ −∞

donc Z b
P(a < X ≤ b) = fX (t) dt
a
et comme P(X = a) = P(X = b) = 0, on a

P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b).

(3) Par définition,


Z a
P(X ≤ a) = fX (t) dt et comme P(X = a) = 0,
−∞

On a

P(X < a) = P(X ≤ a).


De même,
P(X > b) = P(X ≥ b) car P(X = b) = 0.
Z b Z +∞
P(X > b) = 1 − P(X ≤ b) = 1 − fX (t) dt = fX (t) dt
−∞ b
donc Z +∞
P(X > a) = fX (t) dt.
a

Remarque 7 Si fX est nulle en dehors de [a, b], P(X < a) = 0 et P(X > b) = 0 donc on peut
considérer que X prend ses valeurs dans [a, b].
Plus généralement, si fX est nulle en dehors de I, on dit que X prend ses valeurs dans I.

Dr Prevot Chirac BATSINDILA NGANGA page 24 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

2.1.2 Exemples de fonctions d’une V.A.R. à densité


Exemple 3 Soit X une V.A.R. de densité f . Déterminons la loi de Y = eX .
Soit FX (resp. GY ) la fonction de répartition de X (resp. Y ).
∀x ∈ R, G(x) = P(Y ≤ x) = P(eX ≤ x).
Si x ≤ 0, alors P(eX ≤ x) = 0 donc G(x) = 0.
Si x > 0, GY (x) = P(X ≤ ln x) car ln est une fonction croissante sur R∗ .

GY (x) = FX (ln x)
GY est continue sur ] − ∞, 0] car sur cet intervalle GY est composée de F et de ln qui sont continues
sur leurs domaines de définition.

lim ln x = −∞ et lim F (ln x) = lim F (y) = 0 donc lim G(x) = G(0)


x→0+ x→0+ y→−∞ x→0+

Donc GY est continue en 0, et finalement GY est continue sur R.


GY est dérivable sur ]0, +∞[.
FX étant la fonction de répartition d’une V.A.R. à densité, FX est dérivable sur R sauf peut-être en
un nombre fini de points x1 , . . . , xn , et F 0 est continue sur R − {x1 , . . . , xn }. ln est en classe C 1 sur
]0, +∞[.
Donc GY est dérivable sur R − {0, ex1 , . . . , exn } et G0Y est continue sur R − {0, ex1 , . . . , exn }.

0 si x < 0
G0Y (x) =  1
F 0 (ln x) si x ∈ R∗ − {0, ex1 , . . . , exn }
x X

Y est donc une V.A.R. à densité et une densité de Y est la fonction g définie par :

0 si x ≤ 0
gY (x) =
 1 fX (ln x) si x > 0
x

Remarque 8 On a posé gY (0) = 0 et gY (x) = x1 fX (ln x) mais on aurait pu choisir d’autres valeurs
pour gY (x) lorsque x ∈ {0, ex1 , . . . , exn }.

Exemple 4 (Transformation affine d’une variable aléatoire) Soit X une V.A.R. de densité fX et
a et b deux nombres réels (a 6= 0). Déterminons la loi de la V.A.R. Y = aX + b.
Soit FX (resp. GY ) la fonction de répartition de X (resp. Y ).

∀x ∈ R, GY (x) = P(Y ≤ x) = P (aX + b ≤ x)


– Si a > 0 : ! !
x−b x−b
GY (x) = P X ≤ = FX
a a
– Si a < 0 :
! ! !
x−b x−b x−b
GY (x) = P X ≥ =1−P X ≤ = 1 − FX
a a a

Dr Prevot Chirac BATSINDILA NGANGA page 25 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Comme FX est la fonction de répartition d’une V.A.R. à densité et comme x 7→ x−ba


est une bijection
de classe C de R dans R, dans les deux cas GY est continue sur R, dérivable sauf éventuellement
1

en un nombre fini de points et G0Y est continue sur R privée de ces points.
On en déduit que Y est une V.A.R. à densité. En tout point où G0Y est défini, on a :
  
 1 fX x−b
 si a > 0
a
G0Y (x) = a 
− 1 fX x−b
 si a < 0
a a

Donc une densité de Y est gY définie par :


!
1 x−b
gY (x) = fX .
|a| a

Exemple 5 Soit X une V.A.R. de densité f . Déterminons la loi de Y = X 2 .


Soit FX (resp. GY ) la fonction de répartition de X (resp. Y ).
∀x ∈ R, GY (x) = P(Y ≤ x) = P(X 2 ≤ x)
Si x < 0, (X 2 ≤ x) est vide
√ donc GY√(x) = 0, √ √
Si x > 0, GY (x) = P(− x ≤ X ≤ x) = FX ( x) − FX (− x).
• G est de classe C 1 sur ] − ∞, 0[.

Comme FX est la fonction de répartition d’une V.A.R. à densité et comme x 7→ x est une bijection
de classe C 1 de ]0, +∞[ sur ]0, +∞[, GY est continue sur ]0, +∞[ et dérivable sauf éventuellement
en un nombre fini de points et G0 est continue sur R privé de ces points.
Enfin lim− GY (x) = GY (0) = lim+ GY (x), donc GY est continue en 0 et par suite GY est continue
x→0 x→0
sur R.
Y est donc une V.A.R. à densité.
En tout point où G0Y est défini, on a :

0
 si x < 0,
G0Y (x) =  1 h √ √ i
 √ f ( x) + f (− x) si x ≥ 0.
2 x

Donc une densité de Y est gY définie par :



0
 si x < 0,
gY (x) = 1 h√ √ i
 √ f ( x) + f (− x) si x ≥ 0.
2 x

Théorème 7 (Méthode des transformations) Soit X une variable aléatoire continue de densité
fX et d’ensemble de valeurs possibles ΩX . Pour une fonction inversible h : ΩX → R, posons
Y = h(X) une variable aléatoire avec pour ensemble de valeurs possibles ΩY = h (ΩX ) = {h(a) :
a ∈ ΩX }. Supposons que l’inverse de la fonction y = h(x) est la fonction x = h−1 (y), qui est
différentiable pour toutes les valeurs de y ∈ ΩY . Alors fY , la fonction de probabilité de Y , est
donnée par  
fY (y) = fX h−1 (y) (h−1 )0 (y) , y ∈ ΩY .

Dr Prevot Chirac BATSINDILA NGANGA page 26 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Preuve 5 Soient FX et FY les fonctions de répartition de X et de Y = h(X), respectivement.


La différentiabilité de h−1 implique qu’elle est continue. Puisqu’une fonction inversible continue est
strictement monotone, h−1 est soit strictement croissante, soit strictement décroissante.
Si h−1 est strictement croissante, alors (h−1 )0 (y) > 0, et donc

(h−1 )0 (y) = (h−1 )0 (y) .

Dans ce cas, h est aussi strictement croissante, donc


 
FY (y) = P(h(X) ≤ y) = P(X ≤ h−1 (y)) = FX h−1 (y) .

En différentiant par la règle de la chaîne, on obtient :


   
FY0 (y) = (h−1 )0 (y)FX0 h−1 (y) = (h−1 )0 (y) fX h−1 (y) ,

ce qui donne le théorème.


Si h−1 est strictement décroissante, alors (h−1 )0 (y) < 0, et donc

(h−1 )0 (y) = −(h−1 )0 (y).

Dans ce cas, h est aussi strictement décroissante, et on a :


 
FY (y) = P(h(X) ≤ y) = P(X ≥ h−1 (y)) = 1 − FX h−1 (y) .

En différentiant cette expression par la règle de la chaîne, on trouve :


   
FY0 (y) = −(h−1 )0 (y)FX0 h−1 (y) = (h−1 )0 (y) fX h−1 (y) ,

ce qui montre que le théorème est aussi valable dans ce cas. 

2.1.3 Espérance mathématique


Définition 15Z Soit X une V.A.R. de densité fX .
+∞
Si l’intégrale |x|fX (x) dx converge, on dit que X admet une espérance mathématique définie
−∞
par : Z +∞
E(X) = xfX (x) dx.
−∞

E(X) est aussi appelé moment d’ordre 1 de X, ou encore moyenne de X.


Le théorème suivant relie directement la fonction de répartition d’une variable aléatoire à son
espérance. Il permet de trouver l’espérance d’une variable aléatoire continue sans avoir besoin de
calculer explicitement sa fonction de densité de probabilité. Il a également d’importantes applications
théoriques.

Théorème 8 Pour toute variable aléatoire continue X ayant pour fonction de répartition FX et
pour fonction densité de probabilité fX , on a
Z +∞ Z +∞
E(X) = [1 − FX (t)] dt − FX (−t) dt.
0 0

Dr Prevot Chirac BATSINDILA NGANGA page 27 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Preuve 6 Remarquons que


Z +∞ Z 0 Z +∞
E(X) = xfX (x) dx = xfX (x) dx + xfX (x) dx,
−∞ −∞ 0
Z 0 Z −x  Z +∞ Z x 
=− dt fX (x) dx + dt fX (x) dx,
−∞ 0 0 0
Z +∞ Z −t  Z +∞ Z +∞ 
=− fX (x) dx dt + fX (x) dx dt,
0 −∞ 0 t
où la dernière égalité est obtenue en changeant l’ordre des intégrales.
Le théorème en découle car :
Z −t Z +∞
fX (x) dx = FX (−t) et fX (x) dx = P(X > t) = 1 − FX (t). 
−∞ t

Remarque 9 Dans la preuve de ce théorème, on a supposé que la variable aléatoire X est continue.
Même sans cette condition, le théorème reste valide. De plus, comme 1 − FX (t) = P(X > t), ce
théorème peut aussi s’énoncer ainsi :
Pour toute variable aléatoire X,
Z +∞ Z +∞
E(X) = P(X > t) dt − P(X ≤ −t) dt.
0 0

En particulier, si X est positive (non négative), c’est-à-dire si P(X < 0) = 0, alors :


Z +∞ Z +∞
E(X) = P(X > t) dt = P(X ≥ t) dt. 
0 0

Théorème 9 Soit X une variable aléatoire réelle continue définie sur (Ω, A, P) de fonction densité
de probabilité fX (x) ; alors pour toute fonction h : R → R, on a :
Z +∞
E[h(X)] = h(x)fX (x) dx.
−∞

Preuve 7 Soit
h−1 (t, +∞) = {x : h(x) ∈ (t, +∞)} = {x : h(x) > t}
avec une représentation similaire pour h−1 (−∞, −t). Remarquons que nous n’affirmons pas que h
possède une fonction inverse. Nous considérons simplement l’ensemble {x : h(x) ∈ (t, +∞)}, qui
est appelé l’image réciproque de (t, +∞) et est notée h−1 (t, +∞).
Par le Théorème 8, nous avons :

Z +∞ Z +∞
E[h(X)] = P(h(X) > t) dt − P(h(X) ≤ −t) dt
0 0
Z +∞ Z +∞
= P(X ∈ h−1 (t, +∞)) dt − P(X ∈ h−1 (−∞, −t)) dt
0 0
Z +∞ Z ! Z +∞ Z !
= f (x) dx dt − f (x) dx dt
0 {x:h(x)>t} 0 {x:h(x)≤−t}
Z Z h(x) ! Z Z 0 !
= dt f (x) dx − dt f (x) dx.
{x:h(x)>0} 0 {x:h(x)≤0} h(x)

Dr Prevot Chirac BATSINDILA NGANGA page 28 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Maintenant, nous changeons l’ordre d’intégration pour ces deux intégrales doubles. En effet :
{(t, x) : 0 < t < +∞, h(x) > t} = {(t, x) : h(x) > 0, 0 < t < h(x)},
et
{(t, x) : 0 < t < +∞, h(x) ≤ −t} = {(t, x) : h(x) < 0, 0 < t < −h(x)}.
Ainsi, nous obtenons :

Z Z h(x) ! Z Z −h(x) !
E[h(X)] = dt f (x) dx − dt f (x) dx
{x:h(x)>0} 0 {x:h(x)<0} 0
Z Z
= h(x)f (x) dx + h(x)f (x) dx
{x:h(x)>0} {x:h(x)<0}
Z +∞
= h(x)f (x) dx.
−∞

Remarquons que la dernière égalité découle du fait que


Z
h(x)f (x) dx = 0.
{x:h(x)=0}

Corollaire 2 Soit X une variable aléatoire continue ayant pour fonction densité de probabilité
fX (x). Soient h1 , h2 , . . . , hn des fonctions réelles, et α1 , α2 , . . . , αn des réels. Alors :

E [α1 h1 (X) + α2 h2 (X) + · · · + αn hn (X)] = α1 E[h1 (X)] + α2 E[h2 (X)] + · · · + αn E[hn (X)].
Ce corollaire affirme que si α et β sont des réels, alors :
E(αX + β) = αE(X) + β.
Définition 16 Si E(X) = 0, on dit que X est une V.A.R. centrée. Si X admet une espérance
mathématique, X − E(X) est appelée V.A.R. centrée associée à X.

2.1.4 Variance et écart-type


Définition 17 Si X est une variable aléatoire continue avec E(X) = µ, alors la variance Var(X)
et l’écart-type σX , appelés respectivement variance et écart-type de X, sont définis par :
 
Var(X) = E (X − µ)2 ,
q
σX = E ((X − µ)2 ).

Ainsi, si fX est la fonction de densité de probabilité de X, alors, d’après le Théorème 9,


  Z +∞
Var(X) = E (X − µ) 2
= (x − µ)2 fX (x) dx.
−∞
De plus, comme précédemment, nous avons les relations importantes suivantes, dont les démonstra-
tions sont analogues à celles du cas discret :
Var(X) = E(X 2 ) − (E(X))2 ,
Var(aX + b) = a2 Var(X), σaX+b = |a|σX , où a et b sont des réels.

Dr Prevot Chirac BATSINDILA NGANGA page 29 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Définition 18 Soit σX (X) = 1, on dit que X est une V.A.R. réduite. Si X admet une espérance
mathématique et un écart-type non nul,
X − E(X)
σ(X)
est appelée V.A.R. centrée réduite associée à X.

2.1.5 V.A.R. à densité indépendantes


Deux variables aléatoires X et Y sont dites indépendantes si, pour tout sous-ensemble arbitraire A
et B de nombres réels, les événements {X ∈ A} et {Y ∈ B} sont indépendants, c’est-à-dire si :

P (X ∈ A, Y ∈ B) = P (X ∈ A) P (X ∈ B) . (2.1)

En utilisant les axiomes de la probabilité, on peut prouver que X et Y sont indépendantes si et


seulement si, pour tous réels a et b,

P (X ≤ a, Y ≤ b) = P (X ≤ a) P (Y ≤ b) . (2.2)

Ainsi, l’Expression (2.1) et l’Expression (2.2) sont équivalentes.

l’Expression (2.2) affirme que X et Y sont des variables aléatoires indépendantes si et seulement
si leur fonction de répartition conjointe est le produit de leurs fonctions de répartition marginales.
Le théorème suivant exprime ce fait.

Théorème 10 Soient X et Y deux variables aléatoires définies sur le même espace probabilisé.
Si F est la fonction de répartition conjointe de X et Y , alors X et Y sont indépendantes si et
seulement si, pour tous réels x et y,

F (x, y) = FX (x)FY (y).

Théorème 11 (sur les fonctions de variables aléatoires indépendantes) Soient X et Y deux va-
riables aléatoires indépendantes. Alors, pour les fonctions réelles g : R → R et h : R → R, g(X)
et h(Y ) sont aussi des variables aléatoires indépendantes.

Preuve 8 Pour montrer que g(X) et h(Y ) sont indépendantes, il suffit, d’après l’Expression (2.2),
de prouver que, pour tous réels a et b,

P (g(X) ≤ a, h(Y ) ≤ b) = P (g(X) ≤ a) P ((h(Y ) ≤ b) .


Soient A = {x : g(x) ≤ a} et B = {y : h(y) ≤ b}. Clairement, x ∈ A si et seulement si g(x) ≤ a,
et y ∈ B si et seulement si h(y) ≤ b. Donc,

P (g(X) ≤ a, h(Y ) ≤ b) = P (X ∈ A, Y ∈ B)
= P (X ∈ A) P (Y ∈ B)
= P (g(X) ≤ a) P (h(Y ) ≤ b) . 

Dr Prevot Chirac BATSINDILA NGANGA page 30 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Exemple 6 Ainsi, d’après ce théorème, si X et Y sont des variables aléatoires indépendantes, alors
des ensembles tels que {X 2 , Y }, {sin X, eY }, {X 2 − 2X, Y 3 + 3Y } sont des ensembles de variables
aléatoires indépendantes.

Une autre propriété importante des variables aléatoires indépendantes est que l’espérance de leur
produit est égale au produit de leurs espérances respectives.

Théorème 12 Soient X et Y deux variables aléatoires indépendantes. Alors, pour toutes fonctions
réelles g : R → R et h : R → R,

E[g(X)h(Y )] = E[g(X)]E[h(Y )],

où on suppose que E[g(X)] et E[h(Y )] sont finis.

Preuve 9 Soit fX,Y (x, y) la fonction de densité de probabilité conjointe de X et Y . Alors,


Z ∞ Z ∞
E[g(X)h(Y )] = g(x)h(y)f (x, y) dx dy
−∞ −∞
Z ∞ Z ∞
= g(x)h(y)fX (x)fY (y) dx dy
−∞ −∞
Z ∞ Z ∞ 
= h(y)fY (y) g(x)fX (x) dx dy
−∞ −∞
Z ∞  Z ∞ 
= g(x)fX (x) dx h(y)fY (y) dy
−∞ −∞
= E[g(X)]E[h(Y )]. 

Encore une fois, d’après le Théorème 12, si X et Y sont indépendantes, alors :

E(XY ) = E(X)E(Y ).

Théorème 13 Soient X et Y deux variables aléatoires continues dont la fonction densité de proba-
bilité conjointe est fX,Y (x, y). Alors, X et Y sont indépendantes si et seulement si fX,Y (x, y) est le
produit de leurs densités marginales fX (x) et fY (y).

Proposition 4 Soient X et Y deux variables aléatoires continues dont la fonction de densité de


probabilité conjointe est fX,Y (x, y). Alors X et Y sont des variables aléatoires. indépendantes si et
seulement s’il existe des fonctions g(x) et h(y) telles que, pour tout x ∈ R et y ∈ R,

fX,Y (x, y) = g(x)h(y).

Preuve 10 La partie « seulement si » est prouvée en posant g(x) = fX (x) et h(y) = fY (y) et en
utilisant le Théorème 13. Pour prouver la partie « si » pour des variables aléatoires continues,
supposons que f (x, y) = g(x)h(y). Définissons :
Z ∞ Z ∞
g(x) dx = c et h(y) dy = d,
−∞ −∞

où les constantes c et d satisfont :

Dr Prevot Chirac BATSINDILA NGANGA page 31 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Z ∞  Z ∞ 
cd = g(x) dx h(y) dy (2.3)
−∞ −∞
Z ∞ Z ∞
= g(x)h(y) dx dy
−∞ −∞
Z ∞ Z ∞
= f (x, y) dx dy
−∞ −∞
= 1, car fX,Y (x, y) est une densité conjointe
De plus, les densités marginales sont données par :
Z ∞
fX (x) = g(x)h(y) dy = g(x)d
−∞
Z ∞
fY (y) = g(x)h(y) dx = h(y)c (2.4)
−∞

Ainsi, en utilisant les Expressions (2.3) et (2.4), on a :

f (x, y) = g(x)h(y) = g(x)h(y)cd = fX (x)fY (y),


ce qui montre que X et Y sont indépendantes.

Théorème 14 (Théorème de Convolution) Soient X et Y deux variables aléatoires continues


indépendantes, de densités de probabilité respectives fX et fY , et de fonctions de répartition
respectives FX et FY . Alors hX+Y et FX+Y , les densité et fonction de répartition de la variable
X + Y , sont données par :
Z ∞ Z ∞
∀t ∈ R, hX+Y (t) = fX (x)fY (t − x) dx = fX (t − u)fY (u) dx,
−∞ −∞
Z ∞
FX+Y (t) = fX (x)FY (t − x) dx.
−∞

Proposition 5 Si X et Y sont deux V.A.R. à densité, indépendantes et admettant chacune une


variance, alors
X + Y admet une variance et :

Var (X + Y ) = Var (X) + Var (Y ) .

Preuve
Var (X + Y ) = E((X + Y )2 ) − [E(X + Y )]2
= E(X 2 ) + E(Y 2 ) + 2E(XY ) − E(X)2 − 2E(X)E(Y ) − E(Y )2
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 = V (X) + V (Y ). 
Proposition 6 Soit ai ∈ R, i ∈ J1 ; nK. Si X1 , X2 , . . . , Xn sont indépendantes deux à deux, alors :
n n
!
a2i Var(Xi ),
X X
Var ai Xi =
i=1 i=1
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1

Dr Prevot Chirac BATSINDILA NGANGA page 32 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

2.1.6 Fonctions génératrices


Définition 19 (fonction génératrice des moments) Soit X une variable aléatoire. On définit sa
fonction génératrice des moments par :

MX (t) = E(etX ).
Si MX (t) est finie pour toutes les valeurs de t appartenant à un intervalle ]−δ, δ[, avec δ > 0, alors
MX (t) est appelée la fonction génératrice des moments de X. Dans le cas contraire, on dit que la
fonction génératrice des moments de X n’existe pas.
Ainsi, si X est une variable aléatoire discrète prenant ses valeurs dans un ensemble A et admettant
une fonction de masse p(x), alors :

etx P (X = x) ,
X
MX (t) =
x∈ΩX

et si X est une variable aléatoire continue admettant une fonction de densité de probabilité f (x),
alors : Z +∞
MX (t) = etx fX (x) dx.
−∞

Il est important de noter que la condition selon laquelle MX (t) est finie dans un voisinage de 0,
c’est-à-dire sur un intervalle ]−δ, δ[ pour un certain δ > 0, est essentielle. Sans cette hypothèse,
certains moments de X peuvent ne pas exister.
Comme son nom l’indique et comme cela sera précisé par la suite, la fonction génératrice des
moments d’une variable aléatoire X permet de retrouver les moments de X en différentiant MX (t)
et en évaluant les dérivées en t = 0.

Théorème 15 Soit X une variable aléatoire admettant une fonction génératrice des moments
MX (t). Alors, pour tout entier n ≥ 1,
(n)(n)
E(X n ) = MX (0)
(0),

où l’on définit :

(n)
(n) dn
MX (0) = MX (t) ,
dtn t=0
(n)
(n)
où MX (t) désigne la dérivée n-ième de MX (t) relativement à t. Autrement dit, le n-ième moment
est égal à la n-ième dérivée de MX (t) évaluée en t = 0.
Le but du Théorème 16 suivant est non seulement de caractériser les conditions sous lesquelles il
est légitime d’interchanger l’ordre d’intégration et de différentiation, mais aussi de nous préparer à
établir la preuve du Théorème 15.
Beaucoup de ces conditions peuvent être établies en utilisant des théorèmes standards du calcul
différentiel et intégral, et des démonstrations détaillées peuvent être trouvées dans la plupart des
cours d’analyse. Ainsi, elles ne seront pas présentées ici.
Nous souhaitons d’abord donner la méthode de calcul suivante :
d Z b(θ)
f (x, θ) dx,
dθ a(θ)

Dr Prevot Chirac BATSINDILA NGANGA page 33 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

où −∞ < a(θ), b(θ) < +∞ pour tout θ. La règle pour dériver cette expression est appelée règle de
Leibniz, et elle constitue une application du théorème fondamental du calcul intégral ainsi que
de la règle de la chaîne.

Théorème 16 (Règle de Leibniz) Si f (x, θ), a(θ) et b(θ) sont différentiables par rapport à θ,
alors :

d Z b(θ) d d Z b(θ)

f (x, θ) dx = f (b(θ), θ) b(θ) − f (a(θ), θ) a(θ) + f (x, θ) dx.
dθ a(θ) dθ dθ a(θ) ∂θ

Remarquons que si a(θ) et b(θ) sont constants, nous obtenons un cas particulier de la règle de
Leibniz :
d Zb Z b

f (x, θ) dx = f (x, θ) dx. (2.5)
dθ a a ∂θ

Ainsi, en général, si l’on considère l’intégrale d’une fonction différentiable sur un intervalle fini, la
différentiation sous le signe intégral ne pose aucun problème. En revanche, si l’intervalle d’intégra-
tion est infini, des problèmes peuvent survenir.
Remarquons que l’interversion entre dérivée et intégrale dans l’Équation (2.5) précédente correspond
à identifier une dérivée partielle avec une dérivée ordinaire. Formellement, cela doit être le cas
puisque le membre de gauche est une fonction uniquement de θ, tandis que l’intégrande du membre
de droite dépend à la fois de θ et de x.

Preuve 11 (du Théorème 15) Si X est continue et admet une fonction de densité f (x), alors :

d +∞
Z Z +∞ 
MX0 (t) = tx
e fX dx = xetx fX dx,
dt −∞ −∞
Z +∞ Z +∞
d

MX00 (t) = xetx fX dx = x2 etx fX dx,
dt −∞ −∞
..
. Z +∞
(n)
MX (t) = xn etx fX (x) dx. (2.6)
−∞

La validité du passage de la dérivation sous le signe intégral repose sur la régularité suffisante de
la fonction fX . En prenant t = 0 dans l’Équation (2.6), on obtient :
Z +∞
(n)
MX (0) = xn fX dx = E(X n ),
−∞

ce qui conclut la preuve. 

Remarque 10 Puisque MX (t) est finie dans un intervalle ]−δ, δ[ avec δ > 0, il en résulte que pour
(n)
tout entier n ≥ 1, la dérivée MX (t) existe.

Dr Prevot Chirac BATSINDILA NGANGA page 34 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.1 Généralités

Preuve 12 (du Théorème 15) Supposons que l’on puisse différencier sous le signe intégral. Alors :

Z +∞
d d

MX (t) = etx fX (x) dx
dt dt −∞
!
Z +∞
d tx
= e fX (x) dx
−∞ dt
Z +∞
= (xetx )fX (x) dx
−∞
= E(XetX ).

Ainsi,
d
MX (t) = E(XetX ) = E(X).
dt t=0 t=0

En procédant de manière analogue, on établit que :

dn
n
MX (t) = E(X n etX ) = E(X n ). 
dt t=0 t=0

Corollaire 3 La série de Maclaurin de MX (t) est donnée par :


(n)

X MX (0) n X ∞
E(X n ) n
MX (t) = t = t .
n=0 n! n=0 n!

Ainsi, E(X n ) est le coefficient de tn /n! dans le développement en série de Maclaurin de MX (t).

Il est important de savoir que si MX doit être fini, alors les moments de tous les ordres de X doivent
être finis. Mais la réciproque n’est pas nécessairement vraie. C’est-à-dire que tous les moments
peuvent être finis et pourtant il n’existe aucun voisinage de 0, de la forme ]−δ, δ[, avec δ > 0, sur
lequel MX soit fini.

Lemme 1 Soit X une variable aléatoire admettant une fonction génératrice des moments MX (t).
Pour des constantes a et b, soit Y = aX + b. Alors, la fonction génératrice des moments de Y est
donnée par :

MY (t) = ebt MX (at).

Preuve 13 Par définition de la fonction génératrice des moments :

MY (t) = E(etY ) = E(et(aX+b) ) = E(etaX etb ) = ebt E(etaX ) = ebt MX (at). 

Théorème 17 Soient X et Y deux variables aléatoires ayant pour fonctions génératrices des
moments MX (t) et MY (t). S’il existe un δ > 0 tel que MX (t) = MY (t) pour toutes les valeurs de t
dans ]−δ, δ[, alors X et Y ont la même fonction de probabilité.

Dr Prevot Chirac BATSINDILA NGANGA page 35 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

2.2 Lois usuelles


2.2.1 Loi uniforme
Définition 20 Une V.A.R. X suit la loi uniforme sur [a, b] (notée U([a, b])) lorsque X admet pour
densité la fonction fX définie par :
1

fX (x) =

si x ∈ [a, b]
b−a .


fX (x) = 0 sinon

La définition est la même sur chacun des intervalles ]a, b[, [a, b] et ]a, b].

Remarque 11 fX est continue sur R \ {a, b}, positive et :


Z a Z b
Z +∞
1 Z +∞
fX (x) dx = 0 dx + dx + 0 dx = 1.
−∞ −∞ a b−a b

Donc f est bien une densité de probabilité.

Proposition 7 Si X suit la loi uniforme sur [a, b], alors X admet une espérance mathématique :
a+b
E(X) = .
2

Preuve
Z b
Z +∞
x 1 Zb
E(X) = xf (x) dx = dx = x dx
−∞ a b−a b−a a
" #b
1 x2 1 b 2 − a2 b+a
= = · = .
b−a 2 a b−a 2 2
b+a
Donc E(X) existe et E(X) = .
2

2.2.2 Loi exponentielle


Définition 21 Une V.A.R. X suit la loi exponentielle de paramètre α > 00, et on note X E(α),
lorsque X admet pour densité la fonction fX définie par

f
X(x) = αe−αx si x ≥ 0
fX (x) = 0 si x < 0.

Remarque 12 fX est continue sur R+ , positive et


Z +∞ Z +∞
fX (x) dx = αe−αx dx = 1.
0 0

Donc fX est bien une densité de probabilité.

Dr Prevot Chirac BATSINDILA NGANGA page 36 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Proposition 8 Si X suit la loi exponentielle de paramètre α, X admet une espérance mathématique :


1 1
Eα (X) = , et une variance : Varα (X) = 2 .
α α
Preuve Z +∞ Z A
xfX (x) dx = lim αxe−αx dx si cette limite existe.
0 A→+∞ 0

On a :

Z A h iA Z A
−αx
αxe dx = −xe−αx + e−αx dx
0 0 0
−αx A
" #
e
= −Ae−αA + −
α 0
−αA
" #
−αA 1 e
= −Ae − − +
α α
e−αA 1
= −Ae−αA + − .
α α
1 −αA 1
limA→+∞ (−A − )e = 0 donc Eα (X) existe et Eα (X) = .
α α
Remarquons que
Z +∞ Z A
2
x fX (x) dx = lim αx2 e−αx dx
0 A→+∞ 0

et

"Z #
A h iA Z A Z A
2 −αx
lim αx e dx = −x2 e−αx + 2xe −αx
dx = −A e 2 −αA
+2 −αx
xe dx = 0.
A→+∞ 0 0 0 0

2 Z +∞ −αx 2 1 2
Donc Eα (X 2 ) existe et Eα (X 2 ) = xe dx = · = 2 .
α 0 α α α
Par suite, Varα (X) existe et
1
Varα (X) = Eα (X 2 ) − Eα (X)2 = .
α2
Proposition 9 (Caractérisation de la loi exponentielle) Une X une V.A.R. suit une loi exponen-
tielle si et seulement si :

E(X) ∈]0, +∞[








∀(s, t) ∈ R2+ , P [(X ≤ s + t) | (X > s)] = P(X ≤ t)

∀s ∈ R+ , P(X > s) 6= 0.

Dr Prevot Chirac BATSINDILA NGANGA page 37 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Preuve
X suit la loi exponentielle E(α), X(Ω) = R+∗ et
Z +∞
∀s ∈ R ,+
P(X > s) = αe−αx dx = e−αs 6= 0
s

donc ∀(s, t) ∈ R+ × R+ , s + t ∈ R+∗ et on a :

P[(X > s + t) ∩ (X > s)] P(X > s + t)


P[(X > s + t)/(X > s)] = =
P(X > s) P(X > s)
−α(s+t)
e
= = e−αt = P(X > t)
e−αs
Supposons que X(Ω) = R+ , que pour tout x ∈ R+ , P(X > x) 6= 0 et que pour tout (s, t) ∈
R+ × R+ ,
P[(X > s + t)/(X > s)] = P(X > t).
Alors P(X > s + t) = P(X > s)P(X > t).
En notant G la fonction définie par G(t) = P(X > t) pour t ∈ R+ , on a :
– G définie sur R+ et à valeurs dans R+ .
– G(s + t) = G(s)G(t) pour tout s, t ∈ R+ .
– G(1) = P(X > 1) 6= 0.
– G est décroissante sur R+ , en effet pour tout t ∈ R+ :

G(t) = 1 − P(X ≤ t) = 1 − FX (t) et FX est croissante.

– Il existe donc α ∈ R+ tel que pour tout t ∈ R+ , G(t) = e−αt .


On en déduit la fonction de répartition FX de X :

0 si x < 0
FX (x) = −αx
1 − e si x ≥ 0

FX est continue sur ] − ∞, 0[ et [0, +∞[. FX (0) = 0 = lim− FX (x), donc FX est continue sur R.
x→0
De plus, FX est dérivable sur R sauf peut-être en 0, et

0 si x < 0
FX0 (x) = −αx
αe si x > 0

donc FX0 est continue sur ] − ∞, 0[ et sur ]0, +∞[.


Par suite, X est une V.A.R. à densité et X suit la loi exponentielle de paramètre α.
On a ainsi prouvé que si X a pour fonction de répartition FX définie par :

0 si x < 0
FX (x) = ,
1 − e−αx si x ≥ 0
alors X suit la loi exponentielle E(α).

Dr Prevot Chirac BATSINDILA NGANGA page 38 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

2.2.3 Loi Gamma


2.2.3.1 Rappel
Définition 22 La fonction gamma notée Γ est définie :
Z ∞
Γ(a) = ta−1 e−t dt, a > 0.
0

En utilisant une intégration par parties, on trouve que :

Z ∞ Z ∞
Γ(a + 1) = ta e−t dt = − ta de−t
0 0
h i∞ Z ∞
= −e−t ta + e−t ata−1 dt
0 0
Z ∞
= a e−t ta−1 dt = aΓ(a), a > 0.
0

Nous avons donc :

Théorème 18
Γ(a + 1) = aΓ(a), a > 0. (2.7)
De plus, on a : Z ∞ h i∞
Γ(1) = e−t dt = −e−t = 1. (2.8)
0 0

En combinant les Équations (2.7) et (2.8), on obtient :

Γ(n + 1) = n!, n∈N

Définition 23 Z 1
B(u, v) = tu−1 (1 − t)v−1 dt, u > 0, v > 0.
0
Cette intégrale est souvent appelée l’intégrale bêta.
D’après la Définition 23, on obtient facilement la symétrie :

B (u, v) = B (v, u) .

Puisque nous avons en utilisant le changement de variable t = 1 − s :


Z 1 Z 1 Z 1
B (u, v) = (1 − t)u−1 tv−1 dt = (1 − s)v−1 su−1 ds = su−1 (1 − s)v−1 ds = B (v, u) .
0 0 0

La connexion entre la fonction bêta et la fonction gamma est donnée par le théorème suivant :

Théorème 19
Γ(u)Γ(v)
B(u, v) = , u > 0, v > 0.
Γ(u + v)

Dr Prevot Chirac BATSINDILA NGANGA page 39 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Pour démontrer ce théorème, nous utilisons la Définition 22 pour obtenir :


Z ∞ Z ∞ Z ∞Z ∞
Γ(u)Γ(v) = e−t tu−1 dt · e−s sv−1 ds = e−(t+s) tu−1 sv−1 dt ds.
0 0 0 0

On applique maintenant le changement de variables t = xy et s = x(1 − y) à cette intégrale double.


On note que t + s = x et que 0 < t < ∞, 0 < s < ∞ impliquent 0 < x < ∞ et 0 < y < 1. Le
jacobien de cette transformation est :
∂(t, s) y x
= = −xy − x(1 − y) = −x.
∂(x, y) 1 − y −x
∂(t,s)
Comme x > 0, on a dt ds = ∂(x,y) dx dy = x dx dy.
Ainsi : Z 1Z ∞
Γ(u)Γ(v) = e−x (xy)u−1 [x(1 − y)]v−1 x dx dy
0 0
Z 1 Z ∞
= y u−1 (1 − y)v−1 dy · e−x xu+v−1 dx = B(u, v) · Γ(u + v)
0 0
ce qui achève la démonstration. 

2.2.3.2 Loi Gamma


Définition 24 On dit qu’une variable aléatoire X suit la loi Gamma de paramètres a et θ, où a > 0
et θ > 0, et on note X Γ(a, θ) si X possède la densité de probabilité :

1 a a−1 −θx

fX (x) =

θ x e , si x > 0,
Γ(a)


fX (x) = 0, sinon.
En particulier, pour a = 1, la variable aléatoire X Γ(1, θ) n’est rien d’autre que la loi
exponentielle de paramètre θ.
On peut reformuler cette définition de la manière suivante.

Définition 25 Soit b et t deux nombres réels strictement positifs.


Une V.A.R. X suit la loi gamma de paramètres b et t , et on note X Gamma(b, t) si et ssi X
admet pour densité la fonction fX définie par :
x

 e− t xb−1
fX (x) = si x > 0



Γ(t)bt
f (x) = 0 si x ≤ 0

X

Remarque 13 fX est continue sur R∗ , positive sur R et :


Z +∞ − xt b−1
Z +∞
e x 1 Z +∞ −u 1−b t−1
fX (x) dx = dx = e b u b du (changement de variable x = bu)
−∞ 0 Γ(t)bt Γ(t)bt 0
1
= · Γ(t)bt = 1
Γ(t)bt
Donc f est bien une densité de probabilité.

Dr Prevot Chirac BATSINDILA NGANGA page 40 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Proposition 10 Si X suit la loi Gamma (b, t), alors X admet une espérance mathématique :
E(X) = bt
Preuve
Sous réserve d’existence,
x
Z +∞ Z +∞
xe− t xb−1 1 Z +∞ −u 1−b t
xf (x) dx = dx = e b u b du (changement de variable x = bu)
−∞ 0 Γ(t)bt Γ(t)bt 0
b Z +∞ −u t bΓ(t + 1)
= e u du = = bt
Γ(t) 0 Γ(t)
Donc E(X) existe et E(X) = bt 
Théorème 20 (Stabilité de la loi Gamma) Si X et Y sont deux V.A.R. indépendantes, suivant
respectivement les lois Gamma (b, t) et Gamma (b, s), alors X + Y suit la loi Gamma (b, s + t).
Plus généralement, si X1 , X2 , . . . , Xn sont n V.A.R. indépendantes telles que : pour tout k ∈ J1, nK,
Xk suit la loi Gamma (b, tk ), alors
n n
!
X X
Sn = Xk Gamma b, tk .
k=1 k=1

Preuve
– X admet pour densité la fonction f définie par :
 x
− t b−1
e x

si x > 0

f (x) =  Γ(t)bt .
0 si x ≤ 0

– Y admet pour densité la fonction g définie par :


 x
− s b−1
e x

si x > 0

g(x) =

Γ(s)bs .
0 si x ≤ 0

D’après le Théorème 14, X + Y admet pour densité la fonction fX+Y définie par :
Z +∞
∀x ∈ R, fX+Y (x) = fX (u)fY (x − u) du.
−∞
Si x ≤ 0, fX+Y (x) = 0 car si u ≤ 0, f (u) = 0 si u > 0, x − u < 0 et fY (x − u) = 0.
Si ∀x > 0,

Z x − ub t−1 x−u
e u e− b (x − u)s−1
fX+Y (x) = · du
Γ(t)bt
0 Γ(s)bs
x
e− b Z x
= t+s
ut−1 (x − u)s−1 du
Γ(t)Γ(s)b 0
− xb s+t−1 Z 1
e x
= ut−1 (1 − u)s−1 dx (changement de variable u = vx)
Γ(t)Γ(s)bt+s 0
x x
e− b xs+t−1 e− b xs+t−1
= B(t, s) = t+s
Γ(t)Γ(s)bt+s b Γ(t + s)

Dr Prevot Chirac BATSINDILA NGANGA page 41 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Donc X + Y suit la loi Gamma (b, t + s).


n
!
X
On montre par récurrence sur n que Sn suit la loi Gamma b, tk (On utilise le fait que si
k=1
X1 , . . . , Xn , Xn+1 sont indépendantes, alors X1 , . . . , Xn sont indépendantes de Xn+1 , donc Xn+1
est indépendante de Sn ). 

Proposition 11 La somme de n V.A.R. exponentielles indépendantes et de même paramètre α suit


la loi Gamma α1 , n .
Preuve
  Pn  
1 1
∀k ∈ J1, nK, Xk E(α) = Γ α
,1 , donc k=1 Xk Γ α
,n , α 6= 0. 

2.2.4 Loi normale


Définition 26 Une V.A.R. X suit la loi normale centrée réduite et on note X N (0, 1), lorsque
X admet pour densité la fonction fX définie par :
1 x2
fX (x) = √ e− 2 , −∞ < x < +∞.

Remarque 14 fX est continue et positive sur R
Z +∞
1 x2
√ e− 2 dx = 1.
−∞ 2π
Donc fX est bien une densité de probabilité.

F IGURE 2.1 – Courbe de la loi normale centrée réduite

– Cette courbe est symétrique par Zrapport à l’axe des ordonnées car fX est paire.
t
– L’aire du domaine hachuré vaut fX (x)dx = Φ(t) où Φ désigne la fonction de répartition
−∞
de X. Z +∞
– L’aire du domaine compris entre la courbe et l’axe des abscisses vaut fX (x)dx = 1.
−∞

Dr Prevot Chirac BATSINDILA NGANGA page 42 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Proposition 12 Si X suit la loi normale N (0, 1), alors X admet une espérance mathématique et
une variance :

E(X) = 0 Var(X) = 1

Remarque 15 Ceci justifie l’appellation « loi normale centrée réduite ».

Preuve
Z +∞ Z +∞
1 x2
xfX (x)dx = √ xe− 2 dx
−∞ −∞ 2π
Pour tout A > 0,
Z A 2
 2
A
A2 A2
− x2 − x2
xe dx = −e = −e− 2 + e− 2 =0
−A −A
RA x2
et limA→+∞ −A xe− 2 dx converge (et vaut 1).
x2
Comme x 7→ xe− 2 est impaire, alors

Z +∞
xfX (x)dx = 0, ce qui prouve que X admet une espérance mathématique nulle.
−∞

Par ailleurs, Z +∞ Z +∞
1 x2
2
x fX (x)dx = √ x2 e− 2 dx
−∞ −∞ 2π
Pour tout A > 0,
Z A 2
 2
A Z A
x2
2 − x2 − x2
xe dx = −xe + e− 2 dx
0 0 0

Z A √
− A2
2
− x2
2 2π
lim −Ae = 0 et lim e dx =
A→+∞ A→+∞ 0 2

Z +∞
− x2
2 √ − x2
2
Z +∞ 2
− x2 2π
e dx = 2π et x 7→ e est paire donc e dx = .
−∞ −∞ 2
Ainsi

Z +∞
− x2
2 2π
x2 e dx = .
0 2
2
− x2
De plus, x 7→ x2 e est paire, donc
Z +∞
x2 √
x2 e− 2 dx = 2π.
−∞

Donc Z +∞
x2 ϕ(x)dx = 1, ce qui prouve que E(X 2 ) existe et vaut 1.
−∞
Par suite Var(X) existe et Var(X) = 1. 

Dr Prevot Chirac BATSINDILA NGANGA page 43 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Proposition 13 Φ étant la fonction de répartition de la loi N (0, 1), on a :


Φ(−t) = 1 − Φ(t) pour tout t ∈ R.

Preuve

Z −t
1 x2
Z t
1 u2
Φ(−t) = √ e− 2 dt = − √ e− 2 du (changement de variable x = −u).
−∞ 2π +∞ 2π
Donc
Z +∞
1 − x2 Z +∞
1 − x2 Z t
1 x2
Φ(−t) = √ e dt =
2 √ e dx −
2 √ e− 2 dx = 1 − Φ(t).
t 2π −∞ 2π −∞ 2π

Remarque 16 – Le graphe de fX permet de visualiser ce résultat :

F IGURE 2.2

Les domaines hachurés en rouge sont symétriques l’un de l’autre par rapport à Oy, donc leurs
aires sont égales.
– Il est impossible d’exprimer les primitives de ϕ à l’aide des fonctions usuelles. La table donnée
en annexe permet d’obtenir les valeurs approchées à 10−4 près de Φ(x) pour certaines valeurs
positives de x.
Par exemple : Φ(1,96) = 0,9750 (valeur située sur la ligne 1,9 et la colonne 0,06).
Pour x = −1,96, on écrit Φ(−1,96) = 1 − Φ(1,96) = 0,0250.
Par contre : Φ(1,964) ne figure pas dans la table.
On peut : soit approcher Φ(1,964) par Φ(1,96) = 0,9750
soit effectuer une interpolation linéaire,
c’est-à-dire approcher Φ(1,964) par

Φ(1,96) + 0,4 · (Φ(1,97) − Φ(1,96)) = 0,97524.

Définition 27 Une V.A.R. X suit la loi normale (ou : de Laplace-Gauss) de paramètres m (moyenne)
et σ > 0 (écart-type), et on note X N (m, σ), lorsque X admet pour densité la fonction fX
définie par :
1 1 x−m 2
fX (x) = √ e− 2 ( σ ) , −∞ < x < +∞.
σ 2π
On dit aussi que X est une variable aléatoire gaussienne.

Dr Prevot Chirac BATSINDILA NGANGA page 44 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Remarque 17 – fX est continue et positive sur R. De plus :


Z +∞
1 Z +∞ − 12 ( x−m 2
σ ) dx = √
1 Z +∞ − t2
fX (x) dx = √ e e 2 dt = 1.
−∞ σ 2π −∞ 2π −∞
Donc fX est bien une densité de probabilité.

– On dit aussi que fX est la densité de la loi N (m, σ).

– Graphe de fX :

F IGURE 2.3

Proposition 14 Soit X une V.A.R.


X suit la loi N (m, σ) ⇐⇒ X ∗ = X−m
σ
suit la loi N (0, 1).

Proposition 15 Si X suit la loi normale N (m, σ), X admet une espérance mathématique et une
variance :

E(X) = m et Var(X) = σ 2 .

Preuve
Remarquons que X ∗ = X−m
σ
suit la loi N (0, 1), donc E(X ∗ ) = 0 et Var(X ∗ ) = 1. On en déduit :
E(X) = E(σX + m) = σE(X ∗ ) + m = m et Var(X) = Var(σX ∗ + m) = σ 2 Var(X ∗ ) = σ 2 . 

Théorème 21 I Soit X1 et X2 deux V.A.R. indépendantes qui suivent respectivement les lois
normales N (m1 , σ1 ) et N (m2 , σ2 ). q
Alors X1 + X2 suit la loi normale N (m1 + m2 , σ12 + σ22 ).
I Plus généralement, si X1 , . . . , Xn sont n V.A.R. indépendantes qui suivent respectivement les lois
normales N (mk , σk ) pour k ∈ {1, . . . , n}, alors Sn = nk=1 Xk suit la loi normale :
P

 v 
n
X
u n
uX
N mk , t σk2  .
k=1 k=1

Dr Prevot Chirac BATSINDILA NGANGA page 45 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Preuve. Commençons par le cas particulier où m1 = m2 = 0.


X1 + X2 est une V.A.R. dont une densité f est définie par :
u2 (x−u)2
Z +∞
1 − 1 −
∀x ∈ R, fX+Y (x) = √ e 2σ 2
1 · √ e 2σ 2
2 du
−∞ σ1 2π σ2 2π
 
Z +∞ − u2 + (x−u)2
1 2σ 2 2σ 2
= e 1 2 du
2πσ1 σ2 −∞
 2 
Z +∞ − u + x2 −2xu+u2
1 2 2σ 2
= e 2σ1 2 du
2πσ1 σ2 −∞
   
Z +∞ − u2 1 + 1 − xu + x2
1 2σ 2 2σ 2 σ 2 2σ 2
= e 1 2 2 2 du.
2πσ1 σ2 −∞

Posons σ 2 = σ12 + σ22 , alors :


   
1 2 Z +∞ − u2
− x2
1
+ 12 − xu
∀x ∈ R, 2σ 2 2σ σ 2
fX+Y (x) = e 2σ e 1 2 2 du.
2πσ1 σ2 −∞

σ1 u xσ1
Dans l’intégrale on pose t = σσ2
− σσ2

1 x2 σ1 σ2 Z +∞ − t2 1 − x22 √ 1 x2
f (x) = e− 2σ2 · e 2 dt = e 2σ · 2π = √ e− 2σ2 .
2πσ1 σ2 σ −∞ 2πσ 2πσ
q
Donc X1 + X2 suit la loi normale N (0, σ) avec σ = σ12 + σ22 .
Cas général :
X1 suit la loi N (m1 , σ1 ) ⇒ X1 − m1 suit la loi N (0, σ1 )
De même X2 − m2 suit la loi N (0, σ2 ) q
D’après ce qui précède, X1 + X2 − (m1 + m2 ) suit la loi N (0, σ12 + σ22 ), donc

X1 + X2 − (m1 + m2 ) q
q N (0, σ12 + σ22 ) ⇒ X1 + X2 N (m1 + m2 , σ12 + σ22 )
σ12 + σ22

La généralisation à n V.A.R. se démontre par récurrence.

Remarque 18 Pour retenir le Théorème 21 il suffit de se rappeler que la somme Sn de n V.A.R.


indépendantes qui suivent chacune une loi normale, suit la loi N (E(Sn ), σ(Sn )) et que pour tout
k ∈ J1, nK, Xk suit la loi N (mk , σk ) donc E(Xk ) = mk et σ(Xk ) = σk .
n
k=1 Xk , on a E(Sn ) =
Pn X
Par suite, puisque Sn = mk et, comme les Xk sont indépendantes,
k=1
v
u n
uX
σ(Sn ) = t σ2. k
k=1

Dr Prevot Chirac BATSINDILA NGANGA page 46 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

2.2.5 Loi de Pareto


Définition 28 Soit a et α deux réels strictement positifs et x0 un réel quelconque. Une V.A.R. X suit
la loi de Pareto de paramètres α, a et x0 si X admet pour densité la fonction fX définie par :
  α+1
α a
si x − x0 > a
fX (x) =  a x−x0
0 si x − x0 ≤ a

Remarque 19 fX est continue et positive sur R et


α+1
Z +∞
α Z +∞ a Z +∞
1

α
f (x) dx = dx = αa dx = 1.
−∞ a a+x0 x − x0 a+x0 (x − x0 )α+1
Donc fX est bien une densité de probabilité.

Dr Prevot Chirac BATSINDILA NGANGA page 47 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 2.2 Lois usuelles

Tableau comparatif des lois de probabilité continues


Espérance Variance Fonction génératrice
Dénomination / Densité Utilité (Applications courantes)
E(X) Var(X) des moments MX (t)

Incertitude complète entre deux


Uniforme U(a, b) a+b (b − a)2 bornes. Simulation aléatoire, hypo- etb − eta
1 , pour t 6= 0
fX (x) = , x ∈ [a, b] 2 12 thèses d’équiprobabilité, méthode de t(b − a)
b−a Monte Carlo.
Modèle de durée de vie sans mémoire.
Exponentielle E(λ) 1 1 Utilisée en fiabilité, théorie des files λ
, pour t < λ
fX (x) = λe−λx , x ≥ 0 λ λ2 d’attente, modélisation du temps entre λ−t
événements aléatoires.

Gamma(α, λ) Somme de variables exponentielles.  a


1 a a−1 −θx a a Applications en assurance (sinistres), θ
, pour t < θ
fX (x) = θ x e ,
Γ(a) θ θ2 ingénierie (durées de vie), files d’at- θ−t
si x > 0 tente et statistiques bayésiennes.
Loi centrale en statistiques. Modélise  
Normale N (m, σ)  erreurs de mesure, phénomènes na- σ 2 t2
 exp mt + , pour
1 (x − m)2 m σ2 turels, grandeurs biologiques, rende- 2
f (x) = √ exp − ments financiers. Utilisée dans les tests tout t ∈ R
2πσ 2σ 2
paramétriques.
Modélisation des phénomènes à queues
αxm αx2m
Pareto P(xm , α) , , lourdes : répartition des richesses N’existe que pour
αxαm α−1 (α − 1)2 (α − 2) (loi 80/20), sinistres extrêmes, inter- t < 0 : MX (t) =
fX (x) = α+1 , x ≥ xm > 0 si α > 1 si α > 2 net (trafic, popularité), données finan- α(−txm )α Γ(−α, −txm ).
x
cières à risque.

Dr Prevot Chirac BATSINDILA NGANGA page 48 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
3 Convergences

Objectifs pédagogiques
Après avoir étudié ce chapitre, vous devriez être capable de :
– Comprendre la loi faible des grands nombres et son lien avec la convergence en probabilité.
– Appliquer la loi des grands nombres à des situations concrètes d’estimation statistique.
– Appliquer le théorème de la limite centrée (TCL) à des sommes de variables aléatoires
indépendantes et identiquement distribuées.
– Utiliser correctement la standardisation pour se ramener à la loi normale centrée réduite.
– Approcher une loi binomiale par une loi normale avec correction de continuité.
– Approcher une loi binomiale par une loi de Poisson dans les cas limites.
– Approcher une loi hypergéométrique par une loi binomiale lorsque la population est grande.

3.1 Loi des grands nombres


3.1.1 Inégalité de Bienaymé-Tchébychev
Théorème 22 Soit X une V.A.R. admettant une espérance E(X) et une variance Var(X). Alors :
Var(X)
∀ε > 0, P(|X − E(X)| ≥ ε) ≤ .
ε2
Preuve
1) Si X est une V.A.R. discrète
X prend les valeurs xi avec les probabilités pi = P(X = xi ) pour i ∈ N (si X est discrète
finie, X prend les valeurs x0 , . . . , xn avec les probabilités p0 , . . . , pn , et on convient de donner
à pi la valeur 0 pour i > n + 1).

Var(X) = E[(X − E(X))2 ] = (xi − E(X))2 pi , P(|X − E(X)| ≥ ε) =


X X
pi
i∈N i∈I

49
Sec 3.1 Loi des grands nombres

avec I = {i ∈ N | |xi − E(X)| ≥ ε}.

(xi − E(X))2 pi + (xi − E(X))2 pi ,


X X
Var(X) =
i∈I i∈I
/

donc
(xi − E(X))2 pi ≥ ε2 p i = ε2
X X X
Var(X) ≥ pi .
i∈I i∈I i∈I

Par suite,

Var(X) ≥ ε2 P(|X − E(X)| ≥ ε)


et

Var(X)
P(|X − E(X)| ≥ ε) ≤ .
ε2
2) Si X est une V.A.R. de densité fX

Z +∞
Var(X) = (x − E(X))2 f (x) dx
−∞
Z E(X)−ε Z E(X)+ε
= (x − E(X))2 f (x) dx + (x − E(X))2 f (x) dx +
−∞ E(X)−ε
Z +∞
+ (x − E(X))2 f (x) dx,
E(X)+ε

et

P(|X − E(X)| ≥ ε) = P(X ≤ E(X) − ε) + P(X ≥ E(X) + ε)


Z E(X)−ε Z +∞
= f (x) dx + f (x) dx.
−∞ E(X)+ε

Donc
Z E(X)−ε Z +∞
Var(X) ≥ (x − E(X)) f (x) dx +
2
(x − E(X))2 f (x) dx
−∞ E(X)+ε
Z E(X)−ε Z +∞
≥ ε2 f (x) dx + ε2 f (x) dx
−∞ E(X)+ε

= ε P(|X − E(X)| ≥ ε),


2

et

Var(X)
P(|X − E(X)| ≥ ε) ≤
ε2


Dr Prevot Chirac BATSINDILA NGANGA page 50 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.1 Loi des grands nombres

Remarque 20 P(|X − E(X)| ≥ ε) est la probabilité pour que X prenne des valeurs éloignées de
E(X) d’au moins ε. Cette probabilité est d’autant plus faible que Var(X) est plus petit et que ε est
plus grand. Var(X) mesure la tendance qu’a X à s’écarter de E(X).

Exemple 7 Lorsque l’on lance un dé parfait, la probabilité d’obtenir un as est 16 , ce qui ne veut pas
dire que l’as apparaît une fois sur 6.
On utilise un dé cubique parfait. Cherchons le nombre de lancers qu’il faut effectuer pour pouvoir
affirmer avec un risque d’erreur inférieur à 5 %, que la fréquence d’apparition de l’as au cours de
ces lancers différera de 61 d’au plus 100
1
.
On effectue n lancers. Soit X le nombre d’as obtenus. F = Xn est la fréquence d’apparition de l’as
au cours des n lancers.
On cherche le n tel que :
1 1
 
P F− ≤ ≥ 0,95.
6 100
X est le nombre de réalisations de l’événement « l’as apparaît », de probabilité constant 16 , au cours
de n lancers indépendants. Donc
1 n 5n
 
X B n, , E(X) = , V (X) = .
6 6 36
On en déduit
1 1 5
E(F ) = , V (F ) = 2
V (X) = .
6 n 36n
D’après l’inégalité de Bienaymé-Tchébychev :

1 1 V (F ) 5 · 104
 
P F− ≥ ≤  2 =
6 100 1 36n
100

donc

1 1 1 1 5 · 104
   
P F− ≤ =1−P F− ≥ ≥1− .
6 100 6 100 36n
Pour que
1 1
 
P F− ≤ ≥ 0,95,
6 100
il suffit donc de choisir n tel que :

5 · 104
1− ≥ 0,95 ⇒ n ≥ 27 778.
36n
Remarque 21 On étudiera à la fin de ce chapitre une méthode plus précise, car on a « perdu de
l’information » en utilisant l’inégalité de Bienaymé-Tchébychev plutôt que la loi binomiale pour
calculer
1 1
 
P F− ≤ .
6 100

Dr Prevot Chirac BATSINDILA NGANGA page 51 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.1 Loi des grands nombres

3.1.2 Loi faible des grands nombres


Théorème 23 Soit (Xn ) une suite de V.A.R. deux à deux indépendantes, admettant une même
espérance m et une même variance σ 2 .
Soit :
X1 + X 2 + · · · + Xn
X̄n = .
n
Alors :
∀ε > 0, lim P(|X̄n − m| ≥ ε) = 0 et lim P(|X̄n − m| < ε) = 1.
n→+∞ n→+∞

Cas particulier. Si (Xn ) est une suite de V.A.R. deux à deux indépendantes qui suivent la loi de
Bernoulli de paramètre p, alors :

∀ε > 0, lim P(|X̄n − p| ≥ ε) = 0.


n→+∞

Preuve
On a : n
1X 1
E(X̄n ) = E(Xi ) = (nm) = m
n i=1 n
et

n
1 X 1 2 σ2
Var(X̄n ) = Var(X i ) = (nσ ) = , car les Xi sont deux à deux indépendantes.
n2 i=1 n2 n

Soit ε > 0 quelconque. L’inégalité de Bienaymé-Tchébychev permet d’écrire :


Var(X̄n ) σ2
P(|X̄n − m| ≥ ε) = P(|X̄n − E(X̄n )| ≥ ε) ≤ =
ε2 nε2
Donc :
σ2
0 ≤ P(|X̄n − m| ≥ ε) ≤ ⇒ lim P(|X̄n − m| ≥ ε) = 0.
nε2 n→+∞
Et comme :
P(|X̄n − m| < ε) = 1 − P(|X̄n − m| ≥ ε) ⇒ lim P(|X̄n − m| < ε) = 1.
n→+∞

Dans le cas particulier où les Xn suivent la loi de Bernoulli de paramètre p, on a :


m = E(Xn ) = p et σ 2 = Var(Xn ) = p(1 − p).
Donc le résultat devient :
∀ε > 0, lim P(|X̄n − p| ≥ ε) = 0.
n→+∞

Remarque 22 Si Xi est la V.A.R. de Bernoulli associée à la réalisation d’un événement A au cours


de la ième épreuve d’une suite d’épreuves indépendantes, X̄n est la fréquence de réalisation de A au
cours des n premières épreuves. La loi faible des grands nombres prouve que, pour un très grand n,
cette fréquence est très proche de la probabilité de A.

Dr Prevot Chirac BATSINDILA NGANGA page 52 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

3.2 Convergence en loi et approximation


3.2.1 Convergence en loi
Définition 29 Soit (Xn )n∈N une suite de V.A.R. et X une V.A.R. définies sur le même espace
probabilisé (Ω, A, P). Soient FXn et FX leurs fonctions de répartition.
On dit que la suite (Xn )n∈N converge en loi vers X si, en tout point x ∈ R où FX est continue, on
a:
lim FXn (x) = FX (x).
n→+∞

Théorème 24 Soit (Xn )n∈N une suite de V.A.R. et X une V.A.R. définies sur le même espace
probabilisé (Ω, A, P) et prenant leurs valeurs dans N.
La suite (Xn )n∈N converge en loi vers X si et seulement si :

∀k ∈ N, lim P(Xn = k) = P(X = k).


n→+∞

Preuve
– Supposons que pour tout k ∈ N, limn→+∞ P(Xn = k) = P(X = k).
Pour tout x ∈ R+ où FX est continue, il existe un nombre fini d’entiers k ≤ x, donc :

FXn (x) = P(Xn ≤ x) = P(Xn = k)


X

k≤x

Or :
P(Xn = k) = P(X = k) = P(X ≤ x)
X X
lim
n→+∞
k≤x k≤x

donc :
lim FXn (x) = FX (x).
n→+∞

Si x < 0, alors FXn (x) = 0 = FX (x), donc aussi limn→+∞ FXn (x) = FX (x). Donc (Xn )
converge en loi vers X.
– Réciproquement, supposons que (Xn ) converge en loi vers X.
Pour tout k ∈ N, les points k ± 12 sont des points de continuité de FX .
Donc :
1 1 1 1
     
P(Xn = k) = P k − < Xn ≤ k + = FXn k + − FXn k −
2 2 2 2
Ainsi :
1 1
   
lim P(Xn = k) = FX k+ − FX k − = P(X = k).
n→+∞ 2 2

3.2.2 Approximation de la loi binomiale par la loi de Poisson


Théorème 25 Soit λ un nombre réel fixé dans [0, 1], et n ∈ N∗ . Soit (Xn ) une suite de V.A.R. de loi
binomiale B n, nλ .
Alors (Xn ) converge en loi vers une V.A.R. de loi de Poisson P(λ).

Dr Prevot Chirac BATSINDILA NGANGA page 53 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

Preuve
Pour tout n ∈ N∗ , Xn prend les valeurs k ∈ {0, 1, . . . , n}.
Soit k ∈ N. Pour tout n ≥ k,

! !k !n−k
n λ λ
P(Xn = k) = 1−
k n n
!n−k
n(n − 1) · · · (n − k + 1) λk λ
= · k · 1−
k! n n
!n−k
λk n n − 1 n−k+1 λ
= · · ··· · 1− .
k! n n n n

Pour tout j ∈ J0, k − 1K,


n−j
lim =1
n→+∞ n
et il y a k valeurs de j, donc :
n n−1 n−k+1
lim · ··· =1
n→+∞ n n n
D’autre part :
!n−k
λ λ
1− = e(n−k) ln(1− n )
n
et !
λ
(n − k) ln 1 − −−−−→ −λ
n n→+∞

Donc : !n−k
λ λk −λ
lim 1− =e −λ
et lim P(Xn = k) = e .
n→+∞ n n→+∞ k!
En pratique
La loi B(n, p) peut être approchée par la loi P(np) lorsque :
– p ≤ 0,1
– n ≥ 30
– np < 15
(ou lorsque d’autres conditions données par l’énoncé sont vérifiées !)
Pour retenir ce résultat, on peut se souvenir que :
– Si X ∼ B(n, p), alors E(X) = np
– Si X ∼ P(λ), alors E(X) = λ.

Exemple 8 Si X ∼ B(40, 0,03), alors :


!
40
P(X = 2) = (0,03)2 (0,97)38 ≈ 0,2206.
2

Dr Prevot Chirac BATSINDILA NGANGA page 54 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

La loi B(40, 0,03) peut être approchée par P(1,2) car :

40 × 0,03 = 1,2.

Si Y ∼ P(1,2), alors :
e−1,2 (1,2)2
P(Y = 2) = ≈ 0,2169.
2!
On constate que les deux probabilités sont peu différentes.

3.2.3 Approximation de la loi hypergéométrique par la loi binomiale


Soit E un ensemble de N éléments, dont une proportion p de type 1. On effectue dans E n tirages
sans remise. Soit X le nombre d’éléments de type 1 obtenus. Alors X H(N, n, p).
Intuitivement : quand N devient très grand, n et p restant fixes, effectuer des tirages sans remise
équivaut à effectuer des tirages avec remise (car on a peu de chances de tirer deux fois le même
élément). Donc pour N très grand, on peut considérer que X B(n, p).

En pratique
La loi H(N, n, p) peut être approchée par la loi B(n, p) lorsque N ≥ 10n, c’est-à-dire si le taux de
sondage Nn est inférieur ou égal à 0,1.

3.2.4 Théorème de la limite centrée


Théorème 26 Soit (Xi ) une suite de V.A.R. indépendantes et de même loi, d’espérance m et d’écart
type σ. Soit :
n
Sn − nm
Sn∗ =
X
Sn = Xk , et √
k=1 σ n
Alors (Sn∗ ) converge en loi vers une V.A.R. de loi normale N (0, 1).
Donc : Z b
1 t2
∀(a, b) ∈ R , a < b,
2
lim P(a ≤
n→∞
Sn∗ ≤ b) = √ e− 2 dt.
a 2π

Remarque 23 Sn∗ est la V.A.R. centrée réduite associée à Sn .

En pratique
On considère que pour n ≥ 30, la loi de Sn∗ peut être approchée par la loi N (0, 1).

Dr Prevot Chirac BATSINDILA NGANGA page 55 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

3.2.5 Approximation de la loi binomiale par la loi normale


Soit (Xn ) une suite de V.A.R. indépendantes et de loi de Bernoulli de même paramètre p.
n
Sn − np
Sn∗ = q
X
Sn = Xk ⇒ .
k=1 np(1 − p)

D’après le Théorème 26, (Sn∗ ) converge en loi vers N (0, 1).


En pratique
q
La loi B(n, p) peut être approchée par la loi N (np, np(1 − p)) lorsque :

n

 ≥ 30

np ≥ 15


np(1 − p) > 5

(ou lorsque d’autres conditions données par l’énoncé sont vérifiées).


Pour retenir ce résultat, on peut se souvenir que : q
– si X ∼ B(n, p), alors E(X) = np, σ(X) = np(1 − p)
– si X ∼ N (m, σ), alors E(X) = m, σ(X) = σ.

Correction de continuité
Si X ∼ B(n, p), X prend des valeurs entières.
q
Remplacer la loi B(n, p) par la loi N (np, np(1 − p)) revient à considérer X comme une variable
gaussienne prenant toutes les valeurs réelles.
L’intervalle [k − 0,5, k + 0,5[ est l’ensemble des réels qui s’arrondissent à k.
Pour k ∈ J1, n − 1K, on remplace :

P(X = k) ≈ P(k − 0,5 ≤ X < k + 0,5).

D’autre part, pour que la somme des probabilités approchées P(X = k) pour k = 0, 1, . . . , n fasse
1, on remplace :

P(X = 0) ≈ P(X < 0,5)


P(X = n) ≈ P(X ≥ n − 0,5).

Exemple 9 Si X suit la loi B(40, √ 0,5), les calculs de probabilités concernant X peuvent être
effectués en utilisant la loi N (20, 10).

40 ≥ 30, 40 × 0,5 = 20 ≥ 15, 40 × 0,5 × 0,5 = 10 > 5.


On pose :
X − 20
X∗ = √ suit la loi N (0, 1).
10

Donc :

Dr Prevot Chirac BATSINDILA NGANGA page 56 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

!
19,5 − 20 20,5 − 20
P(X = 20) = P(19,5 ≤ X ≤ 20,5) = P √ ≤ X∗ ≤ √
10 10
! ! !
0,5 0,5 0,5
= Φ √ − Φ −√ = 2Φ √ − 1.
10 10 10
Une valeur approchée :
2Φ(0,16) − 1 = 0,1272.
Meilleure valeur par interpolation linéaire :

2Φ(0,158) − 1 = 2[Φ(0,15) + 0,8(Φ(0,16) − Φ(0,15))] − 1 = 0,1256.

Un calcul direct à la machine :


!
40
· 0,520 · 0,520 = 0,1254.
20

De même,

!
16,5 − 20 24,5 − 20
P(17 ≤ X < 25) = P(16,5 ≤ X < 24,5) = P √ ≤ X∗ < √
10 10
! ! ! !
4,5 −3,5 4,5 3,5
= Φ √ −Φ √ =Φ √ +Φ √ − 1.
10 10 10 10
Valeur approchée :

Φ(1,42) + Φ(1,11) − 1 = 0,9222 + 0,8665 − 1 = 0,7887.

Un calcul à la machine donne :


24
!
40
· 0,5k · 0,540−k = 0,7890.
X

k=17 k

Exemple 10 Reprenons l’Exemple 7.


On suppose que :
1 n
 
X ∼ B n, et n ≥ 30, ≥ 15 ⇒ n ≥ 90
6 6
Alors X peut être approchée par une loi normale :
 s 
n 5n 
X∼N ,
6 36

Et on considère que : √ !
X 1 5
F = ∼N , √ .
n 6 6 n

Dr Prevot Chirac BATSINDILA NGANGA page 57 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info
Sec 3.2 Convergence en loi et approximation

D’où

1 1 1 1 1 1
   
P F− ≤ = P − ≤F ≤ +
6 100 6 100 6 100
100 − 5 100 + 5

= P ≤F ≤
600 600
95 105
 
= P ≤F ≤

600 
600
0,01 
= 2Φ   − 1.

 5 


36n
Donc

 

1 1  0,01 
 
P F− ≤ ≥ 0,95 ⇔ 2Φ 

5  − 1 ≥ 0,95

6 100 


36n
 
0,01  0,01
⇔ Φ ≥ 0,975 ⇔ Φ(1,96) ⇔ 5 ≥ 1,96
 
5 
√ √
 
36n 36n
√ !2
1,96 · 5
⇔ n≥ ⇒ n ≥ 5 336.
0,06

Cette valeur est nettement inférieure à celle obtenue en utilisant l’inégalité de Bienaymé-Tchébychev.
Cette méthode est plus précise car elle utilise la loi de X.

Dr Prevot Chirac BATSINDILA NGANGA page 58 / 57 Licence 1: Cours de Probabilités


Université Denis Sassou-N’guesso / FSA. Semestre 2 / Mathématiques-Info

Vous aimerez peut-être aussi