0% ont trouvé ce document utile (0 vote)
147 vues109 pages

Book

Transféré par

IBRAHIM EL MOUKADAM
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
147 vues109 pages

Book

Transféré par

IBRAHIM EL MOUKADAM
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Statistiques Descriptives

Et

Probabilités

Omar Darhouche

n Année 2021/2022
P (X = k) = pk(1 −
p)n−k k

P ( A ∩ B)
P (A |B) = P (B)

∫ +∞
r
E(X ) = xrf (x) dx
−∞

k kV (X)
2
i=1 i i i i
1Σ Σ
= n (x 2
— x) = f — x)
(x
i=1
Contents

CHAPTER 1 La Statistique descriptive à une variable Page 4

1.1 Généralités 4

1.2 Vocabulaire 4

1.3 Distribution statistique discrète 5

1.4 Distribution statistique groupée 9

1.5 Variable qualitative 12


Variable qualitative nominale – Variable qualitative ordinale

1.6 Paramètres de position 14

1.7 Paramètres de dispersion 19

CHAPTER 2 Statistique descriptive à deux variables Page 22

2.1 Distributions marginales et distributions conditionnelles 22


Dépendance et indépendance – Ajustement linéaire d’un nuage de points

CHAPTER 3 Dénombrement et espace de probabilités Page 31

3.1 Dénombrement 31
Ensembles finis – Arrangements et combinaisons

3.2 Espaces de probabilités 32


Expérience aléatoire et événements – Lois de probabilités conditionnelles et indépendance

CHAPTER 4 Variables aléatoires discrètes Page 39

4.1 Généralités 39
Variable aléatoire discrète – Fonction de répartition – Quantiles – Espérance, variance, écart-type et moments –
Variables aléatoires discrètes indépendantes

4.2 Lois classiques 44


Loi uniforme discrète – Loi de Bernoulli – Loi binomiale – Loi géométrique – Loi hypergéométrique – Loi de Poisson

CHAPTER 5 Variables aléatoires continues Page 50

5.1 Généralités 50
Variable aléatoires réelles et densité de probabilité – Fonction de répartition – Quantiles – Espérance, variance, écart-type
et moments

5.2 Lois usuelles continues 54


Loi uniforme sur [a, b] – Loi exponentielle – Loi normale ou loi de Gauss-laplace – Loi de Cauchy

5.3 Inégalité de markov et de Bienaymé-Tchebychev 68

1 2 3 4 5 6 A B
Contents
Content

CHAPTER 6 Couple de variables aléatoires Page 70

6.1 Couple de variables aléatoires discrètes 70


Loi conjointe – Fonction de répartition conjointe – Lois marginales – Lois conditionnelles – Indépendance

6.2 Couple de variables aléatoires continues 73


Fonction de répartition et densité – Densités marginales – Indépendance

6.3 Covariance et coefficient de corrélation 76

APPENDIX A Statistiques descriptives et Probabilités avec R Page 78

A.1 Introduction à R 78

A.2 Statistiques descriptives avec R 78

A.3 Simulation des lois de probabilité avec R 78

APPENDIX B Statistiques descriptives et Probabilités avec Python Page 79

B.1 Introduction à Python 79

B.2 Statistiques descriptives avec Python 79

B.3 Simulation des lois de probabilité avec Python 79

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

1.1 Généralités
1
La statistique désigne l’ensemble des méthodes ou des techniques consistant à collecter des
données, à les traiter, les analyser et à les interpréter afin de tirer des conclusions et prendre des
décisions dans les situations d’incertitudes.
La statistique s’applique à la plupart des disciplines: agronomie, biologie, démographie,
économie, sociologie,. On distingue deux catégories, la statistique descriptive et la statistique
inférentielle
:

1. L’objectif de la statistique descriptive est de résumer et synthétiser l’information


con- tenue dans les données étudiés afin d’en déduire un certain nombre de propriétés.
On utilise à cette fin, des tableaux, des graphiques et on calcule certains indicateurs ou car-
actéristiques.

2. Le but de la statistique inférentielle consiste à extrapoler à partir d’un échantillon


(une partie restreinte) de la population à étudier, le comportement de la population dans
son ensemble. En d’autre terme, elle généralise à une population toute entière des
propriétés constatées sur un échantillon. On peut citer comme exemples, les sondages,
les contrôle de qualité, ....

Remarque 1.1. La statistique descriptive ne s’applique que si les données ont été collectées
sur toute la population, alors que pour la statistique inférentielle ça ne concerne qu’un
échantillon de la population. On se limitera dans ce cours à la statistique descriptive
seulement.

1.2 Vocabulaire
Population: ensemble des éléments sur lesquels porte l’étude ou l’activité statistique. Cet
ensemble est généralement noté Ω.
( Étudiants, entreprises, plantes, pièces, produits,. ).

Individu (ou unité statistique): chaque élément de la population.


(Un étudiant, une plante, une pièce, un homme, une femme,. ).

Échantillon: sous-ensemble issu de la population.

Variable: caractère (ou propriété) mesuré ou observé sur chaque individu notée X, Y,...(Note,
taille, poids, sexe, âge, couleur,. ).

Modalités: les différentes valeurs possibles que peut prendre une variable statistique.

Série statistique: suite de valeurs prises par une variable X notées x1, x2, x3, ...

Variable quantitative: ses modalités sont mesurables ou repérables.

Variable quantitative discrète: ses seules valeurs possible sont des nombres isolée.
(Nombre d’enfants, nombre d’ouvriers, nombre de pièces, ).
Variable quantitative continue: ses valeurs possible sont en nombres infini et a priori
quelconques dans un intervalle. (Age, poids, diamètre d’une pièce, température,
vitesse,. ).

Variable qualitative: ses modalités ne sont pas mesurables (profession, couleur, numéro de
telephone,. ).

Variable qualitative nominale: ses modalités ne peuvent pas être ordonnées. (Couleur,

1 2 3 4 5 6 A B
profession, sexe, groupe sanguin,. ).

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Variable qualitative ordinale: ses modalités peuvent être ordonnées.(Chemises classées


par taille: XS, S, M, L, XL, XXL, XXXL).

Remarque 1.2. 1. Les caractères qualitatifs peuvent toujours être transformés en quanti-
tatifs par codage. Exemple Masculin : 1, Féminin : 2. C’est ce qui se fait le plus
généralement. Mais un tel codage est purement conventionnel et effectuer des opérations
algébriques sur ces valeurs numériques n’a pas de sens.
2. Certains caractères qualitatifs s’expriment à l’aide des nombres, mais ils n’ont pas de sens
quantitatif (Exemple : numéro de téléphone).

1.3 Distribution statistique discrète


Considérons une population de N individus décrite par une variable X dont les k modalités sont
x1, x2, ..., xk.
L’effectif (fréquence absolue) ni de la modalité xi est le nombre d’individus présentant
la modalité xi.
L’effectif total est N et on a
k
Σ
ni = N.
i=1

La fréquence (fréquence relative) fi de la modalité xi est définie par


ni
f = .
i
N
On a évidement
k
Σ
fi = 1.
i=1

Le pourcentage pi de la modalité xi est pi = fi × 100%.


L’effectif cumulé croissant Ni:
N 1 = n 1,
N2 = n1 + n2,

.
Nk = n1 + n2 + ... + nk = N.

modalités xi x1 x2 x3 ... xk
effectifs ni n1 n2 n3 ... nk
effectifs cumulés n1 n1 + n2 n1 + n2 + n3 ... n1 + n2 + ...nk
croissants Ni = N1 = N2 = N3 ... =N

La fréquence cumulée croissante Fi:


N1
F 1 = f1 = ,
N
N2
F 2 = f1 = ,
+ N
f2
.
F =f Nk
+ ... + = = 1.
f
+f

1 2 3 4 5 6 A B
La Statistique descriptive à une variable
k 1 2 k
N

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Remarque 1.3. Il est également possible de cumuler les effectifs et les fréquences dans le sens
décroissant.

L’effectif cumulé décroissant Ni:

N1 = N,
N2 = N − n1 = N1 − n1,
N3 = N − n1 − n2 = N2 − n2,
.
Nk = N − n1 − n2 − ... − nk−1 = Nk−1 − nk−1 = nk.

modalités xi x1 x2 x3 ... xk
effectifs ni n1 n2 n3 ... nk
effectifs cumulés N N − n1 N − n1 − n2 ... N − n1 − n2 + ... − nk−1
décroissants Ni = N1 = N2 = N3 ... Nk = nk

La fréquence cumulée décroissante Fi:


N1
F =1= ,
1
N
F2 = 1 − f1 = N2 ,
N
N3
F3 = 1 − f1 — = ,
N
f2
.

F k= 1 − f 1 — ... − f k−1 = Nk .
— 2
f
N

La série statistique (xi, ni)1 ≤i ≤k ou (xi, fi)1 i ≤k≤est appelée distribution statistique discrète.
Exemple 1.
Un quartier est composé d’une population de 50 ménages, et la variable X représente le
nombre de personnes par ménage. Les valeurs ordonnées de X sont :
1111122222222233333333333
3333444444444455555566688
Tableau statistique

Effectifs Effectifs Fréquences Fréquences


xi cumulés cumulées
ni croissants Ni fi croissantes Fi
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1
Représentation graphique

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Figure 1.1: Diagramme en batôns des effectifs

Figure 1.2: Diagramme en batôns des effectifs cumulés croissants

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Tableau statistique (fréquences cumulées décroissantes)

Effectifs Effectifs Fréquences Fréquences


xi cumulés cumulées
ni décroissants Ni fi décroissantes Fi
1 5 50 0.10 1
2 9 45 0.18 0.90
3 15 36 0.30 0.72
4 10 21 0.20 0.42
5 6 11 0.12 0.22
6 3 5 0.06 0.10
8 2 2 0.04 0.04
Courbe Cumulative
La courbe cumulative ou courbe des fréquences cumulées de la distribution (xi, fi)1≤i≤k est la
courbe représentative de la fonction F : R → [0, 1] définie par

0 si x<

F (x) = x Σ
1 Fi i fj si xi ≤ x < xi+1
j=1
=
1 si x ≥ xk.

Cette fonction est appelée fonction cumulative ou fonction de


répartition. La fonction de répartition F pour l’exemple précédent est
définie par :

0, si x < 1;

0.10, si 1 ≤ x < 2;

0.28, si 2 ≤ x < 3;
 0.58, si 3 ≤ x < 4
F (x) =
0.78, si 4 ≤ x < 5;

 0.90, si 5 ≤ x < 6;
 0.96, si 6 ≤ x < 8;
 1, si x ≥ 8.

La courbe de F est la représentation graphique de la portion F (x) des individus de la population


dont le caractère prend une valeur inférieur ou égale à x.

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Figure 1.3: Courbe des fréquences cumulées

1.4 Distribution statistique groupée


Lorsque la variable quantitative discrète ou continue comprend un grand nombre de valeurs, il
est préférable de regrouper les valeurs en certains intervalles appelés classes pour rendre les
données statistiques plus lisibles.
Considérons une variable X dont les valeurs sont dans un intervalle.
On découpe cet intervalle en classes [e1, e2[, [e2, e3[, ..., [ep−−1, ep] de même amplitude (ei+1
ei =constante). Pour choisir le nombre de classe, on utilise par exemple l’une des deux règles
suivantes :

1. Règle de Sturge : P = 1 + 3.3 × log10(N );



4
2. Règle de Yule : P = 2.5 × N,

où N est l’effectif total. Le nombre J de classes est l’entier le plus proche de P . Nous mention-
nons que les deux formules sont presque xmax −pareils
xmin si N 200.
L’amplitude des classes est a = , où xmax (resp. xmin) est la plus grande (res. plus
J
petite) valeur de X.
L’effectif ni de la classe [ei, ei+1[ est le nombre de valeurs de X prises dans cette classe.
n
La fréquence fi de la classe [e , e [ est le rapport f = i .
i i+1 i N
La série statistique ([ei, ei+1[, ni)1 ≤ ou ([ei, ei+1[, fi)1 i p 1≤ est
i p≤1 − ≤ −
appelée distribution statis-
tique groupée ou continue.
Un histogramme est un diagramme composé de rectangles contigus dont les aires sont pro-
portionnelles aux fréquences (ou effectifs) et dont les bases sont déterminées par les classes.
Exemple : cas d’amplitudes égales. La variable X des tailles en cm de N = 20 étudiants
est donnée par le tableau

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Classes Effectifs Effectifs cumulés Fréquences Fréquences cumulées


[ei, ei+1[ ni croissants Ni fi croissantes Fi
[145, 150[ 4 4 0.2 0.2
[150, 155[ 7 11 0.35 0.55
[155, 160[ 4 15 0.2 0.75
[160, 165[ 3 18 0.15 0.9
[165, 170[ 2 20 0.1 1

Figure 1.4: Histogramme des fréquences

Cas d’amplitudes inégales. Lorsque les classes sont d’amplitudes inégales, les effectifs ou
fréquences ne permettent pas d’apprécier la distribution du caractère (ainsi la fréquence d’un
intervalle ”étroit” ne peut pas être directement comparée à celle d’un intervalle dix fois plus
large !).
On ramène toutes les classes à une largeur standard, en calculant par proportionnalité les effectifs
corrigés ou bien les fréquences corrigées correspondantes.
Soit a l’amplitude standard (choisis librement). Si la classe numéro i a pour effectif ni et une
fréquence fi et une amplitude ai alors ni
• L’effectif corrigé de la classe est n∗ = × a
i
ai
fi ni n∗
• La fréquence corrigée de la classe est f ∗ = × a = ×a= i .
i
ai a iN N
On définit la densité d’effectifs d’une classe d’amplitude ai et d’effectif ni par
ni
d = .
i
ai

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

En générale on se contente de calculer soit la densité d’effectifs soit les effectifs corrigés et pas
les deux.
Exemple. Considérons la série statistique définie par le tableau suivant :
Classes [100,110[ [110, 120[ [120, 125[ [125, 130[ [130, 140[ [140,160[
Effectifs 12 24 20 22 14 8
Les effectifs se rapportant à des classes d’amplitudes inégales ne sont pas directement compara-
ble. On doit donc corriger ces effectifs
Classes Effectifs Amplitude densité effectifs Fréquence
ni ai di corrigé n∗i corrigée fi∗
[100, 110[ 12 10 1.2 12 0.12
[110, 120[ 24 10 2.4 24 0.24
[120, 125[ 20 5 4 40 0.4
[125, 130[ 22 5 4.4 44 0.44
[130, 140[ 14 10 1.4 14 0.14
[140,160[ 8 20 0.4 4 0.04

Figure 1.5: Histogramme des effectifs (corrigés)

Exemple. On s’intéresse à la consommation en litre par 100 km de N = 20 voitures:


6.11 6.05 5.98 5.77 5.18 5.66 5.28 5.11 5.58 5.49
5.62 5.33 5.55 5.45 5.76 5.23 5.57 5.52 5.8 6.0.
Par la règle de Sturges: P = 1 + 3.3 log10(20) = 5.293.
On prend J=5.
xmax − xmin 6.11 − 5.11
L’amplitude a = = = 0.2.
J 5
Tableau statistique
Classes Effectifs Fréquences Fréquences cumulées
[5.11, 5.31[ 4 0.2 0.2
[5.31, 5.51[ 3 0.15 0.35
[5.51, 5.71[ 6 0.3 0.65
[5.71, 5.91[ 3 0.15 0.8
[5.91, 6.11] 4 0.2 1

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Courbe Cumulative
La courbe cumulative des fréquences de la distribution ([ei, ei+1[, fi), 1 ≤ i ≤ p − 1 est la
courbe de la fonction dite de répartition F définie par

0 si x < e1
 x − ei x − ei
F (x) = Fi−1 ei+1 − ei fi = Fi−1 + ei+1 − ei (Fi − Fi−1) si ei ≤ x < ei+1
 +


1 si x ≥ ep,

(avec F0 =
0).

Figure 1.6: Courbe cumulative des fréquences

1.5 Variable qualitative


1.5.1 Variable qualitative nominale
On s’intéresse à la variable X = état-civil d’une population de N = 20 personnes. Notons

C: célibataire, M: marié, V: veuf, D:divorcé.

Considérons la série statistique suivante:

MDMCCMCCCMCMVMVDCCMC
Tableau statistique

Modalités xi Effectifs ni Fréquences fi pi%


célibataire 9 0.45 45%
marié 7 0.35 35%
Veuf 2 0.10 10%
divorcé 2 0.10 10%
Diagramme en secteurs

1 2 3 4 5 6 A B
La Statistique descriptive à une variable
Chaque modalité xi est représentée par un secteur dont l’aire est proportionnelle à la fréquence:

αi◦ = 360◦ × fi .

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Figure 1.7: Diagramme en secteurs

1.5.2 Variable qualitative ordinale


On interroge une population de N = 50 personnes sur leur dernier diplôme obtenu. On note:

Sd: Sans diplôme, P: Primaire, Se: Secondaire,


Su: Supérieur non-universitaire, U: Universitaire.

Sd Sd Sd Sd P P P P P P P P P P P Se Se Su
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su
Su Su Su Su U U U U U U U U U U U U Su

Les modalités étant ordonnées selon un gradient de codage de 1 (Sd) à 5 (U)


Tableau statistique

Diplômes Effectifs Fréquences( en %)


Sans diplôme 4 8%
Primaire 11 22%
Secondaire 14 28%
Supérieur non-universitaire 9 18%
Universitaire 12 24%

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Figure 1.8: Diagramme à bandes (barres) des fréquences (en %)

1.6 Paramètres de position


Le mode ou la classe modale est la valeur ou classe correspondante à la fréquence (ou ef-
fectif) la plus élevée (si les classes sont d’amplitudes inégales, il s’agira de la classe de fréquence
corrigée la plus élevée ou de densité maximale).
Une distribution présentant un seul mode est appelée une distribution unimodale. Une distribu-
tion bimodale est une distribution présentant deux modes. Une distribution multimodale est une
distribution présentant plusieurs modes. Elle est souvent le reflet d’une population composée
de plusieurs sous-populations distinctes. Exemple.

Modalités xi Effectifs ni Fréquences fi


célibataire 9 0.45
marié 7 0.35
Veuf 2 0.10
divorcé 2 0.10
Le mode est x1 = célibataire correspondant à l’effectif n1 = 9.
Classes Effectifs Fréquences
[5.11, 5.31[ 4 0.2
[5.31, 5.51[ 3 0.15
[5.51, 5.71[ 6 0.3
[5.71, 5.91[ 3 0.15
[5.91, 6.11] 4 0.2

La classe modale est [5.51, 5.71[ et pour déterminer le mode, on utilise la formule suivante :
d1
M0 = ei−1 + ai,
d1 + d2
où ai = ei − ei−1 est l’amplitude de la classe modale [ei−1, ei[,
d1 = ni − ni−1 et d2 = ni − ni+1 ou bien d1 = fi − fi−1 et d2 = fi − fi+1.

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

ni et fi sont l’effectif et la fréquence de la classe modale.


ni—1 et fi −1 sont l’effectif et la fréquence de la classe qui précède la classe modale.
ni+1 et fi+1 sont l’effectif et la fréquence de la classe qui suit la classe modale.
Le mode Mo est déterminé par l’intersection des droites représentés dans la figure suivante.

Figure 1.9: Representation graphique du mode (cas continu)

On a ei−1 = 5.51 la borne inférieur de la classe modale [5.51, 5.71[ et son amplitude est ai =
5.71 − 5.51 = 0.2.
d1 = 0.3 − 0.15 = 0.15 et d2 = 0.3 − 0.15 = 0.15. D’où
0.15
Mo = 5.51 + .0.2 = 5.51 + 0.1 = 5.61.
0.15 + 0.15
Exemple
Classes Effectifs
[0, 5[ 50
[5, 10[ 150
[10, 20[ 200
[20, 30[ 40
[30, 50] 60
Les classes sont d’amplitude inégales. On commence d’abord par calculer les effectifs corrigés
ou calculer les densités. Attention la classe modale n’est pas [10, 20[ même si elle a l’effectif
maximale!
Classes Effectifs Effectifs corrigés
[0, 5[ 50 10
[5, 10[ 150 30
[10, 20[ 200 20
[20, 30[ 40 4
[30, 50] 60 3
La classe modale est la classe [5, 10[. On applique la formule et on obtient
30 − 10 100
M =5+ .5 = 5 + ' 8.33.
o
(30 − 10) + (30 − 20) 30

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

La médiane est la valeur qui partage la série statistique supposée rangée par ordre
croissant, en deux groupes de même effectifs.
Dans le cas d’une variable quantitative discrète, la médiane s’obtient en ordonnant les valeurs
dans l’ordre croissant puis:
N+1
- si l’effectif N est impair, alors la médiane est la valeur de rang 2 ;

N
- si l’effectif N est pair, alors la médiane est la moyenne des deux valeurs de rang 2 et
N
2 + 1.

Exemples.
1. On considère la série statistique
0 0 1 1 2 2 3.
La médiane est la valeur du rang 4, donc Me = 1.
2. On considère la série statistique

0 0 1 1 2 2 3 4.

La médiane est Me = 1+22


= 1.5.
3. Si on veut déterminer la médiane d’une série statistique à partir d’un tableau (modalités,
effectifs), on commence par remplir le tableau des effectifs cumulés croissants.

Modalités xi Effectifs ni Effectifs cumulés croissants Ni


5 10 10
8 15 25
12 17 42
15 8 50
la moitié de l’effectif total étant 25. Donc La médiane est
x25 + x26 8 + 12
Me = 2 = 2 = 10.
Dans le cas d’une variable quantitative continue, la médiane Me est la valeur correspondante
1 N
à la fréquence cumulée (ou effectif cumulé ) :
2 2
1
F (Me) = = 0.5.
2
Exemple. Considérons le tableaux statistique suivant

Classes Fréquences fi Fréquences cumulées Fi


[3, 5[ 0.24 0.24
[5, 10[ 0.109 0.349
[10,20[ 0.178 0.527
[20, 35[ 0.203 0.73
[35, 50[ 0.102 0.832
[50, 55[ 0.168 1

On a F (10) = 0.349 < 0.5 et F (20) = 0.527 > 0.5, donc la classe médiane est [10, 20[.
L’interpolation linéaire fournit
0.5 − 0.349
M = 10 + 10 18.48.
e '
0.178

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Les Quartiles
On appelle quartiles d’une série statistique le triplet des nombres (Q1, Q2, Q3) qui divise la série
en 4 groupes de même effectif. C’est-à-dire chaque groupe représente 25% de la population
totale.
Le premier quartile Q1 est la plus petite valeur de la variable pour laquelle au moins un
quart des données sont inférieures ou égales à Q1.
Le troisième quartile Q3 est la plus petite valeur de la variable pour laquelle au moins trois
quarts des données sont inférieures ou égales à Q3.
Évidement le deuxième quartile Q2 n’est autre que la médiane. Q2 = Me.
Dans le cas d’une variable quantitative discrète, les quartiles s’obtiennent en ordonnant les
valeurs dans l’ordre croissant puis:

- si l’effectif total N est multiple de 4 alors Q1 N


3N est la valeur de rang et Q3 est la valeur
de rang ; 4
4
- si l’effectif total N n’est pas multiple de 4 alors Q1 est la valeur de rang immédiatement
N 3N
supérieur à et Q3 est la valeur de rang immédiatement supérieur à .
4 4
Remarque 1.4. D’une manière analogue, on appelle déciles d’une série statistique un 9-uplet
(D1, D2, ..., D9) qui divise la série en dix groupes de même effectifs. C’est-à-dire chaque groupe
représente 10% de la population totale. De plus D5 = Me.
Ainsi
- si l’effectif total N est multiple de 10 alors D1, D2, ..., D8, D9 sont les valeurs de rang
N 2N 8N 9N
, , ..., , respectivement.
10 10 10 10
- si l’effectif total N n’est pas Nmultiple
2N de8N 10 alors
9N D1, D2, ..., D8, D9 sont les valeurs de rang
immédiatement supérieur à , , ..., , respectivement.
10 10 10 10
Exemple. Une étude sur le nombre d’employés dans les commerces du centre d’une ville a
donné les résultats suivants :
Nombre d’employés 1 2 3 4 5 6 7 8
Effectif 11 18 20 24 16 14 11 6
On a N = 120, le premier quartile est donc la valeur de rang 30 et le troisième quartile est la
valeur de rang 90. Ainsi Q1 = 3 et Q3 = 5.
Le premier décile est la valeur de rang 12, le deuxième décile est la valeur de rang 24,...,etc.
Ainsi D1 = 2, D2 = 2, D3 = 3 D4 = 3, D5 = 4, D6 = 4, D7 = 5, D8 = 6 et D9 = 7. Dans le
cas d’une variable quantitative continue, le premier quartile Q1 est la valeur correspondante à
la fréquence cumulée (croissante) 0.25 et le troisième quartile est la valeur correspondante à la
fréquence cumulée (croissante) 0.75.
De même, le premier décile D1 est la valeur correspondante à la fréquence 0.10, le deuxième
décile D2 est la valeur correspondante à 0.20, ..., le neuvième décile D9 est la valeur
correspondante à 0.90.
Exemple. Une étude sur la durée de vie en heures de N = 200 ampoules électriques a donné
les résultats suivants:
Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
Pour calculer les quartiles Q1, Q2 et Q3. On commence par completer le tableau en ajoutant les
effectifs cumulés croissants.

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
Effectifs cumulés croissants 28 74 139 171 200
Calcul de Q1 : On a N = 50, la plus petite valeur des effectif cumulés croissants supérieur ou
4
égale à 50 est 74. Cette valeur correspond à la classe [13, 14[. Puis par interpolation linéaire,
on obtient
11 310
Q1 − 13 50 − 28 1
= 13 + = ' 13.48.
14 − 13 = 74 − 28 ⇐⇒ Q 23 23
Calcul de Q2 = Me : On a 2N = 100, la plus petite valeur des effectif cumulés supérieur ou
4
égale à 100 est 139. Cette valeur correspond à la classe [14, 15[. Puis par interpolation linéaire,
on obtient
26 72
Q2 − 14 100 − 74 2
= 14 + = = 14.4.
15 − 14 = 139 − 74 ⇐⇒ Q 65 5
Calcul de Q3 : On a 3N = 150, la plus petite valeur des effectif cumulés supérieur ou égale à 150
4
est 171. Cette valeur correspond à la classe [15, 16[. Puis par interpolation linéaire, on obtient
Q3 − 15 150 − 139 11 490
= ⇐⇒ Q 3 = 15 + = ' 15.34.
16 − 15 171 − 139 32 32
Calcul de D3 : On a 3N = 60, la plus petite valeur des effectif cumulés supérieur ou égale à 60
10
est 74. Cette valeur correspond à la classe [13, 14[. Puis par interpolation linéaire, on obtient
D3 − 13 60 − 28 16 315
= ⇐⇒ = 13 + = ' 13.70.
3
14 − 13 74 − 28 23 23
Calcul de D9 : On a 9N = 180, la plus petite valeur des effectif cumulés supérieur ou égale à 180
est 200. Cette valeur 10correspond à la classe [16, 17[. Puis par interpolation linéaire, on obtient
D9 − 16 180 − 171 4 473
= ⇐⇒ = 16 +
' 16.31. =
9
17 − 16 200 − 171 23 29
La moyenne arithmétique
La moyenne arithmétique x d’une variable quantitative discrète X est la somme pondérée des
valeurs possibles par les fréquences:

Σk 1 Σk
x= f ixi = ni xi ,
i=1
N i=1

c’est-à-dire encore la somme des observations divisée par l’effectif total de la population.
Remarque 1.5. Il existe d’autres moyennes comme la moyenne géométrique, la moyenne har-
monique, la moyenne interquartile ou les moyennes tronquées. Elles sont moins utilisées car
elles sont généralement réservées à des contextes particuliers.
Exemple. Le nombres d’enfants de 20 familles sont les suivants

1 0 2 1 3 2 2 1 0 2 2 2 4 0 1 2 1 2 2 3.

Avec cette forme brute, la moyenne est


1+0+2+1+3+2+2+1+0+2+2+2+4+0+1+2+1+2+
2+3 = 1.65.
x=
20
Avec un tableau de modalités et effectifs
Nombre d’enfants 0 1 2 3 4
2

1 2 3 4 5 6 A B
La Statistique descriptive à une variable
Effectifs 3 5 9 2 1

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

La moyenne est
3 × 0 + 5 × 1 + 9 × 2 + 2 × 3 + 1 × 4 33
x= 20 =
20 = 1.65
Remarque 1.6. Dans le cas d’une variable quantitative continue X, on convient de calculer la
moyenne de la distribution ([ei, ei+1[, fi), 1 ≤ i ≤ p − 1
p−1
Σ Σ
p−1
x= f ic = 1 ni.ci .
i
i=1
N i=1

où ci ei +
=i+1
e est le centre de la classe [ei, e i+1[.
2
Exemple

Centres des classes 12.5 13.5 14.5 15.5 16.5


Durée de vie (100h) [12 , 13[ [13 , 14[ [14, 15[ [15 , 16[ [16 , 17[
Effectifs 28 46 65 32 29
la moyenne est

28 × 12.5 + 46 × 13.5 + 65 × 14.5 + 32 × 15.5 + 29 × 16.5 361


x= 200 = 25 = 14.44.
Les indicateurs de tendance centrale
Les indicateurs de tendance centrale comme la moyenne x et la médiane Me et le mode Mo
sont des mesures qui indiquent la position où semble se rassembler les valeurs de la
population.
. Le mode est la plus mauvaise mesure du centre, car la classe la mieux représentée n’est pas
nécessairement au centre de la distribution.
. Si les valeurs extrêmes sont modifiées, la médiane ne change pas car elle n’est pas sensible aux
valeurs extrêmes. Par contre la moyenne change car elle tient compte de toutes les valeurs.
On préférera la médiane ou la moyenne selon que l’on veut une mesure sensible ou non aux
valeurs extrêmes.

1.7 Paramètres de dispersion


L’étendue est l’écart entre les valeurs extrêmes de la variable, soit

e = xmax − xmin,

où xmax (resp. xmin) est la plus grand (res. plus petite) valeur.
Ce paramètre n’est pas défini exactement pour les distributions groupées, les valeurs
extrêmes n’étant plus connues avec exactitude après le groupement en classes.

L’écart interquartile est le nombre Q3 − Q1. C’est la longueur de l’intervalle interquartile


[Q1, Q3].
L’écart interdécile est le nombre D9 −D1. C’est la longueur de l’intervalle interdécile [D1, D9].
Remarque 1.7. L’écart interquartile et L’écart interdécile mesure la dispersion de la série
statistique autour de la médiane. Cet écart n’est pas sensible aux valeurs extrêmes.

Diagramme en boîte
On construit un diagramme en boîte de la façon suivante :
2

1 2 3 4 5 6 A B
La Statistique descriptive à une variable
- les valeurs du caractère sont représentées sur un axe (vertical ou horizontal) ;

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

- on place sur cet axe, le minimum, le maximum, les quartiles et la médiane de la série
statistique;
- on construit alors un rectangle parallèlement à l’axe, dont la longueur est l’interquartile
et la largeur arbitraire.
Exemple. On donne les notes obtenues à un devoir dans une classe de 27 étudiants:
Notes 2 3 4 6 7 8 9 10 11 12 14 15 16 18 20
Effectifs 2 1 2 1 3 1 2 2 3 2 2 1 1 1 3
Q1 = 7, Me = 10 et Q3 = 14. L’intervalle interquartile est [7,14]. Cela signifie qu’au moins la
moitié des notes sont situées entre 7 et 14.

min Q1 Me Q3 max
0 2 4 6 8 10 12 14 16 18 20
50% 50%

La variance, l’écart-type et le coefficient de variation


La variance d’une variable quantitative discrète X est la moyenne des carrés des écarts entre
les valeurs de X et sa moyenne x :
1
V (X) = k
Σ k
Σ 2
N ni(xi — x) 2 — x) .
i=1
= fi(xi
i=1

L’écart-type de la variable X est donné par



σ(X) = V (X).
Il sert à mesurer la dispersion de la série statistique autour de la moyenne. Plus il est petit, plus
les valeurs sont concentrées autour de la moyenne (on dit que la série est homogène).
Le coefficient de variance est l’écart-type en valeur relative de la moyenne:
σ(X)
cv(X) = .
x
Plus il est élevé, plus la dispersion relative autour de la moyenne est grande. Il est sans unité et
par suite on peut l’exprimé en pourcentage. Il permet ainsi de comparer la dispersion de deux
distributions qui n’ont pas la même unité de mesure.
Remarque 1.8.
1. La variance peut aussi s’écrire
1 Σ
k
V (X) = ni x2i − x2.
N i=1

2. Dans le cas d’une variable quantitative continue, la variance (ainsi l’écart type) est
définie de la même manière avec les centres des classes jouent le rôle des valeurs xi.
Exemple. Soit la série statistique 2 3 4 4 5 6 7 9.
2+3+4+4+5+6+7+9
x= = 5.
8
22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 2
V (X) = −
8
2

1 2 3 4 5 6 A B
La Statistique
5
descriptive à une variable
= 4.5.

1 2 3 4 5 6 A B
La Statistique descriptive à une variable

Théorème 1.1. Changement d’origine et d’unité) Si X et Y sont deux variables en corre-


spondance par le changement d’origine b (constante) et le changement d’unité a (constante) :
Y = aX + b, alors
y = ax + b, V (Y ) = a2 V (X) et σ(Y ) = |a|σ(X).
Corollaire 1.1. • Si on fait augmenter chaquermodalité d’une série de r%, alors la moyenne
de cette série se trouve multipliée par (1 + ).
100
• Si on fait diminuer chaque modalité d’une série de r%, alors la moyenne de cette série se
r
trouve multipliée par (1 − ).
100
Exemple. On suppose que la moyenne des notes d’un groupe d’étudiants est x = 10. Si on
augmente chaque note de 15%, cela revient à multiplier chaque note par 1.15. Donc la
moyenne devient y = 1.15x = 11.5.

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

2.1 Distributions marginales et distributions conditionnelles


2
L’objectif de cette partie est d’étudier sur une même population de n individus, deux
caractères différents X et Y et de rechercher s’il existe un lien entre ces deux variables.
Chacune des deux variables peut être, soit quantitatives, soit qualitatives. Désignons par x1, x2, ...,
xk les k modalités de la variable X
et par y1, y2, ..., yl les l modalités de la variable Y.
L’effectif nij est le nombre d’individus présentant à la fois la modalité xi et la modalité yj. On a
k
Σ l
Σ nij = n.
i=1 j=1

L’effectif ni• est le nombre d’individus présentant la modalité xi:


l
Σ
ni• = nij.
j=1

L’effectif n•j est le nombre d’individus présentant la modalité yj :


k
Σ
n•j = nij.
i=1

La fréquence fij du couple des modalités xi et yj est


n
fij = nij .

On a
k
Σ l
Σ fij = 1.
i=1 j=1

Tableau de contingence des effectifs

X\Y y1 . . . yj ... yl Total


x1 n11 . . . n1j ... n1l n1•
. . . . . . .
xi ni1 ... nij ... nil ni•
. . . . . . .
xk nk1 ... nkj ... nkl nk•
Total n•1 . . . n•j ... n•l n
Distributions marginales
Considérons la colonne marginale du tableau ci-dessus.
Les effectifs n•i définissent ce qu’on appelle la distribution marginale suivant
X. La fréquence marginale de la modalité xi est
n
fi• = ni• .

On a
k
Σ
fi• = 1.
i=1

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

De façon analogue, la distribution marginale suivant Y est définie par les effectifs marginaux
n• j .
La fréquence marginale de la modalité yj est
n
f•j = •j
n
On a
l
Σ
f•j = 1.
j=1

Exemple. On s’intéresse à une éventuelle relation entre X = le sexe et Y = la couleur des


yeux de n = 200 personnes.
Tableau de contingence des effectifs:

X\Y Bleu vert Marron Total


Hommes n11 = 10 n12 = 50 n13 = 20 n1• = 80
Femmes n21 = 20 n22 = 60 n23 = 40 n2• = 120
Total n•1 = 30 n•2 = 110 n•3 = 60 n = 200
Tableau de contingence des fréquences:

X\Y Bleu vert Marron Total


Hommes f11 = 0.05 f12 = 0.25 f13 = 0.10 f1• = 0.40
Femmes f21 = 0.10 n22 = 0.30 f23 = 0.20 f2• = 0.60
Total f•1 = 0.15 f•2 = 0.55 f•3 = 0.30 1
Distributions conditionnelles La distribution de la variable X, la variable Y = yj est appelée
distribution conditionnelle de X si (sachant) Y = yj.
La fréquence conditionnelle fi|j (lire f, i si j) de la modalité xi liée par yj est

fi|j nij fij


= n•j = f•j.

Exemple. La fréquence conditionnelle des personnes de sexe masculin sachant qu’ils ont les
yeux vert est f12 0.25
f = n12 = 50 ' 0.45 = = ' 0.45.
f ou
1|2 1|2
n•2 110 f•2 0.55
Tableau statistique de X si Y = yj.

X\Y = Effectifs Fréquences


yj
x1 n1j f1|j
. . .
xi nij fi|j
. . .
xk nkj fk|j
Total n•j 1
De façon analogue on définit la distribution conditionnelle de Y si X = xi.

2.1.1 Dépendance et indépendance


Définition 2.1. On dit que deux variables statistique X et Y sont indépendantes si pour tout i
et j, on a

1 2 3 4 5 6 A B
Statistique descriptive à deux variables
fi|j = fi• ou bien fj|i = f•j.

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Proposition 2.1. X et Y sont indépendantes si pour tout i et j, on a

fij = fi• f•j,

ou d’une façon équivalente si pour tout i et j, on a

N × nij = ni• × n•j.

Il suffit que l’une des 3 égalités précédentes ne soit pas vérifiée pour un certain couple (i, j) donné
pour que les deux variables ne soit pas indépendantes.
Exemple. Reprenons l’exemple précédent.
On a f21 = 0.10 et f2 × f 1 = 0.60 ו0.15 = 0.09.
Donc f21 /= f2 × f •1. D’où X et Y ne
• sont pas indépendantes.
Lorsque deux variables
• ne sont pas indépendantes, on cherche à évaluer l’intensité de leur liaison
et dans le cas de deux variables quantitatives, on examine si on peut les considérer liées par une
relation linéaire.

2.1.2 Ajustement linéaire d’un nuage de points


Représentation graphique: le nuage de points
Il s’agit d’un graphique très commode pour représenter les observations simultanées de deux
variables quantitatives (discrètes).
Considérons deux variables X et Y dont les couple d’observations sur une population de n
individus, sont
(x1, y1), (x2, y2), ..., (xn, yn).
On représente chaque couple d’observation (xi, yi) par un point du plan Mi(xi, yi).
L’ensemble de points Mi, i = 1, ..., n, est appelé nuage de points.
Exemple. Considérons les deux séries statistique sur une population de 16 individus

X : 1 1 2 2 2 3 4 5 5 5 6 7 8 8 9 10

Y:4 5 5 3 5 3 4 4 4 6 6 5 9 8 8 7

Figure 2.1: Nuage de points

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

La covariance et Le coefficient de corrélation


La covariance des variables X et Y est définie par

1Σ 1Σ
n n
Cov(X, Y ) = (x i− x)(y i− y) = x iyi − xy.
n i=1 n i=1

Remarque 2.1. Dans le cas des données groupées dans un tableau de contingence, en termes
d’effectifs (ou fréquences) on peut écrire
1Σ k l 1 k l
Cov(X, Y ) = Σ n (x — Σy)Σ
= n xy — xy,
i i j
ij ij
n i=1 j=1 x)(yj −n i=1 j=1
k l
où x = nΣ ni•xi (moyenne marginale de X) et y = Σ n•jyj (moyenne marginale de Y )
1 i=1 n
1
j=1

Proposition 2.2.
1) Cov(X, Y ) = Cov(Y, X).
2) Cov(X, X) = V (X).
3) V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y
).
4) Cov(aX + b, Y ) = aCov(X, Y ), a, b ∈ R.
5) |Cov(X, Y )| ≤ σ(X)σ(Y ).
Le coefficient de corrélation est définie par
Cov(X, Y )
.
r(X, Y ) = σ(X)σ(Y )

Ce coefficient caractérise la liaison linéaire entre les deux variables.


Remarque 2.2.
1. —1 ≤ r(X, Y ) 1.
2. Si r(X, Y ) = ±1, les points du nuage sont alignées, c’est à dire, il y a une corrélation linéaire
parfaite entre X et Y :
Y = aX + b, a, b ∈ R.
3. Si r(X, Y ) est proche de 1 ou -1, on dit que X et Y sont fortement corrélées.
4. Si r(X, Y ) > 0, les points du nuage sont alignées le long d’une droite ascendante.
5. Si r(X, Y ) < 0, les points du nuage sont alignées le long d’une droite descendante.
6. Si r(X, Y ) = 0, il n’y a pas de liaison linéaire.
Remarque 2.3. Il convient de prêter attention toute particulière aux unités choisies pour
construire le nuage de points. En effet une unité sur l’un et/ou l’autre des axes écrase ce nuage
et peut laisser croire à un alignement qui n’a pas de sens statistique. Il faut donc faire en sorte
que celui-ci remplisse au mieux la figure quite pour cela à effectuer sur l’un et/ou l’autre des
axes un changement d’origine et/ou d’unité.
Droite de Mayer
L’idée la plus simple consiste à partager l’ensemble des points (xi, yi) en deux sous-ensembles
E1 et E2 ayant à peu près le même nombre de points. On détermine G1 le centre de gravité (le
point moyen) de E1 et G2 le centre de gravité de E2. La droite de Mayer associée au nuage de
point est la droite passant par les ponts G1 et G2.
Exemple Le tableau présente l’évolution du budget publicitaire X et du chiffre d’affaire Y
d’une société sur les 6 dernière années.
Budget publicitaire (en 104 DH) 8 10 12 14 16 18
Chiffre d’affaire (en 104 DH) 40 55 55 70 75 95

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Sot G1(x1, y1) le point moyen associé au trois premier points du nuages et G2(x2, y2) le point
moyen associé au trois derniers.

x1 = 8 + 10 + 12 = 10 et y1 = 40 + 55 +
= 50.
55
3 3
x2 =
14 + 16 + = 16 et y2 = 70 + 75 + = 80.
18 95
Donc G1(10, 50) et G2(16, 80). D’où la droite d’ajustement de Mayer (G1, G2).

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Figure 2.2: Droite d’ajustement de Mayer

En supposant que cette evolution reste la même on peut par exemple estimer le chiffre
d’affaire à prévoir pour un budget de 220000 DH. Pour cela soit on utilise le graphe ou bien
l’equation de la droite de Mayer y = 5x. Ainsi pour x = 22, on trouve y = 110, ce qui veut dire
que pour un budget de 220000 DH, le chiffre d’affaire prévisionnel est 1100000 DH.
On peut aussi estimer le budget publicitaire qu’il faudrait prévoir pour obtenir un chiffre d’affaire
de 1000000 DH. On a pour y = 100, x = 20. Ceci veut dire que pour un chiffre d’affaire de
1000000 DH, le budget prévisionnel est 200000 DH.

Remarque 2.4. La construction de la droite de Mayer est extrêmement rapide et fournit une
droite tout à fait convenable lorsque les points de nuage sont presque alignés. Mais sa grande
simplicité ne permet pas d’obtenir une mesure de sa fiabilité. Nous allons présenter maintenant
une méthode nettement plus sophistiqué mais qui va nous permettre de découvrir un nouveau
paramètre statistique qui mesure le degré de confiance de cet alignement.

La droite de régression linéaire ou des moindre carrés de y en x.


Lorsque |r(X, Y ) est proche de 1 et le nuage de points a une forme linéaire ou approximativement
linéaire, |on cherche l’équation d’une droite qui s’ajuste au mieux aux valeurs aux points du
nuage.

Figure 2.3: Droite de régression

Cette droite, dite droite de régression linéaire, est généralement déterminer par la méthode
des moindres carrés, c’est à dire de manière à rendre minimum la somme des carrés des
distances (comptées parallèlement à (oy)) entre cette droite et chaque point du nuage.
Elle consiste à minimiser la fonction à deux variables
n n
Σ Σ
ϕ(a, b) = Mi Hi2 = (yi − axi − b)2 .
i=1 i=1

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Le minimum (aˆ, ˆb) peut donc être déterminer en annulant les dérivées partielles de ϕ. On
trouve ainsi (
^a Cov(X,Y )
V (X)
^b = y − ^a
=
La droite de régression linéaire de Y en X x. est y = ax
^ + b. Notons que cette droite passe par le
point moyen G(x, y).
^
Les valeurs ^yi = a xi + b sont appelées les valeurs ajustées (prédites).
Les écarts ei = yi — yi sont appelées les résidus de la régression linéaire de Y en X.
La moyenne^^résiduelle
^ est
1Σ n
e= ei = 0.
n
i=1
La variance résiduelle est la variance des résidus:


n
V (e) = e2
i
n i=1

Le coefficient de détermination noté R2 est par définition :


Σn 2
^ ^
n V (Y = variance expliquée
i=1(yi − y)
R2 = (yi − y)2 ) variance totale
Σ = V (Y
i=1 )
Il représente la proportion de la variance expliquée par le modèle utilisé. Dans notre cas, il
permet donc de juger la qualité de cette régression linéaire.

Remarque 2.5. Dans le cas du modèle de regression linéaire, le coefficient de


détermination est le carré du coefficient de corrélation. R2 = r2.

Exemple. On dispose des mesures de taille en cm et de poids en kg de 10 étudiants.


X(cm) 192 165 186 196 171 182 187 176 164 182
Y (Kg) 97 63 70 125 64 75 83 79 50 85

x = 180.1, y = 79.1,
σ(X) = 10.35, σ(Y ) = 19.77,
Cov(X, Y ) = 176.89
r(X, Y ) = 0.8643.
Le coefficient de détermination est R2 = r2' 74.71%, donc on a un assez bon qualité
d’ajustement (linéaire).
a^ ' 1, 6518, b ' −218, 39
La droite de régression linéaire au ^
sens des moindres carrées est

y = 1, 65x − 218, 39

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Figure 2.4: Droite de régression linéaire de Y en X.

Remarque 2.6. On peut déterminer de la même façon, la droite de regression de x en y.


Soit Mi(xi, yi) un nuage de pints et D′ la droite d’équation
^ x ^ αy + β (attention l’ordre est
=
inversé). Notons Hi′ la projection de Mi sur D′ parallèlement à l’axe (ox) et posons
n n
Σ Σ
2

ϕ (a, b) = MiHi = (xi − αyi − β)2.
i=1 i=1

Alors il existe de même une unique droite rendant minimale la somme ϕ′(a, b), cette droite est
appelée droite de regression de x en y ou encore droite des moindres carrés de x en y sous la
forme x = αy + β avec (
^ = Cov (X,Y )
α V (Y
β^
) = x − α^ y.

Il est bon de noter que les deux droites de regression passent par le point moyen G(x, y) et que
le produit des coefficients directeurs^a et α des droites de regression est égal à r(X, Y )2.
^
Exemple. La statistique suivante indique pour les pays concernés les taux de chômage X et
le taux de d’inflation Y correspondant à l’année 1977 exprimés en pourcentage.
Pays B D F I L NL
Chômage 6.5 4.5 4.9 7.2 0.6 4.5
Inflation 7.1 3.9 9.5 18.4 6.7 6.7
28.2 52.3
x= = 4.7, y =
6 ' 8.7167
6
158.96 2 1321
V ar(X) = σ(X)2 = 28.2 = ' 4.4033,
6 − 300
6
584.21 2 76871
V ar(Y ) = σ(Y )2 = 52.3 = ' 21.35305,
6 − 3600
6
276.9 28.2 52.3 3049
Cov(X, Y ) = . =
− 6 6 =' 5.0816
6 600
3

1 2 3 4 5 6 A B
Statistique descriptive à deux variables

Soit y = ax + b l’équation de la droite de regression de y en x. On a :

' 1.1768, b Cov(X, Y )' 3.1859.


31.09
a= = = y − ax
V ar(X) 26.42

Soit x = αy + β l’équation de la droite de regression de x en y. On a :

α= = ' 0.2423, Cov(X,


β=x− Y )αy ' 31.09
2.5882.
V ar(Y ) 128.32

Le coefficient de corrélation entre le taux de chômage et le taux d’inflation vaut :


Cov(X, Y ) 31.09
r(X, Y ) = √ ' 0.5339.
=
σ(X)σ(Y ) 26.42 × 128.32
Ce coefficient de corrélation est donc médiocre. Attention, il ne faut pas en conclure a priori
qu’il n’y a pas de relation entre les phénomènes de chômage et d’inflation. En effet, la relation
peut être d’une autre nature.

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

3.1 Dénombrement
3
3.1.1 Ensembles finis
Définition 3.1. On dit qu’un ensemble E ∅ est fini s’il existe n ∈ N∗ et une bijection de
{1, 2, ..., n} dans E. L’entier n est appelé cardinal de E et on note CardE = n. On convient
Card∅ = 0.
Proposition 3.1. Soit E un ensemble fini.
1) Si F est un ensemble en bijection avec E alors F est fini et CardE = CardF.
2) Si A ⊂ E alors A est fini et CardA ≤ CardE.

Proposition 3.2. Soient A et B deux ensembles finis.


1) Si A ∩ B = ∅ alors Card(A ∪ B) = CardA + CardB.
2) Si A ⊂ B alors Card(B\A) = CardB − CardA.
3) Card(A ∪ B) = CardA + CardB − Card(A ∩ B).
Proposition 3.3. Soit une famille (Ai)1≤i≤n formant une partition d’un ensemble Ω c’est-à-dire
!
[n n Σn
Ai = Ω et Ai ∩ Aj = ∅ pour tout i /= j. Alors Ai = CardAi
i =1
[
Card i=1
i=1

Proposition 3.4. Soit (Ei)1≤i≤n une famille d’ensembles finis. Alors

Card(E1 × E2 × ... × En) = CardE1 × CardE2 × ... × CardEn.

3.1.2 Arrangements et combinaisons


Définition 3.2. On appelle k-uplet d’un ensemble E tout élément (x1, ..., xk) de Ek.

Proposition 3.5. Le nombre de k-uplets d’un ensemble à n éléments est nk.


Exemple. On lance une pièce de monnaie trois fois successive. Un résultat est 3-uplet de
E = {P, F }, donc le nombre de résultats est 23.
Définition 3.3 (Arrangement). On appelle arrangement de k éléments d’un ensemble E, tout
k-uplet d’éléments deux à deux distincts de E.

Proposition 3.6. Le nombre d’arrangements de k éléments d’un ensemble à n éléments est


n!
Ak = n(n − 1)...(n − k + 1) = .
n
(n − k)!
Remarque 3.1. Lorsque k = n, on parle plutôt de permutation que d’arrangement et on a n!
est le nombre de permutations d’un ensemble à n éléments.

Définition 3.4 (Combinaison). On appelle combinaison de k éléments d’un ensemble E, tout


sous-ensemble de E ayant k éléments.

Proposition 3.7. Le nombre de combinaison de k éléments d’un ensemble à n éléments est


n! Akn
k
n = Cn = = .
k!(n − k)! k!
k
Remarque 3.2. On a
Ck = Ck−1 + Ck
3

1 2 3 4 5 6 A B
pour tout 1 ≤ k ≤ n.
n n−1 n−1

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

Cette relation permet de construire le triangle de Pascal:

11
12 1
13 3 1
14 6 4 1
1 5 10 10 5 1

Applications
On considère une urne contentant n boules. On tire au hasard un nombre k de boules de cette
urne.
1) Tirage avec remise
Le nombre de tirages successifs avec remise de k boules parmi n est nk.
2) Tirage sans remise
Le nombre de tirages successifs sans remise de k boules parmi n est Ank .
3) Tirage simultané
Le nombre de tirages simultanés de k boules parmi n est Cnk .

3.2 Espaces de probabilités


3.2.1 Expérience aléatoire et événements
. Une expérience est dite aléatoire si l’on ne peut prévoir par avance son résultat.
. Ensemble fondamental ou encore l’univers des possibles Ω est l’ensemble de tous les résultats.
. Un événement est une assertion, dont on peut dire si elle est vérifiée ou non une fois le résultat
de l’expérience connu.
. Ω : événement certain.
. ∅ : événement impossible
. {w}, où w Ω, événement élémentaire.
Exemple. Jet d’un dé à six faces numérotées: Ω = {1, 2, 3, 4, 5, 6 }.
A : obtenir un nombre paire. A = {2, 4, 6 }.
B : obtenir un nombre inférieur ou égale à 2. B = {1, 2 }.
Exemple. On lance une pièce jusqu’a obtenir pile. Le nombre de jet peut être infini.

Ω = {1, 2, ..., n, ...} = N∗, ensemble infini dénombrable.

Exemple. On observe la durée de vie d’une lampe.

Ω = [0, +∞[= R+, ensemble infini non dénombrable.

Algèbre et tribu d’événements


Un événement étant un élément de P (Ω) obéit à la théorie des ensembles. Nous allons indi-
quer dans le tableau ci-après comment certaines notions ensemblistes se traduisent, en termes
d’événements.

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

Ensemble Événement
On a observé le résultat w et w ∈ A L’événement A est réalisé
A=B Les événements A et B sont identiques
A⊂ B L’événement A implique l’événement
∅ B Événement impossible
Ω Événement certain
A∩B Les deux événements A et B son réalisés
A∪B Un au moins des événement est realisé
A∩ B =∅ Les événements A et B sont incompatibles
A = Ω\A L’événement A n’est pas réalisé
Définition 3.5. On appelle ensemble des événements, toute famille C de parties de Ω telle que:

i) Ω ∈ C;

ii) ∀A ∈ C, A = AC ∈ C (événement contraire de A);


S
iii) Pour toute famille (Ai)i∈I (I fini ou dénombrable) d’éléments de C, Ai ∈ C.
i∈I

C est appelé aussi tribu d’événements ou σ −algèbre et le couple (Ω, ) est appelé espace proba-
bilisable. C
Définition 3.6. Un système complet d’événements est une famille (Ai)∈i I formant une
partition de Ω : [
Ai = Ω et Ai ∩ Aj = ∅ ∀i /= j.
i∈I

les Ai sont deux à deux disjoints et


Ω = A1 ∪A2 ∪A3 ∪A4 A5 donc forment
un système ∪complet d’événements de
Ω.

Définition 3.7. On appelle probabilité sur (Ω, C) une application P : C → [0, 1] telle que
i) P (Ω) = 1;
ii) Pour toute famille (Ai)i ∈I (I fini ou dénombrable) d’événements deux à deux
incompatibles, on a
!
[ Σ
P i∈IAi = i∈I P (Ai ).

Le triplet (Ω, C, P ) est appelé espace


probabilisé.
Proposition 3.8.
1) P (∅) = 0.
2) P (A) = 1 − P (A).
3) Si A ⊂ B, alors P (A) ≤ P (B).
4) P ( A ∪ B) = P (A) + P (B) − P (A ∩ B).
S Σ
5) P Ai ≤ P (Ai).
i∈I i∈I

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités
Dénombrement et espace de probabilités

Théorème 3.1 (Théorème des probabilités totales 1ière version).


Soit (Bi)i∈I Un système complet d’événements. Alors, pour tout événement A,
Σ
P (A) = P (A ∩ Bi).
i∈I

Remarque 3.3.
Nous utilisons la formule des probabilités totales très souvent dans le cas où le système complet
d’événements se réduit deux éléments {B, B}. Celle-ci s’écrit alors :

P (A) = P (A ∩ B) + P (A ∩ B).

Exemple. Espaces de probabilités élémentaires


Considérons un ensemble Ω fini ou dénombrable. A chaque élément w ∈ Ω, on associe un nombre
p({w}) ≥ 0 tel que Σ p
w∈Ω ({w}) = 1.
A chaque partie A de Ω, on associe le nombre:
Σ
P (A) = p({w}).
w∈A

On définit ainsi une probabilité sur (Ω, P(Ω)).


Supposons que Ω est fini. Pour chaque w ∈ Ω, on pose
1
p({w}) = .
Card Ω
On définit alors une probabilité uniforme par
Card A
∀A ⊂ Ω, P (A) = nombre de cas favorables
= Card Ω nombre de cas possibles
Attention Il faut bien faire attention que cette règle ne s’applique que dans le cas
d’équiprobabilité des événements élémentaires.
Dans les exercices, pour signifier qu’on est dans une situation d’équiprobabilité, on a générale-
ment dans l’énoncé des expressions de type : on lance un dé non pipé, les boules dans l’urne
sont indiscernables au toucher, on choisit au hasard un ... etc.
Exemple. On lancer deux dés non pipés.
A: la somme des deux chiffres est inférieur ou égale à 5.
On a
Ω = {1, 2, 3, 4, 5, 6}2,
A = {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4,
donc 1)},
P (A) = card A =
10
.
card Ω 36

3.2.2 Lois de probabilités conditionnelles et indépendance


Définition 3.8. Soient (Ω, C, P ) e.p. et B un événement de probabilité non nulle. On appelle
probabilité conditionnelle sachant B, l’application P (./B) : C → [0, 1] définie par
P (A ∩ B)
P (A/B) = , ∈
∀ A
.P
(B) C
Cette application notée aussi PB définie une probabilité sur le même espace probabilisé.

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

Exemple. On lance deux dés non pipés.


A: la somme des deux chiffres est inférieur ou égale à 5.
B: les deux chiffres sont pairs.
Calcul de P (A/B)
On a B = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)} et A ∩ B = {(2, 2)},
donc
1 9 1
P (A ∩ B) = , P (B) = , P (A/B) = .
36 36 9
Remarque 3.4. Soit un S un événement de probabilité non nulle.
L’application P (./S) = PS vérifie toutes les propriétés d’une probabilité. On a par exemple :
• PS (Ω) = 1 et PS (∅) = 0.
• PS(A) = 1 − PS(A).
• PS(A ∪ B) = PS(A) + PS(B) − PS(A ∩ B).
Propriété 3.1. (Formule des probabilités composées)
Pour tout événements A et B de probabilité non nulle, on a

P (A ∩ B) = P (A).P (B/A) = P (B).P (A/B).

Exemple. 85% d’une population sont vaccinés contre une maladie. On a constaté que 2% des
individus vaccinés n’ont pas été immunisés contre cette maladie et ont tombés malades.
Quelle est la probabilité qu’un individu soit vacciné et malade ?
Soit V l’événement ”un individu vacciné” et M l’événement ” un individu est malade”.
85 2
La probabilité cherchée est P (V ∩ M ) = P (V ).P (M /V ) = . = 0.017.
100 100
Propriété 3.2. (Généralisation de la formule des probabilités composées)
Soient n événement A1, A2, ..., An d’un espace probabilisé vérifiant P (A1 ∩ A2 ∩ ... An) > 0.
On a ∩
P (A1 ∩ A2 ∩ ... ∩ An) = P (A1).P (A2/A1).P (A3/A1 ∩ A2)... ∩ P (An/A1 ∩ A2 ∩ ... ∩ An−1)

Exemple. Dans une urne qui contient deux boules rouges et trois noires, quatre personnes
A, B, C et D tirent successivement (dans cet ordre) une boule sans la remettre; la première qui
tire une rouge gagne. On suppose que toutes les boules ont la même probabilité d’être tirées.
Calculons la probabilité de gain de chaque personne.
Notons pour i = 1, 2, 3, 4, l’événement Ri : ”tirer une boule rouge au ième tirage”,
et pour i = 1, 2, 3, l’événement Ni : ”tirer une boule noire au ième tirage”.
2
P (A) = P (R1) = .
5
P (B) = P (N1 ∩ R2) = P (N1).P (R2/N1) 3 . 2 = 3 .
= 5 4 10
3 2 2 1
P (C) = P (N1 ∩ N2 ∩ R3) = P (N1).P (N2/N1).P (R3/N1 ∩ N2) . . = .
5 4 3 5
=
P (D) = P (N1 ∩ N2 ∩ N3 ∩ R4) = P (N1).P (N2/N1).P (N3/N1 ∩ N2).P (R4/N1 ∩ N2 ∩ N3)
P (D) 3 2 1 2 1
. . . = .
= 5 4 3 2 10
Théorème 3.2. (Théorème des probabilités totales 2ième version)
Soit (Bi)i∈I Un système complet d’événements. Alors, pour tout événement A,
Σ
P (A) = P (Bi).P (A/Bi).
i∈I
4

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

Exemple. On choisit un dé au hasard parmi un lot de 200 dés dont on sait que 50 sont
1
pipés. Pour un dé pipé, la probabilité d’obtenir 6 est . On lance le dé choisi et on a obtenu
6. Quelle
2
est la probabilité que ce dé soit pipé ?
Soit B l’événement ”Le dé choisit est pipé” et A l’événement ”le dé lancé donne
6”. La probabilité cherchée est P (B/A).
{B, B } est un système complet d’événements. En utilisant la formule des probabilités totales
(2ième version) on obtient
P (A) = P (B).P (A/B) + P (B).P (A/B)
50 × 1 150 × 1 1 1 3 1
= + = × + ×
200 2 200 6 4 2 4 6
P (A) = 1 + 1 = 1 .
8 8 4
Maintenant en utilisant la définition des probabilités conditionnelles et la formule des probabilités
composées, on obtient
P (A ∩ B) P (B).P (A/B) 1 × 1 1
P (B/A) =
= = 4 2
1 = 2.
P P (A) 4
(A)
Définition 3.9 (Indépendance).
On dit que deux événements A et B sont indépendants si P (A/B) = P (A).
Conséquences 3.1.
1) Si A est indépendant de B, alors B et indépendant de A.
2) A et B sont indépendants si et seulement si P (A ∩ B) = P (A) × P (B).
Exemple. On jette un dé rouge et un dé vert non pipés et on considère les événements A :
”le dé vert marque 6”, et B : ”le dé rouge marque 5”. Montrons que ces deux événements sont
indépendants (bien entendu ce résultat est évident, il n’y a pas d’influence d’un dé sur l’autre
!).
On a Ω = {1, 2, 3, 4, 5, 6}2 et A = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)},
B = {(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5)}, A ∩ B = {(6, 5)}. On obtient

P (A) = Card A 6 1
= =
Card Ω 36 6
P (B) = Card B 6 1
= =
Card Ω 36 6
card( A ∩ B) 1
P (A ∩ B) = = = P (A).P (B).
card Ω 36
Donc A et B sont bien indépendants.
Exercice. Si A et B sont indépendants, alors :
i) A et B sont indépendants.
ii) A et B sont indépendants.
iii) A et B sont indépendants.
Corrigé. i) Supposons A et B sont indépendants. En appliquant le théorème des probabilité
totales on obtient
P (A ∩ B) = P (A) − P (A ∩ B)
= P (A) − P (A).P (B)
= P (A)(1 − P (B))
P (A ∩ B) = P (A).P (B)
Donc A et B sont indépendants.

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités
ii) Il suffit d’échanger les rôles de A et B.
iii) il suffit d’appliquer les résultats i) et ii).

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités

Définition 3.10. Les événements A1, A2, ..., An sont dits mutuellement indépendants si, pour
tout I ⊂ {1, 2, ..., n}, !
\ Y
P Ai = P (Ai).
i∈I i∈I

Première formule de Bayes


Soient A et B deux événements tels que P (A)P (B) /= 0. Alors
P (A/B)P (B)
P (B/A) .
= P (A)
Deuxième formule de Bayes
Soit (Bi)i∈I un système complet d’événements.
Alors
P (A/Bi)P (Bi)
P (A/Bi)P (Bi)
P (Bi/A) = = Σ j j .
P (A) P (B ).P (A/B )
j∈I

Exercice. Trois machines A, B et C produisent respectivement 50%, 30% et 20% des pièces
d’une usine. Chacune de ces machines fabrique respectivement 3%, 4% et 5% de pièces dé-
fectueuses.
On tire au hasard une pièce fabriquée par cette usine : elle est défectueuse.
Calculer la probabilité que cette pièce ait été produite par la machine A.
Corrigé.
Soit D l’événement ”la pièce est défectueuse”.
L’événement A : ”la pièce est fabriquée par la machine
A”. L’événement B : ”la pièce est fabriquée par la
machine B”. L’événement C : ”la pièce est fabriquée par
la machine C”. La probabilité cherchée est P (A/D).
Les événements A, B et C forment une système complet d’événements. En appliquant la deux-
ième formule de Bayes, on obtient
P (A ∩ D)
P (A/D) =
P (D)
P (A/D) = P (A).P (D/A)
P (A).P (D/A) + P (B).P (D/B) + P (C).P
(D/C)
0.50 × 0.03 15
= 0.50 × 0.03 + 0.30 × 0.04 + 0.20 × 0.05 = 37
P (A/D) ' 0.4054.

1 2 3 4 5 6 A B
Dénombrement et espace de probabilités
Dénombrement et espace de probabilités

la situation peut être représentée par l’arbre suivante :

Figure 3.1: Arbre de probabilités pondéré

Règles : Arbre pondéré et calculs de probabilité

• La somme des probabilités inscrites sur les branches issues d’un même nœud est égale à 1.

• La probabilité d’un chemin est le produit des probabilités figurant sur ses branches. (prob-
abilités composées)

• La probabilité d’un événement est la somme des probabilités de tous les chemins menant
à un sommet où apparaît cet événement. (probabilités totales)

Figure 3.2: Arbre de probabilités pondéré

1 2 3 4 5 6 A B
Variables aléatoires discrètes

4.1 Généralités
4
4.1.1 Variable aléatoire discrète
Définition 4.1. Soit (Ω, C, P ) un espace probabilisé. On appelle variable aléatoire (v. a.) réelle
discrète toute fonction X : Ω → R telle que

i) X(Ω) = {xi : i ∈ I} avec I est fini ou dénombrable.

ii) Pour tout xi ∈ X(Ω), on a

[X = xi] := X−1(xi) = {w ∈ Ω : X(w) = xi} ∈ C,

c-à-d [X = xi] est un événement.

La famille (xi, pi)i I∈ avec pi = P (X = xi), s’appelle distribution ou loi de probabilité de la v.


a. X.

Remarque 4.1. . L’univers des réalisations X(Ω) est aussi appelé support de la loi de
probabilité de X.
. La loi de probabilité d’une variable aléatoire X est la donné de la liste des probabilités P (X = xi)
pour toutes les réalisations xi ∈ X(Ω).
Si X ne prends qu’un petit nombre de valeurs, cette distribution (ou loi de probabilité) est
généralement présentée dans un tableau.

Valeurs de X x1 x2 ... xn
pi = P (X = xi) p1 p2 ... pn
Σ
Noter que les événements [X = xi ], i ∈ I forme un système complet d’événements, donc pi =
i∈I
1.
. Si X(Ω) contient un grand nombre de réalisations ou infini, une telle représentation n’est plus
possible en pratique. on utilise alors la fonction de masse associée à la loi de probabilité.

Définition 4.2. La fonction de masse associée à la loi de probabilité de X est la fonction notée
fX qui à chaque réalisation xi ∈ X(Ω) fait correspondre la probabilité P (X = xi) :

fX (xi ) = P (X = xi ), ∀xi ∈ X(Ω).

Exemple. On lance deux fois une pièce de monnaie régulière. L’ensemble des résultats
possibles est
Ω = {P, F }2 = {(P, P ), (P, F ), (F, P ), (F, F )}.
Soit X la v. a. représentant le nombre de faces obtenues. Alors le support de X est

X(Ω) = {0, 1, 2}.

. La loi de probabilité de X :

xi 0 1 2
pi = P (X = xi) 1/4 1/2 1/4
. La fonction de masse fX :

1 2 3 4 5 6 A B
Variables aléatoires discrètes

Figure 4.1: Fonction de masse

4.1.2 Fonction de répartition


Définition 4.3. Soit X une v. a. réelle discrète définie sur (Ω, C, P ). On appelle fonction de
répartition de X l’application F : R → [0, 1] définie par

F (x) = P ([X ≤ x]),

où [X ≤ x] = {w ∈ Ω : X(w) ≤ x}.

Remarque 4.2. La fonction de répartition F notée aussi FX, contrairement à la fonction


de masse fX, est définie pour toute valeur réelle x et pas uniquement pour les valeurs des
réalisations appartenant à X(Ω). Par exemple, si le support de la variable aléatoire X est
X(Ω) = {0, 1, 2} , on peut calculer FX(1.59) = P (X ≤ 1.59), FX(5) = P (X 5) ou même
FX( —3.2) = P (X ≤ ≤ − 3.2). C’est pourquoi cette définition de la fonction de répartition est
valable tant pour les variables aléatoires discrètes, que pour les variables aléatoires continues
(voir chapitre 5).
si pi = P (X = xi), i ∈ I est la loi de probabilité de X, alors
Σ
F (x) = pi.
{i:xi ≤x}

La quantité P (X x) est appelée probabilité cumulée car elle correspond au cumul c’est-à-dire
≤ les probabilités associées à des réalisations xi X(Ω) inférieur ou égale à
à la somme de toutes
x. Ainsi ∈

Exemple. Soit X la variable aléatoire dont la loi de probabilité est donnée par le tableau
suivant
xi −4 −2 1 5
pi = P (X = xi) 0.1 0.3 0.5 0.1

1 2 3 4 5 6 A B
Variables aléatoires discrètes

La fonction de répartition F de X est définie sur R par



0 si x < −4,

 0.1 si −4 ≤ x <
F (x) = −2,0.4 si −2 ≤ x < 1,
 0.9 si 1 ≤ x < 5,
 1 si x ≥ 5

Représentation graphique de la fonction de répartition F .

Figure 4.2: Fonction de répartition F de X

Proposition 4.1. Soit F la fonction de répartition d’une v.a. réelle discrète.


1) F est croissante.
2) x→−∞
lim F (x) = 0 et lim F (x) = 1.
x→+∞
3) F est continue à droite en tout x ∈ R.
4) F a une limite à gauche en tout x ∈ R, et

P (X = xi) = F (xi) — lim F (t).


t→xi

4.1.3 Quantiles
Nous avons vu que la fonction de répartition est une fonction qui à toute valeur x ∈ R associe
la probabilité cumulative FX(x) = P (X ≤ x). Il est possible ”d’inverser” cette fonction de
répartition à fin de déterminer la valeur de x qui correspond à une certaine probabilité cumulative
α = P (X ≤ x) avec α [0, 1]. On parle alors de la fonction de répartition inverse ou de quantile
d’ordre α.

Définition 4.4. Le quantile d’ordre α de la loi de probabilité de X, notée XF −1(α) ou Qα est


la plus petite réalisation appartenant à X(Ω) associée à une probabilité cumulée supérieure ou
égale à α.
FX(Qα) = P (X ≤ Qα) ≥ α, ∀α ∈ [0, 1], ou encore
FX(F −1 −1
X(α)) = P (X ≤ F X(α)) ≥ α, ∀α ∈ [0, 1].

Interprétation d’un quantile est la suivante :


Si le quantile d’ordre α = 0.05 est égale à Q0.05 = F −1X(0.05) = 2, cela signifie qu’il y a 5% de
chances que les réalisations de la variable aléatoire discrète X soit inférieur ou égale à 2.
Exemple. Reprenons l’exemple du lancer d’une pièce de monnaie régulière deux fois. Soit X
la v. a. représentant le nombre de faces obtenues. Alors le support de X est X(Ω) = {0, 1, 2 }
et la loi de probabilité de X est donnée par le tableau suivant :

1 2 3 4 5 6 A B
Variables aléatoires discrètes

xi 0 1 2
pi = P (X = xi) 1/4 1/2 1/4
La fonction de répartition de X est représentée par

. Déterminons les quantiles d’ordre α = 0.14 ,α = 0.75 et α = 0.50.


Q0.14 = F −1X(0.14) est la plus petite réalisation de X c-à-d 0, 1 ou 2 telle que la probabilité
cumulée P (X ≤Q0.14) soit supérieure ou égale à 0.14. graphiquement, on voit que Q0.14 = 0.
De la même façon, on vérifie que Q0.75 = 1 et Q0.5 = 1.
Remarque 4.3. Le quantile d’ordre α = 0.5 de la loi de probabilité d’une v.a. X est appelé la
médiane de X et il est noté
−1
Me = Q0.5 = F X (0.5)

4.1.4 Espérance, variance, écart-type et moments


Définition 4.5 (Espérance mathématique). Soit X une v. a. réelle discrète définie sur (Ω,C , P ).
On appelle espérance mathématique de X le réel, noté E(X) donné par
n
Σ
E(X) = xiP (X = xi),
i=1

lorsque X(Ω) = {x1, x2, ..., xn},


ou +∞
Σ
E(X) = xiP (X = xi),
i=1

lorsque X(Ω) = {xi : i ≥ 1} et que cette série est absolument convergente.


Remarque 4.4. L’espérance E(X) s’interprète comme la valeur moyenne des valeurs prises
par X lorsque l’expérience est répétée un grand nombre de fois.
Lors d’un jeu, si E(X) = 0 on dit que le jeu est equitable.
Proposition 4.2. Soit X et Y deux v. a. réelles discrètes définies sur (Ω, , C
P ), qui possèdent
une espérance. On a
1) Pour tout a ∈ R, E(a) = a.
2) Pour tout (a, b) ∈ R2, E(aX + bY ) = aE(X) + bE(Y ).
En particulier E(aX + b) = aE(X) + b.

1 2 3 4 5 6 A B
Variables aléatoires discrètes

Théorème 4.1 (Théorème de transfert). Soit X une v. a. réelle discrète définie sur (Ω, C, P ) et
f une fonction continue par morceaux définie sur un intervalle contenant X(Ω) à valeur réelles.
Alors f (X) est une v. a. discrète et on a
Σ
E (f (X)) = f (xi)P (X = xi),
i

sous réserve de convergence absolue.


Définition 4.6 (Variance et écart-type). On appelle variance d’une v. a. réelle discrète X la
quantité, si elle existe
V (X) = E (X − E(X))2 .
C’est le réel sous réserve d’existence:
Σ
V (X) = (xi − E(X))2 P (X = xi).
i

La quantité σ(X) = V (X) est appelée écart-type de X.
Remarque 4.5. La variance et l’écart-type servent à apprécier la dispersion des valeurs
prises par la variable aléatoire autour de sa moyenne.
Dans un jeu cala mesure les risques en gain ou en perte pris par le joueur.
Propriété 4.1. (Deuxième formule de la variance) V (X) = E(X2) − (E(X))2
Proposition 4.3. Soit X une v. a. réelle discrète admettant une variance, alors
Pour tout (a, b) ∈ R2 V (aX + b) = a2V (X).
Définition 4.7 (Moments). On appelle moment d’ordre r ∈ N∗ d’une v. a. réelle discrète de
X le nombre réel, s’il existe
Σ
E (Xr) = xriP (X = xi).
i
On appele moment centré d’ordre r ∈ N∗ de X, le nombre réel, s’il existe
Σ
µr = E ((X − E(X))r) = (xi − E(X))rP (X = xi).
i

Exemple. Une urne contient 3 boules rouges et 4 boules noires. On tire successivement avec
remise 2 boule de l’urne.
Soit Ω = {R1, R2, R3, N1, N2, N3, N4 2 et} P probabilité uniforme. On mise au départ 10 Dh et
on gagne 8 Dh par boule rouge obtenue.
Soit X la v. a. prenant pour valeur le gain final.
. Loi de X :
xi -10 -2 6
P (X = xi) 16
49
24
49
9
49

. Espérance de X :
16 24 9 −22
E(X) = (−10) × + (−2) × +6× = .

. Variance de X : 49 49 49 7

V (X) = (−10)2 × 16 1536


24 9 2
2 2 −22 = ' 31.35.
+ (−2) × 49 + 6 × 49 − 49
49 7
. Espérance et Variance de −7X + 5 :

1 2 3 4 5 6 A B
Variables aléatoires discrètes
E(−7X + 5) = −7E(X) + 5 = 27, V (−7X + 5) = (−7)2 V (X) = 1536.

1 2 3 4 5 6 A B
Variables aléatoires discrètes

4.1.5 Variables aléatoires discrètes indépendantes


Définition 4.8. Soit X et Y deux variables aléatoires discrètes définies sur (Ω, C, P ). On dit
que les v.a.d X et Y sont indépendantes si

∀x ∈ X(Ω), ∀y ∈ Y (Ω), P [(X = x) ∩ (Y = y)] = P (X = x).P (Y = y).

Il revient au même de dire que pour tout (x, y)∈ X(Ω) Y (Ω) les événements [X = x] et
[Y = y] sont indépendants.
Exemple .
On lance deux fois un dé équilibré numérotés de 1 à 6. On note X la v.a.d qui représente le
numéro obtenu lors du premier lancer et Y la v.a.d qui représente le numéro obtenu lors du
deuxième lancer.
On a X(Ω) = Y (Ω) = {1, 2, 3, 4, 5, 6} et on a pour tout (x, y) ∈ X(Ω) × Y (Ω),
1 1 1 1
P [(X = x) ∩ (Y = y)] = , et P (X = x).P (Y = y) = × = .
36 6 6 36
Donc P [(X = x) ∩ (Y = y)] = P (X = x).P (Y = y). D’où X et Y sont indépendants.
Plus généralement on la définition suivante :
Définition 4.9. Soit X1, X2, ... et Xn des variables aléatoires discrètes définies sur (Ω, C, P
). On dit que les v.a.d X1 , X2 , ... et Xn sont indépendantes si ∀x1 ∈ X1 (Ω), ∀x2 ∈
X2 (Ω),... et
∀xn ∈ Xn
P [(X1 = x1) ∩ (X2 = x2) ∩ ... ∩ (Xn = xn)] = P (X1 = x1).P (X2 = x2)...P (Xn = xn).

Il revient au même de dire que pour tout (x1, x2, ..., xn) ∈ X1(Ω) × X2(Ω) × ... Xn(Ω) les
événements (X1 = x1), (X2 = x2),...(Xn = xn) sont (mutuellement) indépendants.
×

4.2 Lois classiques


4.2.1 Loi uniforme discrète
Définition 4.10. on dit qu’une v.a.r X suit une loi uniforme discrète sur l’intervalle
[[1, n]] = {1, 2, ..., n} de N, si l’on a :
1
X(Ω) = [[1, n]] et ∀k ∈ [[1, n]], P (X = k) =
n
Nous écrivons alors X ‹→ Un.
Situation concrète.
On choisit au hasard (c-à-d avec équiprobabilité) un objet parmi n objets numérotés de 1 à n
et on appelle X la variable aléatoire donnant le numéro de l’objet choisit.
Proposition 4.4. Si X ‹→ Un alors
n+ n2 − 1
E(X) = et V (X) = .
1 12
2
Exemple. On lance un dé non pipé numéroté de 1 à 6 et on considère la variable aléatoire X
donnant le numéro de la face obtenue.
1
On a X(Ω) = {1, 2, 3, 4, 5, 6} et ∀k ∈ X(Ω), P (X = k) = .
6
Donc X suit une loi uniforme discrète sur [[1, 6]] et on écr it X ‹→ U6 .
On a 6+1 62 − 1 35
E(X) = 2 = 3.5 et V (X)

1 2 3 4 5 6 A B
Variables aléatoires discrètes
= ' 2.9.
12 12 On peut définir une loi uniforme discrète sur un ensemble non vide quelconque de R.

1 2 3 4 5 6 A B
Variables aléatoires discrètes

Remarque 4.6. Soit {x1, ..., xn} ⊂ R un ensemble de n éléments. on dit qu’une v.a.r X :
Ω −→ R suit une loi uniforme discrète sur {x1, ..., xn} si
• X(Ω) = {x1, ..., 1 1
xn}.
• ∀k ∈ [[1, n]], P (X = xk) = = .
n cardX(Ω)
x1 + ... + xn x2 + ... + 2
Dans ce cas E(X) = et V (X) x21 n x1 + ... + xn
.
= n −
n n

4.2.2 Loi de Bernoulli


Définition 4.11. Soit p ∈]0, 1[. On dit qu’une v. a. X suit la loi de Bernoulli de paramètre p
si

(i) X(Ω) = {0, 1};

(ii) P (X = 1) = p et P (X = 0) = 1 − p.

On note X ‹→ B(1, p).

Situation concrète.
Une variable aléatoire de Bernouli illustre généralement toute experience aléatoire n’ayant que
deux issues possibles : le succès ou l’échec, effectuée une seule fois. Une telle expérience est
alors appelée épreuve de Bernoulli. On affecte alors 1 à la variable en cas de succès et 0 en cas
d’échec.
. Dans une expérience aléatoire où on s’interesse à la réalisation d’un événement A donné. La
v.a X égale à 1 si A est réalisé et égale à 0 sinon est une variable aléatoire de Bernouli.
. Lancer une pièce où la probabilité d’amener pile est p ∈]0, 1[. Le fait d’amener pile étant
considéré comme un succès. X : le nombre de pile obtenu suit une loi de Bernouli.
. Effectuer un tirage d’une boule dans une urne contenant une proportion p de boules blanches.
X : le nombre de boules blanches obtenues suit une loi de Bernouli.

Proposition 4.5. Si X ‹→ B(1, p), alors E(X) = p et V (X) = p(1 − p).

4.2.3 Loi binomiale


Définition 4.12. Soient n ∈ N∗ et p ]0, 1[. On dit qu’une v. a. X suit la loi binomiale de
paramètres n et p si

i) X(Ω) = {0, 1, 2, ..., n};


n
ii) ∀k ∈ {0, 1, 2, ..., n}, P (X = k) = pk(1 − p)n−k = Ckpk(1 − p)n−k.
n
k
On note X ‹→ B(n, p).
Situation concrète.
. Si on effectue une épreuve de Bernouli de paramètre p. Elle n’a donc que deux issues : le
suc- cès avec une probabilité p et l’échec avec une probabilité
− 1 p. Si on répète n fois cette
épreuve et si les n épreuves sont indépendantes c-à-d la probabilité de succès p est la même à
chaque épreuve. Alors la variable X donnant le nombre de succès au cour de ces n épreuve
suit une loi Binomiale de paramètres n et p.
. Une v.a X qui suit une loi binomiale de paramètres n et p peut être vue comme une somme
de n variables aléatoires indépendantes de Bernouli Xi de paramètre p.

1 2 3 4 5 6 A B
Variables aléatoires discrètes
1 pour le succès,
X = X1 + X2 + ... + Xn où Xi : 0 sinon.

1 2 3 4 5 6 A B
Variables aléatoires discrètes

Proposition 4.6. Si X ‹→ B(n, p), alors E(X) = np et V (X) = np(1 − p).

Remarque 4.7. le mot binomial vient du fait que lorsqu’on somme toutes ces probabilités, on
retrouve le développement du binôme de Newton,
Σ
n
k k n− k n
n C p (1 − p)
k=0
= (p + 1 − p) = 1.
Exemple. On lance 4 fois un dé équilibré numéroté de 1 à 6 et on considère X la variable
aléatoire qui compte le nombre d’apparition de la face 6.
Montrons que X suit une loi binomiale et calculons E(X) et V (X).
. Lancer
1 un dé équilibré numéroté de 1 à 6 une fois est une épreuve de Bernouli de paramètre
p = 6 . On a répéter cette épreuve 4 fois d’une façon indépendante. Donc la variable aléatoire
X donnant le nombre d’apparition de la face 6, compte le nombre 1de succès de ces épreuves.
1
Par consequent X suit la loi binomiale de paramètre n = 4 et p = et on écrit X ‹→ B(4, ).
On a 6 6

k
X(Ω) = {0, 1, 2, 3, 4} et ∀k ∈ X(Ω), P (X = k) = C4k 1 4−k 4−k
1−
1 = Ck 5
6 6 4 .
64
1 2
. L’espérance de X est E(X) = 4 × = .
16 3
. La variance de X est V (X) = 4 5 = 10
× × .
6 6 18
4.2.4 Loi géométrique
Définition 4.13. On dit q’une v.a.r X suit une loi géométrique de paramètre p si on a :

X(Ω) = N∗ et ∀k ∈ N∗, P (X = k) = (1 − p)k−1p.

Nous écrivons alors X ‹→ G(p).

Situation concrète.
. On effectue une épreuve de Bernoulli. Elle n’a donc que deux issues : le succès avec une proba-
bilité p ou l’échec avec une probabilité 1− p. Puis on répète l’épreuve jusqu’à l’apparition du premier succès
de sorte que toutes les épreuves sont indépendantes entre elles. Alors dans cette situation, X la
variable aléatoire égale au rang de l’apparition
du premier succès suit une loi géométrique de paramètre p. On dit que X est le temps
d’attente du premier succès.

Remarque 4.8. On est donc dans les même hypothèses que pour la loi binomiale, mais le
nombre d’épreuves n’est pas fixé à l’avance. on s’arrête au premier succès.
1 1−p
Proposition 4.7. Si X ‹→ G(p) alors E(X) = et V (X) = .
p p2

Remarque 4.9. Le mot géométrique vient du fait que lorsqu’on somme toutes ces probabilités,
on obtient une série géométrique.

Σ
+∞
p
(1 − p)k−1 p = = 1.
k=0
1 − (1 − p)

1 2 3 4 5 6 A B
Variables aléatoires discrètes

Exemple.
On lance une pièce régulière jusqu’à obtenir pour la première fois face. Soit X la variable
aléatoire égale au nombre de lancers nécessaires pour obtenir face.
. Calcul de la probabilité pour obtient face au bout de 5 lancers.
Lancer une pièce une fois est une épreuve de Bernouli. La probabilité d’obtenir face (le
1
succès) est p = . On répète cette expérience jusqu’à obtenir le premier succès. Donc X suit
une loi
2 1
géométrique de paramètre p = .
La probabilité cherchée est
5
5−1 1 1
2 1 1
P (X = 5) = = = .
1− 2 2 32
2
1
. Calcul de E(X): E(X) = = 2.
p

4.2.5 Loi hypergéométrique


Définition 4.14. Soit une urne contenant N boules dont a boules blanches et b boules noires
avec a + b = N. On effectue n tirage d’une boule sans remise (ou on prélève simultanément
n boules) avec n N. Le tirage sans remise est dit exhaustif. Soit X la variable aléatoire

représentant le nombre de boules blanches obtenues. La variable X est dite hypergéométrique et
on note X ‹→ H(N, a, n). Cette loi depend de trois paramètres.
On a dans ce cas X(Ω) ⊂ [[0, n]] et plus précisément X(Ω) = [[max(0, n − b), min(n, a)]].

CakCbn−k
P (X = k) =
n , ∀k X(Ω).
CN

Remarques 4.1. . Si p est la proportion des boules blanches de l’urne et q celle des boules
b
noires, on a p = et q = avec p + q = 1. Donc on a a = pN et b = qN = (1 − p)N et
a N
N
k n−k k n−k
CpN CqN CpN C(1−p)N
P (X = k) = = , ∀k ∈ X(Ω).
C C
n
N n
N
et on note X ‹→ H(N, p, n).
p
. On sait que Cn = 0 si p < 0 ou p > n. Ainsi P (X = k) = 0 si k excède a ou si n −k excède b.
C’est pour cela que la connaissance exacte de X(Ω) n’est pas fondamentale et on peut écrire
la loi de X sous la forme :

CkCn−k
CkpNCn−k
a b n (1−p)N
∀k ∈ [[0, n]], P (X = k) = N ou P (X = k) = n
.
C CN

Proposition 4.8. Soit une variable aléatoire X ‹→ H(N, p, n). Alors

1. L’espérance mathématique est donnée par E(X) =


np. (Formule identique à celle d’une loi binomiale).
N−n N−n
2. la variance est donnée par V (X) = npq = np(1 − p) .
= Exemple.
N − nN − 1
Le rapport ρ
5

1 2 3 4 5 6 A B
Variables aléatoires discrètes
N− est appelé coefficient N−1
d’exhaustivité.
Chaque matin, un professeur interroge 4 étudiants pour tester leurs connaissance du cours. Une

1 2 3 4 5 6 A B
Variables aléatoires discrètes

indiscrétion lui permet de savoir que dans la classe composée de 45 étudiants, 10 ne connaissent
pas le cours. 10
On se trouve dans la situation d’un ensemble E comprenant 45 éléments dont une proportion
45
d’une catégorie d’éléments (les étudiants ne connaissent pas le cours). Le professeur interroge 4
étudiants successivement sans interroger deux fois le même étudiant (ce qui correspond à 4
tirages successifs sans remise d’un élément de E) alors la variable aléatoire X representant le
nombre d’éléments des étudiants qui ne connaissent pas le cours, obtenus suit une loi
hypergéométrique 10
H(45, 10, 4) ou H(45, , 4) et on a
45
C10k C354−k
P (X = k) = , ∀k ∈ {0, 1, 2, 3, 4}.
C4 45
10 8
. L’espérance mathématique est E(X) = 4 × = ' 0.88.
10 35 45 −454 9
574
. La variance est V (X) = 4 × × × = ' 0.64.
Proposition 4.9.
45 45 45 − 1 891 . Lorsque , alors
Soit une variable aléatoire X ‹→ H(N, p, N −→ +∞
n)
H(N, p, n) −→ B(n, p).
En pratique si N > 10n, alors on peut approcher la loi hypergéométrique par la loi binomiale.

4.2.6 Loi de Poisson


Définition 4.15. Soient λ > 0. On dit qu’une v. a. X suit la loi de paramètre λ si
i) X(Ω) = N;
k
λ
ii) ∀k ∈ N, P (X = k) = k! e−λ.
On note X ‹→ P(λ).
Situation concrete.
La loi de Poisson modélise des situations où l’on s’intéresse au nombre d’occurrences d’un
événe- ment dans un laps de temps déterminé ou dans une région donnée. Par exemple :
. Nombre d’appels téléphoniques qui arrivent à un standard en x minutes.
. Nombre de clients qui se présentent à un guichet de banque en une heure.
. Nombre de malades qui arrivent au urgence d’un hôpital en une nuit.
. Le nombre de véhicules franchissant un poste de péage pendant une période de temps.
. le nombre de défauts de peinture par m2 sur la carrosserie d’un véhicule.
Les phénomènes ainsi étudiés sont des phénomènes d’attente.
Proposition 4.10. Si X ‹→ P(λ), alors E(X) = λ et V (X) = λ.
Exemple. On considère X la variable aléatoire mesurant le nombre de clients se présentant
au guichet d’un bureau de poste par intervalle de temps de durée 10 minutes entre 14h30 et
16h30. X suit une loi de Poisson. On suppose→ que X ‹ (5).
. La probabilité qu’entre 14h30 et 14h40, 10 personnes
P exactement se présentent à ce guichet
vaut :
10
P (X = 10) = — 55 . ' 0.018.
e 10!
. La probabilité qu’entre 15h10 et 15h20, au maximum 3 personnes se présentent à ce guichet
vaut :
P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)

1 2 3 4 5 6 A B
Variables aléatoires discrètes
0
= e0 5 + −5
.
51 + e−5 52 + e−5 53
. .
e 1! 2! 3!
0!
P (X ≤ 3) ' 0.265

1 2 3 4 5 6 A B
Variables aléatoires discrètes

. La probabilité qu’entre 15h50 et 16h, au moins une personne se présente à ce guichet vaut :

P (X ≥ 1) = 1 − P (X 0< 1) = 1 − P (X = 0)
−5 5
= 1− e .
0!
P (X ≥ 1) ' 0.993

Proposition 4.11. Soit une v.a. X ‹→ (n, p). On pose np = λ. On suppose que λ est une
constante positive fixée. B
k
lim −λ λ
n→+∞ P (X = k) = .
k!
e
On en déduit qu’une loi binomiale B(n, p) peut être approchée par une loi de Poisson P (λ)
lorsque n est suffisamment grand et p petit, avec λ = np.
En pratique, On peut estimer une bonne approximation avec des valeurs de l’ordre de :

n ≥ 30, p ≤ 0.1 et np ≤ 10.

Exemple. Suite à une vaccination contre le paludisme, dans une population à risque, on es-
time à 2%, compte tenu du délai d’immunisation, la proportion de personne qui seront pourtant
atteintes de la maladie.
Quelle est la probabilité de constater, lors d’un contrôle dans un petit village de 100 habitants
tous recrement vaccinés, plus d’une personne malade ? (on supposera l’indépendance des éven-
tualités).
Compte tenu des hypothèses, la v.a X qui compte le nombre de malade suit une loi binomiale
de paramètre n = 100 et p = 0.02. On a np = 2 et tous les conditions de l’approximation par
une loi de Poisson sont vérifiées. La probabilité cherchée est

P (X > 1) = 1 − P (X ≤ 1) = 1 − P (X = 0) − P (X = 1)
1
= 1− e 20 −2 2
−2
−e 1!
P (X > 1) = 0.5939.. 0!

L’application peu pratique de la loi binomiale aurait fournit

P (X > 1) = 1 − P (X = 0) − P (X = 1) = 1 − (0.98)100 − 2(0.98)99 = 0.5967..

L’approximation dans ce cas est excellente.

1 2 3 4 5 6 A B
Variables aléatoires continues

5.1 Généralités
5
5.1.1 Variable aléatoires réelles et densité de probabilité
Définition 5.1. Soit (Ω, C, P ) un espace probabilisé. On appelle variable aléatoire réelle toute
fonction X : Ω → R telle que

Pour tout intervalle I ⊂ R, [X ∈ I] := X−1(I) = {w ∈ Ω : X(w) ∈ I} ∈ C.

Cela exprime que l’image réciproque d’un intervalle quelconque de R est un événement.
En d’autre terme, une variable aléatoire est dite réelle si elle peut prendre toutes les valeurs d’un
intervalle de R.
On appelle loi de probabilité de X la donné de PX :

PX (I) = P (X ∈ I) = P (X −1 (I)), ∀I ∈ C.

Définition 5.2. (densité de probabilité)


Soit f : R −→ R une fonction. On dit que f est une densité de probabilité si les conditions
suivantes sont vérifiées.

1. f (x) ≥ 0 ∀x ∈ R.

2. f est continue presque partout, c-à-d peut ne pas être continue sur un ensemble
dénombrable de points de R.
∫ +∞
3. f (x)dx = 1.
−∞

Définition 5.3. Soit f une densité de probabilité. On dit qu’une variable aléatoire X est de
densité de probabilité f si pour tout a, b ∈ R tels que a ≤ b, on a
∫ b

P (a ≤ X ≤ b) f
a (x)dx.
=
On dit que X est une variable aléatoire à densité ou continue.

Propriétés 5.1. Soit X une v.a. continue de densité f. On a

1. ∀a ∈ R, P (X = a) = 0.
2. P (X < a) = P (X∫ a) = a
−∞ f (x)dx.
∫ ∞ ≤
3. P (X > a) = P (X ≥ a)+ =
a

4. ∀a,f b(x)dx.
∈ R, tels que a ≤ b, on a

∫ b
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
f (x)dx.
= a

5.1.2 Fonction de répartition


Définition 5.4. Soit X une v. a. réelle définie sur (Ω, C, P ) de densité de probabilité f. On
appelle fonction de répartition de X l’application F : R → [0, 1] définie par

∫ x
F (x) = P (X ≤ x) = f (t)dt.
−∞

1 2 3 4 5 6 A B
Proposition 5.1. Soit F la fonction de répartition d’une v.a.r X de densité f. Alors :

1 2 3 4 5 6 A B
Variables aléatoires continues

1. F est à valeurs dans [0, 1].

2. F est croissante sur R.

3. ∀a, b ∈ R, tels que a ≤ b, P (a < X ≤ b) = F (b) − F (a).


4. lim
x→−∞F (x) = 0 et lim F (x) = 1.
x→+

5. F est continue sur R.

6. F est derivable sur R sauf en au plus un nombre dénombrable de points et F ′(x) = f (x)
si F est derivable en x.

Remarques 5.1. . La probabilité pour que X appartienne à un intervalle de R pouvant se


calculer à partir de la fonction caractéristique F. Cette fonction caractéristique caractérise la
loi de X.
. Par comparaison avec le cas discret, seul les deux dernières propriétés changent. F est
main- tenant continue au lieu d’être juste continue à droite. Ceci permet de distinguer la
fonction de répartition d’une v.a continue de celle d’une v.a. discrète.
. La dernière propriété permet d’obtenir la densité f si on connaît la fonction de répartition F
en dérivant. Inversement si on connaît la densité f, on peut obtenir la fonction de répartition
F en integrant.

5.1.3 Quantiles
Tout comme dans le cas des variables discrètes, il est possible ”d’inverser” la fonction de répar-
tition à fin de determiner la valeur de x ∈R qui correspond à une certaine probabilité cumulée
α = P (X ≤x) avec α [0, 1]. On obtient alors la fonction de répartition inverse ou le quantile
d’ordre α. La définition du quantile est légèrement différente de celle présentée dans le cadre
des variables aléatoires discrètes.

Définition 5.5. Soit X une variable aléatoire réelle, le quantile d’ordre α de la loi de
probabilité de X notéeXQα ou F −1(α), est la réalisation appartenant à⊆X(Ω) R correspondant à
une probabilité cumulée égale à α.
−1 −1
FX (F X (α)) = P (X ≤ F X (α)) = α, ∀x ∈ [0, 1].

Interprétation d’un quantile est la suivante :


Si le quantile d’ordre α = 0.15 est égale à Q0.15 = F −1X(0.15) = 3, cela signifie qu’il y a 15% de
chances que les réalisations de la variable aléatoire réelle X soit inférieur ou égale à 3.

Définition 5.6. (Médiane d’une v.a.)


La médiane d’une variable aléatoire X continue est la valeur Me de X pour laquelle la
1
fonction de répartition est égale à . C’est-à-dire le quantile d’ordre α = 0.5.
2
1
F (Me) = P (X ≤ Me) = .
2
Exemple. Soit f la fonction définie par

 0 si x ≤ 0,
f (x) √
21 x
si 0 < x ≤
 = 1,
0 si x ≥ 1.

1 2 3 4 5 6 A B
Variables aléatoires continues

. Montrons que f est une fonction de densité d’une certaine variable aléatoire continue.

. On a f (x) ≥ 0,∀x R.
. f est continue sauf en x = 0 et en x = 1.
∫ +∞ ∈ ∫ 1
√ .
f (x)dx f (x)dx 1
. x = 1.
= = 0
− ∞ 0
Do n c f est une den sité de probabilité.

Calculons sa fonction de répartition.


. Si x ≤ 0 alors F (x) = 0 dt = 0.
x −∞
∫0 ∫ x 1∫ √ √
x
. Si
Si 0x <
> x1 ≤ 1 alors
alors F (x) 0
F (x) = −∞ −∞ 0 dt∫0+ √ dt + dt
0 1 2 √t x =dt =t01 = x.
= 0
∫ 0 dt + 2 t
1 .1
.

e 1 1 1
. la médiane de X est M = 4 , car F 4 = 2.
Exemple. (Détermination de la densité de la v.a. g(X))
Soit X une v.a. continue de densité f définie par
1, si 0 < x < 1,
f (x) =
0, sinon

Déterminer la densité de la v.a Y = eX.


. Soit y ∈ R. Si y ≤ 0 alors FY (y) = P (Y ≤ y) = P (eX ≤ y) = P ( ) = 0.
X x
. Si y ∈]0, +∞ [ alors
∅ FY (y) = P (Y ≤ y) = P (e ≤ y) car la fonction x −→ e est bijective,
et strictement croissante.
Donc Si y∈]0, +∞ [ alors FY (y) = FX(ln y).
En dérivant, on obtient fY (y) = y1 .f (ln y).
Si 0 < ln y < 1, c-à-d 1 < y < e alors f (ln y) = 1 et donc fY (y) = y1 .
Sinon f (ln y) = 0 et donc fY (y) = 0.
En résumé la densité de Y = eX est définie par

1
y,
fY (y) si 1 < y < e,
= 0, sinon.

Remarque 5.1. Même si la fonction g n’est pas bijective, on peut parfois determiner la densité
Y = g(X) par dérivation de P (Y ≤ y) = P (g(X) y). Prenons l’exemple de g(x) =
x2. Soit∈y ≤ R. FY (y) = P (Y y) = P (X2 y).
2
Si y < 0 alors P (X ≤ y) = 0 et donc f (y) = 0.
≤ Y √ √ √ √
Si y ≥ 0 alors FY (y) = P (X 2 ≤ y) = P (− y ≤ X ≤ y) = FX ( y) − FX (− y).
1 √ 1
En dérivant on obtient ( y) + f √
(y) =
fY √ fX 2√y X (− y).
2 y
Finalement la densité de la v.a Y = X2 est donnée par

1 2 3 4 5 6 A B
Variables aléatoires continues
(
√ √
1
fY (y) = √ fX ( y) + fX (− y) , si y ≥ 0,
2 y
0, sinon.

1 2 3 4 5 6 A B
Variables aléatoires continues

5.1.4 Espérance, variance, écart-type et moments


Définition 5.7 (Espérance). Soit X une v. a. réelle de densité f définie. On appelle espérance
(mathématique) de X le réel, noté E(X) donné par

E(X) = +∞ xf (x)dx,
−∞

lorsque cette intégrale est absolument convergente.

Proposition 5.2. Soient X et Y deux v. a. réelles à densité admettant une espérance et


a, b ∈ R. Alors,
E(aX + b) = aE(X) + b, E(X + Y ) = E(X) + E(Y ).

Théorème 5.1 (Théorème de transfert). Soit X une v. a. réelle de densité f et φ une fonction
de R dans R telle que |φ|f soit integrable sur R. Alors, φ(X) possède une espérance, et on a

E (φ(X)) = +∞ φ(x)f (x)dx.
−∞

Définition 5.8 (Variance et écart-type). Soit X v. a. réelle de densité f. On appelle variance


de X la quantité, si elle existe

V (X) = E (X − E(X))2 .

C’est le réel sous réserve d’existence:


∫ +∞
2
V (X) = x − E(X) f (x)dx.
−∞

La quantité σ(X) = √V (X) est appelée écart-type de X.

Proposition 5.3. Soient X une v. a. réelle à densité admettant une variance et a ∈ R. Alors,

V (X) = E(X2) − (E(X))2, V (aX + b) = a2V (X).

Remarque 5.2. Soit X une v.a continue (ou discrete) d’espérance E(X) et d’écart-type σ(X).
La variable aléatoire définie par :
∗ X − E(X)
X = σ(X)
est appelée v.a. centrée réduite associée à la v.a. X et on a E(X∗) = 0 et σ(X∗) = 1.

Définition 5.9 (Moments). Soit X une v. a. réelle de densité f. On appelle moment d’ordre
r ∈ N∗ le nombre réel, s’il existe
∫ +∞
E (X ) =
r
xrf (x)dx.
−∞

On appele moment centré d’ordre r ∈ N∗ de X, le nombre réel, s’il existe


µr = E ((X − E(X))r) = +∞
(x − E(X)r) f (x)dx..
−∞

1 2 3 4 5 6 A B
Variables aléatoires continues

5.2 Lois usuelles continues


5.2.1 Loi uniforme sur [a, b]
Définition 5.10. On dit qu’une v.a.r X suit la loi uniforme continue sur [a, b] si elle a pour
densité f définie par
f (x) = 1 si x ∈ [a, b]
b−a

On note X ‹→ U([a, b]). 0 sinon

Figure 5.1: densité de probabilité de X ‹→ U([a, b])

Proposition 5.4. Si X ‹→ U([a, b]), alors sa fonction de répartition est la fonction



 0 si x < a
F x−a si a ≤ x ≤
b−a
(x) 
= b, x > b
1 si

Figure 5.2: fonction de répartition de X ‹→ U([a, b])

Proposition 5.5. Si X ‹→ U([a, b]) alors X a une espérance et une variance.

a+ (b − a)2
E(X) = et V (X) = .
b 12
2
Propriété 5.1. Si X ‹→ U([a, b]) alors pour tout intervalle [c, d] ⊂ [a, b], on a
d− c
P (c X d) = .

b−a
Situation concrete. On utilise généralement la loi uniforme continue lorsque la situation se
ramène à choisir au hasard un nombre réel dans un intervalle.

1 2 3 4 5 6 A B
Variables aléatoires continues
Exemple. A l’arrêt donné d’un bus, un bus passe toutes les 10 minutes. Un voyageur ignore

1 2 3 4 5 6 A B
Variables aléatoires continues

les horaires et arrive à cet arrêt de bus. Quelle est la probabilité d’attendre le bus exactement
3 minutes ? entre 2 et 4 minutes ? plus de 5 minutes ?
Soit T la variable aléatoire représentant le temps d’attente, en minutes. On peut supposer que
T suit la loi uniforme U [0, 10]), puisque la situation se ramène à choisir au hasard un nombre
entre 0 et 10.
La probabilité que ce voyageur attend exactement 3 minutes est P (T = 3) = 0.
La probabilité que4 −ce2voyageur
2 1attend entre 2 et 4 minutes est :
P (2 T 4) = = = .
≤ 1 0 − 0 1 0 5
La probabilité qu e c e v oyag e ur a ttend plus de 5 minutes est
5−0 1
P (T > 5) = 1 − P (T ≤ 5) = 1 − F (5) = 1 − = .
10 − 0 2 0 + 10
L’attente moyenne de ce voyageur à cet arrêt de bus en minute est E(T ) = 5.
= 2

5.2.2 Loi exponentielle


Définition 5.11. Soit θ > 0. On dit qu’une v. a. X suit la loi exponentielle de paramètre θ si
elle a pour densité f définie par

0 si x < 0
f (x) =
θe−θx si x ≥ 0.

On note X ‹→ E(θ).

Figure 5.3: densité de X ‹→ E(θ)

Proposition 5.6. Si X ‹→ E(θ), alors


1 1
E(X) = et V (X) = .
θ
θ2
Proposition 5.7. Si X ‹→ E(θ), alors sa fonction de répartition est la fonction

0 si x < 0
F (x) = 1 − e−θx si x ≥ 0,

1 2 3 4 5 6 A B
Variables aléatoires continues

Figure 5.4: fonction de répartition de X ‹→ E(θ)

Exemple : Calcul des quantiles d’une loi exponentielle


On considère une v.a X à valeurs dans X(Ω) = R+ est distribuée selon une loi exponentielle
de paramètre θ = 2 et admettant une fonction de répartition F définie par F (x) = 1− e−θx,
x∀ R∈+.
Posons α = F (x) et inversons la fonction de répartition F ,
α = F (x) ⇐⇒ α = 1 − e−θx
⇐⇒ e−θx = 1 − α
ln(1 − α)
⇐⇒ F −1(α) = x = −
θ
ln (1 − α)
le quantile d’ordre α est donc égale à F −1(α) = − .
θ
Ainsi le quantile d’ordre α = 5% est égale à 0.0256 pui sque
ln(1 − 0.05)
F −1(0.05) = = 0.0256.

2
Le quantile Q0.05 = 0.0256 s’interprète de la façon suivante : il y a 5% de chances que les
réalisations de la variable aléatoire X soient égale au seuil F −1(0.05) = 0.0256, c’est-à-dire
P (X ≤ 0.0256) = 0.05 = 5%.
Remarque 5.3. Pour toutes les lois de probabilités pour lesquelles il n’existe pas d’expression
analytique de la fonction de répartition, il n’existe pas non plus d’expression analytique des
quantiles. Ceux-ci sont alors approchés par des méthodes numériques.
Proposition 5.8. (phénomène sans mémoire)
Si X ‹→ E(θ), alors pour tout réels t et s tels que 0 < s < t, on a
P (X < t|X > s) = P (X < t − s).
ou d’une façon équivalente

P (X > t|X > s) = P (X > t − s).


En effet :
P ((X < t) ∩ (X > s)) P (s < X < t )
P (X < t|X > s) = P (X > s) = 1 − P (X ≤ s)
F (t) − F (s) (1 − eθt) − (1 − eθs)
= 1 − F (s)
= 1 − (1 − eθs)
θ(t−s)
= =1− e eθs − eθt
eθs
= F (t − s)
P (X < t|X > s) = P (X < t − s).

1 2 3 4 5 6 A B
Variables aléatoires continues

P (X > t|X > s) = 1 − P (X < t|X > s) = 1 − P (X < t − s) = P (X > t − s).


Situation concrete. Une loi exponentielle modélise la duré de vie de la radioactivité, ou d’un
composant électronique, de décrire le temps écoulé entre deux moments, en général la duré de
vie d’un phénomène sans mémoire, ou sans vieillissement ou sans usure. En d’autre terme, le
fait que le phénomène a démarre à l’instant ou que le phénomène à démarré depuis l’instant s
revient au même.
Exemple.
La duré de vie, en heures, d’un composant électronique est une variable aléatoire X qui suit
une loi exponentielle de paramètre θ = 0.00005.
. La probabilité que ce composant tombe en panne avant 10000 heures est
P (X ≤ 10000) = F (10000) = 1 − e−0.00005×10000 ' 0.4.

. La probabilité que ce composant fonctionne au moins 15000 heures est


P (X ≥ 15000) = 1 − P (X < 15000) = 1 − F (15000) = e−0.00005×15000 ' 0.47.

. La probabilité que ce composant tombe en panne entre la 10000 heures et la 15000 heures est
P (1000 ≤ X ≤ 15000) = F (15000) − F (10000) ' 0.53 − 0.4 ' 0.13.

. Sachant que ce composant a fonctionner plus de 5000 heures. La probabilité qu’il fonctionne
au plus 15000 heures est
P (X ≤ 15000|X > 5000) = P (X < 15000 − 5000) = P (X < 10000) = P (X ≤ 10000) ' 0.4.
1
. L’espérance de vie de ce composant est E(X) = = = 500000 heures.
1
θ 0.00005

5.2.3 Loi normale ou loi de Gauss-laplace


La loi normale est la loi de certains phénomènes continues qui fluctuent autour d’une valeur
moyenne µ, de manière aléatoire, résultante d’un grand nombre de causes indépendantes dont
les effets s’ajoutent sans que l’un d’eux soient dominant.
Par exemple la taille d’un individu en cm, influencée par la nourriture, l’environnement,
l’hérédité, le lieu géographique,... etc.
Définition 5.12. On dit qu’une v. a. X suit la loi normale centrée réduite si elle a pour densité
f définie par
1 x
2

∀x ∈ R, f (x) = √ — 2 .

On note X ‹→ N (0, e
1).

1 2 3 4 5 6 A B
Variables aléatoires continues
Figure 5.5: densité de X ‹→ N (0, 1)

1 2 3 4 5 6 A B
Variables aléatoires continues

Remarque 5.4. Pour tout x ∈ R, la fonction de répartition de X ‹→ N (0, 1) est donnée par
1 ∫ x
Φ(x) = P (X ≤ x) = √ t
2
e− 2 dt.
2π −∞
x2

On ne connaît pas une expression explicite de la primitive de la fonction x −→ e . Donc 2

on a pas d’expression explicite de la fonction de répartition d’un v.a. suivant une loi normale
réduite. On la notera Φ.
Pour calculer Φ(x), on utilisera une calculatrice ou une table dite de la loi normale qui donne
des valeurs approché des probabilités.
Propriétés 5.2. Si X ‹→ N (0, 1), alors ∀a, b ∈ R, tel que a ≤ b
1. P (X ∈ I) = Φ(b) − Φ(a), où I = [a, b], [a, b[, ]a, b] ou ]a, b[.
2. P (X ≤ a) = P (X < a) = Φ(a) et P (X ≥ a) = P (X > a) = 1 − Φ(a).
1
3. ∀x ∈ R, Φ(−x) = 1 − Φ(x). En particulier Φ(0) = .
2
Proposition 5.9. Si X ‹→ N (0, 1), alors E(X) = 0 et V (X) = 1.
Théorème 5.2. Soit X une variable aléatoire qui suit une loi normale réduite. Pour tout réel
α ∈]0, 1[, il existe un unique réel strictement positif uα tel que
P (−uα ≤ X ≤ uα) = 1 − α.

Preuve. On cherche un réel x strictement positif tel que P (−x ≤ X ≤ x) = 1 − α.

P (−x ≤ X ≤ x) = 1 − α ⇐⇒ Φ(x) − Φ(−x) = 1 − α


⇐⇒ Φ(x) − (1 − Φ(x)) = 1 − α
⇐⇒ 2Φ(x) − 1 = 1 − α
⇐⇒ 2Φ(x) = 2 − α
α
⇐⇒ Φ(x) = 1 − .
2
On sait que la fonction Φ est continue et strictement croissante sur ]0, +∞[. De plus

lim 1
x−→0 Φ(x) = Φ(0) = et lim Φ(x) = 1,
2 x−→+∞

1 α positif tel
et 0 < α < 1 ⇐⇒ < 1 − 2 < 1.
2 que Φ(uα) =
Donc d’après le théorème des valeurs intermédiaires, il existe un unique x = uα
1 − α.
7

1 2 3 4 5 6 A B
Variables aléatoires continues
D’où le résultat.

strictement

1 2 3 4 5 6 A B
Variables aléatoires continues

Remarques 5.2. 1. P (−uα ≤ X ≤ ) = 1 − α ⇐⇒ P (X ≤ ) = 1 − α.


2
uα uα
2. Il est bon de retenir les valeurs de u0.01 = 2.58 et u0.05 = 1.96. Ainsi on obtient

P (−2.58 ≤ X ≤ 2.58) = P (−u0.01 ≤ X ≤ u0.01) = 1 − 0.01 = 0.99


P (−1.96 ≤ X ≤ 1.96) = P (−u0.05 ≤ X ≤ u0.05) = 1 − 0.05 = 0.95

Définition 5.13. Soient µ ∈ R et σ > 0. On dit qu’une v. a. X suit la loi normale de


paramètres µ et σ si elle a pour densité g définie par
1 (x−µ)2
− 2σ2 .
∀x ∈ R, g(x) = √ e
σ 2π
On note X ‹→ N (µ,
σ).
1 x− µ
Remarque 5.5. ∀x ∈ R, g(x) = f , où f est la densité d’une loi normale centrée
σ σ
réduite.

Proposition 5.10. Si X ‹→ N (µ, σ), alors E(X) = µ et V (X) = σ2.

Proposition 5.11. Si X suit la loi normale N (µ, σ) alors pour tout a, b ∈ R avec a = b, la
variable aléatoire Y = aX + b suit la loi normale N || / (aµ + b, a σ).
En particulier on a
X−µ
X ‹→ N (µ, σ) ⇔ Z = σ ‹→ N (0, 1).

Figure 5.6: densités de X ‹→ N (4, σ), où σ = 0.5, 1 et 2.

Remarque 5.6. On constate que plus l’écart-type σ est grand, plus la courbe s’étale autour de
la moyenne et plus le maximum est petit, en accord avec la signification de l’écart-type.

Utilisation de la table de la loi normale.


Considérons un extrait de la table de la loi centrée réduite.
z 0.05 0.06 0.07 0.08
0.9 0.8289 0.8315 0.8340 0.8365
1 0.8531 0.8554 0.8577 0.8599
1.1 0.9749 0.9770 0.8790 0.8810
1.2 0.8944 0.8962 0.8980 0.8997

1 2 3 4 5 6 A B
Variables aléatoires continues
1.3 0.9115 0.9131 0.9147 0.9162

1 2 3 4 5 6 A B
Variables aléatoires continues

Soit une variable aléatoire Z ‹→ N (0, 1).


. Calcul de P (Z ≤ 1.36) :
On écrit 1.36 = 1.3 + 0.06. Le nombre 0.9131 situé à l’intersection de la ligne 1.3 et de la
colonne 0.06 est la valeur de la fonction de répartition de Z au point z = 1.36. C’est-à dire
Φ(1.36) = 0.9131. D’où P (Z≤1.36) = 0.9131.
. Calcul de P (Z > 1.25) :
On a P (Z > 1.25) = 1 — P (Z ≤ 1.25) = 1 − Φ(1.25) = 1− 0.8944 = 0.1056.
. Calcul de P (Z ≤ − 1.17) :
On a P (Z ≤ −1.17) = Φ(− 1.17) = 1− Φ(1.17) = 1− 0.8790 = 0.121.
. Calcul de P (0.95 < Z ≤ 1.28) :
On a P (0.95 < Z ≤ 1.28) = Φ(1.28) − Φ(0.95) = 0.8997− 0.8289 = 0.0708.
Exemples de calcul inverse de la table :
Il arrive souvent que la probabilité P (Z < z) soit connue et que l’on doit trouver la valeur de z
déterminant cette probabilité. La valeur z est appelée seuil de probabilité ou simplement seuil.
. Trouver z tel que P (Z < z) = 0.67.
En cherchant dans la table de la loi normale standard, on trouve que Φ(0.44) = 0.67 et donc
z = 0.44.
. Trouver z tel que P (Z < z) = 0.95.
On cherche dans la table les valeurs les plus proches de 0.95, on trouve
Φ(1.64) = 0.9495 et Φ(1.65) = 0.9505.
On pose x1 = 1.64, y1 = 0.9495 et x2 = 1.65, y2 = 0.9505.
On cherche donc z = x tel que y = 0.95
? La formule d’interpolation linéaire
donne

x = x1 + yy2− y1
− y1 × (x 2 — x1)
0.95 − 0.9495
= 1.64 + (1.65 1.64)
× −
0.9505 − 0.9495
z = 1.645,

ce qui veut dire qu’on a 95% de la population étudiée ont une valeur inférieur à 1.645.
. Trouver z tel que P (Z ≤ z) = Φ(z) = 0.146.
Dans la table, les valeurs de z ne commencent qu’à 0.5, donc on a pas de valeurs proches de
0.146. Cela est du au fait que Φ(z) < 0.5 ⇐⇒ z < 0.
sachant maintenant que z < 0, on peut écrire Φ(z) = 1 − Φ(−z) = 0.146 soit encore
Φ(— z) = 1 − 0.146 = 0.854.
Par le tableau d’interpolation linéaire, on obtient

1.05 x 1.06
0.8531 0.854 0.8554

0.854 − 0.8531
x = 1.05 + × (1.06 − 1.05)
0.8554 − 0.8531
x = 1.053913

Donc —z = 1.054 et par suite z = − 1.054.


Déterminer les quartiles de Z
Par symétrie, Q0.25 = − Q0.75 et Q0.50 = Me = 0.
Cherchons Q0.75 tel que Φ(Q0.75) = P (Z ≤ Q0.75) = 0.75.
D’après la table statistique de la loi normale standard, on lit les valeurs
Φ(0.67) = 0.7486 et Φ(0.68) = 0.7517.
Donc Par le tableau d’interpolation linéaire, on obtient

1 2 3 4 5 6 A B
Variables aléatoires continues

0.67 Q0.75 0.68


0.7486 0.75 0.7517
0.75 − 0.7486
Q0.75 = 0.67 + ×
(0.68

0.67)
0.7517 − 0.7486
Q0.75 = 0.6745
Donc le premier quartile Q0.25 = − 0.6745 et le troisième quartile est Q0.75 = 0.6745.
Interpretation : 25% des valeurs de Z sont inférieures à − 0.6745 et 75% des valeurs de Z
sont inférieures à 0.6745.
Déterminer le neuvième décile de Z
Le neuvième décile est le quantile d’ordre α = 0.9.
On va donc chercher Q0.9 tel que Φ(Q0.9) = P (Z ≤ Q0.9) = 0.9.
D’après la table de la loi normale centré réduite, on lit les
valeurs Φ(1.28) = 0.8997 et Φ(1.29) = 0.9015.
Donc Par le tableau d’interpolation linéaire, on obtient
1.28 Q0.9 1.29
0.8987 0.9 0.9015
0.9 − 0.8997
Q0.9 = 1.28 + ×
(1.29

1.28)
0.9015 − 0.8997
Q0.9 = 1.28166
Donc le neuvième décile est Q0.9 = 1.28166.
Par symétrie, on déduit aussi le premier décile Q0.1 = —Q0.9 = − 1.28166.
Interpretation : 90% des valeurs de Z sont inférieures à 1.28166 et 10% des valeurs de Z sont
inférieures à −1.28166.
X − 15
Soit une variable aléatoire X ‹→ N (15, 2). On pose Z , alors Z ‹→ N (0, 1).
=
2
. Calcul de P (X < 16) :
X − 15 16 − 15 1
P (X < 16) = P < =P Z< = Φ(0.5)
2 2 2
P (X < 16) = 0.6915.
. Calcul de P (X > 17) :
X − 15 17 − 15
P (X > 17) = P > = P (Z > 1) = 1 − Φ(1) = 1 − 0.8413
2 2
P (X > 17) = 0.1587.
. Calcul de P (13 ≤ X ≤ 17) :

13 − 15 X − 15 17 − 15
P (13 ≤ X ≤ 17) = P 2 ≤ 2 ≤ 2 = P (−1 ≤ X ≤ 1)

= Φ(1) − Φ(−1) = 2Φ(1) − 1


P (13 ≤ X ≤ 17) = 0.6826
Exercice.
Soit X une variable aléatoire qui suit une loi normale centrée réduite.
Déterminer l’intervalle I centré en 0 tel que P (X ∈ I) = 0.8.
(On donnera les bornes de l’intervalle avec une précision de 10−2).
On a 1 − α = 0.8 ⇐⇒ α = 0.2.
On doit donc avoir Φ(uα) = 1 − α2 = 0.9.
C’est-à-dire uα = Φ−1(0.9).

1 2 3 4 5 6 A B
Variables aléatoires continues
On trouve à l’aide de la table uα ' 1.28. Donc I = [−1.28; 1.28].

1 2 3 4 5 6 A B
Variables aléatoires continues

Propriétés 5.3. Soit X ‹→ N (µ, σ) et Z ‹→ N (0, 1) sa loi centrée réduite associée.

1. P (µ − σ ≤ X ≤ µ + σ) = P (−1 ≤ Z ≤ 1) = 2Φ(1) − 1 ' 0.6826.

2. P (µ − 2σ ≤ X ≤ µ + 2σ) = P (−2 ≤ Z ≤ 2) = 2Φ(2) − 1 ' 0.9544.

3. P (µ − 3σ ≤ X ≤ µ + 3σ) = P (−3 ≤ Z ≤ 3) = 2Φ(3) − 1 ' 0.9973.

Exemple. Dans un pays, la taille en centimètres des femmes adulte peut être modélisée par
une variable aléatoire X suivant la loi normale d’espérance µ1 = 165 cm et d’écart-type σ = 6
cm.
Quelle est la probabilité qu’une femme choisie au hasard dans ce pays mesure entre 153 mètre
et 177 mètre ?
La probabilité cherchée est P (156 ≤ X ≤ 177).

P (156 ≤ X ≤ 177) = P (165 − 12 ≤ X ≤ 165 + 12)


= P (µ − 2σ ≤ X ≤ µ + 2σ)
P (156 ≤ X ≤ 177) ' 0.9544

Approximation d’une loi binomiale par une loi normale

Théorème 5.3. (Théorème de Moivre-Laplace)


Soit X une v.a qui suit la loi−binomiale B(n, p) et Z la loi centrée réduite associé à X. C’est-à
dire X np
X − E(X) . Alors
Z= = √
σ(x) np(1 − p)

1 −t2/2
lim P (a ≤ Z ≤ b) = b
n −→+ ∞
√ e dt
a

Remarque 5.7. Pour n assez grand √ et p ni trop voisin de 0 ou de 1, la loi binomiale B(n, p)
est proche de la loi normale N (np, np(1 − p).
En pratique, on pourra faire l’approximation d’une loi binomiale par une loi normale si on a les
conditions suivantes : n ≥
30, np 5, ≥ et np(1 p) 5.−
Cette approximation est importante≥car les probabilités relatives à la loi binomiale sont di fficiles
à calculer quand n est grand. Pour améliorer l’approximation, on effectue une ”correction de
continuité” qui permet de lier loi discrète et loi continue de la manière suivante :

∀k ∈ [[0, n]], P (X = k) ' P (k − 0.5 ≤ Y ≤ k + 0.5),


8

1 2 3 4 5 6 A B
Variables aléatoires continues

∀k ∈ [[0, n]], P (X ≤ k) ' P (Y ≤ k + 0.5) et P (X ≥ k) ' P (Y ≥ k − 0.5),


∀a, b ∈ [[0, n]], P (a ≤ X ≤ b) ' P (a − 0.5 ≤ Y ≤ b + 0.5),

où Y suit la loi normale N (np, np(1 − p).

1 2 3 4 5 6 A B
Variables aléatoires continues

Exemple. On lance un dé équilibré 180 fois et on note X la variable aléatoire qui représente
le nombre d’apparition de la face 6.
En utilisant l’approximation normale et en effectuant au préalable une correction de
continuité, calculer les probabilité suivantes
≤ : P (X 20), P (X > 45) et P (X = 30).
. Il faut d’abord calculer les paramètres de la loi normale correspondante à cette loi binomiale
1
180, .
6
B 1
1 √
E(X) = np = 180. = 30 et σ(X) = np(1 − p) = r180. 5
. = 5.
6
66
. Il faut vérifier qu’on se trouve dans les hypothèses de l’approximation :
n = 180 ≥ 30, np = 30 ≥ 5 et n(1 − p) = 150 ≥ 5 .1
Donc on peut approcher la loi binomiale B 180, 6 par la loi normale N (30, 5).
. Calcul de P (X ≤ 20) :
P (X ≤ 20) = P (Y ≤ 20 + 0.5), où Y ‹→ N (30, 5).

Y − 30 20.5 − 30
= P 5 ≤ 5
Y − 30
= P (Z ≤ −1.9) avec Z = 5
= 1 − Φ(1.9)
P (X ≤ 20) ' 0.0287
. Calcul de P (X > 45) :
P (X > 45) = P (X ≥ 46)
' P (Y ≥ 46 − 0, 5) où Y ‹→ N (30, 5)
= P (Y ≥ 45, 5)
45, 5 − 30 Y − 30
= P Z≥ 5 avec Z = 5
= P (Z ≥ 3.1) = 1 − Φ(3.1)
= 1 − 0.9990

1 2 3 4 5 6 A B
Variables aléatoires continues
P (X > 45) ' 0.001.

1 2 3 4 5 6 A B
Variables aléatoires continues

. Calcul de P (X = 30) :

P (X = 30) ' P (30 − 0.5 ≤ Y ≤ 30 + 0.5) où Y ‹→ N (30, 5)

29.5 − 30 Y − 30 30.5 − 30
= P 5 ≤ 5 ≤ 5
Y − 30
= P (−0.1 ≤ Z ≤ 0.1) avec Z = 5
= Φ(0.1) − Φ(−0.1)
= 2Φ(0.1) − 1
' 2 × 0.5398 − 1
P (X = 30) ' 0.0796

Le calcul exact de P (X = 30) avec la loi binomiale donne 0.07955977025.

1 2 3 4 5 6 A B
Variables aléatoires continues

1 2 3 4 5 6 A B
Variables aléatoires continues

Somme de lois normales indépendnates


Proposition 5.12. Soient X1, ..., Xn n variables aléatoires réelles continues et définies sur le
même espace probabilisé, indépendantes et suivant respectivement les lois normales N (µ1, σ1),
..., N (µn, σn) alors la somme X = X1 + ... + Xn suit la loi normale N (µ, σ) de paramètres
‚ ‚
Σ n Σn n n
µ= E(Xi) = µi, et σ = , V (Xi) = , σ2.
i=1 . i=1 . i=1
i=1 i
Σ Σ
Corollaire 5.1. Soient Y1, ..., Yn, n variables aléatoires réelles continues et définies sur le même
espace probabilisé, indépendantes et suivant la même loi normale N (µ, σ) alors la moyenne
1 n
Y = Σ Yi est une variable aléatoire qui suit la loi normale µ, √σ .
n n
i=1 N

Preuve. Il suffit d’appliquer la proposition précédente pour les variables aléatoires


Yi
Xi = , pout tout i [[1, n]].
n ∈

Exemple. Soient X1, X2 et X3 trois variables aléatoires indépendantes de loi normale tells
que E(X1) = 30, V (X1) = 10, E(X2) = 20 et V (X2) = 14, E(X3) = 50 et V (X3) = 25. On
pose X = X1 + X2 + X3.
Déterminer la loi de X.
X est la somme de 3 v.a.r indépendantes suivant une loi normale, dont X suit une loi normale
N (µ, σ) de paramètres

µ = E(X)
= E(X1) + E(X2) + E(X3)
= 30 + 20 + 50
µ = 100

σ = V (X)
= √V (X1) + V (X2) + V (X3)


= 10 + 14 + 25
σ = 7

D’où X ‹→ N (170,
7).

1 2 3 4 5 6 A B
Variables aléatoires continues

5.2.4 Loi de Cauchy


Définition 5.14. Une variable aléatoire continue X suit une loi de Cauchy de paramètres α >
0 (paramètre d’échelle) et x0∈ R (paramètre de position) si elle admet pour densité de probabilité
la fonction
1 α
f (x) = 0 , ∀x ∈ R.
π α2 + (x − x )2
On note X ‹→ CA(x0,
α).
Remarque 5.8. La loi de Cauchy n’admet ni espérance ni variance. Il en va de même pour
moment d’ordre supérieur.

Representation graphique. La figure ci-dessous représente les courbes des densités de loi
3
de Cauchy CA (1,CA
(0, 1), 1) et CA 2 , 1 . Nous voyons l’allure de la densité en fonction des
paramètres.

Proposition 5.13. Si X et Y sont deux v.a.r. indépendantes qui suivent la loi normale N (0, 1)
alors la variable aléatoire suit la loi de Cauchy CA(0, 1).
X
Y
Proposition 5.14. Pour tout x ∈ R, la fonction de répartition de X ‹→ CA(x0, α) est donnée
par
1 1 x − x0
F (x) = 2 + π arctan α .

5.3 Inégalité de markov et de Bienaymé-Tchebychev


Faute de connaître une probabilité exacte, il su ffit parfois de trouver une borne supérieure ou
inférieure à cette probabilité. Dans cette partie, on va presenter deux inégalités permettant de

1 2 3 4 5 6 A B
Variables aléatoires continues
”localiser” les valeurs prises par une variable aléatoire discrete ou continue en fonction de sa
moyenne et de sa variance.

1 2 3 4 5 6 A B
Variables aléatoires continues

Théorème 5.4. (Inégalité de markov)


Soit X une variable aléatoire positive d’espérance E(X). Alors,

∀δ > 0, P (X ≥ δ) ≤ E(X)
.
δ
Remarque 5.9. Par intuition, l’inégalité de Markov formalise le fait qu’une variable aléatoire
positive a peu de chances de prendre de grande valeurs.
Si on pose δ = αE(X) alors l’inégalité de Markov devient
1
∀α > 0, P (X ≥ αE(X)) ≤ .
α
Théorème 5.5. (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire telle que E(X) et V (X) existent. Alors,

∀δ > 0, P (|X − E(X)| ≥ δ) V (X)


≤ .
δ2
Remarque 5.10. Soit X un variable aléatoire. On note son espérance E(X) = µ et sa variance
V (X) = σ2.
. Cette inégalité est dite inégalité de concentration. Elle donne un intervalle de fluctuation
σ2
]µ − δ, µ + δ[ pour X de niveau 1 − 2 avec δ > 0. En effet
δ σ2
P (X ∈]µ − δ, µ + δ[) = P (|X − µ| < δ) = 1 − P (|X − µ| ≥ δ) ≥ 1 − 2 .
δ
. Si on applique l’inégalité précédente pour δ = 2σ et δ = 3σ on obtient

σ2 3
P (X ∈]µ − 2σ, µ + 2σ[) = P (|X − µ| < 2σ) = 1 − P (|X − µ| ≥ 2σ) ≥ 1 − =
4σ2 4
σ2 8
P (X ∈]µ − 3σ, µ + 3σ[) = P (|X − µ| < 3σ) = 1 − P (|X − µ| ≥ 3σ) ≥ 1 − = .
9σ2 9
Ces propriétés sont encore une illustration du fait que l’écart-type mesure la dispersion de la
variable aléatoire autour de sa moyenne.

Exemple. Soit X une v.a telle que E(X) = 4 et σ = 2. Donnons une limite de la
probabilité que X soit comprise strictement entre 0 et 8.
3
P (0 < X < 8) = P (−4 < X − 4 < 4) = P (|X − 4| < 4) = P (|X − µ| < 2σ) ≥ .
On a au moins 75% de chances pour que les valeurs de la variable aléatoire X4 soient comprise
strictement entre 0 et 8.

1 2 3 4 5 6 A B
Couple de variables aléatoires

6.1 Couple de variables aléatoires discrètes


6
6.1.1 Loi conjointe
Soit (X, Y ) un couple de variables aléatoire discrètes sur un un espace probabilism (Ω, C, P
). On note dans toute la suite X(Ω) = {xi : i ∈ I} et Y (Ω) = {yj : j ∈ J}, où I, J ⊂ N.

Définition 6.1. La loi conjointe du couple (X, Y ) est la donnée de

pij = P ((X = xi) ∩ (Y = yj)), (i, j) ∈ I × J.


Σ
On a alors Σ pij = 1.
i∈Ij∈J

6.1.2 Fonction de répartition conjointe


Définition 6.2. Soit (X, Y ) un couple de v. a. réelles sur un espace probabilism (Ω,C , P ).
2
On appelle fonction de répartition conjointe du couple (X, Y ), l’application FX,Y : R→ [0, 1]
définie par
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y)).

6.1.3 Lois marginales


Définition 6.3. Les lois marginales du couple
Σ (X, Y ) sont les lois des variables X et Y.
La loi marginale de X: P (X = xi) = pi• = pij.
j∈J
Σ
La loi marginale de Y : P (Y = yj ) = p•j = pij .
i∈I

Exemple. Une urne contient 4 boules blanches, 2 boules noires et 4 boules rouges. On tire
simultanément 3 boules au hasard. Soient X la variable prenant pour valeur le nombre de
boules blanches obtenus, et Y la variable prenant pour valeur le nombre de boules noires
obtenus.
Déterminer la loi conjointe du couple (X, Y ) et les lois marginale de Xet Y.
On a cardΩ = C310 = 120, X(Ω) = {0, 1, 2, 3} et Y (Ω) = {0, 1, 2}, et P la probabilité uniforme.

0 1 2 pi•
X\Y
0 1/30 3/30 1/30 5/30
1 6/30 8/30 1/30 15/30
2 6/30 3/30 0 9/30
3 1/30 0 0 1/30
p•j 14/30 14/30 2/30 1
On remarque par exemple que (xi , yj ) = (3, 1) ∈/ (X, Y )(Ω). En pratique, on pose pij = 0.

6.1.4 Lois conditionnelles


Définition 6.4. La loi conditionnelle de X sachant Y = yj est la donnée de
P ((X = xi ) ∩ (Y = yj )) pij
P (X = x /Y = y ) = = , ∀i ∈ I.
i j
P (Y = p•j
yj )

On a la même définition pour la loi conditionnelles de Y sachant X = xi.


Exemple. Avec l’exemple précédent, la loi conditionnelle de X sachant Y = 1 est

xi/Y = 1 0 1 2 3

1 2 3 4 5 6 A B
P (X = xi/Y = 3/14 8/14 3/14 0/14
1)

1 2 3 4 5 6 A B
Couple de variables aléatoires

La moyenne conditionnelle de X/Y = 1 est


3 8 3 0
E(X/Y = 1) = 0 × +1× +3× +3× = 1.
14 14 14 14
Remarque 6.1. Notons que E(Y /X) est une fonction de X, donc c’est une variable aléatoire
discrète dont la loi de probabilité est définie par l’ensemble de ses valeurs possibles, c’est-à-dire
E(Y
{ /X = xi) /i I ∈ et les
} probabilités correspondantes pi • = P (X = xi). L’espérance de
E(Y /X) est donnée par Σ
E(E(Y /X)) = pi•E(Y /X = xi).
i∈I

Remarque 6.2. On vérifie que E(E(Y /X)) = E(Y ).


En effet
Σ
E(E(Y /X)) = pi•.E(Y /X = xi)
i∈I
Σ Σ
= pi• yjP (Y = yj/X = xi)
i∈I j∈J
Σ Σ P (Y = yj, X = xi)
= pi• yj
i∈I P (X = xi
j∈J
Σ
= Σ pi• pij Σ
yj = pij
i∈I j∈J
Σ pi• Σ i∈I
yj
j∈J

E(E(Y /X)) = yj p•j = E(Y )


j∈J

Théorème 6.1. Théorème


Σ de transfert Soit φ une fonction de R2 dans R telle que φ(X, Y ) soit
une v. a. vérifiant φ(xi , yj )pij converge absolument. Alors φ(X, Y ) possède une espérance,
et
i,j
Σ Σ
E (φ(X, Y )) = φ(xi , yj )P ((X = xi ) ∩ (Y = yj )) = φ(xi , yj )pi,j
i,j i,j

6.1.5 Indépendance
Définition 6.5. On dit que X et Y sont indépendantes si
∀(i, j) ∈ I × J, P ((X = xi ) ∩ (Y = yj )) = P (X = xi )P (Y = yj ),
ou encore
∀(i, j) ∈ I × J, pij = pi• × p•j .
Proposition 6.1. Si X et Y sont indépendantes, admettant une espérance, alors la v. a. XY
admet une espérance, et
E(XY ) = E(X)E(Y ).
Proposition 6.2. Si X et Y sont indépendantes, alors toute fonction de X est indépendante
de toute fonction de Y .
Exemple. Reprenons l’exemple précédent
0 1 2 pi•
X\Y
0 1/30 3/30 1/30 5/30
1 6/30 8/30 1/30 15/30
9

1 2 3 4 5 6 A B
Couple de variables aléatoires
2 6/30 3/30 0 9/30
3 1/30 0 0 1/30
p•j 14/30 14/30 2/30 1

1 2 3 4 5 6 A B
Couple de variables aléatoires

On a par exemple p42 = 0 et p4• × p•2 = 1 × 14 .


30 30
Donc p42 p4• × p•2 et par suite X et Y ne sont pas indépendantes.
Exercice Soit (X, Y ) un couple de v. a. discrètes dont la loi est donnée par le tableau suivant

X\Y 1 2 3 4
1 0.08 0.04 0.16 0.12
2 0.04 0.02 0.08 0.06
3 0.08 0.04 0.16 0.12

1. Déterminer les lois marginales du couple (X, Y ) et préciser si X et Y sont indépendantes.

2. Vérifier que E(XY ) = E(X)E(Y ).

Corrigé 1) Les lois marginales du couple (X, Y ) sont données par le tableau :

1 2 3 4 pi.
X\Y
1 0.08 0.04 0.16 0.12 0.4
2 0.04 0.02 0.08 0.06 0.2
3 0.08 0.04 0.16 0.12 0.4
p.j 0.2 0.1 0.4 0.3 1
On remarque que toutes les probabilités des couples (xi, yj) s’obtiennent en faisant le produit
des probabilités marginales

∀i ∈ [[1, 3]], ∀j ∈ [[1, 4]], pij = pi• × p•j

Donc X et Y Sont indépendantes.


2) Les espérances de X, Y et de XY se calcul à partir du tableau précédent
3
Σ
E(X) = xipi• = 1 × 0.4 + 2 × 0.2 + 3 × 0.4
i=1
= 0.4 + 0.4 + 1.2
E(X) = 2

4 4
Σ Σ
E(Y ) = yj p•j = 1 × 0.2 + 2 × 0.1 + 3.4 + 4 × 0.3
j=1 j=1
= 0.2 + 0.2 + 1.2 + 1.2
E(Y ) = 2.8

3
Σ 4
E(XY ) = Σ xiyjpij
i=1 j=1
= 1 × 1 × 0.08 + 1 × 2 × 0.04 + 1 × 3 × 0.16 + 1 × 4 × 0.12
+ 2 × 1 × 0.04 + 2 × 2 × 0.02 + 2 × 3 × 0.08 + 2 × 4 × 0.06
+ 3 × 1 × 0.08 + 3 × 2 × 0.04 + 3 × 3 × 0.16 + 3 × 4 × 0.12
= 0.08 + 0.08 + 0.48 + 0.48 + 0.08 + 0.08 + 0.48 + 0.48 + 0.24 + 0.24 + 1.44 + 1.44
E(XY ) = 5.6

On a E(X)E(Y ) = 2 × 2.8 = 5.6 = E(XY ). Ceci est prévisible car X et Y sont indépendantes.

1 2 3 4 5 6 A B
Couple de variables aléatoires

6.2 Couple de variables aléatoires continues


6.2.1 Fonction de répartition et densité
Définition 6.6. Soit (X, Y ) un couple de variable aléatoires réelles sur un espace probabilisé
(ω, C, P ). On appelle fonction de répartition conjointe du couple (X, Y ), l’application
FX,Y : R2 −→ [0, 1] définie par
FX,Y (x, y) = P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y))

Remarque 6.3. La valeur FX,Y (x, y) représente la probabilité de la zone hachurée indiquée dans
la figure

Figure 6.1: Courbe des fréquences cumulées

Remarque 6.4. Si FX,Y est deux fois derivable par rapport aux deux variables, alors la loi du
couple (X, Y ) est dite absolument continue de densité f définie par
∂2FX,Y
f (x, y) = .
∂x∂y
La fonction de répartition se calcule alors par double intégration
∫ x ∫ y
F (X, Y )(x, y) = f (u, v)dudv.
−∞ −∞

Définition 6.7. Un couple de variables aléatoire (X, Y ) admet une densité s’il existe une
fonction f : R2 → R positive, dont l’intégrale sur R2 existe et vaut 1, et telle que

∫ ∫
∀(a, b) ∈ R , P ((X ≤ a) ∩ (Y ≤ b)) a b
2
= f (x, y)dxdy.
−∞ −∞

Exemple. Le fonction f définie par

e−(x+y) si x, y 0
f (x, y)
0 sinon
=
est positive
et ≥

1 2 3 4 5 6 A B
Couple de variables aléatoires
∫ +∞ ∫ +∞
−x
∫∫ f (x, y)dxdy e dx e−y dy = 1.
= 0 0

R2

1 2 3 4 5 6 A B
Couple de variables aléatoires

6.2.2 Densités marginales


Proposition 6.3. Soit (X, Y ) un couple de v. a. de densité f. Alors X et Y sont des variables
à densité, dont une densité pour X est:
∫ +∞
fX : x f (x, y)dy.
›→ −∞

et une densité pour Y est: ∫ +∞


f (x, y)dx.
fY : y ›→ −∞

Les fonctions fX et fY sont appelées densités marginales du couple (X, Y ).

Exemple. Soit (X, Y ) un couple de densité f définie sur R2 par


1 −
2 2
x +y
f (x, y) e 2

= 2π
X a pour densité:
∫ ∫ +∞
+∞
1 −
2 2
x +y 1 −x
2
1 −
y2 1 −
2
x
√ √ √

fX(x) = e 2 dy = 2 2 dy = e 2 .
−∞ 2π e e 2π
2π −∞ 2π
On remarque que X ‹→ N (0, ` ˛¸ x
= 1
1).
Théorème 6.2. Théorème de transfert Soit (X, Y ) un couple de densité f et φ une fonction de
R2 dans R telle que |φ|f soit intégrable sur R2 . Alors, φ(X, Y ) possède une espérance, et on a
∫∫
E (φ(X, Y )) = φ(x, y)f (x, y)dxdy.
2
R

6.2.3 Indépendance
Définition 6.8. On dit que X et Y sont indépendantes si

∀(x, y) ∈ R 2P (X ≤ x, Y ≤ y) = P ((X ≤ x) ∩ (Y ≤ y)) = P (X ≤ x)P (Y ≤ x).

Proposition 6.4. Soient X et Y deux variables aléatoires de densité fX et fY et soit f la


densité du couple (X, Y ). X et Y sont indépendantes si et seulement si

∀(x, y) ∈ R2 f (x, y) = fX (x)fY (y).

Dans ce cas on a E(XY ) = E(X)E(Y ).

Exercice. Soit la fonction définie par

f (x) = 2e−(x+2y) si x 0
0 sinon

1. Déterminer les lois marginales de≥X et de Y .

2. Déterminer les densités conditionnelles de X sachant Y = y et de Y sachant X = x.

1 2 3 4 5 6 A B
Couple de variables aléatoires
3. X et Y sont-elles indépendantes ?

4. Calculer la moyenne de X et celle de Y .

1 2 3 4 5 6 A B
Couple de variables aléatoires

Corrigé. 1) Loi marginale de X. Soit x ∈


R.

∫ +∞ −x −2y
+∞
fX(x) = f (x, y)dy = 2e e dy
−∞

0

= −e +∞
−x −2e −2y dy = −e −x e−2y +∞
0
0
−x
= −e (0 − 1)
fX(x) = e−x.

Loi marginale de Y . Soit y ∈ R.


∫ +∞ ∫ +∞
fY (y) = f (x, y)dx 2e−x e−2ydx
= 0
−∞

= −2e−2y +∞ −2y −2y
−x dx = −2e +∞ (0 − 1)
0
−e e−x 0 = −2e
fY (y) = 2e−2y.

2) Pour tout y ∈ R, la densité conditionnelle de X sachant Y = y est donnée par


f (x, y)
∀x ∈ R, fX|Y =y (x) = .
fY (y)

Si x /∈]0, +∞[ alors f (x, y) = 0 et par suite fX|Y =y (x) = 0.


Si x ∈]0, +∞[ alors fX|Y =y(x) = 2e−xe−2y = e−x .
2e−2y
Donc
fX|Y =y(x) = e−x si x ∈]0, ∞ [,
0 sinon
De la même façon, on obtient

fY |X=x(y) = 2e−y si y ∈]0, ∞ [,


0 sinon
3) X et Y sont-elles indépendantes
? On remarque
∀x ∈ R, fX|Y =y (x) = fX (x).
Donc X et Y sont
indépendantes. On peut aussi
voir que
∀y ∈ R, fY |X=x(y) = fY (y),
ce qui traduit le fait que X et Y sont
indépendantes. On peut aussi remarquer que

∀(x, y) ∈ R2 fX (x).fY (y) = f (x, y),

ce qui prouve que X et Y sont indépendantes.


4) L’espérance de X.
E(X) = +∞

1 2 3 4 5 6 A B
Couple de variables aléatoires
∫ ∫
xfX(x)dx = xe−xdx
−∞ +∞
0

+∞
= −xe−x +∞
0
+ e−x dx = 0 −e
−x +∞
0
0 +
E(X) = 1.

1 2 3 4 5 6 A B
Couple de variables aléatoires

L’espérance de Y .

∫ +∞ ∫ +∞
E(Y ) =
yfY (y)dy = 2ye −2ydy
−∞ 0

+∞ 1 +∞
= −ye− 2y +∞ −2y
0 + e−2ydy = 0 + −
0 e2 0
1
E(Y ) = .
2

6.3 Covariance et coefficient de corrélation


Soit h : R2 −→ R une fonction continue. L’espérance de h(X, Y ) se calcule pour une loi de
densité f par l’intégrale
∫ ∫
E(h(X, Y )) = h(x, y)f (x, y)dx dy.
2
R

Dans le cas particulier où h(X, Y ) = (X − E(X))(Y − E(Y )), ceci définie la covariance de X et
Y.
Cov(X, Y ) = E (X − E(X))(Y − E(Y )) ,
Définition 6.9. On appelle covariance de X et Y le réel, s’il existe

Cov(X, Y ) = E (X − E(X))(Y − E(Y )) ,

Proposition 6.5.
1) Cov(X, Y ) = E(XY ) − E(X)E(Y ).
2) Cov(X, Y ) = Cov(Y, X).
3) Cov(X + Y, Z) = Cov(X, Y ) + Cov(X, Z).
4) Cov(aX + b, Y ) = aCov(X, Y ), ∀(a, b) R2.
5) V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
6) |Cov(X, Y )| σ(X)σ(Y ).
7) Si
≤ X et Y sont indépendantes, alors Cov(X, Y ) = 0.
Remarque 6.5. Si X et Y sont
∫ ∫ deux variables aléatoires
∫ ∫ indépendantes, alors
E(XY ) = xyf (x, y)dx dy = xyfX (x)fY (y)dx dy
R R
∫ 2 ∫ 2

= xfX (x)dx yfY (y)dy


R R
E(XY ) = E(X)E(Y ).

Par consequent Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.


Attention : la réciproque est généralement fausse, c-à-d si deux variables aléatoires ont une
covariance nulle, elles ne sont pas forcement indépendantes.

Définition 6.10. On appelle coefficient de corrélation linéaire de X et Y le réel, s’il existe


Cov(X, Y )
r(X, Y ) .
= σ(X)σ(Y )
On a alors
|r(X, Y )| ≤ 1.

1 2 3 4 5 6 A B
Couple de variables aléatoires

Exercice . Soit un couple de variable aléatoire de densité


1
πR 2 si (x, y) ∈ D(0, R)
f (x, y)
= 0 sinon,

où D(0, R) = { (x, y) ∈ R2 : x2 + y2 ≤ R2 }.
1) Déterminer les densités marginales de X et Y.
2) X et Y sont-elles indépendantes?
3) Calculer Cov(X, Y ).

Corrigé . 1) La densité marginale de f .

Soit ∫
x ∈ R. On fX(x) = +∞ f (x, y)dy.
a
− ∞
Si x ∈/ [−R, R] alors ∀y ∈ R, f (x, y) = 0 et donc fX (x) =
0. Si x ∈ [−R, R] alors
f (x, y) /= 0 ⇐⇒ (x, y) ∈ D(0, R)
2
2 2
⇐⇒ x2 + y 2≤ R2
⇐⇒ y ≤ R − x

⇐⇒ y | | ≤R2 x2
√ √
f (x, y) 0 ⇐⇒ −− R2 − x2 ≤ y ≤ R2 − x2 .
Donc ∫ √R 2−x 2 2 √
− 1 dy .
fX(x) = 2
= 2 R2 − x2
2 2 πR
√R −x
Finalement la densité marginale
πR de X est donnée par

2
πR 2
R2 − x2 si −R ≤ x ≤ R,
fX(x) =
0 sinon,
De la même façon, on obtient la densité marginale de Y ,
2

2 R2 − y2 si −R ≤ y ≤ R,
fY (y) πR
= 0 sinon,
2) X et Y sont-elles indépendantes
?. On a √

2
∀(x, y) ∈ [−R, R] , fX (x).fY (y) = 4 R2 − x2 R2 − y2 1
= f (x, y).
Donc X et Y ne sont pas indépendantes. π2R4 πR2
3) Calcul de Cov(X, Y ).
On sait que Cov(X, Y ) = E(XY ) − E(X)E(Y ).
∫ ∫ R √
E(X) = +∞ xfX(x)dx = 2 x R2 − x2dx = 0,
2

−∞ πR −R

car x −→ x R2 x2 est une fonction impaire et on intègre sur [ R, R].
De même pour l’espérance de Y , on obtient
− ∫ +∞ ∫ R √−
2
E(Y ) = yfY (y)dy = y R2 − y2dx = 0,
−∞ πR2 −R
∫ ∫ ∫ R∫ R ∫ R ∫ R
E(XY ) = f (x, y)dx dy 1 1 xdx ydy = 0.
= −R −R πR2
xydx dy =
πR2 −R −R
R2

1 2 3 4 5 6 A B
Couple de variables aléatoires
Donc Cov(X, Y ) = 0.
Remarquer qu’on a un exemple de variables aléatoires dont la covariance est nulle, pourtant
elles ne sont pas indépendantes.

1 2 3 4 5 6 A B
Statistiques descriptives et Probabilités avec
A
A.1 Introduction à R
En préparation

A.2 Statistiques descriptives avec R


En préparation

A.3 Simulation des lois de probabilité avec R


En préparation

1 2 3 4 5 6 A B
Statistiques descriptives et Probabilités avec
B
B.1 Introduction à Python
En préparation

B.2 Statistiques descriptives avec Python


En préparation

B.3 Simulation des lois de probabilité avec Python


En préparation

1 2 3 4 5 6 A B

Vous aimerez peut-être aussi