Cours Stat Inf
Cours Stat Inf
t
HOUNDOGA A. Fréjus-Ferry
af 25 avril 2019
Dr
Table des matières
0.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1 Variables aléatoires 7
1.1 Notion d’événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Densité ou loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Probabilité conditionnelle à un événement . . . . . . . . . . . . . . . . . 14
1.4.3 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1
3.1.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.3 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.4 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.6 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.7 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.8 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.4 Loi de Gauss-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.5 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.6 Loi Bêta (de première espèce) . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.7 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.8 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 Convergence 47
5.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1 Inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . . . . . 48
5.1.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1 Généralité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2
5.2.2 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3.1 Approximation d’une loi hypergéométrique par une loi binomiale . . . . . 50
5.3.2 Approximation d’une loi binomiale par une loi de Poisson . . . . . . . . . 51
5.3.3 Approximation d’une loi binomiale par une loi normale . . . . . . . . . . 51
5.3.4 Approximation d’une loi de Poisson par une loi normale . . . . . . . . . . 51
II Statistique 52
1 Les échantillons 53
1.1 Sélection d’un échantillon par les enquêtes par sondage . . . . . . . . . . . . . . 53
1.2 Méthodes de sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.1 Méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.2 Méthodes probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3
Introduction générale
0.1 Généralités
Comme indiqué en première année, la démarche statistique consiste à traiter et à interpréter
les informations recueillies par le biais de données. Elle comporte quatre grands aspects : le
recueil des données, l’aspect descriptif ou exploratoire, l’aspect inférentiel ou décisionnel et la
modélisation statistique.
Le recueil des données : Cette étape est importante car elle doit permettre d’obtenir des
données de bonne qualité en un certain sens. Contrairement à ce qu’indique le vocabulaire,
les informations dont a besoin le statisticien ne sont pourtant pas “données" et la qualité
des résultats obtenus dépendra autant de la manière dont les données ont été collectées que la
méthode statistique utilisée. La théorie des sondages et celle des plans d’expériences fournissent
un cadre théorique pour la recherche de données optimales.
La statistique exploratoire ou descriptive : Son but est de synthétiser et de résumer l’infor-
mation contenue dans les données. Elle utilise pour cela des représentations des données sous
forme de tableaux, de graphiques ou d’indicateurs numériques (tels que la moyenne, la variance,
la corrélation linéaire,... pour des variables quantitatives). Cette phase est connue sous le nom
de statistique descriptive. On parle de statistique descriptive univariée lorsque l’on regarde une
seule variable, de statistique descriptive bivariée lorsque l’on regarde simultanément deux va-
riables, et de statistique descriptive multidimensionnelle lorsque l’on regarde simultanément p
variables. Dans ce dernier cas, on parle aussi d’analyse des données.
La statistique inférentielle : Son but est d’étendre (d’inférer) les propriétés constatées sur
l’échantillon (grâce à l’analyse exploratoire par exemple) à la population toute entière, et de va-
lider ou d’infirmer des hypothèses. Contrairement à la statistique exploratoire, des hypothèses
probabilistes sont ici nécessaires : elle suppose un modèle probabiliste. L’estimation ponctuelle
ou par intervalle de confiance et la théorie des tests d’hypothèses constituent une partie prin-
cipale de la statistique inférentielle.
La modélisation statistique : Elle consiste en général à rechercher une relation ”approxi-
mative" entre une variable et plusieurs autres variables, la forme de cette relation est le plus
souvent linéaire. Lorsque la variable à expliquer est quantitative et que les variables explica-
tives sont aussi quantitatives, on parle de régression linéaire. Si les variables explicatives sont
4
qualitatives, on parle alors d’analyse de la variance. Le modèle linéaire général englobe une
grande partie de tous les cas de figures possibles.
Ce cours est une introduction à la statistique inférentielle. Son but est de présenter les prin-
cipales applications de la théorie mathématique à la statistique (échantillonnage, estimation,
tests...). Il est subdivisé en deux parties : la première est consacrée à un complément de cal-
cul des probabilités axé sur les notions de variables aléatoires, les lois usuelles etc. La seconde
partie fait une introduction à l’étude de l’échantillonnage et les problèmes de jugement sur un
échantillon.
Enfin, ce cours utilise les notions de statistique, du calcul des proba et de mathématiques.
0.2 Problème
La population, pour un statisticien, est l’ensemble quasi exhaustif des individus ayant
quelque chose en commun permettant de définir l’appartenance à la population et pour lesquels
on étudie une ou plusieurs caractéristiques ou variables (ex : la taille des Français adultes). Mais
dans la plupart des cas, il est impossible de collecter des informations aupès de toute la popu-
lation qui fait lùobjet de m’étude pour des raisons de budget et/ou de temps. Le statisticien
est donc souvent appelé à collecter lùinformation aupès d’un sous-ensemble de la population,
c’est-à-dire auprès d’un échantillon.
Alors que la statistique descriptive ne s’intéresse qu’à la sous-population formée par l’échan-
tillon avec comme objectif de décrire et de résumer la variabilité de l’échantillon, la statistique
inférentielle s’intéresse à la population dont est issu l’échantillon avec comme objectif d’inférer,
à partir des seules caractéristiques de l’échantillon, des propriétés plus générales concernant la
population.
5
Première partie
6
Chapitre 1
Variables aléatoires
ó On dit qu’un événement est lié à l’expérience si pour tout résultat ∈ Ω, on sait dire si
cet événement a lieu ou non.
ó Soit Ω l’univers associé à une expérience aléatoire. Pour tout ∈ Ω, le singleton {ω}
est un événement appelé événement élémentaire ; Ω est un événement certain et φ est un
événement appelé événement impossible.
Exemple 1.1. (Exemple fondamental) Considérons le jeu du lancé d’un dé. Notons Ω l’en-
semble de tous les résultats possibles (appelés aussi épreuves ou résultats élémentaires) de cette
expérience aléatoire
Ω = {1; 2; 3; 4; 5; 6}
1. Décrire Ω
7
2. On considère l’événement A :”la somme des points est inférieure à 10”. Écrire en
extension A.
Généralités
Tout phénomène aléatoire fait appel à deux ensembles de type différent.
ó Une famille B de parties (i.e. de sous ensembles) de Ω : Ces parties sont appelées des
événements. On dit que l’événement A s’est réalisé si et seulement si le résultat ω de Ω
qui s’est produit appartient à B.
En gardant en mémoire l’exemple fondamental, il est assez naturel de demander que l’ensemble
B vérifie un certain nombre de propriétés. En effet si A et B sont des événements de B ; on
souhaite que les événements suivants le soient également.
4. De manière générale, on peut considérer des suites infinies d’événements et définir les
événements suivants :
\ [
An ou An
n∈N n∈N
Définition 1.2.1. Soit Ω un ensemble quelconque. On appelle tribu ou σ-algèbre sur Ω, toute
partie B ⊂ P(Ω) vérifiant les propriétés suivantes :
(i) Ω ∈ B
8
S∞
(iii) Pour toute suite (An )n∈N d’éléments de B, n=0 An est encore un élément de B (Stabilité
par union dénombrable).
Remarque 1.1. (i) Dans la définition précédente, en remplaçant le point (3) par la stabilité
S
par l’union de deux éléments de B, (i.e. ∀A, B ∈ B , A B ∈ B), on obtiendrait une
algèbre sur Ω.
Le préfixe σ- fait référence à la possibilité de réunir une infinité dénombrable d’éléments
de B.
(ii) Toute σ-algèbre sur Ω est une algèbre sur Ω. Mais la réciproque est fausse (à démontrer).
Preuve :
Propriété 1.2.1. Soit B une σ-algèbre sur Ω. Alors, on a les résultats suivants :
(i) φ ∈ B
T∞
(ii) Pour toute suite (Bn )n∈N d’éléments de B, n=0 Bn est encore un élément de B (Stabilité
par intersection dénombrable).
(iii) ∀A, B ∈ B , A \ B ∈ B
Propriété 1.2.2. Si Ω est l’ensemble fini ou infini dénombrable ; la tribu des événements est
nécessairement égale à P (Ω) tout entier.
(iii) On appelle système complet d’événements, toute partition dénombrable de Ω formée d’élé-
ments de B, i.e. tout ensemble fini ou dénombrable d’événements deux à deux incompa-
tibles et dont la réunion est l’événement certain Ω. Autrement dit, {Ai ; i ∈ I} est un
système complet d’événements si, et seulement si :
T
(a) Pour i 6= j , Ai Aj = φ
9
S
(b) i∈I An = Ω
Remarque 1.2. On parle de système quasi-complet d’événements quand la condition (b) est
remplacée par :
X
P (Ai ) = 1
i∈I
(i) P (Ω) = 1
(ii) Pour toute suite (An )n∈N d’événements de B deux à deux incompatibles, on :
∞
[ ∞
X
P( An ) = P (An )( σ-additivité de P)
n=0 n=0
(i) P (φ) = 0
S
(ii) Si A et B sont deux événements incompatibles, on a : P (A B) = P (A) + P (B)
Plus généralement, si A1 , . . . , An sont n-événements deux à deux incompatibles, on a :
Preuve :
10
(ii) Si (An )n∈N est une suite croissante d’événements de B i.e. (∀n ∈ N, An ⊂ An+1 ), on a :
∞
[
P( An ) = limn→∞ P (An ) (continuité croissante)
n=0
(iii) Si (An )n∈N est une suite décroissante d’événements de B i.e. (∀n ∈ N, An+1 ⊂ An ), on a :
∞
\
P( An ) = limn→∞ P (An ) (continuité décroissante)
n=0
Preuve : Admise
Exemple 1.3. On joue indéfiniment à pile ou face avec une pièce indiscernable au toucher.
Montrer que la probabilité de n’obtenir que des piles est nulle.
”
1.3.1 Introduction
Dans de nombreuses expériences aléatoires, on n’est pas intéressé directement par le résultat
de l’expérience, mais par une certaine fonction de ce résultat. Considérons par exemple l’expé-
rience qui consiste à observer, pour chacune des n pièces produites par une machine, si la pièce
est défectueuse ou non. Nous attribuerons la valeur 1 à une pièce défectueuse et la valeur 0 à
une pièce en bon état. L’univers associé à cette expérience est Ω = {0, 1}n . Ce qui intéresse le
fabricant est la proportion de pièces défectueuses produites par la machine. Introduisons donc
une fonction de Ω dans R qui à tout ω = (ω1 , ω2 , . . . , ωn ) de Ω associe le nombre
n
X ωi
X(Ω) = ,
i=1 n
qui correspond à la proportion de pièces défectueuses associée à l’observation de ω. Une telle
fonction X définie sur Ω et à valeurs dans R s’appelle une variable aléatoire réelle.
Définition 1.3.1. Soit (Ω , B , P ) un espace probabilisé associé à une expérience aléatoire .
On appelle Variable aléatoire réelle (ou v.a.r), toute application X de Ω dans R ayant la
propriété suivante : Pour tout intervalle I de R, l’intervalle X −1 (I) = {ω ∈ Ω/X(ω) ∈ I} est
un événement (qui aura donc une probabilité).
Remarque 1.3. Soit A une partie de R, qui est la réunion ou l’intersection d’un ensemble
dénombrable d’intervalles. Alors X −1 (A) est la réunion ou l’intersection d’un ensemble dénom-
brable d’événements. Comme B est une σ-algèbre, X −1 (A) est encore un événement. Une telle
partie s’appelle un borélien de R, l’ensemble des boréliens de R est σ-algèbre appelée tribu
borélienne ou tribu des boréliens.
Si la tribu B est égale à P(⊗), toute application de Ω dans R est une v.a.r
11
1.3.2 Fonction de répartition
Définition 1.3.2. Soit X une v.a.r définie sur une e.p (Ω , B , P ). On appelle fonction de
répartition de X, la fonction numérique FX définie sur R par : ∀x ∈ R, FX (x) = P (X ≤ x).
Propriété 1.3.1. Soit X une v.a.r et soit FX sa fonction de répartition. Alors FX possède les
propriétés suivantes :
i) 0 ≤ FX ≤ 1
Définition 1.3.3. Une v.a.r X : Ω −→ R est dite discrète si l’ensemble X(Ω) des valeurs
prises par X est dénombrable.
Remarque 1.5. i) Si X(Ω) est un ensemble fini, X est une v.a.r discrète.
ii) Tout intervalle de R, non vide et non réduit à un point est non dénombrable.
Remarque 1.6. ó x1/2 est appelé médiane de X. La médiane vérifie les deux égalités
ó Dans le cas où FX n’est pas strictement croissante mais simplement croissante, on définit
le quantile d’ordre α par :
nα = inf {x ∈ R : FX (x) ≥ α}
12
1.3.3 Densité ou loi de probabilité
Définition 1.3.5. Soit Ω un univers muni d’une probabilité P , et soit X une v.a.r. On appelle
loi de probabilité de X, notée fX , l’application qui à toute partie A de R associe
Remarque 1.7. Dans la suite du cours, on utilisera la notation abrégée : P ({ω ∈ Ω : X(ω) ∈
A}) = P (X ∈ A). de même, on notera P (X = x) la probabilité P ({ω ∈ Ω : X(ω) = x})
Remarque 1.8. Si X est une v.a.r discrète et si fX est sa loi de probabilité, alors le domaine
P
de définition de fX est un ensemble dénombrable et on a : f (x) = 1.
x∈X(Ω)
S
En effet, on peut écrire Ω = x∈X(Ω) (X = x) et cette réunion est disjointe et dénombrable.
En appliquant alors la σ-algèbre de P à ce système complet, on obtient
P P
1 = P (Ω) = P (X = x) = fX (x)
x∈X(Ω) x∈X(Ω)
Proposition 1.3.2. Toute application f positive, définie sur une partie dénombrable A de R à
P
valeurs dans R, qui vérifie de plus fX (x) = 1, peut être considéré comme la loi de probabilité
x∈A
d’une v.a.r discrète dont l’ensemble des valeurs prises est A.
Exercice 1.1. Dans chacun des cas suivants, justifier que la fonction de densité de probabilité
sur l’ensemble I indiqué :
4
6. f définie sur I = N par f (x) = n(n+1)(n+2)
1.4 Conditionnement
1.4.1 Généralités
Supposons que l’on joue au lancer de dé avec un dé dont les faces paires sont de couleur
blanche et les faces impaires de couleur noire. Si de loin on peut seulement distinguer la couleur
13
blanche de la face obtenue, on modifiera naturellement les probabilités des événements. Ainsi on
donnera la probabilité 1/3 pour chaque face paire et la probabilité 0 pour chaque face impaire,
plutôt que l’équirépartition initiale de probabilité 1/6 pour chaque résultat élémentaire. On
constate donc que la connaissance de la parité du résultat modifie les probabilités que l’on
donne à chaque événement. On dit que l’on raisonne conditionnellement à l’événement “le
résultat est pair”.
ω ∈ A ⇐⇒ ω ∈ A ∩ B
µ : A ∈ B 7−→ P (A ∩ B)
On montre que l’application µ ainsi définie sur B n’est en général pas une probabilité car
µ(Ω) = P (Ω ∩ B) = P (B)
Définition 1.4.1. Pour tout événement B de probabilité non nulle, on appelle probabilité condi-
tionnelle à B ; la probabilité sur (Ω, A)
P (A ∩ B)
P B : A ∈ A 7−→ P B (A) = .
P (B)
Remarquons que l’on peut aussi voir cette probabilité comme une probabilité sur la tribu trace
de A sur B.
14
1.4.3 Formule de Bayes
Exemple 1.4. dépistage de la Syphilis On applique un test médical sur les patients pour
déceler la Syphilis. On sait que si le patient est effectivement atteint, le test est positif dans
98% des cas. Mais on sait aussi qu’il y a 1% des cas où le résultat du test est positif alors que
le consultant est en bonne santé.
Sachant que 3 patients sur 1 000 sont atteints de la Syphilis, calculer la probabilité qu’un
patient soit atteint sachant que son test a été positif.
Résultat :
Soit M l’événement “le client est atteint” et T + l’événement “le test est positif”.
Les données de l’énoncé peuvent être écrites de la manière suivante :
P (T + /M ) = 0, 98
P (T + /M̄ ) = 0, 01
et P (M ) = 3/1000
La probabilité P (M = T + ), celle qu’un patient soit atteint sachant que son test est positif,
est égale, d’après la formule de Bayes, à :
15
Chapitre 2
2.1.1 Généralités
Définition 2.1.1. Une v.a.r. X à valeurs dans un ensemble A fini ou dénombrable est appelée
v.a.r. discrète.
Lorsqu’une variable aléatoire est discrète, il suffit de connaître la probabilité de chaque évé-
nement de la forme X = xi pour chaque valeur x possible pour être en mesure d’évaluer la
probabilité d’un événement quelconque.
On peut donc dire que la v.a. est entièrement définie par son support, SX , et l’ensemble des
probabilités associées.
Soit X une variable aléatoire de support SX . Notons fX la fonction qui permet de calculer
la probabilité de chaque résultat possible de la variable aléatoire : fX (x) = P (X = x). On dit
que fX est la loi de probabilité de la variable aléatoire ou sa fonction de masse.
Dans ce cas, la loi de X est déterminée par l’ensemble des probabilités :
PX (x) = P (X = x), x ∈ A
Remarque 2.1. On note la loi de probabilité simplement par f lorsqu’il n’y a pas d’ambiguïté
possible et par fX lorsqu’il peut y avoir plusieurs variables aléatoires dans un même contexte.
Proposition 2.1.1. Soit X une variable aléatoire de support SX . Pour toute partie A de A ,
on a alors :
X
fX (A) = PX (A) = P (X = x)
x∈A
16
Exemple 2.1. On lance 2 dés équilibrés et on pose X la variable aléatoire qui donne la somme
des points visibles sur les deux dés. On veut la loi de probabilité de X ainsi que la probabilité
d’obtenir une valeur de 7 ou plus.
Exemple 2.3. Dans un fête foraine il y a une roue de fortune qui permet de gagner 5000,
10000 ou 100000. Sur la roue il y a 100 cases dont 10 marquées 5000, 5 marquées 10000 et une
marquée 100000.
S’il coûte 5000 pour tourner cette roue et qu’elle n’est pas truquée, donner la loi de proba-
bilité de la variable aléatoire que donne le gain net à ce jeu.
Remarque 2.2. i) Si X(Ω) est fini, X possède toujours une espérance, car la sommation
précédente ne possède en fait qu’un nombre fini de termes non nuls.
17
écrire : ∞
P
P (X = xn )
E(X) = P
n=0
∞
xn P (X = xn )
n=0
L’espérance de X apparait alors comme le barycentre des points xn affectés des masses
P (X = xn ).
Remarque 2.3. La notion de moyenne n’est pas suffisante pour donner une idée du compor-
tement de la variable aléatoire : la notion de variation est très importante c’est-à-dire dans
quelle mesure il y aura des valeurs plus ou moins éloignées de la moyenne. Une voiture qui a
une durée de vie entre 8,5 ans et 11,5 ans avec une moyenne de 10 ce n’est pas la même chose
qu’une voiture qui a une durée de vie entre 1 et 16 ans avec une moyenne de 10 ans.
La variance permet de mesurer l’écart entre les différentes valeurs possibles c’est un indice
de la dispersion des valeurs autour de la moyenne :
Définition 2.1.3. Soit X une v.a.r discrète ayant une espérance ; alors, avec les notations
précédentes, on appelle variance de X le nombre V (X) ∈ R+ défini par :
∞
X
V (X) = (xn − E(X))2 P (X = xn )
n=0
Exemple 2.4. Dans une entreprise il y a trois catégories de primes de fin d’année, la première
donne 1% du salaire, la deuxième 2% et la troisième 3%. On sait qu’il y a 10% qui reçoivent la
première prime et 40% la deuxième et que le reste reçoit la prime de 3%. Posons X la v.a. qui
donne le % du salaire qu’un employé recevra en prime en considérant qu’on choisit un employé
au hasard. Donner la loi de probabilité, l’espérance et la variance de X.
Exemple 2.5. Soit X une v.a.r discrète telle que X(Ω) = |[1, n]|(n ≥ 2)∀k = 1 . . . n, P (X =
k) = αk(n − k).
18
ii) Quel est le mode de X ?
Remarque 2.4. ó Lorsque ces nombres existent, on a : E(X) = m1 (X) et V (X) = µ2 (X)
ó Pour tout entier naturel r et tout nombre réel positif x, xr ≤ xr+1 + 1 (preuve en exercice)
Théorème 2.1.1. Soit X une v.a.r discrète définie sur e.p (Ω, B, P ) et soit Φ : R −→ R une
fonction numérique réelle quelconque. Alors Φ(X) = Φo X est une v.a.r
ii) F est dérivable à gauche (resp. à droite) en tout point x0 ∈]a, b], (x0 ∈ [a, b[) où f admet
+
une limite à gauche (resp. à droite) et Fg0 (x0 ) = f (x−
0 ) (Fd (x0 ) = f (x0 ))
0
Ces résultats restent valables pour a = −∞, sous réserve de la convergence de l’intégrale
Rb
f (t)dt.
−∞
19
Définition 2.2.1. Soit X une v.a.r définie sur un e.p (Ω, B, P ), FX sa fonction de répartition.
On dit que X est une v.a.r absolument continue s’il existe une fonction numérique f définie
sur |R telle que :
i) ∀x ∈ R, f (x) ≥ 0
ii) f est continue sur R, sauf peut-être en un nombre fini de points où elle admet une limite
finie à gauche et une limite fine à droite.
+∞
R
iii) f (x)dt existe et vaut 1.
−∞
Rx
iv) FX est liée à f par la relation : ∀x ∈ R, FX (x) = f (t)dt.
−∞
On dit alors que f est une densité de X.
2. On peut mettre < ou ≤ dans ce qui précède car la variable étant continue, on a P (X =
x) = 0∀x ∈ R
Établir que deux v.a.r. (discrètes ou continues) X et Y ont même loi, c’est démontrer que
l’on a l’égalité suivante :
Théorème 2.2.1. Deux v.a.r. à valeurs dans le même ensemble d’arrivée ont la même loi si et
seulement si leurs fonctions de répartition sont égales.
Exemple 2.6. Soit X une variable aléatoire suivant une loi de probabilité de densité définie
sur [e−1 ; e] par f (x) = k/x.
Exemple 2.7. Soit λ un réel et soit la fonction f définie sur [−1, 1] par f (x) = λ(1 − x2 ).
Déterminer λ de sorte que f soit une densité de probabilité sur [−1, 1].
20
Exemple 2.8. Soit la fonction f définie sur R par f (x) = a
√
x x
si x ≥ 1 et f (x) = 0 sinon.
1. Déterminer le réel a pour que f soit une densité de probabilité d’une certaine variable
aléatoire X.
Théorème 2.2.2. Soit X une v.a.r absolument de densité f . Soit ϕ une fonction numérique
continue et dérivable sur X(Ω). Alors Y = ϕ(Ω) est une v.a.r continue et si celle-ci admet une
espérance, elles est donnée par la formule :
+∞
Z
E(X) = ϕ(t)f (t)dt
−∞
Exercice 2.1. On considère la fonction f définie sur [0, π/2] par f (x) = cos(x).
2. Soient les fonctions g et G définies sur [0, π/2] respectivement par g(x) = xcos(x) et
G(x) = axsinx + bcosx, où a et b sont des réels. Déterminer a et b tels que la fonction G
soit une primitive de g.
21
Chapitre 3
Dans ce chapitre, nous allons repérer quelques situations souvent rencontrées pour éviter de
refaire à chaque fois les calculs.
Il s’agit d’une variable aléatoire surtout utilisée comme outil. E(X) = a × 1 et V (X) =
E[(X − a)2 ] =.
Exemple 3.1. On dit qu’une variable aléatoire X suit une loi uniforme discrète sur l’intervalle
1 . . . n si on a : X(Ω) = {1, . . . , n} et ∀k ∈ {1, . . . , n}, P (X = k) = 1/n.
On écrit alors X ,→ Un
Définition 3.1.2.
22
Définition 3.1.3.
Définition 3.1.4.
Définition 3.1.5. On dit qu’une v.a.r X suit une loi binomiale de paramètres n et p, si l’on
a:
X(Ω) = {1, . . . , n} et ∀k ∈ {1, . . . , n}, P (X = k) = Cnk pk (1 − p)n−k
On note alors X ,→ B(n, p)
On montre que si X ,→ B(n, p), alors E(X) = np et V (X) = npq
Remarque 3.1. On montre que la loi binomiale B(n, p) est la loi de la somme de n v.a.r.
indépendantes et de même loi de Bernoulli de paramètre p.
La loi binomiale intervient par exemple pour modéliser le nombre de pièces défectueuses
dans un lot de n pièces, qui ont chacune une probabilité p d’être défectueuse, indépendamment
les unes des autres.
Définition 3.1.6. On dit qu’une v.a.r X suit une loi géométrique de paramètres p, si l’on a :
X(Ω) = N ∗ et ∀k ∈ N ∗ , P (X = k) = p(1 − p)k−1
On note alors X ,→ G(p)
23
Théorème 3.1.3. SI X ,→ G(p), alors E(X) = 1/p et V (X) = (1 − p)/p2
Remarque 3.2. On peut aussi trouver dans la littérature la loi géométrique à valeurs dans N
et elle a pour probabilité élémentaire P (X = k) = p(1 − p)k . Dans notre exemple, cette dernière
donne la loi du nombre de boules rouges obtenues avant l’apparition de la 1re boule blanche.
Remarque 3.3. La loi de Poisson intervient également pour modéliser des “événements rares”.
Soit, par exemple, N la variable aléatoire comptant le nombre d’occurrences d’un événement
pendant une période donnée T . On suppose qu’un seul événement arrive à la fois, que le nombre
d’événement se produisant pendant T ne dépend que de la durée de cette période et que les
événements sont indépendants.
24
Si le nombre moyen d’événements (i.e. accidents) par unité de temps (i.e. semaine) est c,
alors on démontre que la probabilité d’obtenir n événements pendant un temps T est :
(cT )n
P (N = n) = exp(−cT )
n!
ó on choisit les k boules blanches successivement sans remise parmi les N p boules blanches :
il y a AkN p choix possibles.
ó on choisit les (n − k) autres boules successivement sans remise parmi les N (1 − p) boules
non blanches : il y a An−k
N (1−p) choix possibles.
Donc
n−k
Cnk AkN p AN (1−p)
P (X = k) =
AnN
Définition 3.1.8. Une v.a.r. X discrète est dite de loi hypergéométrique de paramètre (N, n, p)
où N et n sont des entiers non nuls tels que p ∈]0, 1[ N p ∈ N ∗ ; si elle est à valeurs dans
X(Ω) = {1, . . . , n} et si
CNk p CNn−k
(1−p)
P (X = k) =
CNn
pour k ∈ D. On note X ,→ H(N, n, ).
Proposition 3.1.1. Lorsque N est très grand devant n, la loi hypergéométrique H(N, n, p)peut
être approchée par la loi binomiale B(n, p)
25
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Travaux Dirigés 1 - Statistique Inférentielle (AD2 / 2018-2019)
Fréjus-Ferry HOUNDOGA
ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø
Bn = An ∩ (∪p=0
n−1
A p )c
Montrer que :
∪n∈IN An = ∪n∈IN Bn
Montrer que T est une tribu sur Ω ( Cette tribu est appelée image réciproque de la tribu
B). Dans le cas où Ω est une partie de E et f définie par f (x) = x pour tout x, on a :
T = {Ω ∩ B; B ∈ B} et on dit que T est la tribu de Ω induite par la tribu B de E.
3. Exemple : Ω = {−1, 0, 1, 2}, E = 0, 1, 4, B = P (E), f : x 7→ x2 . Déterminer f −1 (P (E)).
Exercice 3. On joue à pile ou face avec une pièce non équilibrée. A chaque lancer, la pro-
babilité d’obtenir face est 2/3, et donc celle d’obtenir pile est 1/3. Les lancers sont supposés
indépendants, et on note X la variable aléatoire réelle égale au nombre de lancers nécessaires
pour obtenir, pour la première fois, deux “faces consécutives”. Pour n ≥ 1, on note pn la
probabilité P (X = n).
1. Expliciter les événements (X = 2), (X = 3), (X = 4), et déterminer la valeur de p2 , p3 , p4 .
2. Montrer que l’on a pn = 92 pn−2 + 31 pn−1 , n ≥ 4.
3. En déduire l’expression de pn pour tout n.
+∞
P
4. Rappeler, pour q ∈] − 1, 1[, l’expression de nq n , et calculer alors E(X). Interpréter.
n=0
Exercice 4. Soit X une variable aléatoire de loi de Poisson de paramètre θ > 0 (i.e. P (X =
k) = e−θ k!θ , k ≥ 0).
1
1 1
1. Vérifier que 1+X
est une variable aléatoire intégrable. Calculer E( 1+X )
1 1
2. Calculer E( (1+X)(2+X) ) et en déduire E( 2+X )
Exercice 5. Soit p ∈]0, 1[. On dispose d’une pièce amenant “pile” avec la probabilité p. On
lance cette pièce jusqu’à obtenir pour la deuxième fois ”pile”. Soit Y le nombre de “face” obtenu
au cours de cette expérience.
1. Déterminer la loi de Y .
2. Montrer que Y admet une espérance, et la calculer.
3. On procède à l’expérience suivante : si Y prend la valeur n, on place n + 1 boules
numérotées de 0 à n dans une urne, et on tire ensuite une boule de cette urne. On note
alors Z le numéro obtenu. Déterminer la loi de Z. Calculer l’espérance de Z.
Exercice 6. Une rampe verticale de spots nommés de bas en haut S1 , S2 , S3 , S4 change d’état
de la manière suivante :
– à l’instant t = 0, le spot S1 est allumé.
– si, à l’instant t = n, n ≥ 0, le spot S1 est allumé, alors un (et un seul) des spots
S1 , S2 , S3 , S4 s’allume à l’instant t = n + 1, et ceci de manière équiprobable.
– si, à l’instant t = n, n ≥ 0, le spot Sk (2 ≤ k ≤ 4) est allumé, le spot Sk−1 s’allume à
l’instant t = n + 1.
On peut donc remarquer qu’à chaque instant, un et un seul spot est allumé. On note X la
variable aléatoire représentant le premier instant (s’il existe) où le spot S2 s’allume.
1. Calculer la probabilité pour que le spot S1 reste constamment allumé jusqu’à l’instant n.
2. Calculer la probabilité des événements (X = 1) et (X = 2).
3. Calculer la probabilité des événements (X = n), pour n ≥ 3.
4. Déterminer l’espérance de X.
2
Exercice 8. Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule
est la bonne.
1. Donner la loi de probabilité du nombre X d’essais nécessaires s’il essaie les clefs une à
une sans utiliser deux fois la même. Calculer l’espérance et la variance de X.
2. Lorsque le gardien est ivre, il mélange toutes les clefs à chaque tentative. Identifier la loi
de X. Rappeler l’espérance et la variance de X.
3. Le gardien est ivre un jour sur trois. Sachant qu’un jour n tentatives ont été nécessaires
pour ouvrir la porte, quelle est la probabilité que le gardien ait été ivre ce jour là ? Calculer
la limite quand n tend vers l’infini.
Exercice 9. Une ligne de la SOTRA comporte 18 arrêts bus numérotés de 1 à 18. Lorsqu’un
bus part de l’arrêt 1 en direction de l’arrêt 18, le nombre de passagers qui montent dans ce bus
à l’arrêt i(1 ≤ i ≤ 17) est une variable aléatoire Xi qui suit la loi binomiale B(2(18 − i), 2/3)/
1. Calculer l’espérance du nombre total de passagers montant dans un bus, lors de son trajet
d’arrêt à arrêt.
On suppose maintenant que le nombre de passagers qui descendent du bus à l’arrêt i est
une variable aléatoire Yi (2 ≤ i ≤ 18) qui suit la loi binomiale B(2(i − 1), 2/3).
2. Calculer l’espérance du nombre de passagers présents dans le bus entre les stations 9 et
10.
Exercice 10. Un étudiant AD2 se présente à un examen où, cette fois, les 20 questions
sont données sous forme de Questions à Choix Multiples. A chaque question, sont proposées 5
réponses, une seule étant exacte. L’enseignant fait le compte des réponses exactes données par
les étudiants. Certains étudiants répondent au hasard à chaque question. Pour ceux-là, définir
une variable aléatoire associée à ce problème et donner sa loi de probabilité, son espérance.
Donner la probabilité que chacun de ces étudiants obtiennent au moins 12 à l’examen.
3
3.2 Lois continues
1
f (x) = 1[a,b] (x). (3.1)
b−a
On note X ,→ U[ a, b] et sa fonction de répartition est donnée par :
0 si x ≤ a
F (x) = x−a
b−a
Si a ≤ x ≤ b (3.2)
1 Si x ≥ b.
La loi uniforme sur un intervalle est la loi des “tirages au hasard” dans cet intervalle.
La loi uniforme la plus célèbre est celle dont le support est l’intervalle [0, 1].
(b−a)2
Proposition 3.2.1. Si X ,→ U[ a, b], alors E(X) = a+b
2
et V (V ) = 12
29
3.2.3 Loi Gamma
La loi exponentielle est un cas particulier de la famille des lois Gamma. Soient a > 0 et
λ > 0. On dit que X suit une loi Gamma de paramètres (a, λ), notée Γ(a, λ), si la loi de X a
pour densité : a
λ
Γ(a)
xa−1 e−λx si x ≥ 0
fX (x) = (3.5)
0 Sinon,
où la fonction gamma est donnée par
Z∞
Γ(a) = xa−1 e−x dx (3.6)
0
Le paramètre a est un paramètre de forme alors que le paramètre λ est un paramètre d’échelle.
Pour n entier, a = n/2 et λ = 1/2, la loi Γ(n/2; 1/2) est appelée loi du chi-deux à n degrés
de liberté, et notée χ2 (n). Elle joue un rôle important en statistique, c’est la loi de la somme
des carrés de n variables aléatoires indépendantes de loi N (0, 1). On l’utilise pour les variances
empiriques d’échantillons gaussiens. La loi Γ(1; λ) est la loi exponentielle E(λ).
Remarque 3.4. On a les relations suivantes : Γ(α + 1) = αΓ(α) et si n est un entier, Γ(n) =
√
(n − 1)!. On a enfin Γ(1/2) = π
30
On note X ,→ N (m, σ 2 ).
On dit aussi que X suit une loi normale de paramètre m et σ 2 ou encore que X est une
v.a.r normale ou gaussienne.
Théorème 3.2.1. Soit X une v.a.r définie sur (Ω, B, P ). Notons X ∗ la variable centrée réduite
associée. On a l’équivalence suivante :
X −m
X ,→ N (m, σ 2 ) ⇔ X ∗ = ,→ N (0, 1)
σ
Remarque 3.5. Sur la base du théorème 3.2.1, tout calcul de probabilité à partir d’une loi
N (m, σ 2 ) se ramène par réduction à un calcul de probabilité de la loi centrée réduite N (0, 1)
dont la fonction de répartition se note traditionnellement φ au lieu de φ0,1 et sa densité ϕ au
lieu de ϕ0,1 .
Z x
1 − x2 1 t2
∀x ∈ R, ϕ(x) = √ e 2 ; φ(x) = √ e− 2 dt
2π −∞
2π
Le calcul de ϕ(x) se fait simplement à l’aide d’une machine à calculer aux performances
modestes.
Le calcul de φ(x) nécessite par contre que l’on ait à sa disposition une machine relativement
sophistiquée. Pour cette raison, des ouvrages proposent généralement des valeurs approchées
de φ(x) pour x ≥ 0.
La proposition suivante montre qu’il est inutile de tabuler φ(x) pour x ≤ 0
∀x ∈ R, P (X ≤ x) = P (X ≥ −x) = 1 − P (X ≤ −x)
Remarque 3.6. i) La densité de la loi normale présente un axe de symétrie vertical pour
x = m;
ii) Il n’existe pas d’expression analytique de la fonction de répartition de X qui est approchée
par le calcul numérique de l’intégrale de la densité.
iv) Il faut cependant remarquer que les variables utilisées dans les domaines technologique,
économique, biologique sont bien souvent positives. Pour que la loi normale puisse être
31
représentative d’un tel phénomène, il faut que la probabilité théorique d’obtenir des va-
leurs négatives de la variable soit très faible. Il faut en particulier éviter d’utiliser cette
modélisation pour les queues des distributions.
Remarque 3.7. Soit X une v.a.r suivant une loi normale. Calculons le coefficient d’aplatisse-
ment de X. Ce coefficient étant indépendant de l’origine et de l’unité choisie, il suffit de calculer
ce coefficient dans le cas d’une loi N (0, 1)
On a donc : m1 = 0 ; µ2 = σ 2 = 1 et µ4 = 3.
Par conséquent, le coefficient d’aplatissement vaut a = µ4
µ22
= 3.
Ce qui prouve bien que le coefficient a−3 appelé parfois “excès d’aplatissement” a été conçu
pour comparer une distribution statistique à une distribution normale.
Exercice 3.2. Soit X une variable aléatoire qui suit la loi normale N (500; 202 ). Pour Z une
variable aléatoire qui suit la loi normale centrée réduite, on note et donne a = P (Z ≤ 0),
b = P (Z ≤ 0, 5) ' 0, 6915, c = P (Z ≤ 1) ' 0, 8413, d = P (Z ≤ 2) ' 0, 9772.
Exprimer en fonction de a, b, c et d, puis donner une valeur approchée de :
1. P (X ≤ 520)
2. P (X ≥ 540)
3. P (460 ≤ X ≤ 540)
4. P(X≥500) (X ≤ 510)
Exercice 3.3. Soit X une variable aléatoire suivant la loi normale N (200; 152 ).
Déterminer le réel u > 0 tel que P (200 − 2u ≤ X ≤ 200 + 2u) = 0, 9
Exercice 3.4. Soit X une variable aléatoire suivant la loi normale N (µ; σ 2 ).
On donne µ = E(X) = 120.
Déterminer l’écart-type σ tel que P (100 ≤ X ≤ 140) = 0, 92.
1. Seules les boules dont la masse est comprise entre 666g et 732g sont acceptées à la cuisson.
Quelle est la probabilité qu’une boule, prise au hasard dans la production, soit acceptée
à la cuisson ?
2. Déterminer le réel positif h afin que l’on ait : P (700 − h ≤ X ≤ 700 + h) > 0, 95. Énoncer
ce résultat à l’aide d’une phrase.
32
3. On admet que 8% des boules sont refusées à la cuisson. On prélève au hasard, successi-
vement et avec remise, n boules dans la production. On note Yn la variable aléatoire qui,
à chaque prélèvement de n boules, associe le nombre de boules qui seront refusées à la
cuisson. Cette variable aléatoire Yn suit une loi binomiale.
Dans le cas n = 10,
(a) calculer la probabilité d’avoir, parmi les 10 boules prélevées, exactement 3 boules
refusées à la cuisson ;
(b) calculer la probabilité d’avoir, parmi les 10 boules prélevées, au moins 7 boules
acceptées à la cuisson.
Donc Z est une v.a.r absolument continue qui admet comme densité la fonction la fonction
définie par :
(log(x)−m)2
1
√ e− 2σ 2 si x > 0
fZ (x) = xσ 2π (3.10)
0 Sinon,
Sa densité est dissymétrique et étalée vers la droite.
33
Notons que l’on a :
Γ(a)Γ(b)
β(a, b) = β(b, a) =
Γ(a + b)
Définition 3.2.5. Une v.a.r. X à valeurs dans [0, 1] est dite de loi Bêta de paramètres a et b
si elle est absolument continue et admet pour densité :
1
f (x) = xa−1 (1 − x)b−1 1[0,1] (x) (3.12)
β(a, b)
On note X ,→ T (n).
β( 2 , 2 ) (m + nx) 2
On note X ,→ F(n, m)
34
Chapitre 4
4.1 Généralités
→
−
Soit (Ω, B, P ) un espace probabilisé quelconque et soit X : Ω → Rd (d ∈ N ∗ ) une application.
Pour tout i = {1, . . . , d}, notons πi la ime projection de Rd sur R i.e l’application défini par :
πi : R d −→ R
(4.1)
(x1 , . . . , xd ) 7−→ xi
→
−
Alors πo X est une application de Ω dans R, et si l’on note cette application Xi , on a :
→
−
∀ω ∈ Ω, X (ω) = (X1 (ω), . . . , Xd (ω))
Avec ces notations, si ∀i = {i, . . . , d}, Xi est une v.a.r sur Ω, on dit que X est une variable
(ou vecteur) aléatoire de dimension d définie sur Ω.
Réciproquement, supposons que l’on se soit donné d v.a.r X1 , . . . , Xd définies sur l’es-
→
− →
−
pace probabilisé (Ω, B, P ). Alors l’application X : Ω → Rd définie par : ∀ω ∈ Ω, X (ω) =
(X1 (ω), . . . , Xd (ω)) est un vecteur aléatoire de dimension d. Pour cette raison, nous confondons
vecteur aléatoire de dimension d et d − uplet de variables aléatoires définies sur un même espace
→
−
probabilisé et nous permettons l’abus de notation : X = (X1 , . . . , Xd )
Dans la suite de ce cours, nous étudierons principalement le cas d = 2 et nous parlerons
alors de couple de v.a.r.
35
4.2 Couple de variables aléatoires discrètes
Définition 4.2.1. Soient X et Y deux variables aléatoires discrètes avec X(Ω) = {xi , i ∈ N } ;
et Y (Ω) = {yj , j ∈ N }. La loi conjointe du couple (X; Y ) est donnée par (X; Y )(Ω) = X(Ω) ×
Y (Ω) ainsi que par les probabilités
pi,j = P (X = xi ∩ Y = yj ) = P (X = xi , Y = yj )
pour i, j ∈ N .
P
Remarque 4.1. 0n a nécessairement pi,j = 1
i,j∈N
Plus généralement, si X1 , . . . , Xn sont n variables aléatoires discrètes, la loi conjointe du
vecteur (X, ; . . . , Xn ) est donnée par (X1 , . . . , Xn )(Ω) ainsi que par les probabilités P (X1 =
x1 , . . . ; Xn = xn ), pour tout n-uplet (X1 , . . . , Xn ) ∈ Rn .
Exemple 4.1. On lance une pièce truquée 3 fois. La probabilité de tomber sur “Pile” est 2/3.
Soit X le nombre de “Face” obtenu dans les deux premiers jets et Y le nombre de “Face” obtenu
dans les deux derniers jets. Donner la loi de (X,Y) ! !
Loi marginale
Définition 4.2.2. Soit (X, Y ) un couple aléatoire discret. On appelle première loi marginale
(resp : deuxième loi marginale) la loi de la première composante X (resp : deuxième composante
Y ). On les obtient de la façon suivante : ∀i, j ∈ N,
X X
pi = P (X = xi ) = P (X = xi , Y = yj ) = pi,j (4.2)
j∈N j∈N
X X
qj = P (Y = yj ) = P (X = xi , Y = yj ) = pi,j (4.3)
i∈N i∈N
Donc, si on connaît la loi du couple, on connaît les lois marginales. Il suffit de faire les
sommes sur les lignes et les colonnes.
36
Remarque 4.2. La connaissance de la loi d’un couple permet donc de retrouver les lois margi-
nales. En revanche, il n’est pas possible de déterminer la loi d’un couple s’il l’on ne connaît que
les lois marginales : deux couples peuvent avoir des lois différentes alors qu’ils ont les mêmes
lois marginales.
Exemple 4.2. On tire successivement et sans remise deux boules dans une urne contenant au
départ 2 boules rouges et 3 boules noires. On note X (respectivement Y ) la variable aléatoire
qui vaut 1 si la première (respectivement deuxième) boule tirée est rouge, 0 sinon. Déterminer
la loi du couple Z = (X, Y ) puis déterminer les loi marginales de Z/
Déterminer de même les lois de X 0 , de Y 0 et de Z 0 = (X 0 , Y 0 ) si le tirage se fait avec remise.
Loi conditionnelle
Considérons un couple (X, Y ) de variables aléatoires discrètes, dont on connaît la loi jointe
et fixons y tel que P (Y = y) > 0.
On définit la probabilité conditionnelle
P ((X = x) ∩ P (Y = y))
P (X = x|Y = y) = = PXY =y (x)
P (Y = y)
On montre que PXY =y (x) définit ainsi une probabilité sur X(Ω).
Définition 4.2.3. Pour tout y ∈ Y (Ω) tel que P (Y = y) > 0, la fonction PXY =y (x) définit sur
X(Ω) à valeur dans [0,1] est appelée loi de probabilité de X conditionnelle à Y = y.
La loi conditionnelle de X sachant l’événement {Y = y} est donnée par le fait que c’est
une loi sur X(Ω) ainsi que par les probabilités conditionnelles P (X = x|Y = y) pour tout
x ∈ X(Ω).
Fonction de répartition
Proposition 4.2.1. On a :
37
4.2.2 Loi de f (X, Y )
Problème : On dispose d’un couple de variables aléatoires discrètes (X, Y ) dont on connaît
la loi conjointe et on voudrait connaître la loi de la variable aléatoire Z = f (X, Y ), où f :
X(Ω) × Y (Ω) → R est une fonction donnée. Par exemple, on a souvent besoin de connaître la
loi de X + Y , ou celle de X − Y , ou de XY . Et déterminer la loi de X à partir de celle de
(X, Y ), par exemple, revient à considérer la fonction f (x, y) = x.
Si X et Y sont deux variables aléatoires discrètes indépendantes, on aura donc, pour tout y ∈
Y (Ω) et tout x ∈ X(Ω) tels que P (Y = y) > 0 et P (X = x) > 0, P (X = x|Y = y) = P (X = x)
et P (Y = y|X = x) = P (Y = y).
Plus généralement, les n variables aléatoires discrètes X1 , . . . , Xn sont (mutuellement ou n
à n) indépendantes si, pour tout choix de x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω), on a
ó Lorsque les variables aléatoires X et Y sont indépendantes, connaître les lois marginales
permet donc de connaître la loi jointe du couple (X, Y ), alors que pour des variables
aléatoires quelconques, cela ne suffit pas.
38
On considère un couple aléatoire discret (X, Y ).
Plus généralement, la matrice de covariance d’un vecteur (X1 , . . . , Xn ), dont chacune des
composantes est de carré intégrable, est une matrice n × n dont les termes diagonaux sont les
variances des Xi et dont le terme (i, j) est la covariance cov(Xi , Xj ) pour tout i 6= j.
Remarque 4.4. Le calcul de l’espérance de X ou de Y ne fait intervenir que les lois marginales,
mais nous allons voir qu’il n’est pas nécessaire d’expliciter ces lois marginales.
Proposition 4.2.3. Si (X, Y ) est un couple de variables aléatoires discrètes, pour toute fonction
h : R2 → R telle que
X
h(x, y)P (X = x, Y = y) < ∞
x∈X(Ω),y∈Y (Ω)
39
Proposition 4.2.4. 1. Si X et Y sont deux variables aléatoires indépendantes et inté-
grables, on a E(XY ) = E(X)E(Y ) et donc cov(X, Y ) = 0. La réciproque de ce résultat
est fausse.
Une autre utilité importante de la fonction génératrice est de permettre de calculer simplement
la loi de somme de variables aléatoires, à partir du moment où on connaît leur loi jointe. En
effet, on a le résultat suivant :
40
Proposition 4.2.7. Soient (X, Y ) un couple de variables aléatoires positives dont on connaît
la loi jointe. Notons GX,Y la fonction génératrice du couple. On a alors GX+Y (s) = G(X,Y ) (s, s).
On retrouve facilement les lois marginales : les variables X et Y sont des variables continues
de densité respectives
Z Z
fX (x) = f(X,Y ) (x, y)dy et fY (y) = f(X,Y ) (x, y)dx
R R
Proposition 4.3.1. Si X est un vecteur aléatoire absolument continu, tout vecteur aléatoire
marginal est également absolument continu et sa densité est obtenue en intégrant la densité
conjointe de X par rapport aux coordonnées restantes.
4.3.2 Indépendance
Rappelons la définition de l’indépendance de variables aléatoires :
Les variables aléatoires X et Y sont indépendantes si, pour tous intervalles I et J, on a
P (X ∈ IetY ∈ J) = P (X ∈ I)P (Y ∈ J)
Définition 4.3.2. Deux variables aléatoires (X,Y) de densité respectivement f et g sont in-
dépendantes si et seulement si la loi du couple admet une densité et que cette densité est la
fonction (x, y) 7→ f (x)g(y).
41
4.3.3 Espérance, covariance
Définition 4.3.3. On définit, comme pour les couples discrets l’espérance d’un couple de va-
riables aléatoires intégrables comme étant le couple des espérances E(X,Y) = (E(X),E(Y)), et
il est facile de vérifier que :
Z Z
E(X) = xf (x, y)dxdy et E(Y ) = yf (x, y)dxdy
R2 R2
La matrice de covariance est, comme dans le cas discret, une matrice symétrique et positive
(au sens des formes bilinéaires).
Remarque 4.5. Pour identifier la densité d’un couple, on utilise habituellement une fonction
test h : R2 → R continue et bornée et on essaie d’écrire E(h(X, Y )) sous la forme
Z
E(h(X, Y )) = h(x, y)f (x, y)dxdy. (4.11)
R2
Remarque 4.6. Les propriétés vues dans le cas discret restent vraies pour les couples à densité :
notamment, si le couple est formé de variables aléatoires indépendantes et de carré intégrable,
cov(X, Y ) = 0 et var(X + Y ) = var(X) + var(Y ), et, tout comme dans le cas discret, la
covariance de deux variables aléatoires dont le couple admet une densité, peut être nulle sans que
les variables soient indépendantes : reprendre par exemple l’exemple du couple de loi uniforme
sur le disque de centre 0 et de rayon 1.
Proposition 4.3.2. ó Si le couple (X, Y ) admet pour densité la fonction f , alors la densité
de la variable aléatoire X + Y est la fonction g définie par
Z Z
g(z) = f (x, z − x)dx = f (z − y, y)dy
R R
42
ó Si X et Y sont deux variables aléatoires indépendantes de densité fX et fY , la densité,
notée g, de X + Y est le produit de convolution de fX et fY :
Z Z
g(z) = fX (x)fY (z − x)dx = fX (z − y)fY (y)dy.
R R
Exercice 4.1. Cédric fait du tir à l’arc sur une cible circulaire de rayon 1. On suppose que
Cédric est suffisamment maladroit pour que le point d’impact M de coordonnées (X, Y ) soit
uniformément distribué sur la cible. On note D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
Exercice 4.2. Soit T l’intérieur d’un triangle du plan délimité par les points O(0, 0), I(1, 0)
et J(0, 1) et soit (X, Y ) un couple de variables aléatoires de loi uniforme sur le triangle T .
43
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Travaux Dirigés 2 - Statistique Inférentielle (AD2 / 2018-2019)
Fréjus-Ferry HOUNDOGA
ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø
Exercice 1 (*). Soient X et Y deux variables indépendantes suivant une loi de Bernoulli de
même paramètre p. On note U = X + Y et V = X − Y . Calculer la loi du couple (U, V ). Les
deux variables sont-elles indépendantes ?
Exercice 3 (**). Soient X et Y deux variables aléatoires indépendantes suivant une loi
géométrique de même paramètre p. On note U = max(X, Y ) et V = min(X, Y ).
1. Déterminer les lois de U et de V .
2. Calculez l’espérance de la variable U .
3. Déterminer E(V ) de deux façons différentes (un calcul direct, et un autre utilisant la
valeur de E(U )).
Exercice 5. Romaric et Angèle ont un rendez-vous chez Foungnigué entre 12h et 14h. On
suppose que les instants d’arrivée de Romaric et Angèle sont des variables aléatoires X et Y
indépendantes et de loi uniforme sur [0, 2] (l’instant 0 correspondant à midi et l’unité de temps
étant l’heure).
1
1. Soit U la variable aléatoire représentant le temps d’attente de Robert jusqu’à la première
arrivée. Déterminez la densité de probabilité de U .
2. Soit V la variable aléatoire représentant le temps d’attente de Foungnigué jusqu’à ce que
ses deux amis soient arrivés. Déterminez la densité de probabilité de V .
3. Soit W la variable aléatoire représentant le temps d’attente de Foungnigué entre les deux
arrivées. Déterminez la densité de probabilité de W .
Exercice 6. Cédric et Rosemonde ont projeté de se retrouver pour boire un café entre 19H
et 20H. On sait qu’aucun des deux n’attendra l’autre plus de 10 minutes et on se demande
s’ils ont “peu ou beaucoup de chance” de se rencontrer. On modélise le problème de la manière
suivante : ils arrivent indépendamment et à des instants uniformément distribués entre 19H et
20H.
1. Quelle est la probabilité que Cédric et Rosemonde se rencontrent ?
2. Cédric précise son heure d’arrivée à Rosemonde, quelle est la probabilité qu’ils se ren-
contrent ?
3. Cédric est arrivé et ne voit pas Rosemonde, quelle probabilité a-t-il de rencontrer Alice ?
Exercice 7 (**). Soient X et Y deux variables aléatoires à valeurs dans N ? , telles que :
a
P ((X = i) ∩ (Y = j)) =
2i+j
pour tout i, j ∈ N ∗
1. Calculer a.
2. Déterminer les lois marginales de X et Y .
3. X et Y sont-elles indépendantes ?
2
1. Représenter ∆.
2. Vérifier que f est bien une densité.
3. Déterminer les densités marginales fX et fY .
4. Calculer la covariance σXY .
5. Les variables X et Y sont-elles indépendantes ?
χ2 = X12 + X22
Exercice 11 (EM Lyon 2010). Une gare dispose de deux guichets. Trois clients notés C1 ,
C2 , C3 arrivent en même temps. Les clients C1 et C2 se font servir tandis que le client C3
attend puis effectue son opération dès que l’un des deux guichets se libère.
On définit X1 , X2 , X3 les variables aléatoires égales à la durée de l’opération des clients C1 ,
C2 , C3 respectivement. Ces durées sont mesurées en minutes et arrondies à l’unité supérieure
ou égale. On suppose que les variables aléatoires X1 , X2 , X3 suivent la loi géométrique de
paramètre p, p ∈]0; 1[ et qu’elles sont indépendantes. On note q = 1 − p.
On note A l’événement, : “C3 termine en dernier son opération”. Ainsi l’événement A est
égal à l’événement : (min(X1 , X2 )+X3 ) > max(X1 , X2 ). On se propose de calculer la probabilité
de A.
1. Rappeler la loi de X1 ainsi que son espérance E(X1 ) et sa variance V (X1 ). On définit la
variable aléatoire ∆ par ∆ = |X1 − X2|.
2. Calculer la probabilité P (∆ = 0).
3. Soit n un entier naturel non nul.
+∞
P
(a) Justifier : P (X1 − X2 ) = P (X1 = k)P (X2 = n + k)
k=1
3
Chapitre 5
Convergence
Dans ce chapitre, nous étudierons quelques résultats limites de la théorie des probabilités.
Il est intéressant de savoir “approcher” une loi donnée dont le paramètre, n, est grand par une
loi d’un calcul plus accessible.
En termes mathématiques, “approcher pour n grand” revient à rechercher s’il existe une
limite, lorsque n → +∞, puis de dégager quelques théorème importants de convergence de lois
classiques.
Nous nous intéresserons à deux formes de convergence : la convergence en probabilité et la
convergence en loi.
Définition 5.1.1. On dit que Xn converge en probabilité (ou converge stochastiquement) vers
X, et on note Xn −
→ X, si :
P
lim P (|Xn − X| ≥ ) = 0
n→+∞
et
lim P (|Xn − X| ≤ ) = 1
n→+∞
La proposition suivant nous donne une condition suffisante pour avoir la convergence en
probabilité vers une constante.
47
Proposition 5.1.1. Soit (Xn ) une suite de v.a.r. dans L2 . Si on a
alors
P
Xn −
→a
E(X) E(X)
P (X ≥ ) ≤ et P (X > ) ≤
Preuve :
Corollaire 5.1.2. Soit X une variable aléatoire (discrète ou à densité) admettant un moment
d’ordre 2. Alors :
E(X 2 )
P (|X| ≥ ) ≤ .
2
Preuve :
σ2
∀ > 0, P (|Y − m| ≥ ) ≤ (5.2)
2
Preuve : Soit σ > 0, posons X = (Y − m)2 . La variable aléatoire X admet une espérance
et, par définition, E(X) = E((Y − m)2 ) = σ 2 . Par conséquent, d’après l’inégalité de Markov,
on peut écrire pour tout > 0
2 σ2 2
P (X ≥ ) ≤ 2 (en prenant λ = σ2
)
Or (X ≥ 2 ) = ((Y − m)2 ≥ 2 ) = (|Y − m| ≥ ). CQFD
48
5.1.2 Loi faible des grands nombres
Théorème 5.1.3 (Loi faible des grands nombres). Soit (Xn )n∈N ∗ une suite de v.a.r. (discrètes
ou à densité) mutuellement indépendantes suivant une même loi, ayant une espérance m et une
variance σ 2 . Soit (Zn )n∈N ∗ définie par :
X1 + · · · + Xn
Zn = .
n
Alors (Zn )n∈N ∗ converge en probabilité vers la variable certaine égale à m. Plus précisément :
σ2
∀ > 0, ∀n ∈ N , P (|Zn − m| ≥ ) ≤ 2
∗
(5.3)
n
Preuve :
Théorème 5.1.4 (Théorème d’or de Bernoulli). Soit (Xn )n∈N ∗ une suite de v.a.r. mutuellement
indépendantes suivant toutes une loi de Bernouilli de paramètre p. Soit :
X1 + · · · + Xn
∀n ∈ N ∗ , Zn = .
n
Alors (Zn )n∈N ∗ converge en probabilité vers la v.a.r. certaine égale à p. Plus précisément :
pq 1
∀ > 0, ∀n ∈ N ∗ , P (|Zn − p| ≥ ) ≤ ≤ (5.4)
n2 4n2
Preuve :
Exercice 5.1. On tire 1000 fois à “pile” ou “face” avec une pièce déséquilibrée dont la proba-
bilité d’obtention de “Pile” est p. On obtient 570 fois “Pile”. Donner un intervalle I tel que la
probabilité que p ∈ I soit supérieure à 0,9.
Remarque 5.3 (Théorème : Une condition suffisante de convergence). Soit (Xn )n∈N une suite
de v.a.r., et X une v.a.r., ayant toutes une espérance et une variance. Si lim E(Xn ) = E(X)
n→+∞
et lim V (Xn − X) = 0, alors (Xn )n∈N converge en probabilité vers X.
n→+∞
5.2.1 Généralité
Nous avons étudié dans la section précédente la notions de convergence en probabilité. Cette
notion est très restrictive car nous avons vu qu’il était nécessaire de connaître la [Link] (i.e.
l’application Xn : Ω → R) pour savoir si celle-ci était “proche” de l’application X.
49
Dans la pratique, Ω n’est souvent qu’imparfaitement connu et Xn repérée par sa loi. On
désire alors savoir si, dans un calcul de probabilité, il est possible de remplacer la loi de Xn par
une loi d’un usage plus commode.
Définition 5.2.1. Soit (Xn )n∈N une suite de v.a.r., et X une v.a.r. On dit que (Xn )n∈N
converge en loi vers X, et on note Xn −
→ X si pour tout x en lequel FX est continu,
L
Dans le cas des variables à densité, l’hypothèse de continuité est vérifiée pour tout x de
R. Dans le cas de variables discrètes à valeurs entières, on obtient la reformulation suivante
équivalente :
Définition 5.2.2. Soit (Xn )n∈N une suite de v.a.r., et X une v.a.r.d. On suppose que pour
tout n ∈ N, Xn (Ω) ⊂ Z. On dit que (Xn )n∈N converge en loi vers X si :
∀x ∈ Z, lim P (Xn = x) = P (X = x)
n→+∞
Théorème 5.2.1 (admis). Soit (Xn )n∈N ∗ une suite de v.a.r. définies sur un même espace
probabilisé (Ω, B, P ), mutuellement indépendantes, de même loi, admettant une espérance m
n
P
et un écart-type σ. Soit pour tout n ∈ N ∗ , Sn = Xk , et Sn∗ la variable centrée réduite
k=1
associée. Alors Sn∗ = et Sn∗ −
→ X, où X N (0, 1).
Sn−nm L
√
σ n
Rb − t2
En d’autres termes, pour tous réels a < b, lim P (a < Sn∗ ≤ b) = √1 e 2 dt.
n→+∞ 2π a
5.3 Approximation
50
La restriction aux valeurs kb du premier paramètre (multiples de b) est motivée par le fait
que la loi hypergéométrique H(N, n, p) n’est bien définie que lorsque N p est entier (pour pouvoir
considérer les coefficients binomiaux). Ainsi, lorsque le premier paramètre devient grand (tout
en assurant cette condition), on se rapproche d’une loi binomiale.
En pratique, on considère qu’on peut approcher une loi hypergéométrique H(N, n, p) par
une loi binomiale B(n, p) si N > 10n.
Signification : Lorsque le nombre de boules de l’urne est très grand, le fait de retirer une
boule de l’urne ne change pas beaucoup la proportion de boules à succès. Ainsi, on est presque
dans le cas d’un tirage avec remise.
En pratique, on considère qu’on peut approcher une loi binomiale B(n, p) par une loi de
Poisson P(np) si n ≥ 30, p ≤ 0, 1 et np ≤ 10.
51
Deuxième partie
Statistique
52
Chapitre 1
Les échantillons
53
1.2 Méthodes de sondage
Un sondage est dit aléatoire simple, lorsque tout sous-ensemble de n-individus a une même
probabilité d’être sélectionné. De plus, le tirage de l’échantillon est réalisé sur la base de sondage
toute entière sous regroupement préalable en sous-population. Il s’agit donc d’un simple tirage
de numéro dans une urne. Le tirage peut être avec remise (ou non exhaustif) ou sans remise
(ou exhaustif).
54
Chapitre 2
Définition 2.1.1. Un n-échantillon aléatoire issu d’une v.a.r. X est un ensemble (X1 , . . . , Xn )
de n v.a.r. indépendantes et de même loi que X.
55
θ est une v.a. possédant une loi de probabilité qui dépend en général du paramètre inconnu.
Une fois l’échantillon prélevé, on dispose de n-valeurs observées x1 , . . . , xn , ce qui nous fournira
une valeur h(x1 , . . . , xn ) de θ̂n que nous appelons estimation.
Convergence
L’estimateur θ̂n est dit convergent s’il est “proche” de θ au sens de la convergence en
probabilité : pour tout > 0,
P (|θ̂ − θ| > ) → 0
Exemple 2.1. Considérons une v.a.r. X représentant le nombre de grippes attrapées par une
personne en un an. On peut supposer que X suit une loi de Poisson de paramètre λ > 0.
Chercher la loi de X, c’est chercher λ, qui n’est autre que l’espérance mathématique de X.
Par conséquent, la Loi des Grands Nombres (LGN) nous indique que Xn est un estimateur
convergent de λ : pour tout > 0,
1X n
P (| Xi − λ| ≥ ) → 0 (2.1)
n i=1
Définition 2.1.3. Soit θ̂n un estimateur convergent d’un paramètre θ. On appelle biais la
quantité E(θ̂n ) − θ. L’estimateur θ̂n est dit sans biais si E(θ̂n ) = θ, et biaisé sinon.
Exemple 2.2. La moyenne empirique X̂n est un estimateur convergent et sans biais de l’espé-
rance mathématique µ.
Ainsi, si µ désigne la moyenne d’une population et x̄ la moyenne arithmétique d’un échan-
tillon aléatoire simple (EAS) prélevé dans cette dernière. On peut prouver que : E(s2 ) = σ 2 n−1
n
56
Si θ̂ est biaisé, on utilise comme mesure de précision l’écart quadratique moyen :
Remarque 2.1. Dans de nombreux cas, V (θ̂) diminue quand n augmente pour devenir très
petit quand n est infiniment grand. Dans ce cas, on dit que l’estimateur est convergent. Il en
est ainsi pour la moyenne x̄ d’un EAS car V (X̄) = n1 σ 2 tend vers zéro quand n devient de +
en + grand.
σ2
3. par indépendance : V (X̄n ) = n
,
4. loi de X̄n :
L’estimation d’une proportion p est un cas particulier du précédent, au sens où les v.a.r. Xi
considérées sont de Bernoulli de paramètre p.
Définition 2.1.6. Soit (Y1 , . . . , Yn ) un n-échantillon de v.a.r. de loi N (0, 1). On appelle loi du
n
P
chi-deux à n degrés de liberté la loi de la v.a.r. Yi2 et on la note χ2(n)
i=1
Propriété 2.1.1 ((de la variance empirique)). 1. Sn2 est un estimateur convergent de la va-
riance σ 2 .
57
2. Sn2 est sans biais.
3. loi de Sn2 : pas de résultat général. Cependant, si X ∼ N (µ, σ 2 ), alors la v.a.r n−1 2
2 Sn
σn
suit
une loi du chi-deux à n − 1 degrés de liberté χ2(n−1) .
P (l1 ≤ θ ≤ l2 ) = 1 − α
Par construction, les limites l1 et l2 sont des v.a. car elles dépendent des observables. Elles
doivent nous permettre de compléter l’estimation ponctuelle envisagée dans le sous paragraphe
précédent en prenant en compte la loi de probabilité de l’estimateur.
X̄ − µ
P (−z1− α2 ≤ ≤ z1− α2 ) = 1 − α
√σ
n
⇓
σ σ
P (X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √ ) = 1 − α
n n
58
L’intervalle définit par ces limites :
σ σ
[l1 ; l2 ] = [x̄ − z1− α2 √ ; x̄ + z1− α2 √ ]
n n
59
Chapitre 3
le plus souvent, la valeur x̄ ne permet pas de trancher la décision comme dans le dernier cas
(cas 3.). De plus, même lorsqu’elle paraît s’imposer (1. et 2.) on n’est jamais sûr de ne pas être
tombé sur un échantillon ayant très peu de chances de se réaliser.
Comment être sur de prendre la “bonne” décision ? Jamais. Tout au plus, on
peut prendre la décision la plus probable.
Le rôle de la théorie des tests est de nous aider à prendre ce genre de décision.
60
3.2 Principe des tests
Les tests visent à vérifier sur la base d’échantillons si les caractéristiques de telle ou telle
population répondent bien à certaines spécifications appelées hypothèses.
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ admettant une
densité f (., θ), pour tout θ ∈ Θ. Soit Θ0 et Θ1 deux sous-ensembles de Θ tels que Θ1 ⊂ Θc0 .
L’objectif est de tester une hypothèse H0 : θ ∈ Θ0 dite "hypothèse nulle" contre une autre
H1 : θ ∈ Θ1 dite "hypothèse alternative", c’est à dire, décider si H0 ou H1 est vraie. Les
hypothèses H0 et H1 sont telles que une et une seule est vraie. Un test est alors une règle
de décision qui permet de trancher entre les deux hypothèses en se basant sur l’échantillon
(X1 , . . . , Xn ).
la statistique mathématique propose, pour tester une certaine hypothèse, une “statistique
de test” donnée en mettant en évidence sa distribution probabiliste sous l’hypothèse à tester.
C’est à partir de cette distribution que l’on va définir la règle d’acceptation ou de rejet de
l’hypothèse. Elle sera rejetée si, lors de la mise en oeuvre, la statistique prend une valeur trop
extrême sur la distribution ; et acceptée dans le cas contraire.
Dans un problème de test, l’on peut commettre deux types d’erreur :
Risque de première espèce : C’est le risque encouru en rejetant H0 alors que H0 est vraie.
Ce risque, encore appelé niveau de signification du test, est inévitable du fait que nous
fondons nos jugements sur des échantillons aléatoires pour lesquels des résultats extrêmes
sont toujours possibles.
Risque de deuxième espèce : Ce risque représente celui encouru en rejetant H1 alors que
H1 est vraie.
Définition 3.2.1 (Puissance d’un test). On appelle puissance d’un test la probabilité d’accepter
H1 si H1 est vraie.
La puissance du test caractérise la capacité du test à détecter que l’hypothèse est effective-
ment fausse lorsqu’elle est fausse. C’est le rôle de la stat math de proposer les tests qui soient
les plus puissants possibles.
61
Remarque 3.1. Dans l’approche de Neyman-Pearson, la résolution d’un problème de test
d’hypothèses suit les étapes suivantes :
3. La statistique de test
5. Calcul des valeurs critiques pour la statistique de test, c’est-à-dire les valeurs au-delà
desquelles on décide de rejeter l’hypothèse ; ces valeurs découlent du choix du risque de
première espèce.
6. Conclusion du test : rejet ou acceptation de H0 selon que l’on soit ou non dans la région
critique.
sup Pθ [W ] = α
θ∈Θ
permet alors de trouver tous les éléments qui entrent dans la constitution de la région critique
W.
ó si α∗ < α, on rejette H0
ó si α < α∗ , on rejette H0
Les logiciels statistiques calculent et présentent les p-valeurs qui sont souvent difficiles à obtenir
sans moyen de calcul approprié.
62
3.3 Exemple de quelques tests classiques
H0 : m ≤ m0 contre H1 : m > m0
W = {X̄n > lα }.
le test de niveau α, on a :
√ √
n(X̄n − m0 ) n(lα − m0 )
Pm0 (X̄n > lα ) = Pm0 ( > )=α
σ σ
Ainsi √
n(lα − m0 ) σ
= q1−α ⇐⇒ lα = m0 + √ q1−α
σ n
où q1−α est le quantile d’ordre 1 − α de N (0, 1).
Exemple 3.1. Un fabricant de pneus prétend que la durée de vie moyenne d’un nouveau type
de pneus est supérieure à 25000 miles sous certaines conditions. Un échantillon aléatoire de
15 pneus est étudié. La moyenne et l’écart-type obtenus sont respectivement de 27000 et 5000
miles. En supposant que la durée de vie d’un pneu est distribuée normalement, peut-on conclure
que l’affirmation du fabricant est valide ?
63
H0 : m ≥ m0 contre H1 : m < m0
W = {X̄n < lα }
ó Si σ 2 est connu
le test de niveau α, on a :
√ √
n(X̄n − m0 ) n(lα − m0 )
Pm0 (X̄n < lα ) = Pm0 ( < )=α
σ σ
Ainsi √
n(lα − m0 ) σ
= qα ⇐⇒ lα = m0 + √ qα
σ n
où qα est le quantile d’ordre α de N (0, 1).
Exemple 3.2. Le département de contrôle de la qualité d’une entreprise détermine que le poids
moyen net d’une boîte de céréales ne devrait pas être inférieur à 200 g. L’expérience a montré
que les poids sont approximativement distribués normalement avec un écart-type de 15 g. Un
échantillon de 15 boîtes prélevé aléatoirement sur la ligne de production donne un poids moyen
de 195 g. Cela est-il suffisant pour pouvoir affirmer que le poids moyen des boîtes est inférieur
à 200 g ?
H0 : m = m0 contre H1 : m 6= m0
W = {|X̄n − θ0 | > lα }
ó Si σ 2 est connue
le test étant de niveau α, on a :
√ √
n(X̄n − m0 ) n
Pm0 (|X̄n − θ0 | > lα ) = Pm0 (| |> lα ) = α
σ σ
64
Ainsi √
n σ
lα = q1− α2 ⇐⇒ lα = √ q1− α2
σ n
et
σ σ σ
|X̄n − θ0 | > √ q1− α2 ⇐⇒ X̄n > m0 + √ q1− α2 ou X̄n < m0 − √ q1− α2 .
n n n
ó Si σ 2 est inconnue, on a :
√
n(X̄n − m0 )
Pm 0 ( > lα ) = α.
Sn
Ainsi lα = t1− α2 ,n−1 est le quantile d’ordre 1 − α
2
de T (n − 1).
Exemple 3.3. Une entreprise de vente par correspondance demande un montant fixe pour
les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques années
a montré que le poids moyen d’un colis était de 17,5 kg avec un écart-type de 3,6 kg. La
comptabilité soupçonne que le poids moyen est maintenant différent de 17,5 kg. Un échantillon
aléatoire de 100 colis est prélevé et fournit un poids moyen de X̄ = 18, 4kg. On suppose que
les poids des colis sont distribués normalement.
Pp0 (W ) = α
Grâce au théorème central limite, sous l’hypothèse H0 , pour n assez grand, nous avons le
résultat suivant √
n(X̄n − p0 )
q ,→ N (0, 1).
p0 (1 − p0 )
65
Par suite, nous avons :
√ √
n(X̄n − p0 )
n(K − p0 )
Pp0 (W ) = Pp0 ( q > q ).
p0 (1 − p0 ) p0 (1 − p0 )
Ainsi : √ s
n(K − p0 ) p0 (1 − p0 )
q = q1−α ⇐⇒ K = q1−α + p0 . (3.1)
p0 (1 − p0 ) n
Dans cette section, on comparera les moyennes et les variances des deux échantillons. Les
moyennes empiriques, variances empiriques modifiées des deux échantillons sont notées respec-
tivement :
1 X nk
X̂k = Xki
nk i=1
1 X nk
Sk2 = (Xki − X̂k )2 , k = 1, 2.
n − 1 i=1
Exemple 3.4. Deux groupes d’étudiants de tailles respectives n1 = 25 et n2 = 31 ont suivi le
même cours de statistique et passe le même examen. Les moyennes et écarts-types empiriques
des notes obtenues dans les deux groupes sont respectivement :
Moyenne Variance
Groupe 1 12,8 3,4
Groupe 2 11,3 2,9
66
On suppose que les notes sont reparties dans les deux groupes selon des lois normales et
qu’elles sont toutes indépendantes. Peut-on considérer que le premier groupe est meilleur que
le deuxième ?
La procédure à suivre consiste à tester d’abord l’égalité des variances, puis l’égalité des
moyennes.
67
ANNEXES
68
Fonction de répartition de la loi normale centrée réduite
(probabilité F(z) de trouver une valeur inférieure à z)
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
Nota. La table donne F(z) pour z positif. Pour z négatif, il faut prendre le complément à l’unité de la valeur lue
dans la table. Exemple : F(-1,37) = 1 - F(1,37) =1 - 0,9147 = 0,0853.
1
Table de la loi de Student
Valeurs de T ayant la probabilité P d’être dépassées en valeur absolue
f(t)
-P -P
2 2
-t 0 t
ν P =0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,05 0,02 0,01
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032
6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169
11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106
12 0,128 0,260 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947
16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845
21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
∞ 0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,96 2,326 2,576
2
Examen No 1
Statistique Inférentielle (AD2 / 2017-2018)
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û
Durée : 2 heure 30
Note : Documents non autorisés
Exercice 3. λ et p désignent deux réels tels que λ > 0 et 0 < p < 1. On considère le couple
(X, Y ) à valeurs dans IN 2 de loi définie par :
λn e−λ pk (1 − p)n−k
P (X = n ∩ Y = k) = , si0 ≤ k ≤ n
k!(n − k)!
P (X = n ∩ Y = k) = 0, sinon
1. Vérifier que la relation ci-dessus définit bien une loi de probabilité sur IN 2 .
2. Déterminer la loi de la variable X, puis celle de Y . Les variables X et Y sont-elles
indépendantes ?
3. Déterminer la loi conditionnelle de Y sachant X = n.
4. Soit Z la variable aléatoire définie par Z = X − Y . Déterminer la loi de Z.
5. Les variables Y et Z sont-elles indépendantes ?
Exercice 4. Le gardien d’un immeuble détient un trousseau constitue des clés de m apparte-
ments de sa résidence. Dans ce trousseau il y a une et une seule clé par appartement et elles sont
indistinctes au toucher. Une nuit d’orage, l’électricité étant coupée, Monsieur Diakité rentre
chez lui ayant perdu ses clés ; il demande au gardien de lui ouvrir sa porte.
1. Le gardien essaie une clé au hasard ; si elle n’ouvre pas la porte, il la remet dans le
trousseau et réessaie avec une clé prise au hasard dans le trousseau complet ; et ainsi de
suite jusqu’à ce qu’il ouvre la porte (ou pas).
(a) Quelle est la probabilité p que le gardien ouvre la porte du premier coup ?
1
(b) Quelle est la probabilité que le gardien ouvre la porte au quatrième essai ?
(c) Quelle est la probabilité qu’il fasse au moins 50 essais ?
(d) Quelle est la probabilité que le gardien n’ouvre jamais la porte ?
2. On suppose maintenant que le gardien ne remet pas dans le trousseau les clés essayées.
Donnez la loi de probabilité du nombre d’essais nécessaires pour ouvrir la porte de Mon-
sieur Diakité ainsi que son espérance mathématique et sa variance.
Bonne composition !
2
Bibliographie
[1]
[2]
[3]
[4]
73