0% ont trouvé ce document utile (0 vote)
100 vues74 pages

Cours Stat Inf

Le document traite de la statistique inférentielle, abordant des concepts tels que les variables aléatoires, les lois de probabilité, et les méthodes d'échantillonnage. Il décrit également les techniques d'estimation et les tests statistiques pour analyser les données. L'importance de la qualité des données et des méthodes de collecte est soulignée pour garantir des résultats fiables.

Transféré par

Jef Goloba Mao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
100 vues74 pages

Cours Stat Inf

Le document traite de la statistique inférentielle, abordant des concepts tels que les variables aléatoires, les lois de probabilité, et les méthodes d'échantillonnage. Il décrit également les techniques d'estimation et les tests statistiques pour analyser les données. L'importance de la qualité des données et des méthodes de collecte est soulignée pour garantir des résultats fiables.

Transféré par

Jef Goloba Mao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique Inférentielle

t
HOUNDOGA A. Fréjus-Ferry
af 25 avril 2019
Dr
Table des matières

0.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
0.2 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

I Complément sur le calcul des probabilités 6

1 Variables aléatoires 7
1.1 Notion d’événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.3 Densité ou loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Probabilité conditionnelle à un événement . . . . . . . . . . . . . . . . . 14
1.4.3 Formule de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Caractéristiques des variables aléatoires 16


2.1 V.a.r discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Espérance et variance d’une v.a. discrète . . . . . . . . . . . . . . . . . . 17
2.1.3 Moment d’ordre r . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 V.a.r absolument continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Généralités et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Moments d’une v.a.r absolument continue . . . . . . . . . . . . . . . . . 21

3 Les lois usuelles 22


3.1 Les lois usuelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 Variable certaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1
3.1.2 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.3 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.4 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1.6 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.7 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1.8 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.3 Loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.4 Loi de Gauss-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.5 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.6 Loi Bêta (de première espèce) . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.7 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.8 Loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Couples de variables aléatoires réelles 35


4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Couple de variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 Loi d’un couple de v.a.d . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.2 Loi de f (X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.3 Indépendance de variables aléatoires discrètes . . . . . . . . . . . . . . . 38
4.2.4 Espérance, matrice de covariance . . . . . . . . . . . . . . . . . . . . . . 38
4.2.5 Fonction génératrice d’un couple . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Couples aléatoires à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.1 Densité d’un couple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3.3 Espérance, covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.4 Loi de la somme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Convergence 47
5.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1 Inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . . . . . 48
5.1.2 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1 Généralité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2
5.2.2 Théorème de la limite centrée . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3.1 Approximation d’une loi hypergéométrique par une loi binomiale . . . . . 50
5.3.2 Approximation d’une loi binomiale par une loi de Poisson . . . . . . . . . 51
5.3.3 Approximation d’une loi binomiale par une loi normale . . . . . . . . . . 51
5.3.4 Approximation d’une loi de Poisson par une loi normale . . . . . . . . . . 51

II Statistique 52

1 Les échantillons 53
1.1 Sélection d’un échantillon par les enquêtes par sondage . . . . . . . . . . . . . . 53
1.2 Méthodes de sondage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.1 Méthodes empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.2 Méthodes probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2 Notions sur les problèmes de jugement sur un échantillon 55


2.1 L’estimation d’un paramètre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.1 Le problème de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.2 Définition et propriétés d’un estimateur . . . . . . . . . . . . . . . . . . . 55
2.1.3 Estimateur d’une moyenne ou d’une proportion . . . . . . . . . . . . . . 57
2.1.4 Estimateur d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.1 Intervalle de confiance pour la moyenne µ d’une population normale . . . 58

3 Notions de test statistique 60


3.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Exemple de quelques tests classiques . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.1 Tests de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.2 Test sur la valeur d’une proportion . . . . . . . . . . . . . . . . . . . . . 65
3.3.3 Test de comparaison de deux échantillons . . . . . . . . . . . . . . . . . . 66

3
Introduction générale
0.1 Généralités
Comme indiqué en première année, la démarche statistique consiste à traiter et à interpréter
les informations recueillies par le biais de données. Elle comporte quatre grands aspects : le
recueil des données, l’aspect descriptif ou exploratoire, l’aspect inférentiel ou décisionnel et la
modélisation statistique.
Le recueil des données : Cette étape est importante car elle doit permettre d’obtenir des
données de bonne qualité en un certain sens. Contrairement à ce qu’indique le vocabulaire,
les informations dont a besoin le statisticien ne sont pourtant pas “données" et la qualité
des résultats obtenus dépendra autant de la manière dont les données ont été collectées que la
méthode statistique utilisée. La théorie des sondages et celle des plans d’expériences fournissent
un cadre théorique pour la recherche de données optimales.
La statistique exploratoire ou descriptive : Son but est de synthétiser et de résumer l’infor-
mation contenue dans les données. Elle utilise pour cela des représentations des données sous
forme de tableaux, de graphiques ou d’indicateurs numériques (tels que la moyenne, la variance,
la corrélation linéaire,... pour des variables quantitatives). Cette phase est connue sous le nom
de statistique descriptive. On parle de statistique descriptive univariée lorsque l’on regarde une
seule variable, de statistique descriptive bivariée lorsque l’on regarde simultanément deux va-
riables, et de statistique descriptive multidimensionnelle lorsque l’on regarde simultanément p
variables. Dans ce dernier cas, on parle aussi d’analyse des données.
La statistique inférentielle : Son but est d’étendre (d’inférer) les propriétés constatées sur
l’échantillon (grâce à l’analyse exploratoire par exemple) à la population toute entière, et de va-
lider ou d’infirmer des hypothèses. Contrairement à la statistique exploratoire, des hypothèses
probabilistes sont ici nécessaires : elle suppose un modèle probabiliste. L’estimation ponctuelle
ou par intervalle de confiance et la théorie des tests d’hypothèses constituent une partie prin-
cipale de la statistique inférentielle.
La modélisation statistique : Elle consiste en général à rechercher une relation ”approxi-
mative" entre une variable et plusieurs autres variables, la forme de cette relation est le plus
souvent linéaire. Lorsque la variable à expliquer est quantitative et que les variables explica-
tives sont aussi quantitatives, on parle de régression linéaire. Si les variables explicatives sont

4
qualitatives, on parle alors d’analyse de la variance. Le modèle linéaire général englobe une
grande partie de tous les cas de figures possibles.
Ce cours est une introduction à la statistique inférentielle. Son but est de présenter les prin-
cipales applications de la théorie mathématique à la statistique (échantillonnage, estimation,
tests...). Il est subdivisé en deux parties : la première est consacrée à un complément de cal-
cul des probabilités axé sur les notions de variables aléatoires, les lois usuelles etc. La seconde
partie fait une introduction à l’étude de l’échantillonnage et les problèmes de jugement sur un
échantillon.
Enfin, ce cours utilise les notions de statistique, du calcul des proba et de mathématiques.

0.2 Problème
La population, pour un statisticien, est l’ensemble quasi exhaustif des individus ayant
quelque chose en commun permettant de définir l’appartenance à la population et pour lesquels
on étudie une ou plusieurs caractéristiques ou variables (ex : la taille des Français adultes). Mais
dans la plupart des cas, il est impossible de collecter des informations aupès de toute la popu-
lation qui fait lùobjet de m’étude pour des raisons de budget et/ou de temps. Le statisticien
est donc souvent appelé à collecter lùinformation aupès d’un sous-ensemble de la population,
c’est-à-dire auprès d’un échantillon.
Alors que la statistique descriptive ne s’intéresse qu’à la sous-population formée par l’échan-
tillon avec comme objectif de décrire et de résumer la variabilité de l’échantillon, la statistique
inférentielle s’intéresse à la population dont est issu l’échantillon avec comme objectif d’inférer,
à partir des seules caractéristiques de l’échantillon, des propriétés plus générales concernant la
population.

5
Première partie

Complément sur le calcul des


probabilités

6
Chapitre 1

Variables aléatoires

1.1 Notion d’événement


Définition 1.1.1. ó Soit  une expérience. On appelle univers associé à , l’ensemble noté
Ω de tous les résultats possibles de .

ó On dit qu’un événement est lié à l’expérience  si pour tout résultat  ∈ Ω, on sait dire si
cet événement a lieu ou non.

ó Soit Ω l’univers associé à une expérience aléatoire. Pour tout  ∈ Ω, le singleton {ω}
est un événement appelé événement élémentaire ; Ω est un événement certain et φ est un
événement appelé événement impossible.

Exemple 1.1. (Exemple fondamental) Considérons le jeu du lancé d’un dé. Notons Ω l’en-
semble de tous les résultats possibles (appelés aussi épreuves ou résultats élémentaires) de cette
expérience aléatoire
Ω = {1; 2; 3; 4; 5; 6}

On note ω = 5 pour signifier que 5 est le résultat de l’épreuve.


Dans cette expérience aléatoire, on peut s’intéresser à des événements plus complexes qu’un
simple résultat élémentaire. On peut, par exemple, considérer l’événement A = “le résultat est
un nombre pair” ou l’événement B = “le résultat est un nombre plus grand que 5”. On note B
l’ensemble de ces événements. Notons que l’on a toujours A ⊂ P(Ω), où P(Ω) est l’ensemble
des parties de Ω. Notons que l’inclusion précédente peut être stricte.
On dit que l’événement A s’est réalisé si le résultat de l’expérience ω est tel que ω ∈ B.

Exemple 1.2. ó On lance 2 dés cubiques indiscernables au touché et on s’intéresse au


numéro obtenu sur la face supérieure.

1. Décrire Ω

7
2. On considère l’événement A :”la somme des points est inférieure à 10”. Écrire en
extension A.

1.2 Algèbre des événements

Généralités
Tout phénomène aléatoire fait appel à deux ensembles de type différent.

ó Un ensemble Ω, appelé espace fondamental ou univers, qui contient l’ensemble de tous


les résultats possibles. Ces derniers sont également appelés épreuves

ó Une famille B de parties (i.e. de sous ensembles) de Ω : Ces parties sont appelées des
événements. On dit que l’événement A s’est réalisé si et seulement si le résultat ω de Ω
qui s’est produit appartient à B.

En gardant en mémoire l’exemple fondamental, il est assez naturel de demander que l’ensemble
B vérifie un certain nombre de propriétés. En effet si A et B sont des événements de B ; on
souhaite que les événements suivants le soient également.

1. Ā = Ω \ A ∈ B. Si A s’est ou ne s’est pas réalisé, on doit pouvoir se prononcer sur


l’événement complémentaire.
T S
2. A B ∈ B et A B ∈ B. Si on peut dire que A s’est ou ne s’est pas réalisé, et de même
T
pour B ; on doit pouvoir dire si A B s’est ou ne s’est pas réalisé (et de même pour
S
A B).
S
3. La réalisation de l’un au moins des deux événements A ou B est l’événement A B.

4. De manière générale, on peut considérer des suites infinies d’événements et définir les
événements suivants :
\ [
An ou An
n∈N n∈N

Définition 1.2.1. Soit Ω un ensemble quelconque. On appelle tribu ou σ-algèbre sur Ω, toute
partie B ⊂ P(Ω) vérifiant les propriétés suivantes :

(i) Ω ∈ B

(ii) ∀A ∈ B , Ā ∈ B (Stabilité par passage au complémentaire)

8
S∞
(iii) Pour toute suite (An )n∈N d’éléments de B, n=0 An est encore un élément de B (Stabilité
par union dénombrable).

Remarque 1.1. (i) Dans la définition précédente, en remplaçant le point (3) par la stabilité
S
par l’union de deux éléments de B, (i.e. ∀A, B ∈ B , A B ∈ B), on obtiendrait une
algèbre sur Ω.
Le préfixe σ- fait référence à la possibilité de réunir une infinité dénombrable d’éléments
de B.

(ii) Toute σ-algèbre sur Ω est une algèbre sur Ω. Mais la réciproque est fausse (à démontrer).

Preuve :

Propriété 1.2.1. Soit B une σ-algèbre sur Ω. Alors, on a les résultats suivants :

(i) φ ∈ B
T∞
(ii) Pour toute suite (Bn )n∈N d’éléments de B, n=0 Bn est encore un élément de B (Stabilité
par intersection dénombrable).

(iii) ∀A, B ∈ B , A \ B ∈ B

(iv) ∀A, B ∈ B , A 4 B ∈ B (différence symétrique).

Définition 1.2.2. On appelle espace probabilisable lié à l’expérience aléatoire , le couple


(Ω , B), où Ω est l’univers des résultats de  et B la tribu des événements liés à .

Propriété 1.2.2. Si Ω est l’ensemble fini ou infini dénombrable ; la tribu des événements est
nécessairement égale à P (Ω) tout entier.

Définition 1.2.3. Soit (Ω , B) un espace probabilisable.

(i) Soient A, B ∈ B, on dit que A entraine B si A est inclus dans B.


T
(ii) Soient A, B ∈ B. On dit que A et B sont deux événements incompatibles si A B = φ.
Les deux événements ne peuvent donc pas se réaliser en même temps.

(iii) On appelle système complet d’événements, toute partition dénombrable de Ω formée d’élé-
ments de B, i.e. tout ensemble fini ou dénombrable d’événements deux à deux incompa-
tibles et dont la réunion est l’événement certain Ω. Autrement dit, {Ai ; i ∈ I} est un
système complet d’événements si, et seulement si :
T
(a) Pour i 6= j , Ai Aj = φ

9
S
(b) i∈I An = Ω

Remarque 1.2. On parle de système quasi-complet d’événements quand la condition (b) est
remplacée par :
X
P (Ai ) = 1
i∈I

Définition 1.2.4. Soit (Ω , B) un espace probabilisable. On appelle probabilité sur (Ω , B),


toute application P : B −→ [0, 1] telle que :

(i) P (Ω) = 1

(ii) Pour toute suite (An )n∈N d’événements de B deux à deux incompatibles, on :

[ ∞
X
P( An ) = P (An )( σ-additivité de P)
n=0 n=0

Le triplet (Ω , B , P ) porte le nom d’espace probabilisé (associé à l’expérience aléatoire donnée).

Propriété 1.2.3. Soit (Ω , B , P ) un espace probabilisé associé à une expérience aléatoire .

(i) P (φ) = 0
S
(ii) Si A et B sont deux événements incompatibles, on a : P (A B) = P (A) + P (B)
Plus généralement, si A1 , . . . , An sont n-événements deux à deux incompatibles, on a :

P (A1 ∪ · · · ∪ An ) = P (A1 ) + . . . P (An )

(iii) ∀A ∈ B, P (Ā) = 1 − P (A)

(iv) ∀A, B ∈ B, A ⊂ B =⇒ P (A) ≤ P (B) (Croissance de P)

(v) ∀A, B ∈ B, A ⊂ B =⇒ P (B \ A) = P (B) − P (A) (Attention, ce résultat n’est plus valable


si A n’est pas inclus dans B)

(vi) ∀A, B ∈ B, P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (additivité forte)

Preuve :

Propriété 1.2.4. Soit (Ω , B , P ) un espace probabilisé associé à une expérience aléatoire .

(i) Si (An )n∈N est un système complet d’événements de B, on a :



X
P (An ) = 1
n=0

10
(ii) Si (An )n∈N est une suite croissante d’événements de B i.e. (∀n ∈ N, An ⊂ An+1 ), on a :

[
P( An ) = limn→∞ P (An ) (continuité croissante)
n=0

(iii) Si (An )n∈N est une suite décroissante d’événements de B i.e. (∀n ∈ N, An+1 ⊂ An ), on a :

\
P( An ) = limn→∞ P (An ) (continuité décroissante)
n=0

Preuve : Admise
Exemple 1.3. On joue indéfiniment à pile ou face avec une pièce indiscernable au toucher.
Montrer que la probabilité de n’obtenir que des piles est nulle.

1.3 Variables aléatoires réelles

1.3.1 Introduction
Dans de nombreuses expériences aléatoires, on n’est pas intéressé directement par le résultat
de l’expérience, mais par une certaine fonction de ce résultat. Considérons par exemple l’expé-
rience qui consiste à observer, pour chacune des n pièces produites par une machine, si la pièce
est défectueuse ou non. Nous attribuerons la valeur 1 à une pièce défectueuse et la valeur 0 à
une pièce en bon état. L’univers associé à cette expérience est Ω = {0, 1}n . Ce qui intéresse le
fabricant est la proportion de pièces défectueuses produites par la machine. Introduisons donc
une fonction de Ω dans R qui à tout ω = (ω1 , ω2 , . . . , ωn ) de Ω associe le nombre
n
X ωi
X(Ω) = ,
i=1 n
qui correspond à la proportion de pièces défectueuses associée à l’observation de ω. Une telle
fonction X définie sur Ω et à valeurs dans R s’appelle une variable aléatoire réelle.
Définition 1.3.1. Soit (Ω , B , P ) un espace probabilisé associé à une expérience aléatoire .
On appelle Variable aléatoire réelle (ou v.a.r), toute application X de Ω dans R ayant la
propriété suivante : Pour tout intervalle I de R, l’intervalle X −1 (I) = {ω ∈ Ω/X(ω) ∈ I} est
un événement (qui aura donc une probabilité).
Remarque 1.3. Soit A une partie de R, qui est la réunion ou l’intersection d’un ensemble
dénombrable d’intervalles. Alors X −1 (A) est la réunion ou l’intersection d’un ensemble dénom-
brable d’événements. Comme B est une σ-algèbre, X −1 (A) est encore un événement. Une telle
partie s’appelle un borélien de R, l’ensemble des boréliens de R est σ-algèbre appelée tribu
borélienne ou tribu des boréliens.
Si la tribu B est égale à P(⊗), toute application de Ω dans R est une v.a.r

11
1.3.2 Fonction de répartition
Définition 1.3.2. Soit X une v.a.r définie sur une e.p (Ω , B , P ). On appelle fonction de
répartition de X, la fonction numérique FX définie sur R par : ∀x ∈ R, FX (x) = P (X ≤ x).

Propriété 1.3.1. Soit X une v.a.r et soit FX sa fonction de répartition. Alors FX possède les
propriétés suivantes :

i) 0 ≤ FX ≤ 1

ii) FX tend vers 0 en −∞ et vers 1 en +∞

iii) FX est croissante

iv) FX est continue à droite en tout point de R.

Proposition 1.3.1. Soit X une v.a.r et soit FX sa fonction de répartition.

i) ∀a, b ∈ R/a < b, P (a < x ≤ b) = FX (b) − FX (a)

ii) ∀a, b ∈ RP (X = a) = FX (a) − FX (a− )

En particulier, en tout point a où FX est continue, on a : P (X = a) = 0

Remarque 1.4. on montre facilement que FX est continue si et seulement si P (X = x) = 0


pour tout x ∈ R. On parle alors de loi diffuse ou de v.a.r continue (voir définition ).

Définition 1.3.3. Une v.a.r X : Ω −→ R est dite discrète si l’ensemble X(Ω) des valeurs
prises par X est dénombrable.

Définition 1.3.4. Soit X une v.a.r de fonction de répartition FX supposée croissante de I ⊂ R


dans ]0, 1]. Le quantile d’ordre α ∈]0, 1] de X est le nombre nα ∈ I tel que FX (nα ) = α, ce qui
signifie que
P (X ≤ nα ) = α

Remarque 1.5. i) Si X(Ω) est un ensemble fini, X est une v.a.r discrète.

ii) Tout intervalle de R, non vide et non réduit à un point est non dénombrable.

Remarque 1.6. ó x1/2 est appelé médiane de X. La médiane vérifie les deux égalités

P (X ≤ x1/2 ) = 1/2 = P (X > x1/2 )

ó Dans le cas où FX n’est pas strictement croissante mais simplement croissante, on définit
le quantile d’ordre α par :

nα = inf {x ∈ R : FX (x) ≥ α}

12
1.3.3 Densité ou loi de probabilité
Définition 1.3.5. Soit Ω un univers muni d’une probabilité P , et soit X une v.a.r. On appelle
loi de probabilité de X, notée fX , l’application qui à toute partie A de R associe

PX (A) = P ({ω ∈ Ω : X(ω) ∈ A})

Remarque 1.7. Dans la suite du cours, on utilisera la notation abrégée : P ({ω ∈ Ω : X(ω) ∈
A}) = P (X ∈ A). de même, on notera P (X = x) la probabilité P ({ω ∈ Ω : X(ω) = x})

Remarque 1.8. Si X est une v.a.r discrète et si fX est sa loi de probabilité, alors le domaine
P
de définition de fX est un ensemble dénombrable et on a : f (x) = 1.
x∈X(Ω)
S
En effet, on peut écrire Ω = x∈X(Ω) (X = x) et cette réunion est disjointe et dénombrable.
En appliquant alors la σ-algèbre de P à ce système complet, on obtient
P P
1 = P (Ω) = P (X = x) = fX (x)
x∈X(Ω) x∈X(Ω)

Proposition 1.3.2. Toute application f positive, définie sur une partie dénombrable A de R à
P
valeurs dans R, qui vérifie de plus fX (x) = 1, peut être considéré comme la loi de probabilité
x∈A
d’une v.a.r discrète dont l’ensemble des valeurs prises est A.

Exercice 1.1. Dans chacun des cas suivants, justifier que la fonction de densité de probabilité
sur l’ensemble I indiqué :

1. f définie sur I = [0, 2] par la courbe ci-contre :

2. f définie sur I = [0, 1] par f (x) = 3x2

3. f définie sur I = [−1, 1] par f (x) = 3/4 − 3/4x2

4. f définie sur I = [0, +∞[ par f (x) = e−x


2
5. f définie sur I = [1, +∞[ par f (x) = x3

4
6. f définie sur I = N par f (x) = n(n+1)(n+2)

7. f définie sur I = R par f (x) = ex


(ex +1)2

1.4 Conditionnement

1.4.1 Généralités
Supposons que l’on joue au lancer de dé avec un dé dont les faces paires sont de couleur
blanche et les faces impaires de couleur noire. Si de loin on peut seulement distinguer la couleur

13
blanche de la face obtenue, on modifiera naturellement les probabilités des événements. Ainsi on
donnera la probabilité 1/3 pour chaque face paire et la probabilité 0 pour chaque face impaire,
plutôt que l’équirépartition initiale de probabilité 1/6 pour chaque résultat élémentaire. On
constate donc que la connaissance de la parité du résultat modifie les probabilités que l’on
donne à chaque événement. On dit que l’on raisonne conditionnellement à l’événement “le
résultat est pair”.

1.4.2 Probabilité conditionnelle à un événement


Soit (Ω , B , P ) un e.p. et B un événement de B de probabilité non nulle. Si on sait que
l’événement B s’est réalisé, donc que ω ∈ B, pour tout événement A de B on a :

ω ∈ A ⇐⇒ ω ∈ A ∩ B

cela nous conduit à considérer l’application :

µ : A ∈ B 7−→ P (A ∩ B)

On montre que l’application µ ainsi définie sur B n’est en général pas une probabilité car

µ(Ω) = P (Ω ∩ B) = P (B)

et n’est donc pas forcément égal à 1. On considère alors l’application


µ
PB =
P (B)

qui, elle, est bien une probabilité sur (Ω, A)

Définition 1.4.1. Pour tout événement B de probabilité non nulle, on appelle probabilité condi-
tionnelle à B ; la probabilité sur (Ω, A)

P (A ∩ B)
P B : A ∈ A 7−→ P B (A) = .
P (B)

P B (A) s’appelle probabilité conditionnelle à B de A (ou encore probabilité de A sachant B). On


note aussi
P B (A) = P (A/B).

Remarquons que l’on peut aussi voir cette probabilité comme une probabilité sur la tribu trace
de A sur B.

Proposition 1.4.1. contenu...

14
1.4.3 Formule de Bayes
Exemple 1.4. dépistage de la Syphilis On applique un test médical sur les patients pour
déceler la Syphilis. On sait que si le patient est effectivement atteint, le test est positif dans
98% des cas. Mais on sait aussi qu’il y a 1% des cas où le résultat du test est positif alors que
le consultant est en bonne santé.
Sachant que 3 patients sur 1 000 sont atteints de la Syphilis, calculer la probabilité qu’un
patient soit atteint sachant que son test a été positif.
Résultat :
Soit M l’événement “le client est atteint” et T + l’événement “le test est positif”.
Les données de l’énoncé peuvent être écrites de la manière suivante :

P (T + /M ) = 0, 98

P (T + /M̄ ) = 0, 01

et P (M ) = 3/1000

La probabilité P (M = T + ), celle qu’un patient soit atteint sachant que son test est positif,
est égale, d’après la formule de Bayes, à :

15
Chapitre 2

Caractéristiques des variables


aléatoires

2.1 V.a.r discrète

2.1.1 Généralités
Définition 2.1.1. Une v.a.r. X à valeurs dans un ensemble A fini ou dénombrable est appelée
v.a.r. discrète.
Lorsqu’une variable aléatoire est discrète, il suffit de connaître la probabilité de chaque évé-
nement de la forme X = xi pour chaque valeur x possible pour être en mesure d’évaluer la
probabilité d’un événement quelconque.
On peut donc dire que la v.a. est entièrement définie par son support, SX , et l’ensemble des
probabilités associées.
Soit X une variable aléatoire de support SX . Notons fX la fonction qui permet de calculer
la probabilité de chaque résultat possible de la variable aléatoire : fX (x) = P (X = x). On dit
que fX est la loi de probabilité de la variable aléatoire ou sa fonction de masse.
Dans ce cas, la loi de X est déterminée par l’ensemble des probabilités :

PX (x) = P (X = x), x ∈ A

Remarque 2.1. On note la loi de probabilité simplement par f lorsqu’il n’y a pas d’ambiguïté
possible et par fX lorsqu’il peut y avoir plusieurs variables aléatoires dans un même contexte.

Proposition 2.1.1. Soit X une variable aléatoire de support SX . Pour toute partie A de A ,
on a alors :
X
fX (A) = PX (A) = P (X = x)
x∈A

16
Exemple 2.1. On lance 2 dés équilibrés et on pose X la variable aléatoire qui donne la somme
des points visibles sur les deux dés. On veut la loi de probabilité de X ainsi que la probabilité
d’obtenir une valeur de 7 ou plus.

Exemple 2.2. On pige 3 cartes dans un jeu de 52 cartes et on s’intéresse au nombre de


“Rouges”. Donner la loi de probabilité de ce nombre.

Exemple 2.3. Dans un fête foraine il y a une roue de fortune qui permet de gagner 5000,
10000 ou 100000. Sur la roue il y a 100 cases dont 10 marquées 5000, 5 marquées 10000 et une
marquée 100000.
S’il coûte 5000 pour tourner cette roue et qu’elle n’est pas truquée, donner la loi de proba-
bilité de la variable aléatoire que donne le gain net à ce jeu.

2.1.2 Espérance et variance d’une v.a. discrète


Une variable aléatoire discrète est entièrement définie par sa fonction de masse. L’informa-
tion est cependant très dense et il est difficile de comprendre le comportement de la variable
aléatoire en considérant toute l’information. Il est plus facile de se baser sur des mesures ponc-
tuelles pour décrire certaines caractéristiques des variables aléatoires et visualiser un angle à la
fois. Il y a plusieurs angles différents qui contiennent tous des éléments d’information pertinente
pour l’interprétation. Les deux principales caractéristiques abordées dans cette sont la notion
de "centre" et d’"éparpillement" ou de dispersion des valeurs du support.

Définition 2.1.2. Soit X une v.a.r discrète, et X(Ω) = {x0 , x1 , . . . , xn , . . .}.



P
On dit que X possède une espérance si la série xn P (X = xn ) est absolument convergente
n=0

P
(i.e si la série |xn |P (X = xn ) est convergente).
n=0 P
Si la variable X admet une espérance, celle-ci est notée E(X) = xf (x)
x∈X(Ω)
On note aussi ce paramètre µ ou µX s’il peut y avoir une ambiguïté entre plusieurs variables
aléatoires et on parle alors de la moyenne.
Ce paramètre s’interprète de la façon suivante : si une expérience est répétée très souvent,
E(X) est la valeur autour de laquelle on observera toutes les valeurs.

Remarque 2.2. i) Si X(Ω) est fini, X possède toujours une espérance, car la sommation
précédente ne possède en fait qu’un nombre fini de termes non nuls.

ii) Une variable discrète peut ne pas avoir d’espérance



P
iii) Soit X une v.a.r discrète ayant une espérance. On a toujours = 1. On peut donc
n=0

17
écrire : ∞
P
P (X = xn )
E(X) = P
n=0

xn P (X = xn )
n=0

L’espérance de X apparait alors comme le barycentre des points xn affectés des masses
P (X = xn ).

Remarque 2.3. La notion de moyenne n’est pas suffisante pour donner une idée du compor-
tement de la variable aléatoire : la notion de variation est très importante c’est-à-dire dans
quelle mesure il y aura des valeurs plus ou moins éloignées de la moyenne. Une voiture qui a
une durée de vie entre 8,5 ans et 11,5 ans avec une moyenne de 10 ce n’est pas la même chose
qu’une voiture qui a une durée de vie entre 1 et 16 ans avec une moyenne de 10 ans.
La variance permet de mesurer l’écart entre les différentes valeurs possibles c’est un indice
de la dispersion des valeurs autour de la moyenne :

Définition 2.1.3. Soit X une v.a.r discrète ayant une espérance ; alors, avec les notations
précédentes, on appelle variance de X le nombre V (X) ∈ R+ défini par :

X
V (X) = (xn − E(X))2 P (X = xn )
n=0

sous réserve de convergence de cette série.


Si la série précédente est divergente, on dit que X ne possède pas de variance ou parfois X
a une variance infinie

Définition 2.1.4. Si X admet une variance, on appelle écart-type de X le nombre σX =


q
V (X).
Une grande variance veut dire que l’on retrouve des valeurs du support loin de la moyenne
tandis qu’une petite variance veut dire que les valeurs du support sont regroupées près de la
moyenne. Il n’y a pas d’interprétation directe de la valeur de la variance ou de l’écart type
comme dans le cas de la moyenne.

Exemple 2.4. Dans une entreprise il y a trois catégories de primes de fin d’année, la première
donne 1% du salaire, la deuxième 2% et la troisième 3%. On sait qu’il y a 10% qui reçoivent la
première prime et 40% la deuxième et que le reste reçoit la prime de 3%. Posons X la v.a. qui
donne le % du salaire qu’un employé recevra en prime en considérant qu’on choisit un employé
au hasard. Donner la loi de probabilité, l’espérance et la variance de X.

Exemple 2.5. Soit X une v.a.r discrète telle que X(Ω) = |[1, n]|(n ≥ 2)∀k = 1 . . . n, P (X =
k) = αk(n − k).

i) Pour quelle valeur de α a-t-on bien défini une loi de probabilité ?

18
ii) Quel est le mode de X ?

iii) Calculer l’espérance de X ?

2.1.3 Moment d’ordre r


Définition 2.1.5. Soit X une v.a.r discrète, notons X(Ω) = {x0 , . . . , xn , . . .} et soit r ∈ |N .

i) On appelle moment d’ordre r de X le nombre mr (X) défini par :



X
mr (X) = xrn P (X = xn )
n=0

(pourvu que cette série converge absolument).

ii) Si X admet une espérance, on appelle moment centré d’ordre r de X, le nombre



X
µr (X) = (xn − E(X))r P (X = xn )
n=0

sous réserve de convergence absolue de cette série.

Remarque 2.4. ó Lorsque ces nombres existent, on a : E(X) = m1 (X) et V (X) = µ2 (X)

ó Pour tout entier naturel r et tout nombre réel positif x, xr ≤ xr+1 + 1 (preuve en exercice)

Théorème 2.1.1. Soit X une v.a.r discrète définie sur e.p (Ω, B, P ) et soit Φ : R −→ R une
fonction numérique réelle quelconque. Alors Φ(X) = Φo X est une v.a.r

2.2 V.a.r absolument continues

2.2.1 Généralités et définition


Soit f une fonction intégrable sur [a,b]. Alors ∀x ∈ [a, b], f est intégrable sur [a,b], et si on
Rb
pose F (x) = f (t)dt, on :
a

i) F est continue sur [a,b]

ii) F est dérivable à gauche (resp. à droite) en tout point x0 ∈]a, b], (x0 ∈ [a, b[) où f admet
+
une limite à gauche (resp. à droite) et Fg0 (x0 ) = f (x−
0 ) (Fd (x0 ) = f (x0 ))
0

Ces résultats restent valables pour a = −∞, sous réserve de la convergence de l’intégrale
Rb
f (t)dt.
−∞

19
Définition 2.2.1. Soit X une v.a.r définie sur un e.p (Ω, B, P ), FX sa fonction de répartition.
On dit que X est une v.a.r absolument continue s’il existe une fonction numérique f définie
sur |R telle que :

i) ∀x ∈ R, f (x) ≥ 0

ii) f est continue sur R, sauf peut-être en un nombre fini de points où elle admet une limite
finie à gauche et une limite fine à droite.
+∞
R
iii) f (x)dt existe et vaut 1.
−∞

Rx
iv) FX est liée à f par la relation : ∀x ∈ R, FX (x) = f (t)dt.
−∞
On dit alors que f est une densité de X.

Remarque 2.5. 1. La connaissance de f détermine entièrement la fonction FX par inté-


gration. En particulier, la relation de Charles permet d’écrire : ∀a, b ∈ R,
Zb Za Zb
P (a < X ≤ b) = FX (b) − FX (a) = f (t)dt − f (t)dt = f (t)dt
−∞ −∞ a

2. On peut mettre < ou ≤ dans ce qui précède car la variable étant continue, on a P (X =
x) = 0∀x ∈ R

Établir que deux v.a.r. (discrètes ou continues) X et Y ont même loi, c’est démontrer que
l’on a l’égalité suivante :

P (a < X ≤ b) = P (a < Y ≤ b), a, b ∈ R

Ainsi, en faisant tendre a vers −∞, on obtient le résultat suivant :

Théorème 2.2.1. Deux v.a.r. à valeurs dans le même ensemble d’arrivée ont la même loi si et
seulement si leurs fonctions de répartition sont égales.

Exemple 2.6. Soit X une variable aléatoire suivant une loi de probabilité de densité définie
sur [e−1 ; e] par f (x) = k/x.

1. Déterminer la valeur du réel k.

2. Montrer que p(1 ≤ X ≤ e) est un nombre rationnel.

3. Calculer p(X>1) (X < 2)

Exemple 2.7. Soit λ un réel et soit la fonction f définie sur [−1, 1] par f (x) = λ(1 − x2 ).
Déterminer λ de sorte que f soit une densité de probabilité sur [−1, 1].

20
Exemple 2.8. Soit la fonction f définie sur R par f (x) = a

x x
si x ≥ 1 et f (x) = 0 sinon.

1. Déterminer le réel a pour que f soit une densité de probabilité d’une certaine variable
aléatoire X.

2. Déterminer la fonction de répartition associée à X.

3. X admet-elle une espérance ? Si oui, la déterminer.

2.2.2 Moments d’une v.a.r absolument continue


Définition 2.2.2. Soit X une v.a.r absolument continue et f une densité de X.

i) Soit r ∈ N . On appelle moment d’ordre r de X et on note mr (X), le nombre défini par :


+∞
Z
mr (X) = tr f (t)dt
−∞

sous réserve de convergence de cette intégrale.

ii) En particulier, on appelle espérance de X, le moment d’ordre 1 de X, s’il existe. On note


+∞
R
alors le plus souvent E(X) = m1 (X) = tf (t)dt
−∞

iii) Si X admet une espérance, on appelle moments centré d’ordre r de X, le le moment


d’ordre r, s’il existe, de X − E(X). On le note µr (X) =

iv) En particulier, on appelle variance de X, me moment centré d’ordre 2 de X, s’il existe.

On appelle écart-type de X la racine carrée de sa variance. On note le plus souvent V (X) =


q
m2 (X − E(X)) = µ2 (X) et σ(X) = V (X)

Théorème 2.2.2. Soit X une v.a.r absolument de densité f . Soit ϕ une fonction numérique
continue et dérivable sur X(Ω). Alors Y = ϕ(Ω) est une v.a.r continue et si celle-ci admet une
espérance, elles est donnée par la formule :
+∞
Z
E(X) = ϕ(t)f (t)dt
−∞

Exercice 2.1. On considère la fonction f définie sur [0, π/2] par f (x) = cos(x).

1. Vérifier que f est bien une densité sur [0, π/2].

2. Soient les fonctions g et G définies sur [0, π/2] respectivement par g(x) = xcos(x) et
G(x) = axsinx + bcosx, où a et b sont des réels. Déterminer a et b tels que la fonction G
soit une primitive de g.

3. Soit X une variable aléatoire de densité f . Déterminer l’espérance de X, notée E(X)

21
Chapitre 3

Les lois usuelles

Dans ce chapitre, nous allons repérer quelques situations souvent rencontrées pour éviter de
refaire à chaque fois les calculs.

3.1 Les lois usuelles discrètes

3.1.1 Variable certaine


Définition 3.1.1. Une variable aléatoire X est certaine si elle est constante, donc s’il existe
a tel que X(Ω) = {a} et P (X = a) = 1.

Il s’agit d’une variable aléatoire surtout utilisée comme outil. E(X) = a × 1 et V (X) =
E[(X − a)2 ] =.

Théorème 3.1.1. Si X est la variable certaine égale à a, alors E(X) = a et V (X) = 0

3.1.2 Loi uniforme


Modèle :

Exemple 3.1. On dit qu’une variable aléatoire X suit une loi uniforme discrète sur l’intervalle
1 . . . n si on a : X(Ω) = {1, . . . , n} et ∀k ∈ {1, . . . , n}, P (X = k) = 1/n.
On écrit alors X ,→ Un

3.1.3 Loi de Bernouilli


Modèle :

Définition 3.1.2.

22
Définition 3.1.3.

Définition 3.1.4.

Théorème 3.1.2. contenu...

3.1.4 Loi binomiale


Modèle : Considère l’expérience aléatoire qui consiste à tirer avec remise des boules dans
une urne qui contient des boules blanches en proportion p et des boules rouges en proportion
q = 1 − p. Sur n tirages, on s’intéresse au nombre aléatoire de boules blanches, X, obtenues.
On a :
X(Ω) = {1, . . . , n} et ∀k ∈ {1, . . . , n}, P (X = k) = Cnk pk q n−k .
On vérifie bien qu’il s’agit d’une loi de probabilité.

Définition 3.1.5. On dit qu’une v.a.r X suit une loi binomiale de paramètres n et p, si l’on
a:
X(Ω) = {1, . . . , n} et ∀k ∈ {1, . . . , n}, P (X = k) = Cnk pk (1 − p)n−k
On note alors X ,→ B(n, p)
On montre que si X ,→ B(n, p), alors E(X) = np et V (X) = npq

Remarque 3.1. On montre que la loi binomiale B(n, p) est la loi de la somme de n v.a.r.
indépendantes et de même loi de Bernoulli de paramètre p.
La loi binomiale intervient par exemple pour modéliser le nombre de pièces défectueuses
dans un lot de n pièces, qui ont chacune une probabilité p d’être défectueuse, indépendamment
les unes des autres.

3.1.5 Loi géométrique


Modèle : Considère l’expérience aléatoire qui consiste à tirer successivement une à une des
boules dans une urne qui contient des boules blanches en proportion p et des boules rouges
en proportion q = 1 − p et en remettant à chaque fois la boule tirée. On note k le rang de
l’apparition de la 1re boule blanche. On a :
∀k ∈ N ∗ , P (X = k) = pq k−1

Définition 3.1.6. On dit qu’une v.a.r X suit une loi géométrique de paramètres p, si l’on a :
X(Ω) = N ∗ et ∀k ∈ N ∗ , P (X = k) = p(1 − p)k−1
On note alors X ,→ G(p)

La loi géométrique permet de modéliser le nombre de réalisations indépendantes d’une ex-


périence à 2 issues (succès-échec), jusqu’à l’obtention du premier succès, si à chaque réalisation
la probabilité de succès est p.

23
Théorème 3.1.3. SI X ,→ G(p), alors E(X) = 1/p et V (X) = (1 − p)/p2

Remarque 3.2. On peut aussi trouver dans la littérature la loi géométrique à valeurs dans N
et elle a pour probabilité élémentaire P (X = k) = p(1 − p)k . Dans notre exemple, cette dernière
donne la loi du nombre de boules rouges obtenues avant l’apparition de la 1re boule blanche.

3.1.6 Loi binomiale négative


Modèle : Reprenons l’expérience de tirages successifs au hasard, indépendants et avec
remise dans une urne contenant des boules blanches et rouges en proportion respectivement p
et q = 1 − p.
Soit Y le nombre de tirages que l’on doit faire pour obtenir n boules blanche. Alors la v.a.r.
X = Y − n représentant donc le nombre de boules rouges obtenues avant d’avoir n boules
blanches suit une loi binomiale négative.
On retrouve facilement que P (X = k) = Cn+k−1
n−1
pn q k .
En effet, l’événement {X = k} signifie que sur les k + n tirages on a eu k boules rouges et n
boules blanches, dont l’une est la dernière tirée. La probabilité de chaque résultat élémentaire
permettant à l’événement {X = k} d’être vérifié est donc pn q k . Or l’événement {X = k} est la
réunion de Cn+k−1
n−1
résultats élémentaires différents : une boule blanche étant tirée en dernier,
il reste Cn+k−1
n−1
façons différentes de placer les autres boules blanches.
Remarquons que, bien sûr, pour n = 1 la loi de Y est une loi géométrique G(p).

Théorème 3.1.4. X ,→ N egBin(n, p), alors

3.1.7 Loi de Poisson


Définition 3.1.7. On dit qu’une v.a.r. X à valeurs dans N suit une loi de Poisson de paramètre
λ > 0, notée P(λ), si
λk
∀k ∈ N P (X = k) = e−λ
k!
Cette loi intervient comme comportement limite de la loi binomiale lorsque n → ∞ et
np → λ.

Théorème 3.1.5. Si X ,→ P(λ), alors E(X) = λ et V (X) = λ

Remarque 3.3. La loi de Poisson intervient également pour modéliser des “événements rares”.
Soit, par exemple, N la variable aléatoire comptant le nombre d’occurrences d’un événement
pendant une période donnée T . On suppose qu’un seul événement arrive à la fois, que le nombre
d’événement se produisant pendant T ne dépend que de la durée de cette période et que les
événements sont indépendants.

24
Si le nombre moyen d’événements (i.e. accidents) par unité de temps (i.e. semaine) est c,
alors on démontre que la probabilité d’obtenir n événements pendant un temps T est :

(cT )n
P (N = n) = exp(−cT )
n!

3.1.8 Loi hypergéométrique


Modèle : Dans une urne qui contient N boules avec une proportion p de boules blanches (il
y a donc N p boules blanches), on effectue une succession de n tirages sans remise d’une boule.
X est le nombre de boules blanches obtenues.
Donc X(Ω) = {max(0, n − N q), . . . , min(n, N p)} et l’événement (X = k) est réalisé si l’on
obtient k boules blanches et n − k autres dans n’importe quel ordre.
Il y a équiprobabilité et Card(Ω) = Akn :

ó on choisit les places des boules blanches : il y a Cnk choix possibles.

ó on choisit les k boules blanches successivement sans remise parmi les N p boules blanches :
il y a AkN p choix possibles.

ó on choisit les (n − k) autres boules successivement sans remise parmi les N (1 − p) boules
non blanches : il y a An−k
N (1−p) choix possibles.

Donc
n−k
Cnk AkN p AN (1−p)
P (X = k) =
AnN
Définition 3.1.8. Une v.a.r. X discrète est dite de loi hypergéométrique de paramètre (N, n, p)
où N et n sont des entiers non nuls tels que p ∈]0, 1[ N p ∈ N ∗ ; si elle est à valeurs dans
X(Ω) = {1, . . . , n} et si
CNk p CNn−k
(1−p)
P (X = k) =
CNn
pour k ∈ D. On note X ,→ H(N, n, ).

Théorème 3.1.6. Si X ,→ H(N, n, p), alors E(X) = np et V (X) = np(1 − p) N −n


N −1

Proposition 3.1.1. Lorsque N est très grand devant n, la loi hypergéométrique H(N, n, p)peut
être approchée par la loi binomiale B(n, p)

C’est un problème de comparaison de N et n car on néglige des termes de la forme n/N .


Dans la pratique, on utilise cette approximation lorsque n/N ≤ 0, 1

25
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Travaux Dirigés 1 - Statistique Inférentielle (AD2 / 2018-2019)
Fréjus-Ferry HOUNDOGA
ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø

Exercice 1. 1. Soit Ω un ensemble et (An)n∈IN une suite d’éléments de P (Ω). On pose :

Bn = An ∩ (∪p=0
n−1
A p )c

Montrer que :
∪n∈IN An = ∪n∈IN Bn

et que les Bi sont disjoints deux à deux.


2. Soient Ω et E deux ensembles et f : Ω → E une application. si B est une tribu de E, on
note :
T = f −1 (B) = {f −1 (B), B ∈ B}

Montrer que T est une tribu sur Ω ( Cette tribu est appelée image réciproque de la tribu
B). Dans le cas où Ω est une partie de E et f définie par f (x) = x pour tout x, on a :
T = {Ω ∩ B; B ∈ B} et on dit que T est la tribu de Ω induite par la tribu B de E.
3. Exemple : Ω = {−1, 0, 1, 2}, E = 0, 1, 4, B = P (E), f : x 7→ x2 . Déterminer f −1 (P (E)).

Exercice 2. Soit A1 , . . . , An des événements.


1. Montrer que P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2).
2. Montrer la formule du crible
n
X X
P (∪ni=1 Ai ) = (−1)p+1 P (Ai1 ∩ · · · ∩ Aip )
p=1 1≤i1 <···<ip ≤n

Exercice 3. On joue à pile ou face avec une pièce non équilibrée. A chaque lancer, la pro-
babilité d’obtenir face est 2/3, et donc celle d’obtenir pile est 1/3. Les lancers sont supposés
indépendants, et on note X la variable aléatoire réelle égale au nombre de lancers nécessaires
pour obtenir, pour la première fois, deux “faces consécutives”. Pour n ≥ 1, on note pn la
probabilité P (X = n).
1. Expliciter les événements (X = 2), (X = 3), (X = 4), et déterminer la valeur de p2 , p3 , p4 .
2. Montrer que l’on a pn = 92 pn−2 + 31 pn−1 , n ≥ 4.
3. En déduire l’expression de pn pour tout n.
+∞
P
4. Rappeler, pour q ∈] − 1, 1[, l’expression de nq n , et calculer alors E(X). Interpréter.
n=0

Exercice 4. Soit X une variable aléatoire de loi de Poisson de paramètre θ > 0 (i.e. P (X =
k) = e−θ k!θ , k ≥ 0).

1
1 1
1. Vérifier que 1+X
est une variable aléatoire intégrable. Calculer E( 1+X )
1 1
2. Calculer E( (1+X)(2+X) ) et en déduire E( 2+X )

Exercice 5. Soit p ∈]0, 1[. On dispose d’une pièce amenant “pile” avec la probabilité p. On
lance cette pièce jusqu’à obtenir pour la deuxième fois ”pile”. Soit Y le nombre de “face” obtenu
au cours de cette expérience.
1. Déterminer la loi de Y .
2. Montrer que Y admet une espérance, et la calculer.
3. On procède à l’expérience suivante : si Y prend la valeur n, on place n + 1 boules
numérotées de 0 à n dans une urne, et on tire ensuite une boule de cette urne. On note
alors Z le numéro obtenu. Déterminer la loi de Z. Calculer l’espérance de Z.

Exercice 6. Une rampe verticale de spots nommés de bas en haut S1 , S2 , S3 , S4 change d’état
de la manière suivante :
– à l’instant t = 0, le spot S1 est allumé.
– si, à l’instant t = n, n ≥ 0, le spot S1 est allumé, alors un (et un seul) des spots
S1 , S2 , S3 , S4 s’allume à l’instant t = n + 1, et ceci de manière équiprobable.
– si, à l’instant t = n, n ≥ 0, le spot Sk (2 ≤ k ≤ 4) est allumé, le spot Sk−1 s’allume à
l’instant t = n + 1.
On peut donc remarquer qu’à chaque instant, un et un seul spot est allumé. On note X la
variable aléatoire représentant le premier instant (s’il existe) où le spot S2 s’allume.
1. Calculer la probabilité pour que le spot S1 reste constamment allumé jusqu’à l’instant n.
2. Calculer la probabilité des événements (X = 1) et (X = 2).
3. Calculer la probabilité des événements (X = n), pour n ≥ 3.
4. Déterminer l’espérance de X.

Exercice 7. Afin de savoir si ses élèves travaillent indépendamment ou en groupe, un ensei-


gnant de l’ENSEA donne m exercices à une classe de n élèves. Chaque élève choisit k exercices
parmi les m.
1. Calculer la probabilité pour que les élèves aient tous choisi une combinaison fixée de k
exercices.
2. Calculer la probabilité pour que tous les élèves aient choisi les k mêmes exercices.
3. Calculer la probabilité pour qu’une combinaison fixé à l’avance, n’ait pas été choisie.
4. Calculer la probabilité pour qu’il existe au moins une combinaison de k exercices qui n’ait
pas été choisie. (On pourra utiliser la formule du crible)
5. A.N. Donner les résultats pour n = 20, m = 5, k = 2. Comparer les valeurs pour les
questions 1 et 2 puis 3 et 4.

2
Exercice 8. Un gardien de nuit doit ouvrir une porte dans le noir, avec n clefs dont une seule
est la bonne.
1. Donner la loi de probabilité du nombre X d’essais nécessaires s’il essaie les clefs une à
une sans utiliser deux fois la même. Calculer l’espérance et la variance de X.
2. Lorsque le gardien est ivre, il mélange toutes les clefs à chaque tentative. Identifier la loi
de X. Rappeler l’espérance et la variance de X.
3. Le gardien est ivre un jour sur trois. Sachant qu’un jour n tentatives ont été nécessaires
pour ouvrir la porte, quelle est la probabilité que le gardien ait été ivre ce jour là ? Calculer
la limite quand n tend vers l’infini.

Exercice 9. Une ligne de la SOTRA comporte 18 arrêts bus numérotés de 1 à 18. Lorsqu’un
bus part de l’arrêt 1 en direction de l’arrêt 18, le nombre de passagers qui montent dans ce bus
à l’arrêt i(1 ≤ i ≤ 17) est une variable aléatoire Xi qui suit la loi binomiale B(2(18 − i), 2/3)/
1. Calculer l’espérance du nombre total de passagers montant dans un bus, lors de son trajet
d’arrêt à arrêt.
On suppose maintenant que le nombre de passagers qui descendent du bus à l’arrêt i est
une variable aléatoire Yi (2 ≤ i ≤ 18) qui suit la loi binomiale B(2(i − 1), 2/3).
2. Calculer l’espérance du nombre de passagers présents dans le bus entre les stations 9 et
10.

Exercice 10. Un étudiant AD2 se présente à un examen où, cette fois, les 20 questions
sont données sous forme de Questions à Choix Multiples. A chaque question, sont proposées 5
réponses, une seule étant exacte. L’enseignant fait le compte des réponses exactes données par
les étudiants. Certains étudiants répondent au hasard à chaque question. Pour ceux-là, définir
une variable aléatoire associée à ce problème et donner sa loi de probabilité, son espérance.
Donner la probabilité que chacun de ces étudiants obtiennent au moins 12 à l’examen.

3
3.2 Lois continues

3.2.1 Loi uniforme


Définition 3.2.1. Une v.a.r. X à valeurs dans [a, b] est dite de loi uniforme sur cet intervalle
si elle est absolument continue et admet pour densité

1
f (x) = 1[a,b] (x). (3.1)
b−a
On note X ,→ U[ a, b] et sa fonction de répartition est donnée par :



 0 si x ≤ a

F (x) =  x−a
b−a
Si a ≤ x ≤ b (3.2)


 1 Si x ≥ b.

La loi uniforme sur un intervalle est la loi des “tirages au hasard” dans cet intervalle.
La loi uniforme la plus célèbre est celle dont le support est l’intervalle [0, 1].
(b−a)2
Proposition 3.2.1. Si X ,→ U[ a, b], alors E(X) = a+b
2
et V (V ) = 12

Preuve : (en exercice)

3.2.2 Loi exponentielle


Définition 3.2.2. Soit X une v.a.r définie sur (Ω, B, P ). On dit que X suit une loi exponentielle
de paramètre λ > 0, notée E(λ), si la loi de X a pour densité :

 λe−λx si x ≥ 0
f (x) =  (3.3)
0 Sinon.

La loi exponentielle est utilisée en fiabilité. Le paramètre λ représente le taux moyen de


défaillance alors que son inverse θ = 1 − λ est “le temps moyen de bon fonctionnement”. La
loi exponentielle s’applique bien aux matériels électroniques ou aux matériels subissant des
défaillances brutales.

Proposition 3.2.2. Si X ,→ E(λ), alors



 1 − e−λx si x ≥ 0
F (x) = (3.4)
 0 Sinon,
1 1
E(X) = λ
et V (V ) = λ2

29
3.2.3 Loi Gamma
La loi exponentielle est un cas particulier de la famille des lois Gamma. Soient a > 0 et
λ > 0. On dit que X suit une loi Gamma de paramètres (a, λ), notée Γ(a, λ), si la loi de X a
pour densité :  a
 λ
Γ(a)
xa−1 e−λx si x ≥ 0
fX (x) = (3.5)
 0 Sinon,
où la fonction gamma est donnée par
Z∞
Γ(a) = xa−1 e−x dx (3.6)
0

Le paramètre a est un paramètre de forme alors que le paramètre λ est un paramètre d’échelle.
Pour n entier, a = n/2 et λ = 1/2, la loi Γ(n/2; 1/2) est appelée loi du chi-deux à n degrés
de liberté, et notée χ2 (n). Elle joue un rôle important en statistique, c’est la loi de la somme
des carrés de n variables aléatoires indépendantes de loi N (0, 1). On l’utilise pour les variances
empiriques d’échantillons gaussiens. La loi Γ(1; λ) est la loi exponentielle E(λ).

Remarque 3.4. On a les relations suivantes : Γ(α + 1) = αΓ(α) et si n est un entier, Γ(n) =

(n − 1)!. On a enfin Γ(1/2) = π

3.2.4 Loi de Gauss-Laplace


Quiconque a déjà rencontré quelques graphes statistiques a surement remarqué que leurs
polygones des fréquences présentaient souvent une forme relativement synthétique avec une
“boss centrale”. Il doit donc exister une densité de probabilité qui idéalise dans le cas continue
cette forme de cloche. Il se trouve que le bon prétendant est obtenu à partir de la fonction réelle
2
x 7→ e−x en l’agrémentant de deux paramètres : l’un permettant de déplacer horizontalement
“la bosse” et l’autre permettant d’accentuer ± cette “bosse”.
Pour cela, nous aurons besoin d’un résultat important de calcul intégral :
+∞
Z
2 √
e−t dt = π (intégrale de Gauss) (3.7)
−∞

Définition 3.2.3. Soit X une v.a.r définie sur (Ω, B, P ).


On dit que X suit une loi de Laplace-Gauss de paramètre m et σ 2 (m ∈ R et σ ∈ R+

) si X
est une v.a.r absolument continue dont une densité est définie par :
1 (t−m)2
ϕm,σ (t) = √ e− 2σ2 , ∀t ∈ R (3.8)
σ 2π
Exercice 3.1. Vérifier que ϕm,σ telle que définie est bien une densité de probabilité.

30
On note X ,→ N (m, σ 2 ).
On dit aussi que X suit une loi normale de paramètre m et σ 2 ou encore que X est une
v.a.r normale ou gaussienne.

Théorème 3.2.1. Soit X une v.a.r définie sur (Ω, B, P ). Notons X ∗ la variable centrée réduite
associée. On a l’équivalence suivante :
X −m
X ,→ N (m, σ 2 ) ⇔ X ∗ = ,→ N (0, 1)
σ
Remarque 3.5. Sur la base du théorème 3.2.1, tout calcul de probabilité à partir d’une loi
N (m, σ 2 ) se ramène par réduction à un calcul de probabilité de la loi centrée réduite N (0, 1)
dont la fonction de répartition se note traditionnellement φ au lieu de φ0,1 et sa densité ϕ au
lieu de ϕ0,1 .
Z x
1 − x2 1 t2
∀x ∈ R, ϕ(x) = √ e 2 ; φ(x) = √ e− 2 dt
2π −∞

Le calcul de ϕ(x) se fait simplement à l’aide d’une machine à calculer aux performances
modestes.
Le calcul de φ(x) nécessite par contre que l’on ait à sa disposition une machine relativement
sophistiquée. Pour cette raison, des ouvrages proposent généralement des valeurs approchées
de φ(x) pour x ≥ 0.
La proposition suivante montre qu’il est inutile de tabuler φ(x) pour x ≤ 0

Proposition 3.2.3. Soit X ,→ N (0, 1) alors, on a :

∀x ∈ R, P (X ≤ x) = P (X ≥ −x) = 1 − P (X ≤ −x)

Remarque 3.6. i) La densité de la loi normale présente un axe de symétrie vertical pour
x = m;

ii) Il n’existe pas d’expression analytique de la fonction de répartition de X qui est approchée
par le calcul numérique de l’intégrale de la densité.

iii) La loi normale s’applique à de nombreux phénomènes, en physique, en économie (erreurs


de mesure), biologie ; c’est une conséquence du théorème central limite que nous verrons
un peu plus devant, elle est la forme limite de nombreuses lois discrètes. Ainsi, toute
grandeur résultat d’un ensemble ou d’une “somme” de plusieurs variables indépendantes
et de même loi se distribue approximativement suivant une loi normale.

iv) Il faut cependant remarquer que les variables utilisées dans les domaines technologique,
économique, biologique sont bien souvent positives. Pour que la loi normale puisse être

31
représentative d’un tel phénomène, il faut que la probabilité théorique d’obtenir des va-
leurs négatives de la variable soit très faible. Il faut en particulier éviter d’utiliser cette
modélisation pour les queues des distributions.

Remarque 3.7. Soit X une v.a.r suivant une loi normale. Calculons le coefficient d’aplatisse-
ment de X. Ce coefficient étant indépendant de l’origine et de l’unité choisie, il suffit de calculer
ce coefficient dans le cas d’une loi N (0, 1)
On a donc : m1 = 0 ; µ2 = σ 2 = 1 et µ4 = 3.
Par conséquent, le coefficient d’aplatissement vaut a = µ4
µ22
= 3.
Ce qui prouve bien que le coefficient a−3 appelé parfois “excès d’aplatissement” a été conçu
pour comparer une distribution statistique à une distribution normale.

Exercice 3.2. Soit X une variable aléatoire qui suit la loi normale N (500; 202 ). Pour Z une
variable aléatoire qui suit la loi normale centrée réduite, on note et donne a = P (Z ≤ 0),
b = P (Z ≤ 0, 5) ' 0, 6915, c = P (Z ≤ 1) ' 0, 8413, d = P (Z ≤ 2) ' 0, 9772.
Exprimer en fonction de a, b, c et d, puis donner une valeur approchée de :

1. P (X ≤ 520)

2. P (X ≥ 540)

3. P (460 ≤ X ≤ 540)

4. P(X≥500) (X ≤ 510)

Exercice 3.3. Soit X une variable aléatoire suivant la loi normale N (200; 152 ).
Déterminer le réel u > 0 tel que P (200 − 2u ≤ X ≤ 200 + 2u) = 0, 9

Exercice 3.4. Soit X une variable aléatoire suivant la loi normale N (µ; σ 2 ).
On donne µ = E(X) = 120.
Déterminer l’écart-type σ tel que P (100 ≤ X ≤ 140) = 0, 92.

Exercice 3.5. Une entreprise fabrique des brioches en grande quantité.


On pèse les boules de pâte avant cuisson. On note X la variable aléatoire qui, à chaque boule
de pâte, associe sa masse. On admet que X suit la loi normale de moyenne 700g et d’écart type
20g.

1. Seules les boules dont la masse est comprise entre 666g et 732g sont acceptées à la cuisson.
Quelle est la probabilité qu’une boule, prise au hasard dans la production, soit acceptée
à la cuisson ?

2. Déterminer le réel positif h afin que l’on ait : P (700 − h ≤ X ≤ 700 + h) > 0, 95. Énoncer
ce résultat à l’aide d’une phrase.

32
3. On admet que 8% des boules sont refusées à la cuisson. On prélève au hasard, successi-
vement et avec remise, n boules dans la production. On note Yn la variable aléatoire qui,
à chaque prélèvement de n boules, associe le nombre de boules qui seront refusées à la
cuisson. Cette variable aléatoire Yn suit une loi binomiale.
Dans le cas n = 10,

(a) calculer la probabilité d’avoir, parmi les 10 boules prélevées, exactement 3 boules
refusées à la cuisson ;
(b) calculer la probabilité d’avoir, parmi les 10 boules prélevées, au moins 7 boules
acceptées à la cuisson.

3.2.5 Loi log-normale


Définition 3.2.4. On dit qu’une v.a.r Z à valeurs dans R+

suit une loi log-normale de para-
mètre m et σ si la v.a.r X = log(Z) suit la loi N (m, σ 2 ).

Notons FZ la fonction de répartition de Z. On a donc :



 P (Z ≤ x) = P (X ≤ log(x)) = φm,σ (log(x)) si x ≥ 0
FZ (x) = (3.9)
 0 Sinon,

Donc Z est une v.a.r absolument continue qui admet comme densité la fonction la fonction
définie par : 
 (log(x)−m)2
1
 √ e− 2σ 2 si x > 0
fZ (x) = xσ 2π (3.10)

 0 Sinon,
Sa densité est dissymétrique et étalée vers la droite.

Exercice 3.6. 1. Étudier la fonction fZ définie à l’équation 3.10 et vérifier en particulier


qu’elle admet une limite finie au point x = 0.
σ2
2. Montrer que si Z suit une loi log-normale de paramètre m et σ, on a : E(Z) = em+ 2 et
σ2 2m+σ 2
V (Z) = (e − 1)e

3.2.6 Loi Bêta (de première espèce)


Rappelons en premier lieu l’expression de la première fonction d’Euler appelée aussi fonction
Bêta. Elle est définie pour tout a et b positifs par
Z1
β(a, b) = xα−1 (1 − x)b−1 dx (3.11)
0

33
Notons que l’on a :
Γ(a)Γ(b)
β(a, b) = β(b, a) =
Γ(a + b)
Définition 3.2.5. Une v.a.r. X à valeurs dans [0, 1] est dite de loi Bêta de paramètres a et b
si elle est absolument continue et admet pour densité :
1
f (x) = xa−1 (1 − x)b−1 1[0,1] (x) (3.12)
β(a, b)

On note X ,→ Bêta(a, b).

3.2.7 Loi de Student


Une v.a.r. X à valeurs dans R est dite de loi de Student à n degrés de liberté si elle est
absolument continue de densité :
1 x2 − n+1
f (x) = √ (1 + ) 2 (3.13)
nβ( 12 , n2 ) n

On note X ,→ T (n).

3.2.8 Loi de Fisher


Une v.a.r. X à valeurs dans R+ est dite de loi de Fisher à n et m degrés de liberté, si elle
est absolument continue de densité :
1
n
x 2 −1
f (x) = n m n 2 m 2 n+m 1R∗
+ (x). (3.14)
n m

β( 2 , 2 ) (m + nx) 2

On note X ,→ F(n, m)

34
Chapitre 4

Couples de variables aléatoires réelles

4.1 Généralités


Soit (Ω, B, P ) un espace probabilisé quelconque et soit X : Ω → Rd (d ∈ N ∗ ) une application.
Pour tout i = {1, . . . , d}, notons πi la ime projection de Rd sur R i.e l’application défini par :

πi : R d −→ R
(4.1)
(x1 , . . . , xd ) 7−→ xi


Alors πo X est une application de Ω dans R, et si l’on note cette application Xi , on a :


∀ω ∈ Ω, X (ω) = (X1 (ω), . . . , Xd (ω))

Avec ces notations, si ∀i = {i, . . . , d}, Xi est une v.a.r sur Ω, on dit que X est une variable
(ou vecteur) aléatoire de dimension d définie sur Ω.
Réciproquement, supposons que l’on se soit donné d v.a.r X1 , . . . , Xd définies sur l’es-

− →

pace probabilisé (Ω, B, P ). Alors l’application X : Ω → Rd définie par : ∀ω ∈ Ω, X (ω) =
(X1 (ω), . . . , Xd (ω)) est un vecteur aléatoire de dimension d. Pour cette raison, nous confondons
vecteur aléatoire de dimension d et d − uplet de variables aléatoires définies sur un même espace


probabilisé et nous permettons l’abus de notation : X = (X1 , . . . , Xd )
Dans la suite de ce cours, nous étudierons principalement le cas d = 2 et nous parlerons
alors de couple de v.a.r.

35
4.2 Couple de variables aléatoires discrètes

4.2.1 Loi d’un couple de v.a.d


Loi conjointe

Définition 4.2.1. Soient X et Y deux variables aléatoires discrètes avec X(Ω) = {xi , i ∈ N } ;
et Y (Ω) = {yj , j ∈ N }. La loi conjointe du couple (X; Y ) est donnée par (X; Y )(Ω) = X(Ω) ×
Y (Ω) ainsi que par les probabilités

pi,j = P (X = xi ∩ Y = yj ) = P (X = xi , Y = yj )

pour i, j ∈ N .
P
Remarque 4.1. 0n a nécessairement pi,j = 1
i,j∈N
Plus généralement, si X1 , . . . , Xn sont n variables aléatoires discrètes, la loi conjointe du
vecteur (X, ; . . . , Xn ) est donnée par (X1 , . . . , Xn )(Ω) ainsi que par les probabilités P (X1 =
x1 , . . . ; Xn = xn ), pour tout n-uplet (X1 , . . . , Xn ) ∈ Rn .

Exemple 4.1. On lance une pièce truquée 3 fois. La probabilité de tomber sur “Pile” est 2/3.
Soit X le nombre de “Face” obtenu dans les deux premiers jets et Y le nombre de “Face” obtenu
dans les deux derniers jets. Donner la loi de (X,Y) ! !

Loi marginale

Dans l’exemple précédent, on remarque que si on fait la somme de la première ligne, on


obtient P(Y = 0). De même, si on fait la somme de la seconde colonne, on obtient P(X = 1).
Connaître la loi d’un couple permet de connaître la loi de chacune des 2 variables du couple
(on verra que la réciproque est fausse).

Définition 4.2.2. Soit (X, Y ) un couple aléatoire discret. On appelle première loi marginale
(resp : deuxième loi marginale) la loi de la première composante X (resp : deuxième composante
Y ). On les obtient de la façon suivante : ∀i, j ∈ N,
X X
pi = P (X = xi ) = P (X = xi , Y = yj ) = pi,j (4.2)
j∈N j∈N

X X
qj = P (Y = yj ) = P (X = xi , Y = yj ) = pi,j (4.3)
i∈N i∈N

Donc, si on connaît la loi du couple, on connaît les lois marginales. Il suffit de faire les
sommes sur les lignes et les colonnes.

36
Remarque 4.2. La connaissance de la loi d’un couple permet donc de retrouver les lois margi-
nales. En revanche, il n’est pas possible de déterminer la loi d’un couple s’il l’on ne connaît que
les lois marginales : deux couples peuvent avoir des lois différentes alors qu’ils ont les mêmes
lois marginales.

Exemple 4.2. On tire successivement et sans remise deux boules dans une urne contenant au
départ 2 boules rouges et 3 boules noires. On note X (respectivement Y ) la variable aléatoire
qui vaut 1 si la première (respectivement deuxième) boule tirée est rouge, 0 sinon. Déterminer
la loi du couple Z = (X, Y ) puis déterminer les loi marginales de Z/
Déterminer de même les lois de X 0 , de Y 0 et de Z 0 = (X 0 , Y 0 ) si le tirage se fait avec remise.

Loi conditionnelle

Considérons un couple (X, Y ) de variables aléatoires discrètes, dont on connaît la loi jointe
et fixons y tel que P (Y = y) > 0.
On définit la probabilité conditionnelle

P ((X = x) ∩ P (Y = y))
P (X = x|Y = y) = = PXY =y (x)
P (Y = y)

On montre que PXY =y (x) définit ainsi une probabilité sur X(Ω).

Définition 4.2.3. Pour tout y ∈ Y (Ω) tel que P (Y = y) > 0, la fonction PXY =y (x) définit sur
X(Ω) à valeur dans [0,1] est appelée loi de probabilité de X conditionnelle à Y = y.

La loi conditionnelle de X sachant l’événement {Y = y} est donnée par le fait que c’est
une loi sur X(Ω) ainsi que par les probabilités conditionnelles P (X = x|Y = y) pour tout
x ∈ X(Ω).

Fonction de répartition

Définition 4.2.4. On appelle fonction de répartition (conjointe) du couple aléatoire X =


(X1 , X2 ) l’application FX définie sur R2 et à valeurs dans [0 ;1] par :

FX (x) = PX (] − ∞, x1 ]×] − ∞, x2 ]) = PX ({X ≤ x1 } ∩ {X ≤ x2 }), (4.4)

où x = (x1 , x2 ) est un vecteur de R2 .

Proposition 4.2.1. On a :

lim FX (x) = 0 et lim FX (x) = 1 (4.5)


∀i,xi →−∞ ∀i,xi →+∞

37
4.2.2 Loi de f (X, Y )
Problème : On dispose d’un couple de variables aléatoires discrètes (X, Y ) dont on connaît
la loi conjointe et on voudrait connaître la loi de la variable aléatoire Z = f (X, Y ), où f :
X(Ω) × Y (Ω) → R est une fonction donnée. Par exemple, on a souvent besoin de connaître la
loi de X + Y , ou celle de X − Y , ou de XY . Et déterminer la loi de X à partir de celle de
(X, Y ), par exemple, revient à considérer la fonction f (x, y) = x.

Proposition 4.2.2. On a Z(Ω) = f (X, Y )(Ω) et pour tout z ∈ f (X, Y )(Ω), on a :


X
P (Z = z) = P (X = x, Y = y)
(x,y)∈(X,Y )(Ω),f (x,y)=z

4.2.3 Indépendance de variables aléatoires discrètes


Définition 4.2.5. Deux variables aléatoires discrètes X et Y sont dites indépendantes si pour
tout x ∈ X(Ω) et tout y ∈ Y (Ω), les événements {X=x} et {Y = y} sont indépendants,
c’est-à-dire :
P (X = x, Y = y) = P (X = x)P (Y = y) (4.6)

Si X et Y sont deux variables aléatoires discrètes indépendantes, on aura donc, pour tout y ∈
Y (Ω) et tout x ∈ X(Ω) tels que P (Y = y) > 0 et P (X = x) > 0, P (X = x|Y = y) = P (X = x)
et P (Y = y|X = x) = P (Y = y).
Plus généralement, les n variables aléatoires discrètes X1 , . . . , Xn sont (mutuellement ou n
à n) indépendantes si, pour tout choix de x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω), on a

P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) . . . P (Xn = xn )

Remarque 4.3. ó L’indépendance n à n entraîne l’indépendance 2 à 2 (mais la réciproque


est fausse) (Écrire la preuve de ce résultat pour n = 3).

ó Des événements A1 , . . . , An sont indépendants si et seulement si les variables aléatoires


1A1 , . . . , 1An le sont.

ó Lorsque les variables aléatoires X et Y sont indépendantes, connaître les lois marginales
permet donc de connaître la loi jointe du couple (X, Y ), alors que pour des variables
aléatoires quelconques, cela ne suffit pas.

4.2.4 Espérance, matrice de covariance


Dans un souci de clarté, tous les résultats de ce paragraphe et du suivant sont énoncés pour
les couples de variables aléatoires discrètes, et ils s’étendent sans peine aux vecteurs aléatoires
discrets.

38
On considère un couple aléatoire discret (X, Y ).

Définition 4.2.6. ó L’espérance du couple (X, Y ) est définie si X et Y sont intégrables et


on a alors : E(X, Y ) = (E(X), E(Y )).

ó Si X et Y sont deux variables aléatoires de carré intégrable, la covariance de X et de Y ,


ou covariance du couple (X, Y ), est donnée par

cov(X, Y ) = E(XY ) − E(X)E(Y ) = E[(X − E(X))(Y − E(Y ))].

ó Si X et Y sont deux variables aléatoires de carré intégrable, la matrice de covariance du


couple (X,Y) est la matrice
 
V ar(X) cov(X, Y )
C=  (4.7)
cov(X, Y ) V ar(Y )

Plus généralement, la matrice de covariance d’un vecteur (X1 , . . . , Xn ), dont chacune des
composantes est de carré intégrable, est une matrice n × n dont les termes diagonaux sont les
variances des Xi et dont le terme (i, j) est la covariance cov(Xi , Xj ) pour tout i 6= j.

Remarque 4.4. Le calcul de l’espérance de X ou de Y ne fait intervenir que les lois marginales,
mais nous allons voir qu’il n’est pas nécessaire d’expliciter ces lois marginales.

Proposition 4.2.3. Si (X, Y ) est un couple de variables aléatoires discrètes, pour toute fonction
h : R2 → R telle que
X
h(x, y)P (X = x, Y = y) < ∞
x∈X(Ω),y∈Y (Ω)

la variable aléatoire h(X, Y ) est intégrable et on a


X
E(h(X, Y )) = h(x, y)P (X = x, Y = y)
x∈X(Ω),y∈Y (Ω)

Application : Cette proposition permet d’écrire notamment les espérances de X, de Y


ou de XY sans expliciter la loi de ces variables aléatoires. Si le couple (X, Y ) est discret, on a
ainsi :
X
E(X) = xP (X = x, Y = y)
(x,y)∈(X,Y )(Ω)
X
E(Y ) = yP (X = x, Y = y)
(x,y)∈(X,Y )(Ω)
X
E(XY ) = xyP (X = x, Y = y)
(x,y)∈(X,Y )(Ω)

lorsque les séries convergent.


Revenons maintenant à la matrice de covariance :

39
Proposition 4.2.4. 1. Si X et Y sont deux variables aléatoires indépendantes et inté-
grables, on a E(XY ) = E(X)E(Y ) et donc cov(X, Y ) = 0. La réciproque de ce résultat
est fausse.

2. Si X et Y sont deux variables aléatoires indépendantes et f et g deux fonctions telles que


les variables aléatoires f (X) et g(Y ) sont intégrables, on a E(f (X)g(Y )) = E(f (X))E(g(Y )).
La réciproque de ce résultat est fausse.

3. Si les variables aléatoires X1 , . . . , Xn sont indépendantes et de carré intégrable, alors la


matrice de covariance de (X1 , . . . , Xn ) est diagonale. La réciproque de ce résultat est
fausse.

Proposition 4.2.5. Si X et Y sont deux variables aléatoires de carré intégrable, on a :

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2cov(X, Y )

Si de plus, X et Y sont indépendantes, on a

V ar(X + Y ) = V ar(X) + V ar(Y )

4.2.5 Fonction génératrice d’un couple


Définition 4.2.7. La fonction génératrice d’un couple de variables aléatoires discrètes positives
est la fonction définie sur [0, 1]2 par
X
G(X,Y ) (s, t) = E(sX tY ) == sx ty P (X = x, Y = y) (4.8)
x∈X(Ω),y∈Y (Ω)

Proposition 4.2.6. La fonction génératrice détermine la loi du couple (X, Y ) au sens où si


deux couples de variables aléatoires positives ont la même fonction génératrice, alors ils suivent
la même loi.

La fonction génératrice de (X, Y ) permet de retrouver par exemple :

ó la fonction génératrice de X : GX (s) = G(X,Y ) (s, O)

ó l’espérance de X si X est intégrable : E(X) = ∂


G
∂s (X,Y )
(1, 1)
∂2
ó l’espérance de X 2 si X est de carré intégrable : E(X 2 ) = G
∂s2 (X,Y )
(1, 1) + G(X,Y ) (1, 1)
∂2
ó l’espérance de XY si X et Y sont de carré intégrable : E(XY ) = G
∂s∂t (X,Y )
(1, 1)

Une autre utilité importante de la fonction génératrice est de permettre de calculer simplement
la loi de somme de variables aléatoires, à partir du moment où on connaît leur loi jointe. En
effet, on a le résultat suivant :

40
Proposition 4.2.7. Soient (X, Y ) un couple de variables aléatoires positives dont on connaît
la loi jointe. Notons GX,Y la fonction génératrice du couple. On a alors GX+Y (s) = G(X,Y ) (s, s).

Proposition 4.2.8. Les variables aléatoires positives X et Y sont indépendantes si et seulement


si
G(X,Y ) (s, t) = G(X) (s)G(Y ) (t)

4.3 Couples aléatoires à densité

4.3.1 Densité d’un couple


Définition 4.3.1. La loi du couple de v.a. (X, Y ) est dite à densité s’il existe une fonction
f(X,Y ) telle que la fonction de répartition du couple s’écrit
Zx Zy
F(X,Y ) (x, y) = f(X,Y ) (u, v)dudv, (4.9)
−∞ −∞

satisfaisant les conditions suivantes :

1. f(X,Y ) (x, y) ≥ 0 pour tout (x, y) ∈ R2 ,


R R
2. f(X,Y ) (x, y)dxdy = 1
R2

On retrouve facilement les lois marginales : les variables X et Y sont des variables continues
de densité respectives
Z Z
fX (x) = f(X,Y ) (x, y)dy et fY (y) = f(X,Y ) (x, y)dx
R R

Proposition 4.3.1. Si X est un vecteur aléatoire absolument continu, tout vecteur aléatoire
marginal est également absolument continu et sa densité est obtenue en intégrant la densité
conjointe de X par rapport aux coordonnées restantes.

4.3.2 Indépendance
Rappelons la définition de l’indépendance de variables aléatoires :
Les variables aléatoires X et Y sont indépendantes si, pour tous intervalles I et J, on a

P (X ∈ IetY ∈ J) = P (X ∈ I)P (Y ∈ J)

Définition 4.3.2. Deux variables aléatoires (X,Y) de densité respectivement f et g sont in-
dépendantes si et seulement si la loi du couple admet une densité et que cette densité est la
fonction (x, y) 7→ f (x)g(y).

41
4.3.3 Espérance, covariance
Définition 4.3.3. On définit, comme pour les couples discrets l’espérance d’un couple de va-
riables aléatoires intégrables comme étant le couple des espérances E(X,Y) = (E(X),E(Y)), et
il est facile de vérifier que :
Z Z
E(X) = xf (x, y)dxdy et E(Y ) = yf (x, y)dxdy
R2 R2

lorsque ces intégrales sont absolument convergentes.


Si les variables aléatoires sont de carré intégrable, on définit également la matrice de cova-
riance du couple (X,Y) par  
V ar(X) cov(X, Y )
C=  (4.10)
cov(X, Y ) V ar(Y )
Les termes non-diagonaux de cette matrice seront

cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ).

La matrice de covariance est, comme dans le cas discret, une matrice symétrique et positive
(au sens des formes bilinéaires).

Remarque 4.5. Pour identifier la densité d’un couple, on utilise habituellement une fonction
test h : R2 → R continue et bornée et on essaie d’écrire E(h(X, Y )) sous la forme
Z
E(h(X, Y )) = h(x, y)f (x, y)dxdy. (4.11)
R2

la fonction f : R2 → R+ ci-dessus, si elle existe, sera la densité du couple (X, Y ).

Remarque 4.6. Les propriétés vues dans le cas discret restent vraies pour les couples à densité :
notamment, si le couple est formé de variables aléatoires indépendantes et de carré intégrable,
cov(X, Y ) = 0 et var(X + Y ) = var(X) + var(Y ), et, tout comme dans le cas discret, la
covariance de deux variables aléatoires dont le couple admet une densité, peut être nulle sans que
les variables soient indépendantes : reprendre par exemple l’exemple du couple de loi uniforme
sur le disque de centre 0 et de rayon 1.

4.3.4 Loi de la somme


On peut vérifier que si le couple (X, Y ) a une densité, la variable X + Y aura également
une densité, et on peut expliciter cette densité :

Proposition 4.3.2. ó Si le couple (X, Y ) admet pour densité la fonction f , alors la densité
de la variable aléatoire X + Y est la fonction g définie par
Z Z
g(z) = f (x, z − x)dx = f (z − y, y)dy
R R

42
ó Si X et Y sont deux variables aléatoires indépendantes de densité fX et fY , la densité,
notée g, de X + Y est le produit de convolution de fX et fY :
Z Z
g(z) = fX (x)fY (z − x)dx = fX (z − y)fY (y)dy.
R R

Preuve : Soit h : R → R une fonction continue par morceaux et bornée. On a :


Z
E(h(X + Y )) = h(x + y)f (x, y)dxdy
2
ZR Z
= h(z) f (x, z − x)dxdz
R R

en posant x = x et z = x + y. Si on avait effectué le changement de variables z = x + y et y,


on aurait obtenu l’autre expression annoncée.

Exercice 4.1. Cédric fait du tir à l’arc sur une cible circulaire de rayon 1. On suppose que
Cédric est suffisamment maladroit pour que le point d’impact M de coordonnées (X, Y ) soit
uniformément distribué sur la cible. On note D = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.

1. Quelle est la densité du couple (X, Y ) ?

2. Déterminer les lois marginales de X et de Y .

3. Les variables aléatoires X et Y sont-elles indépendantes ?

Exercice 4.2. Soit T l’intérieur d’un triangle du plan délimité par les points O(0, 0), I(1, 0)
et J(0, 1) et soit (X, Y ) un couple de variables aléatoires de loi uniforme sur le triangle T .

1. Donner la densité du couple (X,Y).

2. Calculer les lois marginales de X et de Y.

3. Les variables aléatoires X et Y sont-elles indépendantes ?

4. Calculer la covariance du couple (X,Y). Qu’en pensez-vous ?

43
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Travaux Dirigés 2 - Statistique Inférentielle (AD2 / 2018-2019)
Fréjus-Ferry HOUNDOGA
ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø ø

Exercice 1 (*). Soient X et Y deux variables indépendantes suivant une loi de Bernoulli de
même paramètre p. On note U = X + Y et V = X − Y . Calculer la loi du couple (U, V ). Les
deux variables sont-elles indépendantes ?

Exercice 2 (**). On dispose de n urnes numérotées de 1 à n. L’urne k contient k boules


elles-mêmes numérotées de 1 à k. On tire une urne au hasard, puis une boule au hasard dans
cette urne. On note X le numéro de l’urne et Y le numéro de la boule. Déterminer la loi du
couple (X, Y ), puis les lois marginales. En déduire l’espérance des variables X et Y .

Exercice 3 (**). Soient X et Y deux variables aléatoires indépendantes suivant une loi
géométrique de même paramètre p. On note U = max(X, Y ) et V = min(X, Y ).
1. Déterminer les lois de U et de V .
2. Calculez l’espérance de la variable U .
3. Déterminer E(V ) de deux façons différentes (un calcul direct, et un autre utilisant la
valeur de E(U )).

Exercice 4. On considère deux variables aléatoires X et Y indépendantes et suivant la même


loi uniforme sur [0, 1]. On pose Z = X + Y
1. (a) Déterminer l’espérance E(Z) de Z.
(b) Déterminer une densité de Z.
(c) Montrer que, pour tout x de ]0, 1[, les événements (Z > 1) et (1 − x < Z ≤ 1 + x)
sont indépendants.
2. On pose T = max(X, Y ).
(a) Déterminer une densité de T .
(b) Calculer l’espérance E(T ) de T .
(c) On pose U = |X − Y |. Montrer que U est une combinaison linéaire de Z et T , puis
en déduire E(U ).

Exercice 5. Romaric et Angèle ont un rendez-vous chez Foungnigué entre 12h et 14h. On
suppose que les instants d’arrivée de Romaric et Angèle sont des variables aléatoires X et Y
indépendantes et de loi uniforme sur [0, 2] (l’instant 0 correspondant à midi et l’unité de temps
étant l’heure).

1
1. Soit U la variable aléatoire représentant le temps d’attente de Robert jusqu’à la première
arrivée. Déterminez la densité de probabilité de U .
2. Soit V la variable aléatoire représentant le temps d’attente de Foungnigué jusqu’à ce que
ses deux amis soient arrivés. Déterminez la densité de probabilité de V .
3. Soit W la variable aléatoire représentant le temps d’attente de Foungnigué entre les deux
arrivées. Déterminez la densité de probabilité de W .

Exercice 6. Cédric et Rosemonde ont projeté de se retrouver pour boire un café entre 19H
et 20H. On sait qu’aucun des deux n’attendra l’autre plus de 10 minutes et on se demande
s’ils ont “peu ou beaucoup de chance” de se rencontrer. On modélise le problème de la manière
suivante : ils arrivent indépendamment et à des instants uniformément distribués entre 19H et
20H.
1. Quelle est la probabilité que Cédric et Rosemonde se rencontrent ?
2. Cédric précise son heure d’arrivée à Rosemonde, quelle est la probabilité qu’ils se ren-
contrent ?
3. Cédric est arrivé et ne voit pas Rosemonde, quelle probabilité a-t-il de rencontrer Alice ?

Exercice 7 (**). Soient X et Y deux variables aléatoires à valeurs dans N ? , telles que :
a
P ((X = i) ∩ (Y = j)) =
2i+j
pour tout i, j ∈ N ∗
1. Calculer a.
2. Déterminer les lois marginales de X et Y .
3. X et Y sont-elles indépendantes ?

Exercice 8. Soit (U, V ) un couple de variables aléatoires de densité conjointe

f (u, v) = αu(u − v)1∆ (u, v)

où ∆ = {(u, v) ∈ [0, 1]2 |u > v}


1. Représenter ∆.
2. Vérifier que f est bien une densité pour une certaine valeur de α à préciser.
3. Déterminer les densités marginales fU et fV .
4. Calculer la covariance σU V .
5. Les variables U et V sont-elles indépendantes ?

Exercice 9. Soit (X, Y ) un couple de variables aléatoires de densité conjointe

f (x, y) = 8xy1∆ (x, y)

où ∆ = {(x, y)|x ∈ [0, 1], y ∈ [0, x]}.

2
1. Représenter ∆.
2. Vérifier que f est bien une densité.
3. Déterminer les densités marginales fX et fY .
4. Calculer la covariance σXY .
5. Les variables X et Y sont-elles indépendantes ?

Exercice 10. Soient X1 et X2 deux variables aléatoires normales indépendantes centrées


réduites. Quelle est la distribution de la variable aléatoire

χ2 = X12 + X22

Quelle loi classique reconnaı̂t-on ? Généraliser à n variables.

Exercice 11 (EM Lyon 2010). Une gare dispose de deux guichets. Trois clients notés C1 ,
C2 , C3 arrivent en même temps. Les clients C1 et C2 se font servir tandis que le client C3
attend puis effectue son opération dès que l’un des deux guichets se libère.
On définit X1 , X2 , X3 les variables aléatoires égales à la durée de l’opération des clients C1 ,
C2 , C3 respectivement. Ces durées sont mesurées en minutes et arrondies à l’unité supérieure
ou égale. On suppose que les variables aléatoires X1 , X2 , X3 suivent la loi géométrique de
paramètre p, p ∈]0; 1[ et qu’elles sont indépendantes. On note q = 1 − p.
On note A l’événement, : “C3 termine en dernier son opération”. Ainsi l’événement A est
égal à l’événement : (min(X1 , X2 )+X3 ) > max(X1 , X2 ). On se propose de calculer la probabilité
de A.
1. Rappeler la loi de X1 ainsi que son espérance E(X1 ) et sa variance V (X1 ). On définit la
variable aléatoire ∆ par ∆ = |X1 − X2|.
2. Calculer la probabilité P (∆ = 0).
3. Soit n un entier naturel non nul.
+∞
P
(a) Justifier : P (X1 − X2 ) = P (X1 = k)P (X2 = n + k)
k=1

(b) En déduire : P (∆ = n) = 2 1+q


pq n

4. (a) Montrer que ∆ admet une espérance E(∆) et la calculer.


(b) Montrer : E((X1 − X2 )2 ) = 2V (X1 ). En déduire que ∆ admet une variance V (∆)
et la calculer.
5. Montrer que l’événement A est égal à l’événement (X3 ) > ∆.
+∞
P
6. (a) En déduire : P (A) = P (∆ = k)P (X3 > k).
k=0
(b) Exprimer P (A) à l’aide de p et q.

3
Chapitre 5

Convergence

Dans ce chapitre, nous étudierons quelques résultats limites de la théorie des probabilités.
Il est intéressant de savoir “approcher” une loi donnée dont le paramètre, n, est grand par une
loi d’un calcul plus accessible.
En termes mathématiques, “approcher pour n grand” revient à rechercher s’il existe une
limite, lorsque n → +∞, puis de dégager quelques théorème importants de convergence de lois
classiques.
Nous nous intéresserons à deux formes de convergence : la convergence en probabilité et la
convergence en loi.

5.1 Convergence en probabilité


Soit (Xn)n∈N une suite de v.a.r. sur (Ω, B, P ), et X une autre v.a.r..

Définition 5.1.1. On dit que Xn converge en probabilité (ou converge stochastiquement) vers
X, et on note Xn −
→ X, si :
P

∀ > 0, lim P (|Xn − X| ≥ ) = 0.


n→+∞

Remarque 5.1. il est équivalent de dire

lim P (|Xn − X| ≥ ) = 0
n→+∞

et
lim P (|Xn − X| ≤ ) = 1
n→+∞

La proposition suivant nous donne une condition suffisante pour avoir la convergence en
probabilité vers une constante.

47
Proposition 5.1.1. Soit (Xn ) une suite de v.a.r. dans L2 . Si on a

lim E(Xn ) = a et lim V (Xn ) = 0


n→+∞ n→+∞

alors
P
Xn −
→a

5.1.1 Inégalité de Bienaymé-Tchebychev


Théorème 5.1.1 (Inégalité de Markov). Soit X une v.a.r. discrète ou à densité sur (Ω, B, P )
telle que X(Ω) ⊂ R+ , admettant une espérance non nulle E(X). Alors, pour tout λ ∈ R+ :
1
P (X ≥ λE(X)) ≤ (5.1)
λ
Preuve :

Corollaire 5.1.1. Sous les mêmes hypothèses, pour tout  > 0,

E(X) E(X)
P (X ≥ ) ≤ et P (X > ) ≤
 
Preuve :

Corollaire 5.1.2. Soit X une variable aléatoire (discrète ou à densité) admettant un moment
d’ordre 2. Alors :
E(X 2 )
P (|X| ≥ ) ≤ .
2
Preuve :

Théorème 5.1.2 (Inégalité de Bienaymé-Tchebychev). Soit Y une v.a.r. discrète ou à densité


admettant une espérance m et une variance σ 2 . Alors :

σ2
∀ > 0, P (|Y − m| ≥ ) ≤ (5.2)
2
Preuve : Soit σ > 0, posons X = (Y − m)2 . La variable aléatoire X admet une espérance
et, par définition, E(X) = E((Y − m)2 ) = σ 2 . Par conséquent, d’après l’inégalité de Markov,
on peut écrire pour tout  > 0

2 σ2 2
P (X ≥  ) ≤ 2 (en prenant λ = σ2
)

Or (X ≥ 2 ) = ((Y − m)2 ≥ 2 ) = (|Y − m| ≥ ). CQFD

48
5.1.2 Loi faible des grands nombres
Théorème 5.1.3 (Loi faible des grands nombres). Soit (Xn )n∈N ∗ une suite de v.a.r. (discrètes
ou à densité) mutuellement indépendantes suivant une même loi, ayant une espérance m et une
variance σ 2 . Soit (Zn )n∈N ∗ définie par :
X1 + · · · + Xn
Zn = .
n
Alors (Zn )n∈N ∗ converge en probabilité vers la variable certaine égale à m. Plus précisément :
σ2
∀ > 0, ∀n ∈ N , P (|Zn − m| ≥ ) ≤ 2

(5.3)
n
Preuve :

Théorème 5.1.4 (Théorème d’or de Bernoulli). Soit (Xn )n∈N ∗ une suite de v.a.r. mutuellement
indépendantes suivant toutes une loi de Bernouilli de paramètre p. Soit :
X1 + · · · + Xn
∀n ∈ N ∗ , Zn = .
n
Alors (Zn )n∈N ∗ converge en probabilité vers la v.a.r. certaine égale à p. Plus précisément :
pq 1
∀ > 0, ∀n ∈ N ∗ , P (|Zn − p| ≥ ) ≤ ≤ (5.4)
n2 4n2
Preuve :

Remarque 5.2. Ce résultat est absolument fondamental. En effet, la notion de probabilité


renvoie à la propriété de fréquence statistique, et nous venons de démontrer que la fréquence
statistique converge (en probabilité) vers cette probabilité.

Exercice 5.1. On tire 1000 fois à “pile” ou “face” avec une pièce déséquilibrée dont la proba-
bilité d’obtention de “Pile” est p. On obtient 570 fois “Pile”. Donner un intervalle I tel que la
probabilité que p ∈ I soit supérieure à 0,9.

Remarque 5.3 (Théorème : Une condition suffisante de convergence). Soit (Xn )n∈N une suite
de v.a.r., et X une v.a.r., ayant toutes une espérance et une variance. Si lim E(Xn ) = E(X)
n→+∞
et lim V (Xn − X) = 0, alors (Xn )n∈N converge en probabilité vers X.
n→+∞

5.2 Convergence en loi

5.2.1 Généralité
Nous avons étudié dans la section précédente la notions de convergence en probabilité. Cette
notion est très restrictive car nous avons vu qu’il était nécessaire de connaître la [Link] (i.e.
l’application Xn : Ω → R) pour savoir si celle-ci était “proche” de l’application X.

49
Dans la pratique, Ω n’est souvent qu’imparfaitement connu et Xn repérée par sa loi. On
désire alors savoir si, dans un calcul de probabilité, il est possible de remplacer la loi de Xn par
une loi d’un usage plus commode.

Définition 5.2.1. Soit (Xn )n∈N une suite de v.a.r., et X une v.a.r. On dit que (Xn )n∈N
converge en loi vers X, et on note Xn −
→ X si pour tout x en lequel FX est continu,
L

lim FXn (x) = FX (x). (5.5)


n→+∞

Dans le cas des variables à densité, l’hypothèse de continuité est vérifiée pour tout x de
R. Dans le cas de variables discrètes à valeurs entières, on obtient la reformulation suivante
équivalente :

Définition 5.2.2. Soit (Xn )n∈N une suite de v.a.r., et X une v.a.r.d. On suppose que pour
tout n ∈ N, Xn (Ω) ⊂ Z. On dit que (Xn )n∈N converge en loi vers X si :

∀x ∈ Z, lim P (Xn = x) = P (X = x)
n→+∞

5.2.2 Théorème de la limite centrée


On a vu que deux v.a.r. ont la même loi si et seulement si leurs fonctions de répartition
sont égales. Ainsi, la fonction de répartition est souvent utilisée en pratique afin de démontrer
l’égalité en loi. On est donc amené à définir la convergence en loi comme la convergence des
fonctions de répartition associées.

Théorème 5.2.1 (admis). Soit (Xn )n∈N ∗ une suite de v.a.r. définies sur un même espace
probabilisé (Ω, B, P ), mutuellement indépendantes, de même loi, admettant une espérance m
n
P
et un écart-type σ. Soit pour tout n ∈ N ∗ , Sn = Xk , et Sn∗ la variable centrée réduite
k=1
associée. Alors Sn∗ = et Sn∗ −
→ X, où X N (0, 1).
Sn−nm L

σ n
Rb − t2
En d’autres termes, pour tous réels a < b, lim P (a < Sn∗ ≤ b) = √1 e 2 dt.
n→+∞ 2π a

5.3 Approximation

5.3.1 Approximation d’une loi hypergéométrique par une loi bino-


miale
Théorème 5.3.1. Soit n ∈ N, p ∈]0, 1[ rationnel, p = ab , (a, b) ∈ N 2 . Soit, pour tout k ∈ N ∗ ,
Xk ,→ H(kb, n, p). Alors (Xk )k∈N ∗ converge en loi vers X ,→ B(n, p).

50
La restriction aux valeurs kb du premier paramètre (multiples de b) est motivée par le fait
que la loi hypergéométrique H(N, n, p) n’est bien définie que lorsque N p est entier (pour pouvoir
considérer les coefficients binomiaux). Ainsi, lorsque le premier paramètre devient grand (tout
en assurant cette condition), on se rapproche d’une loi binomiale.
En pratique, on considère qu’on peut approcher une loi hypergéométrique H(N, n, p) par
une loi binomiale B(n, p) si N > 10n.
Signification : Lorsque le nombre de boules de l’urne est très grand, le fait de retirer une
boule de l’urne ne change pas beaucoup la proportion de boules à succès. Ainsi, on est presque
dans le cas d’un tirage avec remise.

5.3.2 Approximation d’une loi binomiale par une loi de Poisson


Théorème 5.3.2. Soit (Xn )n∈N ∗ une suite de v.a.r discrète telles que pour tout n ∈ N ,
Xn ,→ B(n, pn ), où (pn )n∈N ∗ est une suite telle que lim = λ ∈ R+

. Alors (Xn )n∈N ∗ converge
n→+∞
en probabilité vers une v.a.r.d X ,→ P(λ). Cas particulier : ∀n ∈ N, Xn ,→ B(n, nλ ).

En pratique, on considère qu’on peut approcher une loi binomiale B(n, p) par une loi de
Poisson P(np) si n ≥ 30, p ≤ 0, 1 et np ≤ 10.

5.3.3 Approximation d’une loi binomiale par une loi normale


Soit p ∈]0, 1[ et q = 1 − p. Soit pour tout n ∈ N ∗ , Xn ,→ B(n, p). Alors (Xn∗ )n∈N ∗ converge
en loi vers une variable suivant une loi normale centrée réduite.
Ainsi, lorsque n est grand, Xn s’approche d’une loi normale, d’espérance np et de variance
npq.
En pratique, on considère qu’on peut approcher une loi binomiale B(n, p) par une loi
normale N (np, pq) si n ≥ 30, np ≥ 5 et nq ≥ 5.

5.3.4 Approximation d’une loi de Poisson par une loi normale


Soit µ > 0, et soit pour tout n ∈ N ∗ , Xn ,→ P(nµ). Alors (Xn∗ )n∈N ∗ converge en loi vers
une variable suivant une loi normale centrée réduite.
Ainsi, lorsque n est grand, Xn s’approche d’une loi normale, d’espérance et de variance nµ.
Ainsi, pour des paramètres λ = nµ assez grands, une loi P(λ) peut être approchée par une loi
N (λ, λ).
En pratique, on considère qu’on peut approcher une loi de Poisson P(λ)) par une loi
normale N (λ, λ) si λ ≥ 18.

51
Deuxième partie

Statistique

52
Chapitre 1

Les échantillons

Il est généralement impossible de collecter des informations auprès de toute la population


qui fait l’objet de l’étude pour des raisons de coût. On sera donc souvent amené à collecter
l’information auprès d’un sous-ensemble de la population, c’est-à-dire auprès d’un échantillon.
La constitution de l’échantillon est sensiblement différente selon le type d’étude réalisée, les
informations préalables dont l’on dispose. Seulement, tout l’échantillon doit être représentatif
de la population.

1.1 Sélection d’un échantillon par les enquêtes par son-


dage
Faire un sondage, c’est observer un sous-ensemble de la population (l’échantillon) avec
comme objectif d’extrapoler les résultats obtenus dans l’échantillon à la population. cette ex-
trapolation s’effectue au moyen des méthodes de statistique inférentielle (estimation et test).
Dans un sondage, les individus sont l’objet de l’observation et la population étudiée est
l’ensemble de ces individus (ou unité d’échantillonnage).
La taille de la population est notée N et celle de l’échantillonnage est notée n.
n
= taux de sondage
N

53
1.2 Méthodes de sondage

1.2.1 Méthodes empiriques

1.2.2 Méthodes probabilistes


Les méthodes aléatoires ou probabilistes sont celles dans lesquelles chaque individu de la
population concernée a une probabilité connue différente de zéro d’appartenir à l’échantillon ;
cette probabilité est appelée probabilité d’inclusion.

Le sondage aléatoire simple (SAS)

Un sondage est dit aléatoire simple, lorsque tout sous-ensemble de n-individus a une même
probabilité d’être sélectionné. De plus, le tirage de l’échantillon est réalisé sur la base de sondage
toute entière sous regroupement préalable en sous-population. Il s’agit donc d’un simple tirage
de numéro dans une urne. Le tirage peut être avec remise (ou non exhaustif) ou sans remise
(ou exhaustif).

54
Chapitre 2

Notions sur les problèmes de jugement


sur un échantillon

2.1 L’estimation d’un paramètre


La statistique inférentielle constitue un domaine d’étude qui a pour objet d’extrapoler à un
ensemble global (population mère) des résultats obtenus dans l’ensemble étudié (échantillon)
qui est en réalité un sous-ensemble de la population.

2.1.1 Le problème de l’estimation


Le problème de l’estimation se pose dès lors que l’on n’a pas la possibilité de connaître de
façon exacte dans la population la valeur de ce que nous appelons un paramètre inconnu. Nous
désignons ce paramètre par θ et supposons qu’il peut prendre a priori n’importe quelle valeur
dans un espace de paramètre Θ.
Notre problème peut s’engager comme suit : comment peut-on estimer un paramètre θ à
partir de n-observations {X1 , . . . , Xn } formant un échantillon aléatoire simple dont les valeurs
sont notées {x1 , . . . , xn } ?
X1 , . . . , Xn sont des v.a. indépendantes et identiquement distribuées (i.i.d).

Définition 2.1.1. Un n-échantillon aléatoire issu d’une v.a.r. X est un ensemble (X1 , . . . , Xn )
de n v.a.r. indépendantes et de même loi que X.

2.1.2 Définition et propriétés d’un estimateur


Définition 2.1.2. On appelle estimateur de θ, toute fonction des observations noté θ̂n =
h(X1 , . . . , Xn ).

55
θ est une v.a. possédant une loi de probabilité qui dépend en général du paramètre inconnu.
Une fois l’échantillon prélevé, on dispose de n-valeurs observées x1 , . . . , xn , ce qui nous fournira
une valeur h(x1 , . . . , xn ) de θ̂n que nous appelons estimation.

Convergence

L’estimateur θ̂n est dit convergent s’il est “proche” de θ au sens de la convergence en
probabilité : pour tout  > 0,
P (|θ̂ − θ| > ) → 0

Exemple 2.1. Considérons une v.a.r. X représentant le nombre de grippes attrapées par une
personne en un an. On peut supposer que X suit une loi de Poisson de paramètre λ > 0.
Chercher la loi de X, c’est chercher λ, qui n’est autre que l’espérance mathématique de X.
Par conséquent, la Loi des Grands Nombres (LGN) nous indique que Xn est un estimateur
convergent de λ : pour tout  > 0,
1X n
P (| Xi − λ| ≥ ) → 0 (2.1)
n i=1

Grâce à l’inégalité de Chebychev, on peut démontrer le théorème suivant :

Théorème 2.1.1. Soit θ̂n un estimateur de θ. Si l’on a :

lim E(θ̂n ) = θ et lim V (θ̂n ) = 0


n→+∞ n→+∞

alors θ̂n est un estimateur convergent de θ.

Biais d’un estimateur

Définition 2.1.3. Soit θ̂n un estimateur convergent d’un paramètre θ. On appelle biais la
quantité E(θ̂n ) − θ. L’estimateur θ̂n est dit sans biais si E(θ̂n ) = θ, et biaisé sinon.

Exemple 2.2. La moyenne empirique X̂n est un estimateur convergent et sans biais de l’espé-
rance mathématique µ.
Ainsi, si µ désigne la moyenne d’une population et x̄ la moyenne arithmétique d’un échan-
tillon aléatoire simple (EAS) prélevé dans cette dernière. On peut prouver que : E(s2 ) = σ 2 n−1
n

Précision d’un estimateur

Définition 2.1.4. Si θ̂ est un estimateur


q
sans biais de θ, on utilise comme mesure de précision
sa variance V (θ̂) ou son écart-type V (θ̂). Plus V (θ̂) sera petite, plus l’estimateur θ̂ sera
“précis”. Entre deux estimateurs θ1 et θ1 non biaisés, nous aurons donc tendance à choisir le
plus précis des deux.

56
Si θ̂ est biaisé, on utilise comme mesure de précision l’écart quadratique moyen :

EQM (θ̂) = V (θ̂) + (B(θ̂))2

où B(θ̂) est le biais de l’estimateur.

Remarque 2.1. Dans de nombreux cas, V (θ̂) diminue quand n augmente pour devenir très
petit quand n est infiniment grand. Dans ce cas, on dit que l’estimateur est convergent. Il en
est ainsi pour la moyenne x̄ d’un EAS car V (X̄) = n1 σ 2 tend vers zéro quand n devient de +
en + grand.

2.1.3 Estimateur d’une moyenne ou d’une proportion


On considère un n-échantillon (X1 , . . . , Xn ) issu d’une loi de moyenne µ et de variance σ 2 ,
toutes deux inconnues.

1. d’après la LGN, la moyenne empirique X̄n est un estimateur convergent de µ.

2. l’estimateur X̄n est sans biais.

σ2
3. par indépendance : V (X̄n ) = n
,

4. loi de X̄n :

ó si X ∼ N (µ, σ 2 ) alors X̄n N (µ, σ 2 /n)


ó lorsque n est grand, d’après le TCL, la loi de X̄n est approchée par une loi normale
N (µ, σ 2 /n).

L’estimation d’une proportion p est un cas particulier du précédent, au sens où les v.a.r. Xi
considérées sont de Bernoulli de paramètre p.

2.1.4 Estimateur d’une variance


Définition 2.1.5. La variance empirique associée à un n-échantillon (X1 , . . . , Xn ) est définie
par :
1 X n
Sn2 = (Xi − X̄n )2 (2.2)
n − 1 i=1

Définition 2.1.6. Soit (Y1 , . . . , Yn ) un n-échantillon de v.a.r. de loi N (0, 1). On appelle loi du
n
P
chi-deux à n degrés de liberté la loi de la v.a.r. Yi2 et on la note χ2(n)
i=1

Propriété 2.1.1 ((de la variance empirique)). 1. Sn2 est un estimateur convergent de la va-
riance σ 2 .

57
2. Sn2 est sans biais.

3. loi de Sn2 : pas de résultat général. Cependant, si X ∼ N (µ, σ 2 ), alors la v.a.r n−1 2
2 Sn
σn
suit
une loi du chi-deux à n − 1 degrés de liberté χ2(n−1) .

2.2 Intervalle de confiance


Estimer un paramètre θ à partir d’un EAS nous fournit une estimation ponctuelle. Une telle
opération ne nous permet cependant pas de savoir si la valeur observée θ̂ est proche ou non de
la valeur inconnue θ. Afin de prendre en compte cette critique, nous introduisons le concept
d’estimation par intervalle.
Nous allons construire un intervalle [l1 , l2 ] dont les limites dépendent des observations de
l’échantillon et sont choisies de telle manière que cet intervalle va contenir le paramètre θ
inconnu avec une probabilité que l’on se fixe à priori et que l’on choisit habituellement grande.
Cette probabilité est appelée niveau de confiance et est généralement désignée par la notation
(1 − α) où α est un niveau de probabilité habituellement choisi en dessous de 0,10 :

P (l1 ≤ θ ≤ l2 ) = 1 − α

Par construction, les limites l1 et l2 sont des v.a. car elles dépendent des observables. Elles
doivent nous permettre de compléter l’estimation ponctuelle envisagée dans le sous paragraphe
précédent en prenant en compte la loi de probabilité de l’estimateur.

2.2.1 Intervalle de confiance pour la moyenne µ d’une population


normale
Variance σ de la population connue
2
Loi : X̄ ,→ N (µ, σn ) ; X̄−µ

σ/ n
,→ N (0, 1)
Intervalle : Si α est un niveau de probabilité (0 < α < 1) et Z une v.a.r normale centrée
réduite, on peut affirmer que : P (−z1−α/2 ≤ Z ≤ z1−α/2 ) = 1 − α
où z1−α/2 est le quantile d’ordre 1 − α/2 de Z.
Appliquée à la variable définie ci-dessus, cette propriété s’énonce comme suit :

X̄ − µ
P (−z1− α2 ≤ ≤ z1− α2 ) = 1 − α
√σ
n


σ σ
P (X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √ ) = 1 − α
n n

58
L’intervalle définit par ces limites :
σ σ
[l1 ; l2 ] = [x̄ − z1− α2 √ ; x̄ + z1− α2 √ ]
n n

constitue donc un intervalle de confiance pour µ au niveau de confiance 1 − α. Le résultat nous


indique qu’il y a une probabilité égale à 1 − α pour que cet intervalle contienne la vraie valeur
du paramètre inconnu µ.
Le cas le plus classique est celui où on choisit α = 0, 05 pour lequel le quantile d’ordre
1− α
2
= 0, 975 vaut z1− α2 = 1, 96

Variance σ de la population inconnue

En remplaçant σ 2 par son estimateur sans biais ( n−1


n
s2 avec s l’écart-type de l’échantillon),
on a peut montrer que :
x̄ − µ
√ ,→ tn−1
s/ n − 1
où tn−1 est la loi de Student à n − 1 degrés de liberté.
L’IC pour µ au niveau de confiance 1 − α est défini par :
s s
[x̄ − t(n−1;1− α2 ) √ ; x̄ + t(n−1;1− α2 ) √ ]
n−1 n−1

59
Chapitre 3

Notions de test statistique

3.1 Exemple introductif


Lors d’une conférence de presse, le ministre du travail a affirmé après calcul :
H0 : “le salaire moyen m est de 100.000 F par mois”.
Entant que statisticien, vous êtes est chargé(e) de vérifier ces dires au vu d’un échantillon
de la population. On note le salaire X. Des relevés des salaires depuis de nombreuses années
ont permis d’établir que la dispersion des salaires français vaut σ. Vous prélevez un échantillon
aléatoire de taille 100 et calculez la valeur de la moyenne d’échantillonnage x̄.

1. x̄ = 10.000F =⇒ rejet de l’hypothèse du ministre que la véritable moyenne m = E(X)


est de 100.000, étant donné l’écart important existant entre x̄ et la valeur hypothétique
de m.

2. x̄ = 100.100F =⇒ il semble raisonnable d’accepter l’hypothèse du ministre.

3. x̄ = 90.000F ou 110.000F =⇒ la moyenne d’échantillonnage n’est ni très grande ni très


petite par rapport à la valeur hypothétique, de telle sorte que la décision ne s’impose pas
d’elle-même.

le plus souvent, la valeur x̄ ne permet pas de trancher la décision comme dans le dernier cas
(cas 3.). De plus, même lorsqu’elle paraît s’imposer (1. et 2.) on n’est jamais sûr de ne pas être
tombé sur un échantillon ayant très peu de chances de se réaliser.
Comment être sur de prendre la “bonne” décision ? Jamais. Tout au plus, on
peut prendre la décision la plus probable.
Le rôle de la théorie des tests est de nous aider à prendre ce genre de décision.

60
3.2 Principe des tests
Les tests visent à vérifier sur la base d’échantillons si les caractéristiques de telle ou telle
population répondent bien à certaines spécifications appelées hypothèses.
On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ admettant une
densité f (., θ), pour tout θ ∈ Θ. Soit Θ0 et Θ1 deux sous-ensembles de Θ tels que Θ1 ⊂ Θc0 .
L’objectif est de tester une hypothèse H0 : θ ∈ Θ0 dite "hypothèse nulle" contre une autre
H1 : θ ∈ Θ1 dite "hypothèse alternative", c’est à dire, décider si H0 ou H1 est vraie. Les
hypothèses H0 et H1 sont telles que une et une seule est vraie. Un test est alors une règle
de décision qui permet de trancher entre les deux hypothèses en se basant sur l’échantillon
(X1 , . . . , Xn ).
la statistique mathématique propose, pour tester une certaine hypothèse, une “statistique
de test” donnée en mettant en évidence sa distribution probabiliste sous l’hypothèse à tester.
C’est à partir de cette distribution que l’on va définir la règle d’acceptation ou de rejet de
l’hypothèse. Elle sera rejetée si, lors de la mise en oeuvre, la statistique prend une valeur trop
extrême sur la distribution ; et acceptée dans le cas contraire.
Dans un problème de test, l’on peut commettre deux types d’erreur :

Risque de première espèce : C’est le risque encouru en rejetant H0 alors que H0 est vraie.
Ce risque, encore appelé niveau de signification du test, est inévitable du fait que nous
fondons nos jugements sur des échantillons aléatoires pour lesquels des résultats extrêmes
sont toujours possibles.

Risque de deuxième espèce : Ce risque représente celui encouru en rejetant H1 alors que
H1 est vraie.

Définition 3.2.1 (Puissance d’un test). On appelle puissance d’un test la probabilité d’accepter
H1 si H1 est vraie.

La puissance du test caractérise la capacité du test à détecter que l’hypothèse est effective-
ment fausse lorsqu’elle est fausse. C’est le rôle de la stat math de proposer les tests qui soient
les plus puissants possibles.

Etat réel des choses


H0 vraie H1 vraie
H0 acceptée 1−α β
Décision
H0 rejetée α 1−β
L’idéal est de trouver un test qui minimise les deux risques d’erreur en même temps. Dans
la pratique des tests statistiques, l’on utilise l’approche de Neyman Pearson qui consiste à fixer
le risque de première espèce et à minimiser le risque de deuxième espèce sous cette contrainte.

61
Remarque 3.1. Dans l’approche de Neyman-Pearson, la résolution d’un problème de test
d’hypothèses suit les étapes suivantes :

1. Formulation des hypothèses H0 et H1 .

2. Choix du seuil du test α.

3. La statistique de test

4. Détermination de la région critique W : on appelle ainsi l’ensemble des valeurs observées


de la statistique provoquant le rejet de l’hypothèse nulle.

5. Calcul des valeurs critiques pour la statistique de test, c’est-à-dire les valeurs au-delà
desquelles on décide de rejeter l’hypothèse ; ces valeurs découlent du choix du risque de
première espèce.

6. Conclusion du test : rejet ou acceptation de H0 selon que l’on soit ou non dans la région
critique.

7. Calcul de la puissance du test.

La détermination de la région critique W passe par la recherche d’une statistique dont on


connaît la loi sous l’hypothèse H0 . La condition

sup Pθ [W ] = α
θ∈Θ

permet alors de trouver tous les éléments qui entrent dans la constitution de la région critique
W.

Remarque 3.2. En pratique, plutôt que de calculer la région critique en fonction de α, on


préfère donner un seuil critique de α∗ appelée p-value, qui est telle que

ó si α∗ < α, on rejette H0

ó si α < α∗ , on rejette H0

Les logiciels statistiques calculent et présentent les p-valeurs qui sont souvent difficiles à obtenir
sans moyen de calcul approprié.

62
3.3 Exemple de quelques tests classiques

3.3.1 Tests de Student


Soit (X1 , . . . , Xn ) un échantillon issu de la loi normale N (m, σ 2 ). Soit m0 une valeur possible
de m. La moyenne empirique X̄n est un estimateur sans sans biais de m. De plus

σ2 n(X̄n − m)
X̄n ,→ N (m, ) ⇐⇒ ,→ N (0, 1).
n σ
Si l’écart-type σ est inconnu, on le remplace par son estimateur
v
u
u 1 X n
Sn = t (Xi − X̄n )2
n − 1 i=1
On obtient alors √
n(X̄n − m)
,→ T (n − 1)
Sn
qui est la loi de Student à n − 1 degrés de liberté.

H0 : m ≤ m0 contre H1 : m > m0

ó Si σ 2 est connue, la région critique est de la forme

W = {X̄n > lα }.

le test de niveau α, on a :
√ √
n(X̄n − m0 ) n(lα − m0 )
Pm0 (X̄n > lα ) = Pm0 ( > )=α
σ σ
Ainsi √
n(lα − m0 ) σ
= q1−α ⇐⇒ lα = m0 + √ q1−α
σ n
où q1−α est le quantile d’ordre 1 − α de N (0, 1).

ó Si σ 2 est inconnue, la région critique est de la forme



n(X̄n − m0 )
W ={ > lα }.
Sn

n(X̄n − m0 )
Pm 0 ( > lα ) = α.
Sn
Ainsi lα = t1−α,n−1 est le quantile d’ordre 1 − α de T (n − 1).

Exemple 3.1. Un fabricant de pneus prétend que la durée de vie moyenne d’un nouveau type
de pneus est supérieure à 25000 miles sous certaines conditions. Un échantillon aléatoire de
15 pneus est étudié. La moyenne et l’écart-type obtenus sont respectivement de 27000 et 5000
miles. En supposant que la durée de vie d’un pneu est distribuée normalement, peut-on conclure
que l’affirmation du fabricant est valide ?

63
H0 : m ≥ m0 contre H1 : m < m0

La région critique est de la forme

W = {X̄n < lα }

ó Si σ 2 est connu
le test de niveau α, on a :
√ √
n(X̄n − m0 ) n(lα − m0 )
Pm0 (X̄n < lα ) = Pm0 ( < )=α
σ σ
Ainsi √
n(lα − m0 ) σ
= qα ⇐⇒ lα = m0 + √ qα
σ n
où qα est le quantile d’ordre α de N (0, 1).

ó Si σ 2 est inconnue, la région critique est de la forme



n(X̄n − m0 )
W ={ < lα }.
Sn
Le test étant de niveau α, on :

n(X̄n − m0 )
Pm 0 ( < lα ) = α.
Sn
Ainsi lα = tα,n−1 est le quantile d’ordre α de T (n − 1).

Exemple 3.2. Le département de contrôle de la qualité d’une entreprise détermine que le poids
moyen net d’une boîte de céréales ne devrait pas être inférieur à 200 g. L’expérience a montré
que les poids sont approximativement distribués normalement avec un écart-type de 15 g. Un
échantillon de 15 boîtes prélevé aléatoirement sur la ligne de production donne un poids moyen
de 195 g. Cela est-il suffisant pour pouvoir affirmer que le poids moyen des boîtes est inférieur
à 200 g ?

H0 : m = m0 contre H1 : m 6= m0

La région critique est de la forme

W = {|X̄n − θ0 | > lα }

ó Si σ 2 est connue
le test étant de niveau α, on a :
√ √
n(X̄n − m0 ) n
Pm0 (|X̄n − θ0 | > lα ) = Pm0 (| |> lα ) = α
σ σ
64
Ainsi √
n σ
lα = q1− α2 ⇐⇒ lα = √ q1− α2
σ n
et
σ σ σ
|X̄n − θ0 | > √ q1− α2 ⇐⇒ X̄n > m0 + √ q1− α2 ou X̄n < m0 − √ q1− α2 .
n n n

ó Si σ 2 est inconnue, on a :

n(X̄n − m0 )
Pm 0 ( > lα ) = α.
Sn
Ainsi lα = t1− α2 ,n−1 est le quantile d’ordre 1 − α
2
de T (n − 1).

Exemple 3.3. Une entreprise de vente par correspondance demande un montant fixe pour
les frais d’envoi, indépendamment du poids du colis. Une étude réalisée il y a quelques années
a montré que le poids moyen d’un colis était de 17,5 kg avec un écart-type de 3,6 kg. La
comptabilité soupçonne que le poids moyen est maintenant différent de 17,5 kg. Un échantillon
aléatoire de 100 colis est prélevé et fournit un poids moyen de X̄ = 18, 4kg. On suppose que
les poids des colis sont distribués normalement.

3.3.2 Test sur la valeur d’une proportion


On considère un échantillon (X1 , . . . , Xn ) issu d’une loi de Bernouilli B(1, p) et p0 une valeur
possible de p.

Théorème 3.3.1. La région critique du test H0 : p ≤ p0 contre H1 : p > p0 est :


s
p0 (1 − p0 )
W = {X̄n > q1−α + p0 }
n
n
P
1
Démonstration : On montre que X̄n = n
Xi est un estimateur convergent sans biais de
i=1
p. Pour tester H0 : p ≤ p0 contre H1 : p > p0 on peut utiliser la région critique

W = {X̄n > K}.

La constante K est déterminée par l’équation

Pp0 (W ) = α

Grâce au théorème central limite, sous l’hypothèse H0 , pour n assez grand, nous avons le
résultat suivant √
n(X̄n − p0 )
q ,→ N (0, 1).
p0 (1 − p0 )

65
Par suite, nous avons :
√ √
n(X̄n − p0 )
n(K − p0 )
Pp0 (W ) = Pp0 ( q > q ).
p0 (1 − p0 ) p0 (1 − p0 )

Ainsi : √ s
n(K − p0 ) p0 (1 − p0 )
q = q1−α ⇐⇒ K = q1−α + p0 . (3.1)
p0 (1 − p0 ) n

où q1−α est le quantile d’ordre 1 − α de N (0, 1).

Exercice 3.1. Déterminer la région critique du test H0 : p ≥ p0 contre p < p0 et celle de


H0 : p = p0 contre p 6= p0

3.3.3 Test de comparaison de deux échantillons


Soient P1 et P2 deux populations. On étudie un caractère X sur ces deux populations. Le
caractère X a pour espérance m1 et pour variance σ12 dans la population P1 , pour espérance
m2 et pour variance σ22 dans la population P2 . On supposera que le caractère X est distri-
bué selon une loi normale. On dispose de deux échantillons indépendants (X11 , . . . , X1n1 ) et
(X21 , . . . , X2n2 ) issus respectivement de P1 et P2 :

ó (X11 , . . . , X1n1 ) est issu de N (m1 , σ12 )

ó (X21 , . . . , X2n2 ) est issu de N (m2 , σ22 )

Dans cette section, on comparera les moyennes et les variances des deux échantillons. Les
moyennes empiriques, variances empiriques modifiées des deux échantillons sont notées respec-
tivement :

1 X nk
X̂k = Xki
nk i=1
1 X nk
Sk2 = (Xki − X̂k )2 , k = 1, 2.
n − 1 i=1
Exemple 3.4. Deux groupes d’étudiants de tailles respectives n1 = 25 et n2 = 31 ont suivi le
même cours de statistique et passe le même examen. Les moyennes et écarts-types empiriques
des notes obtenues dans les deux groupes sont respectivement :

Moyenne Variance
Groupe 1 12,8 3,4
Groupe 2 11,3 2,9

66
On suppose que les notes sont reparties dans les deux groupes selon des lois normales et
qu’elles sont toutes indépendantes. Peut-on considérer que le premier groupe est meilleur que
le deuxième ?
La procédure à suivre consiste à tester d’abord l’égalité des variances, puis l’égalité des
moyennes.

Test de Fisher de comparaison des variances

Test de Student de comparaison des moyennes

67
ANNEXES

68
Fonction de répartition de la loi normale centrée réduite
(probabilité F(z) de trouver une valeur inférieure à z)

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

Table pour les grandes valeurs de z


z 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9
F(z) 0,998650 0,999032 0,999313 0,999517 0,999663 0,999767 0,999841 0,999892 0,999928 0,999952
z 4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9
F(z) 0,999968 0,999979 0,999987 0,999991 0,999995 0,999997 0,999998 0,999999 0,999999 1,000000

Nota. La table donne F(z) pour z positif. Pour z négatif, il faut prendre le complément à l’unité de la valeur lue
dans la table. Exemple : F(-1,37) = 1 - F(1,37) =1 - 0,9147 = 0,0853.

1
Table de la loi de Student
Valeurs de T ayant la probabilité P d’être dépassées en valeur absolue

f(t)

-P -P
2 2

-t 0 t

ν P =0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,05 0,02 0,01
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032
6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169

11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106
12 0,128 0,260 0,395 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947
16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845

21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750

∞ 0,126 0,253 0,385 0,524 0,674 0,842 1,036 1,282 1,645 1,96 2,326 2,576

Nota. ν est le nombre de degrés de liberté.


Le quantile d’ordre 1 − α2 se lit dans la colonne P = α.
Le quantile d’ordre 1 − α se lit dans la colonne P = 2α.

2
Examen No 1
Statistique Inférentielle (AD2 / 2017-2018)
École Nationale Supérieure de Statistique et d’Économie Appliquée (ENSEA-ABIDJAN)
Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û Û
Durée : 2 heure 30
Note : Documents non autorisés

Exercice 1. Énoncer la loi faible des grands nombres puis la démontrer.

Exercice 2. Soit X et Y deux variables aléatoires indépendantes de lois respectives :


1
fX (x) = e−x 1]0,∞[ (x), fY (y) = y 2 e−y 1]0,∞[ (y)
2
On pose S = X + Y et U = X
Y

1. Déterminer la loi du couple (S,U) .


2. Déterminer la loi marginale de U .
3. S et U sont-elles indépendantes ?

Exercice 3. λ et p désignent deux réels tels que λ > 0 et 0 < p < 1. On considère le couple
(X, Y ) à valeurs dans IN 2 de loi définie par :

λn e−λ pk (1 − p)n−k
P (X = n ∩ Y = k) = , si0 ≤ k ≤ n
k!(n − k)!

P (X = n ∩ Y = k) = 0, sinon

1. Vérifier que la relation ci-dessus définit bien une loi de probabilité sur IN 2 .
2. Déterminer la loi de la variable X, puis celle de Y . Les variables X et Y sont-elles
indépendantes ?
3. Déterminer la loi conditionnelle de Y sachant X = n.
4. Soit Z la variable aléatoire définie par Z = X − Y . Déterminer la loi de Z.
5. Les variables Y et Z sont-elles indépendantes ?

Exercice 4. Le gardien d’un immeuble détient un trousseau constitue des clés de m apparte-
ments de sa résidence. Dans ce trousseau il y a une et une seule clé par appartement et elles sont
indistinctes au toucher. Une nuit d’orage, l’électricité étant coupée, Monsieur Diakité rentre
chez lui ayant perdu ses clés ; il demande au gardien de lui ouvrir sa porte.
1. Le gardien essaie une clé au hasard ; si elle n’ouvre pas la porte, il la remet dans le
trousseau et réessaie avec une clé prise au hasard dans le trousseau complet ; et ainsi de
suite jusqu’à ce qu’il ouvre la porte (ou pas).
(a) Quelle est la probabilité p que le gardien ouvre la porte du premier coup ?

1
(b) Quelle est la probabilité que le gardien ouvre la porte au quatrième essai ?
(c) Quelle est la probabilité qu’il fasse au moins 50 essais ?
(d) Quelle est la probabilité que le gardien n’ouvre jamais la porte ?
2. On suppose maintenant que le gardien ne remet pas dans le trousseau les clés essayées.
Donnez la loi de probabilité du nombre d’essais nécessaires pour ouvrir la porte de Mon-
sieur Diakité ainsi que son espérance mathématique et sa variance.

Bonne composition !

2
Bibliographie

[1]

[2]

[3]

[4]

73

Vous aimerez peut-être aussi