0% ont trouvé ce document utile (0 vote)
75 vues128 pages

Cours de Probabilités et Statistiques 2023

Ce document présente un cours sur les probabilités et statistiques pour les étudiants de 3e année en informatique et électronique. Il couvre des prérequis en théorie de la mesure, des variables aléatoires, des méthodes d'échantillonnage, ainsi que des concepts d'estimation et de tests d'hypothèses. L'utilisation de logiciels statistiques comme R est également abordée pour des applications pratiques.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
75 vues128 pages

Cours de Probabilités et Statistiques 2023

Ce document présente un cours sur les probabilités et statistiques pour les étudiants de 3e année en informatique et électronique. Il couvre des prérequis en théorie de la mesure, des variables aléatoires, des méthodes d'échantillonnage, ainsi que des concepts d'estimation et de tests d'hypothèses. L'utilisation de logiciels statistiques comme R est également abordée pour des applications pratiques.

Transféré par

Yavo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ESIREM

Année universitaire 2023-2024


Informatique/Électronique 3e année

Probabilités et Statistiques

Arnaud Rousselle
[email protected]
Préambule

Ces notes et le cours qui leur est associé ont pour objectifs de fournir aux lecteurs et
étudiants qui le suivront un point d’entrée à l’étude des méthodes statistiques courantes et
les prérequis probabilistes nécessaires pour comprendre celles-ci. Elles suivent la structure des
cours et ouvrages classiques de référence en la matière à l’instar de [1, 4, 5, 7–9, 11, 14, 15].
Ces notes ne prétendent pas à l’exhaustivité et leur lecture à vocation, en y facilitant l’accès,
à être complétée par celle d’éléments de ces ouvrages de référence ou plus généralement
de l’abondante littérature probabiliste et statisticienne. Ainsi, elles doivent permettre aux
lecteurs et étudiants d’acquérir une certaine autonomie pour étoffer leurs connaissances en
statistique afin de répondre à des problèmes concrets et pratiques qu’ils pourront rencontrer
dans le cadre de leurs futurs stages et emplois.
Les premiers chapitres fournissent des prérequis probabilistes aux études statistiques et
sont complétés par une liste de lois usuelles en Appendice A. Plus précisément, le Chapitre
1 donne des éléments de la théorie de la mesure et de l’intégration nécessaires à l’introduc-
tion et à l’étude des variables aléatoires et de leur comportement asymptotique faite dans
les Chapitres 2 à 4. Le Chapitre 5 introduit le cadre général de l’échantillonnage statistique.
Le Chapitre 6 est dédié à l’estimation ponctuelle paramétrique. On y expose les méthodes
classiques de construction des estimateurs et d’analyse de leur qualité de façon assez dé-
taillée. Le Chapitre 7 introduit les concepts de tests d’hypothèses dans le cadre paramétrique,
basés en grande partie sur les estimateurs du chapitre précédant, et présente des outils de
comparaison de tests de façon un peu plus succincte. Une ouverture possible est d’étudier
également les tests d’hypothèses non paramétriques auxquels il est fait allusion. Le Chapitre
8 est consacré à l’estimation par intervalle ou région de confiance pour les paramètres, en
se restreignant, par souci de simplicité et de brièveté, au cas unidimensionnel. Les méthodes
classiques de construction d’intervalles de confiance et la dualité avec les tests d’hypothèses
y sont présentées. Le temps étant limité, les notions de modèles de régression (linéaires ou
logistiques) ne pourront être présentées durant ce cours et sont absentes de ces notes. Elles
restent néanmoins cruciales et sont certainement celles qui pourrait être étudiées en priorité
par un lecteur ou étudiant désireux d’étoffer ces connaissances statistiques après ce cours. Par
ailleurs, un des objectifs de ce cours étant de développer les compétences en statistiques à des
fins d’applications sur des situations concrètes, avec des données de grande taille, l’utilisation
de logiciels ou langages adaptés aux statistiques doit être abordée. Dans le cadre de ce cours,
nous utiliserons R (évoqué brièvement en Appendice B), en particulier lors des dernières
séances de TD. Aussi, les domaines d’application des lois usuelle décrits dans l’Appendice
A se révéleront forts utiles dans l’optique d’application en permettant le choix de modèles
cohérents et adaptés au contexte.
Finalement, j’adresse mes plus sincères remerciement à Ioannis Iakovoglou et Karine
Serier pour leur relecture attentive et leurs remarques avisées qui ont permis d’améliorer la

i
qualité de ces notes.

ii
Table des matières

1 Éléments de la théorie de la mesure et de l’intégration 1


1.1 Tribus, espaces mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Mesures et probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Ensembles négligeables et la notion de µ-presque partout . . . . . . . . . . . 4
1.4 Applications mesurables, mesures images . . . . . . . . . . . . . . . . . . . . . 4
1.5 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Variables aléatoires 9
2.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Fonction quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Quantiles et médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Espérance et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Fonction génératrice des moments . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Inégalités classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.1 Inégalité de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.2 Inégalité de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.3 Inégalité de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.4 Inégalité de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.5 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.6 Inégalité de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.7 Inégalité de Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Simulation de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Couples, n-uplets et familles de variables aléatoires 23


3.1 Fonction de répartition, lois marginales, probabilités et densités conjointes . . 23
3.2 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4 Espérance, variance, covariance, corrélation linéaire . . . . . . . . . . . . . . . 27
3.5 Sommes de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6 Lois normales multivariés, vecteurs gaussiens . . . . . . . . . . . . . . . . . . 31
3.7 Familles exponentielles de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.7.1 Famille des lois de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7.2 Famille des lois binomiales avec n connu . . . . . . . . . . . . . . . . . 34
3.7.3 Famille des lois géométriques . . . . . . . . . . . . . . . . . . . . . . . 34
3.7.4 Famille des lois de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 34

iii
TABLE DES MATIÈRES

3.7.5 Famille des lois binomiales négatives avec r connu . . . . . . . . . . . 35


3.7.6 Famille des lois exponentielles . . . . . . . . . . . . . . . . . . . . . . . 35
3.7.7 Famille des lois gamma avec r connu . . . . . . . . . . . . . . . . . . . 35
3.7.8 Famille des lois beta avec p connu . . . . . . . . . . . . . . . . . . . . 35
3.7.9 Famille des lois beta avec q connu . . . . . . . . . . . . . . . . . . . . 35
3.7.10 Famille des lois beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.7.11 Famille des lois normales avec m connu . . . . . . . . . . . . . . . . . 36
3.7.12 Famille des lois normales avec σ 2 connu . . . . . . . . . . . . . . . . . 36
3.7.13 Famille des lois normales . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.7.14 Famille des lois de Pareto avec a connu . . . . . . . . . . . . . . . . . 37

4 Modes de convergence de variables aléatoires, théorèmes limites 39


4.1 Modes de convergence de variables aléatoires . . . . . . . . . . . . . . . . . . 39
4.1.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3 Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.5 Liens entre les modes de convergence . . . . . . . . . . . . . . . . . . . 40
4.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.1 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . 41

5 Principes fondamentaux de l’échantillonnage 43


5.1 Généralités et approche empirique . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 Statistiques d’ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Cas des lois mères gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 46

6 Estimation paramétrique ponctuelle 49


6.1 Cadre de l’estimation paramétrique ponctuelle . . . . . . . . . . . . . . . . . 49
6.2 Méthodes classiques de construction d’estimateurs . . . . . . . . . . . . . . . 51
6.2.1 Méthode de substitution . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.2.3 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . 53
6.2.4 Approche bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Analyse des estimateurs et choix d’un estimateur . . . . . . . . . . . . . . . . 56
6.3.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.3.2 Risque quadratique ou erreur quadratique moyenne . . . . . . . . . . . 57
6.3.3 Modèles et estimateurs réguliers . . . . . . . . . . . . . . . . . . . . . 59
6.3.4 Score, information de Fisher et borne de Cramer-Rao . . . . . . . . . 60
6.3.5 Exhaustivité, minimalité . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.3.6 Analyse asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

7 Tests d’hypothèses 69
7.1 Cadre et généralités sur tests d’hypothèses . . . . . . . . . . . . . . . . . . . . 69
7.1.1 Puissance d’un test et erreurs . . . . . . . . . . . . . . . . . . . . . . . 70
7.1.2 Niveau et seuil d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.1.3 Statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

iv
TABLE DES MATIÈRES

7.1.4 p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Construction de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2.1 Tests du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . 71
7.2.2 Tests du rapport de vraisemblance généralisé . . . . . . . . . . . . . . 73
7.2.3 Tests bayésiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.3 Comparaison et analyse des tests . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.1 Tests UPP et UPPSB . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.2 Cas des tests entre deux hypothèses simples . . . . . . . . . . . . . . . 76
7.3.3 Modèles à rapport de vraisemblance monotone . . . . . . . . . . . . . 78
7.3.4 Cas des tests avec hypothèses composites . . . . . . . . . . . . . . . . 79
7.4 Mise en œuvre d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.5 Quelques tests usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.5.1 Quelques Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . 83
7.5.2 Test du Khi-2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . 87
7.5.3 Test du Khi-2 d’adéquation à une loi . . . . . . . . . . . . . . . . . . . 88
7.5.4 Voir aussi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

8 Estimation par intervalles ou régions de confiance 91


8.1 Estimation par intervalles de confiance de niveau exact ou par excès . . . . . 91
8.2 Estimation par intervalles de confiance asymptotiques . . . . . . . . . . . . . 93
8.3 Approche bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4 Correspondance entre intervalles de confiance et tests . . . . . . . . . . . . . 94
8.5 Bases pour quelques intervalles de confiance usuels . . . . . . . . . . . . . . . 95
8.5.1 IC pour une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.5.2 IC sur la différence des moyennes de deux échantillons gaussiens . . . 96
8.5.3 IC pour la variance d’un échantillon gaussien . . . . . . . . . . . . . . 97
8.5.4 IC pour le rapport de variances de deux échantillons gaussiens . . . . 97
8.5.5 IC pour une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . 97

A Lois usuelles 99
A.1 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
A.1.4 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.1.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A.1.6 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1.7 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1.8 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.2 Lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.1 Loi uniforme continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.3 Loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
A.2.4 Loi beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2.5 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2.6 Loi normale multidimensionnelle . . . . . . . . . . . . . . . . . . . . . 108
A.2.7 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

v
TABLE DES MATIÈRES

A.2.8 Loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109


A.2.9 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
A.2.10 Loi de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.2.11 Loi de Gumbel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.2.12 Loi de Fréchet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
A.2.13 Loi du Khi-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
A.2.14 Loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
A.2.15 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

B Quelques mots sur R 115


B.1 Création, lecture et sauvegarde de données . . . . . . . . . . . . . . . . . . . . 115
B.2 Extraction de donnée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.3 Opération de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.4 Fonctions mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
B.5 Fonctions probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B.6 Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B.7 Programmation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Bibliographie 121

vi
Chapitre 1

Éléments de la théorie de la mesure


et de l’intégration

Dans ce chapitre, on donne quelques notions de la théorie de la mesure et de l’intégration


nécessaires à la définition formelle des variables aléatoires puis à l’analyse statistique dans
ce cours. Ces variables aléatoires (v.a.), généralement représentées par une lettre majuscule
(X, Y ,...), vont permettre d’observer numériquement des phénomènes aléatoires issus d’une
expérience aléatoire sur un ensemble fondamental (ou des possibles) Ω. Le lecteur désireux
de plus amples détails pourra par exemple consulter les premiers chapitres de [4] ou de [9].

1.1 Tribus, espaces mesurables


Définition 1.1. Soit Ω un ensemble et P(Ω) l’ensemble des parties de Ω.
Un sous-ensemble A de P(Ω) est appelé tribu sur Ω si :
1. Ω ∈ A,
2. A est stable par passage au complémentaire :

A ∈ A =⇒ Ac := Ω \ A ∈ A,

3. A est stable par réunion finie ou dénombrable : pour I fini ou dénombrable, on a


[
(Ai )i∈I ⊂ A =⇒ Ai ∈ A.
i∈I

Le couple (Ω, A) est alors appelé espace mesurable.

Exemple 1.1. Soit Ω un ensemble.


1. La tribu triviale ou grossière sur Ω est A = {∅, Ω}.
2. La tribu discrète sur Ω est B = P(Ω).
3. Soit Ω = R. Le sous-ensemble

C = {]a; b[: −∞ ≤ a < b ≤ +∞}

de P(Ω) n’est pas une tribu sur R puisqu’il n’est pas stable par passage au complémen-
taire.

1
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
Remarque 1.1. Dans l’exemple précédent, la tribu B est plus fine que la tribu A au sens où
B ⊃ A. En fait, parmi toutes les tribus sur Ω, la tribu discrète la plus fine alors que la tribu
trivial est la moins fine.

Exercice 1.1.
1. Montrer que l’intersection de deux tribus A et B sur Ω est une tribu.
2. L’union de deux tribus A et B sur Ω est-elle toujours une tribu ? Justifier.

Définition 1.2. Soit E un sous-ensemble de P(Ω).


La tribu engendrée par E dans Ω est l’intersection de toutes les tribus sur Ω contenant E.
Elle n’est autre que la tribu la moins fine sur Ω contenant E et est notée σ(E).

Lorsque Ω = R, on appelle tribu borélienne sur R et on note B(R) la tribu engendrée par

C = {]a; b[: −∞ ≤ a < b ≤ +∞}

(soit encore par les ouverts de R). De manière analogue, la tribu borélienne B(Rd ) sur Rd
est la tribu engendrée par les (pavés) ouverts de Rd . On montre qu’elle coïncide avec la tribu
produit B(R) ⊗ · · · ⊗ B(R). Sauf mention explicite du contraire, R et Rd seront munis de
leurs tribus boréliennes dans ce cours.

1.2 Mesures et probabilités


Définition 1.3. Soit (Ω, A) un espace mesurable.
On appelle mesure (positive) toute application µ de A dans R+ ∪ {+∞} telle que :
1. µ(∅) = 0,
2. [σ-additivité] pour toute famille (Ai )i∈I ⊂ A, avec I fini ou dénombrable et Ai ∩Aj = ∅
dès que i ̸= j : !
[ X
µ Ai = µ(Ai ).
i∈I i∈I

S’il existe une suite exhaustive (An )n∈N ⊂ A de Ω (i.e. telle que ∪n∈N An = Ω) vérifiant
µ(An ) < +∞ pour tout n ∈ N, µ est dite σ-finie.
Si µ(Ω) = 1, µ est appelé mesure de probabilité ou probabilité.

Remarque 1.2.
1. Si µ est une probabilité alors µ est σ-finie.
2. Les mesures de probabilités sont fréquemment (voire généralement) notées P.

Définition[-Théorème] 1.4. Soient µ une mesure σ-finie sur (Ω, A) et ν une mesure σ-finie
sur (E, B). Alors, une unique mesure sur (Ω × E, A ⊗ B) notée µ ⊗ ν vérifie, pour tout A ∈ A
et B ∈ B :
µ ⊗ ν(A × B) = µ(A) × ν(B).
Cette mesure est appelée mesure produit de µ par ν et est σ-finie.

Remarque 1.3.

2
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
1. Si µ et ν sont des probabilités, il en est de même pour µ ⊗ ν.
2. La tribu A ⊗ B apparaissant dans la Définition-Théorème précédente est la tribu produit
engendrée par les pavés A × B, A ∈ A, B ∈ B.

Exemple 1.2.
1. [Pile ou face] Soit Ω = {P, F } (P pour « pile » et F pour « face ») muni de la
tribu discrète. L’application µ : A −→ R+ ∪ {+∞} définie par µ(A) = Card(A)/2 est
une probabilité. Elle modélise la situation correspondant au cas du tirage d’une pièce
équilibrée.
2. [Masse de Dirac] Soit (Ω, A) un espace mesurable et ω ∈ Ω. L’application de A dans
R+ ∪ {+∞}
δω : A 7−→ 1ω∈A
est une probabilité sur Ω appelée masse de Dirac en ω.
3. [Mesure de comptage sur N] Munissons N de sa tribu discrète. L’application définie
par X
µc : A 7−→ δn (A)
n∈N
est une mesure σ-finie (mais pas de probabilité) sur N appelée mesure de comptage sur
N.
4. [Mesure de Lebesgue] On montre qu’il existe une unique mesure sur R (muni de sa
tribu borélienne) telle que µ(]a; b[) = b − a. Cette mesure jouera un rôle important dans
la théorie de l’intégration et l’étude des variables aléatoires continues. Sa construction
est, pour autant, en dehors des objectifs de ce cours. Elle est notée λ et appelée mesure
de Lebesgue sur R. La mesure λ ⊗ · · · ⊗ λ (d fois) est la mesure de Lebesgue sur Rd et
donne pour masse à un pavé son volume.

Définition 1.5. Si A est une tribu sur Ω, le couple (Ω, A) est appelé un espace mesurable.
Si, de plus, µ est une mesure (resp. probabilité) sur (Ω, A) le triplet (Ω, A, µ) est appelé
un espace mesuré (resp. probabilisé).
La proposition suivante liste les principales propriétés des mesures de probabilité découlant
directement de leur définition (et restant valables pour les mesures positive à l’exception du
premier point).
Proposition 1.1. Soient (Ω, A, P) un espace probabilisé.
On a :
1. [passage au complémentaire] P [Ac ] = 1 − P [A] ;
2. [croissance] si A ⊂ B, alors P [A] ≤ P [B] ;
3. [σ-sous-additivité] pour toute famille (Ai )i∈I ⊂ A, avec I fini ou dénombrable :
!
[ X
P Ai ≤ P(Ai );
i∈I i∈I

4. [inclusion-exclusion]
n n
!
[ X X
P Ai = (−1)k+1 P(Ai1 ∩ · · · ∩ Aik );
i=1 k=1 1≤i1 <···<ik ≤n

3
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
5. si (Ai )i∈N ⊂ A est croissante (i.e. Ai ⊂ Ai+1 pour tout i ∈ N),
!
[
P Ai = lim P(Ai );
i→+∞
i∈N

6. si (Ai )i∈N ⊆ A est décroissante (i.e. Ai ⊇ Ai+1 pour tout i ∈ N),


!
\
P Ai = lim P(Ai ).
i→+∞
i∈N

1.3 Ensembles négligeables et la notion de µ-presque partout


Une mesure µ sur (Ω, A) peut donner une masse 0 à d’autres ensembles que l’ensemble
vide. On dit qu’un (sous-)ensemble de A est µ-négligeable ou plus simplement négligeable
s’il existe B ∈ A tel que A ⊂ B et µ(B) = 0. On dira qu’une propriété est vraie µ-presque
partout (µ-p.p.) si l’ensemble sur lequel elle est fausse est négligeable. Ces notions permettent,
en particulier, d’affaiblir les hypothèses de certains résultats en ne les exigeant seulement µ-
p.p. et non ponctuellement. Lorsque µ est une mesure de probabilité, on dit qu’un événement
A ∈ A a lieu µ-presque sûrement (µ-p.s.) lorsque son complémentaire est négligeable, soit
encore lorsque µ(A) = 1.

1.4 Applications mesurables, mesures images


Définition 1.6. Soient (Ω, A) et (E, B) deux espace mesurables.
On dit qu’une application f de Ω dans E est mesurable (pour A et B) si pour tout B ∈ B,
l’image réciproque de B par f :

f −1 (B) := {ω ∈ Ω : f (ω) ∈ B}

appartient à A.

Exemple 1.3. Soit A ⊂ Ω et 1A : Ω 7→ R l’indicatrice de A. Il apparaît clairement que 1A


est mesurable si, et seulement si, A ∈ A.

Remarque 1.4. Les fonctions rencontrées dans ce cours seront (comme presque toujours dans
la pratique) mesurables. Il est toutefois possible de construire des fonctions non mesurables
(par exemple, l’indicatrice de l’ensemble de Vitali) en utilisant notamment l’axiome du choix.

Exercice 1.2. [⋆] Montrer que toute fonction continue de R dans R est mesurable.

Définition[-Théorème] 1.7. Soient (Ω, A, µ) un espace mesuré, (E, B) un espace mesurable


et f une application mesurable de Ω dans E. Alors, l’application

µf : B −→ R+ ∪ {+∞}
 
B 7−→ µ f −1 (B)

définit une mesure sur (E, B) appelée mesure image de µ par f .

4
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
1.5 Intégration
Une théorie de l’intégration peut être développée à partir des notions introduites précé-
demment. Elle permet d’intégrer des fonctions mesurables de (Ω, A, µ) dans R (ou Rd muni
de sa tribu borélienne). Cette approche permet d’intégrer des fonctions qui ne sont pas in-
tégrables au sens de Riemann et de traiter de façon unifiée l’intégration par rapport à des
mesures de natures très différentes telles que la mesure de comptage ou la mesure de Lebesgue.
Nous référons par exemple au Chapitre 2 de [4] ou au plus technique Chapitre 5 de [2] pour
plus de détails.
Globalement, pour définir l’intégrale sur Ω, on commence par imposer que l’intégrale de
l’indicatrice d’un ensemble mesurable A ∈ A ne soit autre que sa mesure :
Z
1A d µ = µ(A).

Dans un second temps, on étend naturellement cette définition aux fonctions étagées positives,
i.e. de la forme : n X
f= ai 1Ai , Ai ∈ A, ai ≥ 0,
i=1
par
Z n
X
f dµ = ai µ(Ai ).
i=1
Cette extension est guidée par la volonté de garantir la linéarité de l’intégrale. Ensuite, pour
une fonction mesurable positive f , on prolonge la définition par approximation :
Z Z 
f d µ = sup g d µ : g étagée positive telle que g ≤ f .
R
Finalement, pour f mesurable quelconque, on dira que f est intégrable si |f | d µ < +∞.
Dans ce cas, en écrivant f sous la forme f = f + − f − où f + = max(f, 0) et f − = max(−f, 0),
on pose : Z Z Z
f dµ = f+ d µ − f − d µ.

Cette approche se révélant particulièrement fructueuse pour établir des résultats dans cette
théorie, elle est appelée par certains auteurs « méthode standard ».
On définit l’intégrale de f sur B ∈ A par,
Z Z
f dµ = f 1B d µ.
B

Il est à noter que pour les fonctions intégrables en ce sens par rapport à la mesure de
Lebesgue et au sens de Riemann, les valeurs des intégrales coïncident. Toutefois, l’intégrale
de Lebesgue « n’est pas sensible à l’ordre des bornes » lorsque l’on intègre sur un intervalle.
Par exemple, pour la fonction constante égale à 1, on a au sens de l’intégrale de Lebesgue
Z
1dx = 5
[0,5]

et au sens de l’intégrale de Riemann


Z 5 Z 0
1dx = 5 mais 1 d x = −5
0 5

5
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
L’intégration par rapport à la mesure de comptage µc sur un ensemble discret D corres-
pond, quand à elle, à des sommes et séries indexées par cet ensemble :
Z X
f d µc = f (x).
D x∈D
R
Par exemple, si µc est la mesure de comptage sur N, l’intégrale N f d muc n’est autre que la
série X
f (n).
n∈N

Listons maintenant les principales propriétés de cette intégrale.

Proposition 1.2. Soit (Ω, A, µ) un espace mesuré, f, g intégrables et α, β ∈ R.


1. [linéarité] On a : Z Z Z
(αf + βg) d µ = α f dµ + β g d µ.
R R
2. Si g ≤ f µ-p.p., alors gdµ ≤ f d µ.
R R
3. Si f ≥ 0 µ-p.p. et A ⊂ B, alors Af dµ ≤ B f d µ.
R
4. Si µ(B) = 0, alors B f d µ = 0.
R
5. Si f = 0 µ-p.p. sur B, alors B f d µ = 0.
R
6. Si f ≥ 0 µ-p.p. sur B ∈ A et B f d µ = 0, alors f = 0 µ-p.p. sur B.
7. [Théorème de convergence monotone de Beppo Levi] Si (fn )n est une suite
croissante de fonctions mesurables positives convergeant ponctuellement vers f , alors f
est mesurable et Z Z
lim fn d µ = f d µ.
n→∞

8. [Lemme de Fatou] Si (fn )n est une suite de fonctions mesurables positives, alors
Z Z
lim inf fn d µ ≤ lim inf fn d µ.
n→∞ n→∞

9. [Théorème de convergence dominée de Lebesgue] Si (fn )n est une suite de


fonctions mesurables convergeant ponctuellement vers f et s’il existe une fonction µ-
intégrable g telle que |fn | ≤ g alors, f est µ-intégrable et
Z Z
lim fn d µ = f dµ
n→∞

Mentionnons maintenant un résultat fort utile pour l’étude des variables aléatoires.

Théorème 1.1 (Théorème de transport). Soit f une application mesurable de (Ω, A, µ) dans
(E, B) et φ mesurable de (E, B) dans (R, B(R)) positive ou µf -intégrable. Alors,
Z Z
φ d µf = φ ◦ f d µ.
E Ω

Pour terminer ce chapitre, donnons deux résultat permettant l’interversion d’intégrales.

6
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
Théorème 1.2 (Théorème de Fubini-Tonelli (ou Fubini « positif »)). Soient (Ω, A, µ) et
(E, B, ν) deux espaces mesurés avec µ et ν σ-finies et (Ω × E, A ⊗ B, µ ⊗ ν) l’espace produit.
Si f : Ω × E −→ R+ ∪ {+∞} est A ⊗ B-mesurable, alors
Z
x 7−→ f (x, y) d ν(y)
E

est A-mesurable et Z
y 7−→ f (x, y) d µ(x)

est B-mesurable. Dans ce cas, on a :
Z Z Z  Z Z 
f (x, y) d µ ⊗ ν(x, y) = f (x, y) d ν(y) d µ(x) = f (x, y) d µ(x) d ν(y).
Ω×E Ω E E Ω

Théorème 1.3 (Théorème de Fubini). Soient (Ω, A, µ) et (E, B, ν) deux espaces mesurés
avec µ et ν σ-finies et (Ω × E, A ⊗ B, µ ⊗ ν) l’espace produit.
Si f : Ω × E −→ R est µ ⊗ ν-intégrable, alors
Z
x 7−→ f (x, y) d ν(y)
E

est µ-intégrable et Z
y 7−→ f (x, y) d µ(x)

est ν-intégrable. Dans ce cas, on a :
Z Z Z  Z Z 
f (x, y) d µ ⊗ ν(x, y) = f (x, y) d ν(y) d µ(x) = f (x, y) d µ(x) d ν(y).
Ω×E Ω E E Ω

Remarque 1.5. Dans les deux résultats précédents, les fonctions


Z Z
x 7−→ f (x, y) d ν(y) et y 7−→ f (x, y) d µ(x)
E Ω

sont à valeurs réelles µ-p.p. et ν-p.p. respectivement.

7
Chapitre 2

Variables aléatoires

Définition 2.1. Soit (Ω, A, P) un espace probabilisé.


On appelle variable aléatoire (v.a.) toute application mesurable X de (Ω, A, P) dans
(E, B).

Dans ce cours, l’espace d’arrivé sera, sauf mention du contraire, R (ou Rd ) muni de sa
tribu borélienne. Ces variables aléatoires sont dites réelles (resp. vectorielles). Parmi les v.a.
réelles, on distingue principalement les variables discrètes pour lesquelles le support de X
Supp X (informellement l’ensemble des valeurs numériques « possibles » pour X) est fini ou
dénombrable et les variables continues pour lesquelles Supp X est une réunion d’intervalles
de R. On peut également concevoir des v.a. réelles « hybrides », avec une partie continue et
une partie discrète, mais nous ne les rencontrerons que marginalement. Notons que si X est
une variable aléatoire et f est mesurable alors Y = f (X) est encore une variable aléatoire.
Exemple 2.1.
1. Si l’on lance un dé classique, la variable aléatoire X donnant le résultat du lancé est
une variable aléatoire discrète prenant ses valeurs dans X(Ω) = {1; 2; 3; 4; 5; 6}.
2. Si l’on lance simultanément n pièces équilibrées, la variable aléatoire comptant le nombre
de faces obtenues est discrète et prend ses valeurs dans X(Ω) = {1; 2; . . . ; n}.
3. La durée de vie X d’une ampoule est une variable aléatoire continue. Une ampoule
donnée fonctionnera un temps t > 0 avant de griller et il n’y a a priori pas de durée de
vie maximale. Ainsi, X(Ω) = R+∗.

Les ensembles {X = x} := {ω ∈ Ω : X(ω) = x}, {X ≤ x}, {X ≥ x}, {X < x}, {X > x}


sont des événements. On note généralement P[X = x], P[X ≤ x], P[X ≥ x], P[X < x], P[X >
x] au lieu de P[{X = x}], P[{X ≤ x}], P[{X ≥ x}], P[{X < x}], P[{X > x}].

Définition 2.2. Soit X une variable aléatoire de (Ω, A, P) dans (E, B).
On appelle loi de X sous P la mesure de probabilité image PX sur (E, B) (au sens de la
Définition 1.7).

Remarque 2.1. On peut maintenant définir plus formellement le support d’une v.a. X comme
le support de la mesure. Il s’agit de l’adhérence Supp(X) de l’ensemble

{x ∈ R : PX (]x − ε; x + ε[) > 0, ∀ε > 0} = {x ∈ R : P [X ∈]x − ε; x + ε[] > 0, ∀ε > 0} .

9
CHAPITRE 2. VARIABLES ALÉATOIRES

Toute v.a. réelle continue X est absolument continue par rapport à la mesure de Lebesgue
λ sur R c’est-à-dire que tout négligeable pour λ est aussi négligeable pour PX (en particulier
P[X = x] = 0 pour tout x dans le cas continu). Le Théorème de Radon-Nikodym (voir
par exemple [4, Théorème II.3.3]) affirme donc qu’il existe une fonction mesurable positive
d PX R
fX = d λ , définie λ-p.p., telle que PX (A) = A fX d λ. Cette fonction f est appelée densité
de X et permet de mener à bien les calculs. La proposition suivante donne des conditions
suffisantes pour qu’une fonction f soit une densité d’une variable aléatoire continue.
Proposition 2.1. Si f : R −→ R+ est une fonction mesurable positive telle que
Z
f (x) d x = 1
R

alors il existe une v.a.r. dont f est une densité.


Pour une variable aléatoire discrète, la donnée de la fonction de probabilités (ou probabilités
élémentaires) pX (x) = P[X = x], x ∈ Supp X, suffit à caractériser sa loi.

2.1 Fonction de répartition


La fonction de répartition est un outils permettant de caractériser de façon unifiée les lois
des variables aléatoires réelles, qu’elles soient discrètes ou continues.
Définition 2.3. Soit (Ω, A, P) un espace probabilisé et X une variable aléatoire réelle.
On appelle fonction de répartition de X la fonction :

FX : R −→ [0; 1].
x 7−→ FX (x) = P[X ≤ x]

S’il n’y a pas de confusion possible, on note simplement F la fonction de répartition d’une
variable aléatoire X.
Avec les notations précédentes, dans le cas discret, on obtient que
X
FX (x) = pX (xi )
xi ≤x

alors que dans le cas continu : Z x


FX (x) = fX (t) d t.
−∞

Proposition 2.2. Soit X une variable aléatoire réelle et FX sa fonction de répartition. On


a:
1. limx→−∞ FX (x) = 0 ;
2. limx→+∞ FX (x) = 1 ;
3. FX est croissante (donc avec limite à gauche) et continue à droite ;
4. si X est continue alors FX est continue ;
5. si X est discrète alors FX est en escalier (constante par morceaux).
Théorème 2.1. La fonction de répartition caractérise la loi d’une variable aléatoire : FX =
FY si, et seulement si, PX = PY .

10
CHAPITRE 2. VARIABLES ALÉATOIRES

Le résultat suivant relie la fonction de répartition et la densité d’une v.a. continue.

Proposition 2.3. Soit X un v.a. continue de densité fX et de fonction de répartition FX .


On a :
fX = FX′ λ − p.p..

Exercice 2.1. Soit X une variable aléatoire continue avec Supp X = [1; +∞[. On pose
Z = X1 + 2.
1. Quel est le support de Z ?
2. Exprimer FZ en fonction de FX .

2.2 Fonction quantile


Définition 2.4. Soit X une v.a. réelle et FX sa fonction de répartition.
On appelle fonction quantile de X l’inverse généralisée de FX définie sur ]0; 1[ par :

FX−1 (u) : inf{x ∈ R : F (x) > u}.

Proposition 2.4. Toute fonction quantile est càdlag (continue à droite et admet une limite
à gauche en tout point).

Les fonctions quantile se révéleront particulièrement utiles lors des études statistiques et
pour la simulation de variables aléatoires.

2.3 Quantiles et médiane


Les quantiles d’une variable aléatoire (ou de sa loi) se révéleront très utiles en statistique,
en particulier pour l’estimation par intervalle de confiance et pour la détermination de la zone
de rejet dans le cadre des tests d’hypothèses.

Définition 2.5. Soit α ∈]0; 1[. On appelle quantile d’ordre α d’une v.a. X toute valeur qα
telle que :
P [X ≤ qα ] ≥ α et P [X ≥ qα ] ≥ 1 − α.

On appelle médiane de X sont quantile d’ordre 1/2.

La proposition suivante est immédiate par continuité de la fonction de répartition lorsque


la v.a. est continue.

Proposition 2.5. Si X est une v.a. continue de fonction de répartition FX , alors, pour tout
α ∈]0, 1[ le quantile d’ordre α de X est unique et est caractérisé par :

F (qα ) = α.

11
CHAPITRE 2. VARIABLES ALÉATOIRES

2.4 Espérance et moments


Définition 2.6. Soit X une v.a. réelle sur (Ω, A, P).
Si X est intégrable, on appelle espérance, espérance mathématique ou encore moyenne
mathématique de X la quantité :
Z
E[X] = X d P.

Lorsque cette quantité est nulle on dit que X est centrée.


Les propriétés de l’intégrale, et en particulier sa linéarité, se transfèrent immédiatement
à l’espérance.
Le Théorème de transport (Théorème 1.1) affirme que si g est mesurable positive ou si
g(X) est P-intégrable, Z Z
E[g(X)] = g(X) d P = g d PX .
Ω R

Ceci se généralise trivialement aux vecteurs aléatoires dans Rd . En particulier, si X est réelle,
en choisissant g comme étant l’identité, on obtient que :
Z
E[X] = x d PX (x).
R

Si X est continue de densité fX , on obtient que


Z
E[X] = xfX (x) d x
R

alors que si X est discrète de support S (fini ou dénombrable) :


X
E[X] = xpX (x).
x∈S

Remarque 2.2. On voit que


E[1X∈A ] = P[X ∈ A].

Définition 2.7. On dit que X admet un moment d’ordre p > 0 si E[|X|p ] < +∞. Le moment
1
d’ordre p de X est alors E[X p ]. Dans ce cas, la norme p de X est la quantité ∥X∥p = E[|X|p ] p
et on dit que X appartient à Lp .
Si X admet un moment d’ordre 2, on définit la variance de X comme :

V[X] = E[(X − E[X])2 ]


p
et son écart-type comme σX = V[X]. Lorsque V[X] = 1 on dit que X est réduite.
Notons que l’espérance est un paramètre de position pour la v.a. X et que sa variance est
un paramètre de dispersion mesurant la facilité pour cette v.a. à s’écarter de sa moyenne. En
particulier, V[X] = 0 si, et seulement si, X est presque sûrement constante.
Notons que, de façon analogue à ce que nous avons vu pour l’espérance, si X est une v.a.
réelle, on a : Z
V[X] = (x − E[X])2 d PX (x).
R

12
CHAPITRE 2. VARIABLES ALÉATOIRES

Ainsi, si X est continue de densité fX , on obtient que


Z
V[X] = (x − E[X])2 fX (x) d x
R

alors que si X est discrète de support S (fini ou dénombrable) :


X
V[X] = (x − E[X])2 pX (x).
x∈S

En développant le carré dans cette définition, utilisant la linéarité de l’espérance et le fait


que E[X] est une constante, on obtient que :

V[X] = E[(X − E[X])2 ] = E[X 2 − 2XE[X] + E[X]2 ]


= E[X 2 ] − 2E[X]E[X] + E[X]2 = E[X 2 ] − E[X]2 .

Cette formule est connue sous le nom de formule de décentrage de la variance.

Proposition 2.6. Soient X une variable aléatoire de carré intégrable et α, β ∈ R.


On a :
V[αX + β] = α2 V[X].

Preuve : Il suffit d’écrire que :

V[αX + β] = E [(αX + β − E[αX + β])2 ] = E [(αX + β − αE[X] + β)2 ]


h i
= E [(α(X − E[X]))2 ] = α2 E (X − E[X])2 = α2 V[X].


Dans certains cas, le calcul d’un moment peut être plus aisé à partir de la fonction de
répartition (ou plutôt de sa queue de distribution GX = 1 − FX ). On utilise pour cela le
résultat suivant.

Proposition 2.7. Soit X une v.a. réelle positive de fonction de répartition FX . Alors, pour
tout p > 0 : Z ∞
E[X p ] = p tp−1 (1 − FX (t)) d t.
0
En particulier, Z ∞
E[X] = (1 − FX (t)) d t.
0

Il est aussi possible d’obtenir des formules approchées pour le calcul de moments de va-
riables aléatoires de la forme Y = g(X) sous des conditions de régularité de f et d’intégrabilité.
Ceci repose principalement sur l’utilisation de développements limités (D.L.) au voisinage de
E[X]. Par exemple, si g admet un D.L. d’ordre 2 au voisinage de E[X], en prenant l’espérance
dans :
g ′′ (E[X])  
g(x) = g (E[X]) + g ′ (E[X]) (x − E[X]) + (x − E[X])2 + o (x − E[X])2
2
g ′′ (E[X])
≃ g (E[X]) + g ′ (E[X]) (x − E[X]) + (x − E[X])2
2

13
CHAPITRE 2. VARIABLES ALÉATOIRES

on obtient

g ′′ (E[X]) h i
E[g(X)] ≃ g (E[X]) + g ′ (E[X]) E [X − E[X]] + E (X − E[X])2
2
g ′′ (E[X])
≃ g (E[X]) + V [X] .
2

Mentionnons maintenant une proposition découlant facilement du Théorème de transport


(Théorème 1.1) mais néanmoins très utile pour caractériser la loi d’une v.a. au moyen d’espé-
rances. Elle est en particulier utilisée pour déterminer la densité de v.a. ou de fonctionnelles
de v.a..

Proposition 2.8. Deux v.a. X et Y ont même loi si, et seulement si, pour toute fonction
mesurable positive φ,

E[φ(X)] = E[φ(Y )].

Preuve : Le sens direct découle directement du théorème de transport. La réciproque s’ob-


tient en considérant simplement comme fonctions φ que les indicatrices d’intervalles ] − ∞, x]
et en remarquant que la condition E[φ(X)] = E[φ(Y )] implique alors que FX = FY . □

On voit, en particulier, que si X est une v.a. continue elle admet pour densité f si, et
seulement si, pour toute fonction mesurable positive φ (dite « fonction test » ou « fonction
muette ») ,
Z
E[φ(X)] = φ(x)f (x) d x.
R

Ce constat conduit à la méthode de la fonction muette permettant de déterminer la loi ou la


densité de certaines variables aléatoires. L’exemple suivant illustre cette méthode (en antici-
pant quelque peut sur la notion d’indépendance de variables aléatoires). On admettra pour
cette exemple que si X et Y sont deux v.a. indépendantes, pour toutes fonctions mesurables
positives f et g, E[f (X)g(Y )] = E[f (X)]E[g(Y )].

Exemple 2.2.
Soit X ∼ E(λ) pour un certain λ > 0 et ε, indépendante de X une variable aléatoire de
Rademacher, c’est-à-dire telle que :

1
P[ε = 1] = P[ε = −1] = .
2

On se propose de déterminer la densité de la loi exponentielle symétrique définie par


Y = εX.

14
CHAPITRE 2. VARIABLES ALÉATOIRES

Soit φ une fonction muette (mesurable positive). On a :

E [φ(Y )] = E [φ(εX)] = E [φ(X)1ε=1 + φ(−X)1ε=−1 ]


= E [φ(X)1ε=1 ] + E [φ(−X)1ε=−1 ] (par linéarité)
= E [φ(X)] E [1ε=1 ] + E [φ(−X)] E [1ε=−1 ] (par indépendance)
= E [φ(X)] P [ε = 1] + E [φ(−X)] P [ε = −1]
Z +∞ Z +∞
−λx 1 1
= φ(x)λe dx × + φ(−y)λe−λy d y ×
0 2 0 2
Z +∞
λe −λx Z −∞
λe λx
= φ(x) dx − φ(x) dx (changement de variable x = −y)
0 2 0 2
λe−λ|x| λe−λ|x|
Z +∞ Z 0
= φ(x) dx + φ(x) dx
0 2 −∞ 2
λe−λ|x|
Z +∞
= φ(x) dx (par la relation de Chasles).
−∞ 2
Ainsi, la densité de Y est donnée par
λe−λ|x|
fY (x) = .
2

Dans certains cas, les moments (et donc la famille de fonction φk (x) = xk ) suffisent à
caractériser la loi d’une variable aléatoire comme le montre le résultat suivant.
Proposition 2.9. Soient X et Y deux v.a. à valeurs dans un intervalle fermé borné [a; b].
Si, pour tout k ∈ N, E[X k ] = E[Y k ], alors PX = PY .

2.5 Fonction génératrice des moments


Définition 2.8. Soit X une v.a. réelle sur (Ω, A, P). On appelle fonction génératrice des
moments ou transformée de Laplace de X la fonction :

LX (t) = E[etX ]

définie sur {t ∈ R : E[etX ] < +∞}.

Remarque 2.3. Plus généralement, si X est un vecteur aléatoire dans Rd , sa fonction géné-
ratrice des moments est donnée par :

LX (t) = E[et·X ]

où t ∈ Rd et · désigne le produit scalaire.


Le résultat suivant justifie la dénomination « fonction génératrice des moments » pour
LX .
Proposition 2.10. Soit X une v.a. réelle sur (Ω, A, P) telle que etX est P −intégrable sur
un voisinage V de 0 à t fixé. Alors, pour tout t ∈ V :
+∞
X tn
LX (t) = E[X n ].
n=0
n!

15
CHAPITRE 2. VARIABLES ALÉATOIRES

En particulier, pour tout n ∈ N, on a :

(LX )(n) (0) = E[X n ].

Exemple 2.3. Soit X de loi géométrique de paramètre p. On a :


+∞
X
LX (t) = E[etX ] = etk (1 − p)k−1 p
k=1
+∞
p X p t 1
= (et (1 − p))k = e (1 − p) t
1 − p k=1 1−p 1 − e (1 − p)
pet
=
1 − et (1 − p)

Exercice 2.2. Préciser le domaine de définition de la fonction génératrice des moments d’une
loi géométrique omis dans l’exemple précédent.

Exemple 2.4. Soit X de loi normale centrée réduite. On a :


Z +∞ Z +∞
1 x2 1 x2
LX (t) = E[etX ] = etx √ e− 2 d x = √ e− 2
+tx
dx
−∞ 2π 2π −∞

S’agissant d’une intégrale gaussienne, il convient de réécrire l’exposant de l’intégrande


2
sous la forme − y2 + c. On a :

x2 1 1 1 (x − t)2 t2
− + tx = − (x2 − 2tx) = − (x2 − 2tx + t2 − t2 ) = − ((x − t)2 − t2 ) = − + ,
2 2 2 2 2 2
t2
ce qui est la forme recherchée avec y = x − t et c = 2. Il vient ensuite en effectuant le
changement de variable y = x − t (d y = d x) que :
Z +∞ Z +∞
1 2 1 (x−t)2 2
− x2 +tx + t2
LX (t) = √ e dx = √ e− 2 dx
2π −∞ 2π −∞
Z +∞ Z +∞
t2 1 (x−t)2 t2 1 y2 t2
=e2 √ e− 2 dx = e 2 √ e− 2 dy = e 2 .
2π −∞ 2π −∞

Exercice 2.3. En imitant la démarche de l’Exemple 2.4, calculer la fonction génératrice des
moments d’une loi normale générique N (m; σ 2 ).

2.6 Fonction caractéristique


Définition 2.9. Soit X une v.a. réelle sur (Ω, A, P). On appelle fonction caractéristique ou
transformée de Fourier de X la fonction de R dans C définie par :

ϕX (t) = E[eitX ].

16
CHAPITRE 2. VARIABLES ALÉATOIRES

Remarque 2.4.
1. Si X est une v.a.r. continue de densité f , on a pour tout t
Z Z Z
ϕX (t) = eitx f (x) d x = cos(tx)f (x) d x + i sin(tx)f (x) d x,
R R R

alors que si X est discrète de fonction de probabilité p et de support Supp(X), on a


pour tout t :
X X X
ϕX (t) = eitx p(x) = cos(tx)p(x) + i sin(tx)p(x).
x∈Supp(X) x∈Supp(X) x∈Supp(X)

2. Plus généralement, si X est un vecteur aléatoire dans Rd , sa fonction caractéristique


est donnée par :
ϕX (t) = E[eit·X ]
où t ∈ Rd et · désigne le produit scalaire.
Le résultat suivant justifie la dénomination « fonction caractéristique » pour ϕX .
Proposition 2.11. Soient X et Y deux variables aléatoires réelles.
Si ϕX = ϕY , alors PX = PY .

Remarque 2.5. Le résultat précédent reste valable pour les vecteurs aléatoires.

Exemple 2.5. Soit X de loi binomiale de paramètres n et p. On a :


n
!
X n itk k
ϕX (t) = E[eitX ] = e p (1 − p)n−k
k=0
k
n
!
X n
= (eit p)k (1 − p)n−k = (eit p + 1 − p)n .
k=0
k

Exercice 2.4. Montrer que si X ∼ N (m, σ 2 ), on a :


σ 2 t2
ϕX (t) = eitm− 2

La fonction caractéristique caractérise la loi d’une v.a. et permet sous certaines conditions
d’obtenir effectivement la loi. Le résultat suivant donne un de ces moyens au travers de la
formule d’inversion de Fourier.
Théorème 2.2. Soit X une v.a. réelle telle que ϕX est intégrable par rapport à la mesure de
Lebesgue sur R. Alors, X admet la densité continue bornée sur R donnée par :
1
Z
fX (x) = e−itx ϕX (t) d t.
2π R

Remarque 2.6. Le résultat précédent reste valable pour les vecteurs aléatoires dans Rd . La
densité est alors donnée par :
1
Z
fX (x) = e−it·x ϕX (t) d t.
(2π)d Rd

Le résultat suivant est l’analogue de la Proposition 2.10 pour la fonction caractéristique.

17
CHAPITRE 2. VARIABLES ALÉATOIRES

Proposition 2.12. Soit X une v.a. réelle sur (Ω, A, P) admettant un moment d’ordre n.
Alors, ϕX est de classe C n et pour tout k ≤ n, pour tout t :
(k)
ϕX (t) = ik E[X k eitX ].

En particulier, on a, pour tout k ≤ n, :

(ϕX )(k) (0) = ik E[X k ].

Remarque 2.7. La réciproque partielle suivante est valide. Si ϕX est n fois dérivable en
0 pour un certain n pair, alors X admet un moment d’ordre n (donc tout moment d’ordre
k ≤ n) et on a les égalités de la Proposition 2.12 pour k ≤ n.

2.7 Inégalités classiques


Dans cette section, on liste les inégalités d’usage courant sur les variables aléatoires. Celles-
ci sont données pour la plupart sans preuve ; les preuves et plus de détails se trouvent dans
tous les ouvrages classiques de probabilité (voir [4, 9, 13] par exemple).

2.7.1 Inégalité de Jensen


Théorème 2.3. Soit X une v.a. réelle et φ : R → R une fonction convexe.
Alors, si X et φ(X) sont intégrables :

φ (E[X]) ≤ E [φ (X)] .

2.7.2 Inégalité de Cauchy-Schwarz


Théorème 2.4. Soit X et Y deux v.a. réelle de carré intégrable.
Alors, XY est intégrable et :
1 1
E[|XY |] ≤ E[|X|2 ] 2 E[|Y |2 ] 2 ,

autrement dit
∥XY ∥1 ≤ ∥X∥2 ∥Y ∥2 .

2.7.3 Inégalité de Hölder


Théorème 2.5. Soit X et Y deux v.a. réelle admettant respectivement un moment d’ordre
p ≥ 1 et un moment d’ordre q ≥ 1 avec p−1 + q −1 = 1.
Alors, XY est intégrable et :
1 1
E[|XY |] ≤ E[|X|p ] p E[|Y |q ] q ,

autrement dit
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q .

18
CHAPITRE 2. VARIABLES ALÉATOIRES

2.7.4 Inégalité de Minkowski


Théorème 2.6. Soit X et Y deux v.a. réelle admettant un moment d’ordre p ≥ 1.
Alors, X + Y admet un moment d’ordre p et :
1 1 1
E[|X + Y |p ] p ≤ E[|X|p ] p + E[|Y |p ] p ,

autrement dit
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p .

2.7.5 Inégalité de Markov


Théorème 2.7. Soit X une v.a. réelle intégrable.
Alors, pour tout t > 0, on a :

E [|X|]
P[X ≥ t] ≤ .
t

Preuve : On a :
X |X|
1X≥t ≤ 1X≥t ≤ 1X≥t
t t
donc
|X| E [|X|]
 
P[X ≥ t] = E [1X≥t ] ≤ E 1X≥t ≤ .
t t

2.7.6 Inégalité de Tchebychev


En appliquant l’inégalité de Markov à la v.a. |X − E[X]|2 , on obtient que

Théorème 2.8. Soit X une v.a. réelle de carré intégrable.


Alors, pour tout t > 0, on a :

V [X]
P[|X − E[X]| ≥ t] ≤ .
t2

2.7.7 Inégalité de Bernstein


En appliquant l’inégalité de Markov à la v.a. eλX , λ > 0, on obtient que

Théorème 2.9. Soit X une v.a. réelle telle que eλX est intégrable pour un λ > 0.
Alors, pour tout t > 0, on a :
h i
E eλX
P[X ≥ t] ≤ inf .
λ>0 eλt

19
CHAPITRE 2. VARIABLES ALÉATOIRES

2.8 Simulation de variables aléatoires


La plupart des logiciels utilisés pour le traitement statistique des données disposent, à
l’instar de R, de fonction permettant de générer des réalisations de variables aléatoires. La
question de la génération informatique du hasard reste néanmoins d’intérêt particulier. Sans
entrer dans les détails, il est possible de concevoir des méthodes permettant la génération
de nombres pseudo-aléatoires selon des lois uniformes (discrètes ou continues). La génération
du hasard est donc déterministe et dépend de paramètres dont certains peuvent être acces-
sibles à l’utilisateur. Par exemple, sous R, la graine (seed) du générateur peut être réglée par
l’utilisateur grâce à la commande set.seed. Ceci permet d’obtenir une reproductibilité des
expériences parfois agréable. À titre d’exemple, le lecteur est invité à comparer les résultats
des séquences de commandes :
set.seed(111)
rnorm(1,mean=0,sd=1)
set.seed(111)
rnorm(1,mean=0,sd=1)
et
set.seed(111)
rnorm(1,mean=0,sd=1)
set.seed(111)
rnorm(1,mean=0,sd=1)
simulant respectivement deux tirages de loi normale centrée réduite.
Il est instructif de voir comment l’on peut simuler des variables aléatoires de loi quelconque
à partir de la loi uniforme sur [0; 1] (accessible grâce à runif sous R) ou de copies indépen-
dantes de celles-ci. Une méthode générique repose sur l’utilisation de la fonction quantile.
Proposition 2.13. Soient X une v.a. réelle, FX sa fonction de répartition, FX−1 sa fonction
quantile, et U ∼ U(]0; 1[).
Alors, X et FX−1 (U ) ont même loi.

Preuve : Il suffit de voir que les fonctions de répartitions de ces deux variables aléatoires
coïncident.
Si FX−1 (u) ≤ t, u ∈]0; 1[, il existe pour tout s > t un réel x < s tel que FX (x) > u donc
FX (s) > u par croissance. On en déduit par continuité à droite de FX que FX (t) ≥ u. Ainsi,
si FX−1 (U ) ≤ t alors FX (t) ≥ u et on a :

P[FX−1 (U ) ≤ t] ≤ P[U ≤ FX (t)] = FX (t).

Il reste à voir que


FX (t) = P[U ≤ FX (t)] ≤ P[FX−1 (U ) ≤ t].
Pour cela, il suffit d’observer que si FX (t) > u, on a t ∈ {x ∈ R : FX (x) > u} et donc
FX−1 (u) ≤ t. □

Exemple 2.6. En appliquant se résultat, on obtient que si U ∼ U(]0; 1[), X ∼ E(λ) et


Y = − ln(1−U
λ
)
alors X et Y ont même loi, ce qui permet de simuler des variables exponentielle
à partir de variables uniformes sur ]0; 1[.

20
CHAPITRE 2. VARIABLES ALÉATOIRES

Le résultat précédent permet théoriquement de simuler n’importe quelle loi à partir de


la loi uniforme sur ]0, 1[ mais n’ai pas toujours applicable dans la pratique car nécessitant
l’inversion de la fonction de répartition. La méthode est, par exemple, mise en défaut par la
simulation de lois normales pour lesquelles on ne connaît pas d’expression analytique de la
fonction de répartition et pour laquelle une inversion numérique serait trop coûteuse. On a
dans ce cas recours à la méthode de Box Muller basée sur une transformation en coordonnées
polaires.

Proposition 2.14. Si U1 , U2 sont deux v.a. indépendantes uniformes sur ]0; 1[, alors la v.a.
q q
X= −2 ln(U1 ) cos(2πU2 ) et Y = −2 ln(U2 ) cos(2πU1 )

sont indépendantes de loi normale centrée réduite.

Sachant simuler grâce au résultat précédent une v.a. X de loi N (0; 1) il est aisé de simuler
une v.a. Z de loi N (m; σ 2 ) en utilisant que

Z = σX + m.

D’autres méthodes spécifiques pour la simulation de lois usuelles (en particulier discrètes)
peuvent être développées. Nous ne les détaillerons pas dans ce cours. Nous ne détaillerons pas
non plus les méthodes de rejet, également classiques.
Exercice 2.5. Écrire une fonction permettant la simulation d’une loi binomiale de paramètres
n et p à partir de la loi uniforme sur ]0, 1[.

21
Chapitre 3

Couples, n-uplets et familles de


variables aléatoires

3.1 Fonction de répartition, lois marginales, probabilités et


densités conjointes
Définition 3.1. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire sur (Ω, A, P).
On appelle fonction de répartition (conjointe) de X la fonction définie pour t = (t1 , . . . , td ) ∈
d
R par
FX (t) = P[X1 ≤ t1 , . . . , Xd ≤ td ].
La loi de Xi est appelée ie marginale et est caractérisée par sa fonction de répartition :

FXi (ti ) = lim FX (t).


tk →+∞,∀k̸=i

Dans la suite, nous supposerons que toutes les composantes de X sont du même « type »,
c’est-à-dire toutes discrètes ou toutes continues. Cette restriction est suffisante pour la suite
de ce cours puisque, à nos fins statistiques, nous considérerons des échantillons identiquement
distribués, c’est-à-dire dans lesquels toutes les v.a. suivent la même loi.
Dans le cas où toutes les composantes sont discrètes, un vecteur aléatoire est caractérisé
par la donnée des ces probabilités conjointes. En supposant que le support de Xi soit donné
(i)
par {xj }j∈{1,...,ik } , k = k(i), ik ∈ N∗ ∪ {+∞}, il s’agit de la donnée des :

(1) (d) (1) (d)


pX (xj1 , . . . , xjd ) = P[X1 = xj1 , . . . , Xd = xjd ].

La ie loi marginale de X est alors caractérisée par la fonction de probabilité marginale :


(i) X (1) (d)
pXi (xj ) = pX (xl1 , . . . , xld ).
1≤lk ≤ik ,∀k̸=i

Exercice 3.1. On lance deux dés classiques et on note X1 et X2 leurs résultats. Déterminer
la loi de (X1 , X2 ) et les lois marginales.
De façon analogue, dans le cas où toutes les composantes sont continues, un vecteur
aléatoire est caractérisé par la donnée de sa densité conjointe (positive) fX vérifiant pour

23
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
tout t = (t1 , . . . , td ) :
Z t1 Z td
FX (t) = ··· fX (s1 , . . . , sd ) d s1 . . . d sd .
−∞ −∞

On obtient alors la de densité marginale de X comme :


Z +∞ Z +∞
fXd (td ) = ··· fX (s1 , . . . , sd−1 , td ) d s1 . . . d sd−1
−∞ −∞
et, plus généralement, la ie densité marginale de X en intégrant fX selon toutes les coordon-
nées sauf la ie .

3.2 Lois conditionnelles


Rappelons que si A et B sont deux événements et si P[B] ̸= 0, on définit classiquement
la probabilité conditionnelle de A sachant B par
P[A ∩ B]
P[A|B] = .
P[B]
Guidés par ceci, pour un couple de v.a. (X, Y ), on peut définir la loi conditionnelle de X
sachant Y ∈ A pourvu que P[Y ∈ A] ̸= 0. Dans le cas discret, la loi conditionnelle de X
sachant Y ∈ A est caractérisée par la donnée des probabilités élémentaires pour xi dans le
support de X : P
j:yj ∈A p(X,Y ) (xi , yj )
pX|Y ∈A (xi ) = P .
j:yj ∈A pY (yj )

En particulier, lorsque A = {yj } est un singleton dans le support de Y :


p(X,Y ) (xi , yj )
pX|Y =yj (xi ) = .
pY (yj )
On définit de façon analogue la loi conditionnelle de Y sachant X ∈ B.
Rappelons que dans le cas continu, P[Y = y] = 0 (puisque l’on intègre la densité de Y
sur un singleton qui est un ensemble négligeable par rapport à la mesure de Lebesgue). Il est
toutefois clair que l’on peut définir la loi de X sachant Y ∈ A (dès que P[Y ∈ A] > 0), pour
X et Y continues, et il est même possible de définir, avec quelques précautions, la loi de X
sachant Y = y. Cet objet représente alors la loi de X lorsque Y est infiniment proche de y
et non égal à y. Soit y ∈ R et ε > 0 tel que fY soit strictement positive pour λ-presque-tout
s ∈ Vy (ε) = [y − ε, y + ε]. On peut définir la fonction de répartition de X sachant Y ∈ Vy (ε)
comme :
P[X ≤ x, Y ∈ Vy (ε)]
FX|Y ∈Vy (ε) (x) =
P[Y ∈ Vy (ε)]
P[X ≤ x, Y ≤ y + ε] − P[X ≤ x, Y ≤ y − ε]
=
P[Y ≤ y + ε] − P[Y ≤ y − ε]
F(X,Y ) (x, y + ε) − F(X,Y ) (x, y − ε)
= .
FY (y + ε) − FY (y − ε)

24
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Il est alors naturel de laisser tendre ε vers 0 pour obtenir la fonction de répartition de X
sachant Y = y.

F(X,Y ) (x, y + ε) − F(X,Y ) (x, y − ε)


FX|Y =y (x) = lim
ε→0 FY (y + ε) − FY (y − ε)
F(X,Y ) (x, y + ε) − F(X,Y ) (x, y − ε)/(2ε)
= lim
ε→0 FY (y + ε) − FY (y − ε)/(2ε)
Rx
f(X,Y ) (s, y) d s
= −∞
fY (y)

où l’on a utilisé que la densité est la dérivée (partielle selon la deuxième coordonnée au
numérateur) de la fonction de répartition d’une v.a. λ-presque partout et une interversion
limite/intégrale légitime puisque la densité est positive λ-presque partout. En dérivant selon
la première coordonnée, on obtient la densité conditionnelle de X sachant Y = y :

f(X,Y ) (x, y) d s
fX|Y =y (x) =
fY (y)

3.3 Indépendance
Définition 3.2. On dit que deux v.a. X et Y sont indépendantes si pour tous événements
{X ∈ A} et {Y ∈ B}, on a :

P[X ∈ A, Y ∈ B] = P[X ∈ A]P[Y ∈ B].

Remarque 3.1. Pour X, Y des v.a. réelles, il suffit, en fait, de vérifier cette définition pour
A, B des intervalles (ou même des singletons dans le cas discret).

Définition 3.3. On dit que des v.a. Xi , i ∈ I sont deux à deux indépendantes si, pour tous
i ̸= j, Xi et Xj sont indépendantes.

Définition 3.4. On dit qu’une famille de v.a. {Xi }i∈I est (mutuellement) indépendante si
pour tout J ⊂ I fini, on a :
Y
P[Xi ∈ Ai , i ∈ J] = P[Xi ∈ Ai ].
i∈J

Remarque 3.2. L’indépendance (mutuelle) entraîne l’indépendance 2 à 2.


L’indépendance d’une famille finie de v.a. (ou de leurs lois) se traduit en terme de mesure
de probabilité produit comme suit (voir, par exemple, [9, Théorème 5.2.5]).

Théorème 3.1. Les v.a. X1 , . . . , Xn sont indépendantes si, et seulement si :

P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn .

Voyons maintenant comment se traduit l’indépendance d’une famille finie de v.a. dans les
cas discret et continu.

25
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Proposition 3.1. Soient X1 , . . . , Xd des v.a. discrètes. Alors, X1 , . . . , Xd sont indépendantes
si, et seulement si, Y
pX1 ,...,Xd (x1 , . . . , xd ) = pXi (xi ).
i=1
Proposition 3.2. Soient X1 , . . . , Xd des v.a. continues. Alors, X1 , . . . , Xd sont indépen-
dantes si, et seulement si,
Y
FX1 ,...,Xd (x1 , . . . , xd ) = FXi (xi ).
i=1
Si ces variables sont à densité, alors, X1 , . . . , Xd sont indépendantes si, et seulement si,
Y
fX1 ,...,Xd (x1 , . . . , xd ) = fXi (xi ).
i=1
Proposition 3.3. Si X et Y sont indépendantes, alors, pour toutes fonctions g et h, g(X)
et h(Y ) sont indépendantes.
On montre le résultat plus fort suivant (voir [4, Corollaire IV.1.11]).
Théorème 3.2. Soit Xi , i ∈ I une famille de v.a. réelles. Alors, les Xi sont indépendantes
si, et seulement si, pour tout J ⊂ I fini, pour toutes fonctions mesurables φj telles que φj (Xj )
est intégrable pour tout j ∈ J, on a :
 
Y Y
E φj (Xj ) = E [φj (Xj )] .
j∈J j∈J

L’indépendance de variables aléatoires peut également être caractérisée à l’aide des fonc-
tions caractéristiques.
Théorème 3.3. Soient X1 , . . . , Xn des v.a. réelles.
Alors, X1 , . . . , Xn sont indépendantes si, et seulement si,
n
Y
ϕ(X1 ,...,Xn ) = ϕXi .
i=1

Preuve :
Le sens direct est une conséquence immédiate du résultat précédent puisque si X1 , . . . , Xn
sont indépendantes :
 
 Pn  n n h i n
i t X
j=1 j j
Y
itj Xj 
Y
itj Xj
Y
ϕ(X1 ,...,Xn ) (t) = E e = E e = E e = ϕXi
j=1 j=1 i=1

en choisissant φj (u) = eitj u . Il entraîne que la fonction caractéristique de la mesure de pro-


babilité produit PX1 ⊗ · · · ⊗ PXn se factorise sous la forme :
n
Y
ϕPX1 ⊗···⊗PXn = ϕXi .
i=1
Qn
Ainsi, si ϕ(X1 ,...,Xn ) = i=1 ϕXi , on a :
n
Y
ϕP(X1 ,...,Xn ) = ϕ(X1 ,...,Xn ) = ϕXi = ϕPX1 ⊗···⊗PXn .
i=1
Comme la fonction caractéristique caractérise la loi, P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn ce qui
signifie que les Xj sont indépendantes. □

26
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.4 Espérance, variance, covariance, corrélation linéaire
Considérons un couple de v.a. (X, Y ). Pour toute fonction (mesurable) g et sous condition
d’intégrabilité, l’espérance de g(X, Y ) :
Z
E[g(X, Y )] = g d P(X,Y )

se calcule dans le cas discret comme


X
E[g(X, Y )] = g(xi , yj )p(X,Y ) (xi , yj )
i,j

et dans le cas continu comme


Z
E[g(X, Y )] = g(x, y)f(X,Y ) (x, y) d x d y.
R2

On voit ainsi facilement que :

Proposition 3.4. [Linéarité de l’espérance] Soient X, Y deux variables aléatoires et


α, β ∈ R :
E[αX + βY ] = αE[X] + βE[Y ].

Remarque 3.3. Ceci se généralise naturellement au cas de d v.a. :


" d # d
X X
E αi Xi = αi E [Xi ] .
i=1 i=1

Définition 3.5. Soient X et Y deux v.a. réelles admettant des moments d’ordre 2.
La covariance de X et Y est la quantité :

Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])],

et le coefficient de corrélation linéaire de X et Y est la quantité :

Cov(X, Y )
Corr(X, Y ) = p .
V[X]V[Y ]

Alors que la variance d’une variable aléatoire mesure sa dispersion autour de sa moyenne,
les covariance et coefficient de corrélation linéaire mesurent comment deux variables varient
ensemble autour de leurs moyennes respectives et donc le lien qu’elles entretiennent mutuelle-
ment. Nous verrons que Corr est à valeurs dans [−1, 1]. En fait, plus | Corr(X, Y )| est proche
de 1, plus le lien entre X et Y est fort. Il ne faut pas être surpris par le fait qu’une corrélation
linéaire proche de -1 reflète un lien fort entre les variables : penser au cas de Y = −X.

Proposition 3.5. On a :
1. Cov(X, X) = V[X] ;
2. Cov(X, Y ) = Cov(Y, X) ;

27
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3. Cov est linéaire en chacune des coordonnées :

Cov(aX + bY, Z) = a Cov(X, Z) + b Cov(Y, Z) = Cov(Z, aX + bY );

4. Cov(aX + b, cY + d) = ac Cov(X, Y ) ;
5. Cov(X, Y ) = E[XY ] − E[X]E[Y ] ;
6. si X et Y sont indépendantes, Cov(X, Y ) = 0 ; on dit alors que X et Y sont décorrélées ;
7. Corr(X, Y ) ∈ [−1, 1] ;
8. Corr(aX + b, cY + d) = Corr(X, Y ).

Preuve : Les quatre premiers points sont évidents ou reposent sur des calculs immédiats ; le
cinquième se démontre de façon analogue à la formule de décentrage de la variance vue dans
le chapitre précédent. Esquissons la démonstration du point 6. dans le cas de deux variables
discrètes (la démonstration dans le cas continue est analogue et laissée en exercice au lecteur).
On a :
XX
E[XY ] = xi yj p(X,Y ) (xi , yj )
i j
XX
= xi yj pX (xi )pY (yj ) (par indépendance)
i j
X X
= xi pX (xi ) yj pY (yj ) = E[X]E[Y ]
i j

donc Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 0.


Pour démontrer le point 7., remarquons que pour tout λ ∈ R, on a :
h i
0 ≤ V[X + λY ] = E (X + λY − E[X + λY ])2
h i
= E (X − E[X] + λ(Y − E[Y ]))2
h i
= E (X − E[X])2 + 2λ (X − E[X]) (Y − E[Y ]) + λ2 (Y − E[Y ])2
= V[X] + 2λ Cov(X, Y ) + λ2 V[Y ]

et que par conséquent le discriminant du polynôme du second degré en λ apparaissant à la


dernière ligne est négatif ou nul. Ainsi,

(2 Cov(X, Y ))2 − 4V[X]V[Y ] ≤ 0,

soit
Cov(X, Y )2 ≤ V[X]V[Y ],
puis
Cov(X, Y )2
≤ 1,
V[X]V[Y ]
d’où
Cov(X, Y )
| Corr(X, Y )| = p ≤ 1.
V[X]V[Y ]

28
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Exercice 3.2. Soit (X, Y ) le couple de variables aléatoires définies par :
1
P[X = 0, Y = 0] = 2P[X = −1, Y = 1] = 2P[X = 1, Y = 1] = .
2
1. Calculer Cov(X, Y ).
2. Les v.a. X et Y sont-elles indépendantes ?

3.5 Sommes de variables aléatoires


Il n’est pas difficile de voir qu’en toute généralité :
V[X + Y ] = V[X] + 2 Cov(X, Y ) + V[Y ]
et par conséquent la variance ne peut pas être linéaire comme l’est l’espérance (aussi puis-
qu’elle est homogène à un carré). Observons tout de même que si X et Y sont décorrélées (ou
mieux, indépendantes), on obtient que
V[X + Y ] = V[X] + V[Y ].
Plus généralement, on a :
Proposition 3.6. Si X1 , . . . , Xd sont des v.a. de carré intégrable et deux à deux non corrélées,
alors pour tous α1 , . . . , αd ∈ R, on a :
" d # d
X X
V αi Xi = αi2 V [Xi ] .
i=1 i=1

Preuve : Il suffit d’écrire que :


" d # 
d
!2 
X X
V αi Xi = E  αi (Xi − E[Xi ]) 
i=1 i=1
X
= αi αj E [(Xi − E[Xi ])(Xj − E[Xj ])]
1≤i,j≤d
X
= αi αj Cov(Xi , Xj )
1≤i,j≤d
d
X
= αi2 V [Xi ]
i=1
où l’on a utilisé dans la dernière égalité le fait que les Xi sont deux à deux non corrélées. □

Exercice 3.3. [Inégalité de Bienaymé-Tchebychev] Montrer X1 , . . . , Xd sont des v.a.


de carré intégrable et deux à deux non corrélées, elles vérifient l’inégalité de Bienaymé-
Tchebychev :
" n # n
X 1 X
P (Xi − E[Xi ]) ≥ t ≤ V[Xi ].
i=1
t2 i=1
Indication : on pourra utiliser l’inégalité de Tchebychev.
Le corollaire suivant jouera un rôle important en statistiques pour l’étude des estimateurs
et l’analyse de leur qualité.

29
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Corollaire 3.1. Soient X1 , . . . , Xn des v.a. indépendantes et identiquement distribuées (i.i.d.)
de moyenne m et de variance σ 2 < +∞. Posons Sn = ni=1 Xi leur somme et X n = Snn leur
P

moyenne empirique. On a :

E[Sn ] = nm et V[Sn ] = nσ 2

et par conséquent
σ2
E[X n ] = m et V[X n ] = .
n
Les fonctions génératrices des moments et caractéristiques se révèlent être particulièrement
efficaces pour étudier et caractériser la loi de la somme de variables aléatoires indépendantes
comme le montrent les deux résultats suivants.

Théorème 3.4. Soient X1 , . . . , Xd des v.a. indépendantes. Alors,


d
Y
LX1 +···+Xd (t) = LXi (t).
i=1

Preuve : On a :

h i
LX1 +···+Xd (t) = E et(X1 +···+Xd )
" d #
Y
tXi
=E e
i=1
d
Y h i
= E etXi par indépendance
i=1
Yd
= LXi (t).
i=1


On montre de façon analogue que :

Théorème 3.5. Soient X1 , . . . , Xd des v.a. indépendantes. Alors,


d
Y
ϕX1 +···+Xd (t) = ϕXi (t).
i=1

Donnons un exemple de résultat non trivial (et important) dont la preuve est rendu
facile par le théorème précédent. Il affirme que toute combinaison linéaire de lois normales
indépendantes suit une loi normale.

Proposition 3.7. Soit Xi , i = 1, . . . , d, des v.a. indépendantes suivant respectivement la loi


normale N (mi , σi2 ) et α1 , . . . , αn ∈ R.
Alors, Y = α1 X1 + · · · + αd Xd suit la loi normale de moyenne di=1 αi mi et de variance
P
Pd 2 2
i=1 αi σi .

30
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Preuve : Notons que αi Xi suit la loi normale telle que E[αi Xi ] = αi mi et V[αi Xi ] = αi2 σi2 .
Ainsi, en utilisant le résultat de l’Exercice 2.4, on a pour tout t et tout i :
α2 σ 2 t 2
i i
ϕαi Xi (t) = eitαi mi − 2 .

Maintenant, les Xi étant indépendantes, le Théorème 3.5, assure que :


d d α2 σ 2 t 2
i i
eitαi mi −
Y Y
ϕα1 X1 +···+αd Xd (t) = ϕαi Xi (t) = 2

i=1 i=1
d Pd !
2 2 2
i=1 αi σi t
X
= exp it αi mi − .
i=1
2

On reconnaît alors la fonction caractéristique de la loi normale de moyenne di=1 αi mi et de


P

variance di=1 αi2 σi2 . Puisque la fonction caractéristique caractérise la loi, le résultat s’ensuit.
P

3.6 Lois normales multivariés, vecteurs gaussiens


Comme nous venons de le voir toute combinaison linéaire de lois normales indépendantes
suit une loi normale. Cette observation guide la définition suivante.

Définition 3.6. On dit qu’un vecteur aléatoire X dans Rd suit une loi normale (multidimen-
sionnelle) si, pour tout vecteur a ∈ Rd la loi de a·X est une loi normale (unidimensionnelle).

Remarque 3.4. On note E[X] = (E[X1 ], . . . , E[Xd ])T l’espérance d’un vecteur aléatoire et

Σ = V[X] = ((Cov(Xi , Xj ))1≤i,j≤d

sa matrice de variances/covariances. On notera X ∼ Nd (m, Σ) si X suit la loi normale d-


dimensionnelle d’espérance m ∈ Rd et de matrice de variances/covariances Σ.
Notons que si X est un vecteur aléatoire de Rd , A est une matrice n × d et b ∈ Rn
(déterministe), alors Y = AX + b est un vecteur aléatoire dans Rn et on a :

E[Y ] = AE[X] + b et V[Y ] = AV[X]AT .

Notons aussi, que si les composantes d’un vecteur aléatoire sont indépendantes alors la
matrice de variances/covariances est diagonale (il s’agit de l’identité lorsque les composantes
sont réduites).
Le résultat suivant exprime la densité d’une loi normale multidimensionnelle (voir [8,
Théorème 2.2]).

Théorème 3.6. Soit Σ une matrice définie positive d × d, m ∈ Rd et X ∼ Nd (m, Σ). Alors,
X admet la densité suivante sur Rd (par rapport à la mesure de Lebesgue d-dimensionnelle) :

1 1
 
x 7−→ q exp − (x − m)T Σ−1 (x − m) .
(2π)d det Σ 2

31
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Proposition 3.8. Si X = (X1 , . . . , Xd ) ∼ Nd (m, Σ) alors sa fonction caractéristique est
donnée pour tout t ∈ Rd par :
T 1 T
ϕX (t) = eit m− 2 t Σt .

Preuve : Notons que si puisque X ∼ Nd (m, Σ), par définition, pour tout a ∈ Rd , tT X =
t1 X1 + · · · + td Xd , suit une loi normale unidimensionnelle. Son espérance étant donnée par
tT m et sa variance par tT Σt, on obtient par le résultat de l’Exercice 2.4 que :
T m− 1 tT Σtx2
ϕtT X (s) = eit 2 .

Il suffit maintenant de remarquer que :


TX T X) T m− 1 tT Σt
ϕX (t) = E[eit ] = E[ei×1×(t ] = ϕtT X (1) = eit 2 .

Proposition 3.9. Si X ∼ Nd (m, Σ), avec Σ définie positive, alors,


√ −1
Σ (X − m) ∼ Nd (0, Id ).

Preuve : Puisque Σ définie positive, il existe A = Σ telle que Σ = AAT et l’expression
√ −1
donnée à bien un sens. On montre ensuite que Y = Σ (X − m) est bien distribué selon
Nd (0, Id ) par un calcul de fonction caractéristique laissé au lecteur.

Proposition 3.10. Soit C = (X, Y ) un vecteur gaussien (au sens de la Définition 3.6).
Alors, X et Y sont indépendantes si, et seulement si, Cov(X, Y ) = 0.

Remarque 3.5.
On sera vigilent à ne pas confondre (X, Y ) un vecteur (ou couple) gaussien (au sens de la
Définition 3.6) et un vecteur (ou couple) de v.a. gaussiennes, sans quoi la conclusion de cette
proposition est fausse (ce que l’on verra dans un exercice de TD).
Preuve :
Comme nous l’avons déjà vu le sens direct est vrai en toute généralité (quelque soient les
lois de X et Y ) contrairement au sens indirect. Pour le sens indirect, d’après le Théorème 3.3,
il suffit de voir que, pour tous t1 , t2 , ϕ(X,Y ) (t1 , t2 ) = ϕX (t1 )ϕY (t2 ). Puisque, Cov(X, Y ) = 0,
!
V[X] 0
V[(X, Y )] =
0 V[Y ]

et donc
1 2 2
ϕ(X,Y ) (t1 , t2 ) = ei(t1 E[X]+t2 E[Y ])− 2 (t1 V[X]+t2 V[Y ])
1 2 1 2
= eit1 E[X]− 2 t1 V[X] eit2 E[Y ]− 2 t2 V[Y ] = ϕX (t1 )ϕY (t2 ).

32
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7 Familles exponentielles de lois
Les familles exponentielles de lois forment des classes de lois paramétriques, de paramètres
θ dans un ensemble de paramètres Θ, jouissant de propriétés communes en statistiques, en
particuliers dans les théories des tests et de l’estimation. Ceci découle du fait que, par dé-
finition, leurs densités (cas continu) ou fonction de probabilité (cas discret) admettent une
écriture canonique commune. Notons, qu’en général, θ = (θ1 , . . . , θk ) est un élément de Rk et
ne contiendra, dans le contexte statistique, que les paramètres inconnus des lois (une partie
des paramètres peut être supposée connue). Dans ce cours, nous nous restreindrons au cas
continu (dominé par la mesure de Lebesgue λ) et discret (dominé par une mesure de comp-
tage). Un exposé plus général peut être trouvé dans la Section 2.4 de [8] par exemple. Dans
le cas continu, nous noterons f (·; θ), θ ∈ Θ ⊂ Rk la densité de la loi lorsque le paramètre est
θ ; il s’agit d’une fonction d’une variable réelle x. Dans le cas discret, nous noterons, avec un
léger abus de notation permettant une plus grande uniformité, f (·; θ), θ ∈ Θ ⊂ Rk (au lieu
de p(·, θ)) la fonction de probabilité de la loi lorsque le paramètre est θ. La donnée des f (·, θ),
θ ∈ Θ, caractérise dans les deux cas la famille paramétrique de lois.

Définition 3.7. Soit, avec les conventions précédentes, une famille paramétrique F de lois
caractérisée par {f (·, θ), θ ∈ Θ} où Θ ⊂ Rk . On dit que F est une famille exponentielle de
lois, s’il existe des fonctions a, b, c1 , . . . , ck , d1 , . . . , dk telles que pour tout x ∈ R :
k
!
X
f (x; θ) = a(θ)b(x) exp ci (θ)di (x) .
i=1

Cette expression est appelée écriture canonique des densités (ou fonctions de probabilité dans
le cas discret) de la famille de lois.

Remarque 3.6.
1. Dans le cas continu l’égalité
k
!
X
f (x; θ) = a(θ)b(x) exp ci (θ)di (x)
i=1

λ-p.p. suffit.
2. Insistons sur le fait que, dans la définition précédente k sera le nombre de paramètres
inconnus dans le contexte statistique.
3. La séparation des variables x et θ dans l’écriture canonique montre que le support
des lois d’une famille exponentielle ne peut pas dépendre des paramètres (inconnus) θ.
Ainsi, les lois de Fréchet Fre (θ, 1, 1), θ ∈ R, (voir Section A.2.12) ne forment pas une
famille exponentielle. Plus simplement, les lois uniformes U ([0, θ]), θ ∈ R, ne forment
pas une famille exponentielle. Les lois binomiales Bin (θ), θ = (n, p), ne forment pas une
famille exponentielle mais si, comme pour nos applications statistiques, le paramètre n
est connu, les lois binomiales Bin (n, θ), θ ∈ [0, 1], forment une famille exponentielle
pour laquelle on a :
!
n θ
 
n
a(θ) = (1 − θ) , b(x) = , c(θ) = ln et d(x) = x.
x 1−θ

33
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Donnons maintenant les exemples d’usages les plus courants de familles exponentielles.
Pour cela, on précisera le(s) paramètre(s) inconnu(s) θ et l’espace des paramètres Θ et on
rappellera dans chaque les densités ou fonctions de probabilité de ces famille avant de les
réécrire sous forme canonique. On mettra également en valeur, dans chaque cas, les fonctions
d (ou d1 et d2 ) qui trouveront des applications en statistiques.

3.7.1 Famille des lois de Bernoulli


Le paramètre inconnu est θ = p ∈ Θ = [0, 1]. On a :

f (x; θ) = θ1x=1 + (1 − θ)1x=0


!
1 θ
   
= (1 − θ) 1 exp ln x
x x∈{0,1} 1−θ

et donc d(x) = x.

3.7.2 Famille des lois binomiales avec n connu


Le paramètre inconnu est θ = p ∈ Θ = [0, 1]. On a :

! ! x
n x n θ
f (x; θ) = θ (1 − θ)n−x = (1 − θ)n
x x 1−θ
!
n θ
   
n
= (1 − θ) 1x∈{0,...,n} exp ln x
x 1−θ

et donc d(x) = x.

3.7.3 Famille des lois géométriques


Le paramètre inconnu est θ = p ∈ Θ = [0, 1]. On a :

f (x; θ) = 1x∈N∗ (1 − θ)x−1 θ


θ
= 1x∈N∗ exp (ln (1 − θ) x)
1−θ
et donc d(x) = x.

3.7.4 Famille des lois de Poisson


∗ . On a :
Le paramètre inconnu est θ = λ ∈ Θ = R+

θx
f (x; θ) = e−θ
x!
1x∈N
= e−θ exp (ln (θ) x)
x!
et donc d(x) = x.

34
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.5 Famille des lois binomiales négatives avec r connu
Le paramètre inconnu est θ = p ∈ Θ = [0, 1]. On a (voir Appendice A) :

xr−1 θr e−θx
f (x; θ) = 1x>0
Γ(r)
et donc d(x) = x.

3.7.6 Famille des lois exponentielles


∗ . On a :
Le paramètre inconnu est θ = λ ∈ Θ = R+

f (x; θ) = θe−θx 1[0;+∞[ (x)


= θ1[0;+∞[ (x) exp (−θx)
et donc d(x) = x.

3.7.7 Famille des lois gamma avec r connu


∗ . On a :
Le paramètre inconnu est θ = λ ∈ Θ = R+

x
xr−1 e− θ
f (x; θ) = 1 (x)
Γ(r)θr ]0;+∞[
1 r−1

−1

= x 1 ]0;+∞[ (x) exp −θ x
Γ(r)θr
et donc d(x) = x.

3.7.8 Famille des lois beta avec p connu


∗ . On a :
Le paramètre inconnu est θ = q ∈ Θ = R+

xp−1 (1 − x)θ−1
f (x; θ) = 10<x<1
B(p, θ)
1
= xp−1 10<x<1 exp ((θ − 1) ln(x − 1))
B(p, θ)
et donc d(x) = ln(x − 1).

3.7.9 Famille des lois beta avec q connu


∗ . On a :
Le paramètre inconnu est θ = p ∈ Θ = R+

xθ−1 (1 − x)q−1
f (x; θ) = 10<x<1
B(θ, q)
1
= (1 − x)q−1 10<x<1 exp ((θ − 1) ln(x))
B(θ, q)
et donc d(x) = ln(x).

35
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.10 Famille des lois beta
∗ . On a :
2
Le couple de paramètres inconnus est θ = (θ1 , θ2 ) = (p, q) ∈ Θ = R+

xθ1 −1 (1 − x)θ2 −1
f (x; θ) = 10<x<1
B(θ1 , θ2 )
1
= 10<x<1 exp ((θ1 − 1) ln(x) + (θ2 − 1) ln(1 − x))
B(θ1 , θ2 )
et donc d1 (x) = ln(x) et d2 (x) = ln(1 − x).

3.7.11 Famille des lois normales avec m connu


∗ . On a :
Le paramètre inconnu est θ = σ 2 ∈ Θ = R+

1 (x−m)2
f (x; θ) = √ e− 2θ
2πθ
1 1
 
2
=√ exp − (x − m)
2πθ 2θ
et donc d(x) = (x − m)2 .

3.7.12 Famille des lois normales avec σ 2 connu


Le paramètre inconnu est θ = m ∈ Θ = R. On a :

1 (x−θ)2
f (x; θ) = √ e− 2σ 2
2π 2 σ 2
1 x2 θx θ2
=√ e− 2σ2 + σ2 − 2σ2
2πσ 2
2 2
1 θ
 
− θ2 − x2
= √ e 2σ e 2σ exp x
2πσ 2 σ2

et donc d(x) = x.

3.7.13 Famille des lois normales


∗ . On a :
Le couple de paramètres inconnus est θ = (θ1 , θ2 ) = (m, σ 2 ) ∈ Θ = R × R+

2
1 (x−θ )
− 2θ 1
f (x; θ) = √ e 2
2π 2 θ2
2 θ2
1 θ x
−x + 1 − 1
=√ e 2θ2 θ2 2θ2
2πθ2
θ2
1 1 2 θ1
 
− 1
=√ e 2θ2 exp − x + x
2πθ2 2θ2 θ2

et donc d1 (x) = x2 et d2 (x) = x.

36
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.14 Famille des lois de Pareto avec a connu
∗ . On a :
Le paramètre inconnu est θ ∈ Θ = R+

 θ+1
θ a
f (x; θ) = 1[a;+∞[ (x)
a x
1[a;+∞[ (x) −(θ+1)
= θaθ x
a
1[a;+∞[ (x)
= θaθ exp (−(θ + 1) ln(x))
a
et donc d(x) = ln(x).

37
Chapitre 4

Modes de convergence de variables


aléatoires, théorèmes limites

4.1 Modes de convergence de variables aléatoires


Dans cette section, on introduit succinctement les modes de convergence de suites de
variables aléatoires et les principaux liens qu’ils entretiennent. Pour plus de détails, le lecteur
est renvoyé au Chapitre 5 de [4] et aux Chapitres 10 et 14 de [13].

4.1.1 Convergence presque sûre


Définition 4.1. On dit qu’une suite (Xn )n∈N de v.a. réelles sur (Ω, A, P) converge presque
sûrement (p.s) vers X si {ω ∈ Ω : limn→+∞ Xn (ω) ̸= X(ω)} est P-négligeable. On note alors
p.s.
Xn −→ X.

4.1.2 Convergence en probabilité


Définition 4.2. On dit qu’une suite (Xn )n∈N de v.a. réelles sur (Ω, A, P) converge en pro-
babilité vers X si pour tout ε > 0 :

lim P[|Xn − X| ≥ ε] = 0.
n→+∞

P
On note alors Xn −→ X.

4.1.3 Convergence dans Lp


Définition 4.3. Soit p > 0. On dit qu’une suite (Xn )n∈N de v.a. réelles admettant un moment
d’ordre p sur (Ω, A, P) converge dans Lp vers X (admettant un moment d’ordre p) si :

lim E[|Xn − X|p ] = 0,


n→+∞

soit encore si :
lim ∥Xn − X∥p = 0,
n→+∞

Lp
On note alors Xn −→ X.

39
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
L2
Définition 4.4. Si Xn −→ X, on dit que (Xn )n∈N converge dans en moyenne quadratique
m.q.
vers X. On note alors Xn −→ X.

4.1.4 Convergence en loi


Rappelons que deux v.a. X et Y ont même loi si pour toute fonction continue bornée φ :

E[φ(X)] = E[φ(Y )],

ou encore si leurs fonctions caractéristiques sont égales ou encore si leurs fonctions de répar-
titions sont égales (puisqu’elle caractérisent la loi).
Définition 4.5. On dit qu’une suite (Xn )n∈N de v.a. réelles sur (Ω, A, P) converge en loi
vers X si pour toute fonction continue bornée φ :

lim E[φ(Xn )] = E[φ(X)].


n→+∞

L
On note alors Xn −→ X.
Le résultat suivant donne des caractérisations pratiques de la convergence en loi.
Théorème 4.1. Les assertions suivantes sont équivalentes :
L
1. Xn −→ X ;
2. FXn converge vers FX en tout point de continuité de FX ;
3. ϕXn converge simplement vers ϕX sur R.
L
Si les Xn et X sont discrètes, Xn −→ X si, et seulement si, pour tout x dans le support
de X,
lim P[Xn = x] = P[X = x].
n→∞

4.1.5 Liens entre les modes de convergence


Le schéma suivant résume les liens principaux entre les modes de convergence de variables
aléatoires. Des réciproques partielles peuvent être établies dans certains cas particuliers mais
ne seront pas utiles pour nos propos.
Lp =⇒ Lq
p>q

p.s. =⇒ P =⇒ L

4.2 Théorèmes limites


Pour (Xn )n∈N une suite de variables aléatoires indépendantes et identiquement distribuées
(v.a.i.i.d.) sur (Ω, A, P), on notera :
n
1X
Xn = Xi ,
n i=1

la moyenne empirique des n premières de ces v.a..

40
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
4.2.1 Lois des grands nombres
Théorème 4.2 (Loi faible des grands nombres). Soit (Xn )n∈N une suite de v.a.i.i.d. de même
P
loi que X ( loi mère). Si E[|X|] < +∞, alors X n −→ E[X].
Ce résultat montre que pour toute suite de v.a.i.i.d. intégrables, la moyenne empirique
d’un échantillon de n d’entre elles tend à s’approcher de la moyenne d’une de ces variables
individuelles. Une version plus forte de ce résultat est donnée dans le paragraphe suivant.
Théorème 4.3 (Loi forte des grands nombres). Soit (Xn )n∈N une suite de v.a.i.i.d. de même
p.s.
loi que X. Alors, X n −→ E[X] si, et seulement si, E[|X|] < +∞.

4.2.2 Théorème Central Limite


Notons que, si (Xn )n∈N une suite de v.a.i.i.d. de moyenne m et de variance σ 2 , il est clair
que
Xn − m

σ/ n
est centrée et réduite puisque la transformation appliquée à X n consiste précisément en la
centrer et réduire. Par ailleurs, la loi forte des grands nombres indique que X n − m converge
presque sûrement vers 0. Le résultat suivant précise les fluctuation X n autour de m en identi-
fiant la loi du quotient précédent. Il induit une forme d’universalité de celles-ci, fondamentale
pour l’étude statistique, et justifie l’intérêt particulier porté aux lois normales et aux échan-
tillons gaussiens.
Théorème 4.4 (Théorème Central Limite (TCL)). Soit (Xn )n∈N∗ une suite de v.a.i.i.d. de
moyenne m et de variance 0 < σ 2 < +∞, alors
Xn − m L
√ −→ Z ∼ N (0, 1).
σ/ n

Preuve : Quitte à remplacer Xi par (Xi − m)/σ, on peut supposer que m = 0 et σ =


t2
1. Rappelons que la fonction caractéristique de N (0, 1) est donnée par t 7−→ e− 2 . Par le
Théorème 4.1, il suffit de voir que pour tout t ∈ R :
t2
lim ϕ√nX n (t) = e− 2 .
n→+∞

Puisque les Xi sont i.i.d., on a :

 

 Pn  n
i √tn √t Xj
h i
X Y i
ϕ√nX n (t) = E eit nX n
=E e j=1 j =E  en 
j=1
n  
Y i √tn Xj
= E e (par indépendance)
j=1
 n
i √tn X1
=E e (par indentique distribution)
n
t
 
= ϕX √ .
n

41
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
Comme X est admet un moment d’ordre 2, la Proposition 2.12 implique que ϕ′X (0) = 0 et
ϕ′′X (0) = −1 et donc, lorsque u → 0 :

u2
ϕX (u) = 1 − + o(u2 ).
2
Ainsi, pour n → +∞
!n
t2 t2
ϕ√nX n = 1− + o(n−1 ) = e− 2 + o(1)
2n
ce qui termine la preuve. □

Théorème 4.5 (Théorème de Moivre-Laplace). Soit (Bn )n∈N∗ une suite de v.a. indépen-
dantes avec Bn ∼ Bin(n; p), p ∈]0; 1[.
Alors,
Bn − np L
p −→ Z
np(1 − p) n→+∞
où Z ∼ N (0; 1).

Preuve : Exercice !
Indication : appliquer le TCL à une suite de v.a.i.i.d. bien choisie. □

Remarque 4.1. Dans la pratique, on considère que l’approximation fournie par ce théorème
est bonne si n ≥ 30, p ≥ 0, 1 et np > 15.

42
Chapitre 5

Principes fondamentaux de
l’échantillonnage

5.1 Généralités et approche empirique


La statistique a pour objet l’étude de phénomènes ou caractères pouvant varier d’un in-
dividu à l’autre dans une population, variation que l’on attribue à un certain hasard sur
lequel on souhaite acquérir de l’information, par exemple, en en estimant des paramètres ou
la loi. L’idée fondamentale est d’obtenir des observations répétées du caractère étudié. Il s’agit
d’une approche empirique, laquelle consiste en considérer que la connaissance s’acquière par
l’accumulation d’observations, allant du concret à l’abstrait. A titre d’exemple, s’il est pos-
sible d’observer un caractère numérique chez un grand nombre d’individus, disons que l’on
dispose d’observations x1 , . . . , xn , la loi des grands nombres (voir Section 4.2.1) donne un
moyen simple d’estimer l’espérance de la v.a. régissant ce caractère par la moyenne empirique
X n = n1 nk=1 Xk sous condition d’intégrabilité et d’indépendance. Cette condition d’indé-
P

pendance est généralement invérifiable en pratique et même invérifiée. Elle reste pourtant
une hypothèse importante permettant de mener à bien l’étude théorique que nous ferons.
Discutons brièvement, d’un cadre courant pour lequel cette hypothèse fourni une bonne ap-
proximation et est donc tout à fait raisonnable. Lors d’un sondage dans une grande population
de taille N , on peut décider de prélever un échantillon aléatoire et simple. Ceci consiste à choi-
sir (sans remise) n individus dans la population de façon uniforme. De manière équivalente,
on choisit uniformément un individu parmi les N , puis un second parmi les N − 1 restants,
etc, jusqu’au ne individu sélectionné parmi les N − n + 1 restant. Bien entendu, les observa-
tions correspondant à ces individus x1 , . . . , xn ne sont pas indépendantes. On pourrait essayer
de contourner cette difficulté en effectuant un tirage avec remise avec des tirages effective-
ment indépendants, lequel perd de l’efficacité puisque le risque de sélectionner plusieurs fois
n
le même individu est présent. Notons maintenant que si le taux de sondage N est faible, di-
sons inférieur à 5%, les sondages avec ou sans remise sont moralement proches et l’utilisation
d’un échantillon aléatoire et simple avec un tel taux de sondage donne des approximations
correctes.

Définition 5.1. On appelle échantillon aléatoire de taille n toute famille (X1 , . . . , Xn ) de


v.a.i.i.d.. Si X1 ∼ L, la loi L est appelée loi mère de l’échantillon.

Insistons sur le fait qu’un échantillon aléatoire est constitué de v.a. X1 , . . . , Xn . Nous

43
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE

noterons x1 , . . . , xn une réalisation d’un tel échantillon qui correspond à des observations
« réelles » de ces variables aléatoires.

Définition 5.2. Soit (X1 , . . . , Xn ) un échantillon aléatoire de taille n. On appelle statistique


toute fonction de X1 , . . . , Xn .

Supposons que X1 , . . . , Xn soient des v.a. réelles. La quantité


n
1X
Xn = Xk
n k=1

est une statistique appelée moyenne empirique.


De même, la quantité
n n
1X 1X 2
Sen2 = (Xk − X n )2 = Xk2 − X n
n k=1 n k=1

est une statistique appelée variance empirique. On définit de manière analogue le moment
empirique d’ordre r et le moment empirique centré d’ordre r par
n n
1X 1X
Mr = Mr,n = Xr et Mr′ = Mr,n

= (Xk − X n )r .
n k=1 k n k=1

Il découle directement de l’indépendance des v.a. X1 , . . . , Xn et de calculs élémentaires


que
E[Mr ] = E[X1r ]
pourvu que ces moments existent. En particulier, on a :

Proposition 5.1. Supposons que la loi mère soit de moyenne m et de variance σ 2 .


Alors,
σ2
E[X n ] = m, V[X n ] = ,
n
et
n−1 2
E[Sen2 ] = σ .
n
Observons que l’espérance de la moyenne empirique est la moyenne de la loi mère et que
sa variance tend vers 0 lorsque n tend vers l’infini. Cette deuxième observation montre que
l’estimation de la moyenne par la moyenne empirique est de plus en plus précise et fiable
quand la taille de l’échantillon augmente. Observons également que l’espérance de la variance
empirique n’est pas la variance de la loi loi mère (voir notion de biais). Toutefois, l’espérance
de la variance empirique tend vers la variance de la loi loi mère quand n tend vers +∞ ;
on dit que cet estimateur est asymptotiquement sans biais. Il est possible de « corriger » cet
estimateur en un estimateur sans biais. Pour cela, on définit la variance (empirique) corrigée
par
n
2 1 X
Sn = (Xk − X n )2
n − 1 k=1
pour laquelle on a :
E[Sn2 ] = σ 2 .

44
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE

On préférera donc l’utilisation Sn2 à celle de Sen2 . Ces deux notions conduisent naturellement à
celles d’écart-type empirique et écart-type empirique corrigé en en prenant la racine carrée.
Notons que les statistiques que nous venons d’introduire présupposent l’existence de mo-
ments pour la loi mère et que ceux-ci peuvent ne pas exister (par exemple pour une loi de
Cauchy). Une v.a. ou une statistique peut également être fonctionnelle c’est-à-dire prendre
pour valeurs des fonctions. Un exemple naturel, ayant pour but l’estimation de la fonction
de répartition et valide même si la loi mère n’a pas de moment est la fonction de répartition
empirique dont la valeur en x ∈ R est définie par :
n
1X
Fn (x) = 1X ≤x .
n k=1 k
Elle représente la proportion de v.a. dans l’échantillon prenant une valeur inférieure ou égale
à n.

5.2 Statistiques d’ordre


Définition 5.3. Soit (X1 , . . . , Xn ) un échantillon aléatoire. Considérons une permutation
X(1) , , . . . , X(n) des Xj telle que X(1) ≤ X(2) ≤ · · · ≤ X(n) .
On appelle statistique d’ordre k la statistique X(k) .
En particulier,

X(1) = min(X1 , . . . , Xn ) et X(n) = max(X1 , . . . , Xn ).


Remarquons que les statistiques d’ordre sont exactement les points de discontinuité de la
fonction de répartition empirique.
La fonction de répartition de X(k) s’exprime de façon explicite comme suit :

h i
FX(k) (x) = P X(k) ≤ x
= P [au moins k des Xj sont ≤ x]
n
X
= P [exactement l des Xj sont ≤ x]
l=k
n
!
n
P [X1 ≤ x]l P [X1 > x]n−l
X
= (Xj i.i.d.)
l=k
l
n
!
n
FX1 (x)l (1 − FX1 (x))n−l .
X
=
l=k
l
En particulier,
FX(1) (x) = 1 − (1 − FX1 (x))n et FX(n) (x) = (FX1 (x))n .
Lorsque la loi mère est à densité, les formules précédentes permettent, en dérivant, de
déduire facilement les densités des statistiques d’ordre.
Exercice 5.1. Montrer que si (X1 , X2 ) est un couple de v.a. indépendantes de loi continue
de densité f , alors (X(1) , X(2) ) admet pour densité jointe :
f(X(1) ,X(2) ) (x(1) , x(2) ) = 2f (x(1) )f (x(2) )1x(1) ≤x(2) .

45
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE

Montrer, plus généralement, que si (X1 , . . . , Xn ) est un échantillon d’une loi continue de
densité f , alors (X(1) , . . . , X(n) ) admet pour densité jointe :
n
Y
f(X(1) ,...,X(n) ) (x(1) , . . . , x(n) ) = n! f (x(k) )1x(1) ≤···≤x(n) .
k=1

Indication : On pourra utiliser que, par la Proposition 2.8, il suffit de voir que pour toute
fonction mesurable positive φ :
Z n
Y
E[φ(X(1) , . . . , X(n) )] = φ(x(1) , . . . , x(n) )n! f (x(k) )1x(1) ≤···≤x(n) d x(1) . . . d x(n)
Rn k=1

et penser à sommer sur les permutations des indices ordonnant comme il faut les variables.

5.3 Cas des lois mères gaussiennes


Dans cette section, on considère un échantillon (X1 , . . . , Xn ) de v.a.i.i.d. de loi mère gaus-
sienne N (m, σ 2 ). Une application directe de la Proposition 3.7 montre alors que
!
σ2
Xn ∼ N m, .
n

Le fait que la loi de X n soit accessible facilement dans le cas gaussien est remarquable.
Pour une loi mère générique, ce n’est en général pas le cas. Il existe pourtant d’autres lois pour
lesquelles la loi de la moyenne empirique est accessible simplement (Bernoulli exponentielle
ou Poisson par exemple). Intéressons nous maintenant à la loi de la statistique Sn2 dans le
cas gaussien. Celle-ci s’identifie, après avoir introduit la loi du Khi-2 (voir Section A.2.13), en
utilisant le théorème suivant, fondamental pour l’étude d’échantillons gaussiens. Sa démons-
tration n’est pas l’un des objectifs principaux de ce cours mais indiquée dans un soucis de
complétude.
Théorème 5.1 (Théorème de Cochran (simplifié)). Soit Y = (Y1 , . . . , Yn )T ∼ N (0, In ) et F
un sous-espace vectoriel de Rn de dimension d. Soient πF et πF ⊥ les projections orthogonales
sur F et F ⊥ respectivement.
Alors, projections orthogonales πF Y et πF ⊥ Y de Y sur ces sous espaces sont gaussiennes
indépendantes de lois N (0, πF ) et N (0, πF ⊥ ) respectivement et on a ∥πF Y ∥2 ∼ χ2 (d) et
∥πF ⊥ Y ∥2 ∼ χ2 (n − d).

Remarque 5.1.
Ce théorème se généralise au cas d’une décomposition de Rn en p sous-espaces vectoriels
orthogonaux. La preuve est alors un peu plus lourde à écrire mais suit la même démarche.

Preuve : Soient (e1 , . . . , ed ) une base orthonormée de F et (ed+1 , . . . , en ) une base orthonor-
mée de F ⊥ . Alors, e = (e1 , . . . , en ) est une base orthonormée de Rn et la matrice de passage P
permettant d’exprimer les coordonnées dans cette nouvelle base à partir des coordonnées dans
la base canonique est orthonormale (P ⊥ = P −1 ). Notons In,d la matrice diagonale dont les d
premiers coefficients diagonaux sont égaux à 1 et les autres à 0. Notons aussi Jn,d = In − In,d .
Les projections πF et πF ⊥ s’expriment alors simplement dans la base e :
πF = P In,d P T et πF ⊥ = P Jn,d P T .

46
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE

Alors, le vecteur Z = P T Y des coordonnées de Y dans la base e est gaussien centré réduit
(sa matrice de covariance est P In P T = In ). Il s’ensuit que In,d Z = (Z1 , . . . , Zd , 0, . . . , 0)T et
Jn,d Z = (0, . . . , 0, Zd+1 , . . . , Zn )T sont gaussiens indépendants de lois N (0, In,d ) et N (0, Jn,d )
respectivement et que l’on a ∥In,d Z∥2 = dk=1 Zk2 ∼ χ2 (d) et ∥Jn,d Z∥2 = nk=d+1 Zk2 ∼
P P

χ2 (n − d).
Pour conclure, il reste à remarquer, d’une part, que πF Y = P In,d Z et πF ⊥ Y = P Jn,d Z
sont gaussiens centrés de matrices de covariance respectives P In,d P T = πF et P Jn,d P T = πF ⊥
et d’autre part que, puisqu’une transformation orthogonale préserve la norme :

∥πF Y ∥2 = ∥In,d Z∥2 ∼ χ2 (d) et ∥πF ⊥ Y ∥2 = ∥Jn,d Z∥2 ∼ χ2 (n − d).


Avant la lecture du prochain résultat, un lecteur non familier avec la loi de Student est
invité à consulter la Section A.21.

Théorème 5.2. Soit (X1 , . . . , Xn ) un échantillon de v.a.i.i.d. de loi mère gaussienne N (m, σ 2 ).
Alors, X n et Sn2 sont indépendantes et on a :
!
σ2
Xn ∼ N m, ,
n

n−1 2
S ∼ χ2 (n − 1),
σ2 n
et
Xn − m
√ ∼ T (n − 1).
Sn / n

Remarque 5.2. On voit, en particulier, que dans le cas d’un échantillon de loi mère gaussienne
N (m, σ 2 ), on a
2σ 4
E[Sn2 ] = σ 2 et V[Sn2 ] = .
n−1

Preuve : Nous avons déjà vu que


!
σ2
Xn ∼ N m, .
n

Pour montrer que X n et Sn2 sont indépendantes et identifier la loi de n−1 S 2 , nous allons
σ2 n
utiliser le Théorème de Cochran 5.1. Pour tout k ∈ {1, . . . , n}, posons Yk = σ −1 (Xk − m).
Alors, Y = (Y1 , . . . , Yn )T ∼ N (0, In ) et nous pouvons appliquer le Théorème de Cochran avec
le sous-espace vectoriel de Rn (de dimension 1) F = vect(1n ) où 1n = (1, . . . , 1). Notons
que 1n · Y = Y n = nk=0 Yk et que Y n 1n ∈ F . Notons également que (Y − Y n 1n ) · 1n = 0
P

donc Y − Y n 1n ∈ F ⊥ . Ainsi, πF Y = Y n 1n et πF ⊥ Y = Y − Y n 1n . Donc, par le Théorème de


Cochran 5.1, ∥Y − Y n 1n ∥2 ∼ χ2 (n − 1) et est indépendante de Y n . Or, on a X n = Y n + m et

n  n
!2 n
!2
2
X 2 X Xk − m X n − m X Xk − X n n−1 2
∥Y −Y n 1n ∥ = Yk − Y n = − = = S .
k=1 k=1
σ σ k=1
σ σ2 n

47
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE

Ainsi, X n et Sn2 sont indépendantes et :


n−1 2
S ∼ χ2 (n − 1).
σ2 n
Il reste à voir que :
Xn − m
√ ∼ T (n − 1).
Sn / n
Le reste du théorème étant acquis, ce dernier point découle directement de la définition de la
loi de Student (Définition A.21) puisque

Xn − m n−1 2
√ ∼ N (0, 1) et S ∼ χ2 (n − 1)
σ/ n σ2 n

sont indépendantes et

−m
X n√
σ/ n Xn − m
r = √ .
n−1 2
Sn Sn / n
σ2
n−1


Terminons cette section par un résultat sur le rapport de variances d’échantillons gaussiens
indépendants découlant directement du Théorème 5.2 et de la Définition A.22.

Proposition 5.2. Soient X = (X1 , . . . , Xn ) et Y = (Y1 , . . . , Ym ) deux échantillons gaussiens


indépendants ayant des lois mères de même variance (les moyennes peuvent être différentes).
2 et S 2 leurs variances corrigées respectives.
Soient SX Y
Alors,
2
SX
∼ F(n − 1, m − 1).
SY2

Preuve : Grâce au Théorème 5.2, on a :


n−1 2 m−1 2
SX ∼ χ2 (n − 1) et SY ∼ χ2 (m − 1)
σ σ
et ses v.a. sont indépendantes puisque les échantillons X et Y le sont. □

48
Chapitre 6

Estimation paramétrique ponctuelle

6.1 Cadre de l’estimation paramétrique ponctuelle

L’objectif de l’estimation paramétrique ponctuelle est de fournir une valeur « plausible »


(une estimation) de certaines caractéristiques d’une loi inconnue, ou « partiellement incon-
nue » régissant un phénomène aléatoire. Elle est à distinguer de l’estimation par intervalle de
confiance que nous aborderons au Chapitre 8. Dans ce cours, même si des généralisations res-
tent possibles, nous nous restreindrons au cadre dans lequel l’estimation est obtenue à partir
d’échantillons i.i.d. (X1 , . . . , Xn ) que l’on choisira de taille suffisamment importante (disons
n ≥ 30) afin de fournir des estimations convenables. On notera qu’un tel échantillon, noté
avec des lettres majuscules, est constitué de variables aléatoires et que la valeur numérique de
l’estimation sera in fine calculée à partir d’une observation (x1 , . . . , xn ), notée en minuscules,
qui n’est autre qu’une réalisation particulière de l’échantillon observée « sur le terrain », au-
trement dit, la répétition de n observations indépendantes de la loi mère. Nous indiquions que
la loi mère de l’échantillon est inconnue (ou l’est partiellement). Nous sommes donc amenés à
considérer des familles de lois Pθ indexées par les paramètres inconnus θ prenant leurs valeurs
dans un espace de paramètres Θ. Ceci traduit un certain a priori sur la loi mère. L’ensemble
des observations X est l’union sur tous les θ ∈ Θ des supports des lois Pθ . On supposera nos
modèles identifiables c’est-à-dire tels que Pθ1 ̸= Pθ2 dès que θ1 ̸= θ2 .
Notons qu’il est également possible de fournir des estimations lorsque la loi mère ne fait pas
partie d’une famille paramétrable de lois lorsque, comme souvent dans la réalité, l’information
sur cette loi mère est plus vague ; il s’agit du cadre de l’estimation non paramétrique et de
l’estimation fonctionnelle. Même si l’étude est dans ce cas liée aux concepts développés dans
ce cours, nous ne la traiterons pas ici. Le lecteur intéressé par cette question est renvoyé
vers [7, Chapitre 8].
Exemple 6.1. Si la loi mère est supposée Ber(p), θ = p ∈ Θ = [0, 1] et X = {0, 1}.

Exemple 6.2. Si la loi mère est supposée gaussienne (non dégénérée), sans plus d’information
∗ et X = R.
sur ses paramètres, on a alors θ = (m, σ 2 ), l’espace des paramètres est Θ = R ×R+

Exemple 6.3. Si la loi mère est supposée gaussienne de moyenne m (non dégénérée), mais
∗ et
sans d’information sur sa variance, on a alors θ = σ 2 , l’espace des paramètres est Θ = R+
X = R.

49
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

Exemple 6.4. Si la loi mère est supposée uniforme sur [1, θ] pour un θ > 1, on a Θ = [1, +∞[
et X = [1, +∞[.
Dans certains cas, il pourra être utile d’estimer une fonction de θ, disons g(θ), plutôt que
θ lui même, par exemple, si g(θ) est la moyenne, ou plus généralement, un moment de la
loi Pθ . Notons également qu’il est possible de donner plusieurs paramétrisations de la même
famille de lois (voir suite de l’Exemple 6.4).
Définition 6.1. Avec les conventions précédentes le couple (X , (Pθ )θ∈Θ ) est appelé modèle
statistique. Un estimateur de g(θ) est alors une fonction de X1 , . . . , Xn , indépendante de θ
(donc une statistique) et à valeurs dans g(Θ).
 
Les Exemples 6.1 à 6.4 correspondent donc aux modèles statistiques {0, 1}, (B(θ))θ∈[0,1] ,
     
R, (N (θ))θ∈R×R+∗ , R, (N (m, θ))θ∈R+∗ et [1, +∞[, (U([1, θ]))θ∈[1,+∞[ respectivement. La
moyenne empirique X n = n1 ni=1 Xi et la v.a. p.s. constante égale à 1 (ou (1, 1) dans l’Exemple
P

6.2) sont des estimateurs mais la v.a. p.s. constante égale à θ n’en est pas un. Dans le modèle
gaussien avec moyenne connue de l’Exemple 6.3, n−1 ni=1 (Xi − m)2 est un estimateur θ mais
P

dans le modèle gaussien avec moyenne inconnue de l’Exemple 6.2, n−1 ni=1 (Xi − θ1 )2 n’est
P

pas un estimateur θ = (θ1 , θ2 ) = (m, σ 2 ) Le « graal » serait d’identifier θ afin de caractéri-


ser la loi mère de l’échantillon. Ceci n’est pas possible mais on cherchera à déterminer des
estimateurs pertinents pour chacun des paramètres (ou le paramètre vu comme un objet à
éventuellement plusieurs dimensions). Ainsi, pour estimer la moyenne de la loi mère, on pré-
férera certainement la moyenne empirique à la v.a. p.s. constante égale à 1. Notons que les
estimateurs seront généralement désignés par des lettres majuscules, par exemple Tn , pour
insister sur le fait qu’il s’agit de v.a. alors que les estimations, valeurs prises par un estimateur
au cours d’une observation donnée, seront désignées par des lettres minuscules. Lorsque des
lettres grecques sont utilisées, nous n’adopterons pas cette convention et n’utiliserons que les
minuscules. Par exemple, θb pourra être un estimateur de θ ou une estimation de θ, ce qui se
décidera grâce au contexte.
Une exigence minimale sur un estimateur (ou plutôt une suite d’estimateurs) Tn de g(θ) est
qu’il s’approche en un certain sens de g(θ) lorsque n tend vers l’infini. Si Tn converge vers g(θ)
pour l’un des modes de convergence présentés dans le Chapitre 4, on dit qu’il est convergent
pour ce mode. Plus rigoureusement on devrait dire le la suite d’estimateurs est convergente.
Pour deux de ces modes de convergences, certains auteurs utilisent les dénominations de la
définition suivante.
p.s.
Définition 6.2. On dit qu’un estimateur Tn de g(θ) est convergent (ou consistant) si Tn −→
P
g(θ) et qu’il est faiblement convergent si Tn −→ g(θ)

Exemple 6.4 (suite).


Reprenons le modèle uniforme sur [1, θ] et choisissons de le reparamétrer en rappelant que
si X ∼ U([1, θ]), alors Eθ [X] = (θ + 1)/2 = θ′ ∈ Θ′ = [1, +∞[. Ici et dans la suite, Eθ désigne
l’espérance sous Pθ . La loi forte des grands nombres (LGN) assure alors que la moyenne
empirique X n = n1 ni=1 Xi est un estimateur convergent de θ′ . La moyenne empirique est,
P

en fait, un estimateur convergent pour la moyenne pour tout modèle pour lequel la LGN
s’applique.
Dans ce cours, nous considérerons des familles de v.a. continues ou discrètes. Dans le pre-
mier cas, la loi Pθ est caractérisée par la (une en fait) densité f (·; θ) dépendant du paramètre

50
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

à estimer. Dans le second cas, elle l’est par la fonction de probabilité p(·; θ) que nous pourrons
noter, avec un léger abus unificateur, f (·; θ). Ces observations conduisent à la définition de la
vraisemblance d’un modèle statistique.

Définition 6.3. On appelle vraisemblance du modèle statistique (X , (Pθ )θ∈Θ ) toute fonction
L définie sur X n × Θ dont les applications partielles L(·, θ) sont la densité (ou la fonction de
probabilité) de P⊗n
θ = Pθ ⊗ · · · ⊗ Pθ (n fois).

Remarque 6.1. On écrira abusivement « la » vraisemblance au lieu d’une vraisemblance


(les vraisemblances ne peuvent différer que sur des ensembles négligeables). Cette définition
s’étend plus généralement à des v.a. qui ne sont ni continues ni discrètes pour des modèles
dominés (voir par exemple le premier chapitre de [8]). Nous ne nous attarderons pas sur ces
généralisations hors des objectifs du cours. Pour la légèreté des notations, nous désignons
les vraisemblances L sans insister que le fait que l’échantillon soit de taille n comme on
le ferait avec la notation Ln . Le contexte nous guidera donc dans l’interprétation : L(x; θ)
est à comprendre comme L1 (x; θ) = fX1 (x; θ) et L(x1 , . . . , xn ; θ) est à comprendre comme
Ln (x1 , . . . , xn ; θ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; θ).
Rappelons que la loi jointe d’un échantillon est caractérisée par sa densité (ou fonction
de probabilité) jointe donnée. Lorsque l’on considère un échantillon i.i.d. (X1 , . . . , Xn ) de loi
mère supposée être Pθ , par indépendance, celle-ci est donnée, pour (x1 , . . . , xn ) ∈ X , par :
n
Y n
Y
L(x1 , . . . , xn ; θ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; θ) = fX1 (xi ; θ) = L(xi ; θ).
i=1 i=1

Par exemple, la vraisemblance du modèle gaussien de moyenne m de l’Exemple 6.3 est


donnée par !
Pn 2
1 i=1 (xi − m)
L(x1 , . . . , xn ; θ) = n exp − .
(2πθ) 2 2θ
Nous allons maintenant présenter les méthodes les plus classiques de construction d’esti-
mateurs avant de donner des outils permettant d’analyser la qualité des estimateurs et donc
de les discriminer.

6.2 Méthodes classiques de construction d’estimateurs


6.2.1 Méthode de substitution
Supposons que l’on dispose d’un estimateur convergent Tn de θ et que l’on souhaite estimer
g(θ) pour une certaine fonction g continue. Une idée très simple fournit alors un estimateur
convergent de g(θ) : substituer Tn à θ. L’estimateur de g(θ) obtenu est Gn = g(Tn ).
Exemple 6.4 (suite).
Nous avons vu que la moyenne empirique X n = n1 ni=1 Xi est un estimateur convergent
P

de θ′ avec la seconde paramétrisation proposée du modèle uniforme sur [1, θ′ ] et que θ′ est relié
à θ dans la première paramétrisation présentée ′
  dans ces notes par la relation θ = (θ + 1)/2
soit θ = g(θ′ ) := 2θ′ − 1. Ainsi, Tn = g X n = 2X n − 1 est un estimateur convergent de θ
(d’intérêt pour la première paramétrisation).

51
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

6.2.2 Méthode des moments


La méthode des moments présente l’avantage d’être très intuitive mais présuppose l’exis-
tence d’au moins autant de moments pour la loi Pθ que de dimensions dans le paramètre
à estimer et ne donne pas toujours des résultats satisfaisants. Elle n’est, par exemple, pas
applicable pour la loi de Cauchy qui est sans moment (voir Section A.2.9).
Cette méthode repose sur le fait que, si Pθ admet des moments jusqu’à l’ordre k µ1 (θ), . . . , µk (θ),
la LGN assure que, pour tout r ∈ {1, . . . , k} le re moment empirique Mr = n1 ni=1 Xir est un
P

estimateur convergent de µr (θ). Ainsi, si le paramètre θ est de dimension k, pour une réali-
sation (m1 , . . . , mk ) des moments empiriques (M1 , . . . , Mk ), la résolution en θ du système :


 µ1 (θ) = m1

 µ (θ) = m
2 2

 . . . . . . . . .


µk (θ) = mk
fournit une estimation de θ par la méthode des moments. L’estimateur de la méthode des
moments (EM) est obtenu en remplaçant la réalisation (m1 , . . . , mk ) par les v.a. « moments
empiriques » (M1 , . . . , Mk ). S’il est nécessaire de mettre en valeur le fait qu’un estimateur a
été obtenu par la méthode des moments, on le notera θbM . Bien sûr, cette estimation n’est
valable que si le système précédent admet une unique solution dans l’espace des paramètres
Θ.
Exemple 6.2 (suite).
Reprenons l’exemple de l’estimation du paramètre de dimension 2, θ = (θ1 , θ2 ) = (m, σ 2 ),
dans le modèle gaussien. Le premier moment de la loi N (θ) = N (m, σ 2 ) est µ1 (θ) = m = θ1
et son deuxième moment est µ2 (θ) = m2 + σ 2 = θ12 + θ2 . On est donc amenés, en écrivant
avec un léger abus directement les v.a. M1 et M2 , à résoudre le système
(
θ1 = M 1
.
θ12 + θ2 = M2

On obtient (
θ 1 = M1 = X n
θ2 = M2 − M12 = Sen2
où Sen2 désigne la variance empirique (voir 5.1). La méthode des moments conduit donc dans
le cadre gaussien à estimer la moyenne et la variance par la moyenne empirique et la variance
empirique respectivement.
 
Exemple 6.5. Considérons le modèle de lois beta [0, 1], (β(θ))θ∈(R+∗ )2 (voir A.2.4). La
méthode des moments conduit au système :

θ1

θ1 +θ = M1 = X n
22 .
2

θ1 θ2 θ1

(θ1 +θ2 )2 (θ1 +θ2 +1)
+ θ1 +θ2 = M2 = Sen2 + X n

La résolution de celui-ci donne les estimateurs convergents de θ1 et θ2 :

X n − M2 X n − M2
θb1M = X n et θb2M = (1 − X n ) .
Sen2 Sen2

52
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

6.2.3 Méthode du maximum de vraisemblance


La méthode d’estimation par maximum de vraisemblance est certainement celle d’usage
le plus courant et c’est imposée comme référence. Elle est notamment celle utilisée par la
plus part des logiciels de statistique à l’instar de R. L’idée sous-jacente est de chercher, dans
l’espace des paramètres Θ, en disposant d’une observation (x1 , . . . , xn ) un paramètre rendant
la plus probable possible l’observation. Ainsi, sous réserve qu’il existe, une estimation du
maximum de vraisemblance, basé sur l’observation (x1 , . . . , xn ) est :

θbM V = argmaxL(x1 , . . . , xn ; θ),


θ∈Θ

où L est la vraisemblance du modèle. Il s’agit alors d’une fonction de (x1 , . . . , xn ), disons


h(x1 , . . . , xn ). L’estimateur du maximum de vraisemblance (EMV) est alors la statistique
h(X1 , . . . , Xn ) et est fréquemment lui aussi noté θbM V .
Remarque 6.2. Même si, pour la plupart des modèles statistiques, l’EMV existe et est
unique, ceci n’est pas toujours le cas. Pour s’en convaincre, le lecteur pour considérer l’esti-
mation de la moyenne θ ∈ R dans famille des lois de Laplace Pθ de densité

1
f (x) = e−|x−θ| , x ∈ R.
2

S’agissant d’un problème de maximisation en θ d’une fonction positive (la vraisemblance


L(x1 , . . . , xn ; · · · )), il est équivalent à celui de la maximisation de son logarithme, la Log-
vraisemblance ln L(x1 , . . . , xn ; · · · ). Ce second problème peut conduire, dans certains cas, à
des calculs plus simples. C’est en particulier le cas lorsque la vraisemblance est produit de
puissances ou d’exponentielles.
Remarque 6.3. On montre que, sous certaines hypothèses sur le modèle statistique, l’EMV
est un estimateur convergent (voir par exemple [7, Théorème VIII.9.]).

Exemple 6.2 (suite). Reprenons le modèle gaussien avec pour paramètre à estimer θ =
(θ1 , θ2 ) = (m, σ 2 ). La vraisemblance s’écrit
Pn !
2
1 i=1 (xi − θ1 )
L(x1 , . . . , xn ; θ1 , θ2 ) = n exp − ,
(2πθ2 ) 2 2θ2

et la Log-vraisemblance s’écrit
n
1 X n
ln L(x1 , . . . , xn ; θ1 , θ2 ) = − (xi − θ1 )2 − ln(2πθ2 ).
2θ2 i=1 2

En dérivant en θ1 et θ2 , on obtient les système :


( Pn
i=1 (xi − θ1 ) = 0
1 Pn 2 n
θ22 i=1 (xi − θ1 ) − θ2 = 0

dont la solution est (θ1 , θ2 ) = (xn , se2n ). Ainsi, l’EMV est pour ce modèle : (X n , Sen2 ).

53
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

Exemple 6.4 (suite). Reprenons l’exemple de l’estimation du paramètre θ > 1 du modèle


uniforme sur [1, θ]. La vraisemblance s’écrit
n
1
= (θ − 1)−n 1x(1) ≥1 1x(n) ≤θ
Y
L(x1 , . . . , xn ; θ) = 1
(θ − 1)n i=1 xi ∈[1,θ]

où x(1) = min(x1 , . . . , xn ) et x(n) = max(x1 , . . . , xn ). Cette vraisemblance est donc nulle si


x(n) < θ et strictement positive sinon. La fonction θ 7−→ (θ − 1)−n étant décroissante en θ, il
vient que le maximum de vraisemblance est atteint en x(n) . Ainsi, l’EMV est pour ce modèle
la ne statistique d’ordre X(n) .

Remarque 6.4. On voit que dans l’Exemple 6.4, l’EMV X(n) diffère de l’estimateur obtenu
par la méthode des moments (ou de substitution) 2X n − 1. Nous développerons dans la suite
des outils permettant de décider lequel privilégier.
La proposition suivante, dont la démonstration est immédiate, montre que la méthode
d’estimation par maximum de vraisemblance est invariante par reparamétrisation.

Proposition 6.1. Soit h : Θ → Θ′ bijective induisant une reparamétrisation du modèle


(X , (Pθ )θ∈Θ ) en (X , (Pθ′ )θ′ ∈Θ′ ). Alors, l’EMV de θ′ = h(θ) est

MV  
θb′ = h θbM V .

Remarque 6.5. Plus généralement, que h soit bijective


 ou
 non, on appellera estimateur du
maximum de vraisemblance de h(θ) la statistique h θbM V .

6.2.4 Approche bayésienne


L’approche bayésienne est une approche particulière en statistique consistant à considérer
le paramètre θ comme une variable aléatoire sur Θ. L’espace des paramètres Θ étant continu
dans les exemples que nous traiterons, on supposera la loi ν le régissant continue de densité
fν . Cette loi est appelée loi a priori. Elle doit refléter une connaissance acquise sur le pa-
ramètre par le passé, par exemple lors d’expériences précédentes. On cherchera pour autant
généralement à utiliser des lois a priori peu ou non informatives pour limiter leur impact sur
les résultats finaux. L’information sur le paramètre sera in fine accessible au travers de la loi
a posteriori que nous allons définir. Notons que, dans le cadre bayésien, la vraisemblance du
modèle doit s’entendre comme une vraisemblance conditionnelle par rapport à la v.a. θ. Il
serait donc plus approprié de la noter L(x1 , . . . , xn |θ) mais nous continuerons pourtant à la
noter L(x1 , . . . , xn ; θ).
Rappelons la classique formule de Bayes permettant, pour deux événements A et B de
probabilité strictement positive, d’« échanger le conditionnement » :

P[A|B]P[B]
P[B|A] = .
P[A]

L’idée est maintenant d’utiliser cette formule pour passer de la loi x = (x1 , . . . , xn ) sachant
notre a priori sur θ à la loi de θ sachant que l’on a effectivement observé x ; il s’agit bien d’une

54
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

information a posteriori puisque obtenu après l’observation. La densité de la loi a posteriori


Px , x ∈ X n , sachant X = (X1 , . . . , Xn ) = x s’écrit alors :

L(x; θ)fν (θ)


fν|X=x (θ) = R = c(x, ν)L(x; θ)fν (θ).
Θ L(x; θfν (θ)) d θ

Insistons sur le fait qu’ici L(x; θ) se comprend comme la densité (ou fonction de probabilité)
de x sachant θ. Dans l’équation précédente, c(x, ν) ne dépend pas de θ et est la constante
de normalisation de la densité conditionnelle fν|X=x . L’estimation bayésienne étant souvent
assez gourmande en calculs, ne pas expliciter cette constante (mais utiliser que c’est la « bonne
valeur » pour obtenir à la fin une densité en θ) peut être intéressant pour limiter le nombre
de calculs.
Ayant observé x = (x1 , . . . , xn ), une estimation bayésienne de θ est alors simplement :

θbB = Ex [θ]

où Ex désigne l’espérance sous Px . Si l’on désigne par h la fonction de X n dans Θ x 7−→ θbB
l’estimateur bayésien de θ est h(X) que l’on notera également θbB .
Remarque 6.6.
1. Ici, on a choisi comme estimation bayésienne de θ la moyenne de la loi a posteriori ce
qui correspond à la minimisation du risque quadratique (voir Section 6.3.2). Il s’agit du
critère de choix d’estimateur retenu dans ce cours puisque le plus courant. Il est possible
de considérer d’autre critères comme un risque L1 (donné, pour un estimateur T par
Eθ [|T − θ|]). Sa minimisation conduirait à préférer la médiane de la loi a posteriori.
2. Il est possible de montrer de nombreuse propriétés de ces estimateurs dont leur conver-
gence pour toute loi a priori.
3. Ces estimateurs seront utilisés dans le chapitre d’estimation par intervalle de confiance
(voir Chapitre 8) et peuvent également l’être dans la théorie de la décision. Nous ne la
développerons pas ici et renvoyons, par exemple, à [8, Chapitre 7].

Exemple 6.6. Considérons le problème de l’estimation de θ dans la famille de lois Pθ =


N (θ, 1), θ ∈ R et choisissons comme loi a priori sur Θ = R la loi ν = N (m, σ 2 ) (m et σ 2
connus).
On a, pour x = (x1 , . . . , xn ) :

n
!
1 1X
L(x; θ) = n exp − (xi − θ)2
(2π) 2 2 i=1

et la densité de la loi a priori est au point θ


!
1 (θ − m)2
√ exp − .
2πσ 2 2σ 2

Ainsi, la densité de la loi a posteriori est :

55
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

L(x; θ)fν (θ)


fν|X=x (θ) = R
Θ L(x; θ)fν (θ) d θ
2
   
exp − (θ−m)
1 Pn
n exp − 12 i=1 (xi − θ)2 √ 1
2σ 2
(2π) 2 2πσ 2
=R    2

exp − (θ−m)
1 Pn
R (2π) n exp − 21 i=1 (xi − θ)
2 √ 1
2σ 2

2 2πσ 2
n
!!
1 X (θ − m)2
= c(x) exp − (xi − θ)2 +
2 i=1 σ2

où c(x) ne dépend pas de θ et dont la valeur pouvant changer d’une ligne à l’autre se retrouvera
à la fin en utilisant que fν|X=x (·) est une densité (en θ). Après des calculs assez fastidieux mais
simples consistant en la réduction de la forme quadratique dans l’exponentielle, on obtient
que
 !!2 
1 1 + nσ 2 1 nσ 2
fν|X=x (θ) = c(x) exp − θ− m + xn .
2 σ2 1 + nσ 2 1 + nσ 2

En reconnaissant dans l’exponentielle un noyau gaussien (et déduisant la valeur de c(x)),


on obtient que la loi a posteriori Px n’est autre que :
!
1 nσ 2 σ2
N m + x n ; .
1 + nσ 2 1 + nσ 2 1 + nσ 2
L’estimation bayésienne de θ est donc
1 nσ 2
θbB = m + xn .
1 + nσ 2 1 + nσ 2

Notons que lorsque la variance σ 2 tend vers +∞, θbB tend vers xn en « oubliant » les
paramètres de la loi a priori. Ceci traduit le fait que l’information apportée par la loi a priori
est alors de plus en plus vague. Notons également que lorsque n tend vers +∞ la variance de
la loi a posteriori tend vers 0.

6.3 Analyse des estimateurs et choix d’un estimateur


Dans cette section, on introduit des outils permettant d’analyser la qualité des estimateurs
et, par suite, de choisir quel estimateur préférer. Ces outils sont à voir comme fonction du
paramètre inconnu θ. On considérera un modèle d’échantillonnage (i.i.d.) pour lequel les
variables X1 , . . . , Xn sont continues à valeurs dans X = Rd . Ce choix est fait par soucis de
concision et de simplicité. Un exposé tout aussi concis mais un peu plus formel reste possible
en profitant de la théorie de la mesure et de l’intégration de Lebesgue. Il s’agirait de considérer,
comme dans [8] par exemple, des modèles statistiques dominés par une mesure σ-finie : la
mesure de Lebesgue pour le cas continu et une mesure de comptage pour le R
cas discret. On
P
peut étendre les notions abordées au cas discret en remplaçant le symbole par . Dans la
suite et sans le rappeler, on désignera par Eθ et Vθ l’espérance et la variance sous la loi Pθ .

56
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

6.3.1 Biais
La première mesure de la qualité d’un estimateur T est son écart-moyen au paramètre θ
sous la loi Pθ .
Définition 6.4. Soit T un estimateur de θ intégrable. Le biais de T pour θ est

b(θ) = b(T, θ) := Eθ [T ] − θ.

On dit qu’un estimateur est sans biais si b(θ) = 0 quelque soit θ ∈ Θ.

Remarque 6.7. Attention : si T est un estimateur sans biais de θ, g(T ) n’est pas nécessai-
rement un estimateur sans biais de g(θ).
Il est clair qu’on attend d’un estimateur d’être de biais faible voir sans biais. Nous verrons
cependant, que l’on peut préférer un estimateur avec un léger biais à un estimateur sans biais
si ce premier a une moins forte variabilité autour de θ. La recherche de bons estimateurs sans
biais reste une question importante en statistique.
Remarque 6.8. Dans le cadre asymptotique, certaines suites d’estimateurs (on dira simple-
ment estimateur par brièveté) sont de biais non nuls mais tendant vers 0 lorsque la taille de
l’échantillon tend vers l’infini. On dit qu’ils sont asymptotiquement sans biais.

6.3.2 Risque quadratique ou erreur quadratique moyenne


On choisit ici, pour mesurer la variabilité d’un estimateur autour de la quantité à estimer,
un risque en norme 2. Si d’autres choix sont possibles, il s’agit du plus couramment utilisé. De
ce fait, nous supposerons dans la suite l’estimateur de carré intégrable. Notons que la variance
de l’estimateur n’est pas l’outil le plus adéquat d’analyse puisqu’elle mesure la dispersion de
l’estimateur autour de sa moyenne et non autour du paramètre ou de la fonction du paramètre
à estimer, ce qui est différent en présence de biais.
Définition 6.5. Soit T un estimateur de θ de carré intégrable. La fonction de risque quadra-
tique ou erreur quadratique moyenne de T pour l’estimation de θ est

R(T, θ) := Eθ [(T − θ)2 ], si d = 1,

et
R(T, θ) := Eθ [(T − θ)(T − θ)T ], si d > 1.

Remarque 6.9. Si d > 1, R(T, θ) est une matrice symétrique et semi-définie positive. On
utilise donc, dans ce cas, pour comparer les risques d’estimateurs, l’ordre partiel sur l’ensemble
des matrices symétriques semi-définies positives défini par A ≥ B si A − B est semi-définie
positive (c’est-à-dire si ces valeurs propres sont positives ou nulles).
Si la variance de l’estimateur n’est pas une mesure pertinente de sa qualité, son risque se
ré-exprime au travers d’elle comme le montre la proposition suivante dont la démonstration
similaire à celle de la formule de décentrage de la variance est laissée en exercice.
Proposition 6.2 (décomposition biais/variance). On a :

R(T, θ) = Vθ [T ] + b(T, θ)2 ,

57
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

en particulier, si T est sans biais :

R(T, θ) = Vθ [T ].

Il est naturel de chercher des estimateurs de risque le plus faible possible.


Définition 6.6. On dit qu’un estimateur T (1) est préférable à T (2) , si pour tout θ ∈ Θ :

R(T (1) , θ) ≤ R(T (2) , θ).

On dit que T (2) est inadmissible, s’il existe un estimateur T (1) préférable à T (2) pour lequel
l’inégalité si dessus est stricte pour au moins une valeur de θ.

Remarque 6.10. Pour les modèles d’intérêt, il n’existe malheureusement pas d’estimateur
préférable à tous les autres. En effet, si tel est le cas, les supports des lois Pθ , θ ∈ Θ, sont
nécessairement disjoints et une unique observation permet l’identification exacte de θ. Il sera
toutefois possible de rechercher des estimateurs de risque minimal dans des classes d’esti-
mateurs. Par exemple, on pourra rechercher un estimateur minimisant le risque quadratique
parmi les estimateurs sans biais ; par la Proposition 6.2, ceci est, dans cette classe, équivalent
à la minimisation de la variance. Le lecteur désireux de plus de détails pourra consulter, par
exemple, la Section 6.6 de [11] ou la Section 4.3.2 de [8].
 
Exemple 6.7. Considérons le modèle {0, 1}, (Ber(θ))θ∈[0,1] dans lequel on veut estimer θ
au moyen d’un échantillon de taille n. On propose les estimateurs :
n n
!
1X 1 X
T (1) = Xi et T (2) = 1+ Xi .
n i=1 n+2 i=1

On a
n
" #
h
(1)
i 1X
Eθ T = Eθ Xi = θ,
n i=1

donc T (1) est sans biais et on a


n
" #

(1)
 h
(1)
i 1X θ(1 − θ)
R T , θ = Vθ T = Vθ Xi = .
n i=1 n

Par ailleurs,
n
" !#
h
(2)
i 1 X 1 + nθ
Eθ T = Eθ 1+ Xi = ,
n+2 i=1
n+2
donc
1 + nθ 1 − 2θ
b(T (2) , θ) =
−θ =
n+2 n+2
et en utilisant la décomposition biais/variance du risque, on a
2
nθ(1 − θ) 1 − 2θ nθ(1 − θ) + (1 − 2θ)2
  h i 
R T (2) , θ = Vθ T (2) + b(T (2) , θ)2 = + = .
(n + 2)2 n+2 (n + 2)2
Pour θ = 1, on a
    1
R T (1) , 1 = 0 ≤ R T (2) , 1 = ,
(n + 2)2

58
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

alors que pour θ = 12 , on a

1 1 1 n
   
(1)
R T , = ≥ R T (2) , = .
2 4n 2 4(n + 2)2

Ainsi, aucun des deux estimateurs T (1) et T (2) n’est préférable à l’autre.

6.3.3 Modèles et estimateurs réguliers


Si θ = (θ1 , . . . , θd ) et si les dérivées partielles de f existent, on note :

∂f ∂f ∂f
 
= ,...,
∂θ ∂θ1 ∂θd

et !
∂2f ∂2f
= .
∂θ2 ∂θi ∂θj 1≤i,j≤d

Définition 6.7. On dit qu’un modèle statistique est régulier si :


1. Θ est un ouvert ;
2. le support de Pθ ne dépend pas de θ (il s’agit donc de X ) ;
∂fX1 ∂ 2 f X1
3. ∂θ (x, θ) et ∂θ2
(x, θ) existent pour tout x ∈ X et θ ∈ Θ ;
∂fX1 ∂2f X1
4. ∂θ et ∂θ2
sont intégrable et on peut les effectuer sous le signe somme :

∂ ∂
Z Z
fX1 (x, θ) d x = fX (x, θ) d x
∂θ A A ∂θ 1

et
∂2 ∂2
Z Z
fX1 (x, θ) d x = fX (x, θ) d x
∂θ2 A A ∂θ2 1
pour tout A ;
∂ ln fX1
5. ∂θ est de carré intégrable.

Exercice 6.1. Montrer que le modèle gaussien de l’Exemple 6.2 est régulier.

Exercice 6.2. Le modèle uniforme sur [1, θ] de l’Exemple 6.4 est-il régulier ?

Définition 6.8. Un estimateur T de carré intégrable sur un modèle statistique régulier (X , (Pθ )θ∈Θ )

est dit régulier si, pour tout θ ∈ Θ, T (·) ∂θ L(·, θ) est intégrable sur X n et

∂ ∂
Z Z
T (x)L(x, θ) d x = T (x) L(x, θ) d x.
∂θ Xn Xn ∂θ

59
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

6.3.4 Score, information de Fisher et borne de Cramer-Rao


On considère un modèle régulier de vraisemblance
n
Y
L(x1 , . . . , xn ; θ) = fX1 (xi , θ).
i=1

Définition 6.9. On appelle score de (X1 , . . . , Xn ) le vecteur :


n
∂ ln L X ∂ ln fX1
Vn = (X1 , . . . , Xn ; θ) = (Xi , θ).
∂θ i=1
∂θ

Remarque 6.11. Si la (Log-)vraisemblance atteint son maximum en un point de Θ, l’es-


timateur du maximum de vraisemblance annule sa dérivée donc le score. Notons que si le
paramètre à estimer θ est de dimension 1, le score n’est pas un vecteur mais simplement un
réel, à voir comme fonction de θ.
Remarquons que :
∂ ln fX1 ∂ ln fX1
  Z
Eθ (X1 , θ) = (x, θ)fX1 (x, θ) d x
∂θ X ∂θ
∂fX1
Z
= (x, θ) d x
X ∂θ
∂ ∂
Z
= fX1 (x, θ) d x = 1 = 0.
∂θ X ∂θ
Ainsi le score Vn est centré.
Définition 6.10. On appelle information de Fisher de (X1 , . . . , Xn ) la matrice de covarian-
ce/variance de son score :
In (θ) = Vθ [Vn ].

Remarque 6.12. Si la dimension du paramètre à estimer est d = 1, l’information de Fisher


est simplement la variance du score.
Posons, si d = 1 : " 2 #
∂ ln fX1
I(θ) = Eθ (X1 , θ)
∂θ
et si d > 1 " T #
∂ ln fX1 ∂ ln fX1

I(θ) = Eθ (X1 , θ) (X1 , θ) .
∂θ ∂θ
Le résultat suivant relie In (θ) et I(θ) est immédiat par indépendance.
Proposition 6.3.
In (θ) = nI(θ).
Si le modèle est régulier, on a la reformulation suivante de I(θ).
Proposition 6.4. Si le modèle est régulier, on a :
" #
∂ 2 ln fX1
I(θ) = −Eθ (X1 , θ) .
∂θ2

60
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

Preuve : On se place dans le cas d = 1 pour alléger la démonstration. On a :

∂ 2 ln fX1 ∂ ∂ ln fX1
 
2
(x, θ) = (x, θ)
∂θ ∂θ ∂θ
∂ 1 ∂fX1
 
= (x, θ)
∂θ fX1 (x, θ) ∂θ
2
1 ∂fX1 1 ∂ 2 fX1

=− (x, θ) + (x, θ)
fX1 (x, θ) ∂θ fX1 (x, θ) ∂θ2
2
∂ ln fX1 1 ∂ 2 fX1

=− (x, θ) + (x, θ)
∂θ fX1 (x, θ) ∂θ2

donc
2
∂ ln fX1 1 ∂ 2 fX1 ∂ 2 ln fX1
 
(x, θ) = (x, θ) − (x, θ).
∂θ fX1 (x, θ) ∂θ2 ∂θ2
Puis, en prenant l’espérance contre Pθ :

" 2 #
∂ ln fX1
I(θ) = Eθ (X1 , θ)
∂θ
" # " #
1 ∂ 2 fX1 ∂ 2 ln fX1
= Eθ (X1 , θ) − E θ (X1 , θ)
fX1 (X1 , θ) ∂θ2 ∂θ2
" #
∂ 2 fX1 ∂ 2 ln fX1
Z
= 2
(x, θ) d x − Eθ (X1 , θ)
X ∂θ ∂θ2
" #
∂2 ∂ 2 ln fX1
Z
= 2 fX1 (x, θ) d x − Eθ (X1 , θ) (car le modèle est régulier)
∂θ X ∂θ2
" # " #
∂2 ∂ 2 ln fX1 ∂ 2 ln fX1
= 2 1 − Eθ (X1 , θ) = −E θ (X1 , θ) .
∂θ ∂θ2 ∂θ2

Exercice 6.3. Vérifier que pour le modèle gaussien de l’Exemple 6.2, on a :


!
n 2θ2 0
In (θ1 , θ2 ) = 2 .
2θ2 0 1

Un intérêt majeur de l’information de Fisher est qu’elle permet de formuler une borne
absolue sur le risque des estimateurs dans des modèles réguliers.
Théorème 6.1. (borne de Cramer-Rao, d = 1). Soit T = T (X1 , . . . , Xn ) un estimateur
régulier et sans biais de θ de dimension 1 dans un modèle régulier et construit à partir d’un
échantillon X = (X1 , . . . , Xn ) de taille n. Alors, pour tout θ ∈ Θ :
1 1
R(T, θ) ≥ = .
In (θ) nI(θ)

61
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

1
La borne nI(θ) est appelée borne de Cramer-Rao du modèle.

Preuve : Puisque T est sans biais, pour tout θ ∈ Θ, on a :

θ = Eθ [T ]

donc
∂ ∂
1= θ= Eθ [T ]
∂θ ∂θ Z

= T (x)L(x, θ) d x
∂θ X n

Z
= T (x) L(x, θ) d x
Xn ∂θ

Z  
= T (x) ln L(x, θ) L(x, θ) d x
Xn ∂θ

 
= Eθ T (X) ln L(X, θ)
∂θ
∂ ∂
   
= Eθ T (X) ln L(X, θ) − θEθ ln L(X, θ) (car le score est centré)
∂θ ∂θ

 
= Eθ (T (X) − θ) ln L(X, θ)
∂θ
i1  1


h 2
2 2
≤ Eθ (T (X) − θ) Eθ ln L(X, θ) (par l’inégalité de Cauchy-Schwarz)
∂θ
q
= R(T, θ)In (θ).

Le résultat s’ensuit. □
Ce résultat se généralise au cas d’un paramètre de dimension d quelconque :
Théorème 6.2. (borne de Cramer-Rao, d > 1). Soit T = T (X1 , . . . , Xn ) un estimateur
régulier et sans biais de θ de dimension d > 1 dans un modèle régulier et construit à partir
d’un échantillon X = (X1 , . . . , Xn ) de taille n. Si I(θ) est inversible, on a, pour tout θ ∈ Θ :
1
R(T, θ) ≥ I(θ)−1 .
n
1 −1
La borne n I(θ) est appelée borne de Cramer-Rao du modèle.
Définition 6.11. Un estimateur sans-biais atteignant la borne de Cramer-Rao est dit efficace.
Par définition, un estimateur efficace est préférable à tout autre estimateur sans biais.
Il existe pourtant, sauf dans des cas particuliers, des estimateurs biaisés préférables aux
estimateurs efficaces.
Exemple 6.3 (suite).  
Reprenons le modèle gaussien à moyenne connue de l’Exemple 6.3 : R, (N (m, θ))θ∈R+∗ .
On a :
" # " #
∂2 1 (X1 − m)2 1
I(θ) = −E 2
ln fX1 (X1 ; θ) = E − 2
+ 3
= 2.
∂θ 2θ θ 2θ

62
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

La borne de Cramer-Rao de ce modèle est donc 2θ2 /n.


On a vu que la variance empirique corrigée Sn2 est un estimateur sans biais de θ. Il est
également régulier. De plus, on sait que n−1 2 2
θ Sn ∼ χ (n − 1) (voir Théorème 5.2). On a donc :
2
θ n−1 2
h i   
R(Sn2 , θ) = Vθ Sn2 = Vθ Sn
n−1 θ
2
θ 2θ2

= 2(n − 1) = .
n−1 n−1
Cet estimateur n’atteint donc pas la borne de Cramer-Rao.
En profitant du fait que la moyenne m est connue, il est naturel dans ce cas de proposer
l’estimateur : n
1X
Sbn2 = (Xi − m)2 .
n i=1
On a :
n n
" #
1X 1X h i
Eθ [Sbn2 ] = Eθ (Xi − m)2 = Eθ (Xi − m)2 = θ.
n i=1 n i=1

Il s’agit donc d’un estimateur sans biais ; il est également régulier. On a cette fois :
n
" #
h i 1X 1 h i
R(Sbn2 , θ) = Vθ Sbn2 = Vθ (Xi − m)2 = Vθ (X1 − m)2
n i=1 n
1 1 2 2θ2
h  i h i2  
= Eθ (X1 − m)4 − Eθ (X1 − m)2 = 3θ − θ2 =
n n n

où l’on a utilisé que le moment d’ordre 4 de Z = X1 − m ∼ N (0, θ) est 3θ2 (ce qui s’obtient
facilement avec la Proposition 2.10). Ainsi, cet estimateur sans biais atteint la borne de
Cramer-Rao. Il est donc efficace.
Nous allons maintenant voir que l’on peut trouver un estimateur biaisé qui lui est pré-
férable. Pour cela considérons les estimateurs de la forme T (α) = αSbn2 , α ∈ R. Son biais
est :

bα (θ) = Eθ [T (α) ] − θ = Eθ [αSbn2 ] − θ = (α − 1)θ.

et son risque quadratique :


h i h i
R(T (α) , θ) = Vθ αSbn2 + bα (θ)2 = α2 Vθ Sbn2 + (α − 1)2 θ2 = α2 R(Sbn2 , θ) + (α − 1)2 θ2
2θ2 2 (n + 2)θ2 2
= α + α2 θ2 − 2αθ2 + θ2 = α − 2θ2 α + θ2 .
n n
n
Une simple optimisation en α montre que le risque quadratique est minimal pour α0 = n+2 .
Ainsi, T (α0 ) est préférable à l’estimateur efficace Sbn2 .

Exemple 6.2 (suite). On a vu dans l’Exercice 6.3 que :


!
n 2θ2 0
In (θ1 , θ2 ) = 2 .
2θ2 0 1

63
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

La borne de Cramer-Rao de ce modèle est donc :


!
θ2 1 0
.
n 0 2θ2

On a vu que T = (X n , Sn2 ) est un estimateur sans biais (et régulier) de θ = (θ1 , θ2 ). De


plus, par le Théorème 5.2, on sait que (X n et Sn2 ) sont indépendante, que X n ∼ N (θ1 , θ2 /n)
et que n−1 2 2
θ Sn ∼ χ (n − 1). Ainsi,
!
θ2
n 0
R(T, θ) = Vθ [T ] = 2θ2
0 n−1

et T = (X n , Sn2 ) n’est pas un estimateur efficace. On montre qu’il est pourtant préférable à
tout autre estimateur sans biais.

Exercice 6.4. Montrer que pour le modèle gaussien à variance connue σ 2 , (R, (N (θ, σ 2 ))θ∈R ,
la moyenne empirique X n est un estimateur efficace.
Remarquons que la borne de Cramer-Rao n’est pas forcément atteinte par un estimateur
régulier en général ce qui constitue une limite de ce résultat. Nous admettrons le résultat
suivant :

Proposition 6.5. La borne de Cramer-Rao ne peut être atteinte que si (Pθ )θ∈Θ est une
famille exponentielle de lois.

6.3.5 Exhaustivité, minimalité


Il est intuitif qu’un « bon » estimateur doit retenir d’un échantillon la totalité de l’in-
formation utile pour l’estimation mais pas d’information superflue. Ceci conduit aux notions
d’exhaustivité et d’exhaustivité minimale présentées dans cette section.

Définition 6.12. On dit qu’une statistique S est exhaustive si la loi conditionnelle de X =


(X1 , . . . , Xn ) sachant S ne dépend pas de θ.

Cette définition correspond intuitivement au fait que toute l’information sur θ contenue
dans X est déjà contenue dans S.
Exemple 6.8. Considérons le modèle statistique (N, (P(θ))θ∈R+∗ ) et vérifions que la sta-
tistique S = ni=1 Xi est exhaustive. Puisque X1 , . . . , Xn sont indépendante de loi P(θ),
P

S ∼ P(nθ). On a donc pour k1 , . . . , kn ∈ N tels que k1 + · · · + kn = k :

Qn  k

i=1 e−θ θkii! e−nθ k! ni=1 θki
Q
k!
Pθ [X1 = k1 , . . . , Xn = kn |S = k] = k = −nθ k k Q n = k Qn
e−nθ (nθ)
k!
e n θ i=1 ki ! n i=1 ki !

ce qui montre que S est exhaustive.


Le résultat suivant, que nous admettrons, permet de caractériser les statistiques exhaus-
tives.

64
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

Théorème 6.3 (de factorisation). Une statistique S = S(X1 , . . . , Xn ) est exhaustive si, et
seulement, si la vraisemblance L(·; θ) de X = (X1 , . . . , Xn ) admet, pour tout x = (x1 , . . . , xn ) ∈
X n , une factorisation de la forme :

L(x; θ) = φ(S(x), θ)h(x).

Exemple 6.8 (suite). Dans le cadre du modèle statistique (N, (P(θ))θ∈R+∗ ), en considérant
la statistique S = ni=1 Xi , on a :
P

n n
!
ki
−θ θ
Pn
= e−nθ θ ki
(ki !)−1
Y Y
L(k1 , . . . , kn ; θ) = e i=1 ×
i=1
ki ! i=1
n
= e−nθ θS(k1 ,...,kn ) × (ki !)−1
Y

i=1

ce qui est une factorisation de la forme souhaitée et montre, à nouveau, l’exhaustivité de S


pour ce modèle.
Ce que nous avons observé dans l’exemple précédent s’étend à toute loi de la famille
exponentielle.

Proposition 6.6. Soit un modèle de la la famille exponentielle avec un paramètre de dimen-


sion k. Alors, avec les notation de la Définition 3.7, la statistique :
n n
!
X X
d1 (Xi ), . . . , dk (Xi )
i=1 i=1

est exhaustive.

Preuve : On a pour une telle loi :

n n k
!
Y Y X
L(x1 , . . . , xn ; θ) = fX1 (xj , θ) = a(θ)b(xj ) exp ci (θ)di (xj )
j=1 j=1 i=1
 
n
Y k
X n
X
= a(θ)n b(xj ) exp  ci (θ) di (xj )
j=1 i=1 j=1

ce qui permet de conclure par le Théorème de factorisation 6.3. □

Remarque 6.13. On peut montrer que pour les modèles réguliers, l’existence d’une statis-
tique exhaustive de même dimension que le paramètre inconnu et appartenance à la classe
des familles exponentielles.

Définition 6.13. Une statistique S est dite totale si h(S) = 0 Pθ -p.s pour tout θ ∈ Θ dès
que Eθ [|h(S)|] < +∞ et Eθ [h(S)] = 0 Pθ -p.s pour tout θ ∈ Θ.
Une statistique exhaustive S est dite minimale si pour toute statistique exhaustive T , il
existe une fonction mesurable g telle que S = g(T ).

65
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

Une statistique exhaustive minimale est donc un bon résumé de l’information contenue
dans un échantillon puisqu’elle est exhaustive donc contient toute l’information nécessaire et
qu’elle la résume puisque toute statistique exhaustive suffit à la retrouver. Ainsi, si un esti-
mateur de θ est une statistique exhaustive minimale, nous le considérerons pertinent. Le fait
qu’une statistique soit minimale est généralement délicat à montrer en utilisant directement la
définition puisque ceci présuppose de connaître toutes les statistiques exhaustives du modèle.
Le résultat suivant donne un moyen plus simple pour montrer qu’une statistique exhaustive
est minimale.
Proposition 6.7. Si une statistique exhaustive est totale alors elle est minimale.

Exercice 6.5. Dans le cadre du modèle statistique (N, (P(θ))θ∈R+∗ de l’Exemple 6.8, montrer
que la statistique S = ni=1 Xi est minimale.
P

Pour conclure cette section, notons qu’il est possible d’améliorer (au sens du risque quadra-
tique) un estimateur T en utilisant une statistique exhaustive S. L’approche classique repose
sur l’utilisation de l’espérance conditionnelle sachant S et le Théorème de Rao-Blackwell et
dépasse le cadre de ce cours. Elle affirme que si T est de plus de carré intégrable, E[T |S] est
préférable à T . L’intuition est que la statistique exhaustive S à résumé l’information et toute
l’information contenue dans l’échantillon nécessaire à l’estimation et l’estimateur résultant
de ce conditionnement est « moins parasité » par des informations superflues donc possède
une moins grande variabilité que T . Nous ne développerons pas plus ce sujet et renvoyons le
lecteur à la Section VIII.5.2 de [7] ou à la Section 4.3.2 de [8].

6.3.6 Analyse asymptotique


Pour terminer ce chapitre, nous donnons quelques éléments sur l’analyse asymptotique
de suites d’estimateurs Tn basés sur un échantillon (X1 , . . . , Xn ) dont la taille n tend vers
+∞. Par abus de langage, on parlera d’analyse asymptotique de l’estimateur Tn au lieu de
celle de la suite d’estimateurs (Tn )n∈N∗ . Insistons sur le fait que cette approche sera utile
pour l’estimation par intervalle de confiance du Chapitre 8 et ne sera valable que si n est
suffisamment grand.
Dans le cadre d’un estimateur obtenu par la méthode des moments, la proposition suivante
est une conséquence de la LGN et du TCL.
Proposition 6.8. Soit φ une fonction telle que, pour tout θ ∈ Θ, φ(X1 ) est de carré inté-
grable sous Pθ et Eθ [φ(X1 )] = θ. Alors, l’estimateur des moments θbnM = n−1 ni=1 φ(X1 ) est
P

convergent et vérifie, pour tout θ, sous Pθ :


√  bM 
L
n θn − θ −→ N (0, Vθ [φ(X1 )]) .

Remarque 6.14. On dit que θbM est asymptotiquement normal de (matrice de covarian-
ce/)variance Vθ [φ(X1 )].
Ce résultat admet dans le cadre d’un estimateur obtenu par la méthode du maximum de
vraisemblance, un analogue plus délicat à démontrer.
Théorème 6.4. Supposons le modèle régulier et identifiable et notons I(θ) l’information de
Fisher du modèle. Alors, l’estimateur du maximum de vraisemblance θbnM V vérifie, pour tout
θ, sous Pθ :
√  bM V 
L
 
n θn − θ −→ N 0, I(θ)−1 .

66
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE

√  bM V 
Dans le deux cas, on pourra considérer que n θn − θ est proche d’une loi normale
si n est suffisamment grand.

67
Chapitre 7

Tests d’hypothèses

Comme nous l’avons fait dans le cadre de l’estimation, nous nous concentrons ici princi-
palement sur des test paramétriques ; en fait, même sur les tests paramétriques pour un para-
mètre de dimension 1 (Θ ⊂ R pour ce chapitre). Toutefois, certains tests non-paramétriques,
à l’instar des tests du Khi-2, sont d’un usage si courant qu’il est impossible de ne pas les
présenter. Nous le ferons brièvement dans la Section 7.5.

7.1 Cadre et généralités sur tests d’hypothèses


On considère un modèle statistique paramétrique (X , (Pθ )θ∈Θ ) et un échantillon (i.i.d.)
X = (X1 , . . . , Xn ). Le paramètre θ de la loi mère étant dans Θ ⊂ R, on choisit deux sous
ensembles Θ0 et Θ1 non vides et disjoints de Θ ; quitte à modifier Θ on peut supposer que
Θ0 et Θ1 forment une partition non triviale de Θ. À partir de Θ0 et Θ1 , on formule deux
hypothèses : l’hypothèse nulle H0 : θ ∈ Θ0 et l’hypothèse alternative H1 : θ ∈ Θ1 . Lorsque Θi est
un singleton, on dit que l’hypothèse Hi est simple ; sinon, on dit quelle est composite. Un test
est une procédure, qui à partir d’une réalisation x = (x1 , . . . , xn ) ∈ X n de X = (X1 , . . . , Xn )
(une observation), a pour objectif de déterminer laquelle des hypothèses H0 et H1 est vérifiée.

Définition 7.1. Une fonction de test pur ou fonction de test déterministe est une application
φ : X n −→ {0, 1} ≡ {H0 , H1 }. La région Rc = φ−1 ({0}) = {x ∈ X n : φ(x) = 0} est la région
d’acceptation de H0 du test fondé sur φ. La région R = φ−1 ({1}) sur laquelle on rejette H0
(donc « accepte » H1 ) est appelée région critique ou de rejet du test.

Définition 7.2. Une fonction de test aléatoire ou fonction de test stochastique est une
application φ : X n −→ [0, 1]. La région φ−1 ({0}) est la région d’acceptation de H0 du test
fondé sur φ. La région R = φ−1 ({1}) est la région critique ou de rejet du test. La région
H = φ−1 (]0, 1[) est la région d’hésitation du test. Pour x ∈ X n , φ(x) s’interprète alors
comme la probabilité de rejeter H0 .

Un test aléatoire fait donc appel à un aléa extérieur (via la valeur de φ(x)) à l’observation
pour rendre sa décision ; il s’agirait de regarder la réalisation d’une variable de Bernoulli de
paramètre φ(x) pour décider de rejeter H0 si, et seulement si, celle-ci vaut 1. Il paraît donc
par nature hasardeux et peu fondé. L’intérêt de ces tests est essentiellement théorique, en
particulier pour l’analyse de la qualité des tests d’hypothèses simples. Notons qu’un test pur
est un test stochastique particulier.

69
CHAPITRE 7. TESTS D’HYPOTHÈSES

7.1.1 Puissance d’un test et erreurs


Définition 7.3. On appelle fonction puissance d’un test (aléatoire) φ la fonction :

ρφ : Θ −→ [0, 1]
θ 7−→ Eθ [φ] = Eθ [φ(X1 , . . . , Xn )]

donnant la probabilité de rejeter l’hypothèse nulle H0 .

Remarque 7.1. Si φ est un test déterministe, on a φ(x) = 1x∈R et donc

ρφ (θ) = Eθ [φ(X)] = Eθ [1X∈R ] = Pθ [X ∈ R] = Pθ [φ = 1].

Lors de la réalisation d’un test, il est possible de commettre une erreur de deux façons
différentes : soit on rejette à tord H0 alors qu’elle était vraie, soit on accepte à tord H0 alors
qu’elle était fausse. Ceci conduit à la définition suivante :

Définition 7.4. On appelle erreur ou risque de première espèce la restriction de ρφ à Θ0 .


On appelle erreur ou risque de deuxième espèce la restriction de 1 − ρφ à Θ1 .

Remarque 7.2.
1. Si φ est un test pur (déterministe), l’erreur de première espèce est donc la probabilité
Pθ [X ∈ R] que l’observation X = (X1 , . . . , Xn ) soit dans la région critique (donc de
rejeter H0 ) alors que θ ∈ Θ0 . L’erreur de deuxième espèce est donc la probabilité
1 − ρφ (θ) = Pθ [X ̸∈ R] que X soit hors de la région critique (donc d’« accepter » – ou
plutôt de pas rejeter – H0 ) alors que θ ∈ Θ1 .
2. Dans la définition de l’erreur de deuxième espèce, certains auteurs préfèrent restreindre
1 − ρφ à Θc0 plutôt qu’à Θ1 sans supposer que Θ0 et Θ1 forment une partition de Θ.
L’erreur de deuxième espèce s’interprète alors pour un test pur comme la probabilité
d’« accepter » H0 alors que θ ̸∈ Θ0 .

On cherchera naturellement à minimiser les erreurs de première et deuxième espèce. La


minimisation simultanée des deux erreurs étant en général impossible, on choisira par conven-
tion de minimiser en priorité l’erreur de première espèce. Bien que H0 et H1 jouent des rôles
symétriques dans la définition d’un test, la définition des erreurs et cette convention dissymé-
trisent la situation. Ainsi, dans la pratique, cette dissymétrie induit un choix des hypothèses
adapté au contexte.

7.1.2 Niveau et seuil d’un test


Définition 7.5. Soit α ∈ [0, 1]. On dit qu’un test φ est de niveau (resp. seuil) α pour H0 si

sup ρφ (θ) = sup Eθ [φ] = α (resp. ≤ α).


θ∈Θ0 θ∈Θ0

On dit qu’il est α-semblable si pour tout θ ∈ Θ0 , on a ρφ (θ) = α.

Les seuils ou niveaux des tests permettent, en particulier, de choisir quel test et région
critique utiliser, ce que nous développerons dans la Section 7.3.

70
CHAPITRE 7. TESTS D’HYPOTHÈSES

7.1.3 Statistique de test


Définition 7.6. Soit A ⊂ R. Supposons que la région critique d’un test pur s’écrive sous la
forme :
R = {x = (x1 , . . . , xn ) ∈ X n : ζ(x) ∈ A}
pour un certaine fonction ζ : X n −→ R. Alors,la statistique ζ = ζ(X1 , . . . , Xn ) est appelée
une statistique de test. On parle de test basé sur la statistique ζ.

Remarque 7.3. On choisira les statistiques de test de façon à ce que la région critique s’écrive
simplement, par exemple de façon unilatérale :
R = {ζ ≥ a} := {x = (x1 , . . . , xn ) ∈ X n : ζ(x) ∈ [a, +∞[}
ou R = {ζ ≤ a} ou bilatérale : R = {a ≤ ζ ≤ b} ou R = {a ≤ ζ ou ≥ b}.

7.1.4 p-valeur
La p-valeur permet de bien quantifier le risque pris et rejetant H0 . En effet, elle correspond
à la probabilité de rejeter H0 à tord en évaluant la probabilité pour que, sous H0 , la statistique
de test ζ dépasse la valeur observée ζ obs pour un test pur de région critique de la forme
R = {ζ ≥ a}, plus généralement la probabilité pour que ζ obs soit « aberrante » sous H0 . Elle
se définit plus formellement comme suit.
Définition 7.7. Supposons que, pour une statistique de test ζ, pour tout α ∈]0, 1[, la région
critique s’écrivant sous la forme R = {ζ ∈ Aα }, pour un certain Aα ⊂ R définisse un test
pur de niveau α.
Ayant observé xobs = (xobs obs
1 , . . . , xn ) et évalué ζ en x
obs (ζ obs := ζ(xobs )), la p-valeur (ou

p-value) est plus petit niveau


p − val = inf{α > 0 : ζ obs ∈ Aα }
pour lequel on rejette H0 .
Si la région critique est de la forme R = {ζ ≥ cα }, notons que par les définitions, on a :
( )
obs obs
p − val = inf{α > 0 : ζ ∈ Aα } = inf sup Pθ [ζ ≥ cα ] : ζ ≥ cα = sup Pθ [ζ ≥ ζ obs ].
θ∈Θ0 θ∈Θ0

Si on rejette H0 au seuil α, ζ obs ≥ cα donc p − val ≤ α. Réciproquement, si p − val = α la


région {ζ ≥ ζ obs } ∋ ζ obs est de niveau α et si p − val < α, ζ obs > cα ; dans les deux cas on
rejette H0 au seuil α.
On retiendra que l’on rejette H0 au seuil α ssi p − val ≤ α.

7.2 Construction de tests


7.2.1 Tests du rapport de vraisemblance
Comme dans le cadre de l’estimation, les vraisemblances et leurs propriétés conduisent
à des méthodes de construction de tests très généralement applicables et efficaces. Nous
l’introduisons tout d’abord dans le cadre très simple du test d’une hypothèse simple contre
une hypothèse simple.

71
CHAPITRE 7. TESTS D’HYPOTHÈSES

Test du rapport de vraisemblance pour deux hypothèses simples


On considère les hypothèse H0 : θ = θ0 (θ ∈ Θ0 = {θ0 }) et H1 : θ = θ1 (θ ∈ Θ1 =
{θ1 }), θ1 ̸= θ0 et une vraisemblance L dans un modèle identifiable (Pθ1 ̸= Pθ1 ). Il est
intuitivement clair que si H0 est fausse, une observation « typique » xobs devrait conduire
à de « petites » valeurs de L(xobs ; θ0 ) et de « grandes » valeurs de L(xobs ; θ1 ) donc à un
rapport de vraisemblance l(xobs ) = L(xobs ; θ0 )/L(xobs ; θ1 ) faible. Ainsi, on choisira l comme
statistique de test et on obtiendra la région critique sous la forme R = {l ≤ cα } pour un
certain cα à déterminer en fonction du risque de première espèce. Un tel test est appelé test
du rapport de vraisemblance pour deux hypothèses simples (RV).
Exemple 7.1. Considérons le modèle (R+ , (E(θ))θ>0 ) et supposons que l’on souhaite tester
H0 : θ = θ0 contre H1 : θ = θ1 (θ1 > θ0 ) en utilisant un échantillon de taille n.
Les vraisemblances s’écrivant sous la forme :
n  n
!

−θj xi
Y X
L(x1 , . . . , xn ; θj ) = θj e 1xi ≥ 0 = θjn exp −θj xi 1x1 ,...,xn ≥0
i=1 i=1

on obtient que le rapport de vraisemblance est donné par


n
n !
θ0
 X
l(x1 , . . . , xn ) = exp −(θ0 − θ1 ) xi 1x1 ,...,xn ≥0 .
θ1 i=1
 n Pn
θ0
Ainsi, en posant g(s) = θ1 exp (−(θ0 − θ1 )s) et S = S(X1 , . . . , Xn ) = i=1 Xi , la
statistique de test s’écrit :

l(X) = l(X1 , . . . , Xn ) = g(S)1X1 ,...,Xn ≥0 .

Remarquons que, sous H0 (θ = θ0 ), on a 1X1 ,...,Xn ≥0 = 1 p.s. et que S ∼ Γ(n, θ0 ) (voir


Exercice A.2). Remarquons également que g est bijective et que sa réciproque (facilement
explicitable) est croissante puisque θ0 < θ1 . Il s’ensuit que pour que le test soit de niveau
α ∈]0, 1[, la région critique Rα =] − ∞, cα ] doit vérifier pour θ = θ0 :
h i
Pθ0 [l(X) ∈ Rα ] = Pθ0 [g(S) ≤ cα ] = Pθ0 S ≤ g −1 (cα ) .

En notant qα le quantile d’ordre α de Γ(n, θ0 ) (facilement accessible avec un logiciel de sta-


tistique comme R) vérifiant puisque cette loi est continue :

Pθ0 [S ≤ qα ] = α

on obtient par identification que g −1 (cα ) = qα soit cα = g(qα ). On conclue ainsi que la région
critique du test de niveau α est Rα = {x ∈ X n : S(x) ∈] − ∞, g(cα )].

Remarque 7.4.
1. Dans l’exemple précédent, on voit que l’on a déterminé la loi de la statistique de test (via
celle de la statistique exhaustive S) sous H0 pour contrôler l’erreur de première espèce.
Ce contrôle se passe toujours de cette façon. Celui de l’erreur de deuxième espèce passe
par la détermination de la loi de la statistique de test sous H1 . La simplicité de la mise
en œuvre du test de rapport de vraisemblance est partagée par de nombreux modèles,
en particulier ceux basés sur une famille de lois de la classe exponentielle comme nous
le verrons dans la Section 7.3 (voir aussi Théorème 7.1).

72
CHAPITRE 7. TESTS D’HYPOTHÈSES

2. Par abus de langage permettant d’alléger les choses, on confondra parfois la zone rejet
et l’ensemble permettant de la déterminer grâce à la statistique de test. Dans l’exemple
précédent, on dira qu’en utilisant la statistique de test S la zone de rejet est ]−∞, g(cα )].

7.2.2 Tests du rapport de vraisemblance généralisé


Lorsque les hypothèses sont composites, c’est-à-dire que Θ0 et Θ1 ne sont pas des single-
tons, la comparaison établie dans la Sous-section précédente n’est plus valable mais pourrait
s’étendre en utilisant la statistique l = l(X) définie par
supθ∈Θ0 L(x; θ)
l(x) = .
supθ∈Θ1 L(x; θ)

Le même raisonnement conduirait à rejeter H0 pour des petites valeurs de l. Observons que
l’on retrouverait même exactement la même statistique que plus haut lorsque les hypothèses
sont simples. Toutefois, on va préférer l’usage de la statistique ℓ = ℓ(X) définie pour x ∈ X n
par
supθ∈Θ0 L(x; θ)
ℓ(x) = .
supθ∈Θ L(x; θ)
On appellera cette statistique statistique du rapport de vraisemblance généralisé (RVG). Il y a
deux raisons principales à préférer ℓ à l. La première est que ℓ ≤ 1 p.s. et la second qu’elle est
liée à l’estimateur du maximum de vraisemblance (non restreint) θbM V . Plus précisément, on
voit que le dénominateur supθ∈Θ L(x; θ) n’est autre que L(x; θbM V ). De même, le numérateur
est lié à l’estimateur du maximum de vraisemblance restreint à Θ0 , θb0M V , puisque l’on a
supθ∈Θ0 L(x; θ) = L(x; θb0M V ).
Si l’on dispose d’une statistique exhaustive, le résultat suivant, conséquence du Théorème
de factorisation 6.3 permet de simplifier le calcul de la statistique du RVG.
Théorème 7.1. Si S est une statistique exhaustive pour θ dans le modèle (X , (Pθ )θ∈Θ ) de
vraisemblance L, alors, pour tout Θ0 ⊂ Θ fixé, la statistique du RVG ℓ se factorise au travers
de S de la manière suivante : il existe une fonction λ telle que pour tout x ∈ X n , on a

ℓ(x) = λ(S(x)).

Preuve : Le Théorème de factorisation 6.3 assure que l’existence de fonctions φ et h telles


que pour tout x = (x1 , . . . , xn ) ∈ X n , on a :

L(x; θ) = φ(S(x), θ)h(x).

Ainsi, pour tout x ∈ X n , on a :


supθ∈Θ0 L(x; θ) supθ∈Θ0 φ(S(x), θ)h(x) supθ∈Θ0 φ(S(x), θ)
ℓ(x) = = = ,
supθ∈Θ L(x; θ) supθ∈Θ φ(S(x), θ)h(x) supθ∈Θ φ(S(x), θ)
ce qui donne le résultat en posant :
supθ∈Θ0 φ(s, θ)
λ(s) = .
supθ∈Θ φ(s, θ)

73
CHAPITRE 7. TESTS D’HYPOTHÈSES

Exemple 7.2. Considérons le modèle (R+ , (E(θ))θ>0 ) et supposons que l’on souhaite tester
H0 : θ ≤ θ0 contre H1 : θ > θ0 en utilisant un échantillon de taille n.
Vérifier que la statistique du RVG est donnée par :
n
θ0 S(X)

ℓ(X) = en−θ0 S(X) 1n−θ0 S>0 + 1n−θ0 S≤0
n
P
où S = S(X) est la statistique exhaustive pour θ dans ce modèle définie par S(X) = i=1n Xi .

7.2.3 Tests bayésiens


Considérons sur (X , (Pθ )θ∈Θ ) deux hypothèses à tester H0 : θ ∈ Θ0 et H0 : θ ∈ Θ0 en
utilisant la loi a priori ν sur Θ (voir Section 6.2.4). Rappelons que dans le contexte bayésien,
l’inférence se fait, après avoir observé x = (x1 , . . . , xn ), via la loi a posteriori Px contenant
l’information apportée par x et celle apportée par ν (généralement de faible impact). Dans ce
contexte Px [θ ∈ Θi ] représente la probabilité pour que Hi soit vraie sachant que l’on a observé
x. Elles induisent naturellement des tests, appelés test bayésiens, dans lesquels le contrôle de
l’erreur de première espèce, et donc la détermination de la zone de rejet, se fait à travers de
la probabilité Px [θ ∈ Θc0 ]. Ainsi, pour obtenir un test de seuil α ∈]0, 1[, il faut fonder le test
sur la région critique :
Rα = {x ∈ X n : Px [θ ∈ Θc0 ] ≥ 1 − α} .

Exemple 6.6 (suite).


Reprenons le contexte de l’Exemple 6.6, c’est-à-dire du modèle (R, (N (θ, 1)θ∈R )) avec
comme loi a priori sur Θ = R la loi ν = N (m, σ 2 ) (m et σ 2 connus). Rappelons que la loi a
posteriori Px régissant θ (qui est dans ce contexte bayésien vu comme une variable aléatoire)
est, en ayant observé x = (x1 , . . . , xn ), la loi normale de moyenne
n
1 nσ 2 1X
m = g(xn ) := m + xn avec xn = xi
1 + nσ 2 1 + nσ 2 n i=1

et de variance
σ2
v= .
1 + nσ 2
Notons que la dépendance de Px en l’observation x ne se fait qu’au travers de m via xn et
que g est bijective et de réciproque croissante.
Notons également, que sous Px ,
θ−m
Z= √ ∼ N (0, 1).
v

Ainsi, si l’on souhaite tester l’hypothèse H0 : θ > θ0 au seuil α ∈]0, 1[, le test bayésien
fonde, avec les notations précédentes, la décision sur la zone de rejet :

Rα = {x ∈ X n : Px [θ ≤ θ0 ] ≥ 1 − α}
θ−m θ0 − m
   
= x ∈ X n : Px √ ≤ √ ≥1−α
v v
θ0 − m
   
= x ∈ Xn : P Z ≤ √ ≥ 1 − α pour Z ∼ N (0, 1) .
v

74
CHAPITRE 7. TESTS D’HYPOTHÈSES

En notant q1−α le quantile d’ordre 1 − α de N (0, 1) (facilement accessible avec un logiciel de


statistique comme R) vérifiant puisque cette loi est continue :

P [Z ≤ q1−α ] = 1 − α

on obtient que

θ0 − m
   
n
Rα = x ∈ X : P Z ≤ √ ≥ P [Z ≤ q1−α ] pour Z ∼ N (0, 1)
v
θ0 − m
 
= x ∈ Xn : √ ≥ q1−α (par croissance de la fonction de répartition)
v

= x ∈ X n : m ≤ θ0 − vq1−α


= x ∈ X n : g(xn ) ≤ θ0 − vq1−α

n √ o
= x ∈ X n : xn ≤ g −1 θ0 − vq1−α
( )
1 + nσ 2 √ 1

n
= x ∈ X : xn ≤ 2
θ0 − vq1−α m .
nσ 1 + nσ 2

7.3 Comparaison et analyse des tests


7.3.1 Tests UPP et UPPSB
Puisque l’on cherche en priorité à contrôler l’erreur de première espèce, on ne retient, par
convention consistant à suivre le principe de Neyman, que des test φ de niveau inférieur à un
certain seuil α ∈]0, 1[ choisi a priori par l’utilisateur. Ensuite, on a intérêt à chercher parmi
ces tests celui (ou ceux) d’erreur de seconde espèce la plus faible possible, autrement dit de
puissance maximale.

Définition 7.8. On dit qu’un test φ est uniformément plus puissant au seuil α que φ′ (de
seuil α) s’il est de seuil α et si φ′ est de puissance supérieure à celle de φ sur Θ1 :

ρφ (θ) = Eθ [φ] ≥ Eθ φ′ = ρφ′ (θ),


 
pour tout θ ∈ Θ1 ,

autrement dit si son erreur de deuxième espèce est inférieure à celle de φ′ .


On dit qu’un test φ est uniformément plus puissant au seuil α (UPP ou UMP - uniformly
most powerful) s’il est de seuil α et s’il est uniformément plus puissant que tout autre test φ′
de seuil α, autrement dit si son erreur de deuxième espèce est inférieure à celle de tout autre
test de même seuil.

Remarque 7.5. On se rappellera que si φ est un test pur, alors ρφ (θ) = Pθ [X ∈ R]. Ainsi,
un test pur UPP au seuil α, rejette H0 lorsqu’elle est fausse avec la probabilité la plus grande
possible parmi les tests de seuils α.
La proposition suivant montre qu’un test UPP au seuil α est nécessairement de niveau α.

Proposition 7.1. Soit 0 ≤ α′ < α ≤ 1 et φ′ un test de niveau α′ . Alors, il existe un test φ


de niveau α uniformément plus puissant que φ′ .

75
CHAPITRE 7. TESTS D’HYPOTHÈSES

Preuve :
Il suffit de considérer le test défini par :
α − α′
φ(x) = φ′ (x) + (1 − φ′ (x)).
1 − α′
Les détails sont laissés au lecteur en exercice.

Nous verrons qu’il n’existe pas toujours de tests UPP – en fait, ils n’existent que dans des
situations particulières que nous étudierons plus loin. De façon analogue à ce que nous avons
fait dans le cadre de l’estimation ponctuelle, on peut se restreindre à chercher des tests de
puissance maximale dans des classe plus restreintes de tests, par exemple les tests sans biais.
Définition 7.9. On dit qu’un test φ est sans biais au seuil α

sup Eθ [φ] ≤ α ≤ inf Eθ [φ] .


θ∈Θ0 θ∈Θ1

On dit qu’un test φ est uniformément plus puissant sans biais au seuil α (UPPSB) s’il est
sans biais au seuil α et s’il est UPP que tout autre test φ′ sans biais au seuil α.

7.3.2 Cas des tests entre deux hypothèses simples


On considère dans toute cette section un modèle pour lequel Θ = {θ0 , θ1 } et pour lequel
on souhaite tester H0 : θ = θ0 contre H1 : θ = θ1 .
Définition 7.10. On appelle test de Neyman-Pearson tout test φ tel que :

 1
 si L(x; θ1 ) > κL(x; θ0 )
φ(x) = γ(x) si L(x; θ1 ) = κL(x; θ0 )

 0 si L(x; θ1 ) < κL(x; θ0 )
pour une certaine constante κ > 0 et γ : X n −→ [0, 1].

Remarque 7.6.
1. Si L(x; θ1 ) ̸= κL(x; θ0 ) Pθ0 -p.s. ou γ est constante égale à 0 ou 1, alors le test de
Neyman-Pearson est pur.
2. En réécrivant, par exemple, L(x; θ1 ) < κL(x; θ0 ) sous la forme L(x; θ1 )/L(x; θ0 ) < κ,
on voit que les tests de Neyman-Pearson sont basé sur un rapport de vraisemblances
et sont, en fait, essentiellement des tests du rapport de vraisemblance. On formalisera
cette remarque par la suite. Notons que ce rapport est l’inverse de celui proposé dans
la Section 7.2.1 ; il s’agit des choix standards faits pour conserver l’intuition d’une part
et simplifier certaines écritures d’autre part.
Proposition 7.2 (Existence). Pour tout α ∈]0, 1[, il existe un test de Neyman-Pearson au
seuil α avec γ constante.
Plus précisément, considérons la statistique du rapport de vraisemblance (simple) ℓ, définie
sur X n par
L(x, θ1 )
ℓ(x) = .
L(x, θ0 )
Soient F sa fonction de répartition sous Pθ0 et q1−α son quantile d’ordre 1 − α sous Pθ0 . On
a les cas suivants :

76
CHAPITRE 7. TESTS D’HYPOTHÈSES

• si F (q1−α ) = 1 − α, on choisit κ = q1−α , γ = 1 et le test du rapport de vraisemblance


de région critique R = {ℓ ≥ κ} est un test de Neyman-Pearson (pur) de niveau α ;
• sinon, on choisit κ = q1−α ,
F (κ) − 1 + α
γ= ∈]0, 1]
F (κ) − limt→κ,t<κ F (t)

et le test du rapport de vraisemblance de région critique R = {ℓ > κ} est un test de


Neyman-Pearson (aléatoire) de niveau α ;

Preuve :
Avec les notations de la proposition, on pose φ(x) = 1l(x)>κ + γ1l(x)=κ . Il est facile de
voir que γ ∈ [0, 1] par définition des quantiles et croissance de la fonction de répartition. Il
reste à vérifier que φ est de niveau α :

Eθ0 [φ(X)] = Pθ0 [l(X) > κ] + γPθ0 [l(X) = κ]


= 1 − F (κ) + γ(F (κ) − lim F (t)) = α.
t→κ,t<κ


Le Théorème suivant caractérise les test UPP pour le cas de deux hypothèses simples.
Combiné avec la proposition précédente, il explique pourquoi les tests du rapports de vrai-
semblance se sont imposés dans ce cas.
Théorème 7.2 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[ et le problème du test de H0 :
θ = θ0 contre H1 : θ = θ1 .
Alors, un test est un test de Neyman-Pearson de niveau α si, et seulement si, il est UPP
au seuil α.

Preuve :
Soit φ un test de Neyman-Pearson de niveau α avec κ > 0 et c ∈ [0, 1] et φ′ un test de
seuil α.
Remarquons que si L(x, θ1 ) > κL(x, θ0 ) alors, φ(x) = 1 ≥ φ′ (x) alors que si L(x, θ1 ) <
κL(x, θ0 ), on a φ(x) = 0 ≤ φ′ (x). Ainsi, pour tout x ∈ X n , on a (L(x, θ1 ) − κL(x, θ0 ))(φ(x) −
φ′ (x)) ≥ 0 et donc
Z
(L(x, θ1 ) − κL(x, θ0 ))(φ(x) − φ′ (x)) d λx ≥ 0.
Xn

Il s’ensuit que

ρφ (θ1 ) − ρφ′ (θ1 ) = Eθ1 φ − φ′ ≥ κEθ0 φ − φ′


   

= κ Eθ0 [φ] − Eθ0 φ′ = κ α − Eθ0 φ′


   

≥ 0.

Réciproquement, si φ′ est UPP il vient que les dernières inégalités du sens direct sont en
fait des égalités. Or, (L(·, θ1 ) − κL(·, θ0 ))(φ(·) − φ′ (·)) est positive donc la Proposition 1.2 :(6)
implique que (L(·, θ1 )−κL(·, θ0 ))(φ(·)−φ′ (·)) est nulle p.p. puis que φ = φ′ p.p. sur l’ensemble
{x : L(x, θ1 ) ̸= κL(x, θ0 )}. Il s’ensuit que φ′ est un test de Neyman-Pearson. □

77
CHAPITRE 7. TESTS D’HYPOTHÈSES

7.3.3 Modèles à rapport de vraisemblance monotone


Définition 7.11. Un modèle statistique (X , (Pθ )θ∈Θ⊂R ) est dit à rapport de vraisemblance
(strictement) monotone en une statistique S si pour tout θ < θ′ le rapport de vraisemblance
se factorise en S via une fonction hθ,θ′ : R → R ∪ {±∞} (strictement) monotone :

L(x; θ′ )
= hθ,θ′ (S(x)), pour tout x ∈ X n .
L(x; θ)

Il est dit à rapport de vraisemblance croissant (resp. strictement croissant, décroissant,


strictement décroissant) si hθ,θ′ l’est.

Remarque 7.7. En fait, un test à rapport de vraisemblance décroissant est aussi un test
à rapport de vraisemblance croissant et vice versa. Pour le voir, il suffit de changer S en
−S et hθ,θ′ en hθ,θ′ ◦ (−id). Dans la suite on ne considérera donc que le cas à rapport de
vraisemblance croissant.

Exemple 7.3. Si (Pθ )θ∈Θ est une famille exponentielle à paramètre de dimension un telle
que la densité de Pθ s’écrive sous la forme :

f (x, θ) = a(θ)b(x) exp(c(θ)d(x)), pour tous θ ∈ Θ, x ∈ X ,

avec a et b positives, on a que le rapport de vraisemblance s’écrit pour θ < θ′ et x ∈ X n :

L(x; θ′ ) a(θ′ )n ni=1 b(xi ) exp (c(θ′ ) ni=1 d(xi ))


Q P
=
a(θ)n ni=1 b(xi ) exp (c(θ) ni=1 d(xi ))
Q P
L(x; θ)
a(θ′ ) n
 
exp c(θ′ ) − c(θ) S(x)
 
=
a(θ)

avec S = S(x) = ni=1 d(xi ) la statistique canonique (ou privilégiée) de ce modèle. Ainsi, un
P

tel modèle est à vraisemblance monotone pour S si, et seulement si, c est monotone.
La proposition suivante, immédiate, donne la forme de tests de Neyman-Pearson pour des
modèles à rapport de vraisemblance croissant.

Proposition 7.3. Soit un modèle statistique (X , (Pθ )θ∈Θ⊂R ) à rapport de vraisemblance


croissant pour la statistique S.
Si θ0 < θ1 , on pose :

 1 si S(x) > k

φ(x) = γ si S(x) = k

 0 si S(x) < k

et si θ0 > θ1 , on pose :

 1
 si S(x) < k
φ(x) = γ si S(x) = k

 0 si S(x) > k

Alors φ est un test de Neyman-Pearson.

78
CHAPITRE 7. TESTS D’HYPOTHÈSES

7.3.4 Cas des tests avec hypothèses composites


Extension du Lemme de Neyman-Pearson
Bien que ne s’appliquant qu’au cas de deux hypothèses simples, le Lemme de Neyman-
Pearson admet l’extension suivante
Proposition 7.4. Soient les hypothèses à tester H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 dans le modèle
statistique (X , (Pθ )θ∈Θ ) et φ un test de niveau α pour H0 contre H1 . S’il existe θ0 ∈ Θ0 tel
que ρφ (θ0 ) = α et si pour tout θ1 ∈ Θ1 , il existe κ = κθ1 tel que
(
1 si L(x; θ1 ) > κL(x; θ0 )
φ(x) =
0 si L(x; θ1 ) < κL(x; θ0 )

alors, φ est UPP au seuil α pour H0 contre H1 .

Preuve : Soient un test φ′ un test de niveau α pour H0 contre H1 et θ1 ∈ Θ1 arbitraire.


Remarquons que φ un test de Neyman-Pearson de niveau α pour H0′ : θ = θ0 contre H1′ :
θ = θ1 . Ainsi, par le Lemme de Neyman-Pearson (Théorème 7.2), il est UPP au seuil α pour
H0′ contre H1′ . Or, ρφ′ (θ0 ) ≤ supθ∈Θ0 ρφ′ (θ) ≤ α donc φ′ est de seuil α pour H0′ contre H1′ .
En particulier, φ est UPP que φ′ au seuil α pour H0′ contre H1′ et donc ρφ (θ1 ) ≥ ρφ′ (θ1 ). Le
choix de θ1 ∈ Θ1 étant arbitraire, le résultat s’ensuit.

Cas des tests unilatéraux


Test unilatéral de H0 : θ = θ0 contre H1 : θ > θ0
Théorème 7.3. Soit un modèle statistique (X , (Pθ )θ∈Θ ) à rapport de vraisemblance stricte-
ment croissant en la statistique S. Alors, pour tout α ∈]0, 1[, il existe un test UPP au seuil α
de H0 : θ = θ0 contre H1 : θ > θ0 de la forme

 1
 si S(x) > k
φ(x) = γ si S(x) = k .

 0 si S(x) < k

Remarque 7.8. On peut écrire un théorème analogue pour le test de H0 : θ = θ0 contre


H1 : θ < θ0 en intervertissant les symboles < et > dans la définition de φ.

Preuve : Pour θ1 > θ0 et on considère le test de Neyman-Pearson au seuil α



si S(x) > k
 1

φ(x) = γ si S(x) = k

 0 si S(x) < k

de H0 contre H1′ : θ = θ1 . Comme L(x, θ1 )/L(x, θ1 ) = hθ0 ,θ1 (S(x)) avec hθ0 ,θ1 strictement
croissante, il existe κ tel que

S(x) > k ⇐⇒ L(x; θ1 ) > κL(x; θ0 ) et S(x) < k ⇐⇒ L(x; θ1 ) < κL(x; θ0 ).

On conclue avec la Proposition 7.4. □

79
CHAPITRE 7. TESTS D’HYPOTHÈSES

Test unilatéral de H0 : θ ≤ θ0 contre H1 : θ > θ0

Théorème 7.4 (de Karlin-Rubin ou de Lehmann). Soit un modèle statistique (X , (Pθ )θ∈Θ ) à
rapport de vraisemblance strictement croissant en la statistique S. Alors, pour tout α ∈]0, 1[,
il existe un test UPP au seuil α de H0 : θ ≤ θ0 contre H1 : θ > θ0 de la forme

si S(x) > k
 1

φ(x) = γ si S(x) = k .

 0 si S(x) < k

De plus, on a :
sup ρφ (θ) = ρφ (θ0 ) = α.
θ≤θ0

Remarque 7.9. L’équation du niveau supθ≤θ0 ρφ (θ) = ρφ (θ0 ) = α détermine k.

Preuve : On sait qu’il existe un test de φ tel que ρφ (θ0 ) = α de la forme



 1
 si S(x) > k
φ(x) = γ si S(x) = k .

 0 si S(x) < k

Si θ′ < θ′′ , comme L(x, θ′′ )/L(x, θ′ ) = hθ′ ,θ′′ (S(x)) avec hθ′ ,θ′′ strictement croissante, il s’agit
d’après la Proposition 7.3 d’un test de Neyman-Pearson pour H0′ : θ = θ′ contre H1′ : θ = θ′′ .
Par le Lemme de Neyman-Pearson (Théorème 7.2), il est UPP que tout test φ′ de même seuil
de H0′ contre H1′ . Il vient donc que pour tout test φ′ de même seuil :

ρφ′ (θ′ ) ≤ ρφ (θ′ ) =⇒ ρφ′ (θ′′ ) ≤ ρφ (θ′′ ).

Choisissons θ′ = θ0 et θ′′ > θ0 . Si φ′ est un test de niveau α pour H0 contre H1 , alors


ρφ′ (θ0 ) ≤ supθ ρφ′ (θ) ≤ α = ρφ (θ0 ) donc ρφ′ (θ′′ ) ≤ ρφ (θ′′ ) et φ est UPP que φ′ pour H0
contre H1 .
Il reste à voir que φ de niveau α pour H0 contre H1 . Pour cela, on choisit θ′ < θ′′ = θ0 et
φ′ le test constant égal à ρφ (θ′ ). On a alors que ρφ′ (θ′ ) = ρφ (θ′ ) (donc ρφ′ (θ′ ) ≤ ρφ (θ′ )) donc
ρφ (θ′ ) = ρφ′ (θ0 ) ≤ ρφ (θ0 ). Ceci étant vrai pour tout θ′ < θ0 conclue en prenant le supremum
sur θ′ ≤ θ0 :
sup ρφ (θ′ ) ≤ ρφ (θ0 ) = α.
θ≤θ0

Remarque 7.10. Il découle de cette preuve, que si le modèle est identifiable, la fonction
puissance d’un test de Neyman-Pearson entre deux hypothèses simples est strictement crois-
sante.

Cas des tests bilatéraux


Il n’existe en général pas de test UPP au seuil α pour des hypothèses bilatérales. On se
restreindra donc essentiellement aux modèles dans la classe exponentielle.

80
CHAPITRE 7. TESTS D’HYPOTHÈSES

Cas H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ ∈]θ1 , θ2 [ et H0 : θ ̸= θ0 contre H1 : θ = θ0 On


admet le résultat suivant.

Théorème 7.5. Soit (X , (Pθ )θ∈Θ⊂R ) un modèle exponentielle (à paramètre de dimension 1)


de vraisemblance
L(X; θ) = a(θ)b(x) exp (c(θ)S(x))
avec c strictement croissante de sorte à ce que le modèle soit à rapport de vraisemblance
strictement croissant en T (x). On considère vouloir tester H0 : θ ≤ θ1 ou θ ≥ θ2 contre
H1 : θ ∈]θ1 , θ2 [. Pour tout α, il existe un test UPP au seuil α de la forme :


 1 si k1 < S(x) < k2

 γ
1 si S(x) = k1
φ(x) = .

 γ2 si S(x) = k2


0 sinon

De plus, on a ρφ (θ1 ) = ρφ (θ2 ) = α.

Remarque 7.11.
1. La difficulté pratique est la détermination de k1 et k2 tels que ρφ (θ1 ) = ρφ (θ2 ) = α.
2. On peut écrire un résultat analogue pour tester H0 : θ ̸= θ0 contre H1 : θ = θ0
l’équation du seuil permettant de déterminer γ1 , γ2 , k1 et k2 devient alors :
(
ρφ (θ0 ) = α
.
Eθ0 [S(X)φ(X)] = αEθ0 [S(X)]

3. Comme nous le verrons, ces résultats font figure d’exception dans l’analyse des test
bilatéraux et on ne peut pas les obtenir en intervertissant les formes de H0 et H1 .

Cas H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ < θ1 ou θ > θ2 et H0 : θ = θ0 contre H1 : θ ̸= θ0


En général, il n’existe pas de test UPP permettant de tester H0 : θ = θ0 contre l’hypothèse
alternative bilatérale H1 : θ = θ0 , même pour un modèle dans dans la classe exponentielle. En
effet, considérons vouloir tester ces hypothèses dans le modèle (R, (N (θ, 1))θ∈R et supposons
que φ soit un test UPP au seuil α. Alors, φ est aussi un test UPP au seuil α pour tester
H0 contre H1′ : θ = θ1 pour un certain θ1 > θ0 fixé. Par le Lemme de Neyman-Pearson,
il s’agit d’un test de Neyman-Pearson et, en fait, d’un test pur de région critique de la
forme { ni=1 xi ≥ cα }. De même, φ est aussi un test UPP au seuil α pour tester H0 contre
P

H1′′ : θ = θ2 pour un certain θ2 < θ0 fixé. Par le Lemme de Neyman-Pearson, il s’agit d’un test
de Neyman-Pearson et, en fait, d’un test pur de région critique de la forme { ni=1 xi ≤ c′α }.
P

Ceci étant absurde, on conclue qu’il n’existe pas de test UPP permettant de tester H0 : θ = θ0
contre l’hypothèse alternative bilatérale H1 : θ = θ0 dans ce modèle (pourtant simple, régulier
et dans la famille exponentielle).
La même observation peut être faite pour tester H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ < θ1 ou θ >
θ2 . Du fait de cette observation, on est amenés à rechercher dans ces cas des test optimaux
parmi des classes restreintes de test (par exemple les tests sans biais) même dans des classes
restreintes de modèles (comme ceux des familles exponentielles).
On admet le résultat suivant.

81
CHAPITRE 7. TESTS D’HYPOTHÈSES

Théorème 7.6. Soit (X , (Pθ )θ∈Θ⊂R ) un modèle exponentielle (à paramètre de dimension 1)


de vraisemblance
L(X; θ) = a(θ)b(x) exp (c(θ)S(x))

avec c strictement croissante de sorte à ce que le modèle soit à rapport de vraisemblance


strictement croissant en T (x). On considère vouloir tester H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ <
θ1 ou θ > θ2 . Pour tout α, il existe un test UPPSB au seuil α de la forme :


 1 si k1 < S(x) < k2

 γ
1 si S(x) = k1
φ(x) = .

 γ2 si S(x) = k2


0 sinon

De plus, on a ρφ (θ1 ) = ρφ (θ2 ) = α.

Remarque 7.12. On peut écrire un résultat analogue pour tester H0 : θ = θ0 contre H1 :


θ ̸= θ0 l’équation du seuil permettant de déterminer γ1 , γ2 , k1 et k2 devient alors :
(
ρφ (θ0 ) = α
.
Eθ0 [S(X)φ(X)] = αEθ0 [S(X)]

7.4 Mise en œuvre d’un test


La mise en œuvre complète d’un test passe par le schéma général suivant.

1. Modélisation : Choix d’un modèle statistique en accord avec le contexte du problème


concret considéré.
2. Choix des hypothèses : Ce choix doit être fait en adéquation avec la dissymétrie des
rôles joués par H0 et H1 : on cherche à contrôler en priorité l’erreur de première espèce,
à un seuil fixé a priori, on évite en premier lieu de rejeter à tord H0 .
3. Choix de la statistique de test S : Celui-ci doit être fait de façon à obtenir un zone de
rejet agréable (unilatérale ou bilatérale) en général et de sorte à ce que celle-ci ait un
comportement différent sous H0 (sous laquelle sa loi doit être parfaitement connue) et
H1 .
4. Comportement de S sous H0 : la loi de S doit être parfaitement identifiée sous H0 ; il
peut être asymptotique.
5. Comportement de S sous H1 : la loi de S sous H1 doit être différente de celle sous H0 ;
il peut être asymptotique.
6. Détermination de la région critique : elle correspond aux valeurs raisonnable de S sous
H0 et aberrantes sous H1 ; elle se fait sous H0 .
7. Analyse de l’erreur de seconde espèce : Contrôle de la puissance et/ou tracé de la puis-
sance ; elle se fait sous H1 .
8. Conclusion : à partir d’une observation grâce à la région critique ou calcul de la p-valeur.

82
CHAPITRE 7. TESTS D’HYPOTHÈSES

7.5 Quelques tests usuels


Dans cette section, on ne fait pas une zoologie complète des tests d’hypothèses ni une
analyse poussée de ceux qui seront présentés. On ce contente de donner les grandes lignes des
tests d’usage le plus courant qu’ils soient paramétriques ou non, asymptotiques ou non. On
sera vigilent à vérifier que la taille de l’échantillon est suffisante pour les tests asymptotiques
(disons n ≥ 50 pour fixer les idées).
Pour plus de détails sur ces tests ou d’autres tests le lecteur est renvoyé par exemple vers
le Chapitre VI de [14] ou les Chapitres 9 et 10 de [11] (voir certains renvois spécifiques plus
loin).

7.5.1 Quelques Tests paramétriques


On suppose disposer d’un échantillon de taille n X = (X1 , . . . , Xn ) i.i.d. de la loi mère.
Pour une raison de concision, l’expression « loi sous H0 » est parfois employée légèrement
abusivement, ci-dessous, lorsque Θ0 n’est pas un singleton. Rigoureusement, une discussion
de supremum est nécessaire (voir Définition 7.5 en particulier) mais les calculs se font in fine
avec la loi mentionnée.

Test pour la moyenne dans un échantillon gaussien avec variance connue


 
Cadre : R, N (θ, σ 2 ) , σ 2 > 0 connu.

θ∈R

Cas 1 :

H0 : θ = θ0 ou θ ≤ θ0
H1 : θ = θ1 (θ1 > θ0 ) ou θ > θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {x : S(x) ≥ c}

Cas 2 :

H0 : θ = θ0 ou θ ≥ θ0
H1 : θ = θ1 (θ1 < θ0 ) ou θ < θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {x : S(x) ≤ c}

83
CHAPITRE 7. TESTS D’HYPOTHÈSES

Cas 3 :

H0 : θ = θ0
H1 : θ ̸= θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {|S(x)| ≥ c}

Test pour la moyenne dans un échantillon gaussien avec variance inconnue


 
Cadre : R, N (θ, σ 2 ) , (σ 2 > 0 inconnu).

θ∈R,σ 2 >0

Cas 1 :

H0 : θ = θ0 ou θ ≤ θ0
H1 : θ = θ1 (θ1 > θ0 ) ou θ > θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1 X
Sn2 (X) = (Xi − X n )2 .
n − 1 i=1

Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {x : S(x) ≥ c}

Cas 2 :

H0 : θ = θ0 ou θ ≥ θ0
H1 : θ = θ1 (θ1 < θ0 ) ou θ < θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1 X
Sn2 (X) = (Xi − X n )2 .
n − 1 i=1

84
CHAPITRE 7. TESTS D’HYPOTHÈSES

Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {x : S(x) ≤ c}

Cas 3 :

H0 : θ = θ0
H1 : θ ̸= θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1X
Sn2 (X) = (Xi − X n )2 .
n i=1

Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {|S(x)| ≥ c}.

Test pour la variance dans un échantillon gaussien avec moyenne connue



Cadre : R, (N (m, θ))θ>0 , m connu.
H0 : θ = θ0
Statistique de test :
n
1 X
S(X) = (Xi − m)2 .
θ0 i=1
Loi sous H0 :
S ∼ χ2 (n).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents pour les cas
unilatéraux. Dans les cas bilatéraux, du fait de la dissymétrie de la loi du Khi-2, la région
critique est de la forme ] − ∞, aα ] ∪ [bα , +∞[ que l’on détermine de façon à ce que, pour
χ2 ∼ χ2 (n) :
α
P[χ2 ≤ aα ] = P[χ2 ≥ bα ] = .
2

Test pour la variance dans un échantillon gaussien avec moyenne inconnue


 
Cadre : R, (N (m, θ))m∈R,θ>0 , (m inconnu).
H0 : θ = θ0
Statistique de test :
n
1 X
S(X) = (Xi − X n )2 .
θ0 i=1

85
CHAPITRE 7. TESTS D’HYPOTHÈSES

Loi sous H0 :
S ∼ χ2 (n − 1).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents pour les cas
unilatéraux. Dans les cas bilatéraux, du fait de la dissymétrie de la loi du Khi-2, la région
critique est de la forme ] − ∞, aα ] ∪ [bα , +∞[ que l’on détermine de façon à ce que, pour
χ2 ∼ χ2 (n − 1) :
α
P[χ2 ≤ aα ] = P[χ2 ≥ bα ] = .
2

Test de comparaison de moyennes dans des échantillons gaussiens


Cadre : X = (X1 , . . . , Xn1 ) de loi mère N (m1 , σ12 ) et Y = (Y1 , . . . , Yn2 ) de loi mère N (m2 , σ22 )
indépendants.

Cas des variances connues

H0 : m1 = m2
Statistique de test :
Xn − Y n
S(X) = r .
σ12 σ22
n1 + n2

Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents.

Cas des variances inconnues mais supposées égales

H0 : m1 = m2
Statistique de test :
Xn − Y n
S(X) = r  
S 2 (X, Y) n11 + 1
n2


n1 n1
!
2 1 X X
S (X, Y) = (Xi − X n )2 + (Yi − Y n )2
n1 + n2 − 2 i=1 i=1
Loi sous H0 :
S ∼ T (n1 + n2 − 2).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents.
Remarque : Pour le cas général à variance inconnue, on peut construire un test asymptotique
de comparaison de moyennes (voir problème de Behrens-Fisher).

Test de comparaison de variances dans des échantillons gaussiens


Cadre : X = (X1 , . . . , Xn1 ) de loi mère N (m1 , σ12 ) et Y = (Y1 , . . . , Yn2 ) de loi mère N (m2 , σ22 )
indépendants.
H0 : σ12 = σ22

86
CHAPITRE 7. TESTS D’HYPOTHÈSES

Cas des moyennes connues

Statistique de test :
Sbn21 (X)
S(X) =
Sbn22 (Y)

n
1X
Sbn2 (Z) = (Zi − E[Z])2 .
n i=1
Loi sous H0 :
S ∼ F(n1 , n2 ) (loi de Fisher-Snedecor).

Cas des moyennes inconnues

Statistique de test :
Sn21 (X)
S(X) =
Sn22 (Y)
Loi sous H0 :
S ∼ F(n1 − 1, n2 − 1).

Test pour une proportion


Cadre : X1 , . . . , Xn i.i.d. de loi Ber(θ).
H0 : θ = θ0
Statistique de test :
n
X
S(X) = Xi .
i=1

Loi sous H0 :
S(X) ∼ Bin(n, θ0 ).
Remarque : Si n est assez grand, il est courant de plutôt utiliser un test asymptotique en
approchant convenablement la loi Bin(n, θ0 ) par une loi de Poisson ou une loi normale.

7.5.2 Test du Khi-2 d’indépendance


Cadre : Pour deux caractères étudiés sur une même population, X et Y , de modalités x1 , . . . xl
et y1 , . . . yr , on dispose des effectifs observés Oi,j du couple (xi , yj ) présentés généralement
sous la forme d’un tableau à double entrée. On note N l’effectif total de la population et
Ni,· = rj=1 Oi,j les effectifs marginaux en X et N·,j = ci=1 Oi,j les effectifs marginaux en
P P

Y.
H0 : X et Y sont indépendantes. On note

Ni,· N·,j
Ti,j =
N
l’effectif théorique de la modalité (xi , yj ) sous H0 . On suppose que tous les effectifs théoriques
sont ≥ 5, sinon on effectue des regroupements de lignes ou de colonnes.

87
CHAPITRE 7. TESTS D’HYPOTHÈSES

Statistique de test : pseudo-distance du Khi-2 :


X (Oi,j − Ti,j )2
χ2 =
i,j
Ti,j

Loi sous H0 : Asymptotiquement, sous H0 :

χ2 ∼ χ2 ((r − 1)(c − 1))


approx.

où r et c sont les nombres de lignes et de colonnes après éventuels regroupements.


Forme de la région critique :
Rα = {χ2obs ≥ χ2crit }
où χ2obs est la valeur observée de la statistique de test et χ2crit est déterminé en fonction du
seuil du test et du nombre de d.d.l..
Remarque : Il s’agit d’un test asymptotique. Voir par exemple [7] Sections IX.9.3. ou [14] p.
204-206.

7.5.3 Test du Khi-2 d’adéquation à une loi


P
Cadre : On dispose des effectifs observés O1 , . . . , Ol , dans un échantillon de taille N = i Oi ,
d’un caractère discret X de modalités x1 , . . . xl et l’on souhaite tester si X se distribue confor-
mément à une loi discrète spécifiée µ. S’il est nécessaire d’estimer, des paramètres pour cette
loi, on note r le nombre de paramètres estimés.
H0 : X ∼ µ. On note
Ti = N µ(xi )
l’effectif théorique de la modalité xi sous H0 . On suppose que tous les effectifs théoriques sont
≥ 5, sinon on effectue des regroupements en classes.
Statistique de test : pseudo-distance du Khi-2 :
X (Oi − Ti )2
χ2 =
i
Ti

Loi sous H0 : Asymptotiquement, sous H0 :

χ2 ∼ χ2 (l − r − 1)
approx.

où l est le nombre de modalités après éventuels regroupements et et r le nombre de paramètres


estimés (éventuellement nul).
Forme de la région critique :
Rα = {χ2obs ≥ χ2crit }
où χ2obs est la valeur observée de la statistique de test et χ2crit est déterminé en fonction du
seuil du test et du nombre de d.d.l..
Remarque : Il s’agit d’un test asymptotique. Voir par exemple [7] Sections IX.9.2.

7.5.4 Voir aussi


Test de comparaison de deux proportions
[11] Section 9.7.6., [14] p.191-192.

88
CHAPITRE 7. TESTS D’HYPOTHÈSES

Test de comparaison de deux échantillons gaussiens de Fisher-Snedecor et Student


[14] p.182-185.

Test de comparaison de deux échantillons


[7] Section IX.10.3

Test du Khi-2 d’homogénéité de plusieurs échantillons


[11] Section 10.2., [14] p.186-190 (Smirnov, Wilcoxon, ...)

Test de corrélation dans un couple gaussien


[11] Section 9.7.7.

Test de corrélation de Spearman


[11] Section 10.5.5., [14] p.198-200

Test exact de Fisher


test d’indépendance non asymptotique [11] Section 10.3.2

Test de Kolmogorov-Smirnov
Adéquation à une loi continue, [11] p. 266-267 et 270-271, [7] Sections IX.10.1 et IX.10.2,
[14] p. 176.

Test de Cramer-von Mises


test d’ajustement, en particulier applicable pour des lois normales ou exponentielles [14]
p. 177-178.

Test de localisation de deux lois


[11] Section 10.5.4.

Test d’utilité des régresseurs


[7] Sections IX.7.2., [14] p.218

89
Chapitre 8

Estimation par intervalles ou


régions de confiance

Alors que dans le cadre de l’estimation paramétrique ponctuelle l’objectif était de donner
une valeur unique pour approcher le paramètre inconnu θ, l’idée sous-jacente à l’estimation
par intervalle ou région de confiance, est de donner un ensemble de valeur plausibles pour le
paramètre à estimer telle que la probabilité pour que le paramètre appartienne effectivement
à cette région est prescrit. Il est clair qu’une estimation ponctuelle du paramètre inconnu doit
être un bon point de départ pour construire de tels intervalles ou régions et que le contrôle de
la variance de l’estimateur doit permettre de contrôler la taille de la région, que l’on souhaite
petite par soucis de précision.
Remarquons que cette approche est naturelle puisque même si l’estimation ponctuelle θb
de θ est convenable la probabilité pour que θ soit effectivement égale à θb est faible, et est
même nulle dès que la loi de θb est continue.
Dans ce chapitre, nous nous restreindrons au cas de l’estimation d’un paramètre de dimen-
sion 1 par intervalle de confiance et n’explorerons pas le cas des dimensions supérieurs et des
régions de confiance. Nous décrirons les méthodes de construction d’intervalle et donnerons
des exemples classiques. Nous ne nous intéresserons pas à la qualité et à l’optimalité de tels
intervalles de confiance. Le lecteur intéressé par ces questions est renvoyé par exemple à la
Section 7.7 de [11] ou au plus complet Chapitre 7 de [15].

8.1 Estimation par intervalles de confiance de niveau exact ou


par excès
Définition 8.1. Soit (X , (Pθ )θ∈Θ un modèle statistique avec Θ ⊂ R sur lequel on observe un
échantillon (X1 , . . . , Xn ) de taille n, g : Θ −→ R une application (mesurable) et α ∈]0, 1[.
Un intervalle aléatoire In,α = In,α (X1 , . . . , Xn ) est appelé intervalle de confiance (IC) de
niveau exact (resp. par excès) 1 − α pour g(θ) si pour tout θ ∈ Θ :

Pθ [g(θ) ∈ In,α ] = 1 − α (resp. ≥ 1 − α).

Remarque 8.1.
1. Il est fréquent de prendre g = id.

91
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
2. Dans la pratique, ayant donné la garantie du niveau au moyen de l’étude de l’inter-
valle aléatoire In,α (X1 , . . . , Xn ), on fournira l’estimation par intervalle de confiance
In,α (x1 , . . . , xn ) pour une observation (x1 , . . . , xn ).
3. On utilisera les IC par excès en particulier pour les lois discrètes pour lesquels l’IC de
niveau exact n’est en général pas accessible en raison de la non continuité de la fonction
de répartition.

Définition 8.2. Dans le cadre de la définition précédente, soit gbn = gbn (X1 , . . . , Xn ) un
estimateur de g(θ). On appelle fonction pivot toute fonction u définie sur g(Θ)2 telle que la
loi de u(gbn , g(θ)) est indépendante de θ.

Remarque 8.2. Les limites de cette méthode sont de déterminer une fonction pivot (s’il en
existe une) et de déterminer la loi de u(gbn , g(θ)).

Proposition 8.1. S’il existe une fonction pivot, alors, pour tout α, il existe un IC de niveau
exact 1 − α basé sur l’estimateur gbn .

Preuve : Dans ce cas, pour α fixé arbitrairement dans ]0, 1[, il existe I tel que, indépendam-
ment de θ,
Pθ [u(gbn , g(θ)) ∈ I] = 1 − α
et un intervalle de confiance de niveau exact 1 − α pour g(θ) est donné par :

In,α (X1 , . . . , Xn ) = {x ∈ X n : u(gbn (x), g(θ)) ∈ I} .

Exemple 8.1. Soit le modèle statistique (R+ , (E(θ))θ>0 ) sur lequel on souhaite estimer la
moyenne, inverse du paramètre, 1/θ au moyen d’un échantillon X = (X1 , . . . , Xn ). Rappelons
que la moyenne empirique X n = n1 ni=1 Xi est dans ce cadre un estimateur de 1/θ. Nous
P

allons voir que la fonction u définie par

u(X n , 1/θ) = θnX n

est une fonction pivot. Pour cela, rappelons que par l’Exercice A.2, nX n ∼ Γ(n; θ). Ainsi, on
a:
t t
h i    
Fu(X n ,1/θ) (t) = FθnX n (t) = Pθ θnX n ≤ t = Pθ nX n ≤ = FnX n
θ θ
et donc, en dérivant,
t n−1 n −θ θt

1 t 1 θ e
 
θ
fu(X n ,θ) (t) = fnX n = 1t>0
θ θ θ (n − 1)!
tn−1 e−t
= 1t>0 .
(n − 1)!

On obtient donc que u(X n , θ) ∼ Γ(n, 1) indépendamment de θ. Par suite, pour tout choix
de 0 < i− < i+ < +∞ tel que pour Y ∼ Γ(n, 1)
h i
P Y ∈ [i− , i+ ] = 1 − α

92
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
on peut trouver un intervalle de confiance de niveau 1 − α pour 1/θ. En effet,
u(X n , θ) ∈ [i− , i+ ] ⇐⇒ i− ≤ θnX n ≤ i+
nX n nX n
⇐⇒ +
≤ θ−1 ≤ −
i " i #
nX n nX n
⇐⇒ θ−1 ∈ , − .
i+ i
h i
nX n nX n
L’intervalle de confiance recherché est donc de la forme i+
, i− .

Remarque 8.3.
1. On voit dans l’exemple précédent que l’intervalle de confiance n’est pas unique et d’am-
plitude aléatoire. Un courant est de prendre i− le quantile d’ordre α2 de la loi de
u(gbn , g(θ)) (ici de la loi Γ(n; 1)) et i+ son quantile d’ordre 1 − α2 . L’IC est toujours
d’amplitude aléatoire. Ce choix permet lorsque la loi de u(gbn , g(θ)) est symétrique et
unimodale – par exemple gaussienne centrée – d’obtenir un IC d’amplitude minimale
(ce n’est pas le cas ici). Les quantiles nécessaires seront accessible via les fonctions adé-
quates de tout logiciel de traitement statistique comme R, ou de manière plus ancestrale
via des tables.
2. Dans certains contextes particuliers, on peut préférer des IC unilatéraux de la forme
] − ∞, a] ou [a, +∞[.

Exercice 8.1. Soit le modèle statistique R, (N (θ, σ 2 ))θ∈R , σ 2 > 0 fixé, sur lequel on sou-


haite estimer la moyenne θ au moyen d’un échantillon X = (X1 , . . . , Xn ). Construire un IC


de niveau exact 1 − α.

8.2 Estimation par intervalles de confiance asymptotiques


L’estimation par IC asymptotiques est de portée plus large, mais nécessite que l’échantillon
utilisé soit de taille suffisante, disons n ≥ 30 pour fixer les idées. Sa légitimité s’accroît avec
la taille de l’échantillon.
Définition 8.3. Soit (X , (Pθ )θ∈Θ un modèle statistique avec Θ ⊂ R sur lequel on observe
un échantillon (X1 , . . . , Xn ) de taille n ≥ 1, g : Θ −→ R une application (mesurable) et
α ∈]0, 1[.
Un intervalle aléatoire In,α = In,α (X1 , . . . , Xn ) est appelé intervalle de confiance (IC) de
niveau asymptotique 1 − α pour g(θ) si pour tout θ ∈ Θ :
lim Pθ [g(θ) ∈ In,α ] = 1 − α.
n→+∞

Cette approche est en particulier valable lorsque, avec un échantillon de grande taille, on
dispose d’un estimateur θbn de g(θ) asymptotiquement normal (voir Section 6.3.6). Nous avons
vu dans la Section 6.3.6 des conditions garantissant une telle normalité asymptotique pour
l’EM et l’EMV (voir Proposition 6.8 et Théorème 6.4).
Dans ce cadre, supposons que l’on ait pour tout θ :
θbn − g(θ) L
−→ N (0, 1),
sn (θ)

93
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
avec sn positive p.p.. En recherchant In,α = In,α (X1 , . . . , Xn ) de la forme In,α = [i− , i+ ], il
vient :

Pθ [g(θ) ∈ In,α ] = 1 − α
h i
⇐⇒Pθ i− ≤ g(θ) ≤ i+ = 1 − α
h i
⇐⇒Pθ g(θ) ≤ i− ou g(θ) ≥ i+ = α
" #
θbn − g(θ) θbn − i− θbn − g(θ) θbn − i+
⇐⇒Pθ ≥ ou ≤ = α.
sn (θ) sn (θ) sn (θ) sn (θ)

Or, en notant q α2 = 1 − q1− α2 et q1− α2 les quantiles d’ordre α2 et 1 − α


2 de N (0, 1), on a, pour
Z ∼ N (0, 1) : h i
P Z ≥ q1− α2 ou Z ≤ q α2 = α.
Il s’ensuit en identifiant lorsque la taille de l’échantillon est suffisante pour permettre l’ap-
proximation gaussienne que

θbn − i− θbn − i+
≃ q1− α2 et ≃ q α2 .
sn (θ) sn (θ)

On obtient ainsi l’IC asymptotique (approché) :


h i h i
In,α ≃ θbn − q1−α sn (θ), θbn − qα sn (θ) = θbn − q1−α sn (θ), θbn + q1−α sn (θ) .

8.3 Approche bayésienne


Rappelons que dans le cadre de l’approche bayésienne, l’inférence est faite via la loi a pos-
teriori (voir Section 6.2.4). Dans ce contexte, on substitue à la notion d’intervalle de confiance
celle d’intervalle de crédibilité que l’on continue à noter IC. On encadrera simplement, pour
déterminer un intervalle de crédibilité de niveau α, θ ou g(θ) par les quantiles d’ordre α2 et
1 − α2 de la loi a posteriori.
Exercice 8.2. Dans le contexte de l’Exemple 6.6, écrire l’IC de niveau 1 − α.

8.4 Correspondance entre intervalles de confiance et tests


Si In,α = In,α (x1 , . . . , xn ) est un IC de niveau 1 − α pour g(θ) basé sur un estimateur θbn ,
on a :
g(θ) ̸∈ In,α ⇐⇒ x = (x1 , . . . , xn ) ∈ R := {x ∈ X n : g(θ) ̸∈ In,α },
et donc pour tout θ :
Pθ [X ∈ R] = Pθ [g(θ) ̸∈ In,α ] = α.
Il en résulte que, pour tout θ0 ∈ Θ, R est la région critique d’un test de risque de première
espèce α de l’hypothèse H0 : g(θ) = g(θ0 ) contre l’alternative H1 : g(θ) ̸= g(θ0 ).
Réciproquement, si pour tout pour tout θ0 ∈ Θ, Rα est la région critique d’un test de risque
de première espèce α de l’hypothèse H0 : g(θ) = g(θ0 ) contre l’alternative H1 : g(θ) ̸= g(θ0 ),
alors In,α = {g(θ) : x ̸∈ Rα } définit un IC de niveau 1 − α pour g(θ).

94
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
Remarque 8.4. Même si nous ne développons pas ces notions, notons que cette correspon-
dance permet de construire des intervalles de confiance optimaux, selon des critères intrin-
sèques, par dualité avec les tests UPP et UPPSB.

8.5 Bases pour quelques intervalles de confiance usuels


Dans cette section, on rappelle les éléments théoriques permettant de construire quelques
IC d’usage courant soit dans leurs versions bilatérales soit dans leurs versions unilatérales, ce
choix étant fait selon le contexte de la situation concrète traitée.

8.5.1 IC pour une moyenne


Cas d’un échantillon gaussien de variance connue
Si X = (X1 , . . . , Xn ) est un échantillon de loi N (θ, σ 2 ), σ 2 > 0 fixé, on utilise que d’après
la Proposition 3.7 et sous Pθ :
n
X
Xi ∼ N (nθ, nσ 2 ),
i=1
soit encore
Xn − θ
p ∼ N (0, 1).
σ 2 /n

Remarque 8.5. Bien qu’il puisse sembler peu réaliste (comment connaître la variance si l’on
ignore la moyenne ?), ce cas peut se rencontrer dans des contextes spécifiques, typiquement,
lorsque sur une machine dont la précision induit des fluctuations gaussiennes de variance fixée
sur les mesures des objets fabriqués mais un réglage influe sur la moyenne indépendamment
de la variance.

Cas d’un échantillon gaussien de variance inconnue


Si X = (X1 , . . . , Xn ) est un échantillon de loi N (θ1 , θ2 ), de variance θ2 > 0 inconnue, on
utilise que d’après le Théorème 5.2 et sous P(θ1 ,θ2 ) :

X n − θ1
√ ∼ T (n − 1),
Sn / n
q
avec X n = n1 ni=1 Xi la moyenne empirique de l’échantillon et Sn = 1 Pn
− X n )2
P
n−1 i=1 (Xi
son écart-type corrigé.

Cas asymptotique pour un échantillon de loi de carré intégrable


Si X = (X1 , . . . , Xn ) est un échantillon d’une loi de carré intégrable de moyenne θ et
d’écart-type σ, le TCL (Théorème 4.4) assure que

Xn − θ
√ ∼ N (0, 1),
σ/ n
et l’approximation de la loi de ce quotient par N (0, 1) pour n grand est bonne dès que n ≥ 30.
En général, σ est inconnu et il est naturel de vouloir l’estimer par Sn . Pour assurer que cette

95
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
estimation est convenable, il est nécessaire de considérer des échantillons de taille bien plus
importante (disons n ≥ 100) pour fixer les idées. Par ailleurs, la loi de Sn peut, en général,
différer sensiblement de celle de son analogue dans le cas gaussien (donnée dans le Théorème
5.2). On admettra cependant, que si n ≥ 100, un IC pour la moyenne θ dans ce cadre plus
général, peut être obtenu en utilisant que :

Xn − θ
√ ∼ T (n − 1),
Sn / n approx.

q
avec X n = n1 ni=1 Xi la moyenne empirique de l’échantillon et Sn = 1 Pn
− X n )2
P
n−1 i=1 (Xi
son écart-type corrigé.

8.5.2 IC sur la différence des moyennes de deux échantillons gaussiens


Cas d’échantillons de même variance σ 2

On suppose que X = (X1 , . . . , Xn1 est un échantillon de loi mère N (θ1 , σ 2 ) et Y =


(Y1 , . . . , Yn2 est un échantillon de loi mère N (θ2 , σ 2 ) et que les deux échantillons sont indé-
pendants. On s’intéresse à la différence θ1 − θ2 . Il vient que

1 1
  
X n1 − Y n2 ∼ N θ1 − θ2 , σ 2 + .
n1 n2

La difficulté est, en fait, l’estimation de σ 2 mais l’on sait (voir Théorème 5.2) que les variances
corrigées SX2 et S 2 des deux échantillons satisfont :
Y

n1 − 1 2 n2 − 1 2
SX ∼ χ2 (n1 − 1) et SY ∼ χ2 (n2 − 1)
σ2 σ2

d’où l’on déduit par indépendance des deux échantillons que

2 n1 − 1 2 n2 − 1 2
Spond = SX + SY ∼ χ2 (n1 + n2 − 2).
σ2 σ2

En définissant l’estimateur pondéré de la variance de ces deux échantillons :

(n1 − 1)SX2 + (n − 1)S 2


2 Y
,
n1 + n2 − 2

on obtient que
X n1 − Y n2 − (θ1 − θ2 )
q ∼ T (n1 + n2 − 2).
2 1 1
Spond n1 + n2

Remarque 8.6.
On peut montrer que cette approche reste applicable lorsque les variances des deux échan-
tillons ne sont pas égales mais sont proches.

96
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
Cas d’échantillons de variances significativement différentes
Si les variances sont significativement différentes, l’approche précédente est mise en défaut.
Toutefois, on obtient que
!
σ2 σ2
X n1 − Y n2 ∼ N θ1 − θ2 , X + Y .
n1 n2
Si les tailles des échantillons est importante (disons supérieures à 100), on peut conduire
un calcul approché raisonnable en substituant aux variances les variances corrigées SX 2 et S 2
Y
des deux échantillons.
Remarque 8.7.
Cette approche est applicable asymptotiquement dans le cadre de deux échantillons de
même loi, non nécessairement gaussienne.

8.5.3 IC pour la variance d’un échantillon gaussien


Il suffit d’utiliser que par le Théorème 5.2,
n−1 2
S ∼ χ2 (n − 1).
σ2 n

Remarque 8.8. Contrairement à la construction d’IC pour la moyenne, même pour des
échantillons de très grande taille, cette approche n’est pas applicable hors du cadre gaussien.

8.5.4 IC pour le rapport de variances de deux échantillons gaussiens


Il suffit d’utiliser la Proposition 5.2.

8.5.5 IC pour une proportion


Estimer une proportion revient à estimer le paramètre θ ∈ [0, 1] dans le modèle d’échan-
tillonnage basé sur la famille des lois de Bernoulli. Pour un échantillon de taille n, sous Pθ ,
on a : n
X
Xi ∼ Bin(n, θ),
i=1

ce qui permet d’obtenir des IC exact. Il est naturel de vouloir estimer la proportion θ par
la fréquence empirique fbn = n1 ni=1 Xi . Lorsque l’échantillon est de taille suffisante (disons
P

nfbn , n(1 − fbn ) > 5 pour fixer les idées), on peut utiliser l’approximation gaussienne fournie
par le TCL et raisonner comme pour l’IC pour la moyenne.

97
Annexe A

Lois usuelles

A.1 Lois discrètes usuelles


A.1.1 Loi uniforme discrète
Définition A.1. On appelle loi uniforme sur {1, 2, . . . n} la loi dont le support est {1, 2, . . . n}
et dont les probabilités des événements élémentaires sont identiques, c’est-à-dire telle qu’une
variable aléatoire (v.a.) suivant cette loi vérifie :
1
P[X = k] = , pour tout k ∈ {1, 2, . . . , n}.
n
Cette loi est notée U({1, 2, . . . , n}).

Remarque A.1.
1. Cette loi modélise l’équiprobabilité.
2. On note X ∼ U({1, 2, . . . , n}) pour dire que la v.a. X suit la loi U({1, 2, . . . , n}).

Exemple A.1. Considérons une urne contenant 50 boules indiscernables numérotées de 1 à


50. Si l’on choisit une boule au hasard dans l’urne, la variable aléatoire indiquant le numéro
de la boule suit une loi uniforme sur {1, 2, . . . , 50}.
Proposition A.1. Soit X ∼ U({1, 2, . . . , n}).
On a :
n+1 n2 − 1
E[X] = , V[X] = ,
2 12
n n
1X 1X
LX (t) = etk et ϕX (t) = eitk .
n k=1 n k=1

A.1.2 Loi de Bernoulli


Considérons une expérience aléatoire possédant (exactement) deux issues alternatives du
type « succès » ou « échec », « vrai » ou « faux », « pile » ou « face », ... Une telle expérience
est appelée épreuve de Bernoulli. On modélise une telle expérience par une v.a. X telle que
l’événement {X = 1} représente un succès et l’événement {X = 0} un échec. On a alors
X(Ω) = {0; 1} et si P[X = 1] = p ∈ [0; 1], P[X = 0] = 1 − P[X = 1] = 1 − p.

99
ANNEXE A. LOIS USUELLES

Définition A.2. On dit qu’une v.a. X telle que X(Ω) = {0; 1}, P[X = 1] = p ∈ [0; 1],
P[X = 0] = 1 − p suit une loi de Bernoulli de paramètre p.
On note alors X ∼ Ber(p).

Exemple A.2. Considérons un tirage à pile ou face d’une pièce bien équilibrée. La variable
aléatoire définie par : (
1 si la pièce tombe sur face
X=
0 si la pièce tombe sur pile

suit la loi de Bernoulli de paramètre 12 .

Proposition A.2. Si X ∼ Ber(p), on a :

E[X] = p, V[X] = p(1 − p),

LX (t) = 1 − p + pet et ϕX (t) = 1 − p + peit .

A.1.3 Loi binomiale


Lorsqu’une épreuve de Bernoulli est répétée plusieurs fois, disons n fois, indépendam-
ment, on peut s’intéresser au nombre de succès obtenus lors de ces n expériences ; ce nombre
est simplement la somme des variables de Bernoulli servant à modéliser ces expériences répé-
tées.

Définition A.3. On dit qu’une v.a. X suit une loi binomiale de paramètres n ∈ N et p ∈ [0; 1]
si X s’écrit sous la forme :
n
X
X= Xk ,
k=1

où X1 , . . . , Xn sont indépendantes et identiquement distribuées (i.i.d.) de loi de Ber-


noulli de paramètre p.
On note alors X ∼ Bin(n, p).

Remarque A.2. Le support de la loi Bin(n, p) est {0, . . . , n}.

Exemple A.3. Considérons 10 tirages successifs à pile ou face d’une pièce tombant sur face
avec probabilité p. Pour k = 1, . . . , n, la variable aléatoire définie par :
(
1 si la k e pièce tombe sur face
Xk =
0 si la k e pièce tombe sur pile

suit la loi de Bernoulli de paramètre p. De plus, X1 , . . . , Xn sont indépendantes. Ainsi, le


nombre de faces obtenu lors de ces tirages est :
n
X
X= Xk
k=1

et suit la loi Bin(10, p).

Proposition A.3. Soit X ∼ Bin(n, p).

100
ANNEXE A. LOIS USUELLES

1. Pour tout k ∈ {0, . . . , n}, on a :


!
n k
P[X = k] = p (1 − p)n−k .
k

2. On a :
E[X] = np, V[X] = np(1 − p),
LX (t) = (1 − p + pet )n et ϕX (t) = (1 − p + peit )n .

Exemple A.3 (suite). Reprenons l’Exemple A.3 et supposons que p = 0, 4. On a alors :

P[3 ≤ X ≤ 5] = P[X = 3] + P[X = 4] + P[X = 5]


! ! !
10 10 10
= 0, 43 (1 − 0, 4)7 + 0, 44 (1 − 0, 4)6 + 0, 45 (1 − 0, 4)5
3 4 5
≃ 0, 6665.

On a 66, 65% de chances d’observer entre 3 et 5 faces lors d’une série de 10 lancés. L’espérance
de la variable X est E[X] = 10 × 0, 4 = 4 : si on répète une grand nombre de fois l’expérience,
on s’attend à observer en moyenne 4 faces par série de 10 lancés.

A.1.4 Loi multinomiale


Il s’agit d’une généralisation de la loi binomiale au cas où l’on répète indépendamment
n fois une expérience aléatoire n’ayant pas 2 mais K issues alternatives de probabilités de
réalisations respectives p1 , . . . , pK (avec p1 + · · · + pK = 1). On peut, par exemple, simplement
penser à des lancés successifs d’un dé plutôt que d’une pièce.

Définition A.4. Si on note Xi le nombre de fois que la ie alternative a été réalisés parmi
les n essais de l’expérience aléatoire décrite ci-dessus, on dit que X = (X1 , . . . , XK ) suit la
loi multinomiale de paramètres n et p1 , . . . , pK et on note X ∼ Mult(n; p1 , . . . , pK ).

Notons que la ie marginale Xi suit la loi Bin(n, pi ) et que celles-ci ne sont clairement pas
indépendantes. Par exemple, les liens qu’elles entretiennent ont des conséquences sur sont
support : chacune des marginales peut prendre une valeur ki entre 0 et n avec la contraintes
k1 + · · · + kK = n.

Proposition A.4. Soit X ∼ Mult(n; p = (p1 , . . . , pK )).


1. Pour tout k = (k1 , . . . , kK ) ∈ {{0, . . . , n}K : k1 + · · · + kK = n}, on a :

n!
P[X = k] = pk1 . . . pkKK .
k1 ! . . . kK ! 1

2. On a :
E[X] = np, V[X] = n diag(p1 , . . . , pK ) − n(pi pj )1≤i,j≤K ,
 n  n
K
X K
X
LX (t) =  pj etj  et ϕX (t) =  pj eitj  .
j=1 j=1

101
ANNEXE A. LOIS USUELLES

A.1.5 Loi de Poisson


Lorsque le nombre d’épreuves n devient très important, la manipulation de la loi binomiale
devient fastidieuse voire impossible. On peut alors remplacer son utilisation par celle de la loi
de Poisson sous certaines conditions (Voir Théorème A.1). Celle-ci évalue le nombre aléatoire
d’événements (rares) de même probabilité pendant une durée donnée comme, par exemple, le
nombre d’appels reçus par un standard téléphonique en une heure, le nombre de voitures se
présentant à un péage dans une journée, ...

Définition A.5. On dit qu’une v.a. X suit une loi de Poisson de paramètre λ > 0, si son
support est X(Ω) = N et, pour tout k ∈ N :

λk
P[X = k] = e−λ .
k!
On note alors X ∼ P(λ).

Proposition A.5. Si X ∼ P(λ), on a :

E[X] = V[X] = λ,

LX (t) = exp(λ(et − 1)) et ϕX (t) = exp(λ(eit − 1)).

Exemple A.4. Si, en moyenne, 10 voitures se présentent à un péage donné en une heure, on
modélise le nombre de voiture se présentant au péage en une heure par une v.a. de loi P(10).
Cette modélisation sera justifiée dans la suite.

Proposition A.6. Soient X1 et X2 deux v.a. indépendantes de lois de Poisson de paramètres


respectifs λ1 et λ2 .
On a :
X1 + X2 ∼ P(λ1 + λ2 ).

Preuve : Pour tout t ∈ R, on a :


     
ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t) = exp λ1 (eit − 1) exp λ2 (eit − 1) = exp (λ1 + λ2 )(eit − 1)

et on reconnaît la fonction caractéristique de P(λ1 + λ2 ). □

Approximation binomiale/Poisson Dans cette sous-section nous allons justifier le fait,


évoqué ci-dessus, que l’on peut approcher certaines lois binomiales par une loi de Poisson.

Théorème A.1. Soit λ > 0, Xn ∼ Bin(n, nλ ) et Y ∼ P(λ).


On a :
L
Xn −→ Y.
n→+∞

Remarque A.3. On peut donc approcher la loi Bin(n, p) par la loi P(n×p). Dans la pratique,
on ne fait une telle approximation que si p est proche de 0, n ≥ 30, p ≤ 0, 1, np ≤ 10, sans
quoi l’approximation est mauvaise.

102
ANNEXE A. LOIS USUELLES

Exemple A.4 (suite). Justifions l’utilisation de la loi de Poisson P(10) dans l’Exemple A.4.
Supposons que l’on observe s’il y a eu une arrivée de voiture seulement à n instants fixés dans
l’heure (n est voué à être grand). Alors, la variable Xn comptant le nombre d’instants où
l’on a observé une arrivée de voiture suit une loi binomiale Bin(n, p). Puisqu’en moyenne on
observe 10 arrivées de voitures en une heure, on a np = 10, soit p = 10n . Plus n est grand, plus
la discrétisation du temps est fine et s’approche de la réalité. L’idée est donc de faire tendre
n vers l’infini. Le Théorème A.1 affirme que la loi limite est la loi P(10).

A.1.6 Loi géométrique


Considérons une expérience de Bernoulli dont la probabilité de succès est p ∈]0; 1[. Si
l’on répète plusieurs fois indépendamment cette expérience, on peut s’intéresser au nombre
aléatoire de répétition de l’expérience nécessaires pour obtenir un premier succès.
Définition A.6. Considérons une expérience de Bernoulli dont la probabilité de succès est
p ∈]0; 1[ que l’on répète jusqu’au premier succès. On appelle loi géométrique de paramètre
p ∈]0; 1[ la loi du rang du premier succès. Cette loi est notée G(p).
Proposition A.7. Soit X ∼ G(p).
1. Le support de X est X(Ω) = N∗ et pour tout k ∈ N∗ , on a :
P[X = k] = (1 − p)k−1 p.
2. On a :
1 1−p
E[X] = , V[X] = ,
p p2
pet peit
LX (t) = et ϕX (t) = .
1 − (1 − p)et 1 − (1 − p)eit

Exemple A.5. Une personne rentre ivre chez elle et prélève au hasard une clef dans son
trousseau, en contenant 5, pour tenter d’ouvrir la porte. Si elle échoue, elle remet la clef dans
son trousseau et recommence. Le nombre de tentatives X jusqu’à l’ouverture de la porte suit
alors une loi géométrique de paramètre 51 = 0, 2. En moyenne, la porte sera ouverte après 5
tentative et la probabilité qu’elle soit ouverte après k tentatives est :
P[X = k] = 0, 2 × 0, 8k−1 .

A.1.7 Loi binomiale négative


Considérons une expérience de Bernoulli dont la probabilité de succès est p ∈]0; 1[ que l’on
répète indépendamment jusqu’à l’obtention du ne succès. Alors, la loi binomiale négative de
paramètre n et p est la loi de la v.a. donnant le nombre X d’échecs observés avant l’obtention
du ne succès. En utilisant le caractère i.i.d. des essais et en choisissant les places des échecs
parmi les n + k − 1 possibles (le n + k e sera un succès), on obtient la probabilité pour que
X=k∈N: !
n+k−1
P[X = k] = (1 − p)k pn .
k
Notons que l’on peut étendre la formule précédente en remplaçant le paramètre n ∈ N∗ par
un réel r > 0 et définir cette loi de façon plus générale (même si l’interprétation de la loi est
alors moins immédiate).

103
ANNEXE A. LOIS USUELLES

Définition A.7. On dit que X suit la loi binomiale négative ou de Pólya de paramètres r > 0
et p ∈]0; 1[ si son support est N et si pour tout k ∈ N :

Γ(r + k)
P[X = k] = (1 − p)k pr .
k!Γ(r)

Cette loi est notée BN (r, p).

Remarque A.4. Si X ∼ BN (1, p), alors X + 1 ∼ G(p) (et réciproquement).

Proposition A.8. Soit X ∼ BN (r, p).

r(1 − p) r(1 − p)
E[X] = , V[X] = ,
p p2
r r
p p
 
LX (t) = et ϕX (t) = .
1 − (1 − p)et 1 − (1 − p)eit
Le résultat suivant (basé sur un calcul explicite) justifie la terminologie « binomiale néga-
tive » en montrant que si X ∼ BN (n, p), P[X ≤ k] n’est autre que la probabilité pour qu’il
y ait eu au moins n succès après n + k épreuves de Bernoulli indépendantes de paramètre p.

Proposition A.9. Soit X ∼ BN (n, p) et Y ∼ Bin(n + k, p), n ∈ N∗ , k ∈ n, p ∈ [0, 1]. Alors,

P[X ≤ k] = P[Y ≥ n].

Exercice A.1. Soit X1 ∼ BN (n1 , p) et X2 ∼ BN (n2 , p) deux v.a. indépendantes.


Déterminer la loi de X1 + X2 .
Indication : On pourra utiliser les fonctions caractéristiques.

A.1.8 Loi hypergéométrique


Considérons une urne contenant A ∈ N∗ boule dont pA boules dites gagnantes (pA étant
supposé entier, p ∈ [0, 1]).

Définition A.8. On tire dans cette urne simultanément n ≤ A boules. On dit que X suit
la loi hypergéométrique de paramètres n, p et A si X donne le nombre de boules gagnantes
ainsi tirées. On note alors X ∼ H(n, p, A).

Proposition A.10. Soit X ∼ H(A, p, n).


1. Pour tout k ∈ {0, . . . , n}, on a :
pA (1−p)A
k n−k
P[X = k] = A
.
n

2. On a :
A−n
E[X] = np, V[X] = np(1 − p) ,
A−1
(1−p)A
LX (t) = n
A 2 F1 (−n, −p; (1 − p)A − n + 1; et )
n

104
ANNEXE A. LOIS USUELLES

et
(1−p)A
ϕX (t) = n
A 2 F1 (−n, −p; (1 − p)A − n + 1; eit ),
n
où 2 F1 désigne la fonction hypergéométrique de Gauss

X (a)n (b)n z n
2 F1 (a, b; c; z) =
n=0
(c)n n!

avec (a)0 = 1 et (a)n = a(a + 1) . . . (a + n − 1), n ≥ 1.

A.2 Lois continues usuelles


A.2.1 Loi uniforme continue
Définition A.9. Soient a < b deux réels.
On dit qu’une v.a. X suit la loi uniforme sur [a; b] si sa densité est donnée par :
1
fX (x) = 1 (x), x ∈ R.
b − a [a;b]
On note alors X ∼ U ([a; b]).

Remarque A.5. Il s’agit de l’analogue continue de la loi uniforme discrète.


Proposition A.11. Soit X ∼ U ([a; b]).
1. La fonction de répartition F de X est donnée par :

 0
 si x ≤ a
x−a
FX (x) = b−a si a ≤ x ≤ b .
si x ≥ b

 1

2. On a :
a+b (b − a)2
E[X] = , V[X] = ,
2 12
etb − eta eitb − eita
LX (t) = et ϕX (t) = .
t(b − a) it(b − a)

A.2.2 Loi exponentielle


Définition A.10. Soit λ > 0.
On dit qu’une v.a. X suit la loi exponentielle de paramètre λ si sa densité est donnée
par :
fX (x) = λe−λx 1[0;+∞[ (x), x ∈ R.
On note alors X ∼ E (λ).

Remarque A.6. Elle est utilisée pour modéliser des phénomènes sans mémoire ou sans
vieillissement tels que le temps d’attente avant le prochain tremblement de terre ou la pro-
chaine désintégration dans un réacteur nucléaire ou encore la durée de vie de certains appareils
comme des ampoules. Ceci est justifié par le deuxième point de la Proposition A.12.

105
ANNEXE A. LOIS USUELLES

Proposition A.12. Soit X ∼ E (λ), λ > 0.


1. La fonction de répartition FX de X est donnée par :
(
0 si x ≤ 0
FX (x) = .
1 − e−λx si x ≥ 0

2. [Perte de mémoire] Pour tous s, t ≥ 0 :


P[X > s + t|X > t] = P[X > s].

3. On a :
1 1
E[X] = V[X] = ,
λ λ2
−1 −1
t it
 
LX (t) = 1 − et ϕX (t) = 1 − .
λ λ
Preuve du point 2. : On a :
P [X > s + t, X > t] P [X > s + t]
P [X > s + t|X > t] = =
P [X > t] P [X > t]
1 − P [X ≤ s + t] 1 − FX (s + t) e−λ(s+t)
= = =
1 − P [X ≤ t] 1 − FX (t) e−λt
= e−λs = 1 − FX (s) = P[X > s].

Exemple A.6. On a observé que la durée de vie d’une ampoule d’un modèle donné est d’en
moyenne 1000 heures. Considérons une ampoule de ce modèle et intéressons nous à sa durée
de vie X (exprimée en heures). La v.a. X est continue et sans mémoire. On considère donc que
X suit une loi exponentielle. Puisque l’on s’attend à avoir une durée de vie moyenne de 1000
1
heures, le paramètre de cette loi exponentielle est λ = 1000 de sorte que E[X] = λ1 = 1000.
Ainsi, la probabilité pour que l’ampoule fonctionne au plus 100h est :
1 1
P[X ≤ 100] = 1 − e− 1000 ×100 = 1 − e− 10 ≃ 0, 01.
De même, la probabilité pour que l’ampoule fonctionne plus de 4500 heures est :
1
P[X > 4500] = 1 − P[X ≤ 4500] = e− 1000 ×4500 = 1 − e−4,5 ≃ 0, 01.

A.2.3 Loi gamma


Définition A.11. On dit qu’une v.a. X suit la loi gamma de paramètres r > 0 et λ > 0 si
sa densité est donnée par :
xr−1 λr e−λx
fX (x) = 1[0,+∞[ (x), x ∈ R,
Γ(r)
où Γ(·) désigne la fonction gamma d’Euler :
Z +∞
Γ(r) = tr−1 e−t d t.
0

On note alors X ∼ Γ (r; λ).

106
ANNEXE A. LOIS USUELLES

L’exercice suivant donne l’interprétation pratique de cette loi.


Exercice A.2. Montrer que si X1 , . . . , Xk sont k v.a.i.i.d. de loi E(λ), alors X = X1 +· · ·+Xk
suit la loi Γ (k; λ).

Proposition A.13. Soit X ∼ Γ (r; λ), r, λ > 0.


On a :
r r
E[X] = , V[X] = 2 ,
λ λ
−r −r
t it
 
LX (t) = 1 − , (si t ≤ λ−1 ) et ϕX (t) = 1 − .
λ λ

Remarque A.7. La fonction de répartition de cette loi n’a pas de forme explicite agréable
et nécessite l’utilisation de tables ou d’un logiciel (voir pgamma sous R).

A.2.4 Loi beta


Définition A.12. On dit qu’une v.a. X suit la loi beta de paramètres p, q > 0 si sa densité
est donnée par :
xp−1 (1 − x)q−1
fX (x) = 10<x<1 , x ∈ R,
B(p, q)
où B(·, ·) désigne l’intégrale beta :
Z 1
Γ(p)Γ(q)
B(p, q) = tp−1 (1 − t)q−1 d t = .
0 Γ(p + q)

On note alors X ∼ β (p; q).

Proposition A.14. Soit X ∼ β (p; q), p, q > 0.


On a :
p pq
E[X] = et V[X] = 2
.
p+q (p + q) (p + q + 1)

Proposition A.15. Soient X ∼ Γ (p; λ) et Y ∼ Γ (q; λ) deux v.a. indépendantes.


Alors,
1. X/(X + Y ) ∼ β (p; q) ;
2. X/(X + Y ) et X + Y sont indépendantes.

A.2.5 Loi normale


Définition A.13. On dit qu’une v.a. X suit la loi normale (ou gaussienne) de moyenne m
et de variance σ 2 si sa densité est donnée par :

1 (x−m)2
fX (x) = √ e− 2σ 2 , x ∈ R.
2πσ 2

On note alors X ∼ N m; σ 2 .


107
ANNEXE A. LOIS USUELLES

Remarque A.8.
1. La fonction de répartition d’une loi normale n’a pas de forme analytique close (autre
que son expression intégrale. On a donc recours à des tables (de la loi normale centrée
réduite) et à un changement de variable ou à l’utilisation de logiciels pour le calcul de
ses valeurs (voir pnorm sous R).
2. Soit X ∼ N (0; 1).
(a) La fonction densité fX de X est paire i.e. fX (−x) = fX (x) pour tout réel x. En
particulier, on a :
FX (−x) = 1 − FX (x).

(b) Y = σX + m ∼ N m; σ 2 et réciproquement si Y ∼ N (0; 1), Z = σ −1 (Y − m) ∼




N (0; 1).

Proposition A.16. Soit X ∼ N m; σ 2 .




Alors,
E[X] = m, V[X] = σ 2 .
! !
σ 2 t2 σ 2 t2
LX (t) = exp mt + et ϕX (t) = exp imt − .
2 2

Proposition A.17 (Proposition 3.7). Soit Xi , i = 1, . . . , d, des v.a. indépendantes suivant


respectivement la loi normale N (mi , σi2 ) et α1 , . . . , αn ∈ R.
Alors, Y = α1 X1 + · · · + αd Xd suit la loi normale de moyenne di=1 αi mi et de variance
P
Pd 2 2
i=1 αi σi .

En vertue du TCL, la concentration de la masse autour de la moyenne pour des v.a.


normales est d’intérêt particulier. Donnons quelques valeurs d’usage courant :

P[m − σ ≤ X ≤ m + σ] ≃ 0, 6827,

P[m − 2σ ≤ X ≤ m + 2σ] ≃ 0, 9545


et
P[m − 3σ ≤ X ≤ m + 3σ] ≃ 0, 9973.

A.2.6 Loi normale multidimensionnelle


Voir Section 3.6.

A.2.7 Loi log-normale


Définition A.14. On dit qu’une v.a. X suit la loi log-normale de moyenne m et de variance
σ 2 si X = ln(Y ) pour Y ∼ N m; σ 2 . 
On note alors X ∼ Log −N m; σ 2 .

Remarque A.9.
1. Dans le contexte multidimensionnel, on définit de manière analogue la loi log-normale
X ∼ Log −N (m; Σ) comme celle de X = ln(Y ) pour Y ∼ Nd (m; Σ).

108
ANNEXE A. LOIS USUELLES

2. Cette loi fournit de bon modèles pour les v.a. strictement positives asymétriques à
queues lourdes.

Proposition A.18. Soit X ∼ Log −N m; σ 2 .




Alors,
1 (ln(x)−m)2
fX (x) = √ e− 2σ2 , x ∈ R.
x2πσ 2
σ2 2 2
E[X] = em+ 2 et V[X] = e2m+σ (eσ − 1).

A.2.8 Loi de Pareto


Définition A.15. Soit a, θ > 0.
On dit qu’une v.a. X suit la loi de Pareto de paramètres a et θ si sa densité est donnée
par :
θ a θ+1
 
fX (x) = 1[a;+∞[ (x), x ∈ R.
a x
On note alors X ∼ Par (a, θ).

Remarque A.10. Elle est par exemple utilisée pour modéliser des la distribution de revenus
supérieurs à un seuil donné, la performance de réseaux, mais aussi en gestion de qualité ou
en réassurance.

Proposition A.19. Soit X ∼ Par (a, θ), a, θ > 0.


1. La fonction de répartition FX de X est donnée par :
 θ !
a
FX (x) = 1− 1[a;+∞[ (x).
x

2. On a :
aθ a2 θ
E[X] = (θ > 1) V[X] = (θ > 2),
θ−1 (θ − 1)2 (θ − 2)
et
ϕX (t) = θ(−iat)θ Γ(−θ, −iat).

Remarque A.11. Sa fonction génératrice des moments n’est pas définie.

A.2.9 Loi de Cauchy


Il s’agit de l’exemple typique de loi sans moment, en particulier les lois des grands nombres
et le TCL ne sont pas valables pour cette loi.

Définition A.16. Soit a > 0 et m ∈ R.


On dit qu’une v.a. X suit la loi de Cauchy de paramètres a et m si sa densité est donnée
par :
a
fX (x) = , x ∈ R.
π ((x − m)2 + a2 )
On note alors X ∼ C (a, m).

109
ANNEXE A. LOIS USUELLES

Proposition A.20. Soit X ∼ C (a, m), a > 0, m ∈ R.


1. La fonction de répartition FX de X est donnée par :
1 1 x−m
 
FX (x) = + arctan .
2 π a

2. On a :
ϕX (t) = exp (imt − a|t|) .

Remarque A.12. Son espérance et a fortiori sa variance ainsi que sa fonction génératrice des
moments ne sont pas définis. Le paramètre m est un paramètre de position ; plus précisément,
il s’agit de la médiane de cette loi.

A.2.10 Loi de Weibull


Avec les lois de Gumbel et de Fréchet, il s’agit d’une loi des valeurs extrêmes. Elle généralise
la loi exponentielle pour modéliser les durées de vie et s’obtient comme transformation de
celle-ci.

Définition A.17. Soit α, λ > 0.


On dit qu’une v.a. X suit la loi de Weibull de paramètres λ et α si sa densité est donnée
par :
α
fX (x) = αλxα−1 e−λx 1[0;+∞[ (x), x ∈ R.
On note alors X ∼ W (λ, α).

Proposition A.21. Soit X ∼ W (λ, α), α, λ > 0.


1. La fonction de répartition FX de X est donnée par :
 α

FX (x) = 1 − e−λx 1[0;+∞[ (x).

2. On a :
Γ(1 + α−1 ) Γ(1 + 2α−1 ) − Γ(1 + α−1 )2
E[X] = 1 et V[X] = 2 .
λ α λα
−1
3. Si Y ∼ E (λ) alors Y α ∼ W (λ, α).

A.2.11 Loi de Gumbel


Il s’agit d’une autre loi des valeurs extrêmes apparaissant notamment dans l’étude du
maximum de n observations de v.a. lorsque n tend vers l’infini.

Définition A.18. Soient µ ∈ R et β > 0.


On dit qu’une v.a. X suit la loi de Gumbel de paramètres µ et β si sa densité est donnée
par :     
exp − x−µβ exp − exp − x−µ
β
fX (x) = , x ∈ R.
β
On note alors X ∼ Gum (µ; β).

110
ANNEXE A. LOIS USUELLES

Proposition A.22. Soit X ∼ Gum (µ; β), µ ∈ R, β > 0.


1. La fonction de répartition FX de X est donnée par :
x−µ
  
FX (x) = exp − exp − .
β

2. On a :
E[X] = µ + βγ,
Pn −1
avec γ = limn→∞ k=1 k − ln(n) la constante d’Euler,

π2β 2
V[X] = ,
6
LX (t) = Γ(1 − βt)eµt et ϕX (t) = Γ(1 − iβt)eiµt .

A.2.12 Loi de Fréchet


Il s’agit de la troisième loi classique des valeurs extrêmes.

Définition A.19. Soient µ ∈ R et α, s > 0.


On dit qu’une v.a. X suit la loi de Fréchet de paramètres µ, α et s si sa densité est donnée
par :
 !
α x − µ −α−1 x − µ −α
  
fX (x) = exp − 1x≥µ .
s s s
On note alors X ∼ Fre (µ, α, s).

Proposition A.23. Soit X ∼ Fre (µ; β), µ ∈ R, β > 0.


1. La fonction de répartition FX de X est donnée par :
−α !
x−µ

FX (x) = exp − 1x≥µ .
s

2. On a :
E[X] = µ + sΓ(1 − α−1 ) (si α > 1)
et
V[X] = s2 (Γ(1 − 2α−1 ) − Γ(1 − α−1 )2 ) (si α > 2).

Remarque A.13. Le k e moment de cette loi existe ssi α > k.

A.2.13 Loi du Khi-2


Commençons par établir un résultat dont va découler la définition de la loi du Khi-2 (χ2 )
à ν degrés de liberté et qui conduira aux nombreuses applications de cette loi en statistique.

Proposition A.24. Soient Z1 , . . . , Zν i.i.d. de loi N (0, 1).


Alors,
ν
X
X= Zk2 ∼ Γ(ν/2, 2).
k=1

111
ANNEXE A. LOIS USUELLES

Preuve : On a :

h 2
i
LZ 2 (t) = E etZ1
1

1 1
Z  
=√ exp − (1 − 2t)z 2 d z
2π R 2
!
1 1
Z
s2 √ √
=√ √ exp − ds (s := 1 − 2tz, d s = 1 − 2t d z)
1 − 2t 2π R 2
1
=√ .
1 − 2t

Comme les Zk sont indépendantes, les Zk2 le sont, et on a par le Théorème 3.4 :

1

ν
LX (t) = √ = (1 − 2t)− 2 .
1 − 2t
On conclue en reconnaissant ici la fonction génératrice des moments de la loi Γ(ν/2, 2)
(voir Proposition A.13). □

Définition A.20. On appelle loi du Khi-2 à ν degrés de liberté la loi Γ(ν/2, 2). On la note
χ2 (ν).

Le résultat suivant liste des conséquences immédiates des Définitions A.11 et A.20 et des
Propositions A.13 et A.24.

Proposition A.25. Soit X ∼ χ2 (ν), ν ∈ N∗ .


On a :
1. La densité de X est donnée par :
1 ν
−1 − x2
fX (x) = ν
ν
x2 e 1x>0 .
2 Γ(
2
2

2. On a :
E[X] = ν V[X] = 2ν,
− ν2 ν
LX (t) = (1 − 2t) (t < 1/2) et ϕX (t) = (1 − 2it)− 2 .

3. Si X1 ∼ χ2 (ν1 ) et X2 ∼ χ2 (ν2 ), ν1 , ν2 ∈ N∗ , sont indépendantes alors X1 + X2 ∼


χ2 (ν1 + ν2 ).

Remarque A.14. La fonction de répartition de cette loi s’exprime en terme de la fonction


gamma incomplète et est peu maniable. On a donc recours à l’utilisation de tables ou de
logiciels. Dans la pratique, sous R, nous utiliserons la fonction pchisq.

A.2.14 Loi de Student


La loi de Student a été introduite, ainsi que le test du même nom, par William Gosset qui,
ingénieur chez Guinness, n’a pu publier à ce sujet que sous le nom d’emprunt de Student.

112
ANNEXE A. LOIS USUELLES

Définition A.21. Soient Z ∼ N (0, 1) et Y ∼ χ2 (ν) deux v.a. indépendantes.


On appelle loi de Student à ν degrés de liberté (d.d.l) et on note T (ν) la loi de :

Z
T =q .
Y
ν

Proposition A.26. Soit T ∼ T (ν), ν ∈ N∗ .


On a :
1. La densité de T est donnée par :
  !− ν+1
Γ ν+12 x2 2
fT (x) = √ 1 + .
πνΓ ν2

ν

2. On a :
ν
E[T ] = 0 (ν ≥ 2) et V[X] = (ν ≥ 3).
ν−2

Remarque A.15.
1. La fonction de répartition de cette loi ou ses fonctions génératrices des moments ou
caractéristique ne s’exprime pas de façon agréable. On a donc recours à l’utilisation de
tables ou de logiciels. Dans la pratique, sous R, nous utiliserons les fonctions pt, dt,...
2. Lorsque ν = 1, on retrouve la loi de Cauchy Cau(0, 1) qui n’admet pas de moment
d’ordre 1.

A.2.15 Loi de Fisher-Snedecor


La loi définition même de la loi de Fisher-Snedecor laisse pressentir son intérêt en statis-
tique lorsque l’on souhaite étudier le rapport de sommes de gaussiennes indépendantes.

Définition A.22. Soient X1 ∼ χ2 (ν1 ) et X2 ∼ χ2 (ν2 ) deux v.a. indépendantes.


On appelle loi de Fisher-Snedecor à ν1 d.d.l. au numérateur et ν2 d.d.l. au dénominateur
et on note F(ν1 , ν2 ) la loi de :
ν2 X1
F = .
ν1 X2
La proposition suivante découle directement de la définition de la loi de Fisher-Snedecor.

Proposition A.27. Soit F ∼ F(ν1 , ν2 ). Alors, 1/F ∼ F(ν2 , ν1 ).

Remarque A.16.
1. Les fonctions de densité, de répartition, génératrices des moments ou caractéristique
de cette loi ne s’exprime pas de façon très agréable. Dans la pratique, sous R, nous
utiliserons les fonctions pf, df,...
2. Cette loi admet un moment d’ordre 1 ssi ν2 ≥ 3. Son espérance est alors ν2 (ν2 − 2)−1 .
Sa variance est définie ssi ν2 ≥ 5.

113
Annexe B

Quelques mots sur R

R est à la fois un environnement de manipulation et de traitement de données particu-


lièrement adapté aux statistiques (et d’usage important) et un langage de programmation
autonome et interprété. Il peut donc être utilisé comme une « grosse calculatrice » ou à des
fin de programmation. Basé sur une écriture vectorielle, on peut très souvent éviter l’emploi
de boucles et produire des codes assez courts. La programmation sous R est souples, en par-
ticulier les objets ne sont pas typés (il n’y pas de déclaration de variables à faire). Notons que
de nombreux package R ont été développés et permettent une utilisation facile et rapide des
méthodes statistiques en général, même les plus récentes.
Nous ne donnons ici qu’un aperçu minimal des différentes commandes et fonctionnalités
de R utiles pour illustrer les propos de ce cours. Il existe une large littérature et des aides
en ligne sur R qu’il est possible de consulter pour de plus amples détails. Par exemple, on
peut citer [10] qui constitue une introduction à la programmation en R ou [1, 6] qui sont des
ouvrages dédiés à la statistique sous R.

B.1 Création, lecture et sauvegarde de données


c(argument) : combine les arguments pour former un vecteur
n:m : crée un vecteur d’entiers allant de n à m ; opération prioritaire
seq(a,b) : génère une séquence pour laquelle on peut spécifier l’incrément (by=) et la longueur
(length=)
"chaine" : crée une chaîne de caractères
matrix(x,nrow=,ncol=) : crée une matrice ; les éléments se répètent s’ils sont trop courts
rbind(arguments) : combine les arguments par ligne
cbind(arguments) : combine les arguments par colonne
data.frame(argument) crée un data frame (tableau dont les colonnes peuvent être de types
différents) avec les arguments
list(arguments) : crée une liste avec les arguments (nommés ou non, qui peuvent être de
longueur différente)
save("fichier", x,y) enregistre les objets x et y dans le fichier (format propre à R)
scan("fichier") : lit le contenu de "fichier" et le transcrit en un vecteur
load() : charge le jeu de données écrit avec save
data(x) : charge le jeu de données x

115
ANNEXE B. QUELQUES MOTS SUR R

read.table(file) : lit un fichier au format tabulaire et en fait un data frame ; sépara-


teur de colonne par défaut sep="" ; pour prendre la première ligne comme titre de co-
lonne : header=TRUE ; pour empêcher les vecteurs de caractères d’être transformés en factors
(as.is=TRUE) ; ...
read.csv2("filename",header=TRUE) : idem mais avec des options pré-définies pour lire les
fichiers CSV
save.image("fichier") : enregistre tous les objets

B.2 Extraction de donnée


Pour les vecteurs

x[n] : ne élément de x
x[-n] : supprime le ne élément de x
x[1:n] : n premiers éléments de x
x[-(1:n)] : supprime les n premiers éléments de x

Pour les matrices

x[i,j] : élément de la ligne i colonne j


x[i,] : ligne i
x[,j] : colonne j

B.3 Opération de base


<-,-> : affectation dans le sens des flèches
+,-,*,/ : opérations terme à terme ; si x est de longueur nm et y de longueur n, répète m
fois y pour l’effectuer
%*% : produit matriciel
rev(x) : renverse l’ordre des éléments de x
sort(x) : trie les éléments de x par ordre croissant
t(x) : transposée de x
solve(A) : inverse de la matrice A
solve(A,B) : résout en X l’équation AX = B

B.4 Fonctions mathématiques


sin,cos,tan,log,log10,exp, max, min, abs... : ce que l’on imagine
round(x,d) : arrondi les éléments de x à d décimales
sum(x) : somme de tous les éléments de x
rowSums(x) : sommes par ligne
colSums(x) : sommes par colonne
prod(x) : produit des éléments de x
median(x) : médiane des éléments de x
mean(x) : moyenne des éléments de x

116
ANNEXE B. QUELQUES MOTS SUR R

rowMeans(x) : moyennes par ligne de x


colMeans(x) : moyennes par colonne de x
weighted.mean(x,p) : moyenne des éléments de x pondérés par p
var(x) ou cov(x) : variance corrigée des éléments de x (division par n − 1)
sd(x) : écart-type corrigée des éléments de x
var(x,y) ou cov(x,y) : covariance de x et y
cor(x) : coefficient de corrélation linéaire de x et y

B.5 Fonctions probabilistes


d"suffixe de loi" : densité de la loi
p"suffixe de loi" : fonction de répartition de la loi
q"suffixe de loi" : quantiles de la loi
r"suffixe de loi" : génération de nombres aléatoires selon la loi

Loi Suffixe Paramètre(s)


β(p, q) beta shape1=p, shape2=q
Bin(n, p) binom size=n, prob=p
C(a, m) cauchy location=m, scale=a
E(λ) exp rate=λ−1
F(ν1 , ν2 ) f df1=ν1 , df2=ν2
G(p) geom prob=p
Γ(r, λ) gamma shape=r, scale=λ
Log − − N (m, σ 2 ) lnorm mean=m, sd=σ
Mult(n, p) multinom size=n, prob=p
N (m, σ 2 ) norm mean=m, sd=σ
P(λ) pois mean=λ
T (ν) t df=ν
U([a, b]) unif min=a, max=b
W(λ, α) weibull shape=α, scale=λ
χ2 (ν) chisq df=ν

B.6 Graphiques
windows() : ouvre une fenêtre graphique sous Windows
x11() : ouvre une fenêtre graphique sous GNU/linux ou MacOSX
pdf(file), png(file), jpeg(file), bmp(file), tiff(file) : se prépare à écrire les ins-
tructions graphiques qui suivront dans le fichier file, au format désigné (pdf ou png recom-
mandés) ; width= et height= fixent les dimensions
dev.off() : ferme la fenêtre graphique ou le fichier graphique spécifié (par défaut : celui en
cours)
plot(x) : graphique de x (différents effets selon l’objet)
plot(x,y) : nuage de points
hist(x) : histogramme des fréquences de x
barplot(x) : diagramme en barres
pie(x) : diagramme circulaire

117
ANNEXE B. QUELQUES MOTS SUR R

boxplot(x) : boîte à moustaches ;


sunflowerplot(x, y) : comme plot(x,y) mais les points qui se superposent exactement sont
représentés avec des fleurs (un pétale par valeur répétée)
coplot(y~x | a) : nuage des points de coordonnées x, y pour chaque valeur ou intervalle de
valeur de a

Paramètres de fonctions graphiques

add=TRUE ajoute sur le graphique précédent axes=FALSE ne trace pas les axes
type="p" : type de représentation des coordonnées ; "p" : points, "l" : lignes, "b" : (both)
points et lignes, ...
xlim=, ylim= : limites des zones du graphique,
xlab=, ylab= : titre des axes
main= titre du graphique
sub= : sous-titre
par(...) : définit les paramètres suivants pour les graphiques à venir
col= :couleur(s) des symboles et lignes
lty : type de ligne

Ajout d’éléments à un graphique existant

points(x, y) : ajoute des points


lines(x, y) : ajoute des lignes
curve(f(x),add=T) : ajoute la courbe de f
text(x, y, "texte", ...) : ajoute du texte aux coordonnées (x, y) ;
segments(x0, y0, x1, y1) : trace le segment [(x0, y0); (x1, y1)]
abline(a,b) : trace une droite y = a + bx
legend(x, y, legend) : ajoute une légende au point (x, y) avec les symboles donnés par
legend
box() : encadre le graphique

Faire plusieurs graphiques dans la même fenêtre

layout(matrix(1:nm,n,m)) : découpe la fenêtre en nm blocs de graphiques (n nombre de


lignes, m nombre de colonnes)
par() : permette de combiner les graphiques avec différentes surfaces ; fig = permet de définir
la région où sera le graphique ; new = T indique qu’on pourra tracer ensuite un nouveau
graphique là où l’on veut ; mar = définit les marges autour du graphique

Superposer des graphiques

par(new=T) et on peut ajouter les axes, ...

118
ANNEXE B. QUELQUES MOTS SUR R

B.7 Programmation
function( arglist ) expr : définition de fonction ; arglist est une liste d’arguments, expr
est une expression exécutée ;
return(value) : mis dans expr lors d’une définition de fonction, indique que la fonction doit
renvoyer ce résultat (sinon la fonction renvoie la dernière valeur calculée dans expr)
if(cond) expr : ce que l’on imagine ; opérateurs de comparaison : == != < > <= >=
if(cond) cons.expr else alt.expr, for(var in seq) expr, while(cond) expr, repeat
expr, if(...) break : ce que l’on imagine

119
Bibliographie

[1] Bertrand, F., Initiation à la statistique avec R, Dunod (2018).


[2] Bouziad, A. et Calbrix, J., Théorie de la mesure et de l’intégration, Publications de
l’Université de Rouen (1995).
[3] Bertrand, F., Claeys, E. et Maumy-Bertrand, M., Modélisation statistique par la
pratique avec R, Dunod (2019).
[4] Barbe, P. et Ledoux, M., Probabilité, EDP Sciences (2007).
[5] Chesnau, C., Statistiques : Méthodes et applications avec le logiciel R, Spartacus IDH
(2020).
[6] Dalgaard, P., Introductory statistics with R, Springer (2002).
[7] Delmas, J.-F., Introduction au calcul des probabilités et à la statistique, Les presses de
l’ENSTA (2010).
[8] Fourdrinier, D., Statistique inférentielle, Dunod (2002).
[9] Garet, O. et Kurtzmann, A., De l’intégration aux probabilités, Ellipse (2011).
[10] Goulet, V., Introduction à la programmation en R, disponible en ligne : https://cran.
r-project.org/doc/contrib/Goulet_introduction_programmation_R.pdf (2016).
[11] Lejeune, M., Statistique : La théorie et ses applications, Springer (2010).
[12] Madsen, B., Statistics for Non-Statistician, Springer (2011).
[13] Ouvrard, J.-Y., Probabilité (2 Tomes), Cassini (1998).
[14] Saporta, G., Théories et méthodes de la statistique, Publications de l’Institut Français
du pétrole, Technip (1978).
[15] Shao, J., Mathematical Statistics, Springer (2003).
[16] Wilcox, R., Fundamentals of Modern Statistical Methods, Springer (2010).

121

Vous aimerez peut-être aussi