Cours de Probabilités et Statistiques 2023
Cours de Probabilités et Statistiques 2023
Probabilités et Statistiques
Arnaud Rousselle
[email protected]
Préambule
Ces notes et le cours qui leur est associé ont pour objectifs de fournir aux lecteurs et
étudiants qui le suivront un point d’entrée à l’étude des méthodes statistiques courantes et
les prérequis probabilistes nécessaires pour comprendre celles-ci. Elles suivent la structure des
cours et ouvrages classiques de référence en la matière à l’instar de [1, 4, 5, 7–9, 11, 14, 15].
Ces notes ne prétendent pas à l’exhaustivité et leur lecture à vocation, en y facilitant l’accès,
à être complétée par celle d’éléments de ces ouvrages de référence ou plus généralement
de l’abondante littérature probabiliste et statisticienne. Ainsi, elles doivent permettre aux
lecteurs et étudiants d’acquérir une certaine autonomie pour étoffer leurs connaissances en
statistique afin de répondre à des problèmes concrets et pratiques qu’ils pourront rencontrer
dans le cadre de leurs futurs stages et emplois.
Les premiers chapitres fournissent des prérequis probabilistes aux études statistiques et
sont complétés par une liste de lois usuelles en Appendice A. Plus précisément, le Chapitre
1 donne des éléments de la théorie de la mesure et de l’intégration nécessaires à l’introduc-
tion et à l’étude des variables aléatoires et de leur comportement asymptotique faite dans
les Chapitres 2 à 4. Le Chapitre 5 introduit le cadre général de l’échantillonnage statistique.
Le Chapitre 6 est dédié à l’estimation ponctuelle paramétrique. On y expose les méthodes
classiques de construction des estimateurs et d’analyse de leur qualité de façon assez dé-
taillée. Le Chapitre 7 introduit les concepts de tests d’hypothèses dans le cadre paramétrique,
basés en grande partie sur les estimateurs du chapitre précédant, et présente des outils de
comparaison de tests de façon un peu plus succincte. Une ouverture possible est d’étudier
également les tests d’hypothèses non paramétriques auxquels il est fait allusion. Le Chapitre
8 est consacré à l’estimation par intervalle ou région de confiance pour les paramètres, en
se restreignant, par souci de simplicité et de brièveté, au cas unidimensionnel. Les méthodes
classiques de construction d’intervalles de confiance et la dualité avec les tests d’hypothèses
y sont présentées. Le temps étant limité, les notions de modèles de régression (linéaires ou
logistiques) ne pourront être présentées durant ce cours et sont absentes de ces notes. Elles
restent néanmoins cruciales et sont certainement celles qui pourrait être étudiées en priorité
par un lecteur ou étudiant désireux d’étoffer ces connaissances statistiques après ce cours. Par
ailleurs, un des objectifs de ce cours étant de développer les compétences en statistiques à des
fins d’applications sur des situations concrètes, avec des données de grande taille, l’utilisation
de logiciels ou langages adaptés aux statistiques doit être abordée. Dans le cadre de ce cours,
nous utiliserons R (évoqué brièvement en Appendice B), en particulier lors des dernières
séances de TD. Aussi, les domaines d’application des lois usuelle décrits dans l’Appendice
A se révéleront forts utiles dans l’optique d’application en permettant le choix de modèles
cohérents et adaptés au contexte.
Finalement, j’adresse mes plus sincères remerciement à Ioannis Iakovoglou et Karine
Serier pour leur relecture attentive et leurs remarques avisées qui ont permis d’améliorer la
i
qualité de ces notes.
ii
Table des matières
2 Variables aléatoires 9
2.1 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Fonction quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Quantiles et médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Espérance et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Fonction génératrice des moments . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Inégalités classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.1 Inégalité de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.2 Inégalité de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.3 Inégalité de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.7.4 Inégalité de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.5 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.6 Inégalité de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.7.7 Inégalité de Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Simulation de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 20
iii
TABLE DES MATIÈRES
7 Tests d’hypothèses 69
7.1 Cadre et généralités sur tests d’hypothèses . . . . . . . . . . . . . . . . . . . . 69
7.1.1 Puissance d’un test et erreurs . . . . . . . . . . . . . . . . . . . . . . . 70
7.1.2 Niveau et seuil d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.1.3 Statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
iv
TABLE DES MATIÈRES
7.1.4 p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Construction de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2.1 Tests du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . 71
7.2.2 Tests du rapport de vraisemblance généralisé . . . . . . . . . . . . . . 73
7.2.3 Tests bayésiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.3 Comparaison et analyse des tests . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.1 Tests UPP et UPPSB . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.3.2 Cas des tests entre deux hypothèses simples . . . . . . . . . . . . . . . 76
7.3.3 Modèles à rapport de vraisemblance monotone . . . . . . . . . . . . . 78
7.3.4 Cas des tests avec hypothèses composites . . . . . . . . . . . . . . . . 79
7.4 Mise en œuvre d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.5 Quelques tests usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.5.1 Quelques Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . 83
7.5.2 Test du Khi-2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . 87
7.5.3 Test du Khi-2 d’adéquation à une loi . . . . . . . . . . . . . . . . . . . 88
7.5.4 Voir aussi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A Lois usuelles 99
A.1 Lois discrètes usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.2 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
A.1.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
A.1.4 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
A.1.5 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A.1.6 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1.7 Loi binomiale négative . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A.1.8 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.2 Lois continues usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.1 Loi uniforme continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.2.3 Loi gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
A.2.4 Loi beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2.5 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.2.6 Loi normale multidimensionnelle . . . . . . . . . . . . . . . . . . . . . 108
A.2.7 Loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
v
TABLE DES MATIÈRES
Bibliographie 121
vi
Chapitre 1
A ∈ A =⇒ Ac := Ω \ A ∈ A,
de P(Ω) n’est pas une tribu sur R puisqu’il n’est pas stable par passage au complémen-
taire.
1
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
Remarque 1.1. Dans l’exemple précédent, la tribu B est plus fine que la tribu A au sens où
B ⊃ A. En fait, parmi toutes les tribus sur Ω, la tribu discrète la plus fine alors que la tribu
trivial est la moins fine.
Exercice 1.1.
1. Montrer que l’intersection de deux tribus A et B sur Ω est une tribu.
2. L’union de deux tribus A et B sur Ω est-elle toujours une tribu ? Justifier.
Lorsque Ω = R, on appelle tribu borélienne sur R et on note B(R) la tribu engendrée par
(soit encore par les ouverts de R). De manière analogue, la tribu borélienne B(Rd ) sur Rd
est la tribu engendrée par les (pavés) ouverts de Rd . On montre qu’elle coïncide avec la tribu
produit B(R) ⊗ · · · ⊗ B(R). Sauf mention explicite du contraire, R et Rd seront munis de
leurs tribus boréliennes dans ce cours.
S’il existe une suite exhaustive (An )n∈N ⊂ A de Ω (i.e. telle que ∪n∈N An = Ω) vérifiant
µ(An ) < +∞ pour tout n ∈ N, µ est dite σ-finie.
Si µ(Ω) = 1, µ est appelé mesure de probabilité ou probabilité.
Remarque 1.2.
1. Si µ est une probabilité alors µ est σ-finie.
2. Les mesures de probabilités sont fréquemment (voire généralement) notées P.
Définition[-Théorème] 1.4. Soient µ une mesure σ-finie sur (Ω, A) et ν une mesure σ-finie
sur (E, B). Alors, une unique mesure sur (Ω × E, A ⊗ B) notée µ ⊗ ν vérifie, pour tout A ∈ A
et B ∈ B :
µ ⊗ ν(A × B) = µ(A) × ν(B).
Cette mesure est appelée mesure produit de µ par ν et est σ-finie.
Remarque 1.3.
2
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
1. Si µ et ν sont des probabilités, il en est de même pour µ ⊗ ν.
2. La tribu A ⊗ B apparaissant dans la Définition-Théorème précédente est la tribu produit
engendrée par les pavés A × B, A ∈ A, B ∈ B.
Exemple 1.2.
1. [Pile ou face] Soit Ω = {P, F } (P pour « pile » et F pour « face ») muni de la
tribu discrète. L’application µ : A −→ R+ ∪ {+∞} définie par µ(A) = Card(A)/2 est
une probabilité. Elle modélise la situation correspondant au cas du tirage d’une pièce
équilibrée.
2. [Masse de Dirac] Soit (Ω, A) un espace mesurable et ω ∈ Ω. L’application de A dans
R+ ∪ {+∞}
δω : A 7−→ 1ω∈A
est une probabilité sur Ω appelée masse de Dirac en ω.
3. [Mesure de comptage sur N] Munissons N de sa tribu discrète. L’application définie
par X
µc : A 7−→ δn (A)
n∈N
est une mesure σ-finie (mais pas de probabilité) sur N appelée mesure de comptage sur
N.
4. [Mesure de Lebesgue] On montre qu’il existe une unique mesure sur R (muni de sa
tribu borélienne) telle que µ(]a; b[) = b − a. Cette mesure jouera un rôle important dans
la théorie de l’intégration et l’étude des variables aléatoires continues. Sa construction
est, pour autant, en dehors des objectifs de ce cours. Elle est notée λ et appelée mesure
de Lebesgue sur R. La mesure λ ⊗ · · · ⊗ λ (d fois) est la mesure de Lebesgue sur Rd et
donne pour masse à un pavé son volume.
Définition 1.5. Si A est une tribu sur Ω, le couple (Ω, A) est appelé un espace mesurable.
Si, de plus, µ est une mesure (resp. probabilité) sur (Ω, A) le triplet (Ω, A, µ) est appelé
un espace mesuré (resp. probabilisé).
La proposition suivante liste les principales propriétés des mesures de probabilité découlant
directement de leur définition (et restant valables pour les mesures positive à l’exception du
premier point).
Proposition 1.1. Soient (Ω, A, P) un espace probabilisé.
On a :
1. [passage au complémentaire] P [Ac ] = 1 − P [A] ;
2. [croissance] si A ⊂ B, alors P [A] ≤ P [B] ;
3. [σ-sous-additivité] pour toute famille (Ai )i∈I ⊂ A, avec I fini ou dénombrable :
!
[ X
P Ai ≤ P(Ai );
i∈I i∈I
4. [inclusion-exclusion]
n n
!
[ X X
P Ai = (−1)k+1 P(Ai1 ∩ · · · ∩ Aik );
i=1 k=1 1≤i1 <···<ik ≤n
3
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
5. si (Ai )i∈N ⊂ A est croissante (i.e. Ai ⊂ Ai+1 pour tout i ∈ N),
!
[
P Ai = lim P(Ai );
i→+∞
i∈N
f −1 (B) := {ω ∈ Ω : f (ω) ∈ B}
appartient à A.
Remarque 1.4. Les fonctions rencontrées dans ce cours seront (comme presque toujours dans
la pratique) mesurables. Il est toutefois possible de construire des fonctions non mesurables
(par exemple, l’indicatrice de l’ensemble de Vitali) en utilisant notamment l’axiome du choix.
Exercice 1.2. [⋆] Montrer que toute fonction continue de R dans R est mesurable.
µf : B −→ R+ ∪ {+∞}
B 7−→ µ f −1 (B)
4
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
1.5 Intégration
Une théorie de l’intégration peut être développée à partir des notions introduites précé-
demment. Elle permet d’intégrer des fonctions mesurables de (Ω, A, µ) dans R (ou Rd muni
de sa tribu borélienne). Cette approche permet d’intégrer des fonctions qui ne sont pas in-
tégrables au sens de Riemann et de traiter de façon unifiée l’intégration par rapport à des
mesures de natures très différentes telles que la mesure de comptage ou la mesure de Lebesgue.
Nous référons par exemple au Chapitre 2 de [4] ou au plus technique Chapitre 5 de [2] pour
plus de détails.
Globalement, pour définir l’intégrale sur Ω, on commence par imposer que l’intégrale de
l’indicatrice d’un ensemble mesurable A ∈ A ne soit autre que sa mesure :
Z
1A d µ = µ(A).
Dans un second temps, on étend naturellement cette définition aux fonctions étagées positives,
i.e. de la forme : n X
f= ai 1Ai , Ai ∈ A, ai ≥ 0,
i=1
par
Z n
X
f dµ = ai µ(Ai ).
i=1
Cette extension est guidée par la volonté de garantir la linéarité de l’intégrale. Ensuite, pour
une fonction mesurable positive f , on prolonge la définition par approximation :
Z Z
f d µ = sup g d µ : g étagée positive telle que g ≤ f .
R
Finalement, pour f mesurable quelconque, on dira que f est intégrable si |f | d µ < +∞.
Dans ce cas, en écrivant f sous la forme f = f + − f − où f + = max(f, 0) et f − = max(−f, 0),
on pose : Z Z Z
f dµ = f+ d µ − f − d µ.
Cette approche se révélant particulièrement fructueuse pour établir des résultats dans cette
théorie, elle est appelée par certains auteurs « méthode standard ».
On définit l’intégrale de f sur B ∈ A par,
Z Z
f dµ = f 1B d µ.
B
Il est à noter que pour les fonctions intégrables en ce sens par rapport à la mesure de
Lebesgue et au sens de Riemann, les valeurs des intégrales coïncident. Toutefois, l’intégrale
de Lebesgue « n’est pas sensible à l’ordre des bornes » lorsque l’on intègre sur un intervalle.
Par exemple, pour la fonction constante égale à 1, on a au sens de l’intégrale de Lebesgue
Z
1dx = 5
[0,5]
5
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
L’intégration par rapport à la mesure de comptage µc sur un ensemble discret D corres-
pond, quand à elle, à des sommes et séries indexées par cet ensemble :
Z X
f d µc = f (x).
D x∈D
R
Par exemple, si µc est la mesure de comptage sur N, l’intégrale N f d muc n’est autre que la
série X
f (n).
n∈N
8. [Lemme de Fatou] Si (fn )n est une suite de fonctions mesurables positives, alors
Z Z
lim inf fn d µ ≤ lim inf fn d µ.
n→∞ n→∞
Mentionnons maintenant un résultat fort utile pour l’étude des variables aléatoires.
Théorème 1.1 (Théorème de transport). Soit f une application mesurable de (Ω, A, µ) dans
(E, B) et φ mesurable de (E, B) dans (R, B(R)) positive ou µf -intégrable. Alors,
Z Z
φ d µf = φ ◦ f d µ.
E Ω
6
CHAPITRE 1. ÉLÉMENTS DE LA THÉORIE DE LA MESURE ET DE
L’INTÉGRATION
Théorème 1.2 (Théorème de Fubini-Tonelli (ou Fubini « positif »)). Soient (Ω, A, µ) et
(E, B, ν) deux espaces mesurés avec µ et ν σ-finies et (Ω × E, A ⊗ B, µ ⊗ ν) l’espace produit.
Si f : Ω × E −→ R+ ∪ {+∞} est A ⊗ B-mesurable, alors
Z
x 7−→ f (x, y) d ν(y)
E
est A-mesurable et Z
y 7−→ f (x, y) d µ(x)
Ω
est B-mesurable. Dans ce cas, on a :
Z Z Z Z Z
f (x, y) d µ ⊗ ν(x, y) = f (x, y) d ν(y) d µ(x) = f (x, y) d µ(x) d ν(y).
Ω×E Ω E E Ω
Théorème 1.3 (Théorème de Fubini). Soient (Ω, A, µ) et (E, B, ν) deux espaces mesurés
avec µ et ν σ-finies et (Ω × E, A ⊗ B, µ ⊗ ν) l’espace produit.
Si f : Ω × E −→ R est µ ⊗ ν-intégrable, alors
Z
x 7−→ f (x, y) d ν(y)
E
est µ-intégrable et Z
y 7−→ f (x, y) d µ(x)
Ω
est ν-intégrable. Dans ce cas, on a :
Z Z Z Z Z
f (x, y) d µ ⊗ ν(x, y) = f (x, y) d ν(y) d µ(x) = f (x, y) d µ(x) d ν(y).
Ω×E Ω E E Ω
7
Chapitre 2
Variables aléatoires
Dans ce cours, l’espace d’arrivé sera, sauf mention du contraire, R (ou Rd ) muni de sa
tribu borélienne. Ces variables aléatoires sont dites réelles (resp. vectorielles). Parmi les v.a.
réelles, on distingue principalement les variables discrètes pour lesquelles le support de X
Supp X (informellement l’ensemble des valeurs numériques « possibles » pour X) est fini ou
dénombrable et les variables continues pour lesquelles Supp X est une réunion d’intervalles
de R. On peut également concevoir des v.a. réelles « hybrides », avec une partie continue et
une partie discrète, mais nous ne les rencontrerons que marginalement. Notons que si X est
une variable aléatoire et f est mesurable alors Y = f (X) est encore une variable aléatoire.
Exemple 2.1.
1. Si l’on lance un dé classique, la variable aléatoire X donnant le résultat du lancé est
une variable aléatoire discrète prenant ses valeurs dans X(Ω) = {1; 2; 3; 4; 5; 6}.
2. Si l’on lance simultanément n pièces équilibrées, la variable aléatoire comptant le nombre
de faces obtenues est discrète et prend ses valeurs dans X(Ω) = {1; 2; . . . ; n}.
3. La durée de vie X d’une ampoule est une variable aléatoire continue. Une ampoule
donnée fonctionnera un temps t > 0 avant de griller et il n’y a a priori pas de durée de
vie maximale. Ainsi, X(Ω) = R+∗.
Définition 2.2. Soit X une variable aléatoire de (Ω, A, P) dans (E, B).
On appelle loi de X sous P la mesure de probabilité image PX sur (E, B) (au sens de la
Définition 1.7).
Remarque 2.1. On peut maintenant définir plus formellement le support d’une v.a. X comme
le support de la mesure. Il s’agit de l’adhérence Supp(X) de l’ensemble
9
CHAPITRE 2. VARIABLES ALÉATOIRES
Toute v.a. réelle continue X est absolument continue par rapport à la mesure de Lebesgue
λ sur R c’est-à-dire que tout négligeable pour λ est aussi négligeable pour PX (en particulier
P[X = x] = 0 pour tout x dans le cas continu). Le Théorème de Radon-Nikodym (voir
par exemple [4, Théorème II.3.3]) affirme donc qu’il existe une fonction mesurable positive
d PX R
fX = d λ , définie λ-p.p., telle que PX (A) = A fX d λ. Cette fonction f est appelée densité
de X et permet de mener à bien les calculs. La proposition suivante donne des conditions
suffisantes pour qu’une fonction f soit une densité d’une variable aléatoire continue.
Proposition 2.1. Si f : R −→ R+ est une fonction mesurable positive telle que
Z
f (x) d x = 1
R
FX : R −→ [0; 1].
x 7−→ FX (x) = P[X ≤ x]
S’il n’y a pas de confusion possible, on note simplement F la fonction de répartition d’une
variable aléatoire X.
Avec les notations précédentes, dans le cas discret, on obtient que
X
FX (x) = pX (xi )
xi ≤x
10
CHAPITRE 2. VARIABLES ALÉATOIRES
Exercice 2.1. Soit X une variable aléatoire continue avec Supp X = [1; +∞[. On pose
Z = X1 + 2.
1. Quel est le support de Z ?
2. Exprimer FZ en fonction de FX .
Proposition 2.4. Toute fonction quantile est càdlag (continue à droite et admet une limite
à gauche en tout point).
Les fonctions quantile se révéleront particulièrement utiles lors des études statistiques et
pour la simulation de variables aléatoires.
Définition 2.5. Soit α ∈]0; 1[. On appelle quantile d’ordre α d’une v.a. X toute valeur qα
telle que :
P [X ≤ qα ] ≥ α et P [X ≥ qα ] ≥ 1 − α.
Proposition 2.5. Si X est une v.a. continue de fonction de répartition FX , alors, pour tout
α ∈]0, 1[ le quantile d’ordre α de X est unique et est caractérisé par :
F (qα ) = α.
11
CHAPITRE 2. VARIABLES ALÉATOIRES
Ceci se généralise trivialement aux vecteurs aléatoires dans Rd . En particulier, si X est réelle,
en choisissant g comme étant l’identité, on obtient que :
Z
E[X] = x d PX (x).
R
Définition 2.7. On dit que X admet un moment d’ordre p > 0 si E[|X|p ] < +∞. Le moment
1
d’ordre p de X est alors E[X p ]. Dans ce cas, la norme p de X est la quantité ∥X∥p = E[|X|p ] p
et on dit que X appartient à Lp .
Si X admet un moment d’ordre 2, on définit la variance de X comme :
12
CHAPITRE 2. VARIABLES ALÉATOIRES
□
Dans certains cas, le calcul d’un moment peut être plus aisé à partir de la fonction de
répartition (ou plutôt de sa queue de distribution GX = 1 − FX ). On utilise pour cela le
résultat suivant.
Proposition 2.7. Soit X une v.a. réelle positive de fonction de répartition FX . Alors, pour
tout p > 0 : Z ∞
E[X p ] = p tp−1 (1 − FX (t)) d t.
0
En particulier, Z ∞
E[X] = (1 − FX (t)) d t.
0
Il est aussi possible d’obtenir des formules approchées pour le calcul de moments de va-
riables aléatoires de la forme Y = g(X) sous des conditions de régularité de f et d’intégrabilité.
Ceci repose principalement sur l’utilisation de développements limités (D.L.) au voisinage de
E[X]. Par exemple, si g admet un D.L. d’ordre 2 au voisinage de E[X], en prenant l’espérance
dans :
g ′′ (E[X])
g(x) = g (E[X]) + g ′ (E[X]) (x − E[X]) + (x − E[X])2 + o (x − E[X])2
2
g ′′ (E[X])
≃ g (E[X]) + g ′ (E[X]) (x − E[X]) + (x − E[X])2
2
13
CHAPITRE 2. VARIABLES ALÉATOIRES
on obtient
g ′′ (E[X]) h i
E[g(X)] ≃ g (E[X]) + g ′ (E[X]) E [X − E[X]] + E (X − E[X])2
2
g ′′ (E[X])
≃ g (E[X]) + V [X] .
2
Proposition 2.8. Deux v.a. X et Y ont même loi si, et seulement si, pour toute fonction
mesurable positive φ,
On voit, en particulier, que si X est une v.a. continue elle admet pour densité f si, et
seulement si, pour toute fonction mesurable positive φ (dite « fonction test » ou « fonction
muette ») ,
Z
E[φ(X)] = φ(x)f (x) d x.
R
Exemple 2.2.
Soit X ∼ E(λ) pour un certain λ > 0 et ε, indépendante de X une variable aléatoire de
Rademacher, c’est-à-dire telle que :
1
P[ε = 1] = P[ε = −1] = .
2
14
CHAPITRE 2. VARIABLES ALÉATOIRES
Dans certains cas, les moments (et donc la famille de fonction φk (x) = xk ) suffisent à
caractériser la loi d’une variable aléatoire comme le montre le résultat suivant.
Proposition 2.9. Soient X et Y deux v.a. à valeurs dans un intervalle fermé borné [a; b].
Si, pour tout k ∈ N, E[X k ] = E[Y k ], alors PX = PY .
LX (t) = E[etX ]
Remarque 2.3. Plus généralement, si X est un vecteur aléatoire dans Rd , sa fonction géné-
ratrice des moments est donnée par :
LX (t) = E[et·X ]
15
CHAPITRE 2. VARIABLES ALÉATOIRES
Exercice 2.2. Préciser le domaine de définition de la fonction génératrice des moments d’une
loi géométrique omis dans l’exemple précédent.
x2 1 1 1 (x − t)2 t2
− + tx = − (x2 − 2tx) = − (x2 − 2tx + t2 − t2 ) = − ((x − t)2 − t2 ) = − + ,
2 2 2 2 2 2
t2
ce qui est la forme recherchée avec y = x − t et c = 2. Il vient ensuite en effectuant le
changement de variable y = x − t (d y = d x) que :
Z +∞ Z +∞
1 2 1 (x−t)2 2
− x2 +tx + t2
LX (t) = √ e dx = √ e− 2 dx
2π −∞ 2π −∞
Z +∞ Z +∞
t2 1 (x−t)2 t2 1 y2 t2
=e2 √ e− 2 dx = e 2 √ e− 2 dy = e 2 .
2π −∞ 2π −∞
Exercice 2.3. En imitant la démarche de l’Exemple 2.4, calculer la fonction génératrice des
moments d’une loi normale générique N (m; σ 2 ).
ϕX (t) = E[eitX ].
16
CHAPITRE 2. VARIABLES ALÉATOIRES
Remarque 2.4.
1. Si X est une v.a.r. continue de densité f , on a pour tout t
Z Z Z
ϕX (t) = eitx f (x) d x = cos(tx)f (x) d x + i sin(tx)f (x) d x,
R R R
Remarque 2.5. Le résultat précédent reste valable pour les vecteurs aléatoires.
La fonction caractéristique caractérise la loi d’une v.a. et permet sous certaines conditions
d’obtenir effectivement la loi. Le résultat suivant donne un de ces moyens au travers de la
formule d’inversion de Fourier.
Théorème 2.2. Soit X une v.a. réelle telle que ϕX est intégrable par rapport à la mesure de
Lebesgue sur R. Alors, X admet la densité continue bornée sur R donnée par :
1
Z
fX (x) = e−itx ϕX (t) d t.
2π R
Remarque 2.6. Le résultat précédent reste valable pour les vecteurs aléatoires dans Rd . La
densité est alors donnée par :
1
Z
fX (x) = e−it·x ϕX (t) d t.
(2π)d Rd
17
CHAPITRE 2. VARIABLES ALÉATOIRES
Proposition 2.12. Soit X une v.a. réelle sur (Ω, A, P) admettant un moment d’ordre n.
Alors, ϕX est de classe C n et pour tout k ≤ n, pour tout t :
(k)
ϕX (t) = ik E[X k eitX ].
Remarque 2.7. La réciproque partielle suivante est valide. Si ϕX est n fois dérivable en
0 pour un certain n pair, alors X admet un moment d’ordre n (donc tout moment d’ordre
k ≤ n) et on a les égalités de la Proposition 2.12 pour k ≤ n.
φ (E[X]) ≤ E [φ (X)] .
autrement dit
∥XY ∥1 ≤ ∥X∥2 ∥Y ∥2 .
autrement dit
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q .
18
CHAPITRE 2. VARIABLES ALÉATOIRES
autrement dit
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p .
E [|X|]
P[X ≥ t] ≤ .
t
Preuve : On a :
X |X|
1X≥t ≤ 1X≥t ≤ 1X≥t
t t
donc
|X| E [|X|]
P[X ≥ t] = E [1X≥t ] ≤ E 1X≥t ≤ .
t t
□
V [X]
P[|X − E[X]| ≥ t] ≤ .
t2
Théorème 2.9. Soit X une v.a. réelle telle que eλX est intégrable pour un λ > 0.
Alors, pour tout t > 0, on a :
h i
E eλX
P[X ≥ t] ≤ inf .
λ>0 eλt
19
CHAPITRE 2. VARIABLES ALÉATOIRES
Preuve : Il suffit de voir que les fonctions de répartitions de ces deux variables aléatoires
coïncident.
Si FX−1 (u) ≤ t, u ∈]0; 1[, il existe pour tout s > t un réel x < s tel que FX (x) > u donc
FX (s) > u par croissance. On en déduit par continuité à droite de FX que FX (t) ≥ u. Ainsi,
si FX−1 (U ) ≤ t alors FX (t) ≥ u et on a :
20
CHAPITRE 2. VARIABLES ALÉATOIRES
Proposition 2.14. Si U1 , U2 sont deux v.a. indépendantes uniformes sur ]0; 1[, alors la v.a.
q q
X= −2 ln(U1 ) cos(2πU2 ) et Y = −2 ln(U2 ) cos(2πU1 )
Sachant simuler grâce au résultat précédent une v.a. X de loi N (0; 1) il est aisé de simuler
une v.a. Z de loi N (m; σ 2 ) en utilisant que
Z = σX + m.
D’autres méthodes spécifiques pour la simulation de lois usuelles (en particulier discrètes)
peuvent être développées. Nous ne les détaillerons pas dans ce cours. Nous ne détaillerons pas
non plus les méthodes de rejet, également classiques.
Exercice 2.5. Écrire une fonction permettant la simulation d’une loi binomiale de paramètres
n et p à partir de la loi uniforme sur ]0, 1[.
21
Chapitre 3
Dans la suite, nous supposerons que toutes les composantes de X sont du même « type »,
c’est-à-dire toutes discrètes ou toutes continues. Cette restriction est suffisante pour la suite
de ce cours puisque, à nos fins statistiques, nous considérerons des échantillons identiquement
distribués, c’est-à-dire dans lesquels toutes les v.a. suivent la même loi.
Dans le cas où toutes les composantes sont discrètes, un vecteur aléatoire est caractérisé
par la donnée des ces probabilités conjointes. En supposant que le support de Xi soit donné
(i)
par {xj }j∈{1,...,ik } , k = k(i), ik ∈ N∗ ∪ {+∞}, il s’agit de la donnée des :
Exercice 3.1. On lance deux dés classiques et on note X1 et X2 leurs résultats. Déterminer
la loi de (X1 , X2 ) et les lois marginales.
De façon analogue, dans le cas où toutes les composantes sont continues, un vecteur
aléatoire est caractérisé par la donnée de sa densité conjointe (positive) fX vérifiant pour
23
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
tout t = (t1 , . . . , td ) :
Z t1 Z td
FX (t) = ··· fX (s1 , . . . , sd ) d s1 . . . d sd .
−∞ −∞
24
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Il est alors naturel de laisser tendre ε vers 0 pour obtenir la fonction de répartition de X
sachant Y = y.
où l’on a utilisé que la densité est la dérivée (partielle selon la deuxième coordonnée au
numérateur) de la fonction de répartition d’une v.a. λ-presque partout et une interversion
limite/intégrale légitime puisque la densité est positive λ-presque partout. En dérivant selon
la première coordonnée, on obtient la densité conditionnelle de X sachant Y = y :
f(X,Y ) (x, y) d s
fX|Y =y (x) =
fY (y)
3.3 Indépendance
Définition 3.2. On dit que deux v.a. X et Y sont indépendantes si pour tous événements
{X ∈ A} et {Y ∈ B}, on a :
Remarque 3.1. Pour X, Y des v.a. réelles, il suffit, en fait, de vérifier cette définition pour
A, B des intervalles (ou même des singletons dans le cas discret).
Définition 3.3. On dit que des v.a. Xi , i ∈ I sont deux à deux indépendantes si, pour tous
i ̸= j, Xi et Xj sont indépendantes.
Définition 3.4. On dit qu’une famille de v.a. {Xi }i∈I est (mutuellement) indépendante si
pour tout J ⊂ I fini, on a :
Y
P[Xi ∈ Ai , i ∈ J] = P[Xi ∈ Ai ].
i∈J
Voyons maintenant comment se traduit l’indépendance d’une famille finie de v.a. dans les
cas discret et continu.
25
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Proposition 3.1. Soient X1 , . . . , Xd des v.a. discrètes. Alors, X1 , . . . , Xd sont indépendantes
si, et seulement si, Y
pX1 ,...,Xd (x1 , . . . , xd ) = pXi (xi ).
i=1
Proposition 3.2. Soient X1 , . . . , Xd des v.a. continues. Alors, X1 , . . . , Xd sont indépen-
dantes si, et seulement si,
Y
FX1 ,...,Xd (x1 , . . . , xd ) = FXi (xi ).
i=1
Si ces variables sont à densité, alors, X1 , . . . , Xd sont indépendantes si, et seulement si,
Y
fX1 ,...,Xd (x1 , . . . , xd ) = fXi (xi ).
i=1
Proposition 3.3. Si X et Y sont indépendantes, alors, pour toutes fonctions g et h, g(X)
et h(Y ) sont indépendantes.
On montre le résultat plus fort suivant (voir [4, Corollaire IV.1.11]).
Théorème 3.2. Soit Xi , i ∈ I une famille de v.a. réelles. Alors, les Xi sont indépendantes
si, et seulement si, pour tout J ⊂ I fini, pour toutes fonctions mesurables φj telles que φj (Xj )
est intégrable pour tout j ∈ J, on a :
Y Y
E φj (Xj ) = E [φj (Xj )] .
j∈J j∈J
L’indépendance de variables aléatoires peut également être caractérisée à l’aide des fonc-
tions caractéristiques.
Théorème 3.3. Soient X1 , . . . , Xn des v.a. réelles.
Alors, X1 , . . . , Xn sont indépendantes si, et seulement si,
n
Y
ϕ(X1 ,...,Xn ) = ϕXi .
i=1
Preuve :
Le sens direct est une conséquence immédiate du résultat précédent puisque si X1 , . . . , Xn
sont indépendantes :
Pn n n h i n
i t X
j=1 j j
Y
itj Xj
Y
itj Xj
Y
ϕ(X1 ,...,Xn ) (t) = E e = E e = E e = ϕXi
j=1 j=1 i=1
26
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.4 Espérance, variance, covariance, corrélation linéaire
Considérons un couple de v.a. (X, Y ). Pour toute fonction (mesurable) g et sous condition
d’intégrabilité, l’espérance de g(X, Y ) :
Z
E[g(X, Y )] = g d P(X,Y )
Définition 3.5. Soient X et Y deux v.a. réelles admettant des moments d’ordre 2.
La covariance de X et Y est la quantité :
Cov(X, Y )
Corr(X, Y ) = p .
V[X]V[Y ]
Alors que la variance d’une variable aléatoire mesure sa dispersion autour de sa moyenne,
les covariance et coefficient de corrélation linéaire mesurent comment deux variables varient
ensemble autour de leurs moyennes respectives et donc le lien qu’elles entretiennent mutuelle-
ment. Nous verrons que Corr est à valeurs dans [−1, 1]. En fait, plus | Corr(X, Y )| est proche
de 1, plus le lien entre X et Y est fort. Il ne faut pas être surpris par le fait qu’une corrélation
linéaire proche de -1 reflète un lien fort entre les variables : penser au cas de Y = −X.
Proposition 3.5. On a :
1. Cov(X, X) = V[X] ;
2. Cov(X, Y ) = Cov(Y, X) ;
27
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3. Cov est linéaire en chacune des coordonnées :
4. Cov(aX + b, cY + d) = ac Cov(X, Y ) ;
5. Cov(X, Y ) = E[XY ] − E[X]E[Y ] ;
6. si X et Y sont indépendantes, Cov(X, Y ) = 0 ; on dit alors que X et Y sont décorrélées ;
7. Corr(X, Y ) ∈ [−1, 1] ;
8. Corr(aX + b, cY + d) = Corr(X, Y ).
Preuve : Les quatre premiers points sont évidents ou reposent sur des calculs immédiats ; le
cinquième se démontre de façon analogue à la formule de décentrage de la variance vue dans
le chapitre précédent. Esquissons la démonstration du point 6. dans le cas de deux variables
discrètes (la démonstration dans le cas continue est analogue et laissée en exercice au lecteur).
On a :
XX
E[XY ] = xi yj p(X,Y ) (xi , yj )
i j
XX
= xi yj pX (xi )pY (yj ) (par indépendance)
i j
X X
= xi pX (xi ) yj pY (yj ) = E[X]E[Y ]
i j
soit
Cov(X, Y )2 ≤ V[X]V[Y ],
puis
Cov(X, Y )2
≤ 1,
V[X]V[Y ]
d’où
Cov(X, Y )
| Corr(X, Y )| = p ≤ 1.
V[X]V[Y ]
□
28
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Exercice 3.2. Soit (X, Y ) le couple de variables aléatoires définies par :
1
P[X = 0, Y = 0] = 2P[X = −1, Y = 1] = 2P[X = 1, Y = 1] = .
2
1. Calculer Cov(X, Y ).
2. Les v.a. X et Y sont-elles indépendantes ?
29
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Corollaire 3.1. Soient X1 , . . . , Xn des v.a. indépendantes et identiquement distribuées (i.i.d.)
de moyenne m et de variance σ 2 < +∞. Posons Sn = ni=1 Xi leur somme et X n = Snn leur
P
moyenne empirique. On a :
E[Sn ] = nm et V[Sn ] = nσ 2
et par conséquent
σ2
E[X n ] = m et V[X n ] = .
n
Les fonctions génératrices des moments et caractéristiques se révèlent être particulièrement
efficaces pour étudier et caractériser la loi de la somme de variables aléatoires indépendantes
comme le montrent les deux résultats suivants.
Preuve : On a :
h i
LX1 +···+Xd (t) = E et(X1 +···+Xd )
" d #
Y
tXi
=E e
i=1
d
Y h i
= E etXi par indépendance
i=1
Yd
= LXi (t).
i=1
□
On montre de façon analogue que :
Donnons un exemple de résultat non trivial (et important) dont la preuve est rendu
facile par le théorème précédent. Il affirme que toute combinaison linéaire de lois normales
indépendantes suit une loi normale.
30
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Preuve : Notons que αi Xi suit la loi normale telle que E[αi Xi ] = αi mi et V[αi Xi ] = αi2 σi2 .
Ainsi, en utilisant le résultat de l’Exercice 2.4, on a pour tout t et tout i :
α2 σ 2 t 2
i i
ϕαi Xi (t) = eitαi mi − 2 .
i=1 i=1
d Pd !
2 2 2
i=1 αi σi t
X
= exp it αi mi − .
i=1
2
variance di=1 αi2 σi2 . Puisque la fonction caractéristique caractérise la loi, le résultat s’ensuit.
P
Définition 3.6. On dit qu’un vecteur aléatoire X dans Rd suit une loi normale (multidimen-
sionnelle) si, pour tout vecteur a ∈ Rd la loi de a·X est une loi normale (unidimensionnelle).
Remarque 3.4. On note E[X] = (E[X1 ], . . . , E[Xd ])T l’espérance d’un vecteur aléatoire et
Notons aussi, que si les composantes d’un vecteur aléatoire sont indépendantes alors la
matrice de variances/covariances est diagonale (il s’agit de l’identité lorsque les composantes
sont réduites).
Le résultat suivant exprime la densité d’une loi normale multidimensionnelle (voir [8,
Théorème 2.2]).
Théorème 3.6. Soit Σ une matrice définie positive d × d, m ∈ Rd et X ∼ Nd (m, Σ). Alors,
X admet la densité suivante sur Rd (par rapport à la mesure de Lebesgue d-dimensionnelle) :
1 1
x 7−→ q exp − (x − m)T Σ−1 (x − m) .
(2π)d det Σ 2
31
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Proposition 3.8. Si X = (X1 , . . . , Xd ) ∼ Nd (m, Σ) alors sa fonction caractéristique est
donnée pour tout t ∈ Rd par :
T 1 T
ϕX (t) = eit m− 2 t Σt .
Preuve : Notons que si puisque X ∼ Nd (m, Σ), par définition, pour tout a ∈ Rd , tT X =
t1 X1 + · · · + td Xd , suit une loi normale unidimensionnelle. Son espérance étant donnée par
tT m et sa variance par tT Σt, on obtient par le résultat de l’Exercice 2.4 que :
T m− 1 tT Σtx2
ϕtT X (s) = eit 2 .
Proposition 3.10. Soit C = (X, Y ) un vecteur gaussien (au sens de la Définition 3.6).
Alors, X et Y sont indépendantes si, et seulement si, Cov(X, Y ) = 0.
Remarque 3.5.
On sera vigilent à ne pas confondre (X, Y ) un vecteur (ou couple) gaussien (au sens de la
Définition 3.6) et un vecteur (ou couple) de v.a. gaussiennes, sans quoi la conclusion de cette
proposition est fausse (ce que l’on verra dans un exercice de TD).
Preuve :
Comme nous l’avons déjà vu le sens direct est vrai en toute généralité (quelque soient les
lois de X et Y ) contrairement au sens indirect. Pour le sens indirect, d’après le Théorème 3.3,
il suffit de voir que, pour tous t1 , t2 , ϕ(X,Y ) (t1 , t2 ) = ϕX (t1 )ϕY (t2 ). Puisque, Cov(X, Y ) = 0,
!
V[X] 0
V[(X, Y )] =
0 V[Y ]
et donc
1 2 2
ϕ(X,Y ) (t1 , t2 ) = ei(t1 E[X]+t2 E[Y ])− 2 (t1 V[X]+t2 V[Y ])
1 2 1 2
= eit1 E[X]− 2 t1 V[X] eit2 E[Y ]− 2 t2 V[Y ] = ϕX (t1 )ϕY (t2 ).
32
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7 Familles exponentielles de lois
Les familles exponentielles de lois forment des classes de lois paramétriques, de paramètres
θ dans un ensemble de paramètres Θ, jouissant de propriétés communes en statistiques, en
particuliers dans les théories des tests et de l’estimation. Ceci découle du fait que, par dé-
finition, leurs densités (cas continu) ou fonction de probabilité (cas discret) admettent une
écriture canonique commune. Notons, qu’en général, θ = (θ1 , . . . , θk ) est un élément de Rk et
ne contiendra, dans le contexte statistique, que les paramètres inconnus des lois (une partie
des paramètres peut être supposée connue). Dans ce cours, nous nous restreindrons au cas
continu (dominé par la mesure de Lebesgue λ) et discret (dominé par une mesure de comp-
tage). Un exposé plus général peut être trouvé dans la Section 2.4 de [8] par exemple. Dans
le cas continu, nous noterons f (·; θ), θ ∈ Θ ⊂ Rk la densité de la loi lorsque le paramètre est
θ ; il s’agit d’une fonction d’une variable réelle x. Dans le cas discret, nous noterons, avec un
léger abus de notation permettant une plus grande uniformité, f (·; θ), θ ∈ Θ ⊂ Rk (au lieu
de p(·, θ)) la fonction de probabilité de la loi lorsque le paramètre est θ. La donnée des f (·, θ),
θ ∈ Θ, caractérise dans les deux cas la famille paramétrique de lois.
Définition 3.7. Soit, avec les conventions précédentes, une famille paramétrique F de lois
caractérisée par {f (·, θ), θ ∈ Θ} où Θ ⊂ Rk . On dit que F est une famille exponentielle de
lois, s’il existe des fonctions a, b, c1 , . . . , ck , d1 , . . . , dk telles que pour tout x ∈ R :
k
!
X
f (x; θ) = a(θ)b(x) exp ci (θ)di (x) .
i=1
Cette expression est appelée écriture canonique des densités (ou fonctions de probabilité dans
le cas discret) de la famille de lois.
Remarque 3.6.
1. Dans le cas continu l’égalité
k
!
X
f (x; θ) = a(θ)b(x) exp ci (θ)di (x)
i=1
λ-p.p. suffit.
2. Insistons sur le fait que, dans la définition précédente k sera le nombre de paramètres
inconnus dans le contexte statistique.
3. La séparation des variables x et θ dans l’écriture canonique montre que le support
des lois d’une famille exponentielle ne peut pas dépendre des paramètres (inconnus) θ.
Ainsi, les lois de Fréchet Fre (θ, 1, 1), θ ∈ R, (voir Section A.2.12) ne forment pas une
famille exponentielle. Plus simplement, les lois uniformes U ([0, θ]), θ ∈ R, ne forment
pas une famille exponentielle. Les lois binomiales Bin (θ), θ = (n, p), ne forment pas une
famille exponentielle mais si, comme pour nos applications statistiques, le paramètre n
est connu, les lois binomiales Bin (n, θ), θ ∈ [0, 1], forment une famille exponentielle
pour laquelle on a :
!
n θ
n
a(θ) = (1 − θ) , b(x) = , c(θ) = ln et d(x) = x.
x 1−θ
33
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
Donnons maintenant les exemples d’usages les plus courants de familles exponentielles.
Pour cela, on précisera le(s) paramètre(s) inconnu(s) θ et l’espace des paramètres Θ et on
rappellera dans chaque les densités ou fonctions de probabilité de ces famille avant de les
réécrire sous forme canonique. On mettra également en valeur, dans chaque cas, les fonctions
d (ou d1 et d2 ) qui trouveront des applications en statistiques.
et donc d(x) = x.
! ! x
n x n θ
f (x; θ) = θ (1 − θ)n−x = (1 − θ)n
x x 1−θ
!
n θ
n
= (1 − θ) 1x∈{0,...,n} exp ln x
x 1−θ
et donc d(x) = x.
θx
f (x; θ) = e−θ
x!
1x∈N
= e−θ exp (ln (θ) x)
x!
et donc d(x) = x.
34
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.5 Famille des lois binomiales négatives avec r connu
Le paramètre inconnu est θ = p ∈ Θ = [0, 1]. On a (voir Appendice A) :
xr−1 θr e−θx
f (x; θ) = 1x>0
Γ(r)
et donc d(x) = x.
x
xr−1 e− θ
f (x; θ) = 1 (x)
Γ(r)θr ]0;+∞[
1 r−1
−1
= x 1 ]0;+∞[ (x) exp −θ x
Γ(r)θr
et donc d(x) = x.
xp−1 (1 − x)θ−1
f (x; θ) = 10<x<1
B(p, θ)
1
= xp−1 10<x<1 exp ((θ − 1) ln(x − 1))
B(p, θ)
et donc d(x) = ln(x − 1).
xθ−1 (1 − x)q−1
f (x; θ) = 10<x<1
B(θ, q)
1
= (1 − x)q−1 10<x<1 exp ((θ − 1) ln(x))
B(θ, q)
et donc d(x) = ln(x).
35
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.10 Famille des lois beta
∗ . On a :
2
Le couple de paramètres inconnus est θ = (θ1 , θ2 ) = (p, q) ∈ Θ = R+
xθ1 −1 (1 − x)θ2 −1
f (x; θ) = 10<x<1
B(θ1 , θ2 )
1
= 10<x<1 exp ((θ1 − 1) ln(x) + (θ2 − 1) ln(1 − x))
B(θ1 , θ2 )
et donc d1 (x) = ln(x) et d2 (x) = ln(1 − x).
1 (x−m)2
f (x; θ) = √ e− 2θ
2πθ
1 1
2
=√ exp − (x − m)
2πθ 2θ
et donc d(x) = (x − m)2 .
1 (x−θ)2
f (x; θ) = √ e− 2σ 2
2π 2 σ 2
1 x2 θx θ2
=√ e− 2σ2 + σ2 − 2σ2
2πσ 2
2 2
1 θ
− θ2 − x2
= √ e 2σ e 2σ exp x
2πσ 2 σ2
et donc d(x) = x.
2
1 (x−θ )
− 2θ 1
f (x; θ) = √ e 2
2π 2 θ2
2 θ2
1 θ x
−x + 1 − 1
=√ e 2θ2 θ2 2θ2
2πθ2
θ2
1 1 2 θ1
− 1
=√ e 2θ2 exp − x + x
2πθ2 2θ2 θ2
36
CHAPITRE 3. COUPLES, N -UPLETS ET FAMILLES DE VARIABLES
ALÉATOIRES
3.7.14 Famille des lois de Pareto avec a connu
∗ . On a :
Le paramètre inconnu est θ ∈ Θ = R+
θ+1
θ a
f (x; θ) = 1[a;+∞[ (x)
a x
1[a;+∞[ (x) −(θ+1)
= θaθ x
a
1[a;+∞[ (x)
= θaθ exp (−(θ + 1) ln(x))
a
et donc d(x) = ln(x).
37
Chapitre 4
lim P[|Xn − X| ≥ ε] = 0.
n→+∞
P
On note alors Xn −→ X.
soit encore si :
lim ∥Xn − X∥p = 0,
n→+∞
Lp
On note alors Xn −→ X.
39
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
L2
Définition 4.4. Si Xn −→ X, on dit que (Xn )n∈N converge dans en moyenne quadratique
m.q.
vers X. On note alors Xn −→ X.
ou encore si leurs fonctions caractéristiques sont égales ou encore si leurs fonctions de répar-
titions sont égales (puisqu’elle caractérisent la loi).
Définition 4.5. On dit qu’une suite (Xn )n∈N de v.a. réelles sur (Ω, A, P) converge en loi
vers X si pour toute fonction continue bornée φ :
L
On note alors Xn −→ X.
Le résultat suivant donne des caractérisations pratiques de la convergence en loi.
Théorème 4.1. Les assertions suivantes sont équivalentes :
L
1. Xn −→ X ;
2. FXn converge vers FX en tout point de continuité de FX ;
3. ϕXn converge simplement vers ϕX sur R.
L
Si les Xn et X sont discrètes, Xn −→ X si, et seulement si, pour tout x dans le support
de X,
lim P[Xn = x] = P[X = x].
n→∞
40
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
4.2.1 Lois des grands nombres
Théorème 4.2 (Loi faible des grands nombres). Soit (Xn )n∈N une suite de v.a.i.i.d. de même
P
loi que X ( loi mère). Si E[|X|] < +∞, alors X n −→ E[X].
Ce résultat montre que pour toute suite de v.a.i.i.d. intégrables, la moyenne empirique
d’un échantillon de n d’entre elles tend à s’approcher de la moyenne d’une de ces variables
individuelles. Une version plus forte de ce résultat est donnée dans le paragraphe suivant.
Théorème 4.3 (Loi forte des grands nombres). Soit (Xn )n∈N une suite de v.a.i.i.d. de même
p.s.
loi que X. Alors, X n −→ E[X] si, et seulement si, E[|X|] < +∞.
√
Pn n
i √tn √t Xj
h i
X Y i
ϕ√nX n (t) = E eit nX n
=E e j=1 j =E en
j=1
n
Y i √tn Xj
= E e (par indépendance)
j=1
n
i √tn X1
=E e (par indentique distribution)
n
t
= ϕX √ .
n
41
CHAPITRE 4. MODES DE CONVERGENCE DE VARIABLES ALÉATOIRES,
THÉORÈMES LIMITES
Comme X est admet un moment d’ordre 2, la Proposition 2.12 implique que ϕ′X (0) = 0 et
ϕ′′X (0) = −1 et donc, lorsque u → 0 :
u2
ϕX (u) = 1 − + o(u2 ).
2
Ainsi, pour n → +∞
!n
t2 t2
ϕ√nX n = 1− + o(n−1 ) = e− 2 + o(1)
2n
ce qui termine la preuve. □
Théorème 4.5 (Théorème de Moivre-Laplace). Soit (Bn )n∈N∗ une suite de v.a. indépen-
dantes avec Bn ∼ Bin(n; p), p ∈]0; 1[.
Alors,
Bn − np L
p −→ Z
np(1 − p) n→+∞
où Z ∼ N (0; 1).
Preuve : Exercice !
Indication : appliquer le TCL à une suite de v.a.i.i.d. bien choisie. □
Remarque 4.1. Dans la pratique, on considère que l’approximation fournie par ce théorème
est bonne si n ≥ 30, p ≥ 0, 1 et np > 15.
42
Chapitre 5
Principes fondamentaux de
l’échantillonnage
pendance est généralement invérifiable en pratique et même invérifiée. Elle reste pourtant
une hypothèse importante permettant de mener à bien l’étude théorique que nous ferons.
Discutons brièvement, d’un cadre courant pour lequel cette hypothèse fourni une bonne ap-
proximation et est donc tout à fait raisonnable. Lors d’un sondage dans une grande population
de taille N , on peut décider de prélever un échantillon aléatoire et simple. Ceci consiste à choi-
sir (sans remise) n individus dans la population de façon uniforme. De manière équivalente,
on choisit uniformément un individu parmi les N , puis un second parmi les N − 1 restants,
etc, jusqu’au ne individu sélectionné parmi les N − n + 1 restant. Bien entendu, les observa-
tions correspondant à ces individus x1 , . . . , xn ne sont pas indépendantes. On pourrait essayer
de contourner cette difficulté en effectuant un tirage avec remise avec des tirages effective-
ment indépendants, lequel perd de l’efficacité puisque le risque de sélectionner plusieurs fois
n
le même individu est présent. Notons maintenant que si le taux de sondage N est faible, di-
sons inférieur à 5%, les sondages avec ou sans remise sont moralement proches et l’utilisation
d’un échantillon aléatoire et simple avec un tel taux de sondage donne des approximations
correctes.
Insistons sur le fait qu’un échantillon aléatoire est constitué de v.a. X1 , . . . , Xn . Nous
43
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE
noterons x1 , . . . , xn une réalisation d’un tel échantillon qui correspond à des observations
« réelles » de ces variables aléatoires.
est une statistique appelée variance empirique. On définit de manière analogue le moment
empirique d’ordre r et le moment empirique centré d’ordre r par
n n
1X 1X
Mr = Mr,n = Xr et Mr′ = Mr,n
′
= (Xk − X n )r .
n k=1 k n k=1
44
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE
On préférera donc l’utilisation Sn2 à celle de Sen2 . Ces deux notions conduisent naturellement à
celles d’écart-type empirique et écart-type empirique corrigé en en prenant la racine carrée.
Notons que les statistiques que nous venons d’introduire présupposent l’existence de mo-
ments pour la loi mère et que ceux-ci peuvent ne pas exister (par exemple pour une loi de
Cauchy). Une v.a. ou une statistique peut également être fonctionnelle c’est-à-dire prendre
pour valeurs des fonctions. Un exemple naturel, ayant pour but l’estimation de la fonction
de répartition et valide même si la loi mère n’a pas de moment est la fonction de répartition
empirique dont la valeur en x ∈ R est définie par :
n
1X
Fn (x) = 1X ≤x .
n k=1 k
Elle représente la proportion de v.a. dans l’échantillon prenant une valeur inférieure ou égale
à n.
h i
FX(k) (x) = P X(k) ≤ x
= P [au moins k des Xj sont ≤ x]
n
X
= P [exactement l des Xj sont ≤ x]
l=k
n
!
n
P [X1 ≤ x]l P [X1 > x]n−l
X
= (Xj i.i.d.)
l=k
l
n
!
n
FX1 (x)l (1 − FX1 (x))n−l .
X
=
l=k
l
En particulier,
FX(1) (x) = 1 − (1 − FX1 (x))n et FX(n) (x) = (FX1 (x))n .
Lorsque la loi mère est à densité, les formules précédentes permettent, en dérivant, de
déduire facilement les densités des statistiques d’ordre.
Exercice 5.1. Montrer que si (X1 , X2 ) est un couple de v.a. indépendantes de loi continue
de densité f , alors (X(1) , X(2) ) admet pour densité jointe :
f(X(1) ,X(2) ) (x(1) , x(2) ) = 2f (x(1) )f (x(2) )1x(1) ≤x(2) .
45
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE
Montrer, plus généralement, que si (X1 , . . . , Xn ) est un échantillon d’une loi continue de
densité f , alors (X(1) , . . . , X(n) ) admet pour densité jointe :
n
Y
f(X(1) ,...,X(n) ) (x(1) , . . . , x(n) ) = n! f (x(k) )1x(1) ≤···≤x(n) .
k=1
Indication : On pourra utiliser que, par la Proposition 2.8, il suffit de voir que pour toute
fonction mesurable positive φ :
Z n
Y
E[φ(X(1) , . . . , X(n) )] = φ(x(1) , . . . , x(n) )n! f (x(k) )1x(1) ≤···≤x(n) d x(1) . . . d x(n)
Rn k=1
et penser à sommer sur les permutations des indices ordonnant comme il faut les variables.
Le fait que la loi de X n soit accessible facilement dans le cas gaussien est remarquable.
Pour une loi mère générique, ce n’est en général pas le cas. Il existe pourtant d’autres lois pour
lesquelles la loi de la moyenne empirique est accessible simplement (Bernoulli exponentielle
ou Poisson par exemple). Intéressons nous maintenant à la loi de la statistique Sn2 dans le
cas gaussien. Celle-ci s’identifie, après avoir introduit la loi du Khi-2 (voir Section A.2.13), en
utilisant le théorème suivant, fondamental pour l’étude d’échantillons gaussiens. Sa démons-
tration n’est pas l’un des objectifs principaux de ce cours mais indiquée dans un soucis de
complétude.
Théorème 5.1 (Théorème de Cochran (simplifié)). Soit Y = (Y1 , . . . , Yn )T ∼ N (0, In ) et F
un sous-espace vectoriel de Rn de dimension d. Soient πF et πF ⊥ les projections orthogonales
sur F et F ⊥ respectivement.
Alors, projections orthogonales πF Y et πF ⊥ Y de Y sur ces sous espaces sont gaussiennes
indépendantes de lois N (0, πF ) et N (0, πF ⊥ ) respectivement et on a ∥πF Y ∥2 ∼ χ2 (d) et
∥πF ⊥ Y ∥2 ∼ χ2 (n − d).
Remarque 5.1.
Ce théorème se généralise au cas d’une décomposition de Rn en p sous-espaces vectoriels
orthogonaux. La preuve est alors un peu plus lourde à écrire mais suit la même démarche.
Preuve : Soient (e1 , . . . , ed ) une base orthonormée de F et (ed+1 , . . . , en ) une base orthonor-
mée de F ⊥ . Alors, e = (e1 , . . . , en ) est une base orthonormée de Rn et la matrice de passage P
permettant d’exprimer les coordonnées dans cette nouvelle base à partir des coordonnées dans
la base canonique est orthonormale (P ⊥ = P −1 ). Notons In,d la matrice diagonale dont les d
premiers coefficients diagonaux sont égaux à 1 et les autres à 0. Notons aussi Jn,d = In − In,d .
Les projections πF et πF ⊥ s’expriment alors simplement dans la base e :
πF = P In,d P T et πF ⊥ = P Jn,d P T .
46
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE
Alors, le vecteur Z = P T Y des coordonnées de Y dans la base e est gaussien centré réduit
(sa matrice de covariance est P In P T = In ). Il s’ensuit que In,d Z = (Z1 , . . . , Zd , 0, . . . , 0)T et
Jn,d Z = (0, . . . , 0, Zd+1 , . . . , Zn )T sont gaussiens indépendants de lois N (0, In,d ) et N (0, Jn,d )
respectivement et que l’on a ∥In,d Z∥2 = dk=1 Zk2 ∼ χ2 (d) et ∥Jn,d Z∥2 = nk=d+1 Zk2 ∼
P P
χ2 (n − d).
Pour conclure, il reste à remarquer, d’une part, que πF Y = P In,d Z et πF ⊥ Y = P Jn,d Z
sont gaussiens centrés de matrices de covariance respectives P In,d P T = πF et P Jn,d P T = πF ⊥
et d’autre part que, puisqu’une transformation orthogonale préserve la norme :
□
Avant la lecture du prochain résultat, un lecteur non familier avec la loi de Student est
invité à consulter la Section A.21.
Théorème 5.2. Soit (X1 , . . . , Xn ) un échantillon de v.a.i.i.d. de loi mère gaussienne N (m, σ 2 ).
Alors, X n et Sn2 sont indépendantes et on a :
!
σ2
Xn ∼ N m, ,
n
n−1 2
S ∼ χ2 (n − 1),
σ2 n
et
Xn − m
√ ∼ T (n − 1).
Sn / n
Remarque 5.2. On voit, en particulier, que dans le cas d’un échantillon de loi mère gaussienne
N (m, σ 2 ), on a
2σ 4
E[Sn2 ] = σ 2 et V[Sn2 ] = .
n−1
Pour montrer que X n et Sn2 sont indépendantes et identifier la loi de n−1 S 2 , nous allons
σ2 n
utiliser le Théorème de Cochran 5.1. Pour tout k ∈ {1, . . . , n}, posons Yk = σ −1 (Xk − m).
Alors, Y = (Y1 , . . . , Yn )T ∼ N (0, In ) et nous pouvons appliquer le Théorème de Cochran avec
le sous-espace vectoriel de Rn (de dimension 1) F = vect(1n ) où 1n = (1, . . . , 1). Notons
que 1n · Y = Y n = nk=0 Yk et que Y n 1n ∈ F . Notons également que (Y − Y n 1n ) · 1n = 0
P
n n
!2 n
!2
2
X 2 X Xk − m X n − m X Xk − X n n−1 2
∥Y −Y n 1n ∥ = Yk − Y n = − = = S .
k=1 k=1
σ σ k=1
σ σ2 n
47
CHAPITRE 5. PRINCIPES FONDAMENTAUX DE L’ÉCHANTILLONNAGE
Xn − m n−1 2
√ ∼ N (0, 1) et S ∼ χ2 (n − 1)
σ/ n σ2 n
sont indépendantes et
−m
X n√
σ/ n Xn − m
r = √ .
n−1 2
Sn Sn / n
σ2
n−1
□
Terminons cette section par un résultat sur le rapport de variances d’échantillons gaussiens
indépendants découlant directement du Théorème 5.2 et de la Définition A.22.
48
Chapitre 6
Exemple 6.2. Si la loi mère est supposée gaussienne (non dégénérée), sans plus d’information
∗ et X = R.
sur ses paramètres, on a alors θ = (m, σ 2 ), l’espace des paramètres est Θ = R ×R+
Exemple 6.3. Si la loi mère est supposée gaussienne de moyenne m (non dégénérée), mais
∗ et
sans d’information sur sa variance, on a alors θ = σ 2 , l’espace des paramètres est Θ = R+
X = R.
49
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Exemple 6.4. Si la loi mère est supposée uniforme sur [1, θ] pour un θ > 1, on a Θ = [1, +∞[
et X = [1, +∞[.
Dans certains cas, il pourra être utile d’estimer une fonction de θ, disons g(θ), plutôt que
θ lui même, par exemple, si g(θ) est la moyenne, ou plus généralement, un moment de la
loi Pθ . Notons également qu’il est possible de donner plusieurs paramétrisations de la même
famille de lois (voir suite de l’Exemple 6.4).
Définition 6.1. Avec les conventions précédentes le couple (X , (Pθ )θ∈Θ ) est appelé modèle
statistique. Un estimateur de g(θ) est alors une fonction de X1 , . . . , Xn , indépendante de θ
(donc une statistique) et à valeurs dans g(Θ).
Les Exemples 6.1 à 6.4 correspondent donc aux modèles statistiques {0, 1}, (B(θ))θ∈[0,1] ,
R, (N (θ))θ∈R×R+∗ , R, (N (m, θ))θ∈R+∗ et [1, +∞[, (U([1, θ]))θ∈[1,+∞[ respectivement. La
moyenne empirique X n = n1 ni=1 Xi et la v.a. p.s. constante égale à 1 (ou (1, 1) dans l’Exemple
P
6.2) sont des estimateurs mais la v.a. p.s. constante égale à θ n’en est pas un. Dans le modèle
gaussien avec moyenne connue de l’Exemple 6.3, n−1 ni=1 (Xi − m)2 est un estimateur θ mais
P
dans le modèle gaussien avec moyenne inconnue de l’Exemple 6.2, n−1 ni=1 (Xi − θ1 )2 n’est
P
en fait, un estimateur convergent pour la moyenne pour tout modèle pour lequel la LGN
s’applique.
Dans ce cours, nous considérerons des familles de v.a. continues ou discrètes. Dans le pre-
mier cas, la loi Pθ est caractérisée par la (une en fait) densité f (·; θ) dépendant du paramètre
50
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
à estimer. Dans le second cas, elle l’est par la fonction de probabilité p(·; θ) que nous pourrons
noter, avec un léger abus unificateur, f (·; θ). Ces observations conduisent à la définition de la
vraisemblance d’un modèle statistique.
Définition 6.3. On appelle vraisemblance du modèle statistique (X , (Pθ )θ∈Θ ) toute fonction
L définie sur X n × Θ dont les applications partielles L(·, θ) sont la densité (ou la fonction de
probabilité) de P⊗n
θ = Pθ ⊗ · · · ⊗ Pθ (n fois).
de θ′ avec la seconde paramétrisation proposée du modèle uniforme sur [1, θ′ ] et que θ′ est relié
à θ dans la première paramétrisation présentée ′
dans ces notes par la relation θ = (θ + 1)/2
soit θ = g(θ′ ) := 2θ′ − 1. Ainsi, Tn = g X n = 2X n − 1 est un estimateur convergent de θ
(d’intérêt pour la première paramétrisation).
51
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
estimateur convergent de µr (θ). Ainsi, si le paramètre θ est de dimension k, pour une réali-
sation (m1 , . . . , mk ) des moments empiriques (M1 , . . . , Mk ), la résolution en θ du système :
µ1 (θ) = m1
µ (θ) = m
2 2
. . . . . . . . .
µk (θ) = mk
fournit une estimation de θ par la méthode des moments. L’estimateur de la méthode des
moments (EM) est obtenu en remplaçant la réalisation (m1 , . . . , mk ) par les v.a. « moments
empiriques » (M1 , . . . , Mk ). S’il est nécessaire de mettre en valeur le fait qu’un estimateur a
été obtenu par la méthode des moments, on le notera θbM . Bien sûr, cette estimation n’est
valable que si le système précédent admet une unique solution dans l’espace des paramètres
Θ.
Exemple 6.2 (suite).
Reprenons l’exemple de l’estimation du paramètre de dimension 2, θ = (θ1 , θ2 ) = (m, σ 2 ),
dans le modèle gaussien. Le premier moment de la loi N (θ) = N (m, σ 2 ) est µ1 (θ) = m = θ1
et son deuxième moment est µ2 (θ) = m2 + σ 2 = θ12 + θ2 . On est donc amenés, en écrivant
avec un léger abus directement les v.a. M1 et M2 , à résoudre le système
(
θ1 = M 1
.
θ12 + θ2 = M2
On obtient (
θ 1 = M1 = X n
θ2 = M2 − M12 = Sen2
où Sen2 désigne la variance empirique (voir 5.1). La méthode des moments conduit donc dans
le cadre gaussien à estimer la moyenne et la variance par la moyenne empirique et la variance
empirique respectivement.
Exemple 6.5. Considérons le modèle de lois beta [0, 1], (β(θ))θ∈(R+∗ )2 (voir A.2.4). La
méthode des moments conduit au système :
θ1
θ1 +θ = M1 = X n
22 .
2
θ1 θ2 θ1
(θ1 +θ2 )2 (θ1 +θ2 +1)
+ θ1 +θ2 = M2 = Sen2 + X n
X n − M2 X n − M2
θb1M = X n et θb2M = (1 − X n ) .
Sen2 Sen2
52
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
1
f (x) = e−|x−θ| , x ∈ R.
2
Exemple 6.2 (suite). Reprenons le modèle gaussien avec pour paramètre à estimer θ =
(θ1 , θ2 ) = (m, σ 2 ). La vraisemblance s’écrit
Pn !
2
1 i=1 (xi − θ1 )
L(x1 , . . . , xn ; θ1 , θ2 ) = n exp − ,
(2πθ2 ) 2 2θ2
et la Log-vraisemblance s’écrit
n
1 X n
ln L(x1 , . . . , xn ; θ1 , θ2 ) = − (xi − θ1 )2 − ln(2πθ2 ).
2θ2 i=1 2
dont la solution est (θ1 , θ2 ) = (xn , se2n ). Ainsi, l’EMV est pour ce modèle : (X n , Sen2 ).
53
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Remarque 6.4. On voit que dans l’Exemple 6.4, l’EMV X(n) diffère de l’estimateur obtenu
par la méthode des moments (ou de substitution) 2X n − 1. Nous développerons dans la suite
des outils permettant de décider lequel privilégier.
La proposition suivante, dont la démonstration est immédiate, montre que la méthode
d’estimation par maximum de vraisemblance est invariante par reparamétrisation.
MV
θb′ = h θbM V .
P[A|B]P[B]
P[B|A] = .
P[A]
L’idée est maintenant d’utiliser cette formule pour passer de la loi x = (x1 , . . . , xn ) sachant
notre a priori sur θ à la loi de θ sachant que l’on a effectivement observé x ; il s’agit bien d’une
54
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Insistons sur le fait qu’ici L(x; θ) se comprend comme la densité (ou fonction de probabilité)
de x sachant θ. Dans l’équation précédente, c(x, ν) ne dépend pas de θ et est la constante
de normalisation de la densité conditionnelle fν|X=x . L’estimation bayésienne étant souvent
assez gourmande en calculs, ne pas expliciter cette constante (mais utiliser que c’est la « bonne
valeur » pour obtenir à la fin une densité en θ) peut être intéressant pour limiter le nombre
de calculs.
Ayant observé x = (x1 , . . . , xn ), une estimation bayésienne de θ est alors simplement :
θbB = Ex [θ]
où Ex désigne l’espérance sous Px . Si l’on désigne par h la fonction de X n dans Θ x 7−→ θbB
l’estimateur bayésien de θ est h(X) que l’on notera également θbB .
Remarque 6.6.
1. Ici, on a choisi comme estimation bayésienne de θ la moyenne de la loi a posteriori ce
qui correspond à la minimisation du risque quadratique (voir Section 6.3.2). Il s’agit du
critère de choix d’estimateur retenu dans ce cours puisque le plus courant. Il est possible
de considérer d’autre critères comme un risque L1 (donné, pour un estimateur T par
Eθ [|T − θ|]). Sa minimisation conduirait à préférer la médiane de la loi a posteriori.
2. Il est possible de montrer de nombreuse propriétés de ces estimateurs dont leur conver-
gence pour toute loi a priori.
3. Ces estimateurs seront utilisés dans le chapitre d’estimation par intervalle de confiance
(voir Chapitre 8) et peuvent également l’être dans la théorie de la décision. Nous ne la
développerons pas ici et renvoyons, par exemple, à [8, Chapitre 7].
n
!
1 1X
L(x; θ) = n exp − (xi − θ)2
(2π) 2 2 i=1
55
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
où c(x) ne dépend pas de θ et dont la valeur pouvant changer d’une ligne à l’autre se retrouvera
à la fin en utilisant que fν|X=x (·) est une densité (en θ). Après des calculs assez fastidieux mais
simples consistant en la réduction de la forme quadratique dans l’exponentielle, on obtient
que
!!2
1 1 + nσ 2 1 nσ 2
fν|X=x (θ) = c(x) exp − θ− m + xn .
2 σ2 1 + nσ 2 1 + nσ 2
Notons que lorsque la variance σ 2 tend vers +∞, θbB tend vers xn en « oubliant » les
paramètres de la loi a priori. Ceci traduit le fait que l’information apportée par la loi a priori
est alors de plus en plus vague. Notons également que lorsque n tend vers +∞ la variance de
la loi a posteriori tend vers 0.
56
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
6.3.1 Biais
La première mesure de la qualité d’un estimateur T est son écart-moyen au paramètre θ
sous la loi Pθ .
Définition 6.4. Soit T un estimateur de θ intégrable. Le biais de T pour θ est
b(θ) = b(T, θ) := Eθ [T ] − θ.
Remarque 6.7. Attention : si T est un estimateur sans biais de θ, g(T ) n’est pas nécessai-
rement un estimateur sans biais de g(θ).
Il est clair qu’on attend d’un estimateur d’être de biais faible voir sans biais. Nous verrons
cependant, que l’on peut préférer un estimateur avec un léger biais à un estimateur sans biais
si ce premier a une moins forte variabilité autour de θ. La recherche de bons estimateurs sans
biais reste une question importante en statistique.
Remarque 6.8. Dans le cadre asymptotique, certaines suites d’estimateurs (on dira simple-
ment estimateur par brièveté) sont de biais non nuls mais tendant vers 0 lorsque la taille de
l’échantillon tend vers l’infini. On dit qu’ils sont asymptotiquement sans biais.
et
R(T, θ) := Eθ [(T − θ)(T − θ)T ], si d > 1.
Remarque 6.9. Si d > 1, R(T, θ) est une matrice symétrique et semi-définie positive. On
utilise donc, dans ce cas, pour comparer les risques d’estimateurs, l’ordre partiel sur l’ensemble
des matrices symétriques semi-définies positives défini par A ≥ B si A − B est semi-définie
positive (c’est-à-dire si ces valeurs propres sont positives ou nulles).
Si la variance de l’estimateur n’est pas une mesure pertinente de sa qualité, son risque se
ré-exprime au travers d’elle comme le montre la proposition suivante dont la démonstration
similaire à celle de la formule de décentrage de la variance est laissée en exercice.
Proposition 6.2 (décomposition biais/variance). On a :
57
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
R(T, θ) = Vθ [T ].
On dit que T (2) est inadmissible, s’il existe un estimateur T (1) préférable à T (2) pour lequel
l’inégalité si dessus est stricte pour au moins une valeur de θ.
Remarque 6.10. Pour les modèles d’intérêt, il n’existe malheureusement pas d’estimateur
préférable à tous les autres. En effet, si tel est le cas, les supports des lois Pθ , θ ∈ Θ, sont
nécessairement disjoints et une unique observation permet l’identification exacte de θ. Il sera
toutefois possible de rechercher des estimateurs de risque minimal dans des classes d’esti-
mateurs. Par exemple, on pourra rechercher un estimateur minimisant le risque quadratique
parmi les estimateurs sans biais ; par la Proposition 6.2, ceci est, dans cette classe, équivalent
à la minimisation de la variance. Le lecteur désireux de plus de détails pourra consulter, par
exemple, la Section 6.6 de [11] ou la Section 4.3.2 de [8].
Exemple 6.7. Considérons le modèle {0, 1}, (Ber(θ))θ∈[0,1] dans lequel on veut estimer θ
au moyen d’un échantillon de taille n. On propose les estimateurs :
n n
!
1X 1 X
T (1) = Xi et T (2) = 1+ Xi .
n i=1 n+2 i=1
On a
n
" #
h
(1)
i 1X
Eθ T = Eθ Xi = θ,
n i=1
Par ailleurs,
n
" !#
h
(2)
i 1 X 1 + nθ
Eθ T = Eθ 1+ Xi = ,
n+2 i=1
n+2
donc
1 + nθ 1 − 2θ
b(T (2) , θ) =
−θ =
n+2 n+2
et en utilisant la décomposition biais/variance du risque, on a
2
nθ(1 − θ) 1 − 2θ nθ(1 − θ) + (1 − 2θ)2
h i
R T (2) , θ = Vθ T (2) + b(T (2) , θ)2 = + = .
(n + 2)2 n+2 (n + 2)2
Pour θ = 1, on a
1
R T (1) , 1 = 0 ≤ R T (2) , 1 = ,
(n + 2)2
58
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
1 1 1 n
(1)
R T , = ≥ R T (2) , = .
2 4n 2 4(n + 2)2
Ainsi, aucun des deux estimateurs T (1) et T (2) n’est préférable à l’autre.
∂f ∂f ∂f
= ,...,
∂θ ∂θ1 ∂θd
et !
∂2f ∂2f
= .
∂θ2 ∂θi ∂θj 1≤i,j≤d
∂ ∂
Z Z
fX1 (x, θ) d x = fX (x, θ) d x
∂θ A A ∂θ 1
et
∂2 ∂2
Z Z
fX1 (x, θ) d x = fX (x, θ) d x
∂θ2 A A ∂θ2 1
pour tout A ;
∂ ln fX1
5. ∂θ est de carré intégrable.
Exercice 6.1. Montrer que le modèle gaussien de l’Exemple 6.2 est régulier.
Exercice 6.2. Le modèle uniforme sur [1, θ] de l’Exemple 6.4 est-il régulier ?
Définition 6.8. Un estimateur T de carré intégrable sur un modèle statistique régulier (X , (Pθ )θ∈Θ )
∂
est dit régulier si, pour tout θ ∈ Θ, T (·) ∂θ L(·, θ) est intégrable sur X n et
∂ ∂
Z Z
T (x)L(x, θ) d x = T (x) L(x, θ) d x.
∂θ Xn Xn ∂θ
59
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
60
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
∂ 2 ln fX1 ∂ ∂ ln fX1
2
(x, θ) = (x, θ)
∂θ ∂θ ∂θ
∂ 1 ∂fX1
= (x, θ)
∂θ fX1 (x, θ) ∂θ
2
1 ∂fX1 1 ∂ 2 fX1
=− (x, θ) + (x, θ)
fX1 (x, θ) ∂θ fX1 (x, θ) ∂θ2
2
∂ ln fX1 1 ∂ 2 fX1
=− (x, θ) + (x, θ)
∂θ fX1 (x, θ) ∂θ2
donc
2
∂ ln fX1 1 ∂ 2 fX1 ∂ 2 ln fX1
(x, θ) = (x, θ) − (x, θ).
∂θ fX1 (x, θ) ∂θ2 ∂θ2
Puis, en prenant l’espérance contre Pθ :
" 2 #
∂ ln fX1
I(θ) = Eθ (X1 , θ)
∂θ
" # " #
1 ∂ 2 fX1 ∂ 2 ln fX1
= Eθ (X1 , θ) − E θ (X1 , θ)
fX1 (X1 , θ) ∂θ2 ∂θ2
" #
∂ 2 fX1 ∂ 2 ln fX1
Z
= 2
(x, θ) d x − Eθ (X1 , θ)
X ∂θ ∂θ2
" #
∂2 ∂ 2 ln fX1
Z
= 2 fX1 (x, θ) d x − Eθ (X1 , θ) (car le modèle est régulier)
∂θ X ∂θ2
" # " #
∂2 ∂ 2 ln fX1 ∂ 2 ln fX1
= 2 1 − Eθ (X1 , θ) = −E θ (X1 , θ) .
∂θ ∂θ2 ∂θ2
Un intérêt majeur de l’information de Fisher est qu’elle permet de formuler une borne
absolue sur le risque des estimateurs dans des modèles réguliers.
Théorème 6.1. (borne de Cramer-Rao, d = 1). Soit T = T (X1 , . . . , Xn ) un estimateur
régulier et sans biais de θ de dimension 1 dans un modèle régulier et construit à partir d’un
échantillon X = (X1 , . . . , Xn ) de taille n. Alors, pour tout θ ∈ Θ :
1 1
R(T, θ) ≥ = .
In (θ) nI(θ)
61
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
1
La borne nI(θ) est appelée borne de Cramer-Rao du modèle.
θ = Eθ [T ]
donc
∂ ∂
1= θ= Eθ [T ]
∂θ ∂θ Z
∂
= T (x)L(x, θ) d x
∂θ X n
∂
Z
= T (x) L(x, θ) d x
Xn ∂θ
∂
Z
= T (x) ln L(x, θ) L(x, θ) d x
Xn ∂θ
∂
= Eθ T (X) ln L(X, θ)
∂θ
∂ ∂
= Eθ T (X) ln L(X, θ) − θEθ ln L(X, θ) (car le score est centré)
∂θ ∂θ
∂
= Eθ (T (X) − θ) ln L(X, θ)
∂θ
i1 1
∂
h 2
2 2
≤ Eθ (T (X) − θ) Eθ ln L(X, θ) (par l’inégalité de Cauchy-Schwarz)
∂θ
q
= R(T, θ)In (θ).
Le résultat s’ensuit. □
Ce résultat se généralise au cas d’un paramètre de dimension d quelconque :
Théorème 6.2. (borne de Cramer-Rao, d > 1). Soit T = T (X1 , . . . , Xn ) un estimateur
régulier et sans biais de θ de dimension d > 1 dans un modèle régulier et construit à partir
d’un échantillon X = (X1 , . . . , Xn ) de taille n. Si I(θ) est inversible, on a, pour tout θ ∈ Θ :
1
R(T, θ) ≥ I(θ)−1 .
n
1 −1
La borne n I(θ) est appelée borne de Cramer-Rao du modèle.
Définition 6.11. Un estimateur sans-biais atteignant la borne de Cramer-Rao est dit efficace.
Par définition, un estimateur efficace est préférable à tout autre estimateur sans biais.
Il existe pourtant, sauf dans des cas particuliers, des estimateurs biaisés préférables aux
estimateurs efficaces.
Exemple 6.3 (suite).
Reprenons le modèle gaussien à moyenne connue de l’Exemple 6.3 : R, (N (m, θ))θ∈R+∗ .
On a :
" # " #
∂2 1 (X1 − m)2 1
I(θ) = −E 2
ln fX1 (X1 ; θ) = E − 2
+ 3
= 2.
∂θ 2θ θ 2θ
62
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Il s’agit donc d’un estimateur sans biais ; il est également régulier. On a cette fois :
n
" #
h i 1X 1 h i
R(Sbn2 , θ) = Vθ Sbn2 = Vθ (Xi − m)2 = Vθ (X1 − m)2
n i=1 n
1 1 2 2θ2
h i h i2
= Eθ (X1 − m)4 − Eθ (X1 − m)2 = 3θ − θ2 =
n n n
où l’on a utilisé que le moment d’ordre 4 de Z = X1 − m ∼ N (0, θ) est 3θ2 (ce qui s’obtient
facilement avec la Proposition 2.10). Ainsi, cet estimateur sans biais atteint la borne de
Cramer-Rao. Il est donc efficace.
Nous allons maintenant voir que l’on peut trouver un estimateur biaisé qui lui est pré-
férable. Pour cela considérons les estimateurs de la forme T (α) = αSbn2 , α ∈ R. Son biais
est :
63
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
et T = (X n , Sn2 ) n’est pas un estimateur efficace. On montre qu’il est pourtant préférable à
tout autre estimateur sans biais.
Exercice 6.4. Montrer que pour le modèle gaussien à variance connue σ 2 , (R, (N (θ, σ 2 ))θ∈R ,
la moyenne empirique X n est un estimateur efficace.
Remarquons que la borne de Cramer-Rao n’est pas forcément atteinte par un estimateur
régulier en général ce qui constitue une limite de ce résultat. Nous admettrons le résultat
suivant :
Proposition 6.5. La borne de Cramer-Rao ne peut être atteinte que si (Pθ )θ∈Θ est une
famille exponentielle de lois.
Cette définition correspond intuitivement au fait que toute l’information sur θ contenue
dans X est déjà contenue dans S.
Exemple 6.8. Considérons le modèle statistique (N, (P(θ))θ∈R+∗ ) et vérifions que la sta-
tistique S = ni=1 Xi est exhaustive. Puisque X1 , . . . , Xn sont indépendante de loi P(θ),
P
Qn k
i=1 e−θ θkii! e−nθ k! ni=1 θki
Q
k!
Pθ [X1 = k1 , . . . , Xn = kn |S = k] = k = −nθ k k Q n = k Qn
e−nθ (nθ)
k!
e n θ i=1 ki ! n i=1 ki !
64
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Théorème 6.3 (de factorisation). Une statistique S = S(X1 , . . . , Xn ) est exhaustive si, et
seulement, si la vraisemblance L(·; θ) de X = (X1 , . . . , Xn ) admet, pour tout x = (x1 , . . . , xn ) ∈
X n , une factorisation de la forme :
Exemple 6.8 (suite). Dans le cadre du modèle statistique (N, (P(θ))θ∈R+∗ ), en considérant
la statistique S = ni=1 Xi , on a :
P
n n
!
ki
−θ θ
Pn
= e−nθ θ ki
(ki !)−1
Y Y
L(k1 , . . . , kn ; θ) = e i=1 ×
i=1
ki ! i=1
n
= e−nθ θS(k1 ,...,kn ) × (ki !)−1
Y
i=1
est exhaustive.
n n k
!
Y Y X
L(x1 , . . . , xn ; θ) = fX1 (xj , θ) = a(θ)b(xj ) exp ci (θ)di (xj )
j=1 j=1 i=1
n
Y k
X n
X
= a(θ)n b(xj ) exp ci (θ) di (xj )
j=1 i=1 j=1
Remarque 6.13. On peut montrer que pour les modèles réguliers, l’existence d’une statis-
tique exhaustive de même dimension que le paramètre inconnu et appartenance à la classe
des familles exponentielles.
Définition 6.13. Une statistique S est dite totale si h(S) = 0 Pθ -p.s pour tout θ ∈ Θ dès
que Eθ [|h(S)|] < +∞ et Eθ [h(S)] = 0 Pθ -p.s pour tout θ ∈ Θ.
Une statistique exhaustive S est dite minimale si pour toute statistique exhaustive T , il
existe une fonction mesurable g telle que S = g(T ).
65
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
Une statistique exhaustive minimale est donc un bon résumé de l’information contenue
dans un échantillon puisqu’elle est exhaustive donc contient toute l’information nécessaire et
qu’elle la résume puisque toute statistique exhaustive suffit à la retrouver. Ainsi, si un esti-
mateur de θ est une statistique exhaustive minimale, nous le considérerons pertinent. Le fait
qu’une statistique soit minimale est généralement délicat à montrer en utilisant directement la
définition puisque ceci présuppose de connaître toutes les statistiques exhaustives du modèle.
Le résultat suivant donne un moyen plus simple pour montrer qu’une statistique exhaustive
est minimale.
Proposition 6.7. Si une statistique exhaustive est totale alors elle est minimale.
Exercice 6.5. Dans le cadre du modèle statistique (N, (P(θ))θ∈R+∗ de l’Exemple 6.8, montrer
que la statistique S = ni=1 Xi est minimale.
P
Pour conclure cette section, notons qu’il est possible d’améliorer (au sens du risque quadra-
tique) un estimateur T en utilisant une statistique exhaustive S. L’approche classique repose
sur l’utilisation de l’espérance conditionnelle sachant S et le Théorème de Rao-Blackwell et
dépasse le cadre de ce cours. Elle affirme que si T est de plus de carré intégrable, E[T |S] est
préférable à T . L’intuition est que la statistique exhaustive S à résumé l’information et toute
l’information contenue dans l’échantillon nécessaire à l’estimation et l’estimateur résultant
de ce conditionnement est « moins parasité » par des informations superflues donc possède
une moins grande variabilité que T . Nous ne développerons pas plus ce sujet et renvoyons le
lecteur à la Section VIII.5.2 de [7] ou à la Section 4.3.2 de [8].
Remarque 6.14. On dit que θbM est asymptotiquement normal de (matrice de covarian-
ce/)variance Vθ [φ(X1 )].
Ce résultat admet dans le cadre d’un estimateur obtenu par la méthode du maximum de
vraisemblance, un analogue plus délicat à démontrer.
Théorème 6.4. Supposons le modèle régulier et identifiable et notons I(θ) l’information de
Fisher du modèle. Alors, l’estimateur du maximum de vraisemblance θbnM V vérifie, pour tout
θ, sous Pθ :
√ bM V
L
n θn − θ −→ N 0, I(θ)−1 .
66
CHAPITRE 6. ESTIMATION PARAMÉTRIQUE PONCTUELLE
√ bM V
Dans le deux cas, on pourra considérer que n θn − θ est proche d’une loi normale
si n est suffisamment grand.
67
Chapitre 7
Tests d’hypothèses
Comme nous l’avons fait dans le cadre de l’estimation, nous nous concentrons ici princi-
palement sur des test paramétriques ; en fait, même sur les tests paramétriques pour un para-
mètre de dimension 1 (Θ ⊂ R pour ce chapitre). Toutefois, certains tests non-paramétriques,
à l’instar des tests du Khi-2, sont d’un usage si courant qu’il est impossible de ne pas les
présenter. Nous le ferons brièvement dans la Section 7.5.
Définition 7.1. Une fonction de test pur ou fonction de test déterministe est une application
φ : X n −→ {0, 1} ≡ {H0 , H1 }. La région Rc = φ−1 ({0}) = {x ∈ X n : φ(x) = 0} est la région
d’acceptation de H0 du test fondé sur φ. La région R = φ−1 ({1}) sur laquelle on rejette H0
(donc « accepte » H1 ) est appelée région critique ou de rejet du test.
Définition 7.2. Une fonction de test aléatoire ou fonction de test stochastique est une
application φ : X n −→ [0, 1]. La région φ−1 ({0}) est la région d’acceptation de H0 du test
fondé sur φ. La région R = φ−1 ({1}) est la région critique ou de rejet du test. La région
H = φ−1 (]0, 1[) est la région d’hésitation du test. Pour x ∈ X n , φ(x) s’interprète alors
comme la probabilité de rejeter H0 .
Un test aléatoire fait donc appel à un aléa extérieur (via la valeur de φ(x)) à l’observation
pour rendre sa décision ; il s’agirait de regarder la réalisation d’une variable de Bernoulli de
paramètre φ(x) pour décider de rejeter H0 si, et seulement si, celle-ci vaut 1. Il paraît donc
par nature hasardeux et peu fondé. L’intérêt de ces tests est essentiellement théorique, en
particulier pour l’analyse de la qualité des tests d’hypothèses simples. Notons qu’un test pur
est un test stochastique particulier.
69
CHAPITRE 7. TESTS D’HYPOTHÈSES
ρφ : Θ −→ [0, 1]
θ 7−→ Eθ [φ] = Eθ [φ(X1 , . . . , Xn )]
Lors de la réalisation d’un test, il est possible de commettre une erreur de deux façons
différentes : soit on rejette à tord H0 alors qu’elle était vraie, soit on accepte à tord H0 alors
qu’elle était fausse. Ceci conduit à la définition suivante :
Remarque 7.2.
1. Si φ est un test pur (déterministe), l’erreur de première espèce est donc la probabilité
Pθ [X ∈ R] que l’observation X = (X1 , . . . , Xn ) soit dans la région critique (donc de
rejeter H0 ) alors que θ ∈ Θ0 . L’erreur de deuxième espèce est donc la probabilité
1 − ρφ (θ) = Pθ [X ̸∈ R] que X soit hors de la région critique (donc d’« accepter » – ou
plutôt de pas rejeter – H0 ) alors que θ ∈ Θ1 .
2. Dans la définition de l’erreur de deuxième espèce, certains auteurs préfèrent restreindre
1 − ρφ à Θc0 plutôt qu’à Θ1 sans supposer que Θ0 et Θ1 forment une partition de Θ.
L’erreur de deuxième espèce s’interprète alors pour un test pur comme la probabilité
d’« accepter » H0 alors que θ ̸∈ Θ0 .
Les seuils ou niveaux des tests permettent, en particulier, de choisir quel test et région
critique utiliser, ce que nous développerons dans la Section 7.3.
70
CHAPITRE 7. TESTS D’HYPOTHÈSES
Remarque 7.3. On choisira les statistiques de test de façon à ce que la région critique s’écrive
simplement, par exemple de façon unilatérale :
R = {ζ ≥ a} := {x = (x1 , . . . , xn ) ∈ X n : ζ(x) ∈ [a, +∞[}
ou R = {ζ ≤ a} ou bilatérale : R = {a ≤ ζ ≤ b} ou R = {a ≤ ζ ou ≥ b}.
7.1.4 p-valeur
La p-valeur permet de bien quantifier le risque pris et rejetant H0 . En effet, elle correspond
à la probabilité de rejeter H0 à tord en évaluant la probabilité pour que, sous H0 , la statistique
de test ζ dépasse la valeur observée ζ obs pour un test pur de région critique de la forme
R = {ζ ≥ a}, plus généralement la probabilité pour que ζ obs soit « aberrante » sous H0 . Elle
se définit plus formellement comme suit.
Définition 7.7. Supposons que, pour une statistique de test ζ, pour tout α ∈]0, 1[, la région
critique s’écrivant sous la forme R = {ζ ∈ Aα }, pour un certain Aα ⊂ R définisse un test
pur de niveau α.
Ayant observé xobs = (xobs obs
1 , . . . , xn ) et évalué ζ en x
obs (ζ obs := ζ(xobs )), la p-valeur (ou
71
CHAPITRE 7. TESTS D’HYPOTHÈSES
Pθ0 [S ≤ qα ] = α
on obtient par identification que g −1 (cα ) = qα soit cα = g(qα ). On conclue ainsi que la région
critique du test de niveau α est Rα = {x ∈ X n : S(x) ∈] − ∞, g(cα )].
Remarque 7.4.
1. Dans l’exemple précédent, on voit que l’on a déterminé la loi de la statistique de test (via
celle de la statistique exhaustive S) sous H0 pour contrôler l’erreur de première espèce.
Ce contrôle se passe toujours de cette façon. Celui de l’erreur de deuxième espèce passe
par la détermination de la loi de la statistique de test sous H1 . La simplicité de la mise
en œuvre du test de rapport de vraisemblance est partagée par de nombreux modèles,
en particulier ceux basés sur une famille de lois de la classe exponentielle comme nous
le verrons dans la Section 7.3 (voir aussi Théorème 7.1).
72
CHAPITRE 7. TESTS D’HYPOTHÈSES
2. Par abus de langage permettant d’alléger les choses, on confondra parfois la zone rejet
et l’ensemble permettant de la déterminer grâce à la statistique de test. Dans l’exemple
précédent, on dira qu’en utilisant la statistique de test S la zone de rejet est ]−∞, g(cα )].
Le même raisonnement conduirait à rejeter H0 pour des petites valeurs de l. Observons que
l’on retrouverait même exactement la même statistique que plus haut lorsque les hypothèses
sont simples. Toutefois, on va préférer l’usage de la statistique ℓ = ℓ(X) définie pour x ∈ X n
par
supθ∈Θ0 L(x; θ)
ℓ(x) = .
supθ∈Θ L(x; θ)
On appellera cette statistique statistique du rapport de vraisemblance généralisé (RVG). Il y a
deux raisons principales à préférer ℓ à l. La première est que ℓ ≤ 1 p.s. et la second qu’elle est
liée à l’estimateur du maximum de vraisemblance (non restreint) θbM V . Plus précisément, on
voit que le dénominateur supθ∈Θ L(x; θ) n’est autre que L(x; θbM V ). De même, le numérateur
est lié à l’estimateur du maximum de vraisemblance restreint à Θ0 , θb0M V , puisque l’on a
supθ∈Θ0 L(x; θ) = L(x; θb0M V ).
Si l’on dispose d’une statistique exhaustive, le résultat suivant, conséquence du Théorème
de factorisation 6.3 permet de simplifier le calcul de la statistique du RVG.
Théorème 7.1. Si S est une statistique exhaustive pour θ dans le modèle (X , (Pθ )θ∈Θ ) de
vraisemblance L, alors, pour tout Θ0 ⊂ Θ fixé, la statistique du RVG ℓ se factorise au travers
de S de la manière suivante : il existe une fonction λ telle que pour tout x ∈ X n , on a
ℓ(x) = λ(S(x)).
73
CHAPITRE 7. TESTS D’HYPOTHÈSES
Exemple 7.2. Considérons le modèle (R+ , (E(θ))θ>0 ) et supposons que l’on souhaite tester
H0 : θ ≤ θ0 contre H1 : θ > θ0 en utilisant un échantillon de taille n.
Vérifier que la statistique du RVG est donnée par :
n
θ0 S(X)
ℓ(X) = en−θ0 S(X) 1n−θ0 S>0 + 1n−θ0 S≤0
n
P
où S = S(X) est la statistique exhaustive pour θ dans ce modèle définie par S(X) = i=1n Xi .
et de variance
σ2
v= .
1 + nσ 2
Notons que la dépendance de Px en l’observation x ne se fait qu’au travers de m via xn et
que g est bijective et de réciproque croissante.
Notons également, que sous Px ,
θ−m
Z= √ ∼ N (0, 1).
v
Ainsi, si l’on souhaite tester l’hypothèse H0 : θ > θ0 au seuil α ∈]0, 1[, le test bayésien
fonde, avec les notations précédentes, la décision sur la zone de rejet :
Rα = {x ∈ X n : Px [θ ≤ θ0 ] ≥ 1 − α}
θ−m θ0 − m
= x ∈ X n : Px √ ≤ √ ≥1−α
v v
θ0 − m
= x ∈ Xn : P Z ≤ √ ≥ 1 − α pour Z ∼ N (0, 1) .
v
74
CHAPITRE 7. TESTS D’HYPOTHÈSES
P [Z ≤ q1−α ] = 1 − α
on obtient que
θ0 − m
n
Rα = x ∈ X : P Z ≤ √ ≥ P [Z ≤ q1−α ] pour Z ∼ N (0, 1)
v
θ0 − m
= x ∈ Xn : √ ≥ q1−α (par croissance de la fonction de répartition)
v
√
= x ∈ X n : m ≤ θ0 − vq1−α
√
= x ∈ X n : g(xn ) ≤ θ0 − vq1−α
n √ o
= x ∈ X n : xn ≤ g −1 θ0 − vq1−α
( )
1 + nσ 2 √ 1
n
= x ∈ X : xn ≤ 2
θ0 − vq1−α m .
nσ 1 + nσ 2
Définition 7.8. On dit qu’un test φ est uniformément plus puissant au seuil α que φ′ (de
seuil α) s’il est de seuil α et si φ′ est de puissance supérieure à celle de φ sur Θ1 :
Remarque 7.5. On se rappellera que si φ est un test pur, alors ρφ (θ) = Pθ [X ∈ R]. Ainsi,
un test pur UPP au seuil α, rejette H0 lorsqu’elle est fausse avec la probabilité la plus grande
possible parmi les tests de seuils α.
La proposition suivant montre qu’un test UPP au seuil α est nécessairement de niveau α.
75
CHAPITRE 7. TESTS D’HYPOTHÈSES
Preuve :
Il suffit de considérer le test défini par :
α − α′
φ(x) = φ′ (x) + (1 − φ′ (x)).
1 − α′
Les détails sont laissés au lecteur en exercice.
□
Nous verrons qu’il n’existe pas toujours de tests UPP – en fait, ils n’existent que dans des
situations particulières que nous étudierons plus loin. De façon analogue à ce que nous avons
fait dans le cadre de l’estimation ponctuelle, on peut se restreindre à chercher des tests de
puissance maximale dans des classe plus restreintes de tests, par exemple les tests sans biais.
Définition 7.9. On dit qu’un test φ est sans biais au seuil α
On dit qu’un test φ est uniformément plus puissant sans biais au seuil α (UPPSB) s’il est
sans biais au seuil α et s’il est UPP que tout autre test φ′ sans biais au seuil α.
Remarque 7.6.
1. Si L(x; θ1 ) ̸= κL(x; θ0 ) Pθ0 -p.s. ou γ est constante égale à 0 ou 1, alors le test de
Neyman-Pearson est pur.
2. En réécrivant, par exemple, L(x; θ1 ) < κL(x; θ0 ) sous la forme L(x; θ1 )/L(x; θ0 ) < κ,
on voit que les tests de Neyman-Pearson sont basé sur un rapport de vraisemblances
et sont, en fait, essentiellement des tests du rapport de vraisemblance. On formalisera
cette remarque par la suite. Notons que ce rapport est l’inverse de celui proposé dans
la Section 7.2.1 ; il s’agit des choix standards faits pour conserver l’intuition d’une part
et simplifier certaines écritures d’autre part.
Proposition 7.2 (Existence). Pour tout α ∈]0, 1[, il existe un test de Neyman-Pearson au
seuil α avec γ constante.
Plus précisément, considérons la statistique du rapport de vraisemblance (simple) ℓ, définie
sur X n par
L(x, θ1 )
ℓ(x) = .
L(x, θ0 )
Soient F sa fonction de répartition sous Pθ0 et q1−α son quantile d’ordre 1 − α sous Pθ0 . On
a les cas suivants :
76
CHAPITRE 7. TESTS D’HYPOTHÈSES
Preuve :
Avec les notations de la proposition, on pose φ(x) = 1l(x)>κ + γ1l(x)=κ . Il est facile de
voir que γ ∈ [0, 1] par définition des quantiles et croissance de la fonction de répartition. Il
reste à vérifier que φ est de niveau α :
□
Le Théorème suivant caractérise les test UPP pour le cas de deux hypothèses simples.
Combiné avec la proposition précédente, il explique pourquoi les tests du rapports de vrai-
semblance se sont imposés dans ce cas.
Théorème 7.2 (Lemme de Neyman-Pearson). Soit α ∈]0, 1[ et le problème du test de H0 :
θ = θ0 contre H1 : θ = θ1 .
Alors, un test est un test de Neyman-Pearson de niveau α si, et seulement si, il est UPP
au seuil α.
Preuve :
Soit φ un test de Neyman-Pearson de niveau α avec κ > 0 et c ∈ [0, 1] et φ′ un test de
seuil α.
Remarquons que si L(x, θ1 ) > κL(x, θ0 ) alors, φ(x) = 1 ≥ φ′ (x) alors que si L(x, θ1 ) <
κL(x, θ0 ), on a φ(x) = 0 ≤ φ′ (x). Ainsi, pour tout x ∈ X n , on a (L(x, θ1 ) − κL(x, θ0 ))(φ(x) −
φ′ (x)) ≥ 0 et donc
Z
(L(x, θ1 ) − κL(x, θ0 ))(φ(x) − φ′ (x)) d λx ≥ 0.
Xn
Il s’ensuit que
≥ 0.
Réciproquement, si φ′ est UPP il vient que les dernières inégalités du sens direct sont en
fait des égalités. Or, (L(·, θ1 ) − κL(·, θ0 ))(φ(·) − φ′ (·)) est positive donc la Proposition 1.2 :(6)
implique que (L(·, θ1 )−κL(·, θ0 ))(φ(·)−φ′ (·)) est nulle p.p. puis que φ = φ′ p.p. sur l’ensemble
{x : L(x, θ1 ) ̸= κL(x, θ0 )}. Il s’ensuit que φ′ est un test de Neyman-Pearson. □
77
CHAPITRE 7. TESTS D’HYPOTHÈSES
L(x; θ′ )
= hθ,θ′ (S(x)), pour tout x ∈ X n .
L(x; θ)
Remarque 7.7. En fait, un test à rapport de vraisemblance décroissant est aussi un test
à rapport de vraisemblance croissant et vice versa. Pour le voir, il suffit de changer S en
−S et hθ,θ′ en hθ,θ′ ◦ (−id). Dans la suite on ne considérera donc que le cas à rapport de
vraisemblance croissant.
Exemple 7.3. Si (Pθ )θ∈Θ est une famille exponentielle à paramètre de dimension un telle
que la densité de Pθ s’écrive sous la forme :
avec S = S(x) = ni=1 d(xi ) la statistique canonique (ou privilégiée) de ce modèle. Ainsi, un
P
tel modèle est à vraisemblance monotone pour S si, et seulement si, c est monotone.
La proposition suivante, immédiate, donne la forme de tests de Neyman-Pearson pour des
modèles à rapport de vraisemblance croissant.
et si θ0 > θ1 , on pose :
1
si S(x) < k
φ(x) = γ si S(x) = k
0 si S(x) > k
78
CHAPITRE 7. TESTS D’HYPOTHÈSES
de H0 contre H1′ : θ = θ1 . Comme L(x, θ1 )/L(x, θ1 ) = hθ0 ,θ1 (S(x)) avec hθ0 ,θ1 strictement
croissante, il existe κ tel que
S(x) > k ⇐⇒ L(x; θ1 ) > κL(x; θ0 ) et S(x) < k ⇐⇒ L(x; θ1 ) < κL(x; θ0 ).
79
CHAPITRE 7. TESTS D’HYPOTHÈSES
Théorème 7.4 (de Karlin-Rubin ou de Lehmann). Soit un modèle statistique (X , (Pθ )θ∈Θ ) à
rapport de vraisemblance strictement croissant en la statistique S. Alors, pour tout α ∈]0, 1[,
il existe un test UPP au seuil α de H0 : θ ≤ θ0 contre H1 : θ > θ0 de la forme
si S(x) > k
1
φ(x) = γ si S(x) = k .
0 si S(x) < k
De plus, on a :
sup ρφ (θ) = ρφ (θ0 ) = α.
θ≤θ0
Si θ′ < θ′′ , comme L(x, θ′′ )/L(x, θ′ ) = hθ′ ,θ′′ (S(x)) avec hθ′ ,θ′′ strictement croissante, il s’agit
d’après la Proposition 7.3 d’un test de Neyman-Pearson pour H0′ : θ = θ′ contre H1′ : θ = θ′′ .
Par le Lemme de Neyman-Pearson (Théorème 7.2), il est UPP que tout test φ′ de même seuil
de H0′ contre H1′ . Il vient donc que pour tout test φ′ de même seuil :
Remarque 7.10. Il découle de cette preuve, que si le modèle est identifiable, la fonction
puissance d’un test de Neyman-Pearson entre deux hypothèses simples est strictement crois-
sante.
80
CHAPITRE 7. TESTS D’HYPOTHÈSES
Remarque 7.11.
1. La difficulté pratique est la détermination de k1 et k2 tels que ρφ (θ1 ) = ρφ (θ2 ) = α.
2. On peut écrire un résultat analogue pour tester H0 : θ ̸= θ0 contre H1 : θ = θ0
l’équation du seuil permettant de déterminer γ1 , γ2 , k1 et k2 devient alors :
(
ρφ (θ0 ) = α
.
Eθ0 [S(X)φ(X)] = αEθ0 [S(X)]
3. Comme nous le verrons, ces résultats font figure d’exception dans l’analyse des test
bilatéraux et on ne peut pas les obtenir en intervertissant les formes de H0 et H1 .
H1′′ : θ = θ2 pour un certain θ2 < θ0 fixé. Par le Lemme de Neyman-Pearson, il s’agit d’un test
de Neyman-Pearson et, en fait, d’un test pur de région critique de la forme { ni=1 xi ≤ c′α }.
P
Ceci étant absurde, on conclue qu’il n’existe pas de test UPP permettant de tester H0 : θ = θ0
contre l’hypothèse alternative bilatérale H1 : θ = θ0 dans ce modèle (pourtant simple, régulier
et dans la famille exponentielle).
La même observation peut être faite pour tester H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ < θ1 ou θ >
θ2 . Du fait de cette observation, on est amenés à rechercher dans ces cas des test optimaux
parmi des classes restreintes de test (par exemple les tests sans biais) même dans des classes
restreintes de modèles (comme ceux des familles exponentielles).
On admet le résultat suivant.
81
CHAPITRE 7. TESTS D’HYPOTHÈSES
82
CHAPITRE 7. TESTS D’HYPOTHÈSES
Cas 1 :
H0 : θ = θ0 ou θ ≤ θ0
H1 : θ = θ1 (θ1 > θ0 ) ou θ > θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {x : S(x) ≥ c}
Cas 2 :
H0 : θ = θ0 ou θ ≥ θ0
H1 : θ = θ1 (θ1 < θ0 ) ou θ < θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {x : S(x) ≤ c}
83
CHAPITRE 7. TESTS D’HYPOTHÈSES
Cas 3 :
H0 : θ = θ0
H1 : θ ̸= θ0
Statistique de test :
X n − θ0
S= √
σ/ n
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique :
R = {|S(x)| ≥ c}
Cas 1 :
H0 : θ = θ0 ou θ ≤ θ0
H1 : θ = θ1 (θ1 > θ0 ) ou θ > θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1 X
Sn2 (X) = (Xi − X n )2 .
n − 1 i=1
Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {x : S(x) ≥ c}
Cas 2 :
H0 : θ = θ0 ou θ ≥ θ0
H1 : θ = θ1 (θ1 < θ0 ) ou θ < θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1 X
Sn2 (X) = (Xi − X n )2 .
n − 1 i=1
84
CHAPITRE 7. TESTS D’HYPOTHÈSES
Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {x : S(x) ≤ c}
Cas 3 :
H0 : θ = θ0
H1 : θ ̸= θ0
Statistique de test :
X n − θ0
S(X) = p 2
Sn (X)/n
où Sn2 (X) est l’estimateur sans biais de la variance :
n
1X
Sn2 (X) = (Xi − X n )2 .
n i=1
Loi sous H0 :
S ∼ T (n − 1) (loi de Student à n − 1 d.d.l.).
Forme de la région critique :
R = {|S(x)| ≥ c}.
85
CHAPITRE 7. TESTS D’HYPOTHÈSES
Loi sous H0 :
S ∼ χ2 (n − 1).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents pour les cas
unilatéraux. Dans les cas bilatéraux, du fait de la dissymétrie de la loi du Khi-2, la région
critique est de la forme ] − ∞, aα ] ∪ [bα , +∞[ que l’on détermine de façon à ce que, pour
χ2 ∼ χ2 (n − 1) :
α
P[χ2 ≤ aα ] = P[χ2 ≥ bα ] = .
2
H0 : m1 = m2
Statistique de test :
Xn − Y n
S(X) = r .
σ12 σ22
n1 + n2
Loi sous H0 :
S ∼ N (0, 1).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents.
H0 : m1 = m2
Statistique de test :
Xn − Y n
S(X) = r
S 2 (X, Y) n11 + 1
n2
où
n1 n1
!
2 1 X X
S (X, Y) = (Xi − X n )2 + (Yi − Y n )2
n1 + n2 − 2 i=1 i=1
Loi sous H0 :
S ∼ T (n1 + n2 − 2).
Forme de la région critique : Selon la forme de H1 , similaire aux cas précédents.
Remarque : Pour le cas général à variance inconnue, on peut construire un test asymptotique
de comparaison de moyennes (voir problème de Behrens-Fisher).
86
CHAPITRE 7. TESTS D’HYPOTHÈSES
Statistique de test :
Sbn21 (X)
S(X) =
Sbn22 (Y)
où
n
1X
Sbn2 (Z) = (Zi − E[Z])2 .
n i=1
Loi sous H0 :
S ∼ F(n1 , n2 ) (loi de Fisher-Snedecor).
Statistique de test :
Sn21 (X)
S(X) =
Sn22 (Y)
Loi sous H0 :
S ∼ F(n1 − 1, n2 − 1).
Loi sous H0 :
S(X) ∼ Bin(n, θ0 ).
Remarque : Si n est assez grand, il est courant de plutôt utiliser un test asymptotique en
approchant convenablement la loi Bin(n, θ0 ) par une loi de Poisson ou une loi normale.
Y.
H0 : X et Y sont indépendantes. On note
Ni,· N·,j
Ti,j =
N
l’effectif théorique de la modalité (xi , yj ) sous H0 . On suppose que tous les effectifs théoriques
sont ≥ 5, sinon on effectue des regroupements de lignes ou de colonnes.
87
CHAPITRE 7. TESTS D’HYPOTHÈSES
χ2 ∼ χ2 (l − r − 1)
approx.
88
CHAPITRE 7. TESTS D’HYPOTHÈSES
Test de Kolmogorov-Smirnov
Adéquation à une loi continue, [11] p. 266-267 et 270-271, [7] Sections IX.10.1 et IX.10.2,
[14] p. 176.
89
Chapitre 8
Alors que dans le cadre de l’estimation paramétrique ponctuelle l’objectif était de donner
une valeur unique pour approcher le paramètre inconnu θ, l’idée sous-jacente à l’estimation
par intervalle ou région de confiance, est de donner un ensemble de valeur plausibles pour le
paramètre à estimer telle que la probabilité pour que le paramètre appartienne effectivement
à cette région est prescrit. Il est clair qu’une estimation ponctuelle du paramètre inconnu doit
être un bon point de départ pour construire de tels intervalles ou régions et que le contrôle de
la variance de l’estimateur doit permettre de contrôler la taille de la région, que l’on souhaite
petite par soucis de précision.
Remarquons que cette approche est naturelle puisque même si l’estimation ponctuelle θb
de θ est convenable la probabilité pour que θ soit effectivement égale à θb est faible, et est
même nulle dès que la loi de θb est continue.
Dans ce chapitre, nous nous restreindrons au cas de l’estimation d’un paramètre de dimen-
sion 1 par intervalle de confiance et n’explorerons pas le cas des dimensions supérieurs et des
régions de confiance. Nous décrirons les méthodes de construction d’intervalle et donnerons
des exemples classiques. Nous ne nous intéresserons pas à la qualité et à l’optimalité de tels
intervalles de confiance. Le lecteur intéressé par ces questions est renvoyé par exemple à la
Section 7.7 de [11] ou au plus complet Chapitre 7 de [15].
Remarque 8.1.
1. Il est fréquent de prendre g = id.
91
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
2. Dans la pratique, ayant donné la garantie du niveau au moyen de l’étude de l’inter-
valle aléatoire In,α (X1 , . . . , Xn ), on fournira l’estimation par intervalle de confiance
In,α (x1 , . . . , xn ) pour une observation (x1 , . . . , xn ).
3. On utilisera les IC par excès en particulier pour les lois discrètes pour lesquels l’IC de
niveau exact n’est en général pas accessible en raison de la non continuité de la fonction
de répartition.
Définition 8.2. Dans le cadre de la définition précédente, soit gbn = gbn (X1 , . . . , Xn ) un
estimateur de g(θ). On appelle fonction pivot toute fonction u définie sur g(Θ)2 telle que la
loi de u(gbn , g(θ)) est indépendante de θ.
Remarque 8.2. Les limites de cette méthode sont de déterminer une fonction pivot (s’il en
existe une) et de déterminer la loi de u(gbn , g(θ)).
Proposition 8.1. S’il existe une fonction pivot, alors, pour tout α, il existe un IC de niveau
exact 1 − α basé sur l’estimateur gbn .
Preuve : Dans ce cas, pour α fixé arbitrairement dans ]0, 1[, il existe I tel que, indépendam-
ment de θ,
Pθ [u(gbn , g(θ)) ∈ I] = 1 − α
et un intervalle de confiance de niveau exact 1 − α pour g(θ) est donné par :
Exemple 8.1. Soit le modèle statistique (R+ , (E(θ))θ>0 ) sur lequel on souhaite estimer la
moyenne, inverse du paramètre, 1/θ au moyen d’un échantillon X = (X1 , . . . , Xn ). Rappelons
que la moyenne empirique X n = n1 ni=1 Xi est dans ce cadre un estimateur de 1/θ. Nous
P
est une fonction pivot. Pour cela, rappelons que par l’Exercice A.2, nX n ∼ Γ(n; θ). Ainsi, on
a:
t t
h i
Fu(X n ,1/θ) (t) = FθnX n (t) = Pθ θnX n ≤ t = Pθ nX n ≤ = FnX n
θ θ
et donc, en dérivant,
t n−1 n −θ θt
1 t 1 θ e
θ
fu(X n ,θ) (t) = fnX n = 1t>0
θ θ θ (n − 1)!
tn−1 e−t
= 1t>0 .
(n − 1)!
On obtient donc que u(X n , θ) ∼ Γ(n, 1) indépendamment de θ. Par suite, pour tout choix
de 0 < i− < i+ < +∞ tel que pour Y ∼ Γ(n, 1)
h i
P Y ∈ [i− , i+ ] = 1 − α
92
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
on peut trouver un intervalle de confiance de niveau 1 − α pour 1/θ. En effet,
u(X n , θ) ∈ [i− , i+ ] ⇐⇒ i− ≤ θnX n ≤ i+
nX n nX n
⇐⇒ +
≤ θ−1 ≤ −
i " i #
nX n nX n
⇐⇒ θ−1 ∈ , − .
i+ i
h i
nX n nX n
L’intervalle de confiance recherché est donc de la forme i+
, i− .
Remarque 8.3.
1. On voit dans l’exemple précédent que l’intervalle de confiance n’est pas unique et d’am-
plitude aléatoire. Un courant est de prendre i− le quantile d’ordre α2 de la loi de
u(gbn , g(θ)) (ici de la loi Γ(n; 1)) et i+ son quantile d’ordre 1 − α2 . L’IC est toujours
d’amplitude aléatoire. Ce choix permet lorsque la loi de u(gbn , g(θ)) est symétrique et
unimodale – par exemple gaussienne centrée – d’obtenir un IC d’amplitude minimale
(ce n’est pas le cas ici). Les quantiles nécessaires seront accessible via les fonctions adé-
quates de tout logiciel de traitement statistique comme R, ou de manière plus ancestrale
via des tables.
2. Dans certains contextes particuliers, on peut préférer des IC unilatéraux de la forme
] − ∞, a] ou [a, +∞[.
Exercice 8.1. Soit le modèle statistique R, (N (θ, σ 2 ))θ∈R , σ 2 > 0 fixé, sur lequel on sou-
Cette approche est en particulier valable lorsque, avec un échantillon de grande taille, on
dispose d’un estimateur θbn de g(θ) asymptotiquement normal (voir Section 6.3.6). Nous avons
vu dans la Section 6.3.6 des conditions garantissant une telle normalité asymptotique pour
l’EM et l’EMV (voir Proposition 6.8 et Théorème 6.4).
Dans ce cadre, supposons que l’on ait pour tout θ :
θbn − g(θ) L
−→ N (0, 1),
sn (θ)
93
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
avec sn positive p.p.. En recherchant In,α = In,α (X1 , . . . , Xn ) de la forme In,α = [i− , i+ ], il
vient :
Pθ [g(θ) ∈ In,α ] = 1 − α
h i
⇐⇒Pθ i− ≤ g(θ) ≤ i+ = 1 − α
h i
⇐⇒Pθ g(θ) ≤ i− ou g(θ) ≥ i+ = α
" #
θbn − g(θ) θbn − i− θbn − g(θ) θbn − i+
⇐⇒Pθ ≥ ou ≤ = α.
sn (θ) sn (θ) sn (θ) sn (θ)
θbn − i− θbn − i+
≃ q1− α2 et ≃ q α2 .
sn (θ) sn (θ)
94
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
Remarque 8.4. Même si nous ne développons pas ces notions, notons que cette correspon-
dance permet de construire des intervalles de confiance optimaux, selon des critères intrin-
sèques, par dualité avec les tests UPP et UPPSB.
Remarque 8.5. Bien qu’il puisse sembler peu réaliste (comment connaître la variance si l’on
ignore la moyenne ?), ce cas peut se rencontrer dans des contextes spécifiques, typiquement,
lorsque sur une machine dont la précision induit des fluctuations gaussiennes de variance fixée
sur les mesures des objets fabriqués mais un réglage influe sur la moyenne indépendamment
de la variance.
X n − θ1
√ ∼ T (n − 1),
Sn / n
q
avec X n = n1 ni=1 Xi la moyenne empirique de l’échantillon et Sn = 1 Pn
− X n )2
P
n−1 i=1 (Xi
son écart-type corrigé.
Xn − θ
√ ∼ N (0, 1),
σ/ n
et l’approximation de la loi de ce quotient par N (0, 1) pour n grand est bonne dès que n ≥ 30.
En général, σ est inconnu et il est naturel de vouloir l’estimer par Sn . Pour assurer que cette
95
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
estimation est convenable, il est nécessaire de considérer des échantillons de taille bien plus
importante (disons n ≥ 100) pour fixer les idées. Par ailleurs, la loi de Sn peut, en général,
différer sensiblement de celle de son analogue dans le cas gaussien (donnée dans le Théorème
5.2). On admettra cependant, que si n ≥ 100, un IC pour la moyenne θ dans ce cadre plus
général, peut être obtenu en utilisant que :
Xn − θ
√ ∼ T (n − 1),
Sn / n approx.
q
avec X n = n1 ni=1 Xi la moyenne empirique de l’échantillon et Sn = 1 Pn
− X n )2
P
n−1 i=1 (Xi
son écart-type corrigé.
1 1
X n1 − Y n2 ∼ N θ1 − θ2 , σ 2 + .
n1 n2
La difficulté est, en fait, l’estimation de σ 2 mais l’on sait (voir Théorème 5.2) que les variances
corrigées SX2 et S 2 des deux échantillons satisfont :
Y
n1 − 1 2 n2 − 1 2
SX ∼ χ2 (n1 − 1) et SY ∼ χ2 (n2 − 1)
σ2 σ2
2 n1 − 1 2 n2 − 1 2
Spond = SX + SY ∼ χ2 (n1 + n2 − 2).
σ2 σ2
on obtient que
X n1 − Y n2 − (θ1 − θ2 )
q ∼ T (n1 + n2 − 2).
2 1 1
Spond n1 + n2
Remarque 8.6.
On peut montrer que cette approche reste applicable lorsque les variances des deux échan-
tillons ne sont pas égales mais sont proches.
96
CHAPITRE 8. ESTIMATION PAR INTERVALLES OU RÉGIONS DE
CONFIANCE
Cas d’échantillons de variances significativement différentes
Si les variances sont significativement différentes, l’approche précédente est mise en défaut.
Toutefois, on obtient que
!
σ2 σ2
X n1 − Y n2 ∼ N θ1 − θ2 , X + Y .
n1 n2
Si les tailles des échantillons est importante (disons supérieures à 100), on peut conduire
un calcul approché raisonnable en substituant aux variances les variances corrigées SX 2 et S 2
Y
des deux échantillons.
Remarque 8.7.
Cette approche est applicable asymptotiquement dans le cadre de deux échantillons de
même loi, non nécessairement gaussienne.
Remarque 8.8. Contrairement à la construction d’IC pour la moyenne, même pour des
échantillons de très grande taille, cette approche n’est pas applicable hors du cadre gaussien.
ce qui permet d’obtenir des IC exact. Il est naturel de vouloir estimer la proportion θ par
la fréquence empirique fbn = n1 ni=1 Xi . Lorsque l’échantillon est de taille suffisante (disons
P
nfbn , n(1 − fbn ) > 5 pour fixer les idées), on peut utiliser l’approximation gaussienne fournie
par le TCL et raisonner comme pour l’IC pour la moyenne.
97
Annexe A
Lois usuelles
Remarque A.1.
1. Cette loi modélise l’équiprobabilité.
2. On note X ∼ U({1, 2, . . . , n}) pour dire que la v.a. X suit la loi U({1, 2, . . . , n}).
99
ANNEXE A. LOIS USUELLES
Définition A.2. On dit qu’une v.a. X telle que X(Ω) = {0; 1}, P[X = 1] = p ∈ [0; 1],
P[X = 0] = 1 − p suit une loi de Bernoulli de paramètre p.
On note alors X ∼ Ber(p).
Exemple A.2. Considérons un tirage à pile ou face d’une pièce bien équilibrée. La variable
aléatoire définie par : (
1 si la pièce tombe sur face
X=
0 si la pièce tombe sur pile
Définition A.3. On dit qu’une v.a. X suit une loi binomiale de paramètres n ∈ N et p ∈ [0; 1]
si X s’écrit sous la forme :
n
X
X= Xk ,
k=1
Exemple A.3. Considérons 10 tirages successifs à pile ou face d’une pièce tombant sur face
avec probabilité p. Pour k = 1, . . . , n, la variable aléatoire définie par :
(
1 si la k e pièce tombe sur face
Xk =
0 si la k e pièce tombe sur pile
100
ANNEXE A. LOIS USUELLES
2. On a :
E[X] = np, V[X] = np(1 − p),
LX (t) = (1 − p + pet )n et ϕX (t) = (1 − p + peit )n .
On a 66, 65% de chances d’observer entre 3 et 5 faces lors d’une série de 10 lancés. L’espérance
de la variable X est E[X] = 10 × 0, 4 = 4 : si on répète une grand nombre de fois l’expérience,
on s’attend à observer en moyenne 4 faces par série de 10 lancés.
Définition A.4. Si on note Xi le nombre de fois que la ie alternative a été réalisés parmi
les n essais de l’expérience aléatoire décrite ci-dessus, on dit que X = (X1 , . . . , XK ) suit la
loi multinomiale de paramètres n et p1 , . . . , pK et on note X ∼ Mult(n; p1 , . . . , pK ).
Notons que la ie marginale Xi suit la loi Bin(n, pi ) et que celles-ci ne sont clairement pas
indépendantes. Par exemple, les liens qu’elles entretiennent ont des conséquences sur sont
support : chacune des marginales peut prendre une valeur ki entre 0 et n avec la contraintes
k1 + · · · + kK = n.
n!
P[X = k] = pk1 . . . pkKK .
k1 ! . . . kK ! 1
2. On a :
E[X] = np, V[X] = n diag(p1 , . . . , pK ) − n(pi pj )1≤i,j≤K ,
n n
K
X K
X
LX (t) = pj etj et ϕX (t) = pj eitj .
j=1 j=1
101
ANNEXE A. LOIS USUELLES
Définition A.5. On dit qu’une v.a. X suit une loi de Poisson de paramètre λ > 0, si son
support est X(Ω) = N et, pour tout k ∈ N :
λk
P[X = k] = e−λ .
k!
On note alors X ∼ P(λ).
E[X] = V[X] = λ,
Exemple A.4. Si, en moyenne, 10 voitures se présentent à un péage donné en une heure, on
modélise le nombre de voiture se présentant au péage en une heure par une v.a. de loi P(10).
Cette modélisation sera justifiée dans la suite.
Remarque A.3. On peut donc approcher la loi Bin(n, p) par la loi P(n×p). Dans la pratique,
on ne fait une telle approximation que si p est proche de 0, n ≥ 30, p ≤ 0, 1, np ≤ 10, sans
quoi l’approximation est mauvaise.
102
ANNEXE A. LOIS USUELLES
Exemple A.4 (suite). Justifions l’utilisation de la loi de Poisson P(10) dans l’Exemple A.4.
Supposons que l’on observe s’il y a eu une arrivée de voiture seulement à n instants fixés dans
l’heure (n est voué à être grand). Alors, la variable Xn comptant le nombre d’instants où
l’on a observé une arrivée de voiture suit une loi binomiale Bin(n, p). Puisqu’en moyenne on
observe 10 arrivées de voitures en une heure, on a np = 10, soit p = 10n . Plus n est grand, plus
la discrétisation du temps est fine et s’approche de la réalité. L’idée est donc de faire tendre
n vers l’infini. Le Théorème A.1 affirme que la loi limite est la loi P(10).
Exemple A.5. Une personne rentre ivre chez elle et prélève au hasard une clef dans son
trousseau, en contenant 5, pour tenter d’ouvrir la porte. Si elle échoue, elle remet la clef dans
son trousseau et recommence. Le nombre de tentatives X jusqu’à l’ouverture de la porte suit
alors une loi géométrique de paramètre 51 = 0, 2. En moyenne, la porte sera ouverte après 5
tentative et la probabilité qu’elle soit ouverte après k tentatives est :
P[X = k] = 0, 2 × 0, 8k−1 .
103
ANNEXE A. LOIS USUELLES
Définition A.7. On dit que X suit la loi binomiale négative ou de Pólya de paramètres r > 0
et p ∈]0; 1[ si son support est N et si pour tout k ∈ N :
Γ(r + k)
P[X = k] = (1 − p)k pr .
k!Γ(r)
r(1 − p) r(1 − p)
E[X] = , V[X] = ,
p p2
r r
p p
LX (t) = et ϕX (t) = .
1 − (1 − p)et 1 − (1 − p)eit
Le résultat suivant (basé sur un calcul explicite) justifie la terminologie « binomiale néga-
tive » en montrant que si X ∼ BN (n, p), P[X ≤ k] n’est autre que la probabilité pour qu’il
y ait eu au moins n succès après n + k épreuves de Bernoulli indépendantes de paramètre p.
Définition A.8. On tire dans cette urne simultanément n ≤ A boules. On dit que X suit
la loi hypergéométrique de paramètres n, p et A si X donne le nombre de boules gagnantes
ainsi tirées. On note alors X ∼ H(n, p, A).
2. On a :
A−n
E[X] = np, V[X] = np(1 − p) ,
A−1
(1−p)A
LX (t) = n
A 2 F1 (−n, −p; (1 − p)A − n + 1; et )
n
104
ANNEXE A. LOIS USUELLES
et
(1−p)A
ϕX (t) = n
A 2 F1 (−n, −p; (1 − p)A − n + 1; eit ),
n
où 2 F1 désigne la fonction hypergéométrique de Gauss
∞
X (a)n (b)n z n
2 F1 (a, b; c; z) =
n=0
(c)n n!
2. On a :
a+b (b − a)2
E[X] = , V[X] = ,
2 12
etb − eta eitb − eita
LX (t) = et ϕX (t) = .
t(b − a) it(b − a)
Remarque A.6. Elle est utilisée pour modéliser des phénomènes sans mémoire ou sans
vieillissement tels que le temps d’attente avant le prochain tremblement de terre ou la pro-
chaine désintégration dans un réacteur nucléaire ou encore la durée de vie de certains appareils
comme des ampoules. Ceci est justifié par le deuxième point de la Proposition A.12.
105
ANNEXE A. LOIS USUELLES
3. On a :
1 1
E[X] = V[X] = ,
λ λ2
−1 −1
t it
LX (t) = 1 − et ϕX (t) = 1 − .
λ λ
Preuve du point 2. : On a :
P [X > s + t, X > t] P [X > s + t]
P [X > s + t|X > t] = =
P [X > t] P [X > t]
1 − P [X ≤ s + t] 1 − FX (s + t) e−λ(s+t)
= = =
1 − P [X ≤ t] 1 − FX (t) e−λt
= e−λs = 1 − FX (s) = P[X > s].
□
Exemple A.6. On a observé que la durée de vie d’une ampoule d’un modèle donné est d’en
moyenne 1000 heures. Considérons une ampoule de ce modèle et intéressons nous à sa durée
de vie X (exprimée en heures). La v.a. X est continue et sans mémoire. On considère donc que
X suit une loi exponentielle. Puisque l’on s’attend à avoir une durée de vie moyenne de 1000
1
heures, le paramètre de cette loi exponentielle est λ = 1000 de sorte que E[X] = λ1 = 1000.
Ainsi, la probabilité pour que l’ampoule fonctionne au plus 100h est :
1 1
P[X ≤ 100] = 1 − e− 1000 ×100 = 1 − e− 10 ≃ 0, 01.
De même, la probabilité pour que l’ampoule fonctionne plus de 4500 heures est :
1
P[X > 4500] = 1 − P[X ≤ 4500] = e− 1000 ×4500 = 1 − e−4,5 ≃ 0, 01.
106
ANNEXE A. LOIS USUELLES
Remarque A.7. La fonction de répartition de cette loi n’a pas de forme explicite agréable
et nécessite l’utilisation de tables ou d’un logiciel (voir pgamma sous R).
1 (x−m)2
fX (x) = √ e− 2σ 2 , x ∈ R.
2πσ 2
On note alors X ∼ N m; σ 2 .
107
ANNEXE A. LOIS USUELLES
Remarque A.8.
1. La fonction de répartition d’une loi normale n’a pas de forme analytique close (autre
que son expression intégrale. On a donc recours à des tables (de la loi normale centrée
réduite) et à un changement de variable ou à l’utilisation de logiciels pour le calcul de
ses valeurs (voir pnorm sous R).
2. Soit X ∼ N (0; 1).
(a) La fonction densité fX de X est paire i.e. fX (−x) = fX (x) pour tout réel x. En
particulier, on a :
FX (−x) = 1 − FX (x).
N (0; 1).
Alors,
E[X] = m, V[X] = σ 2 .
! !
σ 2 t2 σ 2 t2
LX (t) = exp mt + et ϕX (t) = exp imt − .
2 2
P[m − σ ≤ X ≤ m + σ] ≃ 0, 6827,
Remarque A.9.
1. Dans le contexte multidimensionnel, on définit de manière analogue la loi log-normale
X ∼ Log −N (m; Σ) comme celle de X = ln(Y ) pour Y ∼ Nd (m; Σ).
108
ANNEXE A. LOIS USUELLES
2. Cette loi fournit de bon modèles pour les v.a. strictement positives asymétriques à
queues lourdes.
Alors,
1 (ln(x)−m)2
fX (x) = √ e− 2σ2 , x ∈ R.
x2πσ 2
σ2 2 2
E[X] = em+ 2 et V[X] = e2m+σ (eσ − 1).
Remarque A.10. Elle est par exemple utilisée pour modéliser des la distribution de revenus
supérieurs à un seuil donné, la performance de réseaux, mais aussi en gestion de qualité ou
en réassurance.
2. On a :
aθ a2 θ
E[X] = (θ > 1) V[X] = (θ > 2),
θ−1 (θ − 1)2 (θ − 2)
et
ϕX (t) = θ(−iat)θ Γ(−θ, −iat).
109
ANNEXE A. LOIS USUELLES
2. On a :
ϕX (t) = exp (imt − a|t|) .
Remarque A.12. Son espérance et a fortiori sa variance ainsi que sa fonction génératrice des
moments ne sont pas définis. Le paramètre m est un paramètre de position ; plus précisément,
il s’agit de la médiane de cette loi.
2. On a :
Γ(1 + α−1 ) Γ(1 + 2α−1 ) − Γ(1 + α−1 )2
E[X] = 1 et V[X] = 2 .
λ α λα
−1
3. Si Y ∼ E (λ) alors Y α ∼ W (λ, α).
110
ANNEXE A. LOIS USUELLES
2. On a :
E[X] = µ + βγ,
Pn −1
avec γ = limn→∞ k=1 k − ln(n) la constante d’Euler,
π2β 2
V[X] = ,
6
LX (t) = Γ(1 − βt)eµt et ϕX (t) = Γ(1 − iβt)eiµt .
2. On a :
E[X] = µ + sΓ(1 − α−1 ) (si α > 1)
et
V[X] = s2 (Γ(1 − 2α−1 ) − Γ(1 − α−1 )2 ) (si α > 2).
111
ANNEXE A. LOIS USUELLES
Preuve : On a :
h 2
i
LZ 2 (t) = E etZ1
1
1 1
Z
=√ exp − (1 − 2t)z 2 d z
2π R 2
!
1 1
Z
s2 √ √
=√ √ exp − ds (s := 1 − 2tz, d s = 1 − 2t d z)
1 − 2t 2π R 2
1
=√ .
1 − 2t
Comme les Zk sont indépendantes, les Zk2 le sont, et on a par le Théorème 3.4 :
ν
1
ν
LX (t) = √ = (1 − 2t)− 2 .
1 − 2t
On conclue en reconnaissant ici la fonction génératrice des moments de la loi Γ(ν/2, 2)
(voir Proposition A.13). □
Définition A.20. On appelle loi du Khi-2 à ν degrés de liberté la loi Γ(ν/2, 2). On la note
χ2 (ν).
Le résultat suivant liste des conséquences immédiates des Définitions A.11 et A.20 et des
Propositions A.13 et A.24.
2. On a :
E[X] = ν V[X] = 2ν,
− ν2 ν
LX (t) = (1 − 2t) (t < 1/2) et ϕX (t) = (1 − 2it)− 2 .
112
ANNEXE A. LOIS USUELLES
Z
T =q .
Y
ν
2. On a :
ν
E[T ] = 0 (ν ≥ 2) et V[X] = (ν ≥ 3).
ν−2
Remarque A.15.
1. La fonction de répartition de cette loi ou ses fonctions génératrices des moments ou
caractéristique ne s’exprime pas de façon agréable. On a donc recours à l’utilisation de
tables ou de logiciels. Dans la pratique, sous R, nous utiliserons les fonctions pt, dt,...
2. Lorsque ν = 1, on retrouve la loi de Cauchy Cau(0, 1) qui n’admet pas de moment
d’ordre 1.
Remarque A.16.
1. Les fonctions de densité, de répartition, génératrices des moments ou caractéristique
de cette loi ne s’exprime pas de façon très agréable. Dans la pratique, sous R, nous
utiliserons les fonctions pf, df,...
2. Cette loi admet un moment d’ordre 1 ssi ν2 ≥ 3. Son espérance est alors ν2 (ν2 − 2)−1 .
Sa variance est définie ssi ν2 ≥ 5.
113
Annexe B
115
ANNEXE B. QUELQUES MOTS SUR R
x[n] : ne élément de x
x[-n] : supprime le ne élément de x
x[1:n] : n premiers éléments de x
x[-(1:n)] : supprime les n premiers éléments de x
116
ANNEXE B. QUELQUES MOTS SUR R
B.6 Graphiques
windows() : ouvre une fenêtre graphique sous Windows
x11() : ouvre une fenêtre graphique sous GNU/linux ou MacOSX
pdf(file), png(file), jpeg(file), bmp(file), tiff(file) : se prépare à écrire les ins-
tructions graphiques qui suivront dans le fichier file, au format désigné (pdf ou png recom-
mandés) ; width= et height= fixent les dimensions
dev.off() : ferme la fenêtre graphique ou le fichier graphique spécifié (par défaut : celui en
cours)
plot(x) : graphique de x (différents effets selon l’objet)
plot(x,y) : nuage de points
hist(x) : histogramme des fréquences de x
barplot(x) : diagramme en barres
pie(x) : diagramme circulaire
117
ANNEXE B. QUELQUES MOTS SUR R
add=TRUE ajoute sur le graphique précédent axes=FALSE ne trace pas les axes
type="p" : type de représentation des coordonnées ; "p" : points, "l" : lignes, "b" : (both)
points et lignes, ...
xlim=, ylim= : limites des zones du graphique,
xlab=, ylab= : titre des axes
main= titre du graphique
sub= : sous-titre
par(...) : définit les paramètres suivants pour les graphiques à venir
col= :couleur(s) des symboles et lignes
lty : type de ligne
118
ANNEXE B. QUELQUES MOTS SUR R
B.7 Programmation
function( arglist ) expr : définition de fonction ; arglist est une liste d’arguments, expr
est une expression exécutée ;
return(value) : mis dans expr lors d’une définition de fonction, indique que la fonction doit
renvoyer ce résultat (sinon la fonction renvoie la dernière valeur calculée dans expr)
if(cond) expr : ce que l’on imagine ; opérateurs de comparaison : == != < > <= >=
if(cond) cons.expr else alt.expr, for(var in seq) expr, while(cond) expr, repeat
expr, if(...) break : ce que l’on imagine
119
Bibliographie
121