0% ont trouvé ce document utile (0 vote)
63 vues51 pages

Poly Fisher

Ce document présente des notes de cours sur la statistique mathématique et l'apprentissage statistique, abordant les modèles statistiques paramétriques et les estimateurs. Il discute de l'évolution des paradigmes statistiques, en mettant l'accent sur les contributions de Fisher et Vapnik, ainsi que sur des concepts tels que la loi forte des grands nombres et le théorème central limite. Des exemples pratiques, notamment dans le contrôle de qualité et la régression, illustrent les méthodes d'estimation et les tests d'hypothèses.

Transféré par

Tristan Godart
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues51 pages

Poly Fisher

Ce document présente des notes de cours sur la statistique mathématique et l'apprentissage statistique, abordant les modèles statistiques paramétriques et les estimateurs. Il discute de l'évolution des paradigmes statistiques, en mettant l'accent sur les contributions de Fisher et Vapnik, ainsi que sur des concepts tels que la loi forte des grands nombres et le théorème central limite. Des exemples pratiques, notamment dans le contrôle de qualité et la régression, illustrent les méthodes d'estimation et les tests d'hypothèses.

Transféré par

Tristan Godart
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Notes de cours

S TATISTIQUE MATH ÉMATIQUE


ET
APPRENTISSAGE STATISTIQUE

M1 Jacques Hadamard, ENS Paris-Saclay

TD-TP : Thibaut Germain


Cours :Alain Trouvé

10 janvier 2024
v0.2.11

1. Il s’agit d’une version en développement qui peut contenir typos et coquilles. Merci pour vos
retours à [email protected]
Table des matières

1 Du coté de chez Fisher : Modèles statistiques paramétriques, estimateurs 2


1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Un exemple et quelques problèmes . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Cas de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Cas de la classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Word2Vec : King - Man + Woman = Queen . . . . . . . . . . . . . . . . . . 6
2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Cas des modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1
Chapitre 1

Du coté de chez Fisher : Modèles


statistiques paramétriques, estimateurs

1 Introduction
Il est toujours difficile de définir la nature (et les contours) d’un champ disciplinaire a priori
et celui qui fait l’objet de ce cours de ≪ Statistique mathématique et apprentissage ≫ n’y fait
pas exception. C’est déjà le cas pour la théorie des probabilités et cela l’est encore plus pour
la théorie statistique, en particulier par les liens inconfortables qu’il faut essayer d’expliciter
entre théorie mathématique et expérience.
On peut aussi s’étonner de la présence des deux termes ≪ Statistique mathématique ≫ d’une
part et ≪ Apprentissage ≫ d’autre part possiblement redondant. Le plus simple est ici de re-
prendre les premières lignes de la préface de Vladimir Vapnik dans son livre T HE NATURE OF
S TATISTICAL L EARNING T HEORY[3].
≪ Between 1960 and 1980 a revolution in statistics occured : Fisher’s paradigm inroduced

in the 1920-1930s was replaced by a new one. This paradigm reflects a new answer to the
fundamental question :
What must one know a priori about an unknow functional dependency in order to estimate it on the
basis of observations ?
In Fisher’s paradigm, the answer was quite restrictive – one must know almost every-
thing. Namely, one must know the desired dependency up to the values of a finite number of
parameters. Estimating the values of these parameters was considered to be the problem of
dependency estimation.
The new paradigm overcome the restrictions of the old one. It was shown that in order to
estimate dependancy from the data, it is suffcient to know some general properties of the set
of functions to which the unkown dependency belongs ≫
Dans l’espace restreint de ce cours, nous allons esssayer d’aborder à la fois l’approche clas-
sique de Fisher que l’on peut rattacher au terme ≪ Statistique mathématique ≫ du cours et celle
mis en avant par Vapnik que l’on peut rattacher à celui d’apprentissage (ou encore d’appren-
tissage statistique). De fait il n’y a pas de dichotomie véritable mais plutôt une évolution des
questions au sein du cadre plus vaste de la théorie mathématique de la statististique avec l’in-
troduction d’outils nouveaux en particulier la minimisation du risque empirique, la théorie
de la complexité et les inégalités de concentrations dans le contexte plus général de l’accrois-
sement des capacités de stockage et de calcul des ordinateurs. Les approches par reseaux de

2
neurones qui ont explosé ces dernieres années sont issues de ces approches de la minimisa-
tion du risque empirique de Vapnik (chez Facebook AI Research depuis 2014) sans pouvoir s’y
réduire et ouvrent des questions nouvelles encore mal comprises aujourd’hui ! Il est interessant
de noter que les modèles génératifs les plus récents autour des grands modèles de langages
(ChatGPT 3 et co) sont aussi construits autour de principes qui viennent directement de Fi-
sher comme la maximisation de la vraisemblance (ou, comme renommé dans la littérature de
l’apprentissage profond, de la minimisation de l’entropie croisée (cross-entropy loss))

1.1 Un exemple et quelques problèmes


Pour introduire la première partie de ce cours, l’approche à la Fisher, le mieux est de partir
sur un exemple ultre-simple de contrôle de qualité. On considère une machine fabriquant des
objets. On souhaite connaı̂tre la probabilité qu’un objet soit défecteux. On prélève à intervalles
réguliers n objets et on contrôle si les objets sont défecteux ou non pour éventuellement ac-
cepter ou rejeter un lot plus grand. De façon très similaire on pourrait penser aussi que l’on
fait un sondage sur une grande population en tirant des personnes au hasard 1 . On construit
la séquence
1 si l’objet i est défecteux
xi = (1.1)
0 sinon
Pour pouvoir prendre une décision, sachant que les causes des variations de qualité d’un objet
à l’autre peuvent venir de sources multiples et partiellement connues, on peut plutôt faire
appel à une modélisation aléatoire et considérer x1 , · · · , xn comme une réalisation particulière
X1 (ω), · · · , Xn (ω) d’une suite de v.a.i.i.d. de même loi B(θ) :

Pθ (Xi = 1) = θ proba qu’un objet soit défectueux (1.2)

Le travail du statisticien est de déterminer la loi Pθ où θ ∈ [0, 1].


1. Comment estimer θ au vu de X1:n (ω) = (X1 , · · · , Xn )(ω) ?
1 Pn
On rappelle la loi forte des grands nombres sur la moyenne empirique Xn = n i=1 Xi :
T H ÉOR ÈME 1.1 (Loi forte des grands nombres). Soit Xn )n∈N une suite de v.a.r.i.i.d telle que
E(|X1 |) < ∞. Alors Xn → E(X1 ) p.s.
Pour notre problème, θ = Eθ (X1 ) d’où si θ^n = Xn , θ^n est une fonction de X1:n et θ^n → θ Pθ
p.s. lorsque n tend vers l’infini. On dit que θ^n est fortement consistant. Il faut noter que
θ^n est une variable aléatoire qui dépend de l’expérience i.e. de ω. Généralement θ^n 6= θ
mais la forte consistance dit que l’erreur tend p.s. vers 0 pour toute valeur du paramètre.
2. Comment apprécier la performance de l’estimateur ? Ici on remarque que Eθ (θ^n ) = θ. On
dit que θ^n est sans biais. De plus

θ(1 − θ)
Rθ^n (θ) = Eθ ((θ^n − θ)2 ) =
n
Rθ^n (θ) est le risque quadratique de θ^n lorsque le vrai paramètre est θ. On veut que R soit
aussi petit que possible.
1. ce qui pose d’autres questions de faisabilité, de sincérité des réponses, etc que nous n’abordons pas ici bien
qu’essentielles. Le modèle de contrôle de qualité est du coup moins problématique bien qu’il n’en soit pas exempts
de questions.

3
Du point de vu asymptotique, l’écart type de l’erreur d’estimation est de l’ordre de √1 .
n

Considérons le rescaling n(θ^n − θ). Le TCL nous donne
T H ÉOR ÈME 1.2 (Théorème central limite). Soit (Xn )n∈N une suite de v.a.r.i.i.d telle que X1 ∈
L2 . On note m = E(X1 ) et σ2 = V(X1 ). Alors
√ L
n(Xn − m) → N (0, σ2 )

Dans notre cas le TCL nous donne


√ L
n(θ^n − θ) → N (0, θ(1 − θ))

On dit que θ^n est asymptotiquement normal et que θ(1 − θ) caractérise la dispersion de
notre estimateur (après rescaling) autour de θ lorsque le paramètre vaut θ. Une partie du
cours sera consacré à la recherche des meilleurs estimateurs à n fixé ou du point de vue
asymptotique. C’est la théorie de l’efficacité.
3. Comment donner des marges d’erreur autour de θ^n ?
q p
On sait que Xn (1 − Xn ) → θ(1 − θ) Pθ p.s et que

n(X − θ) L
p n → N (0, 1)
θ(1 − θ)

L
ce qui donne via le lemme de Slutsky que √ ^n(Xn −θ)
^
→ N (0, 1)
θn (1−θn )
L EMME 1.1 (Slutsky). Soient (Xn )n≥0 et (Yn )n≥0 deux suites de v.a. à valeurs resp. dans Rp
L P L
et Rq . On suppose que Xn → X et Yn → c ∈ Rq . Alors (Xn , Yn ) → (X, c) et pour tout
L
f ∈ C(Rp × Rq , Rr ) on a f(Xn , Yn ) → f(X, c).

Démonstration. On passe par le théorème de Levy.



On note Φ(Xn ,Yn ) (ξ1 , ξ2 ) = E(eihξ1 ,Xn i+ihξ2 ,Yn i ). De l’inégalité |eiy − eiy | ≤ |y − y ′ |, on tire
|eiξ1 ,Xn i+ihξ2 ,Yn i − eiξ1 ,Xn i+ihξ2 ,ci | ≤ |ξ2 ||Yn − c| et

|Φ(Xn ,Yn ) − Φ(Xn ,c) |(ξ1 , ξ2 ) ≤ 2P(|Yn − c| ≥ δ) + |ξ2 ||δ| → 0


simp.
pour n → ∞ et δ > 0. Comme δ est arbitraire, on déduit Φ(Xn ,Yn ) − Φ(Xn ,c) → 0.
L simp. simp.
Comme Xn → X, on déduit Φ(Xn ,c) − Φ(X,c) → 0 d’où Φ(Xn ,Yn ) → Φ(X,c) ce qui donne
le premier résultat par le théorème de Levy.
On termine en remarquant que si h ∈ Cb (Rr , R), alors h ◦ f ∈ Cb (Rp × Rq , R).

Soit α ∈ [0, 1] un niveau d’erreur et γα définie par P(|U| > γα ) = α où U ∼ N (0, 1). On a
 
√ ^n − θ
θ
Pθ  n q > γα  → α
θ^n (1 − θ^n )

Par suite, comme on a


q
√ θ^n − θ θ^n (1 − θ^n )
nq ≤ γα ssi θ ∈ [θ^n ± γα √ ]
θ^n (1 − θ^n ) n

4

θ^n (1−θ^n )
on déduit Pθ (θ ∈ [θ^n ± γα √
n
]) → 1 − α On dira que
q
θ^n (1 − θ^n )
[θ^n ± γα √ ]
n

est un intervalle de confiance de niveau de confiance 1 − α.


Par exemple, dans le cas d’un sondage avec n = 100 et θ^100 = 0.52%, α = 0.05 et γα =
1.96, on obtient un intervalle de confiance à ±8%. Si on veut une fourchette qui soit juste
dans 95% des cas, elle est donc de taille ±8% (pour n = 1000, est de à ±3%).
4. Le fabricant s’engage à ce que la probabilité de fabriquer un objet défectueux soit inférieur
à 0.05. On pose θ0 = 0.05. Le fabriquant s’engage donc à ce que ≪ θ ≤ θ0 ≫. Le client du
fabriquant lui s’autorise à rejeter un lot s’il suspecte que ≪ θ > θ0 ≫. Sur un échantillon
de taille n d’objets contrôles dans un lot on veut décider θ ≤ θ ou θ > θ0 . Il s’agit de
la théorie des tests d’hypothèses. On cherchera comme pour le problème de l’estimation à
définir les meilleurs tests possibles.

1.2 Cas de la régression


Le modèle précédent (loi B(θ)) est très simple même si fondamental. On trouve évidemment
des situations beaucoup plus complexes dans lesquelles entre plus de modélisation sur les
phénomènes sous-jacents. Celui de la régression 2 par exemple où on cherche une relation
yi ≃ f(xi , α) entre une variable x ∈ X (variable explicative éventuellement de grande taille) et
y ∈ Rd (variable dépendante) pour laquelle on modélise l’erreur ei = yi − f(xi , α) comme la
réalisation d’une suite de v.a.i.i.d (ǫi ) de loi νβ

Yi = f(xi , α) + ǫi (1.3)

si bien que (y1 , · · · , yn ) peut être considéré comme une réalisation du vecteur aléatoire (Y1 , · · · , Yn )
dont les composantes sont indépendantes (mais ici non identiquement distribuées).

Le problème peut être alors de déterminer une estimation θ^n de θ = (α, β) à partir de la
donnée (xi , yi )1≤i≤n pour par exemple :
• retirer le bruit ei (débruiter) des données en calculant y
^ i = f(xi , α
^ n)
• prédire ou simuler le comportement de la réponse y, sur une nouvelle entrée xnew par

Y = f(xnew , α
^ n ) + ǫnew avec ǫnew ∼ νβ^ n

Dans les cas les plus simples, on paramétrise f sur une base de fonction fk : X → Rd si bien
que
Xp
f(x, α) = αk fk (x)
k=1

2. On peut se demander à juste titre d’où vient ce terme de régression qui sonne étrangement. On en trouve l’ori-
gine dans un article de Francis Galton de 1886 ≪ Regression towards Mediocrity in Hereditary Stature ≫. Cousin de
Darwin, Galton est aussi le fondateur d’une approche scientifique de l’eugénisme et de la chaire National Eugenics
à UCL qui sera tenu par Karl Pearson puis Ronald Fisher (définitivement fermé en 2000). Voir à ce sujet la vidéo de
Bernard Ycard ≪ Dr. Jekill and Mr. Hyde ≫ https://www.hist-math.fr/recits/galton.html

5
(typiquement d = 64 ou d = 512) ie on cherche une application ϕ : w ∈ W → 7 ϕ(w) ∈ Rd telle
que la proximité entre ϕ(w) et ϕ(w ′ ) dépendent de la proximité syntaxique et sémantique.
Pour construire une telle application, on peut s’appuyer sur des données (yi , xi )1≤i≤n où
yi ∈ W est un mot et xi ∈ W p est le contexte immédiat de yi (par ex. les deux mots précédents
et suivants dans la phrase) dans un grand corpus et modéliser les (yi )1s≤i≤n comme des va-
riables aléatoires (Yi )1≤i≤n à valeurs dans W de loi
n
Y ehϕ(yi ),ϕ(xi )i
Pϕ (Y1n = yn1 ) = P hϕ(w),ϕ(xi )i
(1.5)
i=1 w∈W e
. P
où ϕ(x) = p1 pk=1 ϕ(wk ). Ici, on peut prendre comme paramètre θ = ϕ ∈ Rd×|W| .
Il est étonnant de constater que cette approche peut être utilisée en pratique sur de gros vo-
cabulaires (1M mots) avec de très gros corpus de l’ordre d’1G mots et pour des répresentations
d de taille 600 (voir [2]). On construit ϕ^ en maximisant (1.5) en ϕ. Pour apprecier la façon dont
on capture la proximité sémantique et syntaxique, on peut essayer de comparer φ( ^ ′ king ′ ) −

^ man )+ϕ(
ϕ( ′ ′ ′
^ woman ) et ϕ( ′ ′
^ queen ) (en fait on regarde plutôt les cosinus des angles comme
mesure de proximité). Et ça marche pas mal !

2 Modèles statistiques
La définition d’un modèle statistique peut revêtir différentes formes, nous choisirons la
forme la plus simple (et la plus abstraite) suivante :
D ÉFINITION 1.1. On appelle modèle statistique la donnée d’un espace (Ω, A) où A est une tribu
sur Ω et d’une famille (Pθ )θ∈Θ de probabilités sur (Ω, A). Θ est appelé ensemble des paramètres.
Dans le premier exemple introductif on a :
Ω = {0, 1}n , A = P(Ω) et Pθ = B(θ) ⊗ · · · ⊗ B(θ) et pour tout 1 ≤ i ≤ n, on définit
Ω → {0, 1}
Xi :
ω 7→ xi
Sous Pθ , X1 , · · · , Xn est une suite i.i.d de variables de loi B(θ).
D ÉFINITION 1.2 (Identifiabilité). On dit que (Ω, A, (Pθ )θ∈Θ ) est identifiable si θ 7→ Pθ est injec-
tive.
D ÉFINITION 1.3 (n-échantillon, modèle canonique). Soit (µθ )θ∈Θ une famille de probabilités sur
(X , BX ). On appelle n-échantillon de loi µθ une suite (X1 , · · · , Xn ) de v.a.i.i.d de loi µθ . On appellera
modèle canonique d’un n-échantillon pour une famille de loi (µθ )θ∈Θ le modèle modèle statistique
Ω = X n , A = ⊗ni=1 BX , Pθ = ⊗ni=1 µθ où les Xi sont les projections canoniques.
Exercice 1. Vérifier que le modèle canonique est identifiable ssi θ 7→ µθ est injective.
A partir de distributions simples, on peut approcher des distributions plus générales par
des modèles de mélanges qui jouent un rôle très important dans l’analyse des données dis-
tribuées sur Rd .
Exercice 2 (Mélange de gaussiennes). Pour p ≥ 1, on considère

Θp = ∆˚ p−1 × {(µk , Γk )1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γk ) ∀1 ≤ k < l ≤ p }

où

7
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p | ki=1 πk = 1 et πk > 0 ∀1 ≤ k ≤ p} est l’intérieur du simplexe de
dimension p − 1 où encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que
les πk > 0.
On note Θ = ∪p≥0 Θk et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd où
p
X πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d/2 1/2
i=1
(2π) det(Γk )

1. Comment simuler un n-échantillon de loi µθ ?


2. Montrer que µθ = µθ ′ ssi il existe p ≥ 1 et σ ∈ Sp tels que θ, θ ′ ∈ Θp et σ · θ = θ ′ où

σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )

Voir version étendue dans la première feuille de TD.

Le problème d’estimation de θ pour les modèles de mélanges dans l’exercice offre un


modèle statistique pour des problèmes de clustering (regroupement, partitionnement) de don-
nées entre p classes qui peuvent être vus comme le problème de l’estimation du paramètre
θ. Lorsque le nombre de classes n’est pas déterminé (ou même lorsque que celui est connu)
c’est un problème délicat bien que fondamental comme on le verra en particulier à cause de la
structure de Θ et du lien complexe θ 7→ µθ .

Exercice 3 (Régresion). Proposer un modèle statistique (Ω, A, (Pθ )θ∈Θ ) dans le cas du modèle de
régression proposé en 1.2

3 Cas des modèles exponentiels


On fera un grand usage des modèles exponentiels au sens suivant.
D ÉFINITION 1.4 (Modèle exponentiel). Soient (Ω, A, m) un espace mesuré et Θ un ensemble. On
R
considère η : Θ → Rk , et une statistique T : Ω → Rk tels que ehη(θ),T i dm < +∞ pour tout θ ∈ Θ.
On appelle modèle exponentiel associé à (η, T, m) le modèle (Ω, A, (Pθ )θ∈Θ ) tel que

ehη(θ),T i
Pθ = R hη(θ),T i dm
m pour tout θ ∈ Θ .
Ωe

Lorsque l’on part d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ) on reconnaı̂tra un modèle expo-
nentiel en utilisant la caractérisation suivante :
P ROPOSITION 1.1. Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique tel qu’il existe une mesure m pour
laquelle on a pour tout θ ∈ Θ
Pθ = ehη(θ),T i−A(θ) hm
où η : Θ → Rk , A : Θ → R et T : Ω → Rk , h : Ω → R+ mesurables, alors (Ω, A, (Pθ )θ∈Θ ) est un
modèle exponentiel associé à (η, T, hm).

Démonstration. Il suffit remarquer qu’en posant m̃ = hm, comme Pθ est une probabilité, on a
R hη(θ),T i
e dm̃ = eA(θ) < +∞.

8
Remarque 1.1. On supposera dans la suite que η(Θ) est d’intérieur non vide et que η → Pη ∝ ehη,T i m
est identifiable sur un ouvert de η(Θ). On dit alors que le modèle est de rang k et que η est le paramètre
naturel et T la statistique naturelle pour le modèle.

Exercice 4. 1. Vérifier que pour les n-échantillons de lois classiques B(θ), E(λ), P(λ), N (µ, σ2 ),
Γ (a, b), B(a, b) fournissent des exemples de modèles exponentiels dont on déterminera le rang et
les statistiques naturelles.
2. Montrer que les mélanges de gaussiennes ne donnent pas des modèles exponentiels.
On rappelle que les lois gamma G(a, b) (a, b > 0) sont absoluement continues par rapport la
mesure de Lebesgue de densité

1 a−1 a
fa,b (x) = x b exp(−bx)✶x>0
Γ (a)

On rappelle que les lois beta B(a, b) (a, b > 0) sont absoluement continues par rapport la mesure de
Lebesgue de densité
1
fa,b (x) = xa−1 (1 − x)b−1 ✶x>0
B(a, b)
Γ (b)Γ (b)
avec B(a, b) = Γ (a+b) .

9
Exercice : Identifiabilité des mélanges gaussiens
Pour p ≥ 1, on considère
Θp = ∆˚ p−1 × {((µk , Γk ))1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γl ) ∀1 ≤ k < l ≤ p }
où
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p ∈ (R∗+ )p | k πk = 1 } est l’intérieur du simplexe de dimension p − 1
i=1
ou encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que les πk > 0.
On note Θ = ∪p≥0 Θp et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd
où
Xp
πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d 1/2
i=1
((2π) det(Γk ))
1. Comment simuler un n-échantillon de loi µθ à partir de la donnée de θ ?
On veut montrer maintenant l’identifiabilité des distributions µθ = fθ λd à permutation près
des éléments du mélange c’est-à-dire que µθ = µθ′ ssi il existe p ≥ 1 et σ ∈ Sp tels que
θ, θ ′ ∈ Θp et σ · θ = θ ′ où
σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )
On note alors θ ∼ θ ′ .
2. On suppose ici d = 1. On notera σ2k = Γk .
2
(a) Montrer que la famille F = {x ∈ R 7→ exp(− (x−µ)
2σ2
) ∈ R | (µ, σ2 ) ∈ R × R∗+ } est une
famille libre de C(R, R).
(b) En déduire le résultat d’identifiabilité.
On suppose maintenant que d > 1 et on considère (θ, θ ′ ) ∈ Θp × Θp ′ tels que µθ = µθ ′ . On
note Iθ,θ ′ = {(k, l) ∈ {1, · · · , p} × {1, · · · , p ′ } | (µk , Γk ) = (µl′ , Γl′ )} l’ensemble des paires d’indices
de composantes identiques sur θ et θ ′ .
3. On veut montrer ici par l’absurde que Iθ,θ ′ 6= ∅. On suppose donc que Iθ,θ ′ = ∅.
(a) Montrer que λd -p.p. en u ∈ Rd on a
 [ 
# (hu, µk i, uT Γk u), k ∈ J1, pK (hu, µl′ i, uT Γl′ u), l ∈ J1, p ′ K = p + p ′.

(b) Montrer que pour tout u ∈ Rd , et tout t ∈ R, on a


p p′
X 2 X t2
ithu,µk i− t2 uT Γk u ′ T Γ ′u
πk e = πl′ eithu,µl i− 2 u l

k=1 l=1

(c) En déduire une contradiction en utilisant le résultat d’identifiabilité pour d = 1.


4. On définit X X
fθ,θ ′ = (πk ∧ πl′ )gµk ,Γk = (πk ∧ πl′ )gµl′ ,Γl′
(k,l)∈Iθ,θ ′ (k,l)∈Iθ,θ ′

où gµ,Γ est la densité de la loi gaussienne N (µ, Γ ).


R
(a) Montrer que si α = 1 − fθ,θ ′ (x)dx > 0, alors il existe θ̃ ∈ Θp̃ et θ̃ ′ ∈ Θp̃ ′ tels que
fθ = fθ,θ ′ + αfθ̃ = fθ ′ = fθ,θ ′ + αfθ̃ ′ et Iθ̃,θ̃ ′ = ∅.
(b) En déduire que α = 0 et fθ = fθ,θ ′ = fθ ′ puis que θ ∼ θ ′ .

10
Bibliographie

[1] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.


[2] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[3] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

11
Chapitre 2

Vecteurs gaussiens, théorème de


Cochran et premières applications

Le cadre des vecteurs gaussiens est très intéressant dans le cadre statistique, tout d’abord
par le rôle pivot que joue la distribution gaussienne dans la théorie des probabilités (TF, TCL)
et ensuite par les interprétations des relations d’indépendance en terme de géométrie eucli-
dienne. Cela conduit dans le cadre des modèles linéaires une théorie presque complète et non
asymptotique (i.e. pour des tailles d’échantillon éventuellement petites). Dans ce chapitre,
nous donnons quelques rappels sur les vecteurs gaussiens et deux applications à la construc-
tion d’intervalles de confiances et au modèle ANOVA à un facteur. La théorie plus générale
des modèles linéaires interviendra plus tard dans le cours.

1 Vecteurs gaussiens
On rappelle que si U ∼ N (m, σ2 ) alors sa fonction caractéristique est donnée par
.
ΦU (ξ) = E(eiξU ) = exp(iξm − ξ2 σ2 /2) .

D ÉFINITION 2.1. Soit X un vecteur aléatoire dans Rd . On dit que X est un vecteur gaussien si pour
tout u ∈ Rd , �X, u� est gaussien.
.
Remarque 2.1. On déduit immédiatement que E(|X|2 ) < ∞ et on note m = E(X) son espérance et
.
Γ = E((X − m)(X − m)T ) sa matrice de covariance (on considère X comme un vecteur colonne).

Exercice 5. Soit X ∼ N (m, Γ ) un vecteur gaussien sur Rd .


1. Vérifier que �X, u� = N (�m, u�, uT Γu). En déduire que E(ei�X,u� ) = exp(i�m, u� − uT Γu/2) et
que la loi de X est caractérisée par la donnée de m et Γ . On notera N (m, Γ ) la loi de X.
2. Soit A ∈ Mp×d (R) et b ∈ Rp . Alors AX + b ∼ N (Am + b, AΓAT ).

P ROPOSITION 2.1. Soit X ∼ N (m, Γ ) vecteur gaussien sur Rd . Si (ui )i∈I est une famille de vecteurs
de Rd 2 à 2 orthogonaux pour la forme quadratique Γ (i.e. uTi Γuj = 0, ∀i �= j), alors (�X, ui �)i∈I est
une famille de v.a.r. gaussiennes indépendantes telle que �X, ui � ∼ N (�m, ui �, uTi Γui ).
C OROLLAIRE 2.1. Si m = 0 et Γ = Id alors les coordonnées de X sont i.i.d. de loi N (0, 1) (X est dit
vecteur gaussien standard)

11
� � �
Démonstration. On vérifie que E(ei j∈I ξj �X,uj � ) = E(ei�X, j∈I ξj uj ). Comme U = �X, j∈I ξj uj �
� � � �
est une v.a.r. d’espérance �m, j∈I ξj uj � et de variance ( j∈I ξj uj )T Γ ( j∈I ξj uj ) = j∈J ξ2j uTj Γuj
� � 2 T �
(orthogonalité) , on déduit E(ei�X, j∈I ξj uj ) = E(ei j∈I ξj �m,uj �−ξj uj Γuj ) = j∈J E(eiξj �X,uj � ).

C OROLLAIRE 2.2. Soit X ∼ N (m, Γ ).


1. Si (ui )1≤i≤d est une b.o.n. de Rd de vecteurs propres de Γ pour la famille de valeurs propres

(σ2i )1≤i≤d (les valeurs propres de Γ sont positives ou nulles), alors X = m + ni=1 �X − m, ui �ui
où les v.a. (�X − m, ui �)1≤i≤d sont indépendantes de loi N (0, σ2i ) pour tout 1 ≤ i ≤ d.
.
2. En supposant que u1 , · · · , ur correspondent aux valeurs propres non nulles, alors en notant Zi =
�X − m, ui �/σi , on a
�r
X=m+ σi Zi ui (2.1)
i=1

avec (Zi )1≤i≤r i.i.d. N (0, 1).


3. En particulier, comme Vect{ui | 1 ≤ i ≤ r} = Im(Γ ), on a P(X ∈ m + Im(Γ )) = 1 avec
dim(Im(Γ )) = r.

Exercice 6. Soit Γ une matrice symétrique positive et A ∈ Md (R) telle que Γ = AAT .
1. Montrer que pour tout m ∈ Rd , m + AU ∼ N (m, Γ ) si U ∼ N (0, Id ).
2. En déduire une façon de simuler un vecteur gaussien en utilisant la décomposition de Cholesky
de Γ .
3. En déduire que si Γ est inversible et X ∼ N (m, Γ ) est une vecteur gaussien sur Rd , alors la loi de
X est à densité par rapport à Lebesgue de densité

1
f(x) = � exp(−(x − m)T Γ −1 (x − m)/2) .
(2π)d det(Γ )

2 Lois du chi-deux, de Student et de Fisher. Théorème de Cochran


D ÉFINITION 2.2. 1. Si U est un vecteur gaussien standard de dimension d, alors |U|2 ∼ χ2 (d) (loi
du chi-deux à d degrés de liberté). La loi χ2 (d) est une loi γ(d/2, 1/2).
2. Si U ∼ N (0, 1) et Q ∼ χ2 (d) sont indépendantes, alors T = �U
Q
∼ t(d) (loi de Student à d degré
d
de liberté).
Q1 /d1
3. Si Q1 ∼ χ2 (d1 ) et Q2 ∼ χ2 (d2 ) sont indépendantes, alors F = Q2 /d2 ∼ F(d1 , d2 ) (loi de Fisher de
degrés d1 et d2 )

Remarque 2.2. De la définition d’une loi χ2 (d) on déduit immédiatement que Q1 + Q2 ∼ χ2 (d1 + d2 )
lorsque Q1 ∼ χ2 (d1 ) et Q2 ∼ χ2 (d2 ) avec Q1 et Q2 indépendantes.

T H ÉOR ÈME 2.1 (Théorme de Cochran). Soit X ∼ N (m, σ2 I) un vecteur gaussien sur Rd . On sup-
.
pose que les s.e.v Ei ⊂ Rd sont orthogonaux 2 à 2 pour 1 ≤ i ≤ r. Alors, si XEi = pEi (X), les variables
(XEi )1≤i≤r sont indépendantes et L(|XEi |2 ) ∼ χ2 (dim(Ei )).

12
Démonstration. Comme les projecteurs orthogonaux sont auto-adjoints, on a �u, pE (v)� = �pE (u), v�.
� 2
Par suite, E(exp(i rj=1 �ξj , pEj (X)�)) = E(exp(i�u, X�)) = exp(i�u, m� − σ2 |u|2 ) pour u =
�r �r
j=1 pEj (ξj ). Par orthogonalité des espaces Ej , on a |u| = j=1 |pEj (ξj )| et donc
2 2

r
� r
� σ2
E(exp(i ξj , pEj (X)�)) = exp(i�pEj (ξj ), m� − |pEj (ξj )|2 )
2
j=1 j=1
r
� r

= E(exp(i�pEj (ξj ), X�) = E(exp(i�ξj , pEj (X)�)
j=1 j=1

ce qui donne l’indépendance des (pEj (X))1≤j≤r par injectivité de la transformée de Fourier.
Enfin, si (u1j , · · · , upj ) avec p = dim(Ej ) est une b.o.n. de Ej , le résultat précédent nous donne
que les pRuk (X) = �X, ukj �ukj sont indépendants et que les (�X, ukj �)1≤k≤p sont i.i.d N (0, 1). Par
j
�dim(E )
suite, comme |PE2 j (X)|2 = k=1 j �X, ukj �2 on déduit le dernier résultat.

3 Application 1 : IC et test sur la moyenne dans un échantillon gaus-


sien
3.1 Statistique de Student
Exercice 7 (Important !). Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ2 ). On note θ = (µ, σ2 ).
1. En notant X = (X1 , · · · , Xn )T , vérifier que X ∼ N (µ� , σ2 I) avec � = (1, · · · , 1)T ; montrer que

si E0 = R� , on a pE0 (X) = X� où X = n1 ni=1 Xi .

2. Soit S2 = ni=1 (Xi − X)2 /(n − 1). Montrer que S2 = |X − pE0 (X)|2 /(n − 1) et en déduire par
le théorème de Cochran que S2 et X sont indépendantes avec (n − 1)S2 /σ2 ∼ χ2 (n − 1).
3. Montrer alors que
. √ √
T = n(X − µ)/ S2 ∼ t(n − 1) (Statistique de Student) .

On remarque que la loi de T ne dépend pas de µ ; une telle statistique est appelée statistique pivot
pour µ.
t2 S t1 S
On a t1 ≤ T ≤ t2 ⇔ µ ∈ [X − √
n
,X − √
n
]. On note Fn−1 (t) = P(T ≤ t) lorsque T ∼ t(n − 1)
et t ∈ R.
— Dans le cas bilatère on prendra Fn−1 (t1 ) = 1 − Fn−1 (t2 ) = α/2 ;

������������������� � ���
���

���
�������

���

��� �� � ��

���
�� ��

���
� � � � � � � � �

13
— dans le cas unilatère à gauche , on prendra Fn−1 (t1 ) = α et t2 = +∞ ;

�������������������� � ���
���

���

������� ���

��� �

���
��

���
� � � � � � � � �

— dans le cas bilatère à droite, on prendra t1 = −∞, 1 − F(t2 ) = α.

�������������������� � ���
���

���
�������

���

��� �

���
��

���
� � � � � � � � �

3.2 Intervalle de confiance sur la moyenne


Au final, on obtient :
Pθ (Iα � µ) = 1 − α
St2 St1
lorsque Iα = [X − √ n
,X− √ n
] et (t1 , t2 ) sont choisis pour que Fn−1 (t1 ) + (1 − Fn−1 (t2 )) = α avec
Fn−1 fonction de répartition de la loi tn−1 .

Exemple 1 (D’apres [2]). Un constructeur automobile indique une consommation de 6.3l/100km


pour un modèle particulier dans des conditions expérimentales précises. Pour 30 automobiles (prises au
hasard) testées dans ces mêmes conditions, on relève une consommation moyenne de 6.42l/100km et
un écart type de 0.22l/100km. L’indication du constructeur est-elle fiable ?

On suppose ici la distribution des consommations gaussiennes (voir ci-dessous). La moyenne


empirique trouvée semble assez supérieure à la valeur affichée par le constructeur. Pour étayer
cette constatation on construit un intervalle de confiance unilatère à droite de niveau α = 0.05.
— En utilisant la fonction t.ppf de scipy.stats qui donne l’inverse de la fonction de
répartition

1 from scipy.stats import t


2 t.ppf(0.95, 29)
3 >>1.6991270265334972
Listing 2.1 – quantile d’une loi de student

14
on obtient F29 (t2 ) = 0.95 pour t2 = 1.7 ce qui donne pour l’intervalle de confiance uni-
latère à droite de niveau α = 0.05 : Iα = [6.35 , +∞[ pour α = 0.05. On a donc µ ∈
/ Iα ce
qui n’avait a priori que 5/100 de chances d’arriver.
Une autre façon de procéder est de calculer la valeur de la statistique de Student T qui vaut

t = 30(6.42 − 6.3)/0.22 = 2.987. Cette valeur est anormalement élevée. Peut-on le préciser ?
— En utilisant la fonction t.cdf(x,df) de scipy.stats qui donne P(T ≤ x) pour T ∼
t(df)
1 from scipy.stats import t
2 print(f’p-valeur : {1-t.cdf(2.987,29):.3e}’)
3 >>p-valeur : 2.840e-03
Listing 2.2 – p-valeur

on obtient que P(T ≥ t) = 2.84 10−3 (p-valeur). La valeur observée de T est très im-
probable en particulier inférieure à 0.05 (dualité test-IC). En particulier aucun intervalle
de confiance unilatère à droite de niveau supérieur à 2.84 10−3 ne contient la valeur du
constructeur. Même en prenant le risque de se tromper 1 fois sur 100, α = 0.01, l’inter-
valle unilatère ne contient pas la valeur du constructeur.
Attention toutefois avant d’affirmer péremptoirement que le constructeur sous-estime la consom-
mation de ses voitures. Par exemple, votre démarche est construite sur une hypothèse de loi
gaussienne qui pourrait être mise en cause (on ne peut pas tester ici puisque l’on a pas les
30 valeurs mesurées). De façon, générale, il ne faut jamais oublier les hypothèses statistiques
sous-jacentes.
Dans beaucoup de situations réelles, les distributions ne sont pas gaussiennes. On passe
alors par le TCL + le lemme de Slutsky pour montrer que pour un n-échantillon de loi de carré
intégrable, d’espérance µ :
√ loi
n(X − µ)/S → N (0, 1)
√ √
On a donc (dans le cas bilatère) pour Iα = [X − SΦα / n, X + SΦα/ n] avec P(|U| ≥ Φα ) = α
pour U ∼ N (0, 1) que P(Iα � µ) → 1 − α lorsque n → ∞.
Le problème est maintenant de connaı̂tre la qualité de l’approximation pour n fixé. Cela
dépend de la loi des Xi . Si l’échantillon est gaussien, on peut s’en faire une bonne idée en
regardant la valeur du quantile tn,1−α tel que P(T ≤ tn,1−α )) = 1 − α pour T ∼ t(n). Ci-
dessous le cas standard α = 0.025 correspondant à un intervalle bilatère de niveau α = 0.05
(assez clairement, la différence est importante pour n ≤ 15 mais minime pour n ≥ 30).

1 from scipy.stats import t � ����������� � � �����������������


2 import matplotlib.pyplot as plt
3 ��

4 %matplotlib inline
��
5
6 df = [i+1 for i in range(100)] �
7 plt.plot(df,t.ppf(0.975,df))
��
���

8 �
9 plt.xlabel(r’df’)
10 plt.ylabel(r’$t_{df,1-\alpha}$’) �
11 plt.title(r’$1-\alpha$ quantile ($\

alpha=.025$) en fct de df’)
� �� �� �� �� ���
Listing 2.3 – quantile d’une loi de student ��

15
3.3 Intervalle de confiance sur la variance
.
En reprenant l’exercice 7. 2), on avait χ2 = (n − 1)S2 /σ2 ∼ χ2 (n − 1) qui forme encore une
statistique pivot pour le paramètre σ. Dans ce cas, on peut à nouveau construire des intervalles
de confiances à partir des quantiles de la distribution de la loi χ2 (n−1) (ci-dessous la loi χ2 (5)) :

������������������� ������� � ���


����

����
�������

���� �� � ��

����
� �
� �

��� ��� ��� ��� ���� ���� ���� ���� ����




�������������������� ������ � ���
����

����
�������

���� �

����

��� ��� ��� ��� ���� ���� ���� ���� ����




�������������������� ������ � ���
����

����
�������

���� �

����

��� ��� ��� ��� ���� ���� ���� ���� ����


Intervalle de confiance sur la variance

Pθ (Iα � σ2 ) = 1 − α

lorsque Iα = [(n − 1)S2 /χ22 , (n − 1)S2 /χ21 ] et (χ21 , χ22 ) sont choisis pour que Fn−1 (χ21 ) + (1 −
Fn−1 (χ22 )) = α avec Fn−1 fonction de répartition de la loi χ2 (n − 1).

4 Application 2 : Analyse de la variance à un facteur (ANOVA 1)


Nous developpelons ici un exemple d’application important autour de l’analyse de la va-
riance à un facteur, qui nous donne l’occasion d’aborder dans un cas particulier utile la théorie
des tests object d’un traitement plus large dans le chapitre ??.

4.1 Exemple introductif


On peut pouvoir tester l’effet d’un facteur (ici le type de nourriture) sur un mesure faite sur
des individus (ici le poids) :

16
1 import statsmodels.api as sm
2 import seaborn as sns
3 import matplotlib.pyplot as plt
4
5 chickwts = sm.datasets.get_rdataset(" ����������������������������
chickwts").data # load data in a
���
dataframe
6 # rename columns ���
7 df = chickwts.rename(columns={’weight ���
’:’poids’, ’feed’:’nourriture’})

�����
8 df = df.sort_values(by=’nourriture’) ���
9 ���
10 plt.figure(figsize=(7,4))
���
11 ax = sns.stripplot(y=’poids’,x=’
nourriture’, data=df, jitter=False ���
) ��� �� �� ��

��

��

��
� �� �� ��� �� �
plt.setp(ax.get_xticklabels(), ��� ��� �� ���
12 �� �� ��
rotation=30) ����������
13 plt.title(’Dataset Chickwts (R
dataset)’)
Listing 2.4 – Affichage données Chickwts
On suppose que le facteur peut prendre p valeurs i = 1 · · · p. On modélise la mesure Yij sur
le j-ème individu pour la valeur i du facteur comme une variable de loi N (µi , σ2 ) :

Yij = µi + �ij ,

pour tous 1 ≤ i ≤ p et 1 ≤ j ≤ ni où les eij sont i.i.d. de loi N (0, σ2 ). Remarquons que le nombre
d’individus par classe (i.e. pour la même valeur du facteur) n’est pas supposé constant. On ici
Y valeurs dans Rn1 × · · · × Rnp � Rn et on note θ = ((µ1 , · · · , µp ), σ2 ) le paramètre.
La question que l’on se pose est ici de déviner en fonction des données (yij ) l’égalité des
moyennes (test d’homogénéité) ou encore de tester l’hypothèse H0 : µ1 = · · · = µp contre
H1 : ∃i < j, µi �= µj .

4.2 Construction de la statistique de Fisher


.
Notons m = E(Y). On a Y ∼ N (m, σ2 Idn ) et le théorème de Cochran s’applique pour la
⊥ ⊥
décomposition Rn = E0 ⊕ F0 ⊕ F1 avec E0 , F0 , F1 tels que que E0 = R� ,

E1 = E0 ⊕ F0 = {(yij ) ∈ Rn � Rn1 × · · · × Rnp | yij = yij � , 1 ≤ i ≤ p, 1 ≤ j, j � ≤ ni } .

De façon équivalente, on dira que l’on veut tester l’hypothse H0 : m ∈ E0 contre l’hypothse
H1 : m ∈ F0 . Le théorème de Cochran donne directement :
• pF0 (Y) et pF1 (Y) sont indépendants ;
• sous H0 , comme m ∈ E0 , |pF0 (Y)|2 /σ2 ∼ χ2 (dim(F0 )) et |pF1 (Y)|2 /σ2 ∼ χ2 (dim(F1 )).
Par suite
|pF0 (Y)|2 /(p − 1)
∼ F(p − 1, n − p)
|pF1 (Y)|2 /(n − p)
� � i �ni
Exercice 8. Montrer que pE0 (Y)ij = Y, pE1 (Y)ij = Y i où Y = n1 pi=1 nj=1 Yij et Y i = 1
ni j=1 Yij .

17
4.3 Décomposition de la variance
On déduit on écrivant |pF0 (Y)|2 = |pE1 (Y) − pE0 (Y)|2 et |pF1 (Y)|2 = |Y − pE1 (Y)|2 que

( pi=1 ni (Y i − Y)2 )/(p − 1)
F = �p �ni ∼ F(p − 1, n − p)
( i=1 j=1 (Yij − Y i )2 )/(n − p)

Evidemment par le théorème de Pythagore, on a


p �
� ni p �
� ni p �
� ni
(Yij − Y)2 = (Yij − Y i )2 + (Y i − Y)2
i=1 j=1 i=1 j=1 i=1 j=1
� �� � � �� � � �� �
Var. tot. Var. intra. Var. inter.

ce qui explique l’appellation “analyse de la variance”. Lorsque H1 est vraie pE1 (Y) = pE1 (m) +
pE1 (�) avec pE1 (m) �= 0. Alors, |pE1 (Y)|2 /σ2 est un χ2 décentré ce qui doit produire statistique-
ment des valeurs de F plus grandes. On rejettera donc H0 sur des grandes valeurs de F :

������������������������ ������ � ����


���

���
�������

���

��� �

���
��

� � � � � � � �

Le quantile inférieure à 5% vaut f2 = 2.35 et F = 15.365 (la p-valeur est 5.93 × 10−10 ). H0 est
très fortement rejetée.

4.4 Comparaison de 2 moyennes


Lorsque l’égalité des moyennes est rejetée, on peut vouloir en savoir plus et raffiner l’ana-
lyse en testant par exemple H0 : µ1 = µ2 contre H1 : µ1 �= µ2 . Or Y 1 − Y 2 ∼ N (µ1 − µ2 , σ2 nn11+n
n2 )
2

et (par Cochran) S est indépendante de Y 1 − Y 2 . Par suite


2

� � �
n1 n2 Y 1 − Y 2 − (µ1 − µ2 )
∼ t(n − p)
n1 + n 2 S

n1 n2 Y 1 −Y 2
En posant T12 = n1 +n2 S , T12 ∼ t(n − p) sous H0 mais comme E(T12 ) = µ1 − µ2 , |T |
à tendance à prendre des grandes valeurs si µ1 �= µ2 . Ceci conduit au test de niveau α de
µ1 �= µ2 contre µ1 = µ2 de région de rejet Rα = { ω ∈ Ω | |T12 | ≥ cα } où cα est choisi tel que
P(|T | ≥ cα ) = α lorsque T ∼ t(n − p).

Comparaison µ1 = µ2 En notant F la fonction de répartition


� �de |T | �∼ t(n−p), le test s’exprime
n1 n2 Y 1 −Y 2 1 �p �ni
en fonction de la p-valeur p
^ 12 = 1−F(|T |12 ) où T12 = n1 +n2 S , S = n−p i=1 j=1 (Yij −
Y i )2 :

Si p
^ 12 > α on conserve H12 ie on décide µ1 = µ2
Si p
^ 12 ≤ α, on rejette H12 ie on décide µ1 �= µ2 .

18
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .

Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est à
peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici 65)).
La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 × 10−09 (comme on pouvait s’en douter par
inspection visuelle des données).

����������������������������

���

���

���
�����

���

���

���

���
�� �� � � � �
�� � ��
� �� �� ��
�� ���� ��� ��� �� ���
�� � � �� ��

����������

Il est tentant de tester toutes les comparaisons µi = µj pour i < j simultanément pour
découvrir toutes les différences entre les groupes définis par le facteur (ici le type de nourri-
ture). On devine que la répétition d’un grand nombre de tests élémentaires avec pour chacun
d’eux un risque de décider à tort µi �= µj de α = .5 (i.e. niveau α), peut conduire des fausses
alarmes par la simple accumulation de tests. Il y a diverses façon de s’en prémunir qui seront
abordées dans le chapitre ??.

19
Bibliographie

[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[3] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[4] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

20
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .

Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est
à peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici
65)). La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 10−09 (comme on pouvait s’en douter
par inspection visuelle des données).

����������������������������

���

���

���
�����

���

���

���

���
�� �� � � � �
�� � ��
� �� �� ��
�� ���� ��� ��� �� ���
�� � � �� ��

����������

Il est tentant de tester toutes les comparaisons µi = µj pour i < j simultanément pour
découvrir toutes les différences entre les groupes définis par le facteur (ici le type de nourri-
ture). On devine que la répétition d’un grand nombre de tests élémentaires avec pour chacun
d’eux un risque de décider à tort µi �= µj de α = .5 (i.e. niveau α), peut conduire des fausses
alarmes par la simple accumulation de tests. Il y a diverses façon de s’en prémunir qui seront
abordées dans le chapitre 5.

20
Chapitre 3

Méthodes en estimation ponctuelle

On revient ici dans le cadre d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ).

1 Estimateurs
Le problème de l’estimation ponctuelle est celui de l’estimation du paramètre θ à partir des
observations i.e. d’une expérience ω. Dans la pratique, on estime souvent des fonctions g(θ)
de θ plutôt que θ lui-même. Quelques raisons déjà rencontrées dans le TP2 :
• le problème de paramètres parasites (ou de nuisance) : Dans le cas d’un n-échantillon de
loi gaussienne N (µ, σ2 ), on s’intéresse seulement à la moyenne ou à la variance.
• on a réellement besoin d’une fonction de θ. Par exemple, on veut estimer Pθ (A) avec
A ∈ A.
D ÉFINITION 3.1. On appelle statistique toute fonction mesurable de (Ω, A) dans (E, E) (fonction de
l’expérience ω).
On remarque qu’une statistique n’est rien d’autre qu’une variable aléatoire. On suppose géné-
ralement que g : Θ → Rd .
D ÉFINITION 3.2. On appelle estimateur de g(θ), toute T statstique de (Ω, A) dans (Rd , B(Rd )).
Dans notre exemple préliminaire, θ^n = Xn est un estimateur au sens de la définition.
D ÉFINITION 3.3. On appelle biais d’un estimateur T de g(θ) tel que Eθ (|T |) < +∞ pour tout θ ∈ Θ,
la fonction bT : Θ → Rd définie par bT : Θ → Rd définie par bT (θ) = Eθ (T ) − g(θ). Lorsque
bT (θ) ≡ 0, on dit que T est un estimateur sans biais de g(θ).

Remarque 3.1. T est toujours un estimateur sans biais de g(θ) = Eθ (T ) !

D ÉFINITION 3.4. Soit (Tn )n≥0 une suite d’estimateur de g(θ).


P
— On dit que (Tn ) est une suite d’estimateur consistante de g(θ) si Tn →
θ
g(θ).
— On dit que (Tn ) est une suite d’estimateurs fortement consistante de g(θ) si Tn → g(θ) Pθ
p.s.

21
2 Moyenne empirique, covariance empirique
Soit (µθ )θ∈Θ une famille de probabilités sur (Rd , B(Rd ). Soit (X1 , · · · , Xn ) un n-échantillon
de loi µθ . On suppose que µθ admet pour tout θ ∈ Θ un moment d’ordre un et deux et on note
� �
m1 (θ) = xdµθ (x) et Γ (θ) = (x − m1 (θ))(x − m1 (θ))T dµθ (x)

autrement dit, si X1 ∼ µθ ) on a m1 (θ) = Eθ (X1 ) et Γ (θ) = Eθ ((X1 − m1 (θ))(X1 − m1 (θ))T ).



D ÉFINITION 3.5. On appelle moyenne empirique, l’estimateur Xn = n1 i=1 Xi et covariance empi-
1 �n
rique l’estimateur Sn� 2 = n−1 i=1 (Xi − Xn )(Xi − Xn ) .
T

P ROPOSITION 3.1. Xn (resp. Sn� 2 ) est un estimateur sans biais de m1 (θ) (resp. Γ (θ)).

Démonstration. On a
n
1�
Eθ (Xn ) = Eθ (Xi ) = m1 (θ)
n
i=1

et d’autre part,
n
2 1 �
Eθ (Sn� ) = Eθ ((Xi − Xn )(Xi − Xn )T )
n−1
i=1
� n n
1 � �
T
= Eθ ((Xi − m1 (θ))(Xi − m1 (θ)) ) − Eθ ((Xn − m1 (θ))(Xi − m1 (θ))T )
n−1
i=1 i=1
n


T T
− Eθ ((Xi − m1 (θ))(Xn − m1 (θ)) ) + nEθ ((Xn − m1 (θ))(Xn − m1 (θ)) )
i=1
1
= (nΓ (θ) − nEθ ((Xn − m1 (θ))(Xn − m1 (θ))) = Γ (θ)
n−1

Exercice 10. On suppose m1 (θ) connue. Alors


n
1�
S2n = (Xi − m1 (θ))(Xi − m1 (θ))T
n
i=1

est un estimateur sans biais de Γ (θ).

On considère maintenant qu’on dispose d’un échantillon de taille infinie (Xi )i≥1 de loi µθ et
que Eθ (|X1 |2 ) < +∞ pour tout θ ∈ Θ. Cela correspond au modèle statistique Ω = (Rd )N , A =
N N
⊗ B(Rd ), Pθ = ⊗ µθ et Xi : Ω → Rd projection canonique sur la coordonnée i.
P ROPOSITION 3.2. Pour tout θ ∈ Θ on a
1. Xn → m1 (θ) Pθ p.s.
2. Sn� 2 → Γ (θ) Pθ p.s., S2n → Γ (θ) Pθ p.s.

Démonstration. En exercice. Application facile de la loi forte des grands nombres.

22
Remarque 3.2. (Xn )n∈N est une suite d’estimateurs fortement consistante de m1 (θ). De même, (Sn� 2 )
et (S2n ) sont deux suites d’estimateurs fortement consistantes de Γ (θ).

En particulier, θ^n = (Xn , Sn� 2 ) est une suite d’estimateurs sans biais fortement consistante pour les
vecteurs gaussiens de loi N (µ, Γ ) avec θ = (µ, Γ ).

3 Méthodes des moments


On peut abstraire un peu la méthode précédente. On prend ici X = R (généralisation fa-
cile). On note le moment d’ordre mk (θ) = Eθ (Xk ) lorsque Eθ (|X|k ) < +∞ pour tout θ ∈ Θ.
Dans ce cas, si on peut écrire

g(θ) = Ψ(m1 (θ), · · · , mp (θ))

avec Ψ : Rp → Rp continue, on a en prenant

Tn = ψ(Xn , X2 n , · · · , Xp n )

avec Xk n = n1 ni=1 Xki que (Tn ) est une suite d’estimateurs fortement consistante.
De façon encore plus générale, on peut dire que que si X ∈ Rd et

g(θ) = ψ (Eθ (h(X1 )))

pour h : Rd → Rp mesurable telle que h(X1 ) ∈ L1 (Pθ ) pour tout θ ∈ Θ alors Tn = ψ(h(X)n ) est

une suite d’estimateur fortement consistante avec h(X)n = n1 ni=1 h(Xi ).

3.1 Exemples
• Pour les n-échantillons de Bernoulli, comme θ = m1 (θ), avec la méthode des moments,
cela donne Tn = Xn .
• Pour les loi exponentielles de paramètre λ, on remarque que λ = m1 (λ)−1 . On obtient
donc dans ce cas Tn = X1 qui définit une suite d’estimateur fortement consistante de
n
λ. On calcule Eλ (Tn ) = n−1
n
λ. On peut débiaser l’estimateur en prenant Tn� = �n−1
n et
i=1 Xi
obtenir une suite d’estimateurs sans biais fortement consistante (est-ce mieux ?).
• Pour les lois de Poisson, on a λ = Eλ (X1 ) = Vλ (X1 ) = m2 (λ) − m1 (λ)2 . La méthode des
moments fournit deux estimateurs :
n
1�
Tn = Xn , Tn� = X2 n − (Xn )2 = (Xi − Xn )2 .
n
i=1

Le premier est sans biais et le deuxième est la variance empirique qui est légèrement
biasée, et que l’on peut débiaser en prenant un estimateur sans biais de la variance em-
pirique. A nouveau se pose la question du choix de l’estimateur.
• Avec les lois Γ (a, b), la méthode des moments marche encore : Pour X ∼ Γ (a, b) (de
densité fa,b (x) = Γ (a)−1 ba xa−1 e−bx �x≥0 par rapport à Lebesgue), on a E(X) = ab et V(X) =
a
b2
. On obtient donc pour a et b

E(X) E(X)2
b= et a =
V(X) V(X)

23
ce qui donne
^ n = Xn et a (Xn )2
b ^ n =
Sn� 2 Sn� 2
qui génèrent deux suites d’estimateurs fortement consistantes.

Exercice 11. On considère la loi de Laplace L(α, β) de densité


α
f(α,β) (x) = exp(−α|x − β|)
2
Construire un estimateur de α et β.

La méthode des moments nous donne donc un premier principe de construction des estima-
teurs.

4 Minimisation de contraste
4.1 Théorème de Wald
D ÉFINITION 3.6. On appelle contraste toute fonction ρ : X × Θ → R telle que
1. pour tout θ ∈ Θ, on a Eθ (ρ− (X, θ)) < +∞ ;
2. pour tout θ0 ∈ Θ, si D(θ0 , θ) = Eθ0 (ρ(X, θ)), alors D(θ0 , θ) est minimale pour θ = θ0 .
L’idée est que pour un ∞-échantillon de loi µθ0 , on a
n
1�
ρ(Xi , θ) → D(θ0 , θ) Pθ0 p.s.
n
i=1

dès que Eθ0 (ρ− (X1 , θ)) < +∞ pour tout θ ∈ Θ 1



En notant ρ^n (θ) = n1 ni=1 ρ(Xi , θ), a n fini, ρ^n est une approximation de D(θ0 , θ). On peut
estimer θ0 en minimisant en θ la quantité ρ^n (θ) et considérer θ^n tel que :

θ^n ∈ arg min ρ^n (θ)


Θ

De façon plus générale, si X ∼ µ, on peut définir



D(µ, θ) = ρ(x, θ)dµ(x)
X

dans le cas où ne suppose plus que les données suivent une loi dans le modèle. � Morale-
ment �, θ^n recherche la meilleure approximation de µ dans la famille de modèle µθ au sens de
D(µ, θ) (ou de son approximation à travers ρ^n (θ))
Notons
ρ∗ = inf D(µ, θ) et Θ∗ = {θ ∈ Θ | D(µ, θ) = ρ∗ }
Θ

T H ÉOR ÈME 3.1 (Théorème de Wald). On suppose que (Θ, d) est un espace métrique séparable. On
fait de plus les hypothèses suivantes :
1. Cette dernière condition donne un sens à l’espérance de ρ(X1 , θ) sous Pθ qui n’est pas forcément intégrable
mais qui a une partie négative intégrable. La différence entre l’intégrale de la partie positive et de la partie négative
est bien déterminée (avec la convention +∞ − a = +∞ pour tout a ∈ R)

24
1. Θ∗ �= ∅
2. θ �→ ρ(x, θ) est continue µ p.s.
3. Pour tout θ ∈ Θ, il existe U � θ ouvert de Θ tel que Eµ (supθ � ∈U ρ− (X, θ � )) < +∞
Alors pour tout compact K de Θ et tout � > 0, on a

Pµ (d(θ^n , Θ∗ ) ≥ � et θ^n ∈ K) → 0
n→∞

On remarque que pour un sous-ensemble dénonbrable dense D ⊂ Θ, supθ � ∈U ρ− (X, θ � ) =


supθ � ∈U∩D ρ− (X, θ � ) p.s. (par densité de D et continuité de θ → ρ(x, θ) en θ µ p.s.) On obtient
donc que supθ � ∈U ρ− (X, θ � ) est mesurable à une modification p.s. près.

Démonstration. Si ρ∗ = +∞, alors Θ∗ = Θ et le résultat est vrai puisque (d(θ^n , Θ∗ ) ≥ �) = ∅.


On supose donc que ρ∗ < +∞.
Étape 1 : On commence par vérifier que Θ∗ est fermé :
Soit (θn )n≥0 ∈ ΘN
∗ tel que θn → θ∞ . Il nous faut montrer que θ∞ ∈ Θ∗ . Or on a

(a) (b)
Eµ (ρ(X, θ∞ )) ≤ Eµ (lim ρ(X, θn )) ≤ lim Eµ (ρ(X, θn )) = ρ∗

où (a) vient de l’hypothèse 2. et (b) vient de l’hypothèse 3. et d’une version étendue du
lemme de Fatou. En effet, au voisinage de θ∞ , il existe U ouvert contenant θ∞ tel que C(X) =
supU ρ− (X, θ) est µ intégrable. Pour n assez grand, θn ∈ U et on a ρ(X, θn ) + C(X) ≥ 0. Par
suite, une application du lemme de Fatou donne

Eµ (lim(ρ(X, θn ) + C(X))) ≤ lim Eµ (ρ(X, θn ) + C(X)) .

Comme Eµ (C(X)) < +∞, on obtient (b).

Étape 2 : Montrons maintenant que pour θ �∈ Θ∗ , il existe U(θ) ouvert tel que

Eµ ( inf ρ(X, θ � )) > ρ∗ .


θ � ∈U(θ)

En effet, si pour h > 0, B(θ, h) est la boule ouverte centrée en θ, on par le Fatou étendu ci-
dessus que

(2.) Fatou
ρ∗ < D(µ, θ) = Eµ (ρ(X, θ)) = Eµ (lim inf ρ(X, θ � )) ≤ lim Eµ ( inf ρ(X, θ � )) .
h→0 B(θ,h) h→0 B(θ,h)

Par suite, pour h assez petit, on a Eµ (infB(θ,h) ρ(X, θ � )) > ρ∗ .

Étape 3 : Soient maintenant K compact de Θ et � ≥ 0. Notons K� = { θ ∈ K | d(θ, Θ∗ ) ≥ � }.


On remarque que K� est compact inclus dans Θ \ Θ∗ . Par compacité, il existe θ1 , · · · , θp dans
K� tel que ∪pi=1 U(θi ) ⊃ K� . En notant ψk (X) = infU(θk ) ρ(X, θ � ), on a par la loi forte des grands
nombres que
lim ψk (X)n > ρ∗ µ p.s.
n→+∞

25
(on utilise ici une version étendue de la loi forte des grands nombres aux variables aléatoires
positives pas forcément intégrables). Comme on a
n n
1� 1�
inf ρ^n ≥ inf inf ρ(Xi , θ � ) ≥ inf inf ρ(Xi , θ � )
K� 1≤k≤p U(θk ) n 1≤k≤p n U(θk )
i=1 i=1
n
1�
= inf ψk (Xi ) = inf ψk (X)n
1≤k≤p n 1≤k≤p
i=1

En passant à la limite, on obtient


lim inf ρ^n > ρ∗ .
n→∞ K�

Comme par ailleurs pour θ0 ∈ Θ∗ (hypothèse 1.), on a p.s. ρ^n (θ0 ) → ρ∗ on déduit que p.s., il
existe N(ω) tel que pour tout n ≥ N(ω), on a infK� ρ^n > ρ^n (θ0 ) et en particulier θ^n (ω) ∈
/ K� ce
qui donne le résultat (la convergence p.s. de �θ^n ∈K
/ � vers 0 entraı̂ne celle en proba).

4.2 Divergence de Kullback-Leibler


D ÉFINITION 3.7 (Divergence de Kullback-Liebler). Soient µ et ν deux probabilités sur un espace
mesurable (E, E). On appelle divergence de Kullback-Leibler entre µ et ν, notée K(µ, ν) la quantité
� � dµ
K(µ, ν) = E log( dν )dµ si µ � ν
+∞ sinon.

où dνest la dérivée de Radon-Nikodym dans le cas où µ � ν.
� �
Remarque 3.3. Comme on a log− ( dµ )dµ = (log( dµ dµ −
dν ) dν ) dν et que (x log(x)) est majoré par

� dµ

1/e, l’intégrale log( dν )dµ est bien définie (seule l’intégrale de la partie positive est éventuellement

infinie) et vaut ϕ( dµ dν )dν avec ϕ strictement convexe (x �→ x log(x)) minorée. Une application de
l’inégalité de Jensen donne alors que K(µ, ν) ≥ ϕ(1) = 0 avec égalité ssi dµ dν = 1 ν p.s. et donc ssi
µ = ν.

P ROPOSITION 3.3. On a K(µ, ν) ≥ 0 et K(µ, ν) = 0 ssi µ = ν.

5 Estimateur du maximum de vraisemblance


5.1 Modèles dominés
D ÉFINITION 3.8 (Modèles dominés). On dit que (Ω, A, (Pθ )θ∈Θ ) est un modèle dominé par une
mesure m σ-finie sur (Ω, A) si Pθ � m pour tout θ ∈ Θ. On dit que Lθ : (Ω, A) → (R+ , B(R+ )) est
une vraisemblance par rapport à m si

Pθ = Lθ m, pour tout θ ∈ Θ .

Exercice 12. On peut toujours se ramener à une mesure de domination qui est une probabilité car
si (An ) est une suite croissante d’éléments de A tels que 0 < m(An ) < +∞ et Ω = ∪An , alors
� n)
m̃(A) = n≥0 2−n m(A∩A µ(An ) est une mesure de probabilité qui domine le modèle.

Exercice 13. Donner un exemple simple de modèle statistique qui ne soit pas dominé.

26
D ÉFINITION 3.9 (Dominante privilégiée). On dit que m est une dominante privilégiée si pour tout
A ∈ A, m(A) = 0 ssi Pθ (A) = 0 pour tout θ ∈ Θ.
P ROPOSITION 3.4. Tout modèle dominé admet une dominante privilégiée.

Démonstration. On se ramène au cas d’une dominante m qui est une mesure finie. On note
alors conv(PΘ ) l’enveloppe convexe de la famille (Pθ )θ∈Θ (i.e. l’ensemble des combinaisons
convexes finies d’éléments de la famille (Pθ )θ∈Θ ) et

dPC
C = {C ∈ A | il existe PC ∈ conv(PΘ ), > 0 sur C m p.p.} .
dm
• On vérifie que C est stable par union finie (il suffit de considérer (PC + PC � )/2 pour mon-
trer que C ∪ C � ∈ C dès que C et C � sont dans C). Il existe donc une suite croissante
(Cn )n≥0 ∈ C N telle que m(Cn ) → supC∈C m(C) < ∞. On note C∞ = ∪n≥0 Cn et m∗ = hm

avec h = n≥0 2−n dm
dPCn
�Cn pour lequel on a m∗ (Cc∞ ) = 0.
• On vérifie que m∗ est une dominante. Soit θ ∈ Θ et Cθ = (Lθ > 0). On a m(Cθ ∪
C∞ ) = limn→∞ m(Cθ ∪ Cn ) ≤ supC∈C m(C) = m(C∞ ) et donc m(Cθ ∩ Cc∞ ) = 0 d’où
Pθ (Cθ ∩ Cc∞ ) = 0 et Pθ (Cθ ∩ C∞ ) = 1. Comme dmdm > 0 sur C∞ m p.p.

on a Pθ � m∗

et dm∗ = Lθ / dm . En effet, pour tout A ∈ A, Pθ (A) = Pθ (A ∩ C∞ ) = �A∩C∞ Lθ dm =
dPθ dm∗
� � �
�A∩C∞ (Lθ / dm
dm ) dm dm = �A∩C∞ Lθ /( dm )dm∗ = �A Lθ /( dm )dm∗ .
∗ dm∗ dm∗ dm∗

• Soit maintenant A ∈ A tel que m∗ (A) > 0. Alors il existe n ≥ 0 tel que PCn (A) > 0
et donc θ ∈ Θ tel que Pθ (A) > 0 puisque PCn est un mélange fini. On a donc montré
par contraposée que Pθ (A) = 0 pour tout θ ∈ Θ entraı̂ne m∗ (A) = 0. La réciproque est
immédiate puisque nous avons montré que m∗ est une dominante.

5.2 Définition de l’EMV


D ÉFINITION 3.10 (EMV-(MLE)). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle dominé. On dit que θ^ : (Ω, A) →
(Θ, BΘ ) est un estimateur du maximum de vraisemblance pour la famille de vraisemblance (Lθ )θ∈Θ
associée à une dominante m si
Lθ(ω)
^ (ω) = max Lθ (ω) m p.p.
θ∈Θ

Remarque 3.4. On peut se poser la question de l’unicité de l’estimateur de vraisemblance si on change


par exemple la dominante. En fait, si m � est une autre dominante et (Lθ� ) est une famille de vraisemblance
associée, alors en prenant m �� = m+m � , on a m � m �� et m � � m �� et on déduit que Lθ dm dm � dm �
�� = Lθ dm ��

m �� p.p. En particulier, on obtient que pour tout θ ∈ Θ, θ^ = θ^ � Pθ p.s. ce qui montre que les deux
estimateurs coı̈ncident (exo).

Cas des n-échantillons

Soit (µθ )θ∈Θ une famille de lois sur (X , BX ) dominées par m1 (i.e. µθ � m1 ) pour tout
θ ∈ Θ. On définit fθ : X → R+ tel que µθ = fθ m1 la densité de µθ par rapport à m1 .

On considère (Ω, A, (Pθ )θ∈Θ ) le modèle canonique associé à un ∞-échantillon i.e. Ω = X N ,
∗ ∗
A = ⊗N BX et Pθ = ⊗N µθ .

27
Exercice 14. Montrer que généralement (Ω, A, (Pθ )θ∈Θ ) n’est pas un modèle dominé. On pourra re-
garder le cas µθ = B(θ) et m1 = 12 δ0 + 12 δ1 puis considérer les ensembles Ωθ = {ω ∈ Ω | Xn (ω) → θ}
où (Xn )n≥1 est le processus canonique pour vérifier que si m est une dominante pour (Ω, A, (Pθ )θ∈Θ ),
on a m(Ωθ ) > 0 pour tout θ ∈ [0, 1].

Cependant si Fn = σ(Xi , i ≤ n) et Πn = (X1 , · · · , Xn ) alors le modèle induit par Πn donné


par (X n , ⊗ni=1 BX , (Pθ,n )θ∈Θ ) avec Pθ,n = Pθ ◦ Π−1
n = ⊗i=1 µθ est un modèle dominé par mn =
n

⊗ni=1 m1 et la vraisemblance est donnée par


n

Lθ,n (x1 , · · · , xn ) = fθ (xi )
i=1

qui est la vraisemblance associée au n-échantillon Πn = (X1 , · · · , Xn ) de loi Pθ,n par rapport à
mn .
Soit θ^n : Ω → Θ tel que
n
� n

θ^n ∈ arg max Lθ,n ◦ Πn = arg max fθ (Xi ) = arg max log(fθ (Xi ))
θ∈Θ θ i=1 θ∈Θ i=1

On remarque que θ^n est Fn mesurable (comme fonction mesurable de (X1 , · · · , Xn ))


T H ÉOR ÈME 3.2 (Consistance de l’EMV). On fait les hypothèses suivantes :
1. Θ est métrique compact
2. m1 p.p. en x on a : θ �→ fθ (x) est continue et strictement positive sur Θ.

3. supθ,θ � ,x fθ � (x) <∞
θ P
Alors, pour tout θ0 ∈ Θ, on a θ^n →0 Θθ0 où Θθ0 = { θ ∈ Θ | µθ = µθ0 } i.e. pour tout � ≥ 0, on a
Pθ0 (d(θ^n , Θθ0 ) ≥ �) → 0
n→∞

fθ0 (x)
Démonstration. On considère ρ(x, θ) = log( fθ (x) ). On vérifie que

fθ0 (x)
Eθ0 (ρ(X1 , θ)) = log( )fθ0 (x)dm1 (x) = K(µθ0 , µθ ) .
fθ (x)

La proposition 3.3 nous dit que ρ(x, θ) est un contraste. On vérifie alors les hypothèses du
théorème de consistance de Wald. On a Θ∗ = Θθ0 � θ0 , donc Θ∗ est non vide. De plus m1
p.p. en x, on θ �→ fθ (x) > 0 est continue et donc ρ(x, θ) est bien défini et continue en θ. Enfin,
supx,θ ρ− (x, θ) ≤ log(supθ,θ � ,x ffθ� (x))) < ∞ ce qui permet de vérifier l’hypothèse 3. du thm.
θ
Comme Θ est supposé compact, le théorème de Wald donne le résultat.

Remarque 3.5. Dans le théorème 3.2, on suppose implicitement que les données suivent l’un des
modèles, ici θ0 . On peut regarder cependant une situation plus générale et réaliste où les données
suivent une loi µ qui n’est pas de la forme µθ . On peut dans ce cas, à l’aide du théorème de Wald établir
un nouveau résultat qui n’est pas un théorème de consistance au sens précédent mais un théorème de
cohérence asymptotique qui dit que l’EMV converge vers l’ensemble Θµ = { θ ∈ Θ | K(µ, µθ ) =
infθ � ∈Θ K(µ, µθ � ) } des meilleurs approximations du modèle au sens de la divergence de Kullback.

Exercice 15. On suppose ici que

28
1. µ � m1 et µθ � m1 pour tout θ ∈ Θ avec Θ compact.
2. m1 p.p. en x, θ → fθ (x) est continue et strictement positive.

3. Θµ �= ∅ et que supθ,x fµ (x) <∞

Montrer que θ^n → Θµ

L’exercice 15 montre que l’estimation par maximum de vraisemblance qui est un cas parti-
culier de minimisation de contraste couvre un large spectre et généralise le problème de l’es-
timation du � vrai � paramètre à celui du � meilleur modèle � au sens de la divergence de
Kullback par rapport aux données (qui n’ont souvent pas beaucoup de raisons (en particulier
dans le cas des modèles paramétriques) de suivre exactement l’un des modèles Pθ ).

Exercice 16 (Invariance(s)). Une question naturelle est celle de l’invariance. Supposons que l’on
considère un changement de variable y = ψ(x) avec ψ : (X , BX ) → (Y, BY ) bijective (mesurable).
dνθ dµθ
1. Vérifier que la loi de νθ = µθ ◦ ψ−1 � m̃1 = m1 ◦ ψ−1 et que dm̃1 = dm1 ◦ ψ−1
2. En déduire que l’observation de Yi = ψ(Xi ) en lieu et place des (Xi ) conduit pour le nouveau
modèle (νθ )θ∈Θ au même estimateur du maximum de vraisemblance.
On peut prendre l’invariance également par un autre bout en opérant un changement de variable inver-
sible ϕ : Θ → Θ � sur le paramètre.
3. Formaliser la question dans le cadre des modèles canoniques et montrer que l’on trouve dans ce
cas θ^n = θ^n� .

L’exercice 16 montre une propriété d’invariance de l’estimateur par changement de va-


riable inversible (à condition d’adapter le modèle) qui est une caractéristique fondamentale de
l’approche par maximum de vraisemblance et l’une des idée fondatrice de R. Fisher. En par-
ticulier, la deuxième invariance, celle de la stabilité de l’estimateur par reparamétrisation est
mise en avant par Fisher comme distinctive de l’approche bayesienne (on pourra consulter [1]
pour une discussion historique).

5.3 Exemples et limitations


On peut calculer facilement les estimateurs θ^n de maximum de vraisemblance en fonction
de n par des formules explicites pour des modèles de v.a.i.i.d de loi classique.
On verra en TD par exemple :
• Pour les lois B(θ), on obtient θ^n = Xn qui est consistant (pas besoin de Wald),
• pour les loi exponentielles on trouve ^λn = 1/Xn (même chose que par la méthode des
moments),
• pour la loi de Poisson, on trouve ^λn = Xn ,
• pour les loi gaussiennes N (µ, σ2 ), on trouve µ
^ n = Xn et σ
^ 2n = S2n (qui n’est pas sans biais).
• pour les lois uniformes U[a,b] , on trouve a ^ n = sup
^n = inf1≤i≤n Xi et b 1≤i≤n .
Un point très positif par rapport à la méthode des moments est qu’elle offre une approche
assez systématique dès que l’on dispose de la fonction de vraisemblance.

29
Cependant, l’application n’est pas toujours possible. Un contre-exemple classique consiste
à considérer Θ = {(θ = (µ, σ2 ) | µ ∈ R, σ2 > 0} et la famille de loi µθ = fθ λ où

1 x2 1 (x−µ)2

fθ (x) = √ e− 2 + √ e 2σ2
2 2π 2 2πσ2
correspondant au mélange de 2 populations gaussiennes, l’une centrée autour de 0 et de va-
riance 1 et l’autre autour d’un centre � mobile � en µ et de variance σ2 . On vérifie que pour
tout θ ∈ Θ, on a pour tout x ∈ R, supθ � fθ� (x) = +∞ (il suffit de considérer θ � = (x, 1/p) pour
p ≥ 1). En particulier, l’estimateur θ^n du max de vraisemblance n’est pas défini.
Notons cependant que en prenant ΘM = [−M, M] × [1/M, M] alors pour M fixé, le maxi-
mum de vraisemblance pour les modèles restreints à ΘM existe et dès que θ0 ∈ ΘM , θ^n est
fortement consistant.

30
Chapitre 4

Optimalité des estimateurs

1 Fonctions de perte, risque


Il faut commencer par se donner une mesure d’efficacité d’un estimateur.
D ÉFINITION 4.1 (Fonction de perte, risque). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique et T :
(Ω, A) → (Rd , B(Rd )) un estimateur de g : Θ → Rd . On appelle fonction de perte toute fonction
mesurable L : Rd × Θ → R+ et risque associé à l’estimateur T pour la perte L, la fonction RT : Θ → R+
définie par
RT (θ) = Eθ (L(T, θ)) .
Deux exemples immédiats de fonction de perte :
• la perte quadratique L(t, θ) = |t − g(θ)|2 qui pénalise en fonction du carré (avec donc
une variation ΔL de L en fonction de Δt qui est linéaire par rapport à l’écart t − g(θ) ie
∇t L(t, θ) = 2(t − g(θ)))
• La perte L1 donnée par L(t, θ) = |t − g(θ)|, pour laquelle la variation ΔL ne dépend que
du signe de �t − g(θ), Δt�.
D ÉFINITION 4.2 (Estimateur admissible). On dit que T est admissible s’il n’existe pas un autre
estimateur S de g(θ) tel que RS ≤ RT (on dit alors que S est meilleur que T ) et RS (θ0 ) < RT (θ0 ) pour
un θ0 ∈ Θ.

Remarque 4.1. Généralement, on a pas d’estimateur T∗ qui soit meilleur que tous les autres estimateurs
car la relation � être meilleur � n’induit qu’un ordre partiel. Si on prend par exemple T ≡ g(θ0 ) alors
RT (θ0 ) = 0 et donc un tel estimateur T∗ aurait un risque nul pour tout θ ∈ Θ ce qui n’est pas possible
dès que g(Θ) n’est pas un singleton (pour le risque quadratique).

En général, deux estimateurs admissible T1 et T2 , sont tels que RT1 − RT2 est de signe variable
sur Θ. On peut parler cependant d’estimateur optimal au sens du risque (on dira efficace) si on
se restreint à une classe de biais.

2 Estimateurs efficaces
On considère ici la perte quadratique L(t, θ) = |t − g(θ)|2 . Si on se restreint à une classe
de biais, en utilisant la décomposition biais variance i.e. RT (θ) = bT (θ)2 + Vθ (T ), la recherche
d’estimateur optimaux dans une classe de biais revient à minimiser la variance à biais fixé.

31
D ÉFINITION 4.3. Soit T un estimateur de g(θ). On note bT (θ) = Eθ (T ) − g(θ). On dit que T est
efficace dans sa classe de biais si il n’existe pas d’estimateur S tel que bS = bT (même classe de biais)
et qui soit strictement meilleur que S i.e. RS ≤ RT et RS (θ0 ) < RT (θ0 ) pour un θ0 ∈ Θ. Lorsque T
est sans biais, on dira simplement que T est efficace (ou encore que T est un estimateur USBVM pour
� Uniformément Sans Biais de Variance Minimale � ou en anglais UMVU pour � Uniformly

Minimum Variance Unbiased �.)


A priori, pour le risque quadratique, on doit se restreindre aux estimateurs efficaces dans
leur classe de biais.

2.1 Statistique exhaustive


La notion de statistique exhaustive est introduite par Fisher et elle contient l’idée qu’une
statistique T (ω) (qui est une fonction de ω et donc contient moins d’information que ω lui-
même) est exhaustive si elle contient toute l’information sur le paramètre θ sous-jacent autre-
ment dit la loi conditionnelle de ω sachant T est indépendante de θ, c’est donc du � bruit � par
rapport au paramètre. On l’exprime plutôt en terme d’espérance conditionnelle de la façon
suivante :
D ÉFINITION 4.4 (Statistique exhaustive). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique. On dit que
T : (Ω, A) → (E, E) est une statistique exhaustive si pour toute v.a. positive bornée U, il existe
u : (E, E) → (R, B(R)) telle que Eθ (U|T ) = u(T ) Pθ p.s.

Remarque 4.2. Pour A ∈ A, en prenant UA = �A , on a donc que Pθ (A|T ) = uA (T ) Pθ p.s. et donc


on retrouve cette idée d’une loi conditionnelle sachant T qui ne dépend pas de θ.
Il y a une potentielle confusion avec le langage courant où exhaustif vaudrait dire qu’on ne perd rien.
Il faut comprendre ici qu’on ne perd rien à utiliser T (ω) plutôt que ω du point de vu de l’information
sur le paramètre.
La terminologie anglo-saxonne, sufficient statistics, statistique suffisante, est plus heureuse de ce
point de vue. Elle est utilisée parfois aussi en français.

Pour reconnaı̂tre une statistique exhaustive, on peut utiliser le remarquable théorème de


factorisation de Neyman et Fisher.
T H ÉOR ÈME 4.1 (Théorème de factorisation de Neyman-Fisher). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle
dominée par m σ-finie et T une statistique à valeurs dans (E, E). Alors T est exhaustive ssi il existe
h : (Ω, A) → (R, B(R)) positive et pour tout θ ∈ Θ une fonction φθ : (E, E) → (R, B(R)) positive
telle que
Pθ = hφθ (T )m .

Démonstration. Comme m est σ-finie, on sait qu’il existe une mesure de probabilité m∗ � m
qui est une dominante privilégiée et s’écrit de la forme

m∗ = ci P θ i (4.1)
i≥0

avec ci ≥ 0.
On suppose d’abord que m = m∗ et on montre alors que T est exhaustive ssi pour tout
θ ∈ Θ, une fonction mesurable φθ : E → R+ telle que Pθ = φθ (T )m.

32
(⇐) En effet, pour tout U v.a. bornée et tout f : E → R borélienne bornée, il existe u : (E, E) →
(R, B(R)), tel que Em (U|T ) = u(T ) m p.s. Par suite,

Eθ (Uf(T )) = Em (Uφθ (T )f(T )) = Em (Em (U|T )φθ (T )f(T )) = Eθ (u(T )f(T ))

ce qui donne Eθ (U|T ) = u(T ) Pθ p.s.


.
(⇒) Notons d’abord que PT,θ = Pθ ◦ T −1 � m ◦ T −1 = mT et donc par le théorème de Radon-
Nikodym, il existe φθ : (E, E) → (R+ , B(R+ )) tel que PT,θ = φθ mT . Par hypothèse, on a
alors pour tout U v.a. bornée l’existence de u : (E, E) → (R, B(R)) telle que Eθ (U|T ) =
u(T ) Pθ p.s. Par suite pour tout f : (E, E) → (R, B(R)) bornée, on a pour tout θ ∈ Θ que
Eθ (Uf(T )) = Eθ (u(T )f(T )). On tire de (4.1) que Em (Uf(T )) = Em (u(T )f(T )) et donc que
Em (U|T ) = u(T ) p.s. On déduit alors que

Eθ (U) = Eθ (u(T )) = Em (φθ (T )u(T )) = Em (φθ (T )Em (U|T )) = Em (φθ (T )U)

ce qui nous donne que Pθ = φθ m.


Dans le cas général, comme m∗ � m (m∗ est une dominante privilégiée d’où si m(A) = 0 alors
Pθ (A) = 0 pour tout θ ∈ Θ et donc m∗ (A) = 0), il existe h : (Ω, A) → (R+ , B(R+ )) telle que
m∗ = hm ce qui donne le sens (⇒= d’après ce qui précède.
Pour le sens (⇐), on suppose l’existence de Φθ et h telles que Pθ = Φθ (T )hm. Par suite,

la dominante privilégiée m∗ vérifie m∗ = r(T )hm pour r = i ci Φ . Comme m∗ (r(T ) ≤
�θ
0) = 0, on a pour tout A ∈ A que Pθ (A) = Pθ (A ∩ (r(T ) > 0)) = A∩(r(T )>0) Φθ (T )hdm =
� � Φθ
A∩(r(T )>0) r(T ) dm∗ = A r (T )�r>0 (T )dm∗ . On a donc Pθ = Φ̃θ (T )m∗ avec Φ̃θ = r �r>0 ce
Φθ (T ) Φθ

qui donne que T est exhaustive.

Remarque 4.3. On remarque immédiatement que dans le cas d’un n-échantillon de loi N (µ, 1) on
� �
a dPθ (x) = exp(− ni=0 x2i /2) exp(µ ni=1 xi − µ2 /2)dx si bien que T = Xn est une statistique
exhaustive.

Exercice 17 (Important). Vérifier que pour les modèles exponentiels, la statistique naturelle est ex-
haustive.

T H ÉOR ÈME 4.2 (Rao-Blackwell). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique et T : (Ω, A) → (E, E)
une statistique exhaustive. Soient S : (Ω, A) → (Rd , B(Rd )), et s : (E, E) → (Rd , B(Rd )) telle que
S � = s(T ) = Eθ (S|T ) Pθ p.s pour tout θ ∈ Θ. Alors Eθ (S) = Eθ (S � ) et VS � (θ) ≤ VS (θ) pour tout
θ ∈ Θ (S � est meilleur que S).

Démonstration. On remarque que Eθ (S � ) = Eθ (Eθ (S|T )) = Eθ (S). De plus, par définition de


l’espérance conditionnelle comme projection sur L2 (Ω, σ(T ), Pθ ), Eθ (|S − Eθ (S)|2 ) = Eθ (|S −
Eθ (S|T )|2 ) + Eθ (|Eθ (S|T ) − Eθ (S)|2 ).

A ce stade, on sait réduire la variance d’un estimateur en restant dans sa classe de biais par
conditionnement par rapport à une statistique exhaustive mais on ne sait pas si l’estimateur
obtenu est efficace.

33
2.2 Complétude
D ÉFINITION 4.5. Soit T exhaustive. On dit que T est complète si pour tout ψ : E → R mesurable telle
que Eθ (|ψ(T )|) < +∞ pour tout θ ∈ Θ on a :
Eθ (ψ(T )) = 0 ∀θ ∈ Θ ⇒ ψ(T ) = 0 Pθ p.s. ∀θ ∈ Θ .
P ROPOSITION 4.1. Soient T est une statistique exhaustive complète et un estimateur S tel que Eθ (|S|2 ) <
+∞ pour tout θ ∈ Θ. Alors S est efficace dans sa classe de biais ssi S = ψ(T ) Pθ p.s. pour tout θ ∈ Θ
avec ψ : E → Rd mesurable.

Démonstration. (⇒) En effet, comme T est exhaustive, il existe ψ mesurable tel que Eθ (S|T ) =
ψ(T ) Pθ p.s. pour tout θ ∈ Θ. Par définition de l’espérance consitionnelle, on a pour tout θ ∈ Θ
Eθ (|S − Eθ (S)|2 ) = Eθ (|S − Eθ (S|T )|2 ) + Eθ (|Eθ (S|T ) − Eθ (S)|2 ) .
On a donc
Eθ (|S − Eθ (S)|2 ) = Eθ (|S − ψ(T )|2 ) + Eθ (|ψ(T ) − Eθ (S)|2 ) .
Comme ψ(T ) est dans la même classe de biais que S et que S est efficace dans sa classe de biais,
on a
Eθ (|S − Eθ (S)|2 ) ≤ Eθ (|ψ(T ) − Eθ (ψ(T ))|2 ) = Eθ (|ψ(T ) − Eθ (S)|2 )
d’où Eθ (|S − ψ(T )|2 ) = 0 et S = φ(T ) Pθ p.s. pour tout θ ∈ Θ.
(⇐) En effet, si S = ψ(T ), alors pour tout estimateur S � dans la même classe de biais,
Eθ (S � |T ) = ψ � (T ) est meilleur que S � et comme Eθ (ψ(T ) − ψ � (T )) = 0 pour tout θ ∈ Θ, on
déduit de la complétude de T que S = ψ � (T ). Par suite, S est meilleur que S � et donc S est
efficace dans sa classe de biais.

P ROPOSITION 4.2 (Complétude des modèles exponentiels). On suppose que (Ω, A, (Pθ )θ∈Θ ) est
un modèle exponentiel dominé par m σ-finie associé à (η, T ). On suppose que η(Θ) est d’intérieur non
vide. Alors la statistique canonique est complète.

Démonstration. On note mT = m◦T −1 la mesure image de m par T et on considère ψ mesurable


telle que Eθ (|ψ(T )|) < +∞ et Eθ (ψ(T )) = 0 pour tout θ ∈ Θ. En décomposant ψ = ψ+ − ψ− on
déduit que sur une boule B(η0 , �) ⊂ η(Θ) on a pour tout η ∈ B(η0 , �)
� �
�η,t�
+ +
γ (η) = ψ (t)e dm (t) = ψ− (t)e�η,t� dmT (t) = γ− (η)
T

On vérifie de plus que pour ξ ∈ B(0, �), z �→ γ+ (η0 + zξ) et z �→ γ− (η0 + zξ) sont holomorphes
sur la bande B = {z ∈ C | |Re(z)| < 1}. Comme elles coı̈ncident sur le segment ] − 1, 1[, elles
coı̈ncident sur la bande. En particulier pour tout λ ∈ R et tout ξ ∈ B(0, �), on a γ+ (η0 + iλξ) =
γ− (η0 + iλξ) d’où l’on déduit que γ+ (η0 + iξ) = γ− (η0 + iξ) pour tout ξ ∈ Rk i.e.
� �
i�ξ,t� �η0 ,t� +
e e ψ (t)dm (t) = ei�ξ,t� e�η0 ,t� ψ− (t)dmT (t)
T

Par injectivité de la transformée de Fourier des mesures finies, on déduit que e�η0 ,t� ψ+ (t) =
e�η0 ,t� ψ− (t) mT p.p. et donc que ψ+ (T ) = ψ− (T ) m p.p. ce qui donne le résultat.

� On tire immédiatement qu’alors on a pour les modèles exponentiels vérifiant η(Θ) ou-
vert, tous les estimateurs de la forme ψ(T ) où T est une statistique canonique sont efficace dans
leur classe de biais !

34
3 Information de Fisher et borne de Cramer-Rao
Dans cette section nous allons aborder brièvement des idées pourtant extrêmement féconde
autour de la géométrie des modèles. On considère ici un modèle statistique (Ω, A, (Pθ )θ∈Θ )
dominé par une dominante m σ-finie vérifiant les hypothèses suivantes :
(R1 ) Θ est un ouvert de Rk et θ �→ Lθ (ω) est différentiable en θ sur Θ m p.p. de gradient
notée ∇θ Lθ (ω). Pour tout θ ∈ Θ, on peut alors définir Pθ p.s. �θ (ω) = log(Lθ (ω)) et
∇θ �θ (ω) = Lθ 1(ω) ∇θ Lθ (ω).
(R2 ) Pour tout θ ∈ Θ, on a Eθ (|∇�θ |2 ) < +∞.
(R3 ) Pour toute statistique S : Ω → R tel que Eθ (|S|2 ) < +∞ pour tout θ ∈ Θ, l’application
θ �→ Eθ (S) est différentiable et ∇θ Eθ (S) = Eθ (S ∇θ �θ )
D ÉFINITION 4.6 (Information de Fisher). Soit (Ω, A, (Pθ )θ∈Θ ) vérifiant les conditions (R). Pour
tout θ ∈ Θ, on appelle information de Fisher la quantité
∂�θ ∂�θ
I(θ) = Eθ (∇θ �θ ∇θ �Tθ ) = (Eθ ( )1≤i,j≤k )
∂θi ∂θj

Remarque 4.4. On désigne par � la relation d’ordre habituelle sur les matrices symétriques : A � B
si A − B est symétrique positive.

T H ÉOR ÈME 4.3 (Borne de Cramer-Rao). Soit (Ω, A, (Pθ )θ∈Θ ) vérifiant les conditions (R) et T :
Ω → Rp une statistique telle que Eθ (|T |2 ) < +∞ pour tout θ ∈ Θ. Alors en tout point θ ∈ Θ où I(θ)
est inversible on a
ΓT (θ) � deT (θ)I(θ)−1 deT (θ)T .
où eT (θ) = Eθ (T ), deT (θ) est la matrice jacobienne de eT en θ et ΓT (θ) désigne la matrice de variance-
covariance de T sous Pθ .

Démonstration. Soient u ∈ Rk et v ∈ Rp , on a �eT (θ), v� = Eθ (�T, v�) et donc

�deT (θ)u, v� = Eθ (�∇θ �θ , u��T, v�) .

On remarque d’après (R3 ) que Eθ (∇θ �θ ) = ∇θ 1 = 0. On a donc

�deT (θ)u, v�2 = Eθ (�∇θ �θ , u��T − eT (θ), v�)2


CS
≤ Eθ (�∇θ �θ , u�2 )Eθ (�T − eT (θ), v�2 ) (4.2)
= �I(θ)u, u��ΓT (θ)v, v�

En posant u = I(θ)−1 deT (θ)T v on déduit le résultat.

Remarque 4.5. Dans le cas où T est un estimateur sans biais de θ, on a eT (θ) = θ et deT (θ) = Idk si
bien que la borne de Cramer-Rao nous donne

ΓT (θ) � I(θ)−1

c’est à dire que l’inverse de la matrice d’information de Fisher minore la matrice de variance-covariance
de T . En prenant la trace, on obtient

Eθ (|T − θ|2 ) ≥ Tr(I(θ)−1 )

35
et donc une minoration du risque quadratique. Dans le cas k = 1, le résultat se simplifie encore en

1
Eθ ((T − θ)2 ) ≥ ,
I(θ)

ce qui donne une borne inférieure pour le risque quadratique en fonction de l’information de Fisher (ou
son inverse). La variance d’un estimateur sans biais de θ est d’autant plus grande que l’infor-
mation de Fisher est faible.

L’information de Fisher peut s’apparenter à une mesure du rapport signal sur bruit au niveau
des modèles ou plus encore comment les modèles se différencient au voisinage d’un point θ.
On peut être plus spécifique en regardant le développement de la divergence de Kullback-
Leibler au voisinage de θ :
Lθ �
θ � �→ K(θ � , θ) = Eθ (ϕ( ))

h2
où ϕ(x) = x log(x). Comme ϕ(1 + h) = h + 2 + o(h2 ), on déduit pour h = �∇θ Lθ , δθ�/Lθ =
�∇θ �θ , δθ� que

1 1
K(θ + δθ, θ) = Eθ (�∇θ �θ , δθ�) + Eθ (�∇θ �θ , δθ�2 ) + o(|δθ2 ) = δθT I(θ)δθ + o(|δθ|2 )
� �� � 2 2
=0

On voit que l’information de Fisher s’apparente à une métrique locale en θ induite sur l’espace
des paramètres par une métrique sur les distributions de probabilités sur Ω donnant à Θ une
structure de variété riemannienne.

4 Efficacité asymptotique
On va voir dans cette section pour les modèles réguliers l’EMV donne asymptotiquement
un estimateur qui atteint la borne de Cramer-Rao.
On se place dans le cas d’un modèle de n-échantillon de loi (µθ )θ∈Θ sur (X , BX ) où Θ est
un ouvert de Rk . On suppose que µθ = fθ m1 pour la dominante σ-finie m1 et on suppose que
fθ (x) > 0 pour tout (x, θ) ∈ X × Θ. On considère donc le modèle canonique (Ω, A, (Pθ )θ∈Θ )
associé en posant Ω = X n , A = ⊗ni=1 BX , m = ⊗ni=1 m1 , (Xi )1≤i≤n les projections canoniques et
Pθ = ⊗ni=1 µθ . On pose
n

Lθ,n = fθ (Xi ), �θ,n = log(Lθ,n ) et Pθ = Lθ,n m .
i=1

. �
(R1� ) On suppose que θ �→ �θ,1 = log(fθ ) est C1 et |∇θ �θ,1 |2 dµθ < +∞ puis on définit l’infor-
mation de Fisher pour la famille (µθ )θ∈Θ par

I(θ) = ∇θ �θ,1 ∇θ �Tθ,1 dµθ .

Dans la suite on omettra l’indice θ dans ∇θ et on écrira simplement ∇. On vérifie par indépendance
des variables ∇(log(fθ (Xi )) que
.
In (θ) = Eθ (∇�θ,n ∇�Tθ,n ) = nI(θ)

36
si bien que l’information de Fisher du modèle augmente avec la taille de l’échantillon.

On suppose que θ^n est un EMV de θ i.e. que �θ^n ,n = maxΘ �θ,n et que θ^n → θ (i.e. θ^n est
consistant). On veut montrer ici que � pour des modèles suffisamment réguliers �,
√ L
n(θ^n − θ) → N (0, I(θ)−1 ) (4.3)

Or si l’on suppose par exemple que θ^n est sans biais 1 et que la borne de Cramer-Rao s’ap-
plique, on a Γθ^n � In (θ)−1 = I(θ)
n et donc

Γ√n(θ^n −θ) � I(θ)−1 .

La convergence en loi donnée par (4.3) montre que la variance-covariance limite atteint la
borne inférieure ce que l’on appelle l’efficacité asymtotique de l’EMV.
Nous allons montrer un résultat de normalité asymptotique.
(R2� ) On suppose que pour tout θ ∈ Θ, il existe un voisinage U(θ) de θ sur lequel θ �→ fθ est C2
et
Em ( sup (|∇fθ � | + �∇2 fθ � �)(X1 )) < +∞
θ � ∈U(θ)

où ∇2 fθ � (x) = ∇(∇T fθ � )(x) désigne la matrice hessienne de θ �→ fθ (x) en θ � (on prend
pour �∇2 fθ � la norme subordonnée à la norme euclidienne 2 ).
P ROPOSITION 4.3. On suppose (R1� − R2� ). On a alors Eθ (∇2 �θ,n ) = −In (θ).

Démonstration. On commence par remarquer que ∇2 �θ,n = ni=1 ∇2 log(fθ (Xi )) et puisque les
Xi sont i.i.d sous Pθ , il suffit de vérifier le résultat pour n = 1. On considère θ ∈ Θ et on intro-
duit un voisinage U(θ) = B(θ, δ) de θ dans Θ tel supθ � ∈U(θ) |∇fθ � |(X1 ) et supθ � ∈U(θ) �∇2 fθ � (X1 )�
soient dans L1 (m).
Comme supU(θ) |∇fθ � |(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme que

Em (∇fθ (X1 )) = ∇Em (fθ (X1 )) = ∇1 = 0 .

De même, comme supU(θ) �∇2 fθ � �(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme, que
Em (∇2 fθ (X1 )) = ∇Em ((∇fθ )T (X1 )) = ∇0 = 0.
On termine la preuve en remarquant que par ailleurs on a fθ ∇ log(fθ ) = ∇fθ et

∇2 fθ = fθ ∇ log(fθ )∇ log(fθ )T + fθ ∇2 log(fθ ) = fθ (∇ log(fθ )∇ log(fθ )T + ∇2 log(fθ ))

d’où 0 = Em (∇2 log(fθ )(X1 )) = Eθ (∇ log(fθ )∇ log(fθ )T (X1 ) + ∇2 log(fθ )(X1 )) si bien que

Eθ (∇2 log(fθ )(X1 )) = −I(θ) .

On considère l’hypothèse de régularité suivante :


(R3� ) Pour tout θ ∈ Θ, il existe un voisinage U(θ) tel que

Eθ ( sup �∇2 �θ � ,1 �(X1 )) < +∞


θ � ∈U(θ)
1. Généralement, il est plutôt asymptotiquement sans biais i.e. |bθ^n (θ)| ≤ C/n
2. ou tout autre norme par équivalence des normes en dimension finie

37
T H ÉOR ÈME 4.4 (Normalité asymptotique). On suppose (R1� − R2� − R3� ) et on considère θ ∈ Θ pour

lequel θ^n → θ. Alors si I(θ) est inversible, on a
√ L
n(θ^n − θ) → N (0, I(θ)−1 )
�1
Démonstration. En effet, on a ∇�θ^n ,n = 0 = ∇�θ,n + 0 ∇2 �θ+t(θ^n −θ),n (θ^n − θ)dt si bien que

∇�θ,n ∇2 �θ,n √
^ 1 1 2
√ = (− + rn ) n(θn − θ) avec rn = (∇ �θ+t(θ^n −θ),n − ∇2 �θ,n )dt . (4.4)
n n n 0
P
Montrons que rn → θ
0 lorsque n → +∞. Si ρ(s, x) = sup|θ � −θ|≤s �∇2 �θ,1 − ∇2 �θ � ,1 �(x), on a
lims→0 ρ(s, x) = 0 et pour s suffisamment petit, on a la domination

�ρ(s, X1 )� ≤ 2 sup �∇2 �θ � ,1 �(X1 ) ∈ L1 (Pθ ) .


θ � ∈U(θ)

Il vient par c.d. que Eθ (ρ(s, X1 )) → 0 pour s → 0. Soient � > 0 et s > 0 tels que Eθ (ρ(s, X1 )) < �.

Comme �rn � ≤ n1 ni=1 ρ(|θ^n − θ|, Xi ), on a
n
1�
Pθ (�rn � ≥ �) ≤ Pθ (|θ^n − θ| ≥ s) + Pθ ( ρ(s, Xi ) ≥ �) .
n
i=1

Par consistance Pθ (|θ^n − θ| ≥ s) → 0 et par la LFGN comme Eθ (ρ(s, X1 )) < �, on a que



Pθ ( n1 ni=1 ρ(s, Xi ) ≥ �) → 0.
En multipliant (4.4) par I(θ)−1 on obtient
∇�θ,n √ ∇2 �θ,n
I(θ)−1 √ = (Id + rn� ) n(θ^n − θ) avec rn� = −I(θ)−1 − Id + I(θ)−1 rn (4.5)
n n
2� P P
La LFGN et la proposition 4.3 donne −I(θ)−1 ∇ n
θ,n
− Id →
θ
0 si bien que rn� →
θ
0. Comme par
L
le TCL on a I(θ)−1 ∇�√θ,n
n
→ N(0, I(θ)−1 ) on déduit le résultat vérifiant le lemme suivant :
L EMME 4.1. Soient (Un )n≥0 (An )n≥0 , (Zn )n≥0 trois familles de v.a. à valeurs dans Rk , Mk (R) et Rk
L P L
respectivement. On suppose que Un = An Zn avec Un → U∞ et An →
θ
Id. Alors Zn → U∞

Démonstration. En exo

5 Risque bayesien et estimateurs minimax


5.1 Risque bayesien
Le point de vue bayesien consiste à randomiser le paramètre i.e. à supposer que le pa-
ramètre est aléatoire et suit une distribution a priori π sur (Θ, BΘ ) qui peut refléter nos croyances
ou notre information sur le paramètre 3 Dans ce cas, en supposant que pour tout B ∈ A,
3. R. Fisher s’est très fortement opposé à cette approche bayesienne des statistiques qui conduit à calculer la
loi a posteriori sur le paramètre sachant l’observation ω appelée à l’époque � probabilité inverse � ou � inverse
probability � et à choisir comme estimateur le paramètre maximisant la loi a posteriori sachant l’observation. Il s’en
explique dans son papier de 1922 [4]. Son argument est que cet estimateur n’est pas invariant par changement de
paramétrisation θ ∈ Rd → ψ(θ) ∈ Rd à cause de l’apparition du déterminant jacobien Jψ (θ) de la transformation
dans le changement de variable contrairement à l’estimateur du max de vraisemblance qu’il promeut. L’objection
de Fisher peut-être levée si on se place dans le cadre que la théorie de la décision que nous considérons ici.

38
θ → Pθ (B) est mesurable, on peut introduire la distribution de probabilité � sur (Θ×Ω, BΘ ⊗A)
définie sur les cylindres A × B par

�(A × B) = Pθ (B)dπ(θ)
A

On écrira souvent �(dθ, dω) = π(dθ)Pθ (dω).


D ÉFINITION 4.7 (Risque intégré, risque bayesien). Pour toute fonction de perte L : Rd × Θ → R+
et tout estimateur T de g(θ) on appelle risque intégré la quantité :
� �
RT = Eθ (L(T, θ))dπ(θ) = L(T (ω), θ)d�(θ, ω)
Θ Θ×Ω

On définit alors le risque bayesien la quantité

RBayes = inf{RT | T estimateur de g(θ) } .

Tout estimateur de g(θ) atteignant le risque bayesien est appelé estimateur bayesien.

Exercice 18. Vérifier que lorsque l’estimateur bayesien de g(θ) est unique (à m p.p. pres) alors il est
toujours admissible.

5.2 Cas quadratique


Dans le cadre du risque quadratique, on peut écrire en notant ω : Θ×Ω → Ω et θ : Θ×Ω →
Θ telles que ω(θ, ω) = ω et θ(θ, ω) = θ :

RT = �(|T (ω) − g(θ)|2 ) = �(|T (ω) − �(g(θ)|ω)|2 ) + �(|�(g(θ)|ω) − g(θ)|2 )

Par suite en définissant l’estimateur Tπ tel que Tπ (ω) = �(g(θ)|ω) � p.s., on a que RTπ ≤ RT
pour tout estimateur T de g(θ) et en particulier le risque de Bayes s’obtient en intégrant la
variance conditionnelle de g(θ) sachant ω.

RBayes = �(|�(g(θ)|ω) − g(θ)|2 ) = �(�(|g(θ) − �(g(θ)|ω)|2 |ω))


� �� �
variance conditionnelle

On voit donc ici que la question d’un estimateur optimal dans le cadre du risque intégré sur
une loi a priori π a une solution qui atteint le risque bayesien.

5.3 Cas général


Lorsque L n’est pas le risque quadratique, on peut procéder de manière similaire dans
le cas où (Ω, A, (Pθ )θ∈Θ ) est dominé par m σ-finie. On a alors � � π ⊗ m et �(dθ, dω) =
Lθ (ω)π(dθ)m(dω) (on suppose (θ, ω) �→ Lθ (ω) mesurable). On peut écrire
� �� �
RT = Lθ (ω)L(T (ω), θ)π(dθ) m(dω)
Ω Θ

si bien que s’il existe un estimateur Tπ : Ω → Rd tel que



Tπ (ω) ∈ arg min L(t, g(θ))πω (dθ)
t∈Rd Θ

39
avec πω (dθ) = Lθ (ω)π(dθ) alors Tπ minimise le risque intégré RT sur l’ensemble des esti-
mateurs. πω est proportionnelle à la loi conditionnelle de θ sachant ω. En effet, pour toutes
fonctions Φ : Θ → R et Ψ : Ω → R mesurable positives on a

�(Φ(θ)Ψ(ω)) = Φ(θ)Ψ(ω)Lθ (ω)π(dθ)m(dω)
Θ×Ω
� �� � (4.6)
Lθ (ω)
= Z(ω)�Z(ω)>0 Ψ(ω) Φ(θ)π(dθ) m(dω)
Ω Θ Z(ω)

où Z(ω) = Θ Lθ (ω)π(dθ). Par suite, on identifie Zm comme la loi � ◦ ω −1 de ω sous � et
Z(ω) π comme la loi conditionnelle de θ sachant ω qui est bien définie � p.s. (puisque Z(ω) > 0
L· (ω)

� p.s.)

5.4 Estimateurs minimax


Un dernier point de vue est plutôt que de mettre une loi sur les paramètres, de vouloir se
garantir dans le cas le pire c’est-à-dire de rechercher un estimateur T∗ qui atteint

min max RT (θ) .


T est. Θ

T H ÉOR ÈME 4.5. Soient π une distribution a priori sur Θ et Tπ un estimateur bayesien tel que RTπ (θ) ≡
r, alors Tπ est un estimateur minimax.

Démonstration. On raisonne par l’absurde. En effet s’il existe T � tel que maxΘ RT � < maxΘ RT ,
alors � �
RT � = RT � (θ)π(dθ) ≤ max RT � < max RT = RT (θ)π(dθ) = RT ,
Θ Θ Θ Θ
ce qui contredit le fait que Tπ soit un estimateur bayesien pour π.

40
Chapitre 5

Tests d’hypothèses

La théorie des tests joue un rôle très important dans les applications pratiques des statis-
tiques dans un grand nombre de domaines applicatifs comme un cas important de la théorie
de la décision : on décide 1 ou 0, � oui � ou � non � à partir des données pour tenter de
� découvrir � des patterns statistiques qui témoignent de l’existence d’un effet ou d’un phé-

nomène. Ici l’idée, toujours dans le paradigme de Fisher est d’interroger le paramètre sous-
jacent θ. Dans le cas du contrôle introductif, on pose la question θ ≤ θ0 ou θ > θ0 ou plus
généralement θ ∈ Θ0 ou Θ ∈ Θ1 .

1 Introduction
On considère la situation classique de deux sous-ensembles disjoints Θ0 et Θ1 de Θ. On
veut tester ou décider à partir des observations si θ ∈ Θ0 (hypothèse H0 considérée comme
l’hypothèse la plus courante, la plus commune) ou si θ ∈ Θ1 (hypothèse H1 considérée comme
l’hypothèse alternative).
D ÉFINITION 5.1. On appelle test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 toute v.a. d : Ω → [0, 1]

Remarque 5.1. — Lorsque d ∈ {0, 1} on dit que le test est déterministe. Lorsque d = 1 on décide
H1 , lorsque d = 0, on décide H0
— Lorsque d peut prendre des valeurs qui ne sont pas dans {0, 1}, on dit que le test est randomisé.
On doit comprendre que d(ω) est la probabilité de décider H1 (conditionnellement aux données).

La question centrale est celle de la construction de � bons � tests. Pour cela on considère
deux critères :
(Spécificité) Il s’agit de contrôler la probabilité de � faux �-positif c’est à dire la probabilité de décider
H1 lorsque θ ∈ Θ0 i.e. la valeur de Eθ (d) lorsque θ ∈ Θ0
(Sensibilité) Il s’agit de contrôler la probabilité de � faux �-négatif c’est à dire la probabilité de décider
H0 lorsque θ ∈ Θ1 ou encore de s’assurer que la probabilité de décider H1 lorsque H1 est
vraie est suffisamment grande et que Eθ (d) soit grand lorsque θ ∈ Θ1
D ÉFINITION 5.2. Soit d : Ω → [0, 1] un test de θ ∈ Θ0 contre θ ∈ Θ1 .
1. On appelle taille de d la quantité supθ∈Θ0 Eθ (d). On appelle puissance de d la quantité infθ∈Θ1 Eθ (d).
2. On dit que d est sans biais si supθ∈Θ0 Eθ (d) ≤ infθ∈Θ1 Eθ (d).

41
3. Lorsque Θ0 et Θ1 sont des singletons, on dira que d est un test d’hypothèses simples. Sinon on
dira que c’est un test d’hypothèses composites.
4. On appelle fonction puissance de d la fonction β : Θ → [0, 1] telle que β(θ) = Eθ (d). On dit
que d est de niveau α si la taille de d est inférieure à α i.e. supΘ0 β ≤ α.

2 Test de Neyman-Pearson du rapport de vraisemblance


A priori toute statistique T à valeur dans R peut conduire à un test d = �T ≥t mais comment
construire un � bon test � assurant une bonne puissance pour un niveau contrôlé ? Dans le
cas des test d’hypothèses simples, la solution optimale est connue depuis l’article de Jerzy
Neyman et Egon Pearson de 1933 [7].

2.1 Lemme de Neyman-Pearson


On considère le test d’hypothèses simple de H0 : θ = θ0 contre H1 : θ = θ1 on a suppose
que m domine Pθ0 et Pθ1 (par exemple m = (Pθ0 + Pθ1 )/2) et on écrit Pθ0 = L0 m et Pθ1 = L1 m
(L0 et L1 sont des vraisemblances pour la dominante m).
D ÉFINITION 5.3. On dit que d est un test de Neyman-Pearson de θ = θ0 contre θ = θ1 si il existe
r ∈ R+ et γ ∈ [0, 1] tels que d = �L1 >rL0 + γ�L1 =rL0 .
T H ÉOR ÈME 5.1 (Lemme de Neyman-Pearson). 1. Si d est un test de NP tel que Eθ0 (d) = α,
alors il est un test le plus puissant parmi les tests de θ = θ0 contre θ = θ1 de niveau α (i.e.
si d � est un autre test tel que Eθ0 (d � ) ≤ α (de niveau α) alors Eθ1 (d � ) ≤ Eθ1 (d). De plus d est
sans biais.
2. Soit α ∈ [0, 1]. Alors il existe un test de NP d tel que Eθ0 (d) = α (éventuellement randomisé).

Remarque 5.2. Il s’agit en fait d’un problème d’optimisation sous contraintes et c’est ainsi que le
problème est abordé dans le papier de 1933. Formellement on peut dire que l’on cherche une fonction
� �
d(ω) maximisant dL1 dm sous les contraintes dL0 dm ≤ α et 0 ≤ d(ω) ≤ 1 pour tout ω (un
nombre infini de contraintes d’inégalité) et passer par une approche primal-dual. Cette approche permet
de trouver la forme de la solution. Une fois celle-ci connue, on peut construire une preuve assez directe
et simple de son optimalité, c’est ce que nous proposons ici.

Démonstration. 1. Soit d un test de NP tel que α = Eθ0 (d). Soit d � un autre test tel que
Eθ0 (d � ) ≤ α. Alors on a
(d − d � )L1 ≥ r(d − d � )L0 . (5.1)
En effet, si L1 > rL0 alors d = 1 et donc comme d−d � ≥ 0 le résultat est vrai. Si maintenant
L1 < rL0 , alors d = 0 et d − d � ≤ 0 et l’inégalité est encore vraie.
Par suite
� �
� �
Eθ1 (d − d ) = (d − d )L1 dm ≥ r(d − d � )L0 dm = rEθ0 (d − d � ) ≥ 0 .

En prenant d � ≡ α, on obtient que Eθ1 (d) − α ≥ 0 i.e. d est sans biais.


2. Il suffit de considérer r = inf{s ∈ R | Pθ0 (L1 > sL0 ) < α}. On vérifie par c.à.d de s �→
Pθ0 (L1 > sL0 ) que Pθ0 (L1 > rL0 ) ≤ α (notons que sous Pθ0 , L0 > 0 Pθ0 p.s.) et que

42
α ≤ lims<r Pθ0 (L1 > sL0 ) = Pθ0 (L1 ≥ rL0 ). Si Pθ0 (L1 > rL0 ) = α, on peut prendre d =
�L1 >rL0 (test déterministe), sinon on pose γ = (α − Pθ0 (L1 > rL0 ))/Pθ0 (L1 = rL0 ) ∈]0, 1] et
d = �L1 >rL0 + γ�L1 =rL0 ce qui donne le résultat.

Dans le cas des modèles exponentiels de rang 1 on peut écrit Lθ = exp(η(θ)T − A(θ)) et
par suite dans le cas où η(θ1 ) > η(θ0 ) les tests de Neyman-Pearson sont de la forme d =
�T>t + γ�T =t . Dans le cas η(θ1 ) < η(θ2 ), ils sont de la forme d = �T<t + γ�T =t
Exercice 19. Déterminer la forme des tests de NP dans le cas d’un n-échantillon de loi B(θ) et de loi
N (µ, σ2 ) lorsque σ2 est fixé puis lorsque µ est fixé.

2.2 Lien avec l’approche bayesienne


Si on se place dans un contexte bayesien avec la loi a priori π = p0 δθ0 + p1 δθ1 , alors en
prenant la perte L(d, θ) = d�θ=θ0 + (1 − d)�θ=θ1 , les tests optimaux bayesien dπ minimisent le
risque bayesien
Rd = �(L(d(ω), θ))

Or on sait que le risque bayesien est atteint pour dπ (ω) ∈ arg minγ∈[0,1] L(γ, θ)Lθ (ω)π(dθ)
c’est-à-dire
dπ (ω) ∈ arg min(γLθ0 (ω)p0 + (1 − γ)Lθ1 (ω)p1 )
γ∈[0,1]

Or si p1 Lθ1 > p0 Lθ0 le minimum est atteint pour γ = 1, si p1 Lθ1 < p0 Lθ0 pour γ = 0 et si
p1 Lθ1 = p0 Lθ0 toutes les valeurs γ ∈ [0, 1] conviennent.

Par suite, on peut prendre dπ = �Lθ p


> p 0 Lθ 0 + γ�Lθ p
= p 0 Lθ 0 et on faisant varier les valeurs du
1 1 1 1
rapport p0 /p1 et γ on retrouve la forme générale des tests de Neyman-Pearson.

3 Tests unilatères
L’approche sur les tests simples peut s’étendre sur les tests composites dans la situation des
rapports de vraisemblance monotone au sens suivant :
D ÉFINITION 5.4. On dit que (Ω, A, (Pθ )θ∈Θ ) dominé par m σ-finie où Θ ⊂ R est un modèle à rap-
port de vraisemblance croissant (MRVC) s’il existe T : (Ω, A) → (R, B(R)) une statistique et une
Lθ 1
famille (ϕθ0 ,θ1 )(θ0 ,θ1 )∈Θ0 ×Θ1 de fonctions croissantes ϕ : R → R+ telles que Lθ0 (ω) = ϕθ0 ,θ1 (T (ω))
m p.p. pour tous θ0 < θ1 ∈ Θ.

Remarque 5.3. On peut définir de même un modèle à rapport de vraisemblance décroissant. Notons
qu’en passant de de T à −T on passe de l’un à l’autre. On peut donc se ramener à un modèle MRVC.

D ÉFINITION 5.5 (Test UPP). On dit que d est un test uniformément plus puissant de θ ≤ θ0 contre
θ ≥ θ1 de niveau α (UPP(α)) si pour tout autre test d � de niveau α de θ ≤ θ0 contre θ ≥ θ1 , on a
Eθ (d) ≥ Ed (d � ) pour tout θ ∈ Θ1 .
T H ÉOR ÈME 5.2. On suppose que (Ω, A, (Pθ )θ∈Θ ) est un MRVC. Soit θ0 < θ1 ∈ Θ et d = �T>t +
γ�T =t un test de θ = θ0 contre θ = θ1 de taille α. Alors

43
1. la fonction puissance βd (θ) = Eθ (d) est croissante sur Θ
2. d est un test UPP(α) de θ ≤ θ0 contre θ ≥ θ1

Démonstration. On procède comme précédemment. Pour tout θ < θ � ∈ Θ, on note r = ϕθ,θ � (t).
On vérifie que pour tout autre test d � on a

Lθ � (d − d � ) ≥ rLθ (d − d � ) (∗)

En effet, sur Lθ � > rLθ alors d = 1 et (∗) est vraie ; sur Lθ � < rLθ alors d = 0 et (∗) est
encore vraie. Par suite en prenant d � ≡ Eθ (d) on déduit en intégrant par rapport à m que
βd (θ � ) − βd (θ) ≥ r(βd (θ) − βd (θ)) = 0 et donc que βd (θ) est croissante sur Θ. En particulier, d
est un test de niveau α de θ ≤ θ0 contre θ ≥ θ1 .
Enfin, en posant θ = θ0 et θ � ≥ θ1 , si d � est de niveau α sur θ ≤ θ0 , on déduit de (∗) que
βd (θ � ) − βd � (θ � ) ≥ r(βd (θ0 ) − βd � (θ0 )) ≥ 0.

Remarque 5.4. 1. Sans rien changer à d, d est aussi un test UPP(α) pour toutes les valeurs de
θ1 > θ0 et aussi dans le cas limite du test θ ≤ θ0 contre θ > θ0 .
2. Par ailleurs, on déduit immédiatement que si d = �T<t + γ�T =t avec Eθ0 (d) = α, alors d est un
test UPP(α) de θ ≥ θ0 contre θ ≤ θ1 cette fois pour tout θ1 < θ0 ou encore de θ ≥ θ0 contre
θ < θ0 .

Un cas standard est celui des modèles exponentiels de rang 1 pour lesquels η(θ) est crois-
sant en θ. On a alors pour θ ≤ θ �

Lθ �
= exp((η(θ � ) − η(θ)) T − (A(θ � ) − A(θ)))
Lθ � �� �
≥0

qui est donc une fonction croissante de la statistique naturelle T .


Par exemple, dans le cas le plus simple d’un n-échantillon de B(θ), les test UPP(α) sont de
la forme
d = �Xn ≥t + γ�Xn =t
il n’y a pas mieux à faire que de seuiller la moyenne empirique.

Exercice 20. Écrire le test UPP(α) dans le cas d’un n-échantillon de loi P(λ) de λ ≤ λ0 contre λ ≥ λ1 .

Exercice 21. Dans le cas d’un n-échantillon de loi U[0,θ] avec θ > 0, on est pas tout à fait dans le cadre
d’un MRVC car on peut avoir Lθ � /Lθ = +∞. En s’inspirant cependant de l’approche, déterminer un
test UPP(α) de θ ≤ θ0 contre θ ≥ θ1 pour 0 < θ0 < θ1 .

4 Tests bilatères
On cherche maintenant, toujours dans le cadre où Θ ⊂ R à tester θ ∈ [θa0 , θb0 ] contre θ ∈ /
On ne peut plus construire de test UPP car si un tel test d existait, il serait à la fois un
[θa0 , θb0 ].
test de niveau Eθ0 (d) de θ ≥ θa0 contre θ < θa0 et un test de niveau Eθb (d) de θ ≤ θb0 contre
0
θ > θb0 . Dans le cadre des MRVC, on connaı̂t les formes optimales qui sont contradictoires.

44
On peut cependant toujours combiner un test d1 unilatère de niveau α1 de θ ≥ θa0 contre
θ < θa0 et test d2 unilatère de niveau α2 de θ ≤ θb0 contre θ > θb0 de niveau α2 avec α1 + α2 = α
pour obtenir un test d = max(d1 , d2 ) de niveau α de θ ∈ [θa0 , θb0 ] contre θ ∈
/ [θa0 , θb0 ] puisqu’alors
sup Eθ (d) ≤ sup Eθ (d1 + d2 ) ≤ α1 + α2 ≤ α .
θ∈[θa b
0 ,θ0 ] θ∈[θa b
0 ,θ0 ]

5 Tests multiples
On suppose maintenant que l’on a une famille de sous-ensembles (Θ0,i )1≤i≤m de Θ. On
note Θ1,i = Θ \ Θ0,i pour tout 1 ≤ i ≤ m correspodants à m tests de H0,i : θ ∈ Θ0,i contre
H1,i : θ ∈ Θ1,i .

5.1 Controle du FWER et correction de Bonferroni


On suppose de l’on dispose pour chaque i d’un test di de niveau αi de θ ∈ Θ0,i contre
θ ∈ Θ1,i .
On suppose θ ∈ ∩m i=1 Θ0,i . Si on a fait tous les tests de la famille (di )1≤i≤m quelle est la
probabilité d’avoir au moins une hypothèse Hi,0 : θ ∈ Θ0,i rejetée à tort (au moins un faux-
positif) ? On appelle cette proba le FWER (Family-Wise-Error-Rate) c’est à dire
FWER = Pθ (∪ni=1 (di = 1))

P ROPOSITION 5.1 (Correction de Bonferroni). On a FWER ≤ m i=1 αi . En particulier si αi ≡
α
m
pour tout 1 ≤ i ≤ m alors FWER ≤ α.
� �m
Démonstration. En effet on a Pθ (∪ni=1 (di = 1)) ≤ m
i=1 Pθ (di = 1) ≤ i=1 αi .

Le contrôle du FWER consiste donc ici à diviser le niveau cible α par le mombre de tests
pour chaque test individuel : αi = α/m. C’est ce que l’on appelle la corrrection de Bonferroni.
Si maintenant, on considère que θ ∈ ΘH0 = ∩i∈H0 Θ0,i ∩i∈H / 0 Θ1,i où H0 ⊂ {1, · · · , m} i.e.
H0,i est vraie pour i ∈ H0 et fausse sinon. Dans ce cas, la décision di = 1 pour i ∈ / H0 est un
� �
vrai-positif et l’important est le contrôle de Pθ (∪i∈H0 (di = 1)) ≤ i∈H0 Pθ (di = 1) ≤ i∈H0 αi .
Si on connaissait m0 = |H0 |, on pourrait se contenter de prendre αi = α/m0 ce qui assure plus
de puisance de détection sur les hypothèses H0,i à rejeter lorsque i ∈/ H0 . Lorsqu’il y a pas mal
de chose à détecter, la correction de Bonferroni est donc assez conservative et peut manquer
de puissance.

5.2 False Decovery Rate et procédure de Benjamini et Hochberg


Pour dépasser les restrictions de l’approche par correction de Bonferroni, il faut introduire
une nouvelle idée. L’idée developpée par Y. Benjamini and Y. Hochberg dans [3] (voir aussi [2]
sur l’histoire de l’emergence de l’approche) est de ne pas controler le FWER mais la proportion
de fausse détection en espérance. Plus précisement si H0 est l’ensemble des indices i des hy-
pothèses H0,i vérifiées par θ, et si la procédure rejette R hypothèses (parmi les m hypothèses)
dont V correspondent à des hypothèses rejetées à tort parmi H0 , on veut controler
V
Q= �R≥1
R

45
sous Pθ pour θ ∈ ΘH0 .

Avant de présenter l’algorithme le plus connu (l’algorithme de Benjamini et Hochberg) on


suppose vérifiées les hypothèses suivantes :
H1 A chaque Θ0,i on associe une statistique Ti telle que la loi de Ti soit indépendante de θ pour
θ ∈ Θ0,i .
H2 On note Si (t) = Pθ (Ti > t) la fonction de survie de Ti pour θ ∈ Θ0,i et on suppose que Si
est continue. Par suite di = �(Si (Ti )≤α) est un test de niveau α de θ ∈ Θ0,i contre θ ∈
/ Θ0,i 1
H3 On suppose enfin que pour tout i ∈ ΘH0 , on a pour tout i ∈ H0 que Ti est indépendant de
(Tj )1≤j≤m,j�=i
L’algorithme de Benjamini-Hochberg de FDR s’écrit de la façon suivant. On note Pi = Si (Ti )
la p-value associée au test de θ ∈ Θ0,i contre θ ∈ Θ1,i .
1. On ordonne les Pi par ordre croissant en P(1) ≤ · · · ≤ P(m) . On note σ (aléatoire) telle que
P(i) = Pσ(i) .
2. On note R = f(P1 , · · · , Pm ) le plus grand i tel que P(i) ≤ i

3. On rejette les R hypothèses θ ∈ Θ0,σ(i) pour 1 ≤ i ≤ R.
Remarque 5.5. Une remarque très importante est que pour tout 1 ≤ i ≤ m, on rejette θ ∈ Θ0,i ssi
R ≥ 1 et Pi ≤ m R
α. En effet, si on rejette θ ∈ Θ0,i , alors 1 ≤ σ−1 (i) ≤ R et Pi ≤ P(R) ≤ m
R
α.
Reciproquement, si R ≥ 1 et Pi ≤ m α, alors σ (i) ≤ R car si σ (i) > R par definition de R, on a
R −1 −1
σ−1 (i)
Pi > m α > R
mα ce qui est absurde.
De la remarque sous θ ∈ ΘH0 , le nombre de fausses découvertes i.e. le nombre V d’hy-

pothèses i ∈ H0 rejetées à tort est donné par V = i∈H0 �R≥1,Pi ≤ R α et la proportion de fausses
m
découvertes est donnée par Q = V
R �R≥1
T H ÉOR ÈME 5.3. On suppose vérifiées les hypothèses H1 − H3. Alors pour tout θ ∈ ΘH0 on a
|H0 |
Eθ (Q) ≤
α.
m
Démonstration. Si H0 = ∅ alors Q ≡ 0 et le résultat vrai. Sinon, on a
m
�� 1
Eθ (Q) = Eθ (�R=k �Pi ≤ k α )
k m
i∈H0 k=1

Or on remarque que si Ri = f(P1 , · · · , Pi−1 , 0, Pi+1 , · · · Pm ) i.e. Ri est le nombre de d’hypothèses


rejetées lorsque on applique l’algorithme en remplaçant Pi par 0, alors on a
k k
(R = k) ∩ (Pi ≤ α) = (Ri = k) ∩ (Pi ≤ α)
m m
puisque sur (Pi ≤ m k
) on a (R = k) = (Ri = k). Par suite, d’après H3, comme Ri ∈ σ(Pj , j �= i),
on a Pθ ((Ri = k) ∩ (Pi ≤ mk k
α)) = Pθ (Ri = k)Pθ (Pi ≤ m k
α) ≤ Pθ (Ri = k) m α la dernière inégalité
venant de H2 et θ ∈ Θ0,i . Par suite on a
m
� m
1 � α �� |H0 |
Eθ (Q) = Eθ (�R=k �Pi ≤ k α ) ≤ Pθ (Ri = k) = α.
k m m m
k=1 i∈H0 i∈H0 k=1

1. En effet si tα = inf{ t ∈ R | Si (t) ≤ α} alors par continuité de Si on a Pθ (Si (Ti ) ≤ α) = Pθ (Ti ≥ tα ) = Pθ (Ti >
tα ) = Si (tα ) = α. Pi = Si (Ti ) est appelée la p-valeur (ou p-value)

46
47
Bibliographie

[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] Y. Benjamini. Discovering the false discovery rate. Journal of the Royal Statistical Society :
series B (statistical methodology), 72(4) :405–416, 2010.
[3] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate : a practical and power-
ful approach to multiple testing. Journal of the Royal statistical society : series B (Methodologi-
cal), 57(1) :289–300, 1995.
[4] R. A. Fisher. On the mathematical foundations of theoretical statistics. Philosophical tran-
sactions of the Royal Society of London. Series A, containing papers of a mathematical or physical
character, 222(594-604) :309–368, 1922.
[5] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[6] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[7] J. Neyman and E. S. Pearson. IX. On the problem of the most efficient tests of statistical
hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing
Papers of a Mathematical or Physical Character, 231(694-706) :289–337, 1933.
[8] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

48

Vous aimerez peut-être aussi