Poly Fisher
Poly Fisher
10 janvier 2024
v0.2.11
1. Il s’agit d’une version en développement qui peut contenir typos et coquilles. Merci pour vos
retours à [email protected]
Table des matières
1
Chapitre 1
1 Introduction
Il est toujours difficile de définir la nature (et les contours) d’un champ disciplinaire a priori
et celui qui fait l’objet de ce cours de ≪ Statistique mathématique et apprentissage ≫ n’y fait
pas exception. C’est déjà le cas pour la théorie des probabilités et cela l’est encore plus pour
la théorie statistique, en particulier par les liens inconfortables qu’il faut essayer d’expliciter
entre théorie mathématique et expérience.
On peut aussi s’étonner de la présence des deux termes ≪ Statistique mathématique ≫ d’une
part et ≪ Apprentissage ≫ d’autre part possiblement redondant. Le plus simple est ici de re-
prendre les premières lignes de la préface de Vladimir Vapnik dans son livre T HE NATURE OF
S TATISTICAL L EARNING T HEORY[3].
≪ Between 1960 and 1980 a revolution in statistics occured : Fisher’s paradigm inroduced
in the 1920-1930s was replaced by a new one. This paradigm reflects a new answer to the
fundamental question :
What must one know a priori about an unknow functional dependency in order to estimate it on the
basis of observations ?
In Fisher’s paradigm, the answer was quite restrictive – one must know almost every-
thing. Namely, one must know the desired dependency up to the values of a finite number of
parameters. Estimating the values of these parameters was considered to be the problem of
dependency estimation.
The new paradigm overcome the restrictions of the old one. It was shown that in order to
estimate dependancy from the data, it is suffcient to know some general properties of the set
of functions to which the unkown dependency belongs ≫
Dans l’espace restreint de ce cours, nous allons esssayer d’aborder à la fois l’approche clas-
sique de Fisher que l’on peut rattacher au terme ≪ Statistique mathématique ≫ du cours et celle
mis en avant par Vapnik que l’on peut rattacher à celui d’apprentissage (ou encore d’appren-
tissage statistique). De fait il n’y a pas de dichotomie véritable mais plutôt une évolution des
questions au sein du cadre plus vaste de la théorie mathématique de la statististique avec l’in-
troduction d’outils nouveaux en particulier la minimisation du risque empirique, la théorie
de la complexité et les inégalités de concentrations dans le contexte plus général de l’accrois-
sement des capacités de stockage et de calcul des ordinateurs. Les approches par reseaux de
2
neurones qui ont explosé ces dernieres années sont issues de ces approches de la minimisa-
tion du risque empirique de Vapnik (chez Facebook AI Research depuis 2014) sans pouvoir s’y
réduire et ouvrent des questions nouvelles encore mal comprises aujourd’hui ! Il est interessant
de noter que les modèles génératifs les plus récents autour des grands modèles de langages
(ChatGPT 3 et co) sont aussi construits autour de principes qui viennent directement de Fi-
sher comme la maximisation de la vraisemblance (ou, comme renommé dans la littérature de
l’apprentissage profond, de la minimisation de l’entropie croisée (cross-entropy loss))
θ(1 − θ)
Rθ^n (θ) = Eθ ((θ^n − θ)2 ) =
n
Rθ^n (θ) est le risque quadratique de θ^n lorsque le vrai paramètre est θ. On veut que R soit
aussi petit que possible.
1. ce qui pose d’autres questions de faisabilité, de sincérité des réponses, etc que nous n’abordons pas ici bien
qu’essentielles. Le modèle de contrôle de qualité est du coup moins problématique bien qu’il n’en soit pas exempts
de questions.
3
Du point de vu asymptotique, l’écart type de l’erreur d’estimation est de l’ordre de √1 .
n
√
Considérons le rescaling n(θ^n − θ). Le TCL nous donne
T H ÉOR ÈME 1.2 (Théorème central limite). Soit (Xn )n∈N une suite de v.a.r.i.i.d telle que X1 ∈
L2 . On note m = E(X1 ) et σ2 = V(X1 ). Alors
√ L
n(Xn − m) → N (0, σ2 )
On dit que θ^n est asymptotiquement normal et que θ(1 − θ) caractérise la dispersion de
notre estimateur (après rescaling) autour de θ lorsque le paramètre vaut θ. Une partie du
cours sera consacré à la recherche des meilleurs estimateurs à n fixé ou du point de vue
asymptotique. C’est la théorie de l’efficacité.
3. Comment donner des marges d’erreur autour de θ^n ?
q p
On sait que Xn (1 − Xn ) → θ(1 − θ) Pθ p.s et que
√
n(X − θ) L
p n → N (0, 1)
θ(1 − θ)
√
L
ce qui donne via le lemme de Slutsky que √ ^n(Xn −θ)
^
→ N (0, 1)
θn (1−θn )
L EMME 1.1 (Slutsky). Soient (Xn )n≥0 et (Yn )n≥0 deux suites de v.a. à valeurs resp. dans Rp
L P L
et Rq . On suppose que Xn → X et Yn → c ∈ Rq . Alors (Xn , Yn ) → (X, c) et pour tout
L
f ∈ C(Rp × Rq , Rr ) on a f(Xn , Yn ) → f(X, c).
Soit α ∈ [0, 1] un niveau d’erreur et γα définie par P(|U| > γα ) = α où U ∼ N (0, 1). On a
√ ^n − θ
θ
Pθ n q > γα → α
θ^n (1 − θ^n )
4
√
θ^n (1−θ^n )
on déduit Pθ (θ ∈ [θ^n ± γα √
n
]) → 1 − α On dira que
q
θ^n (1 − θ^n )
[θ^n ± γα √ ]
n
Yi = f(xi , α) + ǫi (1.3)
si bien que (y1 , · · · , yn ) peut être considéré comme une réalisation du vecteur aléatoire (Y1 , · · · , Yn )
dont les composantes sont indépendantes (mais ici non identiquement distribuées).
Le problème peut être alors de déterminer une estimation θ^n de θ = (α, β) à partir de la
donnée (xi , yi )1≤i≤n pour par exemple :
• retirer le bruit ei (débruiter) des données en calculant y
^ i = f(xi , α
^ n)
• prédire ou simuler le comportement de la réponse y, sur une nouvelle entrée xnew par
Y = f(xnew , α
^ n ) + ǫnew avec ǫnew ∼ νβ^ n
Dans les cas les plus simples, on paramétrise f sur une base de fonction fk : X → Rd si bien
que
Xp
f(x, α) = αk fk (x)
k=1
2. On peut se demander à juste titre d’où vient ce terme de régression qui sonne étrangement. On en trouve l’ori-
gine dans un article de Francis Galton de 1886 ≪ Regression towards Mediocrity in Hereditary Stature ≫. Cousin de
Darwin, Galton est aussi le fondateur d’une approche scientifique de l’eugénisme et de la chaire National Eugenics
à UCL qui sera tenu par Karl Pearson puis Ronald Fisher (définitivement fermé en 2000). Voir à ce sujet la vidéo de
Bernard Ycard ≪ Dr. Jekill and Mr. Hyde ≫ https://www.hist-math.fr/recits/galton.html
5
(typiquement d = 64 ou d = 512) ie on cherche une application ϕ : w ∈ W → 7 ϕ(w) ∈ Rd telle
que la proximité entre ϕ(w) et ϕ(w ′ ) dépendent de la proximité syntaxique et sémantique.
Pour construire une telle application, on peut s’appuyer sur des données (yi , xi )1≤i≤n où
yi ∈ W est un mot et xi ∈ W p est le contexte immédiat de yi (par ex. les deux mots précédents
et suivants dans la phrase) dans un grand corpus et modéliser les (yi )1s≤i≤n comme des va-
riables aléatoires (Yi )1≤i≤n à valeurs dans W de loi
n
Y ehϕ(yi ),ϕ(xi )i
Pϕ (Y1n = yn1 ) = P hϕ(w),ϕ(xi )i
(1.5)
i=1 w∈W e
. P
où ϕ(x) = p1 pk=1 ϕ(wk ). Ici, on peut prendre comme paramètre θ = ϕ ∈ Rd×|W| .
Il est étonnant de constater que cette approche peut être utilisée en pratique sur de gros vo-
cabulaires (1M mots) avec de très gros corpus de l’ordre d’1G mots et pour des répresentations
d de taille 600 (voir [2]). On construit ϕ^ en maximisant (1.5) en ϕ. Pour apprecier la façon dont
on capture la proximité sémantique et syntaxique, on peut essayer de comparer φ( ^ ′ king ′ ) −
′
^ man )+ϕ(
ϕ( ′ ′ ′
^ woman ) et ϕ( ′ ′
^ queen ) (en fait on regarde plutôt les cosinus des angles comme
mesure de proximité). Et ça marche pas mal !
2 Modèles statistiques
La définition d’un modèle statistique peut revêtir différentes formes, nous choisirons la
forme la plus simple (et la plus abstraite) suivante :
D ÉFINITION 1.1. On appelle modèle statistique la donnée d’un espace (Ω, A) où A est une tribu
sur Ω et d’une famille (Pθ )θ∈Θ de probabilités sur (Ω, A). Θ est appelé ensemble des paramètres.
Dans le premier exemple introductif on a :
Ω = {0, 1}n , A = P(Ω) et Pθ = B(θ) ⊗ · · · ⊗ B(θ) et pour tout 1 ≤ i ≤ n, on définit
Ω → {0, 1}
Xi :
ω 7→ xi
Sous Pθ , X1 , · · · , Xn est une suite i.i.d de variables de loi B(θ).
D ÉFINITION 1.2 (Identifiabilité). On dit que (Ω, A, (Pθ )θ∈Θ ) est identifiable si θ 7→ Pθ est injec-
tive.
D ÉFINITION 1.3 (n-échantillon, modèle canonique). Soit (µθ )θ∈Θ une famille de probabilités sur
(X , BX ). On appelle n-échantillon de loi µθ une suite (X1 , · · · , Xn ) de v.a.i.i.d de loi µθ . On appellera
modèle canonique d’un n-échantillon pour une famille de loi (µθ )θ∈Θ le modèle modèle statistique
Ω = X n , A = ⊗ni=1 BX , Pθ = ⊗ni=1 µθ où les Xi sont les projections canoniques.
Exercice 1. Vérifier que le modèle canonique est identifiable ssi θ 7→ µθ est injective.
A partir de distributions simples, on peut approcher des distributions plus générales par
des modèles de mélanges qui jouent un rôle très important dans l’analyse des données dis-
tribuées sur Rd .
Exercice 2 (Mélange de gaussiennes). Pour p ≥ 1, on considère
où
7
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p | ki=1 πk = 1 et πk > 0 ∀1 ≤ k ≤ p} est l’intérieur du simplexe de
dimension p − 1 où encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que
les πk > 0.
On note Θ = ∪p≥0 Θk et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd où
p
X πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d/2 1/2
i=1
(2π) det(Γk )
Exercice 3 (Régresion). Proposer un modèle statistique (Ω, A, (Pθ )θ∈Θ ) dans le cas du modèle de
régression proposé en 1.2
ehη(θ),T i
Pθ = R hη(θ),T i dm
m pour tout θ ∈ Θ .
Ωe
Lorsque l’on part d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ) on reconnaı̂tra un modèle expo-
nentiel en utilisant la caractérisation suivante :
P ROPOSITION 1.1. Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique tel qu’il existe une mesure m pour
laquelle on a pour tout θ ∈ Θ
Pθ = ehη(θ),T i−A(θ) hm
où η : Θ → Rk , A : Θ → R et T : Ω → Rk , h : Ω → R+ mesurables, alors (Ω, A, (Pθ )θ∈Θ ) est un
modèle exponentiel associé à (η, T, hm).
Démonstration. Il suffit remarquer qu’en posant m̃ = hm, comme Pθ est une probabilité, on a
R hη(θ),T i
e dm̃ = eA(θ) < +∞.
8
Remarque 1.1. On supposera dans la suite que η(Θ) est d’intérieur non vide et que η → Pη ∝ ehη,T i m
est identifiable sur un ouvert de η(Θ). On dit alors que le modèle est de rang k et que η est le paramètre
naturel et T la statistique naturelle pour le modèle.
Exercice 4. 1. Vérifier que pour les n-échantillons de lois classiques B(θ), E(λ), P(λ), N (µ, σ2 ),
Γ (a, b), B(a, b) fournissent des exemples de modèles exponentiels dont on déterminera le rang et
les statistiques naturelles.
2. Montrer que les mélanges de gaussiennes ne donnent pas des modèles exponentiels.
On rappelle que les lois gamma G(a, b) (a, b > 0) sont absoluement continues par rapport la
mesure de Lebesgue de densité
1 a−1 a
fa,b (x) = x b exp(−bx)✶x>0
Γ (a)
On rappelle que les lois beta B(a, b) (a, b > 0) sont absoluement continues par rapport la mesure de
Lebesgue de densité
1
fa,b (x) = xa−1 (1 − x)b−1 ✶x>0
B(a, b)
Γ (b)Γ (b)
avec B(a, b) = Γ (a+b) .
9
Exercice : Identifiabilité des mélanges gaussiens
Pour p ≥ 1, on considère
Θp = ∆˚ p−1 × {((µk , Γk ))1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γl ) ∀1 ≤ k < l ≤ p }
où
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p ∈ (R∗+ )p | k πk = 1 } est l’intérieur du simplexe de dimension p − 1
i=1
ou encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que les πk > 0.
On note Θ = ∪p≥0 Θp et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd
où
Xp
πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d 1/2
i=1
((2π) det(Γk ))
1. Comment simuler un n-échantillon de loi µθ à partir de la donnée de θ ?
On veut montrer maintenant l’identifiabilité des distributions µθ = fθ λd à permutation près
des éléments du mélange c’est-à-dire que µθ = µθ′ ssi il existe p ≥ 1 et σ ∈ Sp tels que
θ, θ ′ ∈ Θp et σ · θ = θ ′ où
σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )
On note alors θ ∼ θ ′ .
2. On suppose ici d = 1. On notera σ2k = Γk .
2
(a) Montrer que la famille F = {x ∈ R 7→ exp(− (x−µ)
2σ2
) ∈ R | (µ, σ2 ) ∈ R × R∗+ } est une
famille libre de C(R, R).
(b) En déduire le résultat d’identifiabilité.
On suppose maintenant que d > 1 et on considère (θ, θ ′ ) ∈ Θp × Θp ′ tels que µθ = µθ ′ . On
note Iθ,θ ′ = {(k, l) ∈ {1, · · · , p} × {1, · · · , p ′ } | (µk , Γk ) = (µl′ , Γl′ )} l’ensemble des paires d’indices
de composantes identiques sur θ et θ ′ .
3. On veut montrer ici par l’absurde que Iθ,θ ′ 6= ∅. On suppose donc que Iθ,θ ′ = ∅.
(a) Montrer que λd -p.p. en u ∈ Rd on a
[
# (hu, µk i, uT Γk u), k ∈ J1, pK (hu, µl′ i, uT Γl′ u), l ∈ J1, p ′ K = p + p ′.
k=1 l=1
10
Bibliographie
11
Chapitre 2
Le cadre des vecteurs gaussiens est très intéressant dans le cadre statistique, tout d’abord
par le rôle pivot que joue la distribution gaussienne dans la théorie des probabilités (TF, TCL)
et ensuite par les interprétations des relations d’indépendance en terme de géométrie eucli-
dienne. Cela conduit dans le cadre des modèles linéaires une théorie presque complète et non
asymptotique (i.e. pour des tailles d’échantillon éventuellement petites). Dans ce chapitre,
nous donnons quelques rappels sur les vecteurs gaussiens et deux applications à la construc-
tion d’intervalles de confiances et au modèle ANOVA à un facteur. La théorie plus générale
des modèles linéaires interviendra plus tard dans le cours.
1 Vecteurs gaussiens
On rappelle que si U ∼ N (m, σ2 ) alors sa fonction caractéristique est donnée par
.
ΦU (ξ) = E(eiξU ) = exp(iξm − ξ2 σ2 /2) .
D ÉFINITION 2.1. Soit X un vecteur aléatoire dans Rd . On dit que X est un vecteur gaussien si pour
tout u ∈ Rd , �X, u� est gaussien.
.
Remarque 2.1. On déduit immédiatement que E(|X|2 ) < ∞ et on note m = E(X) son espérance et
.
Γ = E((X − m)(X − m)T ) sa matrice de covariance (on considère X comme un vecteur colonne).
P ROPOSITION 2.1. Soit X ∼ N (m, Γ ) vecteur gaussien sur Rd . Si (ui )i∈I est une famille de vecteurs
de Rd 2 à 2 orthogonaux pour la forme quadratique Γ (i.e. uTi Γuj = 0, ∀i �= j), alors (�X, ui �)i∈I est
une famille de v.a.r. gaussiennes indépendantes telle que �X, ui � ∼ N (�m, ui �, uTi Γui ).
C OROLLAIRE 2.1. Si m = 0 et Γ = Id alors les coordonnées de X sont i.i.d. de loi N (0, 1) (X est dit
vecteur gaussien standard)
11
� � �
Démonstration. On vérifie que E(ei j∈I ξj �X,uj � ) = E(ei�X, j∈I ξj uj ). Comme U = �X, j∈I ξj uj �
� � � �
est une v.a.r. d’espérance �m, j∈I ξj uj � et de variance ( j∈I ξj uj )T Γ ( j∈I ξj uj ) = j∈J ξ2j uTj Γuj
� � 2 T �
(orthogonalité) , on déduit E(ei�X, j∈I ξj uj ) = E(ei j∈I ξj �m,uj �−ξj uj Γuj ) = j∈J E(eiξj �X,uj � ).
Exercice 6. Soit Γ une matrice symétrique positive et A ∈ Md (R) telle que Γ = AAT .
1. Montrer que pour tout m ∈ Rd , m + AU ∼ N (m, Γ ) si U ∼ N (0, Id ).
2. En déduire une façon de simuler un vecteur gaussien en utilisant la décomposition de Cholesky
de Γ .
3. En déduire que si Γ est inversible et X ∼ N (m, Γ ) est une vecteur gaussien sur Rd , alors la loi de
X est à densité par rapport à Lebesgue de densité
1
f(x) = � exp(−(x − m)T Γ −1 (x − m)/2) .
(2π)d det(Γ )
Remarque 2.2. De la définition d’une loi χ2 (d) on déduit immédiatement que Q1 + Q2 ∼ χ2 (d1 + d2 )
lorsque Q1 ∼ χ2 (d1 ) et Q2 ∼ χ2 (d2 ) avec Q1 et Q2 indépendantes.
T H ÉOR ÈME 2.1 (Théorme de Cochran). Soit X ∼ N (m, σ2 I) un vecteur gaussien sur Rd . On sup-
.
pose que les s.e.v Ei ⊂ Rd sont orthogonaux 2 à 2 pour 1 ≤ i ≤ r. Alors, si XEi = pEi (X), les variables
(XEi )1≤i≤r sont indépendantes et L(|XEi |2 ) ∼ χ2 (dim(Ei )).
12
Démonstration. Comme les projecteurs orthogonaux sont auto-adjoints, on a �u, pE (v)� = �pE (u), v�.
� 2
Par suite, E(exp(i rj=1 �ξj , pEj (X)�)) = E(exp(i�u, X�)) = exp(i�u, m� − σ2 |u|2 ) pour u =
�r �r
j=1 pEj (ξj ). Par orthogonalité des espaces Ej , on a |u| = j=1 |pEj (ξj )| et donc
2 2
r
� r
� σ2
E(exp(i ξj , pEj (X)�)) = exp(i�pEj (ξj ), m� − |pEj (ξj )|2 )
2
j=1 j=1
r
� r
�
= E(exp(i�pEj (ξj ), X�) = E(exp(i�ξj , pEj (X)�)
j=1 j=1
ce qui donne l’indépendance des (pEj (X))1≤j≤r par injectivité de la transformée de Fourier.
Enfin, si (u1j , · · · , upj ) avec p = dim(Ej ) est une b.o.n. de Ej , le résultat précédent nous donne
que les pRuk (X) = �X, ukj �ukj sont indépendants et que les (�X, ukj �)1≤k≤p sont i.i.d N (0, 1). Par
j
�dim(E )
suite, comme |PE2 j (X)|2 = k=1 j �X, ukj �2 on déduit le dernier résultat.
On remarque que la loi de T ne dépend pas de µ ; une telle statistique est appelée statistique pivot
pour µ.
t2 S t1 S
On a t1 ≤ T ≤ t2 ⇔ µ ∈ [X − √
n
,X − √
n
]. On note Fn−1 (t) = P(T ≤ t) lorsque T ∼ t(n − 1)
et t ∈ R.
— Dans le cas bilatère on prendra Fn−1 (t1 ) = 1 − Fn−1 (t2 ) = α/2 ;
������������������� � ���
���
���
�������
���
��� �� � ��
���
�� ��
���
� � � � � � � � �
�
13
— dans le cas unilatère à gauche , on prendra Fn−1 (t1 ) = α et t2 = +∞ ;
�������������������� � ���
���
���
������� ���
��� �
���
��
���
� � � � � � � � �
�
�������������������� � ���
���
���
�������
���
��� �
���
��
���
� � � � � � � � �
�
14
on obtient F29 (t2 ) = 0.95 pour t2 = 1.7 ce qui donne pour l’intervalle de confiance uni-
latère à droite de niveau α = 0.05 : Iα = [6.35 , +∞[ pour α = 0.05. On a donc µ ∈
/ Iα ce
qui n’avait a priori que 5/100 de chances d’arriver.
Une autre façon de procéder est de calculer la valeur de la statistique de Student T qui vaut
√
t = 30(6.42 − 6.3)/0.22 = 2.987. Cette valeur est anormalement élevée. Peut-on le préciser ?
— En utilisant la fonction t.cdf(x,df) de scipy.stats qui donne P(T ≤ x) pour T ∼
t(df)
1 from scipy.stats import t
2 print(f’p-valeur : {1-t.cdf(2.987,29):.3e}’)
3 >>p-valeur : 2.840e-03
Listing 2.2 – p-valeur
on obtient que P(T ≥ t) = 2.84 10−3 (p-valeur). La valeur observée de T est très im-
probable en particulier inférieure à 0.05 (dualité test-IC). En particulier aucun intervalle
de confiance unilatère à droite de niveau supérieur à 2.84 10−3 ne contient la valeur du
constructeur. Même en prenant le risque de se tromper 1 fois sur 100, α = 0.01, l’inter-
valle unilatère ne contient pas la valeur du constructeur.
Attention toutefois avant d’affirmer péremptoirement que le constructeur sous-estime la consom-
mation de ses voitures. Par exemple, votre démarche est construite sur une hypothèse de loi
gaussienne qui pourrait être mise en cause (on ne peut pas tester ici puisque l’on a pas les
30 valeurs mesurées). De façon, générale, il ne faut jamais oublier les hypothèses statistiques
sous-jacentes.
Dans beaucoup de situations réelles, les distributions ne sont pas gaussiennes. On passe
alors par le TCL + le lemme de Slutsky pour montrer que pour un n-échantillon de loi de carré
intégrable, d’espérance µ :
√ loi
n(X − µ)/S → N (0, 1)
√ √
On a donc (dans le cas bilatère) pour Iα = [X − SΦα / n, X + SΦα/ n] avec P(|U| ≥ Φα ) = α
pour U ∼ N (0, 1) que P(Iα � µ) → 1 − α lorsque n → ∞.
Le problème est maintenant de connaı̂tre la qualité de l’approximation pour n fixé. Cela
dépend de la loi des Xi . Si l’échantillon est gaussien, on peut s’en faire une bonne idée en
regardant la valeur du quantile tn,1−α tel que P(T ≤ tn,1−α )) = 1 − α pour T ∼ t(n). Ci-
dessous le cas standard α = 0.025 correspondant à un intervalle bilatère de niveau α = 0.05
(assez clairement, la différence est importante pour n ≤ 15 mais minime pour n ≥ 30).
4 %matplotlib inline
��
5
6 df = [i+1 for i in range(100)] �
7 plt.plot(df,t.ppf(0.975,df))
��
���
8 �
9 plt.xlabel(r’df’)
10 plt.ylabel(r’$t_{df,1-\alpha}$’) �
11 plt.title(r’$1-\alpha$ quantile ($\
�
alpha=.025$) en fct de df’)
� �� �� �� �� ���
Listing 2.3 – quantile d’une loi de student ��
15
3.3 Intervalle de confiance sur la variance
.
En reprenant l’exercice 7. 2), on avait χ2 = (n − 1)S2 /σ2 ∼ χ2 (n − 1) qui forme encore une
statistique pivot pour le paramètre σ. Dans ce cas, on peut à nouveau construire des intervalles
de confiances à partir des quantiles de la distribution de la loi χ2 (n−1) (ci-dessous la loi χ2 (5)) :
����
�������
���� �� � ��
����
� �
� �
����
�������
���� �
����
�
�
����
�������
���� �
����
�
�
Pθ (Iα � σ2 ) = 1 − α
lorsque Iα = [(n − 1)S2 /χ22 , (n − 1)S2 /χ21 ] et (χ21 , χ22 ) sont choisis pour que Fn−1 (χ21 ) + (1 −
Fn−1 (χ22 )) = α avec Fn−1 fonction de répartition de la loi χ2 (n − 1).
16
1 import statsmodels.api as sm
2 import seaborn as sns
3 import matplotlib.pyplot as plt
4
5 chickwts = sm.datasets.get_rdataset(" ����������������������������
chickwts").data # load data in a
���
dataframe
6 # rename columns ���
7 df = chickwts.rename(columns={’weight ���
’:’poids’, ’feed’:’nourriture’})
�����
8 df = df.sort_values(by=’nourriture’) ���
9 ���
10 plt.figure(figsize=(7,4))
���
11 ax = sns.stripplot(y=’poids’,x=’
nourriture’, data=df, jitter=False ���
) ��� �� �� ��
�
��
�
��
�
��
� �� �� ��� �� �
plt.setp(ax.get_xticklabels(), ��� ��� �� ���
12 �� �� ��
rotation=30) ����������
13 plt.title(’Dataset Chickwts (R
dataset)’)
Listing 2.4 – Affichage données Chickwts
On suppose que le facteur peut prendre p valeurs i = 1 · · · p. On modélise la mesure Yij sur
le j-ème individu pour la valeur i du facteur comme une variable de loi N (µi , σ2 ) :
Yij = µi + �ij ,
pour tous 1 ≤ i ≤ p et 1 ≤ j ≤ ni où les eij sont i.i.d. de loi N (0, σ2 ). Remarquons que le nombre
d’individus par classe (i.e. pour la même valeur du facteur) n’est pas supposé constant. On ici
Y valeurs dans Rn1 × · · · × Rnp � Rn et on note θ = ((µ1 , · · · , µp ), σ2 ) le paramètre.
La question que l’on se pose est ici de déviner en fonction des données (yij ) l’égalité des
moyennes (test d’homogénéité) ou encore de tester l’hypothèse H0 : µ1 = · · · = µp contre
H1 : ∃i < j, µi �= µj .
De façon équivalente, on dira que l’on veut tester l’hypothse H0 : m ∈ E0 contre l’hypothse
H1 : m ∈ F0 . Le théorème de Cochran donne directement :
• pF0 (Y) et pF1 (Y) sont indépendants ;
• sous H0 , comme m ∈ E0 , |pF0 (Y)|2 /σ2 ∼ χ2 (dim(F0 )) et |pF1 (Y)|2 /σ2 ∼ χ2 (dim(F1 )).
Par suite
|pF0 (Y)|2 /(p − 1)
∼ F(p − 1, n − p)
|pF1 (Y)|2 /(n − p)
� � i �ni
Exercice 8. Montrer que pE0 (Y)ij = Y, pE1 (Y)ij = Y i où Y = n1 pi=1 nj=1 Yij et Y i = 1
ni j=1 Yij .
17
4.3 Décomposition de la variance
On déduit on écrivant |pF0 (Y)|2 = |pE1 (Y) − pE0 (Y)|2 et |pF1 (Y)|2 = |Y − pE1 (Y)|2 que
�
( pi=1 ni (Y i − Y)2 )/(p − 1)
F = �p �ni ∼ F(p − 1, n − p)
( i=1 j=1 (Yij − Y i )2 )/(n − p)
ce qui explique l’appellation “analyse de la variance”. Lorsque H1 est vraie pE1 (Y) = pE1 (m) +
pE1 (�) avec pE1 (m) �= 0. Alors, |pE1 (Y)|2 /σ2 est un χ2 décentré ce qui doit produire statistique-
ment des valeurs de F plus grandes. On rejettera donc H0 sur des grandes valeurs de F :
���
�������
���
��� �
���
��
� � � � � � � �
�
Le quantile inférieure à 5% vaut f2 = 2.35 et F = 15.365 (la p-valeur est 5.93 × 10−10 ). H0 est
très fortement rejetée.
� � �
n1 n2 Y 1 − Y 2 − (µ1 − µ2 )
∼ t(n − p)
n1 + n 2 S
�
n1 n2 Y 1 −Y 2
En posant T12 = n1 +n2 S , T12 ∼ t(n − p) sous H0 mais comme E(T12 ) = µ1 − µ2 , |T |
à tendance à prendre des grandes valeurs si µ1 �= µ2 . Ceci conduit au test de niveau α de
µ1 �= µ2 contre µ1 = µ2 de région de rejet Rα = { ω ∈ Ω | |T12 | ≥ cα } où cα est choisi tel que
P(|T | ≥ cα ) = α lorsque T ∼ t(n − p).
Si p
^ 12 > α on conserve H12 ie on décide µ1 = µ2
Si p
^ 12 ≤ α, on rejette H12 ie on décide µ1 �= µ2 .
18
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .
Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est à
peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici 65)).
La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 × 10−09 (comme on pouvait s’en douter par
inspection visuelle des données).
����������������������������
���
���
���
�����
���
���
���
���
�� �� � � � �
�� � ��
� �� �� ��
�� ���� ��� ��� �� ���
�� � � �� ��
�
����������
Il est tentant de tester toutes les comparaisons µi = µj pour i < j simultanément pour
découvrir toutes les différences entre les groupes définis par le facteur (ici le type de nourri-
ture). On devine que la répétition d’un grand nombre de tests élémentaires avec pour chacun
d’eux un risque de décider à tort µi �= µj de α = .5 (i.e. niveau α), peut conduire des fausses
alarmes par la simple accumulation de tests. Il y a diverses façon de s’en prémunir qui seront
abordées dans le chapitre ??.
19
Bibliographie
[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[3] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[4] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.
20
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .
Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est
à peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici
65)). La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 10−09 (comme on pouvait s’en douter
par inspection visuelle des données).
����������������������������
���
���
���
�����
���
���
���
���
�� �� � � � �
�� � ��
� �� �� ��
�� ���� ��� ��� �� ���
�� � � �� ��
�
����������
Il est tentant de tester toutes les comparaisons µi = µj pour i < j simultanément pour
découvrir toutes les différences entre les groupes définis par le facteur (ici le type de nourri-
ture). On devine que la répétition d’un grand nombre de tests élémentaires avec pour chacun
d’eux un risque de décider à tort µi �= µj de α = .5 (i.e. niveau α), peut conduire des fausses
alarmes par la simple accumulation de tests. Il y a diverses façon de s’en prémunir qui seront
abordées dans le chapitre 5.
20
Chapitre 3
On revient ici dans le cadre d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ).
1 Estimateurs
Le problème de l’estimation ponctuelle est celui de l’estimation du paramètre θ à partir des
observations i.e. d’une expérience ω. Dans la pratique, on estime souvent des fonctions g(θ)
de θ plutôt que θ lui-même. Quelques raisons déjà rencontrées dans le TP2 :
• le problème de paramètres parasites (ou de nuisance) : Dans le cas d’un n-échantillon de
loi gaussienne N (µ, σ2 ), on s’intéresse seulement à la moyenne ou à la variance.
• on a réellement besoin d’une fonction de θ. Par exemple, on veut estimer Pθ (A) avec
A ∈ A.
D ÉFINITION 3.1. On appelle statistique toute fonction mesurable de (Ω, A) dans (E, E) (fonction de
l’expérience ω).
On remarque qu’une statistique n’est rien d’autre qu’une variable aléatoire. On suppose géné-
ralement que g : Θ → Rd .
D ÉFINITION 3.2. On appelle estimateur de g(θ), toute T statstique de (Ω, A) dans (Rd , B(Rd )).
Dans notre exemple préliminaire, θ^n = Xn est un estimateur au sens de la définition.
D ÉFINITION 3.3. On appelle biais d’un estimateur T de g(θ) tel que Eθ (|T |) < +∞ pour tout θ ∈ Θ,
la fonction bT : Θ → Rd définie par bT : Θ → Rd définie par bT (θ) = Eθ (T ) − g(θ). Lorsque
bT (θ) ≡ 0, on dit que T est un estimateur sans biais de g(θ).
21
2 Moyenne empirique, covariance empirique
Soit (µθ )θ∈Θ une famille de probabilités sur (Rd , B(Rd ). Soit (X1 , · · · , Xn ) un n-échantillon
de loi µθ . On suppose que µθ admet pour tout θ ∈ Θ un moment d’ordre un et deux et on note
� �
m1 (θ) = xdµθ (x) et Γ (θ) = (x − m1 (θ))(x − m1 (θ))T dµθ (x)
P ROPOSITION 3.1. Xn (resp. Sn� 2 ) est un estimateur sans biais de m1 (θ) (resp. Γ (θ)).
Démonstration. On a
n
1�
Eθ (Xn ) = Eθ (Xi ) = m1 (θ)
n
i=1
et d’autre part,
n
2 1 �
Eθ (Sn� ) = Eθ ((Xi − Xn )(Xi − Xn )T )
n−1
i=1
� n n
1 � �
T
= Eθ ((Xi − m1 (θ))(Xi − m1 (θ)) ) − Eθ ((Xn − m1 (θ))(Xi − m1 (θ))T )
n−1
i=1 i=1
n
�
�
T T
− Eθ ((Xi − m1 (θ))(Xn − m1 (θ)) ) + nEθ ((Xn − m1 (θ))(Xn − m1 (θ)) )
i=1
1
= (nΓ (θ) − nEθ ((Xn − m1 (θ))(Xn − m1 (θ))) = Γ (θ)
n−1
On considère maintenant qu’on dispose d’un échantillon de taille infinie (Xi )i≥1 de loi µθ et
que Eθ (|X1 |2 ) < +∞ pour tout θ ∈ Θ. Cela correspond au modèle statistique Ω = (Rd )N , A =
N N
⊗ B(Rd ), Pθ = ⊗ µθ et Xi : Ω → Rd projection canonique sur la coordonnée i.
P ROPOSITION 3.2. Pour tout θ ∈ Θ on a
1. Xn → m1 (θ) Pθ p.s.
2. Sn� 2 → Γ (θ) Pθ p.s., S2n → Γ (θ) Pθ p.s.
22
Remarque 3.2. (Xn )n∈N est une suite d’estimateurs fortement consistante de m1 (θ). De même, (Sn� 2 )
et (S2n ) sont deux suites d’estimateurs fortement consistantes de Γ (θ).
En particulier, θ^n = (Xn , Sn� 2 ) est une suite d’estimateurs sans biais fortement consistante pour les
vecteurs gaussiens de loi N (µ, Γ ) avec θ = (µ, Γ ).
Tn = ψ(Xn , X2 n , · · · , Xp n )
�
avec Xk n = n1 ni=1 Xki que (Tn ) est une suite d’estimateurs fortement consistante.
De façon encore plus générale, on peut dire que que si X ∈ Rd et
pour h : Rd → Rp mesurable telle que h(X1 ) ∈ L1 (Pθ ) pour tout θ ∈ Θ alors Tn = ψ(h(X)n ) est
�
une suite d’estimateur fortement consistante avec h(X)n = n1 ni=1 h(Xi ).
3.1 Exemples
• Pour les n-échantillons de Bernoulli, comme θ = m1 (θ), avec la méthode des moments,
cela donne Tn = Xn .
• Pour les loi exponentielles de paramètre λ, on remarque que λ = m1 (λ)−1 . On obtient
donc dans ce cas Tn = X1 qui définit une suite d’estimateur fortement consistante de
n
λ. On calcule Eλ (Tn ) = n−1
n
λ. On peut débiaser l’estimateur en prenant Tn� = �n−1
n et
i=1 Xi
obtenir une suite d’estimateurs sans biais fortement consistante (est-ce mieux ?).
• Pour les lois de Poisson, on a λ = Eλ (X1 ) = Vλ (X1 ) = m2 (λ) − m1 (λ)2 . La méthode des
moments fournit deux estimateurs :
n
1�
Tn = Xn , Tn� = X2 n − (Xn )2 = (Xi − Xn )2 .
n
i=1
Le premier est sans biais et le deuxième est la variance empirique qui est légèrement
biasée, et que l’on peut débiaser en prenant un estimateur sans biais de la variance em-
pirique. A nouveau se pose la question du choix de l’estimateur.
• Avec les lois Γ (a, b), la méthode des moments marche encore : Pour X ∼ Γ (a, b) (de
densité fa,b (x) = Γ (a)−1 ba xa−1 e−bx �x≥0 par rapport à Lebesgue), on a E(X) = ab et V(X) =
a
b2
. On obtient donc pour a et b
E(X) E(X)2
b= et a =
V(X) V(X)
23
ce qui donne
^ n = Xn et a (Xn )2
b ^ n =
Sn� 2 Sn� 2
qui génèrent deux suites d’estimateurs fortement consistantes.
La méthode des moments nous donne donc un premier principe de construction des estima-
teurs.
4 Minimisation de contraste
4.1 Théorème de Wald
D ÉFINITION 3.6. On appelle contraste toute fonction ρ : X × Θ → R telle que
1. pour tout θ ∈ Θ, on a Eθ (ρ− (X, θ)) < +∞ ;
2. pour tout θ0 ∈ Θ, si D(θ0 , θ) = Eθ0 (ρ(X, θ)), alors D(θ0 , θ) est minimale pour θ = θ0 .
L’idée est que pour un ∞-échantillon de loi µθ0 , on a
n
1�
ρ(Xi , θ) → D(θ0 , θ) Pθ0 p.s.
n
i=1
dans le cas où ne suppose plus que les données suivent une loi dans le modèle. � Morale-
ment �, θ^n recherche la meilleure approximation de µ dans la famille de modèle µθ au sens de
D(µ, θ) (ou de son approximation à travers ρ^n (θ))
Notons
ρ∗ = inf D(µ, θ) et Θ∗ = {θ ∈ Θ | D(µ, θ) = ρ∗ }
Θ
T H ÉOR ÈME 3.1 (Théorème de Wald). On suppose que (Θ, d) est un espace métrique séparable. On
fait de plus les hypothèses suivantes :
1. Cette dernière condition donne un sens à l’espérance de ρ(X1 , θ) sous Pθ qui n’est pas forcément intégrable
mais qui a une partie négative intégrable. La différence entre l’intégrale de la partie positive et de la partie négative
est bien déterminée (avec la convention +∞ − a = +∞ pour tout a ∈ R)
24
1. Θ∗ �= ∅
2. θ �→ ρ(x, θ) est continue µ p.s.
3. Pour tout θ ∈ Θ, il existe U � θ ouvert de Θ tel que Eµ (supθ � ∈U ρ− (X, θ � )) < +∞
Alors pour tout compact K de Θ et tout � > 0, on a
Pµ (d(θ^n , Θ∗ ) ≥ � et θ^n ∈ K) → 0
n→∞
(a) (b)
Eµ (ρ(X, θ∞ )) ≤ Eµ (lim ρ(X, θn )) ≤ lim Eµ (ρ(X, θn )) = ρ∗
où (a) vient de l’hypothèse 2. et (b) vient de l’hypothèse 3. et d’une version étendue du
lemme de Fatou. En effet, au voisinage de θ∞ , il existe U ouvert contenant θ∞ tel que C(X) =
supU ρ− (X, θ) est µ intégrable. Pour n assez grand, θn ∈ U et on a ρ(X, θn ) + C(X) ≥ 0. Par
suite, une application du lemme de Fatou donne
Étape 2 : Montrons maintenant que pour θ �∈ Θ∗ , il existe U(θ) ouvert tel que
En effet, si pour h > 0, B(θ, h) est la boule ouverte centrée en θ, on par le Fatou étendu ci-
dessus que
(2.) Fatou
ρ∗ < D(µ, θ) = Eµ (ρ(X, θ)) = Eµ (lim inf ρ(X, θ � )) ≤ lim Eµ ( inf ρ(X, θ � )) .
h→0 B(θ,h) h→0 B(θ,h)
25
(on utilise ici une version étendue de la loi forte des grands nombres aux variables aléatoires
positives pas forcément intégrables). Comme on a
n n
1� 1�
inf ρ^n ≥ inf inf ρ(Xi , θ � ) ≥ inf inf ρ(Xi , θ � )
K� 1≤k≤p U(θk ) n 1≤k≤p n U(θk )
i=1 i=1
n
1�
= inf ψk (Xi ) = inf ψk (X)n
1≤k≤p n 1≤k≤p
i=1
Comme par ailleurs pour θ0 ∈ Θ∗ (hypothèse 1.), on a p.s. ρ^n (θ0 ) → ρ∗ on déduit que p.s., il
existe N(ω) tel que pour tout n ≥ N(ω), on a infK� ρ^n > ρ^n (θ0 ) et en particulier θ^n (ω) ∈
/ K� ce
qui donne le résultat (la convergence p.s. de �θ^n ∈K
/ � vers 0 entraı̂ne celle en proba).
Pθ = Lθ m, pour tout θ ∈ Θ .
Exercice 12. On peut toujours se ramener à une mesure de domination qui est une probabilité car
si (An ) est une suite croissante d’éléments de A tels que 0 < m(An ) < +∞ et Ω = ∪An , alors
� n)
m̃(A) = n≥0 2−n m(A∩A µ(An ) est une mesure de probabilité qui domine le modèle.
Exercice 13. Donner un exemple simple de modèle statistique qui ne soit pas dominé.
26
D ÉFINITION 3.9 (Dominante privilégiée). On dit que m est une dominante privilégiée si pour tout
A ∈ A, m(A) = 0 ssi Pθ (A) = 0 pour tout θ ∈ Θ.
P ROPOSITION 3.4. Tout modèle dominé admet une dominante privilégiée.
Démonstration. On se ramène au cas d’une dominante m qui est une mesure finie. On note
alors conv(PΘ ) l’enveloppe convexe de la famille (Pθ )θ∈Θ (i.e. l’ensemble des combinaisons
convexes finies d’éléments de la famille (Pθ )θ∈Θ ) et
dPC
C = {C ∈ A | il existe PC ∈ conv(PΘ ), > 0 sur C m p.p.} .
dm
• On vérifie que C est stable par union finie (il suffit de considérer (PC + PC � )/2 pour mon-
trer que C ∪ C � ∈ C dès que C et C � sont dans C). Il existe donc une suite croissante
(Cn )n≥0 ∈ C N telle que m(Cn ) → supC∈C m(C) < ∞. On note C∞ = ∪n≥0 Cn et m∗ = hm
�
avec h = n≥0 2−n dm
dPCn
�Cn pour lequel on a m∗ (Cc∞ ) = 0.
• On vérifie que m∗ est une dominante. Soit θ ∈ Θ et Cθ = (Lθ > 0). On a m(Cθ ∪
C∞ ) = limn→∞ m(Cθ ∪ Cn ) ≤ supC∈C m(C) = m(C∞ ) et donc m(Cθ ∩ Cc∞ ) = 0 d’où
Pθ (Cθ ∩ Cc∞ ) = 0 et Pθ (Cθ ∩ C∞ ) = 1. Comme dmdm > 0 sur C∞ m p.p.
∗
on a Pθ � m∗
�
et dm∗ = Lθ / dm . En effet, pour tout A ∈ A, Pθ (A) = Pθ (A ∩ C∞ ) = �A∩C∞ Lθ dm =
dPθ dm∗
� � �
�A∩C∞ (Lθ / dm
dm ) dm dm = �A∩C∞ Lθ /( dm )dm∗ = �A Lθ /( dm )dm∗ .
∗ dm∗ dm∗ dm∗
• Soit maintenant A ∈ A tel que m∗ (A) > 0. Alors il existe n ≥ 0 tel que PCn (A) > 0
et donc θ ∈ Θ tel que Pθ (A) > 0 puisque PCn est un mélange fini. On a donc montré
par contraposée que Pθ (A) = 0 pour tout θ ∈ Θ entraı̂ne m∗ (A) = 0. La réciproque est
immédiate puisque nous avons montré que m∗ est une dominante.
m �� p.p. En particulier, on obtient que pour tout θ ∈ Θ, θ^ = θ^ � Pθ p.s. ce qui montre que les deux
estimateurs coı̈ncident (exo).
Soit (µθ )θ∈Θ une famille de lois sur (X , BX ) dominées par m1 (i.e. µθ � m1 ) pour tout
θ ∈ Θ. On définit fθ : X → R+ tel que µθ = fθ m1 la densité de µθ par rapport à m1 .
∗
On considère (Ω, A, (Pθ )θ∈Θ ) le modèle canonique associé à un ∞-échantillon i.e. Ω = X N ,
∗ ∗
A = ⊗N BX et Pθ = ⊗N µθ .
27
Exercice 14. Montrer que généralement (Ω, A, (Pθ )θ∈Θ ) n’est pas un modèle dominé. On pourra re-
garder le cas µθ = B(θ) et m1 = 12 δ0 + 12 δ1 puis considérer les ensembles Ωθ = {ω ∈ Ω | Xn (ω) → θ}
où (Xn )n≥1 est le processus canonique pour vérifier que si m est une dominante pour (Ω, A, (Pθ )θ∈Θ ),
on a m(Ωθ ) > 0 pour tout θ ∈ [0, 1].
qui est la vraisemblance associée au n-échantillon Πn = (X1 , · · · , Xn ) de loi Pθ,n par rapport à
mn .
Soit θ^n : Ω → Θ tel que
n
� n
�
θ^n ∈ arg max Lθ,n ◦ Πn = arg max fθ (Xi ) = arg max log(fθ (Xi ))
θ∈Θ θ i=1 θ∈Θ i=1
fθ0 (x)
Démonstration. On considère ρ(x, θ) = log( fθ (x) ). On vérifie que
�
fθ0 (x)
Eθ0 (ρ(X1 , θ)) = log( )fθ0 (x)dm1 (x) = K(µθ0 , µθ ) .
fθ (x)
La proposition 3.3 nous dit que ρ(x, θ) est un contraste. On vérifie alors les hypothèses du
théorème de consistance de Wald. On a Θ∗ = Θθ0 � θ0 , donc Θ∗ est non vide. De plus m1
p.p. en x, on θ �→ fθ (x) > 0 est continue et donc ρ(x, θ) est bien défini et continue en θ. Enfin,
supx,θ ρ− (x, θ) ≤ log(supθ,θ � ,x ffθ� (x))) < ∞ ce qui permet de vérifier l’hypothèse 3. du thm.
θ
Comme Θ est supposé compact, le théorème de Wald donne le résultat.
Remarque 3.5. Dans le théorème 3.2, on suppose implicitement que les données suivent l’un des
modèles, ici θ0 . On peut regarder cependant une situation plus générale et réaliste où les données
suivent une loi µ qui n’est pas de la forme µθ . On peut dans ce cas, à l’aide du théorème de Wald établir
un nouveau résultat qui n’est pas un théorème de consistance au sens précédent mais un théorème de
cohérence asymptotique qui dit que l’EMV converge vers l’ensemble Θµ = { θ ∈ Θ | K(µ, µθ ) =
infθ � ∈Θ K(µ, µθ � ) } des meilleurs approximations du modèle au sens de la divergence de Kullback.
28
1. µ � m1 et µθ � m1 pour tout θ ∈ Θ avec Θ compact.
2. m1 p.p. en x, θ → fθ (x) est continue et strictement positive.
fθ
3. Θµ �= ∅ et que supθ,x fµ (x) <∞
Pµ
Montrer que θ^n → Θµ
L’exercice 15 montre que l’estimation par maximum de vraisemblance qui est un cas parti-
culier de minimisation de contraste couvre un large spectre et généralise le problème de l’es-
timation du � vrai � paramètre à celui du � meilleur modèle � au sens de la divergence de
Kullback par rapport aux données (qui n’ont souvent pas beaucoup de raisons (en particulier
dans le cas des modèles paramétriques) de suivre exactement l’un des modèles Pθ ).
Exercice 16 (Invariance(s)). Une question naturelle est celle de l’invariance. Supposons que l’on
considère un changement de variable y = ψ(x) avec ψ : (X , BX ) → (Y, BY ) bijective (mesurable).
dνθ dµθ
1. Vérifier que la loi de νθ = µθ ◦ ψ−1 � m̃1 = m1 ◦ ψ−1 et que dm̃1 = dm1 ◦ ψ−1
2. En déduire que l’observation de Yi = ψ(Xi ) en lieu et place des (Xi ) conduit pour le nouveau
modèle (νθ )θ∈Θ au même estimateur du maximum de vraisemblance.
On peut prendre l’invariance également par un autre bout en opérant un changement de variable inver-
sible ϕ : Θ → Θ � sur le paramètre.
3. Formaliser la question dans le cadre des modèles canoniques et montrer que l’on trouve dans ce
cas θ^n = θ^n� .
29
Cependant, l’application n’est pas toujours possible. Un contre-exemple classique consiste
à considérer Θ = {(θ = (µ, σ2 ) | µ ∈ R, σ2 > 0} et la famille de loi µθ = fθ λ où
1 x2 1 (x−µ)2
−
fθ (x) = √ e− 2 + √ e 2σ2
2 2π 2 2πσ2
correspondant au mélange de 2 populations gaussiennes, l’une centrée autour de 0 et de va-
riance 1 et l’autre autour d’un centre � mobile � en µ et de variance σ2 . On vérifie que pour
tout θ ∈ Θ, on a pour tout x ∈ R, supθ � fθ� (x) = +∞ (il suffit de considérer θ � = (x, 1/p) pour
p ≥ 1). En particulier, l’estimateur θ^n du max de vraisemblance n’est pas défini.
Notons cependant que en prenant ΘM = [−M, M] × [1/M, M] alors pour M fixé, le maxi-
mum de vraisemblance pour les modèles restreints à ΘM existe et dès que θ0 ∈ ΘM , θ^n est
fortement consistant.
30
Chapitre 4
Remarque 4.1. Généralement, on a pas d’estimateur T∗ qui soit meilleur que tous les autres estimateurs
car la relation � être meilleur � n’induit qu’un ordre partiel. Si on prend par exemple T ≡ g(θ0 ) alors
RT (θ0 ) = 0 et donc un tel estimateur T∗ aurait un risque nul pour tout θ ∈ Θ ce qui n’est pas possible
dès que g(Θ) n’est pas un singleton (pour le risque quadratique).
En général, deux estimateurs admissible T1 et T2 , sont tels que RT1 − RT2 est de signe variable
sur Θ. On peut parler cependant d’estimateur optimal au sens du risque (on dira efficace) si on
se restreint à une classe de biais.
2 Estimateurs efficaces
On considère ici la perte quadratique L(t, θ) = |t − g(θ)|2 . Si on se restreint à une classe
de biais, en utilisant la décomposition biais variance i.e. RT (θ) = bT (θ)2 + Vθ (T ), la recherche
d’estimateur optimaux dans une classe de biais revient à minimiser la variance à biais fixé.
31
D ÉFINITION 4.3. Soit T un estimateur de g(θ). On note bT (θ) = Eθ (T ) − g(θ). On dit que T est
efficace dans sa classe de biais si il n’existe pas d’estimateur S tel que bS = bT (même classe de biais)
et qui soit strictement meilleur que S i.e. RS ≤ RT et RS (θ0 ) < RT (θ0 ) pour un θ0 ∈ Θ. Lorsque T
est sans biais, on dira simplement que T est efficace (ou encore que T est un estimateur USBVM pour
� Uniformément Sans Biais de Variance Minimale � ou en anglais UMVU pour � Uniformly
Démonstration. Comme m est σ-finie, on sait qu’il existe une mesure de probabilité m∗ � m
qui est une dominante privilégiée et s’écrit de la forme
�
m∗ = ci P θ i (4.1)
i≥0
avec ci ≥ 0.
On suppose d’abord que m = m∗ et on montre alors que T est exhaustive ssi pour tout
θ ∈ Θ, une fonction mesurable φθ : E → R+ telle que Pθ = φθ (T )m.
32
(⇐) En effet, pour tout U v.a. bornée et tout f : E → R borélienne bornée, il existe u : (E, E) →
(R, B(R)), tel que Em (U|T ) = u(T ) m p.s. Par suite,
Remarque 4.3. On remarque immédiatement que dans le cas d’un n-échantillon de loi N (µ, 1) on
� �
a dPθ (x) = exp(− ni=0 x2i /2) exp(µ ni=1 xi − µ2 /2)dx si bien que T = Xn est une statistique
exhaustive.
Exercice 17 (Important). Vérifier que pour les modèles exponentiels, la statistique naturelle est ex-
haustive.
T H ÉOR ÈME 4.2 (Rao-Blackwell). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique et T : (Ω, A) → (E, E)
une statistique exhaustive. Soient S : (Ω, A) → (Rd , B(Rd )), et s : (E, E) → (Rd , B(Rd )) telle que
S � = s(T ) = Eθ (S|T ) Pθ p.s pour tout θ ∈ Θ. Alors Eθ (S) = Eθ (S � ) et VS � (θ) ≤ VS (θ) pour tout
θ ∈ Θ (S � est meilleur que S).
A ce stade, on sait réduire la variance d’un estimateur en restant dans sa classe de biais par
conditionnement par rapport à une statistique exhaustive mais on ne sait pas si l’estimateur
obtenu est efficace.
33
2.2 Complétude
D ÉFINITION 4.5. Soit T exhaustive. On dit que T est complète si pour tout ψ : E → R mesurable telle
que Eθ (|ψ(T )|) < +∞ pour tout θ ∈ Θ on a :
Eθ (ψ(T )) = 0 ∀θ ∈ Θ ⇒ ψ(T ) = 0 Pθ p.s. ∀θ ∈ Θ .
P ROPOSITION 4.1. Soient T est une statistique exhaustive complète et un estimateur S tel que Eθ (|S|2 ) <
+∞ pour tout θ ∈ Θ. Alors S est efficace dans sa classe de biais ssi S = ψ(T ) Pθ p.s. pour tout θ ∈ Θ
avec ψ : E → Rd mesurable.
Démonstration. (⇒) En effet, comme T est exhaustive, il existe ψ mesurable tel que Eθ (S|T ) =
ψ(T ) Pθ p.s. pour tout θ ∈ Θ. Par définition de l’espérance consitionnelle, on a pour tout θ ∈ Θ
Eθ (|S − Eθ (S)|2 ) = Eθ (|S − Eθ (S|T )|2 ) + Eθ (|Eθ (S|T ) − Eθ (S)|2 ) .
On a donc
Eθ (|S − Eθ (S)|2 ) = Eθ (|S − ψ(T )|2 ) + Eθ (|ψ(T ) − Eθ (S)|2 ) .
Comme ψ(T ) est dans la même classe de biais que S et que S est efficace dans sa classe de biais,
on a
Eθ (|S − Eθ (S)|2 ) ≤ Eθ (|ψ(T ) − Eθ (ψ(T ))|2 ) = Eθ (|ψ(T ) − Eθ (S)|2 )
d’où Eθ (|S − ψ(T )|2 ) = 0 et S = φ(T ) Pθ p.s. pour tout θ ∈ Θ.
(⇐) En effet, si S = ψ(T ), alors pour tout estimateur S � dans la même classe de biais,
Eθ (S � |T ) = ψ � (T ) est meilleur que S � et comme Eθ (ψ(T ) − ψ � (T )) = 0 pour tout θ ∈ Θ, on
déduit de la complétude de T que S = ψ � (T ). Par suite, S est meilleur que S � et donc S est
efficace dans sa classe de biais.
P ROPOSITION 4.2 (Complétude des modèles exponentiels). On suppose que (Ω, A, (Pθ )θ∈Θ ) est
un modèle exponentiel dominé par m σ-finie associé à (η, T ). On suppose que η(Θ) est d’intérieur non
vide. Alors la statistique canonique est complète.
On vérifie de plus que pour ξ ∈ B(0, �), z �→ γ+ (η0 + zξ) et z �→ γ− (η0 + zξ) sont holomorphes
sur la bande B = {z ∈ C | |Re(z)| < 1}. Comme elles coı̈ncident sur le segment ] − 1, 1[, elles
coı̈ncident sur la bande. En particulier pour tout λ ∈ R et tout ξ ∈ B(0, �), on a γ+ (η0 + iλξ) =
γ− (η0 + iλξ) d’où l’on déduit que γ+ (η0 + iξ) = γ− (η0 + iξ) pour tout ξ ∈ Rk i.e.
� �
i�ξ,t� �η0 ,t� +
e e ψ (t)dm (t) = ei�ξ,t� e�η0 ,t� ψ− (t)dmT (t)
T
Par injectivité de la transformée de Fourier des mesures finies, on déduit que e�η0 ,t� ψ+ (t) =
e�η0 ,t� ψ− (t) mT p.p. et donc que ψ+ (T ) = ψ− (T ) m p.p. ce qui donne le résultat.
� On tire immédiatement qu’alors on a pour les modèles exponentiels vérifiant η(Θ) ou-
vert, tous les estimateurs de la forme ψ(T ) où T est une statistique canonique sont efficace dans
leur classe de biais !
34
3 Information de Fisher et borne de Cramer-Rao
Dans cette section nous allons aborder brièvement des idées pourtant extrêmement féconde
autour de la géométrie des modèles. On considère ici un modèle statistique (Ω, A, (Pθ )θ∈Θ )
dominé par une dominante m σ-finie vérifiant les hypothèses suivantes :
(R1 ) Θ est un ouvert de Rk et θ �→ Lθ (ω) est différentiable en θ sur Θ m p.p. de gradient
notée ∇θ Lθ (ω). Pour tout θ ∈ Θ, on peut alors définir Pθ p.s. �θ (ω) = log(Lθ (ω)) et
∇θ �θ (ω) = Lθ 1(ω) ∇θ Lθ (ω).
(R2 ) Pour tout θ ∈ Θ, on a Eθ (|∇�θ |2 ) < +∞.
(R3 ) Pour toute statistique S : Ω → R tel que Eθ (|S|2 ) < +∞ pour tout θ ∈ Θ, l’application
θ �→ Eθ (S) est différentiable et ∇θ Eθ (S) = Eθ (S ∇θ �θ )
D ÉFINITION 4.6 (Information de Fisher). Soit (Ω, A, (Pθ )θ∈Θ ) vérifiant les conditions (R). Pour
tout θ ∈ Θ, on appelle information de Fisher la quantité
∂�θ ∂�θ
I(θ) = Eθ (∇θ �θ ∇θ �Tθ ) = (Eθ ( )1≤i,j≤k )
∂θi ∂θj
Remarque 4.4. On désigne par � la relation d’ordre habituelle sur les matrices symétriques : A � B
si A − B est symétrique positive.
T H ÉOR ÈME 4.3 (Borne de Cramer-Rao). Soit (Ω, A, (Pθ )θ∈Θ ) vérifiant les conditions (R) et T :
Ω → Rp une statistique telle que Eθ (|T |2 ) < +∞ pour tout θ ∈ Θ. Alors en tout point θ ∈ Θ où I(θ)
est inversible on a
ΓT (θ) � deT (θ)I(θ)−1 deT (θ)T .
où eT (θ) = Eθ (T ), deT (θ) est la matrice jacobienne de eT en θ et ΓT (θ) désigne la matrice de variance-
covariance de T sous Pθ .
Remarque 4.5. Dans le cas où T est un estimateur sans biais de θ, on a eT (θ) = θ et deT (θ) = Idk si
bien que la borne de Cramer-Rao nous donne
ΓT (θ) � I(θ)−1
c’est à dire que l’inverse de la matrice d’information de Fisher minore la matrice de variance-covariance
de T . En prenant la trace, on obtient
35
et donc une minoration du risque quadratique. Dans le cas k = 1, le résultat se simplifie encore en
1
Eθ ((T − θ)2 ) ≥ ,
I(θ)
ce qui donne une borne inférieure pour le risque quadratique en fonction de l’information de Fisher (ou
son inverse). La variance d’un estimateur sans biais de θ est d’autant plus grande que l’infor-
mation de Fisher est faible.
L’information de Fisher peut s’apparenter à une mesure du rapport signal sur bruit au niveau
des modèles ou plus encore comment les modèles se différencient au voisinage d’un point θ.
On peut être plus spécifique en regardant le développement de la divergence de Kullback-
Leibler au voisinage de θ :
Lθ �
θ � �→ K(θ � , θ) = Eθ (ϕ( ))
Lθ
h2
où ϕ(x) = x log(x). Comme ϕ(1 + h) = h + 2 + o(h2 ), on déduit pour h = �∇θ Lθ , δθ�/Lθ =
�∇θ �θ , δθ� que
1 1
K(θ + δθ, θ) = Eθ (�∇θ �θ , δθ�) + Eθ (�∇θ �θ , δθ�2 ) + o(|δθ2 ) = δθT I(θ)δθ + o(|δθ|2 )
� �� � 2 2
=0
On voit que l’information de Fisher s’apparente à une métrique locale en θ induite sur l’espace
des paramètres par une métrique sur les distributions de probabilités sur Ω donnant à Θ une
structure de variété riemannienne.
4 Efficacité asymptotique
On va voir dans cette section pour les modèles réguliers l’EMV donne asymptotiquement
un estimateur qui atteint la borne de Cramer-Rao.
On se place dans le cas d’un modèle de n-échantillon de loi (µθ )θ∈Θ sur (X , BX ) où Θ est
un ouvert de Rk . On suppose que µθ = fθ m1 pour la dominante σ-finie m1 et on suppose que
fθ (x) > 0 pour tout (x, θ) ∈ X × Θ. On considère donc le modèle canonique (Ω, A, (Pθ )θ∈Θ )
associé en posant Ω = X n , A = ⊗ni=1 BX , m = ⊗ni=1 m1 , (Xi )1≤i≤n les projections canoniques et
Pθ = ⊗ni=1 µθ . On pose
n
�
Lθ,n = fθ (Xi ), �θ,n = log(Lθ,n ) et Pθ = Lθ,n m .
i=1
. �
(R1� ) On suppose que θ �→ �θ,1 = log(fθ ) est C1 et |∇θ �θ,1 |2 dµθ < +∞ puis on définit l’infor-
mation de Fisher pour la famille (µθ )θ∈Θ par
�
I(θ) = ∇θ �θ,1 ∇θ �Tθ,1 dµθ .
Dans la suite on omettra l’indice θ dans ∇θ et on écrira simplement ∇. On vérifie par indépendance
des variables ∇(log(fθ (Xi )) que
.
In (θ) = Eθ (∇�θ,n ∇�Tθ,n ) = nI(θ)
36
si bien que l’information de Fisher du modèle augmente avec la taille de l’échantillon.
Pθ
On suppose que θ^n est un EMV de θ i.e. que �θ^n ,n = maxΘ �θ,n et que θ^n → θ (i.e. θ^n est
consistant). On veut montrer ici que � pour des modèles suffisamment réguliers �,
√ L
n(θ^n − θ) → N (0, I(θ)−1 ) (4.3)
Or si l’on suppose par exemple que θ^n est sans biais 1 et que la borne de Cramer-Rao s’ap-
plique, on a Γθ^n � In (θ)−1 = I(θ)
n et donc
La convergence en loi donnée par (4.3) montre que la variance-covariance limite atteint la
borne inférieure ce que l’on appelle l’efficacité asymtotique de l’EMV.
Nous allons montrer un résultat de normalité asymptotique.
(R2� ) On suppose que pour tout θ ∈ Θ, il existe un voisinage U(θ) de θ sur lequel θ �→ fθ est C2
et
Em ( sup (|∇fθ � | + �∇2 fθ � �)(X1 )) < +∞
θ � ∈U(θ)
où ∇2 fθ � (x) = ∇(∇T fθ � )(x) désigne la matrice hessienne de θ �→ fθ (x) en θ � (on prend
pour �∇2 fθ � la norme subordonnée à la norme euclidienne 2 ).
P ROPOSITION 4.3. On suppose (R1� − R2� ). On a alors Eθ (∇2 �θ,n ) = −In (θ).
�
Démonstration. On commence par remarquer que ∇2 �θ,n = ni=1 ∇2 log(fθ (Xi )) et puisque les
Xi sont i.i.d sous Pθ , il suffit de vérifier le résultat pour n = 1. On considère θ ∈ Θ et on intro-
duit un voisinage U(θ) = B(θ, δ) de θ dans Θ tel supθ � ∈U(θ) |∇fθ � |(X1 ) et supθ � ∈U(θ) �∇2 fθ � (X1 )�
soient dans L1 (m).
Comme supU(θ) |∇fθ � |(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme que
De même, comme supU(θ) �∇2 fθ � �(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme, que
Em (∇2 fθ (X1 )) = ∇Em ((∇fθ )T (X1 )) = ∇0 = 0.
On termine la preuve en remarquant que par ailleurs on a fθ ∇ log(fθ ) = ∇fθ et
d’où 0 = Em (∇2 log(fθ )(X1 )) = Eθ (∇ log(fθ )∇ log(fθ )T (X1 ) + ∇2 log(fθ )(X1 )) si bien que
37
T H ÉOR ÈME 4.4 (Normalité asymptotique). On suppose (R1� − R2� − R3� ) et on considère θ ∈ Θ pour
Pθ
lequel θ^n → θ. Alors si I(θ) est inversible, on a
√ L
n(θ^n − θ) → N (0, I(θ)−1 )
�1
Démonstration. En effet, on a ∇�θ^n ,n = 0 = ∇�θ,n + 0 ∇2 �θ+t(θ^n −θ),n (θ^n − θ)dt si bien que
�
∇�θ,n ∇2 �θ,n √
^ 1 1 2
√ = (− + rn ) n(θn − θ) avec rn = (∇ �θ+t(θ^n −θ),n − ∇2 �θ,n )dt . (4.4)
n n n 0
P
Montrons que rn → θ
0 lorsque n → +∞. Si ρ(s, x) = sup|θ � −θ|≤s �∇2 �θ,1 − ∇2 �θ � ,1 �(x), on a
lims→0 ρ(s, x) = 0 et pour s suffisamment petit, on a la domination
Il vient par c.d. que Eθ (ρ(s, X1 )) → 0 pour s → 0. Soient � > 0 et s > 0 tels que Eθ (ρ(s, X1 )) < �.
�
Comme �rn � ≤ n1 ni=1 ρ(|θ^n − θ|, Xi ), on a
n
1�
Pθ (�rn � ≥ �) ≤ Pθ (|θ^n − θ| ≥ s) + Pθ ( ρ(s, Xi ) ≥ �) .
n
i=1
Démonstration. En exo
38
θ → Pθ (B) est mesurable, on peut introduire la distribution de probabilité � sur (Θ×Ω, BΘ ⊗A)
définie sur les cylindres A × B par
�
�(A × B) = Pθ (B)dπ(θ)
A
Tout estimateur de g(θ) atteignant le risque bayesien est appelé estimateur bayesien.
Exercice 18. Vérifier que lorsque l’estimateur bayesien de g(θ) est unique (à m p.p. pres) alors il est
toujours admissible.
Par suite en définissant l’estimateur Tπ tel que Tπ (ω) = �(g(θ)|ω) � p.s., on a que RTπ ≤ RT
pour tout estimateur T de g(θ) et en particulier le risque de Bayes s’obtient en intégrant la
variance conditionnelle de g(θ) sachant ω.
On voit donc ici que la question d’un estimateur optimal dans le cadre du risque intégré sur
une loi a priori π a une solution qui atteint le risque bayesien.
39
avec πω (dθ) = Lθ (ω)π(dθ) alors Tπ minimise le risque intégré RT sur l’ensemble des esti-
mateurs. πω est proportionnelle à la loi conditionnelle de θ sachant ω. En effet, pour toutes
fonctions Φ : Θ → R et Ψ : Ω → R mesurable positives on a
�
�(Φ(θ)Ψ(ω)) = Φ(θ)Ψ(ω)Lθ (ω)π(dθ)m(dω)
Θ×Ω
� �� � (4.6)
Lθ (ω)
= Z(ω)�Z(ω)>0 Ψ(ω) Φ(θ)π(dθ) m(dω)
Ω Θ Z(ω)
�
où Z(ω) = Θ Lθ (ω)π(dθ). Par suite, on identifie Zm comme la loi � ◦ ω −1 de ω sous � et
Z(ω) π comme la loi conditionnelle de θ sachant ω qui est bien définie � p.s. (puisque Z(ω) > 0
L· (ω)
� p.s.)
T H ÉOR ÈME 4.5. Soient π une distribution a priori sur Θ et Tπ un estimateur bayesien tel que RTπ (θ) ≡
r, alors Tπ est un estimateur minimax.
Démonstration. On raisonne par l’absurde. En effet s’il existe T � tel que maxΘ RT � < maxΘ RT ,
alors � �
RT � = RT � (θ)π(dθ) ≤ max RT � < max RT = RT (θ)π(dθ) = RT ,
Θ Θ Θ Θ
ce qui contredit le fait que Tπ soit un estimateur bayesien pour π.
40
Chapitre 5
Tests d’hypothèses
La théorie des tests joue un rôle très important dans les applications pratiques des statis-
tiques dans un grand nombre de domaines applicatifs comme un cas important de la théorie
de la décision : on décide 1 ou 0, � oui � ou � non � à partir des données pour tenter de
� découvrir � des patterns statistiques qui témoignent de l’existence d’un effet ou d’un phé-
nomène. Ici l’idée, toujours dans le paradigme de Fisher est d’interroger le paramètre sous-
jacent θ. Dans le cas du contrôle introductif, on pose la question θ ≤ θ0 ou θ > θ0 ou plus
généralement θ ∈ Θ0 ou Θ ∈ Θ1 .
1 Introduction
On considère la situation classique de deux sous-ensembles disjoints Θ0 et Θ1 de Θ. On
veut tester ou décider à partir des observations si θ ∈ Θ0 (hypothèse H0 considérée comme
l’hypothèse la plus courante, la plus commune) ou si θ ∈ Θ1 (hypothèse H1 considérée comme
l’hypothèse alternative).
D ÉFINITION 5.1. On appelle test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 toute v.a. d : Ω → [0, 1]
Remarque 5.1. — Lorsque d ∈ {0, 1} on dit que le test est déterministe. Lorsque d = 1 on décide
H1 , lorsque d = 0, on décide H0
— Lorsque d peut prendre des valeurs qui ne sont pas dans {0, 1}, on dit que le test est randomisé.
On doit comprendre que d(ω) est la probabilité de décider H1 (conditionnellement aux données).
La question centrale est celle de la construction de � bons � tests. Pour cela on considère
deux critères :
(Spécificité) Il s’agit de contrôler la probabilité de � faux �-positif c’est à dire la probabilité de décider
H1 lorsque θ ∈ Θ0 i.e. la valeur de Eθ (d) lorsque θ ∈ Θ0
(Sensibilité) Il s’agit de contrôler la probabilité de � faux �-négatif c’est à dire la probabilité de décider
H0 lorsque θ ∈ Θ1 ou encore de s’assurer que la probabilité de décider H1 lorsque H1 est
vraie est suffisamment grande et que Eθ (d) soit grand lorsque θ ∈ Θ1
D ÉFINITION 5.2. Soit d : Ω → [0, 1] un test de θ ∈ Θ0 contre θ ∈ Θ1 .
1. On appelle taille de d la quantité supθ∈Θ0 Eθ (d). On appelle puissance de d la quantité infθ∈Θ1 Eθ (d).
2. On dit que d est sans biais si supθ∈Θ0 Eθ (d) ≤ infθ∈Θ1 Eθ (d).
41
3. Lorsque Θ0 et Θ1 sont des singletons, on dira que d est un test d’hypothèses simples. Sinon on
dira que c’est un test d’hypothèses composites.
4. On appelle fonction puissance de d la fonction β : Θ → [0, 1] telle que β(θ) = Eθ (d). On dit
que d est de niveau α si la taille de d est inférieure à α i.e. supΘ0 β ≤ α.
Remarque 5.2. Il s’agit en fait d’un problème d’optimisation sous contraintes et c’est ainsi que le
problème est abordé dans le papier de 1933. Formellement on peut dire que l’on cherche une fonction
� �
d(ω) maximisant dL1 dm sous les contraintes dL0 dm ≤ α et 0 ≤ d(ω) ≤ 1 pour tout ω (un
nombre infini de contraintes d’inégalité) et passer par une approche primal-dual. Cette approche permet
de trouver la forme de la solution. Une fois celle-ci connue, on peut construire une preuve assez directe
et simple de son optimalité, c’est ce que nous proposons ici.
Démonstration. 1. Soit d un test de NP tel que α = Eθ0 (d). Soit d � un autre test tel que
Eθ0 (d � ) ≤ α. Alors on a
(d − d � )L1 ≥ r(d − d � )L0 . (5.1)
En effet, si L1 > rL0 alors d = 1 et donc comme d−d � ≥ 0 le résultat est vrai. Si maintenant
L1 < rL0 , alors d = 0 et d − d � ≤ 0 et l’inégalité est encore vraie.
Par suite
� �
� �
Eθ1 (d − d ) = (d − d )L1 dm ≥ r(d − d � )L0 dm = rEθ0 (d − d � ) ≥ 0 .
42
α ≤ lims<r Pθ0 (L1 > sL0 ) = Pθ0 (L1 ≥ rL0 ). Si Pθ0 (L1 > rL0 ) = α, on peut prendre d =
�L1 >rL0 (test déterministe), sinon on pose γ = (α − Pθ0 (L1 > rL0 ))/Pθ0 (L1 = rL0 ) ∈]0, 1] et
d = �L1 >rL0 + γ�L1 =rL0 ce qui donne le résultat.
Dans le cas des modèles exponentiels de rang 1 on peut écrit Lθ = exp(η(θ)T − A(θ)) et
par suite dans le cas où η(θ1 ) > η(θ0 ) les tests de Neyman-Pearson sont de la forme d =
�T>t + γ�T =t . Dans le cas η(θ1 ) < η(θ2 ), ils sont de la forme d = �T<t + γ�T =t
Exercice 19. Déterminer la forme des tests de NP dans le cas d’un n-échantillon de loi B(θ) et de loi
N (µ, σ2 ) lorsque σ2 est fixé puis lorsque µ est fixé.
Or si p1 Lθ1 > p0 Lθ0 le minimum est atteint pour γ = 1, si p1 Lθ1 < p0 Lθ0 pour γ = 0 et si
p1 Lθ1 = p0 Lθ0 toutes les valeurs γ ∈ [0, 1] conviennent.
3 Tests unilatères
L’approche sur les tests simples peut s’étendre sur les tests composites dans la situation des
rapports de vraisemblance monotone au sens suivant :
D ÉFINITION 5.4. On dit que (Ω, A, (Pθ )θ∈Θ ) dominé par m σ-finie où Θ ⊂ R est un modèle à rap-
port de vraisemblance croissant (MRVC) s’il existe T : (Ω, A) → (R, B(R)) une statistique et une
Lθ 1
famille (ϕθ0 ,θ1 )(θ0 ,θ1 )∈Θ0 ×Θ1 de fonctions croissantes ϕ : R → R+ telles que Lθ0 (ω) = ϕθ0 ,θ1 (T (ω))
m p.p. pour tous θ0 < θ1 ∈ Θ.
Remarque 5.3. On peut définir de même un modèle à rapport de vraisemblance décroissant. Notons
qu’en passant de de T à −T on passe de l’un à l’autre. On peut donc se ramener à un modèle MRVC.
D ÉFINITION 5.5 (Test UPP). On dit que d est un test uniformément plus puissant de θ ≤ θ0 contre
θ ≥ θ1 de niveau α (UPP(α)) si pour tout autre test d � de niveau α de θ ≤ θ0 contre θ ≥ θ1 , on a
Eθ (d) ≥ Ed (d � ) pour tout θ ∈ Θ1 .
T H ÉOR ÈME 5.2. On suppose que (Ω, A, (Pθ )θ∈Θ ) est un MRVC. Soit θ0 < θ1 ∈ Θ et d = �T>t +
γ�T =t un test de θ = θ0 contre θ = θ1 de taille α. Alors
43
1. la fonction puissance βd (θ) = Eθ (d) est croissante sur Θ
2. d est un test UPP(α) de θ ≤ θ0 contre θ ≥ θ1
Démonstration. On procède comme précédemment. Pour tout θ < θ � ∈ Θ, on note r = ϕθ,θ � (t).
On vérifie que pour tout autre test d � on a
Lθ � (d − d � ) ≥ rLθ (d − d � ) (∗)
En effet, sur Lθ � > rLθ alors d = 1 et (∗) est vraie ; sur Lθ � < rLθ alors d = 0 et (∗) est
encore vraie. Par suite en prenant d � ≡ Eθ (d) on déduit en intégrant par rapport à m que
βd (θ � ) − βd (θ) ≥ r(βd (θ) − βd (θ)) = 0 et donc que βd (θ) est croissante sur Θ. En particulier, d
est un test de niveau α de θ ≤ θ0 contre θ ≥ θ1 .
Enfin, en posant θ = θ0 et θ � ≥ θ1 , si d � est de niveau α sur θ ≤ θ0 , on déduit de (∗) que
βd (θ � ) − βd � (θ � ) ≥ r(βd (θ0 ) − βd � (θ0 )) ≥ 0.
Remarque 5.4. 1. Sans rien changer à d, d est aussi un test UPP(α) pour toutes les valeurs de
θ1 > θ0 et aussi dans le cas limite du test θ ≤ θ0 contre θ > θ0 .
2. Par ailleurs, on déduit immédiatement que si d = �T<t + γ�T =t avec Eθ0 (d) = α, alors d est un
test UPP(α) de θ ≥ θ0 contre θ ≤ θ1 cette fois pour tout θ1 < θ0 ou encore de θ ≥ θ0 contre
θ < θ0 .
Un cas standard est celui des modèles exponentiels de rang 1 pour lesquels η(θ) est crois-
sant en θ. On a alors pour θ ≤ θ �
Lθ �
= exp((η(θ � ) − η(θ)) T − (A(θ � ) − A(θ)))
Lθ � �� �
≥0
Exercice 20. Écrire le test UPP(α) dans le cas d’un n-échantillon de loi P(λ) de λ ≤ λ0 contre λ ≥ λ1 .
Exercice 21. Dans le cas d’un n-échantillon de loi U[0,θ] avec θ > 0, on est pas tout à fait dans le cadre
d’un MRVC car on peut avoir Lθ � /Lθ = +∞. En s’inspirant cependant de l’approche, déterminer un
test UPP(α) de θ ≤ θ0 contre θ ≥ θ1 pour 0 < θ0 < θ1 .
4 Tests bilatères
On cherche maintenant, toujours dans le cadre où Θ ⊂ R à tester θ ∈ [θa0 , θb0 ] contre θ ∈ /
On ne peut plus construire de test UPP car si un tel test d existait, il serait à la fois un
[θa0 , θb0 ].
test de niveau Eθ0 (d) de θ ≥ θa0 contre θ < θa0 et un test de niveau Eθb (d) de θ ≤ θb0 contre
0
θ > θb0 . Dans le cadre des MRVC, on connaı̂t les formes optimales qui sont contradictoires.
44
On peut cependant toujours combiner un test d1 unilatère de niveau α1 de θ ≥ θa0 contre
θ < θa0 et test d2 unilatère de niveau α2 de θ ≤ θb0 contre θ > θb0 de niveau α2 avec α1 + α2 = α
pour obtenir un test d = max(d1 , d2 ) de niveau α de θ ∈ [θa0 , θb0 ] contre θ ∈
/ [θa0 , θb0 ] puisqu’alors
sup Eθ (d) ≤ sup Eθ (d1 + d2 ) ≤ α1 + α2 ≤ α .
θ∈[θa b
0 ,θ0 ] θ∈[θa b
0 ,θ0 ]
5 Tests multiples
On suppose maintenant que l’on a une famille de sous-ensembles (Θ0,i )1≤i≤m de Θ. On
note Θ1,i = Θ \ Θ0,i pour tout 1 ≤ i ≤ m correspodants à m tests de H0,i : θ ∈ Θ0,i contre
H1,i : θ ∈ Θ1,i .
Le contrôle du FWER consiste donc ici à diviser le niveau cible α par le mombre de tests
pour chaque test individuel : αi = α/m. C’est ce que l’on appelle la corrrection de Bonferroni.
Si maintenant, on considère que θ ∈ ΘH0 = ∩i∈H0 Θ0,i ∩i∈H / 0 Θ1,i où H0 ⊂ {1, · · · , m} i.e.
H0,i est vraie pour i ∈ H0 et fausse sinon. Dans ce cas, la décision di = 1 pour i ∈ / H0 est un
� �
vrai-positif et l’important est le contrôle de Pθ (∪i∈H0 (di = 1)) ≤ i∈H0 Pθ (di = 1) ≤ i∈H0 αi .
Si on connaissait m0 = |H0 |, on pourrait se contenter de prendre αi = α/m0 ce qui assure plus
de puisance de détection sur les hypothèses H0,i à rejeter lorsque i ∈/ H0 . Lorsqu’il y a pas mal
de chose à détecter, la correction de Bonferroni est donc assez conservative et peut manquer
de puissance.
45
sous Pθ pour θ ∈ ΘH0 .
1. En effet si tα = inf{ t ∈ R | Si (t) ≤ α} alors par continuité de Si on a Pθ (Si (Ti ) ≤ α) = Pθ (Ti ≥ tα ) = Pθ (Ti >
tα ) = Si (tα ) = α. Pi = Si (Ti ) est appelée la p-valeur (ou p-value)
46
47
Bibliographie
[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] Y. Benjamini. Discovering the false discovery rate. Journal of the Royal Statistical Society :
series B (statistical methodology), 72(4) :405–416, 2010.
[3] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate : a practical and power-
ful approach to multiple testing. Journal of the Royal statistical society : series B (Methodologi-
cal), 57(1) :289–300, 1995.
[4] R. A. Fisher. On the mathematical foundations of theoretical statistics. Philosophical tran-
sactions of the Royal Society of London. Series A, containing papers of a mathematical or physical
character, 222(594-604) :309–368, 1922.
[5] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[6] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[7] J. Neyman and E. S. Pearson. IX. On the problem of the most efficient tests of statistical
hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing
Papers of a Mathematical or Physical Character, 231(694-706) :289–337, 1933.
[8] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.
48