0% ont trouvé ce document utile (0 vote)

63 vues51 pages

Poly Fisher

Ce document présente des notes de cours sur la statistique mathématique et l'apprentissage statistique, abordant les modèles statistiques paramétriques et les estimateurs. Il discute de l'évolution des paradigmes statistiques, en mettant l'accent sur les contributions de Fisher et Vapnik, ainsi que sur des concepts tels que la loi forte des grands nombres et le théorème central limite. Des exemples pratiques, notamment dans le contrôle de qualité et la régression, illustrent les méthodes d'estimation et les tests d'hypothèses.

Transféré par

Tristan Godart

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

63 vues51 pages

Poly Fisher

Transféré par

Tristan Godart

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Notes de cours

S TATISTIQUE MATH ÉMATIQUE

ET
APPRENTISSAGE STATISTIQUE

M1 Jacques Hadamard, ENS Paris-Saclay

TD-TP : Thibaut Germain

Cours :Alain Trouvé

10 janvier 2024
v0.2.11

1. Il s’agit d’une version en développement qui peut contenir typos et coquilles. Merci pour vos
retours à [email protected]
Table des matières

1 Du coté de chez Fisher : Modèles statistiques paramétriques, estimateurs 2

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Un exemple et quelques problèmes . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Cas de la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Cas de la classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Word2Vec : King - Man + Woman = Queen . . . . . . . . . . . . . . . . . . 6
2 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Cas des modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1
Chapitre 1

Du coté de chez Fisher : Modèles

statistiques paramétriques, estimateurs

1 Introduction
Il est toujours difficile de définir la nature (et les contours) d’un champ disciplinaire a priori
et celui qui fait l’objet de ce cours de ≪ Statistique mathématique et apprentissage ≫ n’y fait
pas exception. C’est déjà le cas pour la théorie des probabilités et cela l’est encore plus pour
la théorie statistique, en particulier par les liens inconfortables qu’il faut essayer d’expliciter
entre théorie mathématique et expérience.
On peut aussi s’étonner de la présence des deux termes ≪ Statistique mathématique ≫ d’une
part et ≪ Apprentissage ≫ d’autre part possiblement redondant. Le plus simple est ici de re-
prendre les premières lignes de la préface de Vladimir Vapnik dans son livre T HE NATURE OF
S TATISTICAL L EARNING T HEORY[3].
≪ Between 1960 and 1980 a revolution in statistics occured : Fisher’s paradigm inroduced

in the 1920-1930s was replaced by a new one. This paradigm reflects a new answer to the
fundamental question :
What must one know a priori about an unknow functional dependency in order to estimate it on the
basis of observations ?
In Fisher’s paradigm, the answer was quite restrictive – one must know almost every-
thing. Namely, one must know the desired dependency up to the values of a finite number of
parameters. Estimating the values of these parameters was considered to be the problem of
dependency estimation.
The new paradigm overcome the restrictions of the old one. It was shown that in order to
estimate dependancy from the data, it is suffcient to know some general properties of the set
of functions to which the unkown dependency belongs ≫
Dans l’espace restreint de ce cours, nous allons esssayer d’aborder à la fois l’approche clas-
sique de Fisher que l’on peut rattacher au terme ≪ Statistique mathématique ≫ du cours et celle
mis en avant par Vapnik que l’on peut rattacher à celui d’apprentissage (ou encore d’appren-
tissage statistique). De fait il n’y a pas de dichotomie véritable mais plutôt une évolution des
questions au sein du cadre plus vaste de la théorie mathématique de la statististique avec l’in-
troduction d’outils nouveaux en particulier la minimisation du risque empirique, la théorie
de la complexité et les inégalités de concentrations dans le contexte plus général de l’accrois-
sement des capacités de stockage et de calcul des ordinateurs. Les approches par reseaux de

2
neurones qui ont explosé ces dernieres années sont issues de ces approches de la minimisa-
tion du risque empirique de Vapnik (chez Facebook AI Research depuis 2014) sans pouvoir s’y
réduire et ouvrent des questions nouvelles encore mal comprises aujourd’hui ! Il est interessant
de noter que les modèles génératifs les plus récents autour des grands modèles de langages
(ChatGPT 3 et co) sont aussi construits autour de principes qui viennent directement de Fi-
sher comme la maximisation de la vraisemblance (ou, comme renommé dans la littérature de
l’apprentissage profond, de la minimisation de l’entropie croisée (cross-entropy loss))

1.1 Un exemple et quelques problèmes

Pour introduire la première partie de ce cours, l’approche à la Fisher, le mieux est de partir
sur un exemple ultre-simple de contrôle de qualité. On considère une machine fabriquant des
objets. On souhaite connaı̂tre la probabilité qu’un objet soit défecteux. On prélève à intervalles
réguliers n objets et on contrôle si les objets sont défecteux ou non pour éventuellement ac-
cepter ou rejeter un lot plus grand. De façon très similaire on pourrait penser aussi que l’on
fait un sondage sur une grande population en tirant des personnes au hasard 1 . On construit
la séquence
1 si l’objet i est défecteux
xi = (1.1)
0 sinon
Pour pouvoir prendre une décision, sachant que les causes des variations de qualité d’un objet
à l’autre peuvent venir de sources multiples et partiellement connues, on peut plutôt faire
appel à une modélisation aléatoire et considérer x1 , · · · , xn comme une réalisation particulière
X1 (ω), · · · , Xn (ω) d’une suite de v.a.i.i.d. de même loi B(θ) :

Pθ (Xi = 1) = θ proba qu’un objet soit défectueux (1.2)

Le travail du statisticien est de déterminer la loi Pθ où θ ∈ [0, 1].

1. Comment estimer θ au vu de X1:n (ω) = (X1 , · · · , Xn )(ω) ?
1 Pn
On rappelle la loi forte des grands nombres sur la moyenne empirique Xn = n i=1 Xi :
T H ÉOR ÈME 1.1 (Loi forte des grands nombres). Soit Xn )n∈N une suite de v.a.r.i.i.d telle que
E(|X1 |) < ∞. Alors Xn → E(X1 ) p.s.
Pour notre problème, θ = Eθ (X1 ) d’où si θ^n = Xn , θ^n est une fonction de X1:n et θ^n → θ Pθ
p.s. lorsque n tend vers l’infini. On dit que θ^n est fortement consistant. Il faut noter que
θ^n est une variable aléatoire qui dépend de l’expérience i.e. de ω. Généralement θ^n 6= θ
mais la forte consistance dit que l’erreur tend p.s. vers 0 pour toute valeur du paramètre.
2. Comment apprécier la performance de l’estimateur ? Ici on remarque que Eθ (θ^n ) = θ. On
dit que θ^n est sans biais. De plus

θ(1 − θ)
Rθ^n (θ) = Eθ ((θ^n − θ)2 ) =
n
Rθ^n (θ) est le risque quadratique de θ^n lorsque le vrai paramètre est θ. On veut que R soit
aussi petit que possible.
1. ce qui pose d’autres questions de faisabilité, de sincérité des réponses, etc que nous n’abordons pas ici bien
qu’essentielles. Le modèle de contrôle de qualité est du coup moins problématique bien qu’il n’en soit pas exempts
de questions.

3
Du point de vu asymptotique, l’écart type de l’erreur d’estimation est de l’ordre de √1 .
n
√
Considérons le rescaling n(θ^n − θ). Le TCL nous donne
T H ÉOR ÈME 1.2 (Théorème central limite). Soit (Xn )n∈N une suite de v.a.r.i.i.d telle que X1 ∈
L2 . On note m = E(X1 ) et σ2 = V(X1 ). Alors
√ L
n(Xn − m) → N (0, σ2 )

Dans notre cas le TCL nous donne

√ L
n(θ^n − θ) → N (0, θ(1 − θ))

On dit que θ^n est asymptotiquement normal et que θ(1 − θ) caractérise la dispersion de
notre estimateur (après rescaling) autour de θ lorsque le paramètre vaut θ. Une partie du
cours sera consacré à la recherche des meilleurs estimateurs à n fixé ou du point de vue
asymptotique. C’est la théorie de l’efficacité.
3. Comment donner des marges d’erreur autour de θ^n ?
q p
On sait que Xn (1 − Xn ) → θ(1 − θ) Pθ p.s et que
√
n(X − θ) L
p n → N (0, 1)
θ(1 − θ)
√
L
ce qui donne via le lemme de Slutsky que √ ^n(Xn −θ)
^
→ N (0, 1)
θn (1−θn )
L EMME 1.1 (Slutsky). Soient (Xn )n≥0 et (Yn )n≥0 deux suites de v.a. à valeurs resp. dans Rp
L P L
et Rq . On suppose que Xn → X et Yn → c ∈ Rq . Alors (Xn , Yn ) → (X, c) et pour tout
L
f ∈ C(Rp × Rq , Rr ) on a f(Xn , Yn ) → f(X, c).

Démonstration. On passe par le théorème de Levy.

′
On note Φ(Xn ,Yn ) (ξ1 , ξ2 ) = E(eihξ1 ,Xn i+ihξ2 ,Yn i ). De l’inégalité |eiy − eiy | ≤ |y − y ′ |, on tire
|eiξ1 ,Xn i+ihξ2 ,Yn i − eiξ1 ,Xn i+ihξ2 ,ci | ≤ |ξ2 ||Yn − c| et

|Φ(Xn ,Yn ) − Φ(Xn ,c) |(ξ1 , ξ2 ) ≤ 2P(|Yn − c| ≥ δ) + |ξ2 ||δ| → 0

simp.
pour n → ∞ et δ > 0. Comme δ est arbitraire, on déduit Φ(Xn ,Yn ) − Φ(Xn ,c) → 0.
L simp. simp.
Comme Xn → X, on déduit Φ(Xn ,c) − Φ(X,c) → 0 d’où Φ(Xn ,Yn ) → Φ(X,c) ce qui donne
le premier résultat par le théorème de Levy.
On termine en remarquant que si h ∈ Cb (Rr , R), alors h ◦ f ∈ Cb (Rp × Rq , R).

Soit α ∈ [0, 1] un niveau d’erreur et γα définie par P(|U| > γα ) = α où U ∼ N (0, 1). On a
 
√ ^n − θ
θ
Pθ  n q > γα  → α
θ^n (1 − θ^n )

Par suite, comme on a

q
√ θ^n − θ θ^n (1 − θ^n )
nq ≤ γα ssi θ ∈ [θ^n ± γα √ ]
θ^n (1 − θ^n ) n

4
√
θ^n (1−θ^n )
on déduit Pθ (θ ∈ [θ^n ± γα √
n
]) → 1 − α On dira que
q
θ^n (1 − θ^n )
[θ^n ± γα √ ]
n

est un intervalle de confiance de niveau de confiance 1 − α.

Par exemple, dans le cas d’un sondage avec n = 100 et θ^100 = 0.52%, α = 0.05 et γα =
1.96, on obtient un intervalle de confiance à ±8%. Si on veut une fourchette qui soit juste
dans 95% des cas, elle est donc de taille ±8% (pour n = 1000, est de à ±3%).
4. Le fabricant s’engage à ce que la probabilité de fabriquer un objet défectueux soit inférieur
à 0.05. On pose θ0 = 0.05. Le fabriquant s’engage donc à ce que ≪ θ ≤ θ0 ≫. Le client du
fabriquant lui s’autorise à rejeter un lot s’il suspecte que ≪ θ > θ0 ≫. Sur un échantillon
de taille n d’objets contrôles dans un lot on veut décider θ ≤ θ ou θ > θ0 . Il s’agit de
la théorie des tests d’hypothèses. On cherchera comme pour le problème de l’estimation à
définir les meilleurs tests possibles.

1.2 Cas de la régression

Le modèle précédent (loi B(θ)) est très simple même si fondamental. On trouve évidemment
des situations beaucoup plus complexes dans lesquelles entre plus de modélisation sur les
phénomènes sous-jacents. Celui de la régression 2 par exemple où on cherche une relation
yi ≃ f(xi , α) entre une variable x ∈ X (variable explicative éventuellement de grande taille) et
y ∈ Rd (variable dépendante) pour laquelle on modélise l’erreur ei = yi − f(xi , α) comme la
réalisation d’une suite de v.a.i.i.d (ǫi ) de loi νβ

Yi = f(xi , α) + ǫi (1.3)

si bien que (y1 , · · · , yn ) peut être considéré comme une réalisation du vecteur aléatoire (Y1 , · · · , Yn )
dont les composantes sont indépendantes (mais ici non identiquement distribuées).

Le problème peut être alors de déterminer une estimation θ^n de θ = (α, β) à partir de la
donnée (xi , yi )1≤i≤n pour par exemple :
• retirer le bruit ei (débruiter) des données en calculant y
^ i = f(xi , α
^ n)
• prédire ou simuler le comportement de la réponse y, sur une nouvelle entrée xnew par

Y = f(xnew , α
^ n ) + ǫnew avec ǫnew ∼ νβ^ n

Dans les cas les plus simples, on paramétrise f sur une base de fonction fk : X → Rd si bien
que
Xp
f(x, α) = αk fk (x)
k=1

2. On peut se demander à juste titre d’où vient ce terme de régression qui sonne étrangement. On en trouve l’ori-
gine dans un article de Francis Galton de 1886 ≪ Regression towards Mediocrity in Hereditary Stature ≫. Cousin de
Darwin, Galton est aussi le fondateur d’une approche scientifique de l’eugénisme et de la chaire National Eugenics
à UCL qui sera tenu par Karl Pearson puis Ronald Fisher (définitivement fermé en 2000). Voir à ce sujet la vidéo de
Bernard Ycard ≪ Dr. Jekill and Mr. Hyde ≫ https://www.hist-math.fr/recits/galton.html

5
(typiquement d = 64 ou d = 512) ie on cherche une application ϕ : w ∈ W → 7 ϕ(w) ∈ Rd telle
que la proximité entre ϕ(w) et ϕ(w ′ ) dépendent de la proximité syntaxique et sémantique.
Pour construire une telle application, on peut s’appuyer sur des données (yi , xi )1≤i≤n où
yi ∈ W est un mot et xi ∈ W p est le contexte immédiat de yi (par ex. les deux mots précédents
et suivants dans la phrase) dans un grand corpus et modéliser les (yi )1s≤i≤n comme des va-
riables aléatoires (Yi )1≤i≤n à valeurs dans W de loi
n
Y ehϕ(yi ),ϕ(xi )i
Pϕ (Y1n = yn1 ) = P hϕ(w),ϕ(xi )i
(1.5)
i=1 w∈W e
. P
où ϕ(x) = p1 pk=1 ϕ(wk ). Ici, on peut prendre comme paramètre θ = ϕ ∈ Rd×|W| .
Il est étonnant de constater que cette approche peut être utilisée en pratique sur de gros vo-
cabulaires (1M mots) avec de très gros corpus de l’ordre d’1G mots et pour des répresentations
d de taille 600 (voir [2]). On construit ϕ^ en maximisant (1.5) en ϕ. Pour apprecier la façon dont
on capture la proximité sémantique et syntaxique, on peut essayer de comparer φ( ^ ′ king ′ ) −
′
^ man )+ϕ(
ϕ( ′ ′ ′
^ woman ) et ϕ( ′ ′
^ queen ) (en fait on regarde plutôt les cosinus des angles comme
mesure de proximité). Et ça marche pas mal !

2 Modèles statistiques
La définition d’un modèle statistique peut revêtir différentes formes, nous choisirons la
forme la plus simple (et la plus abstraite) suivante :
D ÉFINITION 1.1. On appelle modèle statistique la donnée d’un espace (Ω, A) où A est une tribu
sur Ω et d’une famille (Pθ )θ∈Θ de probabilités sur (Ω, A). Θ est appelé ensemble des paramètres.
Dans le premier exemple introductif on a :
Ω = {0, 1}n , A = P(Ω) et Pθ = B(θ) ⊗ · · · ⊗ B(θ) et pour tout 1 ≤ i ≤ n, on définit
Ω → {0, 1}
Xi :
ω 7→ xi
Sous Pθ , X1 , · · · , Xn est une suite i.i.d de variables de loi B(θ).
D ÉFINITION 1.2 (Identifiabilité). On dit que (Ω, A, (Pθ )θ∈Θ ) est identifiable si θ 7→ Pθ est injec-
tive.
D ÉFINITION 1.3 (n-échantillon, modèle canonique). Soit (µθ )θ∈Θ une famille de probabilités sur
(X , BX ). On appelle n-échantillon de loi µθ une suite (X1 , · · · , Xn ) de v.a.i.i.d de loi µθ . On appellera
modèle canonique d’un n-échantillon pour une famille de loi (µθ )θ∈Θ le modèle modèle statistique
Ω = X n , A = ⊗ni=1 BX , Pθ = ⊗ni=1 µθ où les Xi sont les projections canoniques.
Exercice 1. Vérifier que le modèle canonique est identifiable ssi θ 7→ µθ est injective.
A partir de distributions simples, on peut approcher des distributions plus générales par
des modèles de mélanges qui jouent un rôle très important dans l’analyse des données dis-
tribuées sur Rd .
Exercice 2 (Mélange de gaussiennes). Pour p ≥ 1, on considère

Θp = ∆˚ p−1 × {(µk , Γk )1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γk ) ∀1 ≤ k < l ≤ p }

où

7
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p | ki=1 πk = 1 et πk > 0 ∀1 ≤ k ≤ p} est l’intérieur du simplexe de
dimension p − 1 où encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que
les πk > 0.
On note Θ = ∪p≥0 Θk et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd où
p
X πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d/2 1/2
i=1
(2π) det(Γk )

1. Comment simuler un n-échantillon de loi µθ ?

2. Montrer que µθ = µθ ′ ssi il existe p ≥ 1 et σ ∈ Sp tels que θ, θ ′ ∈ Θp et σ · θ = θ ′ où

σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )

Voir version étendue dans la première feuille de TD.

Le problème d’estimation de θ pour les modèles de mélanges dans l’exercice offre un

modèle statistique pour des problèmes de clustering (regroupement, partitionnement) de don-
nées entre p classes qui peuvent être vus comme le problème de l’estimation du paramètre
θ. Lorsque le nombre de classes n’est pas déterminé (ou même lorsque que celui est connu)
c’est un problème délicat bien que fondamental comme on le verra en particulier à cause de la
structure de Θ et du lien complexe θ 7→ µθ .

Exercice 3 (Régresion). Proposer un modèle statistique (Ω, A, (Pθ )θ∈Θ ) dans le cas du modèle de
régression proposé en 1.2

3 Cas des modèles exponentiels

On fera un grand usage des modèles exponentiels au sens suivant.
D ÉFINITION 1.4 (Modèle exponentiel). Soient (Ω, A, m) un espace mesuré et Θ un ensemble. On
R
considère η : Θ → Rk , et une statistique T : Ω → Rk tels que ehη(θ),T i dm < +∞ pour tout θ ∈ Θ.
On appelle modèle exponentiel associé à (η, T, m) le modèle (Ω, A, (Pθ )θ∈Θ ) tel que

ehη(θ),T i
Pθ = R hη(θ),T i dm
m pour tout θ ∈ Θ .
Ωe

Lorsque l’on part d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ) on reconnaı̂tra un modèle expo-
nentiel en utilisant la caractérisation suivante :
P ROPOSITION 1.1. Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique tel qu’il existe une mesure m pour
laquelle on a pour tout θ ∈ Θ
Pθ = ehη(θ),T i−A(θ) hm
où η : Θ → Rk , A : Θ → R et T : Ω → Rk , h : Ω → R+ mesurables, alors (Ω, A, (Pθ )θ∈Θ ) est un
modèle exponentiel associé à (η, T, hm).

Démonstration. Il suffit remarquer qu’en posant m̃ = hm, comme Pθ est une probabilité, on a
R hη(θ),T i
e dm̃ = eA(θ) < +∞.

8
Remarque 1.1. On supposera dans la suite que η(Θ) est d’intérieur non vide et que η → Pη ∝ ehη,T i m
est identifiable sur un ouvert de η(Θ). On dit alors que le modèle est de rang k et que η est le paramètre
naturel et T la statistique naturelle pour le modèle.

Exercice 4. 1. Vérifier que pour les n-échantillons de lois classiques B(θ), E(λ), P(λ), N (µ, σ2 ),
Γ (a, b), B(a, b) fournissent des exemples de modèles exponentiels dont on déterminera le rang et
les statistiques naturelles.
2. Montrer que les mélanges de gaussiennes ne donnent pas des modèles exponentiels.
On rappelle que les lois gamma G(a, b) (a, b > 0) sont absoluement continues par rapport la
mesure de Lebesgue de densité

1 a−1 a
fa,b (x) = x b exp(−bx)✶x>0
Γ (a)

On rappelle que les lois beta B(a, b) (a, b > 0) sont absoluement continues par rapport la mesure de
Lebesgue de densité
1
fa,b (x) = xa−1 (1 − x)b−1 ✶x>0
B(a, b)
Γ (b)Γ (b)
avec B(a, b) = Γ (a+b) .

9
Exercice : Identifiabilité des mélanges gaussiens
Pour p ≥ 1, on considère
Θp = ∆˚ p−1 × {((µk , Γk ))1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γl ) ∀1 ≤ k < l ≤ p }
où
• Sym+ (d) est le cône des matrices d × d symétriques définies positives
P
• ∆˚ p−1 = {(πk )1≤k≤p ∈ (R∗+ )p | k πk = 1 } est l’intérieur du simplexe de dimension p − 1
i=1
ou encore l’ensemble des distributions de probabilités sur {1, · · · , p} telles que les πk > 0.
On note Θ = ∪p≥0 Θp et pour tout θ = ((πi )1≤i≤k≤p , ((µk , Γk ))1≤k≤p ) ∈ Θp on définit µθ = fθ λd
où
Xp
πk
e−hΓk (x−µk ),(x−µk )i/2 .
−1
fθ (x) = d 1/2
i=1
((2π) det(Γk ))
1. Comment simuler un n-échantillon de loi µθ à partir de la donnée de θ ?
On veut montrer maintenant l’identifiabilité des distributions µθ = fθ λd à permutation près
des éléments du mélange c’est-à-dire que µθ = µθ′ ssi il existe p ≥ 1 et σ ∈ Sp tels que
θ, θ ′ ∈ Θp et σ · θ = θ ′ où
σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )
On note alors θ ∼ θ ′ .
2. On suppose ici d = 1. On notera σ2k = Γk .
2
(a) Montrer que la famille F = {x ∈ R 7→ exp(− (x−µ)
2σ2
) ∈ R | (µ, σ2 ) ∈ R × R∗+ } est une
famille libre de C(R, R).
(b) En déduire le résultat d’identifiabilité.
On suppose maintenant que d > 1 et on considère (θ, θ ′ ) ∈ Θp × Θp ′ tels que µθ = µθ ′ . On
note Iθ,θ ′ = {(k, l) ∈ {1, · · · , p} × {1, · · · , p ′ } | (µk , Γk ) = (µl′ , Γl′ )} l’ensemble des paires d’indices
de composantes identiques sur θ et θ ′ .
3. On veut montrer ici par l’absurde que Iθ,θ ′ 6= ∅. On suppose donc que Iθ,θ ′ = ∅.
(a) Montrer que λd -p.p. en u ∈ Rd on a
[
# (hu, µk i, uT Γk u), k ∈ J1, pK (hu, µl′ i, uT Γl′ u), l ∈ J1, p ′ K = p + p ′.

(b) Montrer que pour tout u ∈ Rd , et tout t ∈ R, on a

p p′
X 2 X t2
ithu,µk i− t2 uT Γk u ′ T Γ ′u
πk e = πl′ eithu,µl i− 2 u l

k=1 l=1

(c) En déduire une contradiction en utilisant le résultat d’identifiabilité pour d = 1.

4. On définit X X
fθ,θ ′ = (πk ∧ πl′ )gµk ,Γk = (πk ∧ πl′ )gµl′ ,Γl′
(k,l)∈Iθ,θ ′ (k,l)∈Iθ,θ ′

où gµ,Γ est la densité de la loi gaussienne N (µ, Γ ).

R
(a) Montrer que si α = 1 − fθ,θ ′ (x)dx > 0, alors il existe θ̃ ∈ Θp̃ et θ̃ ′ ∈ Θp̃ ′ tels que
fθ = fθ,θ ′ + αfθ̃ = fθ ′ = fθ,θ ′ + αfθ̃ ′ et Iθ̃,θ̃ ′ = ∅.
(b) En déduire que α = 0 et fθ = fθ,θ ′ = fθ ′ puis que θ ∼ θ ′ .

10
Bibliographie

[1] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.

[2] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[3] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

11
Chapitre 2

Vecteurs gaussiens, théorème de

Cochran et premières applications

Le cadre des vecteurs gaussiens est très intéressant dans le cadre statistique, tout d’abord
par le rôle pivot que joue la distribution gaussienne dans la théorie des probabilités (TF, TCL)
et ensuite par les interprétations des relations d’indépendance en terme de géométrie eucli-
dienne. Cela conduit dans le cadre des modèles linéaires une théorie presque complète et non
asymptotique (i.e. pour des tailles d’échantillon éventuellement petites). Dans ce chapitre,
nous donnons quelques rappels sur les vecteurs gaussiens et deux applications à la construc-
tion d’intervalles de conﬁances et au modèle ANOVA à un facteur. La théorie plus générale
des modèles linéaires interviendra plus tard dans le cours.

1 Vecteurs gaussiens
On rappelle que si U ∼ N (m, σ2 ) alors sa fonction caractéristique est donnée par
.
ΦU (ξ) = E(eiξU ) = exp(iξm − ξ2 σ2 /2) .

D ÉFINITION 2.1. Soit X un vecteur aléatoire dans Rd . On dit que X est un vecteur gaussien si pour
tout u ∈ Rd , �X, u� est gaussien.
.
Remarque 2.1. On déduit immédiatement que E(|X|2 ) < ∞ et on note m = E(X) son espérance et
.
Γ = E((X − m)(X − m)T ) sa matrice de covariance (on considère X comme un vecteur colonne).

Exercice 5. Soit X ∼ N (m, Γ ) un vecteur gaussien sur Rd .

1. Vériﬁer que �X, u� = N (�m, u�, uT Γu). En déduire que E(ei�X,u� ) = exp(i�m, u� − uT Γu/2) et
que la loi de X est caractérisée par la donnée de m et Γ . On notera N (m, Γ ) la loi de X.
2. Soit A ∈ Mp×d (R) et b ∈ Rp . Alors AX + b ∼ N (Am + b, AΓAT ).

P ROPOSITION 2.1. Soit X ∼ N (m, Γ ) vecteur gaussien sur Rd . Si (ui )i∈I est une famille de vecteurs
de Rd 2 à 2 orthogonaux pour la forme quadratique Γ (i.e. uTi Γuj = 0, ∀i �= j), alors (�X, ui �)i∈I est
une famille de v.a.r. gaussiennes indépendantes telle que �X, ui � ∼ N (�m, ui �, uTi Γui ).
C OROLLAIRE 2.1. Si m = 0 et Γ = Id alors les coordonnées de X sont i.i.d. de loi N (0, 1) (X est dit
vecteur gaussien standard)

11
� � �
Démonstration. On vériﬁe que E(ei j∈I ξj �X,uj � ) = E(ei�X, j∈I ξj uj ). Comme U = �X, j∈I ξj uj �
� � � �
est une v.a.r. d’espérance �m, j∈I ξj uj � et de variance ( j∈I ξj uj )T Γ ( j∈I ξj uj ) = j∈J ξ2j uTj Γuj
� � 2 T �
(orthogonalité) , on déduit E(ei�X, j∈I ξj uj ) = E(ei j∈I ξj �m,uj �−ξj uj Γuj ) = j∈J E(eiξj �X,uj � ).

C OROLLAIRE 2.2. Soit X ∼ N (m, Γ ).

1. Si (ui )1≤i≤d est une b.o.n. de Rd de vecteurs propres de Γ pour la famille de valeurs propres
�
(σ2i )1≤i≤d (les valeurs propres de Γ sont positives ou nulles), alors X = m + ni=1 �X − m, ui �ui
où les v.a. (�X − m, ui �)1≤i≤d sont indépendantes de loi N (0, σ2i ) pour tout 1 ≤ i ≤ d.
.
2. En supposant que u1 , · · · , ur correspondent aux valeurs propres non nulles, alors en notant Zi =
�X − m, ui �/σi , on a
�r
X=m+ σi Zi ui (2.1)
i=1

avec (Zi )1≤i≤r i.i.d. N (0, 1).

3. En particulier, comme Vect{ui | 1 ≤ i ≤ r} = Im(Γ ), on a P(X ∈ m + Im(Γ )) = 1 avec
dim(Im(Γ )) = r.

Exercice 6. Soit Γ une matrice symétrique positive et A ∈ Md (R) telle que Γ = AAT .
1. Montrer que pour tout m ∈ Rd , m + AU ∼ N (m, Γ ) si U ∼ N (0, Id ).
2. En déduire une façon de simuler un vecteur gaussien en utilisant la décomposition de Cholesky
de Γ .
3. En déduire que si Γ est inversible et X ∼ N (m, Γ ) est une vecteur gaussien sur Rd , alors la loi de
X est à densité par rapport à Lebesgue de densité

1
f(x) = � exp(−(x − m)T Γ −1 (x − m)/2) .
(2π)d det(Γ )

2 Lois du chi-deux, de Student et de Fisher. Théorème de Cochran

D ÉFINITION 2.2. 1. Si U est un vecteur gaussien standard de dimension d, alors |U|2 ∼ χ2 (d) (loi
du chi-deux à d degrés de liberté). La loi χ2 (d) est une loi γ(d/2, 1/2).
2. Si U ∼ N (0, 1) et Q ∼ χ2 (d) sont indépendantes, alors T = �U
Q
∼ t(d) (loi de Student à d degré
d
de liberté).
Q1 /d1
3. Si Q1 ∼ χ2 (d1 ) et Q2 ∼ χ2 (d2 ) sont indépendantes, alors F = Q2 /d2 ∼ F(d1 , d2 ) (loi de Fisher de
degrés d1 et d2 )

Remarque 2.2. De la déﬁnition d’une loi χ2 (d) on déduit immédiatement que Q1 + Q2 ∼ χ2 (d1 + d2 )
lorsque Q1 ∼ χ2 (d1 ) et Q2 ∼ χ2 (d2 ) avec Q1 et Q2 indépendantes.

T H ÉOR ÈME 2.1 (Théorme de Cochran). Soit X ∼ N (m, σ2 I) un vecteur gaussien sur Rd . On sup-
.
pose que les s.e.v Ei ⊂ Rd sont orthogonaux 2 à 2 pour 1 ≤ i ≤ r. Alors, si XEi = pEi (X), les variables
(XEi )1≤i≤r sont indépendantes et L(|XEi |2 ) ∼ χ2 (dim(Ei )).

12
Démonstration. Comme les projecteurs orthogonaux sont auto-adjoints, on a �u, pE (v)� = �pE (u), v�.
� 2
Par suite, E(exp(i rj=1 �ξj , pEj (X)�)) = E(exp(i�u, X�)) = exp(i�u, m� − σ2 |u|2 ) pour u =
�r �r
j=1 pEj (ξj ). Par orthogonalité des espaces Ej , on a |u| = j=1 |pEj (ξj )| et donc
2 2

r
� r
� σ2
E(exp(i ξj , pEj (X)�)) = exp(i�pEj (ξj ), m� − |pEj (ξj )|2 )
2
j=1 j=1
r
� r
�
= E(exp(i�pEj (ξj ), X�) = E(exp(i�ξj , pEj (X)�)
j=1 j=1

ce qui donne l’indépendance des (pEj (X))1≤j≤r par injectivité de la transformée de Fourier.
Enﬁn, si (u1j , · · · , upj ) avec p = dim(Ej ) est une b.o.n. de Ej , le résultat précédent nous donne
que les pRuk (X) = �X, ukj �ukj sont indépendants et que les (�X, ukj �)1≤k≤p sont i.i.d N (0, 1). Par
j
�dim(E )
suite, comme |PE2 j (X)|2 = k=1 j �X, ukj �2 on déduit le dernier résultat.

3 Application 1 : IC et test sur la moyenne dans un échantillon gaus-

sien
3.1 Statistique de Student
Exercice 7 (Important !). Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ2 ). On note θ = (µ, σ2 ).
1. En notant X = (X1 , · · · , Xn )T , vériﬁer que X ∼ N (µ� , σ2 I) avec � = (1, · · · , 1)T ; montrer que
�
si E0 = R� , on a pE0 (X) = X� où X = n1 ni=1 Xi .
�
2. Soit S2 = ni=1 (Xi − X)2 /(n − 1). Montrer que S2 = |X − pE0 (X)|2 /(n − 1) et en déduire par
le théorème de Cochran que S2 et X sont indépendantes avec (n − 1)S2 /σ2 ∼ χ2 (n − 1).
3. Montrer alors que
. √ √
T = n(X − µ)/ S2 ∼ t(n − 1) (Statistique de Student) .

On remarque que la loi de T ne dépend pas de µ ; une telle statistique est appelée statistique pivot
pour µ.
t2 S t1 S
On a t1 ≤ T ≤ t2 ⇔ µ ∈ [X − √
n
,X − √
n
]. On note Fn−1 (t) = P(T ≤ t) lorsque T ∼ t(n − 1)
et t ∈ R.
— Dans le cas bilatère on prendra Fn−1 (t1 ) = 1 − Fn−1 (t2 ) = α/2 ;

��
��

��

��
��

��
� � � � � � � � �
�

13
— dans le cas unilatère à gauche , on prendra Fn−1 (t1 ) = α et t2 = +∞ ;

��
��

��

��
��

��
� � � � � � � � �
�

— dans le cas bilatère à droite, on prendra t1 = −∞, 1 − F(t2 ) = α.

��
��

��

��
��

��
� � � � � � � � �
�

3.2 Intervalle de conﬁance sur la moyenne

Au ﬁnal, on obtient :
Pθ (Iα � µ) = 1 − α
St2 St1
lorsque Iα = [X − √ n
,X− √ n
] et (t1 , t2 ) sont choisis pour que Fn−1 (t1 ) + (1 − Fn−1 (t2 )) = α avec
Fn−1 fonction de répartition de la loi tn−1 .

Exemple 1 (D’apres [2]). Un constructeur automobile indique une consommation de 6.3l/100km

pour un modèle particulier dans des conditions expérimentales précises. Pour 30 automobiles (prises au
hasard) testées dans ces mêmes conditions, on relève une consommation moyenne de 6.42l/100km et
un écart type de 0.22l/100km. L’indication du constructeur est-elle ﬁable ?

On suppose ici la distribution des consommations gaussiennes (voir ci-dessous). La moyenne

empirique trouvée semble assez supérieure à la valeur afﬁchée par le constructeur. Pour étayer
cette constatation on construit un intervalle de conﬁance unilatère à droite de niveau α = 0.05.
— En utilisant la fonction t.ppf de scipy.stats qui donne l’inverse de la fonction de
répartition

1 from scipy.stats import t

2 t.ppf(0.95, 29)
3 >>1.6991270265334972
Listing 2.1 – quantile d’une loi de student

14
on obtient F29 (t2 ) = 0.95 pour t2 = 1.7 ce qui donne pour l’intervalle de conﬁance uni-
latère à droite de niveau α = 0.05 : Iα = [6.35 , +∞[ pour α = 0.05. On a donc µ ∈
/ Iα ce
qui n’avait a priori que 5/100 de chances d’arriver.
Une autre façon de procéder est de calculer la valeur de la statistique de Student T qui vaut
√
t = 30(6.42 − 6.3)/0.22 = 2.987. Cette valeur est anormalement élevée. Peut-on le préciser ?
— En utilisant la fonction t.cdf(x,df) de scipy.stats qui donne P(T ≤ x) pour T ∼
t(df)
1 from scipy.stats import t
2 print(f’p-valeur : {1-t.cdf(2.987,29):.3e}’)
3 >>p-valeur : 2.840e-03
Listing 2.2 – p-valeur

on obtient que P(T ≥ t) = 2.84 10−3 (p-valeur). La valeur observée de T est très im-
probable en particulier inférieure à 0.05 (dualité test-IC). En particulier aucun intervalle
de confiance unilatère à droite de niveau supérieur à 2.84 10−3 ne contient la valeur du
constructeur. Même en prenant le risque de se tromper 1 fois sur 100, α = 0.01, l’inter-
valle unilatère ne contient pas la valeur du constructeur.
Attention toutefois avant d’affirmer péremptoirement que le constructeur sous-estime la consom-
mation de ses voitures. Par exemple, votre démarche est construite sur une hypothèse de loi
gaussienne qui pourrait être mise en cause (on ne peut pas tester ici puisque l’on a pas les
30 valeurs mesurées). De façon, générale, il ne faut jamais oublier les hypothèses statistiques
sous-jacentes.
Dans beaucoup de situations réelles, les distributions ne sont pas gaussiennes. On passe
alors par le TCL + le lemme de Slutsky pour montrer que pour un n-échantillon de loi de carré
intégrable, d’espérance µ :
√ loi
n(X − µ)/S → N (0, 1)
√ √
On a donc (dans le cas bilatère) pour Iα = [X − SΦα / n, X + SΦα/ n] avec P(|U| ≥ Φα ) = α
pour U ∼ N (0, 1) que P(Iα � µ) → 1 − α lorsque n → ∞.
Le problème est maintenant de connaı̂tre la qualité de l’approximation pour n fixé. Cela
dépend de la loi des Xi . Si l’échantillon est gaussien, on peut s’en faire une bonne idée en
regardant la valeur du quantile tn,1−α tel que P(T ≤ tn,1−α )) = 1 − α pour T ∼ t(n). Ci-
dessous le cas standard α = 0.025 correspondant à un intervalle bilatère de niveau α = 0.05
(assez clairement, la différence est importante pour n ≤ 15 mais minime pour n ≥ 30).

1 from scipy.stats import t � ��

2 import matplotlib.pyplot as plt
3 ��

4 %matplotlib inline
��
5
6 df = [i+1 for i in range(100)] �
7 plt.plot(df,t.ppf(0.975,df))
��
��

8 �
9 plt.xlabel(r’df’)
10 plt.ylabel(r’$t_{df,1-\alpha}$’) �
11 plt.title(r’$1-\alpha$ quantile ($\
�
alpha=.025$) en fct de df’)
� ��
Listing 2.3 – quantile d’une loi de student ��

15
3.3 Intervalle de conﬁance sur la variance
.
En reprenant l’exercice 7. 2), on avait χ2 = (n − 1)S2 /σ2 ∼ χ2 (n − 1) qui forme encore une
statistique pivot pour le paramètre σ. Dans ce cas, on peut à nouveau construire des intervalles
de conﬁances à partir des quantiles de la distribution de la loi χ2 (n−1) (ci-dessous la loi χ2 (5)) :

��

��
��

��

��
� �
� �

��

�
�
��
��

��
��

��

��
�
�

��

�
�
��
��

��
��

��

��
�
�

��

�

Intervalle de conﬁance sur la variance

Pθ (Iα � σ2 ) = 1 − α

lorsque Iα = [(n − 1)S2 /χ22 , (n − 1)S2 /χ21 ] et (χ21 , χ22 ) sont choisis pour que Fn−1 (χ21 ) + (1 −
Fn−1 (χ22 )) = α avec Fn−1 fonction de répartition de la loi χ2 (n − 1).

4 Application 2 : Analyse de la variance à un facteur (ANOVA 1)

Nous developpelons ici un exemple d’application important autour de l’analyse de la va-
riance à un facteur, qui nous donne l’occasion d’aborder dans un cas particulier utile la théorie
des tests object d’un traitement plus large dans le chapitre ??.

4.1 Exemple introductif

On peut pouvoir tester l’effet d’un facteur (ici le type de nourriture) sur un mesure faite sur
des individus (ici le poids) :

16
1 import statsmodels.api as sm
2 import seaborn as sns
3 import matplotlib.pyplot as plt
4
5 chickwts = sm.datasets.get_rdataset(" ��
chickwts").data # load data in a
��
dataframe
6 # rename columns ��
7 df = chickwts.rename(columns={’weight ��
’:’poids’, ’feed’:’nourriture’})

��
8 df = df.sort_values(by=’nourriture’) ��
9 ��
10 plt.figure(figsize=(7,4))
��
11 ax = sns.stripplot(y=’poids’,x=’
nourriture’, data=df, jitter=False ��
) ��
�
��
�
��
�
��
� ��
plt.setp(ax.get_xticklabels(), ��
12 ��
rotation=30) ��
13 plt.title(’Dataset Chickwts (R
dataset)’)
Listing 2.4 – Afﬁchage données Chickwts
On suppose que le facteur peut prendre p valeurs i = 1 · · · p. On modélise la mesure Yij sur
le j-ème individu pour la valeur i du facteur comme une variable de loi N (µi , σ2 ) :

Yij = µi + �ij ,

pour tous 1 ≤ i ≤ p et 1 ≤ j ≤ ni où les eij sont i.i.d. de loi N (0, σ2 ). Remarquons que le nombre
d’individus par classe (i.e. pour la même valeur du facteur) n’est pas supposé constant. On ici
Y valeurs dans Rn1 × · · · × Rnp � Rn et on note θ = ((µ1 , · · · , µp ), σ2 ) le paramètre.
La question que l’on se pose est ici de déviner en fonction des données (yij ) l’égalité des
moyennes (test d’homogénéité) ou encore de tester l’hypothèse H0 : µ1 = · · · = µp contre
H1 : ∃i < j, µi �= µj .

4.2 Construction de la statistique de Fisher

.
Notons m = E(Y). On a Y ∼ N (m, σ2 Idn ) et le théorème de Cochran s’applique pour la
⊥ ⊥
décomposition Rn = E0 ⊕ F0 ⊕ F1 avec E0 , F0 , F1 tels que que E0 = R� ,
⊥
E1 = E0 ⊕ F0 = {(yij ) ∈ Rn � Rn1 × · · · × Rnp | yij = yij � , 1 ≤ i ≤ p, 1 ≤ j, j � ≤ ni } .

De façon équivalente, on dira que l’on veut tester l’hypothse H0 : m ∈ E0 contre l’hypothse
H1 : m ∈ F0 . Le théorème de Cochran donne directement :
• pF0 (Y) et pF1 (Y) sont indépendants ;
• sous H0 , comme m ∈ E0 , |pF0 (Y)|2 /σ2 ∼ χ2 (dim(F0 )) et |pF1 (Y)|2 /σ2 ∼ χ2 (dim(F1 )).
Par suite
|pF0 (Y)|2 /(p − 1)
∼ F(p − 1, n − p)
|pF1 (Y)|2 /(n − p)
� � i �ni
Exercice 8. Montrer que pE0 (Y)ij = Y, pE1 (Y)ij = Y i où Y = n1 pi=1 nj=1 Yij et Y i = 1
ni j=1 Yij .

17
4.3 Décomposition de la variance
On déduit on écrivant |pF0 (Y)|2 = |pE1 (Y) − pE0 (Y)|2 et |pF1 (Y)|2 = |Y − pE1 (Y)|2 que
�
( pi=1 ni (Y i − Y)2 )/(p − 1)
F = �p �ni ∼ F(p − 1, n − p)
( i=1 j=1 (Yij − Y i )2 )/(n − p)

Evidemment par le théorème de Pythagore, on a

p �
� ni p �
� ni p �
� ni
(Yij − Y)2 = (Yij − Y i )2 + (Y i − Y)2
i=1 j=1 i=1 j=1 i=1 j=1
� ��
Var. tot. Var. intra. Var. inter.

ce qui explique l’appellation “analyse de la variance”. Lorsque H1 est vraie pE1 (Y) = pE1 (m) +
pE1 (�) avec pE1 (m) �= 0. Alors, |pE1 (Y)|2 /σ2 est un χ2 décentré ce qui doit produire statistique-
ment des valeurs de F plus grandes. On rejettera donc H0 sur des grandes valeurs de F :

��

��
��

��

��
��

� � � � � � � �
�

Le quantile inférieure à 5% vaut f2 = 2.35 et F = 15.365 (la p-valeur est 5.93 × 10−10 ). H0 est
très fortement rejetée.

4.4 Comparaison de 2 moyennes

Lorsque l’égalité des moyennes est rejetée, on peut vouloir en savoir plus et rafﬁner l’ana-
lyse en testant par exemple H0 : µ1 = µ2 contre H1 : µ1 �= µ2 . Or Y 1 − Y 2 ∼ N (µ1 − µ2 , σ2 nn11+n
n2 )
2

et (par Cochran) S est indépendante de Y 1 − Y 2 . Par suite

� � �
n1 n2 Y 1 − Y 2 − (µ1 − µ2 )
∼ t(n − p)
n1 + n 2 S
�
n1 n2 Y 1 −Y 2
En posant T12 = n1 +n2 S , T12 ∼ t(n − p) sous H0 mais comme E(T12 ) = µ1 − µ2 , |T |
à tendance à prendre des grandes valeurs si µ1 �= µ2 . Ceci conduit au test de niveau α de
µ1 �= µ2 contre µ1 = µ2 de région de rejet Rα = { ω ∈ Ω | |T12 | ≥ cα } où cα est choisi tel que
P(|T | ≥ cα ) = α lorsque T ∼ t(n − p).

Comparaison µ1 = µ2 En notant F la fonction de répartition

� �de |T | �∼ t(n−p), le test s’exprime
n1 n2 Y 1 −Y 2 1 �p �ni
en fonction de la p-valeur p
^ 12 = 1−F(|T |12 ) où T12 = n1 +n2 S , S = n−p i=1 j=1 (Yij −
Y i )2 :

Si p
^ 12 > α on conserve H12 ie on décide µ1 = µ2
Si p
^ 12 ≤ α, on rejette H12 ie on décide µ1 �= µ2 .

18
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .

Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est à
peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici 65)).
La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 × 10−09 (comme on pouvait s’en douter par
inspection visuelle des données).

��

��
��

��

��
��
��
� ��
��
��
�
��

Il est tentant de tester toutes les comparaisons µi = µj pour i < j simultanément pour
découvrir toutes les différences entre les groupes déﬁnis par le facteur (ici le type de nourri-
ture). On devine que la répétition d’un grand nombre de tests élémentaires avec pour chacun
d’eux un risque de décider à tort µi �= µj de α = .5 (i.e. niveau α), peut conduire des fausses
alarmes par la simple accumulation de tests. Il y a diverses façon de s’en prémunir qui seront
abordées dans le chapitre ??.

19
Bibliographie

[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[3] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efﬁcient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[4] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

20
Exercice 9. Dans le test précédent, S est estimée sur toute la population. Si on se restreint aux données
Yij pour i ∈ {1, 2}, écrire le nouveau test d’égalité des moyennes µ1 et µ2 .

Dans le cas des données “chickwts”, on trouve S = 54.85, (n1 , Y 1 ) = (12, 323.58), (n2 , Y 2 ) =
(10, 160.2) et donc T12 = 6.95. C’est une très grande valeur (on se rappelle qu’une Student est
à peu près distribuée comme une N (0, 1) lorsque les degrés de libertés sont assez grand (ici
65)). La p-valeur pour |T12 | est p
^ 12 = 1 − F(|T12 |) = 2.06 10−09 (comme on pouvait s’en douter
par inspection visuelle des données).

��

��
��

��

��
��
��
� ��
��
��
�
��

20
Chapitre 3

Méthodes en estimation ponctuelle

On revient ici dans le cadre d’un modèle statistique (Ω, A, (Pθ )θ∈Θ ).

1 Estimateurs
Le problème de l’estimation ponctuelle est celui de l’estimation du paramètre θ à partir des
observations i.e. d’une expérience ω. Dans la pratique, on estime souvent des fonctions g(θ)
de θ plutôt que θ lui-même. Quelques raisons déjà rencontrées dans le TP2 :
• le problème de paramètres parasites (ou de nuisance) : Dans le cas d’un n-échantillon de
loi gaussienne N (µ, σ2 ), on s’intéresse seulement à la moyenne ou à la variance.
• on a réellement besoin d’une fonction de θ. Par exemple, on veut estimer Pθ (A) avec
A ∈ A.
D ÉFINITION 3.1. On appelle statistique toute fonction mesurable de (Ω, A) dans (E, E) (fonction de
l’expérience ω).
On remarque qu’une statistique n’est rien d’autre qu’une variable aléatoire. On suppose géné-
ralement que g : Θ → Rd .
D ÉFINITION 3.2. On appelle estimateur de g(θ), toute T statstique de (Ω, A) dans (Rd , B(Rd )).
Dans notre exemple préliminaire, θ^n = Xn est un estimateur au sens de la définition.
D ÉFINITION 3.3. On appelle biais d’un estimateur T de g(θ) tel que Eθ (|T |) < +∞ pour tout θ ∈ Θ,
la fonction bT : Θ → Rd définie par bT : Θ → Rd définie par bT (θ) = Eθ (T ) − g(θ). Lorsque
bT (θ) ≡ 0, on dit que T est un estimateur sans biais de g(θ).

Remarque 3.1. T est toujours un estimateur sans biais de g(θ) = Eθ (T ) !

D ÉFINITION 3.4. Soit (Tn )n≥0 une suite d’estimateur de g(θ).

P
— On dit que (Tn ) est une suite d’estimateur consistante de g(θ) si Tn →
θ
g(θ).
— On dit que (Tn ) est une suite d’estimateurs fortement consistante de g(θ) si Tn → g(θ) Pθ
p.s.

21
2 Moyenne empirique, covariance empirique
Soit (µθ )θ∈Θ une famille de probabilités sur (Rd , B(Rd ). Soit (X1 , · · · , Xn ) un n-échantillon
de loi µθ . On suppose que µθ admet pour tout θ ∈ Θ un moment d’ordre un et deux et on note
� �
m1 (θ) = xdµθ (x) et Γ (θ) = (x − m1 (θ))(x − m1 (θ))T dµθ (x)

autrement dit, si X1 ∼ µθ ) on a m1 (θ) = Eθ (X1 ) et Γ (θ) = Eθ ((X1 − m1 (θ))(X1 − m1 (θ))T ).

�
D ÉFINITION 3.5. On appelle moyenne empirique, l’estimateur Xn = n1 i=1 Xi et covariance empi-
1 �n
rique l’estimateur Sn� 2 = n−1 i=1 (Xi − Xn )(Xi − Xn ) .
T

P ROPOSITION 3.1. Xn (resp. Sn� 2 ) est un estimateur sans biais de m1 (θ) (resp. Γ (θ)).

Démonstration. On a
n
1�
Eθ (Xn ) = Eθ (Xi ) = m1 (θ)
n
i=1

et d’autre part,
n
2 1 �
Eθ (Sn� ) = Eθ ((Xi − Xn )(Xi − Xn )T )
n−1
i=1
� n n
1 � �
T
= Eθ ((Xi − m1 (θ))(Xi − m1 (θ)) ) − Eθ ((Xn − m1 (θ))(Xi − m1 (θ))T )
n−1
i=1 i=1
n
�
�
T T
− Eθ ((Xi − m1 (θ))(Xn − m1 (θ)) ) + nEθ ((Xn − m1 (θ))(Xn − m1 (θ)) )
i=1
1
= (nΓ (θ) − nEθ ((Xn − m1 (θ))(Xn − m1 (θ))) = Γ (θ)
n−1

Exercice 10. On suppose m1 (θ) connue. Alors

n
1�
S2n = (Xi − m1 (θ))(Xi − m1 (θ))T
n
i=1

est un estimateur sans biais de Γ (θ).

On considère maintenant qu’on dispose d’un échantillon de taille inﬁnie (Xi )i≥1 de loi µθ et
que Eθ (|X1 |2 ) < +∞ pour tout θ ∈ Θ. Cela correspond au modèle statistique Ω = (Rd )N , A =
N N
⊗ B(Rd ), Pθ = ⊗ µθ et Xi : Ω → Rd projection canonique sur la coordonnée i.
P ROPOSITION 3.2. Pour tout θ ∈ Θ on a
1. Xn → m1 (θ) Pθ p.s.
2. Sn� 2 → Γ (θ) Pθ p.s., S2n → Γ (θ) Pθ p.s.

Démonstration. En exercice. Application facile de la loi forte des grands nombres.

22
Remarque 3.2. (Xn )n∈N est une suite d’estimateurs fortement consistante de m1 (θ). De même, (Sn� 2 )
et (S2n ) sont deux suites d’estimateurs fortement consistantes de Γ (θ).

En particulier, θ^n = (Xn , Sn� 2 ) est une suite d’estimateurs sans biais fortement consistante pour les
vecteurs gaussiens de loi N (µ, Γ ) avec θ = (µ, Γ ).

3 Méthodes des moments

On peut abstraire un peu la méthode précédente. On prend ici X = R (généralisation fa-
cile). On note le moment d’ordre mk (θ) = Eθ (Xk ) lorsque Eθ (|X|k ) < +∞ pour tout θ ∈ Θ.
Dans ce cas, si on peut écrire

g(θ) = Ψ(m1 (θ), · · · , mp (θ))

avec Ψ : Rp → Rp continue, on a en prenant

Tn = ψ(Xn , X2 n , · · · , Xp n )
�
avec Xk n = n1 ni=1 Xki que (Tn ) est une suite d’estimateurs fortement consistante.
De façon encore plus générale, on peut dire que que si X ∈ Rd et

g(θ) = ψ (Eθ (h(X1 )))

pour h : Rd → Rp mesurable telle que h(X1 ) ∈ L1 (Pθ ) pour tout θ ∈ Θ alors Tn = ψ(h(X)n ) est
�
une suite d’estimateur fortement consistante avec h(X)n = n1 ni=1 h(Xi ).

3.1 Exemples
• Pour les n-échantillons de Bernoulli, comme θ = m1 (θ), avec la méthode des moments,
cela donne Tn = Xn .
• Pour les loi exponentielles de paramètre λ, on remarque que λ = m1 (λ)−1 . On obtient
donc dans ce cas Tn = X1 qui déﬁnit une suite d’estimateur fortement consistante de
n
λ. On calcule Eλ (Tn ) = n−1
n
λ. On peut débiaser l’estimateur en prenant Tn� = �n−1
n et
i=1 Xi
obtenir une suite d’estimateurs sans biais fortement consistante (est-ce mieux ?).
• Pour les lois de Poisson, on a λ = Eλ (X1 ) = Vλ (X1 ) = m2 (λ) − m1 (λ)2 . La méthode des
moments fournit deux estimateurs :
n
1�
Tn = Xn , Tn� = X2 n − (Xn )2 = (Xi − Xn )2 .
n
i=1

Le premier est sans biais et le deuxième est la variance empirique qui est légèrement
biasée, et que l’on peut débiaser en prenant un estimateur sans biais de la variance em-
pirique. A nouveau se pose la question du choix de l’estimateur.
• Avec les lois Γ (a, b), la méthode des moments marche encore : Pour X ∼ Γ (a, b) (de
densité fa,b (x) = Γ (a)−1 ba xa−1 e−bx �x≥0 par rapport à Lebesgue), on a E(X) = ab et V(X) =
a
b2
. On obtient donc pour a et b

E(X) E(X)2
b= et a =
V(X) V(X)

23
ce qui donne
^ n = Xn et a (Xn )2
b ^ n =
Sn� 2 Sn� 2
qui génèrent deux suites d’estimateurs fortement consistantes.

Exercice 11. On considère la loi de Laplace L(α, β) de densité

α
f(α,β) (x) = exp(−α|x − β|)
2
Construire un estimateur de α et β.

La méthode des moments nous donne donc un premier principe de construction des estima-
teurs.

4 Minimisation de contraste
4.1 Théorème de Wald
D ÉFINITION 3.6. On appelle contraste toute fonction ρ : X × Θ → R telle que
1. pour tout θ ∈ Θ, on a Eθ (ρ− (X, θ)) < +∞ ;
2. pour tout θ0 ∈ Θ, si D(θ0 , θ) = Eθ0 (ρ(X, θ)), alors D(θ0 , θ) est minimale pour θ = θ0 .
L’idée est que pour un ∞-échantillon de loi µθ0 , on a
n
1�
ρ(Xi , θ) → D(θ0 , θ) Pθ0 p.s.
n
i=1

dès que Eθ0 (ρ− (X1 , θ)) < +∞ pour tout θ ∈ Θ 1

�
En notant ρ^n (θ) = n1 ni=1 ρ(Xi , θ), a n ﬁni, ρ^n est une approximation de D(θ0 , θ). On peut
estimer θ0 en minimisant en θ la quantité ρ^n (θ) et considérer θ^n tel que :

θ^n ∈ arg min ρ^n (θ)

De façon plus générale, si X ∼ µ, on peut déﬁnir

�
D(µ, θ) = ρ(x, θ)dµ(x)
X

dans le cas où ne suppose plus que les données suivent une loi dans le modèle. � Morale-
ment �, θ^n recherche la meilleure approximation de µ dans la famille de modèle µθ au sens de
D(µ, θ) (ou de son approximation à travers ρ^n (θ))
Notons
ρ∗ = inf D(µ, θ) et Θ∗ = {θ ∈ Θ | D(µ, θ) = ρ∗ }
Θ

T H ÉOR ÈME 3.1 (Théorème de Wald). On suppose que (Θ, d) est un espace métrique séparable. On
fait de plus les hypothèses suivantes :
1. Cette dernière condition donne un sens à l’espérance de ρ(X1 , θ) sous Pθ qui n’est pas forcément intégrable
mais qui a une partie négative intégrable. La différence entre l’intégrale de la partie positive et de la partie négative
est bien déterminée (avec la convention +∞ − a = +∞ pour tout a ∈ R)

24
1. Θ∗ �= ∅
2. θ �→ ρ(x, θ) est continue µ p.s.
3. Pour tout θ ∈ Θ, il existe U � θ ouvert de Θ tel que Eµ (supθ � ∈U ρ− (X, θ � )) < +∞
Alors pour tout compact K de Θ et tout � > 0, on a

Pµ (d(θ^n , Θ∗ ) ≥ � et θ^n ∈ K) → 0
n→∞

On remarque que pour un sous-ensemble dénonbrable dense D ⊂ Θ, supθ � ∈U ρ− (X, θ � ) =

supθ � ∈U∩D ρ− (X, θ � ) p.s. (par densité de D et continuité de θ → ρ(x, θ) en θ µ p.s.) On obtient
donc que supθ � ∈U ρ− (X, θ � ) est mesurable à une modiﬁcation p.s. près.

Démonstration. Si ρ∗ = +∞, alors Θ∗ = Θ et le résultat est vrai puisque (d(θ^n , Θ∗ ) ≥ �) = ∅.

On supose donc que ρ∗ < +∞.
Étape 1 : On commence par vériﬁer que Θ∗ est fermé :
Soit (θn )n≥0 ∈ ΘN
∗ tel que θn → θ∞ . Il nous faut montrer que θ∞ ∈ Θ∗ . Or on a

(a) (b)
Eµ (ρ(X, θ∞ )) ≤ Eµ (lim ρ(X, θn )) ≤ lim Eµ (ρ(X, θn )) = ρ∗

où (a) vient de l’hypothèse 2. et (b) vient de l’hypothèse 3. et d’une version étendue du
lemme de Fatou. En effet, au voisinage de θ∞ , il existe U ouvert contenant θ∞ tel que C(X) =
supU ρ− (X, θ) est µ intégrable. Pour n assez grand, θn ∈ U et on a ρ(X, θn ) + C(X) ≥ 0. Par
suite, une application du lemme de Fatou donne

Eµ (lim(ρ(X, θn ) + C(X))) ≤ lim Eµ (ρ(X, θn ) + C(X)) .

Comme Eµ (C(X)) < +∞, on obtient (b).

Étape 2 : Montrons maintenant que pour θ �∈ Θ∗ , il existe U(θ) ouvert tel que

Eµ ( inf ρ(X, θ � )) > ρ∗ .

θ � ∈U(θ)

En effet, si pour h > 0, B(θ, h) est la boule ouverte centrée en θ, on par le Fatou étendu ci-
dessus que

(2.) Fatou
ρ∗ < D(µ, θ) = Eµ (ρ(X, θ)) = Eµ (lim inf ρ(X, θ � )) ≤ lim Eµ ( inf ρ(X, θ � )) .
h→0 B(θ,h) h→0 B(θ,h)

Par suite, pour h assez petit, on a Eµ (infB(θ,h) ρ(X, θ � )) > ρ∗ .

Étape 3 : Soient maintenant K compact de Θ et � ≥ 0. Notons K� = { θ ∈ K | d(θ, Θ∗ ) ≥ � }.

On remarque que K� est compact inclus dans Θ \ Θ∗ . Par compacité, il existe θ1 , · · · , θp dans
K� tel que ∪pi=1 U(θi ) ⊃ K� . En notant ψk (X) = infU(θk ) ρ(X, θ � ), on a par la loi forte des grands
nombres que
lim ψk (X)n > ρ∗ µ p.s.
n→+∞

25
(on utilise ici une version étendue de la loi forte des grands nombres aux variables aléatoires
positives pas forcément intégrables). Comme on a
n n
1� 1�
inf ρ^n ≥ inf inf ρ(Xi , θ � ) ≥ inf inf ρ(Xi , θ � )
K� 1≤k≤p U(θk ) n 1≤k≤p n U(θk )
i=1 i=1
n
1�
= inf ψk (Xi ) = inf ψk (X)n
1≤k≤p n 1≤k≤p
i=1

En passant à la limite, on obtient

lim inf ρ^n > ρ∗ .
n→∞ K�

Comme par ailleurs pour θ0 ∈ Θ∗ (hypothèse 1.), on a p.s. ρ^n (θ0 ) → ρ∗ on déduit que p.s., il
existe N(ω) tel que pour tout n ≥ N(ω), on a infK� ρ^n > ρ^n (θ0 ) et en particulier θ^n (ω) ∈
/ K� ce
qui donne le résultat (la convergence p.s. de �θ^n ∈K
/ � vers 0 entraı̂ne celle en proba).

4.2 Divergence de Kullback-Leibler

D ÉFINITION 3.7 (Divergence de Kullback-Liebler). Soient µ et ν deux probabilités sur un espace
mesurable (E, E). On appelle divergence de Kullback-Leibler entre µ et ν, notée K(µ, ν) la quantité
� � dµ
K(µ, ν) = E log( dν )dµ si µ � ν
+∞ sinon.
dµ
où dνest la dérivée de Radon-Nikodym dans le cas où µ � ν.
� �
Remarque 3.3. Comme on a log− ( dµ )dµ = (log( dµ dµ −
dν ) dν ) dν et que (x log(x)) est majoré par
−
� dµ
dν
1/e, l’intégrale log( dν )dµ est bien déﬁnie (seule l’intégrale de la partie positive est éventuellement
�
inﬁnie) et vaut ϕ( dµ dν )dν avec ϕ strictement convexe (x �→ x log(x)) minorée. Une application de
l’inégalité de Jensen donne alors que K(µ, ν) ≥ ϕ(1) = 0 avec égalité ssi dµ dν = 1 ν p.s. et donc ssi
µ = ν.

P ROPOSITION 3.3. On a K(µ, ν) ≥ 0 et K(µ, ν) = 0 ssi µ = ν.

5 Estimateur du maximum de vraisemblance

5.1 Modèles dominés
D ÉFINITION 3.8 (Modèles dominés). On dit que (Ω, A, (Pθ )θ∈Θ ) est un modèle dominé par une
mesure m σ-ﬁnie sur (Ω, A) si Pθ � m pour tout θ ∈ Θ. On dit que Lθ : (Ω, A) → (R+ , B(R+ )) est
une vraisemblance par rapport à m si

Pθ = Lθ m, pour tout θ ∈ Θ .

Exercice 12. On peut toujours se ramener à une mesure de domination qui est une probabilité car
si (An ) est une suite croissante d’éléments de A tels que 0 < m(An ) < +∞ et Ω = ∪An , alors
� n)
m̃(A) = n≥0 2−n m(A∩A µ(An ) est une mesure de probabilité qui domine le modèle.

Exercice 13. Donner un exemple simple de modèle statistique qui ne soit pas dominé.

26
D ÉFINITION 3.9 (Dominante privilégiée). On dit que m est une dominante privilégiée si pour tout
A ∈ A, m(A) = 0 ssi Pθ (A) = 0 pour tout θ ∈ Θ.
P ROPOSITION 3.4. Tout modèle dominé admet une dominante privilégiée.

Démonstration. On se ramène au cas d’une dominante m qui est une mesure ﬁnie. On note
alors conv(PΘ ) l’enveloppe convexe de la famille (Pθ )θ∈Θ (i.e. l’ensemble des combinaisons
convexes ﬁnies d’éléments de la famille (Pθ )θ∈Θ ) et

dPC
C = {C ∈ A | il existe PC ∈ conv(PΘ ), > 0 sur C m p.p.} .
dm
• On vérifie que C est stable par union finie (il suffit de considérer (PC + PC � )/2 pour mon-
trer que C ∪ C � ∈ C dès que C et C � sont dans C). Il existe donc une suite croissante
(Cn )n≥0 ∈ C N telle que m(Cn ) → supC∈C m(C) < ∞. On note C∞ = ∪n≥0 Cn et m∗ = hm
�
avec h = n≥0 2−n dm
dPCn
�Cn pour lequel on a m∗ (Cc∞ ) = 0.
• On vérifie que m∗ est une dominante. Soit θ ∈ Θ et Cθ = (Lθ > 0). On a m(Cθ ∪
C∞ ) = limn→∞ m(Cθ ∪ Cn ) ≤ supC∈C m(C) = m(C∞ ) et donc m(Cθ ∩ Cc∞ ) = 0 d’où
Pθ (Cθ ∩ Cc∞ ) = 0 et Pθ (Cθ ∩ C∞ ) = 1. Comme dmdm > 0 sur C∞ m p.p.
∗
on a Pθ � m∗
�
et dm∗ = Lθ / dm . En effet, pour tout A ∈ A, Pθ (A) = Pθ (A ∩ C∞ ) = �A∩C∞ Lθ dm =
dPθ dm∗
� � �
�A∩C∞ (Lθ / dm
dm ) dm dm = �A∩C∞ Lθ /( dm )dm∗ = �A Lθ /( dm )dm∗ .
∗ dm∗ dm∗ dm∗

• Soit maintenant A ∈ A tel que m∗ (A) > 0. Alors il existe n ≥ 0 tel que PCn (A) > 0
et donc θ ∈ Θ tel que Pθ (A) > 0 puisque PCn est un mélange ﬁni. On a donc montré
par contraposée que Pθ (A) = 0 pour tout θ ∈ Θ entraı̂ne m∗ (A) = 0. La réciproque est
immédiate puisque nous avons montré que m∗ est une dominante.

5.2 Déﬁnition de l’EMV

D ÉFINITION 3.10 (EMV-(MLE)). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle dominé. On dit que θ^ : (Ω, A) →
(Θ, BΘ ) est un estimateur du maximum de vraisemblance pour la famille de vraisemblance (Lθ )θ∈Θ
associée à une dominante m si
Lθ(ω)
^ (ω) = max Lθ (ω) m p.p.
θ∈Θ

Remarque 3.4. On peut se poser la question de l’unicité de l’estimateur de vraisemblance si on change

par exemple la dominante. En fait, si m � est une autre dominante et (Lθ� ) est une famille de vraisemblance
associée, alors en prenant m �� = m+m � , on a m � m �� et m � � m �� et on déduit que Lθ dm dm � dm �
�� = Lθ dm ��

m �� p.p. En particulier, on obtient que pour tout θ ∈ Θ, θ^ = θ^ � Pθ p.s. ce qui montre que les deux
estimateurs coı̈ncident (exo).

Cas des n-échantillons

Soit (µθ )θ∈Θ une famille de lois sur (X , BX ) dominées par m1 (i.e. µθ � m1 ) pour tout
θ ∈ Θ. On déﬁnit fθ : X → R+ tel que µθ = fθ m1 la densité de µθ par rapport à m1 .
∗
On considère (Ω, A, (Pθ )θ∈Θ ) le modèle canonique associé à un ∞-échantillon i.e. Ω = X N ,
∗ ∗
A = ⊗N BX et Pθ = ⊗N µθ .

27
Exercice 14. Montrer que généralement (Ω, A, (Pθ )θ∈Θ ) n’est pas un modèle dominé. On pourra re-
garder le cas µθ = B(θ) et m1 = 12 δ0 + 12 δ1 puis considérer les ensembles Ωθ = {ω ∈ Ω | Xn (ω) → θ}
où (Xn )n≥1 est le processus canonique pour vériﬁer que si m est une dominante pour (Ω, A, (Pθ )θ∈Θ ),
on a m(Ωθ ) > 0 pour tout θ ∈ [0, 1].

Cependant si Fn = σ(Xi , i ≤ n) et Πn = (X1 , · · · , Xn ) alors le modèle induit par Πn donné

par (X n , ⊗ni=1 BX , (Pθ,n )θ∈Θ ) avec Pθ,n = Pθ ◦ Π−1
n = ⊗i=1 µθ est un modèle dominé par mn =
n

⊗ni=1 m1 et la vraisemblance est donnée par

n
�
Lθ,n (x1 , · · · , xn ) = fθ (xi )
i=1

qui est la vraisemblance associée au n-échantillon Πn = (X1 , · · · , Xn ) de loi Pθ,n par rapport à
mn .
Soit θ^n : Ω → Θ tel que
n
� n
�
θ^n ∈ arg max Lθ,n ◦ Πn = arg max fθ (Xi ) = arg max log(fθ (Xi ))
θ∈Θ θ i=1 θ∈Θ i=1

On remarque que θ^n est Fn mesurable (comme fonction mesurable de (X1 , · · · , Xn ))

T H ÉOR ÈME 3.2 (Consistance de l’EMV). On fait les hypothèses suivantes :
1. Θ est métrique compact
2. m1 p.p. en x on a : θ �→ fθ (x) est continue et strictement positive sur Θ.
fθ
3. supθ,θ � ,x fθ � (x) <∞
θ P
Alors, pour tout θ0 ∈ Θ, on a θ^n →0 Θθ0 où Θθ0 = { θ ∈ Θ | µθ = µθ0 } i.e. pour tout � ≥ 0, on a
Pθ0 (d(θ^n , Θθ0 ) ≥ �) → 0
n→∞

fθ0 (x)
Démonstration. On considère ρ(x, θ) = log( fθ (x) ). On vériﬁe que
�
fθ0 (x)
Eθ0 (ρ(X1 , θ)) = log( )fθ0 (x)dm1 (x) = K(µθ0 , µθ ) .
fθ (x)

La proposition 3.3 nous dit que ρ(x, θ) est un contraste. On vérifie alors les hypothèses du
théorème de consistance de Wald. On a Θ∗ = Θθ0 � θ0 , donc Θ∗ est non vide. De plus m1
p.p. en x, on θ �→ fθ (x) > 0 est continue et donc ρ(x, θ) est bien défini et continue en θ. Enfin,
supx,θ ρ− (x, θ) ≤ log(supθ,θ � ,x ffθ� (x))) < ∞ ce qui permet de vérifier l’hypothèse 3. du thm.
θ
Comme Θ est supposé compact, le théorème de Wald donne le résultat.

Remarque 3.5. Dans le théorème 3.2, on suppose implicitement que les données suivent l’un des
modèles, ici θ0 . On peut regarder cependant une situation plus générale et réaliste où les données
suivent une loi µ qui n’est pas de la forme µθ . On peut dans ce cas, à l’aide du théorème de Wald établir
un nouveau résultat qui n’est pas un théorème de consistance au sens précédent mais un théorème de
cohérence asymptotique qui dit que l’EMV converge vers l’ensemble Θµ = { θ ∈ Θ | K(µ, µθ ) =
infθ � ∈Θ K(µ, µθ � ) } des meilleurs approximations du modèle au sens de la divergence de Kullback.

Exercice 15. On suppose ici que

28
1. µ � m1 et µθ � m1 pour tout θ ∈ Θ avec Θ compact.
2. m1 p.p. en x, θ → fθ (x) est continue et strictement positive.
fθ
3. Θµ �= ∅ et que supθ,x fµ (x) <∞
Pµ
Montrer que θ^n → Θµ

L’exercice 15 montre que l’estimation par maximum de vraisemblance qui est un cas parti-
culier de minimisation de contraste couvre un large spectre et généralise le problème de l’es-
timation du � vrai � paramètre à celui du � meilleur modèle � au sens de la divergence de
Kullback par rapport aux données (qui n’ont souvent pas beaucoup de raisons (en particulier
dans le cas des modèles paramétriques) de suivre exactement l’un des modèles Pθ ).

Exercice 16 (Invariance(s)). Une question naturelle est celle de l’invariance. Supposons que l’on
considère un changement de variable y = ψ(x) avec ψ : (X , BX ) → (Y, BY ) bijective (mesurable).
dνθ dµθ
1. Vériﬁer que la loi de νθ = µθ ◦ ψ−1 � m̃1 = m1 ◦ ψ−1 et que dm̃1 = dm1 ◦ ψ−1
2. En déduire que l’observation de Yi = ψ(Xi ) en lieu et place des (Xi ) conduit pour le nouveau
modèle (νθ )θ∈Θ au même estimateur du maximum de vraisemblance.
On peut prendre l’invariance également par un autre bout en opérant un changement de variable inver-
sible ϕ : Θ → Θ � sur le paramètre.
3. Formaliser la question dans le cadre des modèles canoniques et montrer que l’on trouve dans ce
cas θ^n = θ^n� .

L’exercice 16 montre une propriété d’invariance de l’estimateur par changement de va-

riable inversible (à condition d’adapter le modèle) qui est une caractéristique fondamentale de
l’approche par maximum de vraisemblance et l’une des idée fondatrice de R. Fisher. En par-
ticulier, la deuxième invariance, celle de la stabilité de l’estimateur par reparamétrisation est
mise en avant par Fisher comme distinctive de l’approche bayesienne (on pourra consulter [1]
pour une discussion historique).

5.3 Exemples et limitations

On peut calculer facilement les estimateurs θ^n de maximum de vraisemblance en fonction
de n par des formules explicites pour des modèles de v.a.i.i.d de loi classique.
On verra en TD par exemple :
• Pour les lois B(θ), on obtient θ^n = Xn qui est consistant (pas besoin de Wald),
• pour les loi exponentielles on trouve ^λn = 1/Xn (même chose que par la méthode des
moments),
• pour la loi de Poisson, on trouve ^λn = Xn ,
• pour les loi gaussiennes N (µ, σ2 ), on trouve µ
^ n = Xn et σ
^ 2n = S2n (qui n’est pas sans biais).
• pour les lois uniformes U[a,b] , on trouve a ^ n = sup
^n = inf1≤i≤n Xi et b 1≤i≤n .
Un point très positif par rapport à la méthode des moments est qu’elle offre une approche
assez systématique dès que l’on dispose de la fonction de vraisemblance.

29
Cependant, l’application n’est pas toujours possible. Un contre-exemple classique consiste
à considérer Θ = {(θ = (µ, σ2 ) | µ ∈ R, σ2 > 0} et la famille de loi µθ = fθ λ où

1 x2 1 (x−µ)2
−
fθ (x) = √ e− 2 + √ e 2σ2
2 2π 2 2πσ2
correspondant au mélange de 2 populations gaussiennes, l’une centrée autour de 0 et de va-
riance 1 et l’autre autour d’un centre � mobile � en µ et de variance σ2 . On vérifie que pour
tout θ ∈ Θ, on a pour tout x ∈ R, supθ � fθ� (x) = +∞ (il suffit de considérer θ � = (x, 1/p) pour
p ≥ 1). En particulier, l’estimateur θ^n du max de vraisemblance n’est pas défini.
Notons cependant que en prenant ΘM = [−M, M] × [1/M, M] alors pour M fixé, le maxi-
mum de vraisemblance pour les modèles restreints à ΘM existe et dès que θ0 ∈ ΘM , θ^n est
fortement consistant.

30
Chapitre 4

Optimalité des estimateurs

1 Fonctions de perte, risque

Il faut commencer par se donner une mesure d’efﬁcacité d’un estimateur.
D ÉFINITION 4.1 (Fonction de perte, risque). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique et T :
(Ω, A) → (Rd , B(Rd )) un estimateur de g : Θ → Rd . On appelle fonction de perte toute fonction
mesurable L : Rd × Θ → R+ et risque associé à l’estimateur T pour la perte L, la fonction RT : Θ → R+
déﬁnie par
RT (θ) = Eθ (L(T, θ)) .
Deux exemples immédiats de fonction de perte :
• la perte quadratique L(t, θ) = |t − g(θ)|2 qui pénalise en fonction du carré (avec donc
une variation ΔL de L en fonction de Δt qui est linéaire par rapport à l’écart t − g(θ) ie
∇t L(t, θ) = 2(t − g(θ)))
• La perte L1 donnée par L(t, θ) = |t − g(θ)|, pour laquelle la variation ΔL ne dépend que
du signe de �t − g(θ), Δt�.
D ÉFINITION 4.2 (Estimateur admissible). On dit que T est admissible s’il n’existe pas un autre
estimateur S de g(θ) tel que RS ≤ RT (on dit alors que S est meilleur que T ) et RS (θ0 ) < RT (θ0 ) pour
un θ0 ∈ Θ.

Remarque 4.1. Généralement, on a pas d’estimateur T∗ qui soit meilleur que tous les autres estimateurs
car la relation � être meilleur � n’induit qu’un ordre partiel. Si on prend par exemple T ≡ g(θ0 ) alors
RT (θ0 ) = 0 et donc un tel estimateur T∗ aurait un risque nul pour tout θ ∈ Θ ce qui n’est pas possible
dès que g(Θ) n’est pas un singleton (pour le risque quadratique).

En général, deux estimateurs admissible T1 et T2 , sont tels que RT1 − RT2 est de signe variable
sur Θ. On peut parler cependant d’estimateur optimal au sens du risque (on dira efﬁcace) si on
se restreint à une classe de biais.

2 Estimateurs efﬁcaces
On considère ici la perte quadratique L(t, θ) = |t − g(θ)|2 . Si on se restreint à une classe
de biais, en utilisant la décomposition biais variance i.e. RT (θ) = bT (θ)2 + Vθ (T ), la recherche
d’estimateur optimaux dans une classe de biais revient à minimiser la variance à biais ﬁxé.

31
D ÉFINITION 4.3. Soit T un estimateur de g(θ). On note bT (θ) = Eθ (T ) − g(θ). On dit que T est
efﬁcace dans sa classe de biais si il n’existe pas d’estimateur S tel que bS = bT (même classe de biais)
et qui soit strictement meilleur que S i.e. RS ≤ RT et RS (θ0 ) < RT (θ0 ) pour un θ0 ∈ Θ. Lorsque T
est sans biais, on dira simplement que T est efﬁcace (ou encore que T est un estimateur USBVM pour
� Uniformément Sans Biais de Variance Minimale � ou en anglais UMVU pour � Uniformly

Minimum Variance Unbiased �.)

A priori, pour le risque quadratique, on doit se restreindre aux estimateurs efﬁcaces dans
leur classe de biais.

2.1 Statistique exhaustive

La notion de statistique exhaustive est introduite par Fisher et elle contient l’idée qu’une
statistique T (ω) (qui est une fonction de ω et donc contient moins d’information que ω lui-
même) est exhaustive si elle contient toute l’information sur le paramètre θ sous-jacent autre-
ment dit la loi conditionnelle de ω sachant T est indépendante de θ, c’est donc du � bruit � par
rapport au paramètre. On l’exprime plutôt en terme d’espérance conditionnelle de la façon
suivante :
D ÉFINITION 4.4 (Statistique exhaustive). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique. On dit que
T : (Ω, A) → (E, E) est une statistique exhaustive si pour toute v.a. positive bornée U, il existe
u : (E, E) → (R, B(R)) telle que Eθ (U|T ) = u(T ) Pθ p.s.

Remarque 4.2. Pour A ∈ A, en prenant UA = �A , on a donc que Pθ (A|T ) = uA (T ) Pθ p.s. et donc

on retrouve cette idée d’une loi conditionnelle sachant T qui ne dépend pas de θ.
Il y a une potentielle confusion avec le langage courant où exhaustif vaudrait dire qu’on ne perd rien.
Il faut comprendre ici qu’on ne perd rien à utiliser T (ω) plutôt que ω du point de vu de l’information
sur le paramètre.
La terminologie anglo-saxonne, sufﬁcient statistics, statistique sufﬁsante, est plus heureuse de ce
point de vue. Elle est utilisée parfois aussi en français.

Pour reconnaı̂tre une statistique exhaustive, on peut utiliser le remarquable théorème de

factorisation de Neyman et Fisher.
T H ÉOR ÈME 4.1 (Théorème de factorisation de Neyman-Fisher). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle
dominée par m σ-ﬁnie et T une statistique à valeurs dans (E, E). Alors T est exhaustive ssi il existe
h : (Ω, A) → (R, B(R)) positive et pour tout θ ∈ Θ une fonction φθ : (E, E) → (R, B(R)) positive
telle que
Pθ = hφθ (T )m .

Démonstration. Comme m est σ-ﬁnie, on sait qu’il existe une mesure de probabilité m∗ � m
qui est une dominante privilégiée et s’écrit de la forme
�
m∗ = ci P θ i (4.1)
i≥0

avec ci ≥ 0.
On suppose d’abord que m = m∗ et on montre alors que T est exhaustive ssi pour tout
θ ∈ Θ, une fonction mesurable φθ : E → R+ telle que Pθ = φθ (T )m.

32
(⇐) En effet, pour tout U v.a. bornée et tout f : E → R borélienne bornée, il existe u : (E, E) →
(R, B(R)), tel que Em (U|T ) = u(T ) m p.s. Par suite,

Eθ (Uf(T )) = Em (Uφθ (T )f(T )) = Em (Em (U|T )φθ (T )f(T )) = Eθ (u(T )f(T ))

ce qui donne Eθ (U|T ) = u(T ) Pθ p.s.

.
(⇒) Notons d’abord que PT,θ = Pθ ◦ T −1 � m ◦ T −1 = mT et donc par le théorème de Radon-
Nikodym, il existe φθ : (E, E) → (R+ , B(R+ )) tel que PT,θ = φθ mT . Par hypothèse, on a
alors pour tout U v.a. bornée l’existence de u : (E, E) → (R, B(R)) telle que Eθ (U|T ) =
u(T ) Pθ p.s. Par suite pour tout f : (E, E) → (R, B(R)) bornée, on a pour tout θ ∈ Θ que
Eθ (Uf(T )) = Eθ (u(T )f(T )). On tire de (4.1) que Em (Uf(T )) = Em (u(T )f(T )) et donc que
Em (U|T ) = u(T ) p.s. On déduit alors que

Eθ (U) = Eθ (u(T )) = Em (φθ (T )u(T )) = Em (φθ (T )Em (U|T )) = Em (φθ (T )U)

ce qui nous donne que Pθ = φθ m.

Dans le cas général, comme m∗ � m (m∗ est une dominante privilégiée d’où si m(A) = 0 alors
Pθ (A) = 0 pour tout θ ∈ Θ et donc m∗ (A) = 0), il existe h : (Ω, A) → (R+ , B(R+ )) telle que
m∗ = hm ce qui donne le sens (⇒= d’après ce qui précède.
Pour le sens (⇐), on suppose l’existence de Φθ et h telles que Pθ = Φθ (T )hm. Par suite,
�
la dominante privilégiée m∗ vériﬁe m∗ = r(T )hm pour r = i ci Φ . Comme m∗ (r(T ) ≤
�θ
0) = 0, on a pour tout A ∈ A que Pθ (A) = Pθ (A ∩ (r(T ) > 0)) = A∩(r(T )>0) Φθ (T )hdm =
� � Φθ
A∩(r(T )>0) r(T ) dm∗ = A r (T )�r>0 (T )dm∗ . On a donc Pθ = Φ̃θ (T )m∗ avec Φ̃θ = r �r>0 ce
Φθ (T ) Φθ

qui donne que T est exhaustive.

Remarque 4.3. On remarque immédiatement que dans le cas d’un n-échantillon de loi N (µ, 1) on
� �
a dPθ (x) = exp(− ni=0 x2i /2) exp(µ ni=1 xi − µ2 /2)dx si bien que T = Xn est une statistique
exhaustive.

Exercice 17 (Important). Vériﬁer que pour les modèles exponentiels, la statistique naturelle est ex-
haustive.

T H ÉOR ÈME 4.2 (Rao-Blackwell). Soit (Ω, A, (Pθ )θ∈Θ ) un modèle statistique et T : (Ω, A) → (E, E)
une statistique exhaustive. Soient S : (Ω, A) → (Rd , B(Rd )), et s : (E, E) → (Rd , B(Rd )) telle que
S � = s(T ) = Eθ (S|T ) Pθ p.s pour tout θ ∈ Θ. Alors Eθ (S) = Eθ (S � ) et VS � (θ) ≤ VS (θ) pour tout
θ ∈ Θ (S � est meilleur que S).

Démonstration. On remarque que Eθ (S � ) = Eθ (Eθ (S|T )) = Eθ (S). De plus, par déﬁnition de

l’espérance conditionnelle comme projection sur L2 (Ω, σ(T ), Pθ ), Eθ (|S − Eθ (S)|2 ) = Eθ (|S −
Eθ (S|T )|2 ) + Eθ (|Eθ (S|T ) − Eθ (S)|2 ).

A ce stade, on sait réduire la variance d’un estimateur en restant dans sa classe de biais par
conditionnement par rapport à une statistique exhaustive mais on ne sait pas si l’estimateur
obtenu est efﬁcace.

33
2.2 Complétude
D ÉFINITION 4.5. Soit T exhaustive. On dit que T est complète si pour tout ψ : E → R mesurable telle
que Eθ (|ψ(T )|) < +∞ pour tout θ ∈ Θ on a :
Eθ (ψ(T )) = 0 ∀θ ∈ Θ ⇒ ψ(T ) = 0 Pθ p.s. ∀θ ∈ Θ .
P ROPOSITION 4.1. Soient T est une statistique exhaustive complète et un estimateur S tel que Eθ (|S|2 ) <
+∞ pour tout θ ∈ Θ. Alors S est efﬁcace dans sa classe de biais ssi S = ψ(T ) Pθ p.s. pour tout θ ∈ Θ
avec ψ : E → Rd mesurable.

P ROPOSITION 4.2 (Complétude des modèles exponentiels). On suppose que (Ω, A, (Pθ )θ∈Θ ) est
un modèle exponentiel dominé par m σ-ﬁnie associé à (η, T ). On suppose que η(Θ) est d’intérieur non
vide. Alors la statistique canonique est complète.

Démonstration. On note mT = m◦T −1 la mesure image de m par T et on considère ψ mesurable

telle que Eθ (|ψ(T )|) < +∞ et Eθ (ψ(T )) = 0 pour tout θ ∈ Θ. En décomposant ψ = ψ+ − ψ− on
déduit que sur une boule B(η0 , �) ⊂ η(Θ) on a pour tout η ∈ B(η0 , �)
� �
�η,t�
+ +
γ (η) = ψ (t)e dm (t) = ψ− (t)e�η,t� dmT (t) = γ− (η)
T

On vériﬁe de plus que pour ξ ∈ B(0, �), z �→ γ+ (η0 + zξ) et z �→ γ− (η0 + zξ) sont holomorphes
sur la bande B = {z ∈ C | |Re(z)| < 1}. Comme elles coı̈ncident sur le segment ] − 1, 1[, elles
coı̈ncident sur la bande. En particulier pour tout λ ∈ R et tout ξ ∈ B(0, �), on a γ+ (η0 + iλξ) =
γ− (η0 + iλξ) d’où l’on déduit que γ+ (η0 + iξ) = γ− (η0 + iξ) pour tout ξ ∈ Rk i.e.
� �
i�ξ,t� �η0 ,t� +
e e ψ (t)dm (t) = ei�ξ,t� e�η0 ,t� ψ− (t)dmT (t)
T

Par injectivité de la transformée de Fourier des mesures ﬁnies, on déduit que e�η0 ,t� ψ+ (t) =
e�η0 ,t� ψ− (t) mT p.p. et donc que ψ+ (T ) = ψ− (T ) m p.p. ce qui donne le résultat.

� On tire immédiatement qu’alors on a pour les modèles exponentiels vériﬁant η(Θ) ou-
vert, tous les estimateurs de la forme ψ(T ) où T est une statistique canonique sont efﬁcace dans
leur classe de biais !

34
3 Information de Fisher et borne de Cramer-Rao
Dans cette section nous allons aborder brièvement des idées pourtant extrêmement féconde
autour de la géométrie des modèles. On considère ici un modèle statistique (Ω, A, (Pθ )θ∈Θ )
dominé par une dominante m σ-finie vérifiant les hypothèses suivantes :
(R1 ) Θ est un ouvert de Rk et θ �→ Lθ (ω) est différentiable en θ sur Θ m p.p. de gradient
notée ∇θ Lθ (ω). Pour tout θ ∈ Θ, on peut alors définir Pθ p.s. �θ (ω) = log(Lθ (ω)) et
∇θ �θ (ω) = Lθ 1(ω) ∇θ Lθ (ω).
(R2 ) Pour tout θ ∈ Θ, on a Eθ (|∇�θ |2 ) < +∞.
(R3 ) Pour toute statistique S : Ω → R tel que Eθ (|S|2 ) < +∞ pour tout θ ∈ Θ, l’application
θ �→ Eθ (S) est différentiable et ∇θ Eθ (S) = Eθ (S ∇θ �θ )
D ÉFINITION 4.6 (Information de Fisher). Soit (Ω, A, (Pθ )θ∈Θ ) vérifiant les conditions (R). Pour
tout θ ∈ Θ, on appelle information de Fisher la quantité
∂�θ ∂�θ
I(θ) = Eθ (∇θ �θ ∇θ �Tθ ) = (Eθ ( )1≤i,j≤k )
∂θi ∂θj

Remarque 4.4. On désigne par � la relation d’ordre habituelle sur les matrices symétriques : A � B
si A − B est symétrique positive.

T H ÉOR ÈME 4.3 (Borne de Cramer-Rao). Soit (Ω, A, (Pθ )θ∈Θ ) vériﬁant les conditions (R) et T :
Ω → Rp une statistique telle que Eθ (|T |2 ) < +∞ pour tout θ ∈ Θ. Alors en tout point θ ∈ Θ où I(θ)
est inversible on a
ΓT (θ) � deT (θ)I(θ)−1 deT (θ)T .
où eT (θ) = Eθ (T ), deT (θ) est la matrice jacobienne de eT en θ et ΓT (θ) désigne la matrice de variance-
covariance de T sous Pθ .

Démonstration. Soient u ∈ Rk et v ∈ Rp , on a �eT (θ), v� = Eθ (�T, v�) et donc

�deT (θ)u, v� = Eθ (�∇θ �θ , u��T, v�) .

On remarque d’après (R3 ) que Eθ (∇θ �θ ) = ∇θ 1 = 0. On a donc

�deT (θ)u, v�2 = Eθ (�∇θ �θ , u��T − eT (θ), v�)2

CS
≤ Eθ (�∇θ �θ , u�2 )Eθ (�T − eT (θ), v�2 ) (4.2)
= �I(θ)u, u��ΓT (θ)v, v�

En posant u = I(θ)−1 deT (θ)T v on déduit le résultat.

Remarque 4.5. Dans le cas où T est un estimateur sans biais de θ, on a eT (θ) = θ et deT (θ) = Idk si
bien que la borne de Cramer-Rao nous donne

ΓT (θ) � I(θ)−1

c’est à dire que l’inverse de la matrice d’information de Fisher minore la matrice de variance-covariance
de T . En prenant la trace, on obtient

Eθ (|T − θ|2 ) ≥ Tr(I(θ)−1 )

35
et donc une minoration du risque quadratique. Dans le cas k = 1, le résultat se simpliﬁe encore en

1
Eθ ((T − θ)2 ) ≥ ,
I(θ)

ce qui donne une borne inférieure pour le risque quadratique en fonction de l’information de Fisher (ou
son inverse). La variance d’un estimateur sans biais de θ est d’autant plus grande que l’infor-
mation de Fisher est faible.

L’information de Fisher peut s’apparenter à une mesure du rapport signal sur bruit au niveau
des modèles ou plus encore comment les modèles se différencient au voisinage d’un point θ.
On peut être plus spéciﬁque en regardant le développement de la divergence de Kullback-
Leibler au voisinage de θ :
Lθ �
θ � �→ K(θ � , θ) = Eθ (ϕ( ))
Lθ
h2
où ϕ(x) = x log(x). Comme ϕ(1 + h) = h + 2 + o(h2 ), on déduit pour h = �∇θ Lθ , δθ�/Lθ =
�∇θ �θ , δθ� que

1 1
K(θ + δθ, θ) = Eθ (�∇θ �θ , δθ�) + Eθ (�∇θ �θ , δθ�2 ) + o(|δθ2 ) = δθT I(θ)δθ + o(|δθ|2 )
� �� 2 2
=0

On voit que l’information de Fisher s’apparente à une métrique locale en θ induite sur l’espace
des paramètres par une métrique sur les distributions de probabilités sur Ω donnant à Θ une
structure de variété riemannienne.

4 Efﬁcacité asymptotique
On va voir dans cette section pour les modèles réguliers l’EMV donne asymptotiquement
un estimateur qui atteint la borne de Cramer-Rao.
On se place dans le cas d’un modèle de n-échantillon de loi (µθ )θ∈Θ sur (X , BX ) où Θ est
un ouvert de Rk . On suppose que µθ = fθ m1 pour la dominante σ-ﬁnie m1 et on suppose que
fθ (x) > 0 pour tout (x, θ) ∈ X × Θ. On considère donc le modèle canonique (Ω, A, (Pθ )θ∈Θ )
associé en posant Ω = X n , A = ⊗ni=1 BX , m = ⊗ni=1 m1 , (Xi )1≤i≤n les projections canoniques et
Pθ = ⊗ni=1 µθ . On pose
n
�
Lθ,n = fθ (Xi ), �θ,n = log(Lθ,n ) et Pθ = Lθ,n m .
i=1

. �
(R1� ) On suppose que θ �→ �θ,1 = log(fθ ) est C1 et |∇θ �θ,1 |2 dµθ < +∞ puis on déﬁnit l’infor-
mation de Fisher pour la famille (µθ )θ∈Θ par
�
I(θ) = ∇θ �θ,1 ∇θ �Tθ,1 dµθ .

Dans la suite on omettra l’indice θ dans ∇θ et on écrira simplement ∇. On vériﬁe par indépendance
des variables ∇(log(fθ (Xi )) que
.
In (θ) = Eθ (∇�θ,n ∇�Tθ,n ) = nI(θ)

36
si bien que l’information de Fisher du modèle augmente avec la taille de l’échantillon.
Pθ
On suppose que θ^n est un EMV de θ i.e. que �θ^n ,n = maxΘ �θ,n et que θ^n → θ (i.e. θ^n est
consistant). On veut montrer ici que � pour des modèles sufﬁsamment réguliers �,
√ L
n(θ^n − θ) → N (0, I(θ)−1 ) (4.3)

Or si l’on suppose par exemple que θ^n est sans biais 1 et que la borne de Cramer-Rao s’ap-
plique, on a Γθ^n � In (θ)−1 = I(θ)
n et donc

Γ√n(θ^n −θ) � I(θ)−1 .

La convergence en loi donnée par (4.3) montre que la variance-covariance limite atteint la
borne inférieure ce que l’on appelle l’efﬁcacité asymtotique de l’EMV.
Nous allons montrer un résultat de normalité asymptotique.
(R2� ) On suppose que pour tout θ ∈ Θ, il existe un voisinage U(θ) de θ sur lequel θ �→ fθ est C2
et
Em ( sup (|∇fθ � | + �∇2 fθ � �)(X1 )) < +∞
θ � ∈U(θ)

où ∇2 fθ � (x) = ∇(∇T fθ � )(x) désigne la matrice hessienne de θ �→ fθ (x) en θ � (on prend
pour �∇2 fθ � la norme subordonnée à la norme euclidienne 2 ).
P ROPOSITION 4.3. On suppose (R1� − R2� ). On a alors Eθ (∇2 �θ,n ) = −In (θ).
�
Démonstration. On commence par remarquer que ∇2 �θ,n = ni=1 ∇2 log(fθ (Xi )) et puisque les
Xi sont i.i.d sous Pθ , il sufﬁt de vériﬁer le résultat pour n = 1. On considère θ ∈ Θ et on intro-
duit un voisinage U(θ) = B(θ, δ) de θ dans Θ tel supθ � ∈U(θ) |∇fθ � |(X1 ) et supθ � ∈U(θ) �∇2 fθ � (X1 )�
soient dans L1 (m).
Comme supU(θ) |∇fθ � |(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme que

Em (∇fθ (X1 )) = ∇Em (fθ (X1 )) = ∇1 = 0 .

De même, comme supU(θ) �∇2 fθ � �(X1 ) ∈ L1 (m), on a par dérivation sous le signe somme, que
Em (∇2 fθ (X1 )) = ∇Em ((∇fθ )T (X1 )) = ∇0 = 0.
On termine la preuve en remarquant que par ailleurs on a fθ ∇ log(fθ ) = ∇fθ et

∇2 fθ = fθ ∇ log(fθ )∇ log(fθ )T + fθ ∇2 log(fθ ) = fθ (∇ log(fθ )∇ log(fθ )T + ∇2 log(fθ ))

d’où 0 = Em (∇2 log(fθ )(X1 )) = Eθ (∇ log(fθ )∇ log(fθ )T (X1 ) + ∇2 log(fθ )(X1 )) si bien que

Eθ (∇2 log(fθ )(X1 )) = −I(θ) .

On considère l’hypothèse de régularité suivante :

(R3� ) Pour tout θ ∈ Θ, il existe un voisinage U(θ) tel que

Eθ ( sup �∇2 �θ � ,1 �(X1 )) < +∞

θ � ∈U(θ)
1. Généralement, il est plutôt asymptotiquement sans biais i.e. |bθ^n (θ)| ≤ C/n
2. ou tout autre norme par équivalence des normes en dimension ﬁnie

37
T H ÉOR ÈME 4.4 (Normalité asymptotique). On suppose (R1� − R2� − R3� ) et on considère θ ∈ Θ pour
Pθ
lequel θ^n → θ. Alors si I(θ) est inversible, on a
√ L
n(θ^n − θ) → N (0, I(θ)−1 )
�1
Démonstration. En effet, on a ∇�θ^n ,n = 0 = ∇�θ,n + 0 ∇2 �θ+t(θ^n −θ),n (θ^n − θ)dt si bien que
�
∇�θ,n ∇2 �θ,n √
^ 1 1 2
√ = (− + rn ) n(θn − θ) avec rn = (∇ �θ+t(θ^n −θ),n − ∇2 �θ,n )dt . (4.4)
n n n 0
P
Montrons que rn → θ
0 lorsque n → +∞. Si ρ(s, x) = sup|θ � −θ|≤s �∇2 �θ,1 − ∇2 �θ � ,1 �(x), on a
lims→0 ρ(s, x) = 0 et pour s sufﬁsamment petit, on a la domination

�ρ(s, X1 )� ≤ 2 sup �∇2 �θ � ,1 �(X1 ) ∈ L1 (Pθ ) .

θ � ∈U(θ)

Il vient par c.d. que Eθ (ρ(s, X1 )) → 0 pour s → 0. Soient � > 0 et s > 0 tels que Eθ (ρ(s, X1 )) < �.
�
Comme �rn � ≤ n1 ni=1 ρ(|θ^n − θ|, Xi ), on a
n
1�
Pθ (�rn � ≥ �) ≤ Pθ (|θ^n − θ| ≥ s) + Pθ ( ρ(s, Xi ) ≥ �) .
n
i=1

Par consistance Pθ (|θ^n − θ| ≥ s) → 0 et par la LFGN comme Eθ (ρ(s, X1 )) < �, on a que

�
Pθ ( n1 ni=1 ρ(s, Xi ) ≥ �) → 0.
En multipliant (4.4) par I(θ)−1 on obtient
∇�θ,n √ ∇2 �θ,n
I(θ)−1 √ = (Id + rn� ) n(θ^n − θ) avec rn� = −I(θ)−1 − Id + I(θ)−1 rn (4.5)
n n
2� P P
La LFGN et la proposition 4.3 donne −I(θ)−1 ∇ n
θ,n
− Id →
θ
0 si bien que rn� →
θ
0. Comme par
L
le TCL on a I(θ)−1 ∇�√θ,n
n
→ N(0, I(θ)−1 ) on déduit le résultat vériﬁant le lemme suivant :
L EMME 4.1. Soient (Un )n≥0 (An )n≥0 , (Zn )n≥0 trois familles de v.a. à valeurs dans Rk , Mk (R) et Rk
L P L
respectivement. On suppose que Un = An Zn avec Un → U∞ et An →
θ
Id. Alors Zn → U∞

Démonstration. En exo

5 Risque bayesien et estimateurs minimax

5.1 Risque bayesien
Le point de vue bayesien consiste à randomiser le paramètre i.e. à supposer que le pa-
ramètre est aléatoire et suit une distribution a priori π sur (Θ, BΘ ) qui peut reﬂéter nos croyances
ou notre information sur le paramètre 3 Dans ce cas, en supposant que pour tout B ∈ A,
3. R. Fisher s’est très fortement opposé à cette approche bayesienne des statistiques qui conduit à calculer la
loi a posteriori sur le paramètre sachant l’observation ω appelée à l’époque � probabilité inverse � ou � inverse
probability � et à choisir comme estimateur le paramètre maximisant la loi a posteriori sachant l’observation. Il s’en
explique dans son papier de 1922 [4]. Son argument est que cet estimateur n’est pas invariant par changement de
paramétrisation θ ∈ Rd → ψ(θ) ∈ Rd à cause de l’apparition du déterminant jacobien Jψ (θ) de la transformation
dans le changement de variable contrairement à l’estimateur du max de vraisemblance qu’il promeut. L’objection
de Fisher peut-être levée si on se place dans le cadre que la théorie de la décision que nous considérons ici.

38
θ → Pθ (B) est mesurable, on peut introduire la distribution de probabilité � sur (Θ×Ω, BΘ ⊗A)
déﬁnie sur les cylindres A × B par
�
�(A × B) = Pθ (B)dπ(θ)
A

On écrira souvent �(dθ, dω) = π(dθ)Pθ (dω).

D ÉFINITION 4.7 (Risque intégré, risque bayesien). Pour toute fonction de perte L : Rd × Θ → R+
et tout estimateur T de g(θ) on appelle risque intégré la quantité :
� �
RT = Eθ (L(T, θ))dπ(θ) = L(T (ω), θ)d�(θ, ω)
Θ Θ×Ω

On déﬁnit alors le risque bayesien la quantité

RBayes = inf{RT | T estimateur de g(θ) } .

Tout estimateur de g(θ) atteignant le risque bayesien est appelé estimateur bayesien.

Exercice 18. Vériﬁer que lorsque l’estimateur bayesien de g(θ) est unique (à m p.p. pres) alors il est
toujours admissible.

5.2 Cas quadratique

Dans le cadre du risque quadratique, on peut écrire en notant ω : Θ×Ω → Ω et θ : Θ×Ω →
Θ telles que ω(θ, ω) = ω et θ(θ, ω) = θ :

RT = �(|T (ω) − g(θ)|2 ) = �(|T (ω) − �(g(θ)|ω)|2 ) + �(|�(g(θ)|ω) − g(θ)|2 )

Par suite en déﬁnissant l’estimateur Tπ tel que Tπ (ω) = �(g(θ)|ω) � p.s., on a que RTπ ≤ RT
pour tout estimateur T de g(θ) et en particulier le risque de Bayes s’obtient en intégrant la
variance conditionnelle de g(θ) sachant ω.

RBayes = �(|�(g(θ)|ω) − g(θ)|2 ) = �(�(|g(θ) − �(g(θ)|ω)|2 |ω))

� ��
variance conditionnelle

On voit donc ici que la question d’un estimateur optimal dans le cadre du risque intégré sur
une loi a priori π a une solution qui atteint le risque bayesien.

5.3 Cas général

Lorsque L n’est pas le risque quadratique, on peut procéder de manière similaire dans
le cas où (Ω, A, (Pθ )θ∈Θ ) est dominé par m σ-ﬁnie. On a alors � � π ⊗ m et �(dθ, dω) =
Lθ (ω)π(dθ)m(dω) (on suppose (θ, ω) �→ Lθ (ω) mesurable). On peut écrire
� ��
RT = Lθ (ω)L(T (ω), θ)π(dθ) m(dω)
Ω Θ

si bien que s’il existe un estimateur Tπ : Ω → Rd tel que

�
Tπ (ω) ∈ arg min L(t, g(θ))πω (dθ)
t∈Rd Θ

39
avec πω (dθ) = Lθ (ω)π(dθ) alors Tπ minimise le risque intégré RT sur l’ensemble des esti-
mateurs. πω est proportionnelle à la loi conditionnelle de θ sachant ω. En effet, pour toutes
fonctions Φ : Θ → R et Ψ : Ω → R mesurable positives on a
�
�(Φ(θ)Ψ(ω)) = Φ(θ)Ψ(ω)Lθ (ω)π(dθ)m(dω)
Θ×Ω
� �� (4.6)
Lθ (ω)
= Z(ω)�Z(ω)>0 Ψ(ω) Φ(θ)π(dθ) m(dω)
Ω Θ Z(ω)
�
où Z(ω) = Θ Lθ (ω)π(dθ). Par suite, on identiﬁe Zm comme la loi � ◦ ω −1 de ω sous � et
Z(ω) π comme la loi conditionnelle de θ sachant ω qui est bien déﬁnie � p.s. (puisque Z(ω) > 0
L· (ω)

� p.s.)

5.4 Estimateurs minimax

Un dernier point de vue est plutôt que de mettre une loi sur les paramètres, de vouloir se
garantir dans le cas le pire c’est-à-dire de rechercher un estimateur T∗ qui atteint

min max RT (θ) .

T est. Θ

T H ÉOR ÈME 4.5. Soient π une distribution a priori sur Θ et Tπ un estimateur bayesien tel que RTπ (θ) ≡
r, alors Tπ est un estimateur minimax.

Démonstration. On raisonne par l’absurde. En effet s’il existe T � tel que maxΘ RT � < maxΘ RT ,
alors � �
RT � = RT � (θ)π(dθ) ≤ max RT � < max RT = RT (θ)π(dθ) = RT ,
Θ Θ Θ Θ
ce qui contredit le fait que Tπ soit un estimateur bayesien pour π.

40
Chapitre 5

Tests d’hypothèses

La théorie des tests joue un rôle très important dans les applications pratiques des statis-
tiques dans un grand nombre de domaines applicatifs comme un cas important de la théorie
de la décision : on décide 1 ou 0, � oui � ou � non � à partir des données pour tenter de
� découvrir � des patterns statistiques qui témoignent de l’existence d’un effet ou d’un phé-

nomène. Ici l’idée, toujours dans le paradigme de Fisher est d’interroger le paramètre sous-
jacent θ. Dans le cas du contrôle introductif, on pose la question θ ≤ θ0 ou θ > θ0 ou plus
généralement θ ∈ Θ0 ou Θ ∈ Θ1 .

1 Introduction
On considère la situation classique de deux sous-ensembles disjoints Θ0 et Θ1 de Θ. On
veut tester ou décider à partir des observations si θ ∈ Θ0 (hypothèse H0 considérée comme
l’hypothèse la plus courante, la plus commune) ou si θ ∈ Θ1 (hypothèse H1 considérée comme
l’hypothèse alternative).
D ÉFINITION 5.1. On appelle test de H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 toute v.a. d : Ω → [0, 1]

Remarque 5.1. — Lorsque d ∈ {0, 1} on dit que le test est déterministe. Lorsque d = 1 on décide
H1 , lorsque d = 0, on décide H0
— Lorsque d peut prendre des valeurs qui ne sont pas dans {0, 1}, on dit que le test est randomisé.
On doit comprendre que d(ω) est la probabilité de décider H1 (conditionnellement aux données).

La question centrale est celle de la construction de � bons � tests. Pour cela on considère
deux critères :
(Spéciﬁcité) Il s’agit de contrôler la probabilité de � faux �-positif c’est à dire la probabilité de décider
H1 lorsque θ ∈ Θ0 i.e. la valeur de Eθ (d) lorsque θ ∈ Θ0
(Sensibilité) Il s’agit de contrôler la probabilité de � faux �-négatif c’est à dire la probabilité de décider
H0 lorsque θ ∈ Θ1 ou encore de s’assurer que la probabilité de décider H1 lorsque H1 est
vraie est sufﬁsamment grande et que Eθ (d) soit grand lorsque θ ∈ Θ1
D ÉFINITION 5.2. Soit d : Ω → [0, 1] un test de θ ∈ Θ0 contre θ ∈ Θ1 .
1. On appelle taille de d la quantité supθ∈Θ0 Eθ (d). On appelle puissance de d la quantité infθ∈Θ1 Eθ (d).
2. On dit que d est sans biais si supθ∈Θ0 Eθ (d) ≤ infθ∈Θ1 Eθ (d).

41
3. Lorsque Θ0 et Θ1 sont des singletons, on dira que d est un test d’hypothèses simples. Sinon on
dira que c’est un test d’hypothèses composites.
4. On appelle fonction puissance de d la fonction β : Θ → [0, 1] telle que β(θ) = Eθ (d). On dit
que d est de niveau α si la taille de d est inférieure à α i.e. supΘ0 β ≤ α.

2 Test de Neyman-Pearson du rapport de vraisemblance

A priori toute statistique T à valeur dans R peut conduire à un test d = �T ≥t mais comment
construire un � bon test � assurant une bonne puissance pour un niveau contrôlé ? Dans le
cas des test d’hypothèses simples, la solution optimale est connue depuis l’article de Jerzy
Neyman et Egon Pearson de 1933 [7].

2.1 Lemme de Neyman-Pearson

On considère le test d’hypothèses simple de H0 : θ = θ0 contre H1 : θ = θ1 on a suppose
que m domine Pθ0 et Pθ1 (par exemple m = (Pθ0 + Pθ1 )/2) et on écrit Pθ0 = L0 m et Pθ1 = L1 m
(L0 et L1 sont des vraisemblances pour la dominante m).
D ÉFINITION 5.3. On dit que d est un test de Neyman-Pearson de θ = θ0 contre θ = θ1 si il existe
r ∈ R+ et γ ∈ [0, 1] tels que d = �L1 >rL0 + γ�L1 =rL0 .
T H ÉOR ÈME 5.1 (Lemme de Neyman-Pearson). 1. Si d est un test de NP tel que Eθ0 (d) = α,
alors il est un test le plus puissant parmi les tests de θ = θ0 contre θ = θ1 de niveau α (i.e.
si d � est un autre test tel que Eθ0 (d � ) ≤ α (de niveau α) alors Eθ1 (d � ) ≤ Eθ1 (d). De plus d est
sans biais.
2. Soit α ∈ [0, 1]. Alors il existe un test de NP d tel que Eθ0 (d) = α (éventuellement randomisé).

Remarque 5.2. Il s’agit en fait d’un problème d’optimisation sous contraintes et c’est ainsi que le
problème est abordé dans le papier de 1933. Formellement on peut dire que l’on cherche une fonction
� �
d(ω) maximisant dL1 dm sous les contraintes dL0 dm ≤ α et 0 ≤ d(ω) ≤ 1 pour tout ω (un
nombre inﬁni de contraintes d’inégalité) et passer par une approche primal-dual. Cette approche permet
de trouver la forme de la solution. Une fois celle-ci connue, on peut construire une preuve assez directe
et simple de son optimalité, c’est ce que nous proposons ici.

Démonstration. 1. Soit d un test de NP tel que α = Eθ0 (d). Soit d � un autre test tel que
Eθ0 (d � ) ≤ α. Alors on a
(d − d � )L1 ≥ r(d − d � )L0 . (5.1)
En effet, si L1 > rL0 alors d = 1 et donc comme d−d � ≥ 0 le résultat est vrai. Si maintenant
L1 < rL0 , alors d = 0 et d − d � ≤ 0 et l’inégalité est encore vraie.
Par suite
� �
� �
Eθ1 (d − d ) = (d − d )L1 dm ≥ r(d − d � )L0 dm = rEθ0 (d − d � ) ≥ 0 .

En prenant d � ≡ α, on obtient que Eθ1 (d) − α ≥ 0 i.e. d est sans biais.

2. Il sufﬁt de considérer r = inf{s ∈ R | Pθ0 (L1 > sL0 ) < α}. On vériﬁe par c.à.d de s �→
Pθ0 (L1 > sL0 ) que Pθ0 (L1 > rL0 ) ≤ α (notons que sous Pθ0 , L0 > 0 Pθ0 p.s.) et que

42
α ≤ lims<r Pθ0 (L1 > sL0 ) = Pθ0 (L1 ≥ rL0 ). Si Pθ0 (L1 > rL0 ) = α, on peut prendre d =
�L1 >rL0 (test déterministe), sinon on pose γ = (α − Pθ0 (L1 > rL0 ))/Pθ0 (L1 = rL0 ) ∈]0, 1] et
d = �L1 >rL0 + γ�L1 =rL0 ce qui donne le résultat.

Dans le cas des modèles exponentiels de rang 1 on peut écrit Lθ = exp(η(θ)T − A(θ)) et
par suite dans le cas où η(θ1 ) > η(θ0 ) les tests de Neyman-Pearson sont de la forme d =
�T>t + γ�T =t . Dans le cas η(θ1 ) < η(θ2 ), ils sont de la forme d = �T<t + γ�T =t
Exercice 19. Déterminer la forme des tests de NP dans le cas d’un n-échantillon de loi B(θ) et de loi
N (µ, σ2 ) lorsque σ2 est ﬁxé puis lorsque µ est ﬁxé.

2.2 Lien avec l’approche bayesienne

Si on se place dans un contexte bayesien avec la loi a priori π = p0 δθ0 + p1 δθ1 , alors en
prenant la perte L(d, θ) = d�θ=θ0 + (1 − d)�θ=θ1 , les tests optimaux bayesien dπ minimisent le
risque bayesien
Rd = �(L(d(ω), θ))
�
Or on sait que le risque bayesien est atteint pour dπ (ω) ∈ arg minγ∈[0,1] L(γ, θ)Lθ (ω)π(dθ)
c’est-à-dire
dπ (ω) ∈ arg min(γLθ0 (ω)p0 + (1 − γ)Lθ1 (ω)p1 )
γ∈[0,1]

Or si p1 Lθ1 > p0 Lθ0 le minimum est atteint pour γ = 1, si p1 Lθ1 < p0 Lθ0 pour γ = 0 et si
p1 Lθ1 = p0 Lθ0 toutes les valeurs γ ∈ [0, 1] conviennent.

Par suite, on peut prendre dπ = �Lθ p

> p 0 Lθ 0 + γ�Lθ p
= p 0 Lθ 0 et on faisant varier les valeurs du
1 1 1 1
rapport p0 /p1 et γ on retrouve la forme générale des tests de Neyman-Pearson.

3 Tests unilatères
L’approche sur les tests simples peut s’étendre sur les tests composites dans la situation des
rapports de vraisemblance monotone au sens suivant :
D ÉFINITION 5.4. On dit que (Ω, A, (Pθ )θ∈Θ ) dominé par m σ-ﬁnie où Θ ⊂ R est un modèle à rap-
port de vraisemblance croissant (MRVC) s’il existe T : (Ω, A) → (R, B(R)) une statistique et une
Lθ 1
famille (ϕθ0 ,θ1 )(θ0 ,θ1 )∈Θ0 ×Θ1 de fonctions croissantes ϕ : R → R+ telles que Lθ0 (ω) = ϕθ0 ,θ1 (T (ω))
m p.p. pour tous θ0 < θ1 ∈ Θ.

Remarque 5.3. On peut déﬁnir de même un modèle à rapport de vraisemblance décroissant. Notons
qu’en passant de de T à −T on passe de l’un à l’autre. On peut donc se ramener à un modèle MRVC.

D ÉFINITION 5.5 (Test UPP). On dit que d est un test uniformément plus puissant de θ ≤ θ0 contre
θ ≥ θ1 de niveau α (UPP(α)) si pour tout autre test d � de niveau α de θ ≤ θ0 contre θ ≥ θ1 , on a
Eθ (d) ≥ Ed (d � ) pour tout θ ∈ Θ1 .
T H ÉOR ÈME 5.2. On suppose que (Ω, A, (Pθ )θ∈Θ ) est un MRVC. Soit θ0 < θ1 ∈ Θ et d = �T>t +
γ�T =t un test de θ = θ0 contre θ = θ1 de taille α. Alors

43
1. la fonction puissance βd (θ) = Eθ (d) est croissante sur Θ
2. d est un test UPP(α) de θ ≤ θ0 contre θ ≥ θ1

Démonstration. On procède comme précédemment. Pour tout θ < θ � ∈ Θ, on note r = ϕθ,θ � (t).
On vériﬁe que pour tout autre test d � on a

Lθ � (d − d � ) ≥ rLθ (d − d � ) (∗)

En effet, sur Lθ � > rLθ alors d = 1 et (∗) est vraie ; sur Lθ � < rLθ alors d = 0 et (∗) est
encore vraie. Par suite en prenant d � ≡ Eθ (d) on déduit en intégrant par rapport à m que
βd (θ � ) − βd (θ) ≥ r(βd (θ) − βd (θ)) = 0 et donc que βd (θ) est croissante sur Θ. En particulier, d
est un test de niveau α de θ ≤ θ0 contre θ ≥ θ1 .
Enﬁn, en posant θ = θ0 et θ � ≥ θ1 , si d � est de niveau α sur θ ≤ θ0 , on déduit de (∗) que
βd (θ � ) − βd � (θ � ) ≥ r(βd (θ0 ) − βd � (θ0 )) ≥ 0.

Remarque 5.4. 1. Sans rien changer à d, d est aussi un test UPP(α) pour toutes les valeurs de
θ1 > θ0 et aussi dans le cas limite du test θ ≤ θ0 contre θ > θ0 .
2. Par ailleurs, on déduit immédiatement que si d = �T<t + γ�T =t avec Eθ0 (d) = α, alors d est un
test UPP(α) de θ ≥ θ0 contre θ ≤ θ1 cette fois pour tout θ1 < θ0 ou encore de θ ≥ θ0 contre
θ < θ0 .

Un cas standard est celui des modèles exponentiels de rang 1 pour lesquels η(θ) est crois-
sant en θ. On a alors pour θ ≤ θ �

Lθ �
= exp((η(θ � ) − η(θ)) T − (A(θ � ) − A(θ)))
Lθ � ��
≥0

qui est donc une fonction croissante de la statistique naturelle T .

Par exemple, dans le cas le plus simple d’un n-échantillon de B(θ), les test UPP(α) sont de
la forme
d = �Xn ≥t + γ�Xn =t
il n’y a pas mieux à faire que de seuiller la moyenne empirique.

Exercice 20. Écrire le test UPP(α) dans le cas d’un n-échantillon de loi P(λ) de λ ≤ λ0 contre λ ≥ λ1 .

Exercice 21. Dans le cas d’un n-échantillon de loi U[0,θ] avec θ > 0, on est pas tout à fait dans le cadre
d’un MRVC car on peut avoir Lθ � /Lθ = +∞. En s’inspirant cependant de l’approche, déterminer un
test UPP(α) de θ ≤ θ0 contre θ ≥ θ1 pour 0 < θ0 < θ1 .

4 Tests bilatères
On cherche maintenant, toujours dans le cadre où Θ ⊂ R à tester θ ∈ [θa0 , θb0 ] contre θ ∈ /
On ne peut plus construire de test UPP car si un tel test d existait, il serait à la fois un
[θa0 , θb0 ].
test de niveau Eθ0 (d) de θ ≥ θa0 contre θ < θa0 et un test de niveau Eθb (d) de θ ≤ θb0 contre
0
θ > θb0 . Dans le cadre des MRVC, on connaı̂t les formes optimales qui sont contradictoires.

44
On peut cependant toujours combiner un test d1 unilatère de niveau α1 de θ ≥ θa0 contre
θ < θa0 et test d2 unilatère de niveau α2 de θ ≤ θb0 contre θ > θb0 de niveau α2 avec α1 + α2 = α
pour obtenir un test d = max(d1 , d2 ) de niveau α de θ ∈ [θa0 , θb0 ] contre θ ∈
/ [θa0 , θb0 ] puisqu’alors
sup Eθ (d) ≤ sup Eθ (d1 + d2 ) ≤ α1 + α2 ≤ α .
θ∈[θa b
0 ,θ0 ] θ∈[θa b
0 ,θ0 ]

5 Tests multiples
On suppose maintenant que l’on a une famille de sous-ensembles (Θ0,i )1≤i≤m de Θ. On
note Θ1,i = Θ \ Θ0,i pour tout 1 ≤ i ≤ m correspodants à m tests de H0,i : θ ∈ Θ0,i contre
H1,i : θ ∈ Θ1,i .

5.1 Controle du FWER et correction de Bonferroni

On suppose de l’on dispose pour chaque i d’un test di de niveau αi de θ ∈ Θ0,i contre
θ ∈ Θ1,i .
On suppose θ ∈ ∩m i=1 Θ0,i . Si on a fait tous les tests de la famille (di )1≤i≤m quelle est la
probabilité d’avoir au moins une hypothèse Hi,0 : θ ∈ Θ0,i rejetée à tort (au moins un faux-
positif) ? On appelle cette proba le FWER (Family-Wise-Error-Rate) c’est à dire
FWER = Pθ (∪ni=1 (di = 1))
�
P ROPOSITION 5.1 (Correction de Bonferroni). On a FWER ≤ m i=1 αi . En particulier si αi ≡
α
m
pour tout 1 ≤ i ≤ m alors FWER ≤ α.
� �m
Démonstration. En effet on a Pθ (∪ni=1 (di = 1)) ≤ m
i=1 Pθ (di = 1) ≤ i=1 αi .

Le contrôle du FWER consiste donc ici à diviser le niveau cible α par le mombre de tests
pour chaque test individuel : αi = α/m. C’est ce que l’on appelle la corrrection de Bonferroni.
Si maintenant, on considère que θ ∈ ΘH0 = ∩i∈H0 Θ0,i ∩i∈H / 0 Θ1,i où H0 ⊂ {1, · · · , m} i.e.
H0,i est vraie pour i ∈ H0 et fausse sinon. Dans ce cas, la décision di = 1 pour i ∈ / H0 est un
� �
vrai-positif et l’important est le contrôle de Pθ (∪i∈H0 (di = 1)) ≤ i∈H0 Pθ (di = 1) ≤ i∈H0 αi .
Si on connaissait m0 = |H0 |, on pourrait se contenter de prendre αi = α/m0 ce qui assure plus
de puisance de détection sur les hypothèses H0,i à rejeter lorsque i ∈/ H0 . Lorsqu’il y a pas mal
de chose à détecter, la correction de Bonferroni est donc assez conservative et peut manquer
de puissance.

5.2 False Decovery Rate et procédure de Benjamini et Hochberg

Pour dépasser les restrictions de l’approche par correction de Bonferroni, il faut introduire
une nouvelle idée. L’idée developpée par Y. Benjamini and Y. Hochberg dans [3] (voir aussi [2]
sur l’histoire de l’emergence de l’approche) est de ne pas controler le FWER mais la proportion
de fausse détection en espérance. Plus précisement si H0 est l’ensemble des indices i des hy-
pothèses H0,i vériﬁées par θ, et si la procédure rejette R hypothèses (parmi les m hypothèses)
dont V correspondent à des hypothèses rejetées à tort parmi H0 , on veut controler
V
Q= �R≥1
R

45
sous Pθ pour θ ∈ ΘH0 .

Avant de présenter l’algorithme le plus connu (l’algorithme de Benjamini et Hochberg) on

suppose vérifiées les hypothèses suivantes :
H1 A chaque Θ0,i on associe une statistique Ti telle que la loi de Ti soit indépendante de θ pour
θ ∈ Θ0,i .
H2 On note Si (t) = Pθ (Ti > t) la fonction de survie de Ti pour θ ∈ Θ0,i et on suppose que Si
est continue. Par suite di = �(Si (Ti )≤α) est un test de niveau α de θ ∈ Θ0,i contre θ ∈
/ Θ0,i 1
H3 On suppose enfin que pour tout i ∈ ΘH0 , on a pour tout i ∈ H0 que Ti est indépendant de
(Tj )1≤j≤m,j�=i
L’algorithme de Benjamini-Hochberg de FDR s’écrit de la façon suivant. On note Pi = Si (Ti )
la p-value associée au test de θ ∈ Θ0,i contre θ ∈ Θ1,i .
1. On ordonne les Pi par ordre croissant en P(1) ≤ · · · ≤ P(m) . On note σ (aléatoire) telle que
P(i) = Pσ(i) .
2. On note R = f(P1 , · · · , Pm ) le plus grand i tel que P(i) ≤ i
mα
3. On rejette les R hypothèses θ ∈ Θ0,σ(i) pour 1 ≤ i ≤ R.
Remarque 5.5. Une remarque très importante est que pour tout 1 ≤ i ≤ m, on rejette θ ∈ Θ0,i ssi
R ≥ 1 et Pi ≤ m R
α. En effet, si on rejette θ ∈ Θ0,i , alors 1 ≤ σ−1 (i) ≤ R et Pi ≤ P(R) ≤ m
R
α.
Reciproquement, si R ≥ 1 et Pi ≤ m α, alors σ (i) ≤ R car si σ (i) > R par definition de R, on a
R −1 −1
σ−1 (i)
Pi > m α > R
mα ce qui est absurde.
De la remarque sous θ ∈ ΘH0 , le nombre de fausses découvertes i.e. le nombre V d’hy-
�
pothèses i ∈ H0 rejetées à tort est donné par V = i∈H0 �R≥1,Pi ≤ R α et la proportion de fausses
m
découvertes est donnée par Q = V
R �R≥1
T H ÉOR ÈME 5.3. On suppose vérifiées les hypothèses H1 − H3. Alors pour tout θ ∈ ΘH0 on a
|H0 |
Eθ (Q) ≤
α.
m
Démonstration. Si H0 = ∅ alors Q ≡ 0 et le résultat vrai. Sinon, on a
m
�� 1
Eθ (Q) = Eθ (�R=k �Pi ≤ k α )
k m
i∈H0 k=1

Or on remarque que si Ri = f(P1 , · · · , Pi−1 , 0, Pi+1 , · · · Pm ) i.e. Ri est le nombre de d’hypothèses

rejetées lorsque on applique l’algorithme en remplaçant Pi par 0, alors on a
k k
(R = k) ∩ (Pi ≤ α) = (Ri = k) ∩ (Pi ≤ α)
m m
puisque sur (Pi ≤ m k
) on a (R = k) = (Ri = k). Par suite, d’après H3, comme Ri ∈ σ(Pj , j �= i),
on a Pθ ((Ri = k) ∩ (Pi ≤ mk k
α)) = Pθ (Ri = k)Pθ (Pi ≤ m k
α) ≤ Pθ (Ri = k) m α la dernière inégalité
venant de H2 et θ ∈ Θ0,i . Par suite on a
m
� m
1 � α �� |H0 |
Eθ (Q) = Eθ (�R=k �Pi ≤ k α ) ≤ Pθ (Ri = k) = α.
k m m m
k=1 i∈H0 i∈H0 k=1

1. En effet si tα = inf{ t ∈ R | Si (t) ≤ α} alors par continuité de Si on a Pθ (Si (Ti ) ≤ α) = Pθ (Ti ≥ tα ) = Pθ (Ti >
tα ) = Si (tα ) = α. Pi = Si (Ti ) est appelée la p-valeur (ou p-value)

46
47
Bibliographie

[1] J. Aldrich. RA Fisher and the making of maximum likelihood 1912-1922’. Statistical science,
12(3) :162–176, 1997.
[2] Y. Benjamini. Discovering the false discovery rate. Journal of the Royal Statistical Society :
series B (statistical methodology), 72(4) :405–416, 2010.
[3] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate : a practical and power-
ful approach to multiple testing. Journal of the Royal statistical society : series B (Methodologi-
cal), 57(1) :289–300, 1995.
[4] R. A. Fisher. On the mathematical foundations of theoretical statistics. Philosophical tran-
sactions of the Royal Society of London. Series A, containing papers of a mathematical or physical
character, 222(594-604) :309–368, 1922.
[5] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.
[6] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efﬁcient estimation of word representations
in vector space. arXiv preprint arXiv :1301.3781, 2013.
[7] J. Neyman and E. S. Pearson. IX. On the problem of the most efﬁcient tests of statistical
hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing
Papers of a Mathematical or Physical Character, 231(694-706) :289–337, 1933.
[8] V. Vapnik. The nature of statistical learning theory. Springer science & business media, 1999.

Vous aimerez peut-être aussi

Poly Statistiques Et Apprentissage
Pas encore d'évaluation
Poly Statistiques Et Apprentissage
82 pages
ESTIMATION
Pas encore d'évaluation
ESTIMATION
6 pages
Chapitre4 ESTIMATION EHTP 2022 2023
Pas encore d'évaluation
Chapitre4 ESTIMATION EHTP 2022 2023
24 pages
Theme8 Estimation
Pas encore d'évaluation
Theme8 Estimation
6 pages
Estimation Paramétrique Avancée
Pas encore d'évaluation
Estimation Paramétrique Avancée
24 pages
Estimation sans biais et convergence
Pas encore d'évaluation
Estimation sans biais et convergence
4 pages
Estimation para Met Rique
Pas encore d'évaluation
Estimation para Met Rique
13 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
107 pages
Statistique Inductif
Pas encore d'évaluation
Statistique Inductif
8 pages
Statnp Chap1 2
Pas encore d'évaluation
Statnp Chap1 2
32 pages
Statnp
Pas encore d'évaluation
Statnp
75 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Statnp Chap1 MV
Pas encore d'évaluation
Statnp Chap1 MV
19 pages
Estimation et Modélisation Probabiliste
Pas encore d'évaluation
Estimation et Modélisation Probabiliste
10 pages
Econometrie-Lineaire-Chapitre1 240910 125143
Pas encore d'évaluation
Econometrie-Lineaire-Chapitre1 240910 125143
51 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Stat Math Poly 2013
Pas encore d'évaluation
Stat Math Poly 2013
108 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
Estimation Statistique Avancée
Pas encore d'évaluation
Estimation Statistique Avancée
14 pages
A7 Cours Non Param PDF
Pas encore d'évaluation
A7 Cours Non Param PDF
69 pages
Estimation et propriétés des estimateurs
Pas encore d'évaluation
Estimation et propriétés des estimateurs
17 pages
6 Estimateurs
Pas encore d'évaluation
6 Estimateurs
4 pages
Stat Nonp P20 Annotations
Pas encore d'évaluation
Stat Nonp P20 Annotations
132 pages
Stat Nonp P20 v2 1
Pas encore d'évaluation
Stat Nonp P20 v2 1
142 pages
Estimation de paramètres : Méthodes et résultats
Pas encore d'évaluation
Estimation de paramètres : Méthodes et résultats
7 pages
M1 G Turinici Statnonp v3 3
Pas encore d'évaluation
M1 G Turinici Statnonp v3 3
156 pages
TDM
Pas encore d'évaluation
TDM
5 pages
Param
Pas encore d'évaluation
Param
145 pages
Statistique
Pas encore d'évaluation
Statistique
175 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
COURS Intro ROBUSTESSE Revised PDF
Pas encore d'évaluation
COURS Intro ROBUSTESSE Revised PDF
25 pages
Statistique Inferentielle Licence 2
Pas encore d'évaluation
Statistique Inferentielle Licence 2
75 pages
Complement de Cours Sur L'estimation
Pas encore d'évaluation
Complement de Cours Sur L'estimation
64 pages
STAT XPoly - Marchoffman
Pas encore d'évaluation
STAT XPoly - Marchoffman
225 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
Pas encore d'évaluation
θ > X f x θ θ x x x ,: Université de Pau et des Pays de l'Adour Semestre printemps 2023-2024
5 pages
SNP MH
Pas encore d'évaluation
SNP MH
77 pages
Cours Stat
Pas encore d'évaluation
Cours Stat
153 pages
LAOUAR Sihem
Pas encore d'évaluation
LAOUAR Sihem
47 pages
Cours Proba-Stat ENSP 2019-2020
Pas encore d'évaluation
Cours Proba-Stat ENSP 2019-2020
11 pages
Chap 2
Pas encore d'évaluation
Chap 2
26 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
Estimation Statistique : Concepts Clés
Pas encore d'évaluation
Estimation Statistique : Concepts Clés
22 pages
Correction td4 Mdi220
Pas encore d'évaluation
Correction td4 Mdi220
6 pages
Resume Stat
Pas encore d'évaluation
Resume Stat
67 pages
Root
Pas encore d'évaluation
Root
68 pages
STAT 4 LICENCE Yode
Pas encore d'évaluation
STAT 4 LICENCE Yode
75 pages
Stat Proba 2
Pas encore d'évaluation
Stat Proba 2
20 pages
TD2 - Echantillonnage Et Estimation - 2020-21-1
Pas encore d'évaluation
TD2 - Echantillonnage Et Estimation - 2020-21-1
7 pages
Peg Estimation
Pas encore d'évaluation
Peg Estimation
7 pages
Statistique Inférentielle DataScience
Pas encore d'évaluation
Statistique Inférentielle DataScience
58 pages
Concepts Fondamentaux de L - Estimation
Pas encore d'évaluation
Concepts Fondamentaux de L - Estimation
20 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
Cor TD2
Pas encore d'évaluation
Cor TD2
4 pages
ProbaAgreg1213 COURS2 Stat1
Pas encore d'évaluation
ProbaAgreg1213 COURS2 Stat1
22 pages
Statistique Mathématique et Modélisation
Pas encore d'évaluation
Statistique Mathématique et Modélisation
56 pages
Methodes Reduction Variance
Pas encore d'évaluation
Methodes Reduction Variance
78 pages
PDF
100% (1)
PDF
324 pages
CC Se
Pas encore d'évaluation
CC Se
1 page
Cinétique de Réaction en Phase Liquide
Pas encore d'évaluation
Cinétique de Réaction en Phase Liquide
4 pages
Chapitre 3 Assemblages Non Démontables EM
50% (2)
Chapitre 3 Assemblages Non Démontables EM
8 pages
Park, R. (1984) - La Ville Comme Laboratoire Social & La Ville Comme Phénomène Naturel . Paris, 1984. (163-192)
0% (1)
Park, R. (1984) - La Ville Comme Laboratoire Social & La Ville Comme Phénomène Naturel . Paris, 1984. (163-192)
30 pages
These A SANGUE - FOTSO Robert 2011 PDF
Pas encore d'évaluation
These A SANGUE - FOTSO Robert 2011 PDF
431 pages
2 - La Consolidation Et L'analyse Les Besoins Exprimés Par Les Différentes Entités
Pas encore d'évaluation
2 - La Consolidation Et L'analyse Les Besoins Exprimés Par Les Différentes Entités
24 pages
Plan de Gestion Environnementale (Pge)
Pas encore d'évaluation
Plan de Gestion Environnementale (Pge)
28 pages
Cartographie VSM : Optimisation des Flux de Valeur
Pas encore d'évaluation
Cartographie VSM : Optimisation des Flux de Valeur
3 pages
Guide complet sur la réglementation CLICDVECREM
Pas encore d'évaluation
Guide complet sur la réglementation CLICDVECREM
1 page
Emploi du Temps 3e Année Hydraulique 2023/2024
Pas encore d'évaluation
Emploi du Temps 3e Année Hydraulique 2023/2024
2 pages
Conditions Recrutement 2025 ESOS
Pas encore d'évaluation
Conditions Recrutement 2025 ESOS
6 pages
Propagation de la lumière et faisceaux lumineux
Pas encore d'évaluation
Propagation de la lumière et faisceaux lumineux
3 pages
Ingenieur Genie Mecanique Et Mecatronique Apprentissage 2022 - Compressed
Pas encore d'évaluation
Ingenieur Genie Mecanique Et Mecatronique Apprentissage 2022 - Compressed
2 pages
Noboc Mrayal
Pas encore d'évaluation
Noboc Mrayal
40 pages
Étude des oscillations d'un pendule
Pas encore d'évaluation
Étude des oscillations d'un pendule
6 pages
Processus Unitaires Du Traitement de Leau Potable
Pas encore d'évaluation
Processus Unitaires Du Traitement de Leau Potable
7 pages
Relations entre science administrative et autres sciences
Pas encore d'évaluation
Relations entre science administrative et autres sciences
2 pages
Chapter 11
Pas encore d'évaluation
Chapter 11
26 pages
Langage Oral au Cycle 1
Pas encore d'évaluation
Langage Oral au Cycle 1
12 pages
DcN°1-1ère - Extracteur de Bague-2022-2023
Pas encore d'évaluation
DcN°1-1ère - Extracteur de Bague-2022-2023
4 pages
DM210712 C.1 FR
Pas encore d'évaluation
DM210712 C.1 FR
62 pages
Cours Dawdi
Pas encore d'évaluation
Cours Dawdi
7 pages
Statistique Partie II
Pas encore d'évaluation
Statistique Partie II
50 pages
Manipulation des fichiers en C
Pas encore d'évaluation
Manipulation des fichiers en C
6 pages
Organigramme Formations Sept - 24
Pas encore d'évaluation
Organigramme Formations Sept - 24
1 page
Cours Diag 2019
Pas encore d'évaluation
Cours Diag 2019
38 pages
Chapitre III - Contrôle Et Critique Des Données
Pas encore d'évaluation
Chapitre III - Contrôle Et Critique Des Données
10 pages
Cours de Topo 5 Éme Partie Chap 9 Et 10 Premiére Année
Pas encore d'évaluation
Cours de Topo 5 Éme Partie Chap 9 Et 10 Premiére Année
11 pages
Alg 2 TD 6
Pas encore d'évaluation
Alg 2 TD 6
2 pages

Poly Fisher

Transféré par

Poly Fisher

Transféré par

Notes de cours

S TATISTIQUE MATH ÉMATIQUE

M1 Jacques Hadamard, ENS Paris-Saclay

TD-TP : Thibaut Germain

1 Du coté de chez Fisher : Modèles statistiques paramétriques, estimateurs 2

Du coté de chez Fisher : Modèles

1.1 Un exemple et quelques problèmes

Pθ (Xi = 1) = θ proba qu’un objet soit défectueux (1.2)

Le travail du statisticien est de déterminer la loi Pθ où θ ∈ [0, 1].

Dans notre cas le TCL nous donne

Démonstration. On passe par le théorème de Levy.

|Φ(Xn ,Yn ) − Φ(Xn ,c) |(ξ1 , ξ2 ) ≤ 2P(|Yn − c| ≥ δ) + |ξ2 ||δ| → 0

Par suite, comme on a

est un intervalle de confiance de niveau de confiance 1 − α.

1.2 Cas de la régression

Θp = ∆˚ p−1 × {(µk , Γk )1≤k≤p ∈ (Rd × Sym+ (d))p | (µk , Γk ) 6= (µl , Γk ) ∀1 ≤ k < l ≤ p }

1. Comment simuler un n-échantillon de loi µθ ?

σ · θ = ((πσ(k) )1≤k≤p , ((µσ(k) , Γσ(k) ))1≤k≤p )

Voir version étendue dans la première feuille de TD.

Le problème d’estimation de θ pour les modèles de mélanges dans l’exercice offre un

3 Cas des modèles exponentiels

(b) Montrer que pour tout u ∈ Rd , et tout t ∈ R, on a

(c) En déduire une contradiction en utilisant le résultat d’identifiabilité pour d = 1.

où gµ,Γ est la densité de la loi gaussienne N (µ, Γ ).

[1] M. Lejeune. Statistique : La théorie et ses applications. Springer, 2004.

Vecteurs gaussiens, théorème de

Exercice 5. Soit X ∼ N (m, Γ ) un vecteur gaussien sur Rd .

C OROLLAIRE 2.2. Soit X ∼ N (m, Γ ).

avec (Zi )1≤i≤r i.i.d. N (0, 1).

2 Lois du chi-deux, de Student et de Fisher. Théorème de Cochran

3 Application 1 : IC et test sur la moyenne dans un échantillon gaus-

— dans le cas bilatère à droite, on prendra t1 = −∞, 1 − F(t2 ) = α.

3.2 Intervalle de conﬁance sur la moyenne

Exemple 1 (D’apres [2]). Un constructeur automobile indique une consommation de 6.3l/100km

On suppose ici la distribution des consommations gaussiennes (voir ci-dessous). La moyenne

1 from scipy.stats import t

1 from scipy.stats import t � ����������� � � �����������������

������������������� ������� � ���

��� ��� ��� ��� ���� ���� ���� ���� ����

��� ��� ��� ��� ���� ���� ���� ���� ����

��� ��� ��� ��� ���� ���� ���� ���� ����

Intervalle de conﬁance sur la variance

4 Application 2 : Analyse de la variance à un facteur (ANOVA 1)

4.1 Exemple introductif

4.2 Construction de la statistique de Fisher

Evidemment par le théorème de Pythagore, on a

������������������������ ������ � ����

4.4 Comparaison de 2 moyennes

et (par Cochran) S est indépendante de Y 1 − Y 2 . Par suite

Comparaison µ1 = µ2 En notant F la fonction de répartition

Méthodes en estimation ponctuelle

Remarque 3.1. T est toujours un estimateur sans biais de g(θ) = Eθ (T ) !

D ÉFINITION 3.4. Soit (Tn )n≥0 une suite d’estimateur de g(θ).

autrement dit, si X1 ∼ µθ ) on a m1 (θ) = Eθ (X1 ) et Γ (θ) = Eθ ((X1 − m1 (θ))(X1 − m1 (θ))T ).

Exercice 10. On suppose m1 (θ) connue. Alors

est un estimateur sans biais de Γ (θ).

Démonstration. En exercice. Application facile de la loi forte des grands nombres.

3 Méthodes des moments

g(θ) = Ψ(m1 (θ), · · · , mp (θ))

avec Ψ : Rp → Rp continue, on a en prenant

g(θ) = ψ (Eθ (h(X1 )))

Exercice 11. On considère la loi de Laplace L(α, β) de densité

dès que Eθ0 (ρ− (X1 , θ)) < +∞ pour tout θ ∈ Θ 1

θ^n ∈ arg min ρ^n (θ)

De façon plus générale, si X ∼ µ, on peut déﬁnir

On remarque que pour un sous-ensemble dénonbrable dense D ⊂ Θ, supθ � ∈U ρ− (X, θ � ) =

Démonstration. Si ρ∗ = +∞, alors Θ∗ = Θ et le résultat est vrai puisque (d(θ^n , Θ∗ ) ≥ �) = ∅.

Eµ (lim(ρ(X, θn ) + C(X))) ≤ lim Eµ (ρ(X, θn ) + C(X)) .

Comme Eµ (C(X)) < +∞, on obtient (b).

Eµ ( inf ρ(X, θ � )) > ρ∗ .

Par suite, pour h assez petit, on a Eµ (infB(θ,h) ρ(X, θ � )) > ρ∗ .

Étape 3 : Soient maintenant K compact de Θ et � ≥ 0. Notons K� = { θ ∈ K | d(θ, Θ∗ ) ≥ � }.

En passant à la limite, on obtient

4.2 Divergence de Kullback-Leibler

P ROPOSITION 3.3. On a K(µ, ν) ≥ 0 et K(µ, ν) = 0 ssi µ = ν.

5 Estimateur du maximum de vraisemblance

1 from scipy.stats import t � ��

��

��

��

��

��