En statistiques , l’erreur quadratique moyenne d’un estimateur
θ
^
{\displaystyle {\hat {\theta }}}
d’un paramètre
θ
{\displaystyle \theta }
de dimension 1 (mean squared error (
MSE
{\displaystyle \operatorname {MSE} }
), en anglais) est une mesure caractérisant la « précision » de cet estimateur.
Elle est plus souvent appelée « erreur quadratique » (« moyenne » étant sous-entendu) ; elle est parfois appelée aussi « risque quadratique ».
L’erreur quadratique moyenne est définie par :
Définition —
MSE
(
θ
^
)
=
def
E
[
(
θ
^
−
θ
)
2
]
{\displaystyle \operatorname {MSE} ({\hat {\theta }})\,{\overset {\text{def}}{=}}\,\mathbb {E} \left[({\hat {\theta }}-\theta )^{2}\right]}
Corollaire — Un carré étant toujours positif, on a évidemment
MSE
(
θ
^
)
≥
0
{\displaystyle \operatorname {MSE} ({\hat {\theta }})\geq 0}
.
On peut exprimer l’erreur quadratique moyenne en fonction du biais et de la variance de l’estimateur :
Théorème —
MSE
(
θ
^
)
=
Biais
(
θ
^
)
2
+
Var
(
θ
^
)
{\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Biais} ({\hat {\theta }})^{2}+\operatorname {Var} ({\hat {\theta }})}
Démonstration
Par définition de l’estimateur sans biais,
E
(
θ
¯
)
=
θ
{\displaystyle \mathbb {E} ({\bar {\theta }})=\theta }
, d’où
Var
(
θ
¯
)
=
MSE
(
θ
¯
)
{\displaystyle \operatorname {Var} ({\bar {\theta }})=\operatorname {MSE} ({\bar {\theta }})}
.
Soit
θ
^
α
=
α
θ
¯
{\displaystyle {\hat {\theta }}_{\alpha }=\alpha {\bar {\theta }}}
, donc :
par linéarité de l’espérance ,
E
(
θ
^
α
)
=
E
(
α
θ
¯
)
=
α
E
(
θ
¯
)
=
α
θ
{\displaystyle \mathbb {E} ({\hat {\theta }}_{\alpha })=\mathbb {E} (\alpha {\bar {\theta }})=\alpha \mathbb {E} ({\bar {\theta }})=\alpha \theta }
;
par homogénéité de la variance ,
Var
(
θ
^
α
)
=
Var
(
α
θ
¯
)
=
α
2
Var
(
θ
¯
)
=
α
2
MSE
(
θ
¯
)
{\displaystyle \operatorname {Var} ({\hat {\theta }}_{\alpha })=\operatorname {Var} (\alpha {\bar {\theta }})=\alpha ^{2}\operatorname {Var} ({\bar {\theta }})=\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})}
;
d’où
MSE
(
θ
^
α
)
=
(
α
θ
−
θ
)
2
+
α
2
MSE
(
θ
¯
)
=
(
α
−
1
)
2
θ
2
+
α
2
MSE
(
θ
¯
)
{\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })=(\alpha \theta -\theta )^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})=(\alpha -1)^{2}\theta ^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})}
.
En dérivant par rapport à
α
{\displaystyle \alpha }
, on trouve
MSE
′
(
θ
^
α
)
=
2
(
α
−
1
)
θ
2
+
2
α
MSE
(
θ
¯
)
=
2
(
θ
2
+
MSE
(
θ
¯
)
)
α
−
2
θ
2
{\displaystyle \operatorname {MSE} '({\hat {\theta }}_{\alpha })=2(\alpha -1)\theta ^{2}+2\alpha \operatorname {MSE} ({\bar {\theta }})=2\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)\alpha -2\theta ^{2}}
.
Comme on a supposé
MSE
(
θ
¯
)
>
0
{\displaystyle \operatorname {MSE} ({\bar {\theta }})>0}
, cette dérivée est une fonction affine de coefficient directeur strictement positif, donc elle s’annule en
α
0
=
θ
2
θ
2
+
MSE
(
θ
¯
)
{\displaystyle \alpha _{0}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}}
, est strictement négative pour
α
<
α
0
{\displaystyle \alpha <\alpha _{0}}
, et est strictement positive pour
α
>
α
0
{\displaystyle \alpha >\alpha _{0}}
, donc
α
0
{\displaystyle \alpha _{0}}
est le minimum de
MSE
(
θ
^
α
)
{\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })}
.
L’erreur quadratique moyenne est donc minimale pour
θ
^
α
0
=
θ
2
θ
2
+
MSE
(
θ
¯
)
θ
¯
=
def
θ
ˇ
{\displaystyle {\hat {\theta }}_{\alpha _{0}}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}{\bar {\theta }}\,{\overset {\text{def}}{=}}\,{\check {\theta }}}
.
Ce minimum vaut :
MSE
(
θ
ˇ
)
=
MSE
(
θ
^
α
0
)
=
(
α
0
−
1
)
2
θ
2
+
α
0
2
MSE
(
θ
¯
)
=
(
−
MSE
(
θ
¯
)
θ
2
+
MSE
(
θ
¯
)
)
2
θ
2
+
(
θ
2
θ
2
+
MSE
(
θ
¯
)
)
2
MSE
(
θ
¯
)
=
θ
2
MSE
(
θ
¯
)
2
+
θ
4
MSE
(
θ
¯
)
(
θ
2
+
MSE
(
θ
¯
)
)
2
=
(
θ
2
MSE
(
θ
¯
)
)
(
MSE
(
θ
¯
)
+
θ
2
)
(
θ
2
+
MSE
(
θ
¯
)
)
2
=
θ
2
MSE
(
θ
¯
)
θ
2
+
MSE
(
θ
¯
)
{\displaystyle {\begin{aligned}\operatorname {MSE} ({\check {\theta }})&=\operatorname {MSE} ({\hat {\theta }}_{\alpha _{0}})\\&=(\alpha _{0}-1)^{2}\theta ^{2}+\alpha _{0}^{2}\operatorname {MSE} ({\bar {\theta }})\\&=\left(-{\frac {\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\theta ^{2}+\left({\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\operatorname {MSE} ({\bar {\theta }})\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})^{2}+\theta ^{4}\operatorname {MSE} ({\bar {\theta }})}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\left(\theta ^{2}\operatorname {MSE} ({\bar {\theta }})\right)\left(\operatorname {MSE} ({\bar {\theta }})+\theta ^{2}\right)}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\end{aligned}}}
Remarque : la valeur de
θ
{\displaystyle \theta }
étant inconnue par nature (sinon, on n’en chercherait pas un estimateur), cette formule n’a d’intérêt pratique que si le coefficient
θ
2
θ
2
+
MSE
(
θ
¯
)
{\displaystyle {\tfrac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}}
se simplifie en une constante indépendante de
θ
{\displaystyle \theta }
, c’est-à-dire si et seulement si
MSE
(
θ
¯
)
{\displaystyle \operatorname {MSE} ({\bar {\theta }})}
est proportionnel à
θ
2
{\displaystyle \theta ^{2}}
(voir exemple plus bas).
Si les deux estimateurs à comparer sont sans biais, l’estimateur le plus efficace est simplement celui dont la variance est la plus petite. De même, si un estimateur a à la fois un plus grand biais (en valeur absolue) et une plus grande variance qu’un autre estimateur, ce dernier est évidemment meilleur.
Cependant, si un estimateur a un plus grand biais (en valeur absolue) mais une plus petite variance, la comparaison n’est plus immédiate : l’erreur quadratique moyenne permet alors de trancher.
Exemple :
Comparons les deux estimateurs les plus courants de la variance :
s
n
−
1
2
=
def
1
n
−
1
∑
i
=
1
n
(
y
i
−
y
¯
)
2
{\displaystyle s_{n-1}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}}
et
s
n
2
=
def
1
n
∑
i
=
1
n
(
y
i
−
y
¯
)
2
=
n
−
1
n
s
n
−
1
2
{\displaystyle s_{n}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {n-1}{n}}s_{n-1}^{2}}
Pour un tirage avec remise et une loi de probabilité dont on suppose que le kurtosis normalisé est nul[ note 1] (ex. : la loi normale ), les calculs montrent que (voir Greene, section C.5.1) :
E
(
s
n
−
1
2
)
=
σ
2
{\displaystyle \mathbb {E} (s_{n-1}^{2})=\sigma ^{2}}
d’où
Biais
(
s
n
−
1
2
)
=
0
{\displaystyle \operatorname {Biais} (s_{n-1}^{2})=0}
,
Var
(
s
n
−
1
2
)
=
2
σ
4
n
−
1
{\displaystyle \operatorname {Var} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}}
d’où
MSE
(
s
n
−
1
2
)
=
2
σ
4
n
−
1
{\displaystyle \operatorname {MSE} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}}
;
E
(
s
n
2
)
=
n
−
1
n
E
(
s
n
−
1
2
)
=
n
−
1
n
σ
2
{\displaystyle \mathbb {E} (s_{n}^{2})={\frac {n-1}{n}}\mathbb {E} (s_{n-1}^{2})={\frac {n-1}{n}}\sigma ^{2}}
d’où
Biais
(
s
n
2
)
=
−
σ
2
n
{\displaystyle \operatorname {Biais} (s_{n}^{2})=-{\frac {\sigma ^{2}}{n}}}
,
Var
(
s
n
2
)
=
(
n
−
1
n
)
2
Var
(
s
n
−
1
2
)
=
(
n
−
1
n
)
2
2
σ
4
n
−
1
=
2
(
n
−
1
)
σ
4
n
2
{\displaystyle \operatorname {Var} (s_{n}^{2})=\left({\frac {n-1}{n}}\right)^{2}\operatorname {Var} (s_{n-1}^{2})=\left({\frac {n-1}{n}}\right)^{2}{\frac {2\sigma ^{4}}{n-1}}={\frac {2(n-1)\sigma ^{4}}{n^{2}}}}
d’où
MSE
(
s
n
2
)
=
(
2
n
−
1
)
σ
4
n
2
{\displaystyle \operatorname {MSE} (s_{n}^{2})={\frac {(2n-1)\sigma ^{4}}{n^{2}}}}
.
L’estimateur
s
n
−
1
2
{\displaystyle s_{n-1}^{2}}
est sans biais mais a une plus grande variance (plus faible efficacité) que l’estimateur
s
n
2
{\displaystyle s_{n}^{2}}
.
La comparaison des erreurs quadratiques moyennes donne :
MSE
(
s
n
2
)
−
MSE
(
s
n
−
1
2
)
=
σ
4
(
1
n
2
+
2
n
−
1
n
2
−
2
n
−
1
)
=
2
σ
4
(
1
n
−
1
n
−
1
)
<
0
{\displaystyle \operatorname {MSE} (s_{n}^{2})-\operatorname {MSE} (s_{n-1}^{2})=\sigma ^{4}\left({\frac {1}{n^{2}}}+{\frac {2n-1}{n^{2}}}-{\frac {2}{n-1}}\right)=2\sigma ^{4}\left({\frac {1}{n}}-{\frac {1}{n-1}}\right)<0}
L’estimateur biaisé
s
n
2
{\displaystyle s_{n}^{2}}
est donc meilleur en termes d’erreur quadratique moyenne.
Toujours dans le cas d’un tirage avec remise et d’un kurtosis nul, en appliquant le théorème de minimisation donné plus haut à l’estimateur sans biais
s
n
−
1
2
{\displaystyle s_{n-1}^{2}}
, on trouve que l’estimateur
s
n
+
1
2
=
n
n
+
1
s
n
2
=
n
−
1
n
+
1
s
n
−
1
2
{\displaystyle s_{n+1}^{2}={\frac {n}{n+1}}s_{n}^{2}={\frac {n-1}{n+1}}s_{n-1}^{2}}
est l’estimateur minimisant l’erreur quadratique moyenne, cette dernière valant alors
2
σ
4
n
+
1
{\displaystyle {\frac {2\sigma ^{4}}{n+1}}}
.
Il est possible de déterminer si un estimateur est convergent en probabilité à partir de son erreur quadratique moyenne, on a en effet:
Théorème —
[
(
lim
n
→
∞
E
(
θ
^
)
=
θ
e
t
lim
n
→
∞
Var
(
θ
^
)
=
0
)
⇔
lim
n
→
∞
MSE
(
θ
^
)
=
0
]
⇒
θ
^
→
p
θ
{\displaystyle \left[\left(\lim _{n\to \infty }\mathbb {E} ({\hat {\theta }})=\theta \quad \mathbf {et} \quad \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0\right)\Leftrightarrow \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\right]\Rightarrow {\hat {\theta }}{\xrightarrow {p}}\theta }
La démonstration est faite à la page convergence de variables aléatoires .
Dans un cadre plus général pour un modèle multiparamétrique où l'on cherche à estimer plusieurs paramètres ou pour estimer une fonction
f
(
θ
)
{\displaystyle f(\theta )}
de un ou plusieurs paramètres, l'erreur quadratique moyenne pour un estimateur
δ
{\displaystyle \delta }
de
f
(
θ
)
{\displaystyle f(\theta )}
est défini par:
Définition —
E
[
t
(
δ
−
f
(
θ
)
)
A
(
δ
−
f
(
θ
)
)
]
{\displaystyle \mathbb {E} \left[^{t}(\delta -f(\theta ))A(\delta -f(\theta ))\right]}
où A est une matrice symétrique définie positive (qui définit donc un produit scalaire ).
↑ Plus généralement, toujours pour un tirage avec remise , on a :
Var
(
s
n
−
1
2
)
=
(
γ
2
n
+
2
n
−
1
)
σ
4
{\displaystyle \operatorname {Var} (s_{n-1}^{2})=\left({\frac {\gamma _{2}}{n}}+{\frac {2}{n-1}}\right)\sigma ^{4}}
.
(en) William H Greene , Econométrie , Paris, Pearson Education, 2005 , 5e éd. , 943 p. (ISBN 978-2-7440-7097-6 ) , p. 2