STAT2—Statistique non paramétrique École Centrale de Nantes
Feuille d’exercices
Exercice 1 (Propriétés statistique de Parzen–Rosenblatt).
On s’intéresse ici aux propriétés statistiques de l’estimateur de Parzen–Rosenblatt.
a) Rappelez l’expression de cet estimateur.
b) Montrez que si f est au moins C 2 alors pour tout x ∈ R
h2 00
Biais{fˆh (x)} = f (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R
Z
ˆ 1 2 1
Var{fh (x)} = f (x) K(u) du + o , nh → ∞.
nh nh
d) En déduire une expression approchée pour la MISE.
PPP
e) Trouvez la fenêtre optimale minimisant cette MISE approchée.
Exercice 2 (La règle empirique de Silverman).
Dans cet exercice nous allons essayer de mieux comprendre ce qu’il se cache derrière la règle
empirique de Silverman et voir quelques modifications de cette dernière.
a) Soit f ∼ N (µ, σ 2 ). Montrez que
Z
3
f 00 (x)2 dx = √ .
8σ 5 π
Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).
b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
5 1/5 u n
4σ̂ u 1 X
hSilverman = , σ̂ = t (Xi − X̄)2
3n n − 1 i=1
c) Expliquez l’intuition derrière la formule suivante
1/5
X[3n/4] − X[n/4]
4
h∗ = min σ̂, ,
3n 1.349
où X[np] représente la [np]–ième statistique d’ordre, i.e., la [np]–ième plus petite valeur de
PPP
l’échantillon X1 , . . . , Xn .
Exercice 3 (Validation croisée Leave one out ).
On suppose que la vraie densité vérifie f ∈ L2 et on pose h > 0.
1
a) Rappelez l’expression de ce type de validation croisée pour l’estimateur de Parzen–Rosenblatt.
b) Montrez que Z
E{CV (h)} = M ISE(h) − f (x)2 dx.
PPP
c) Qu’en déduisez vous ?
Exercice 4 (Old faithful geyser).
Dans cet exercice nous allons mettre tout ce que nous avons vu sur l’estimation non paramétrique
d’une densité de probabilité en s’appuyant sur le jeu de données old faithfull geyser. Ce jeu
de données collecte (entre autre) le temps d’attente entre deux éruptions du geyser Old Faithful
situté dans le parc de Yellowstone.
a) Importez le jeu de données et renseignez vous sur ce dernier via les commandes R
data(faithful)
?faithful
data(faithful)
b) Lisez la documentation de la fonction density.
c) Exécutez les commandes suivantes, dites ce qu’elles font et commentez les résultats
par(mfrow = c(1, 3), mar = c(4, 5, 0.5, 0))
for (bandwidth in c(0.5, 10, 4)){
plot(density(faithful$waiting, kernel = "gaussian", bw = bandwidth),
main = "")
rug(faithful$waiting)
}
PPP
Exercice 5 (Mélange de gaussiennes).
Soit la fonction
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre optimale à l’oeil .
PPP
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.
Exercice 6 (Nadaraya–Watson).
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.
2
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n
1 X Xi − x Yi − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2
Montrez que
n
Xi − x
Z
1X
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1
c) En déduire l’expression de l’estimateur de Nadaraya–Watson pour la régression non paramétrique.
d) Lisez la documentation de la fonction ksmooth et analysez le code suivant
data(faithful)
attach(faithful)
plot(eruptions, waiting)
fit <- ksmooth(eruptions, waiting, kernel = "normal")
lines(fit, col = "seagreen3", lwd = 2)
e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.
PPP
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.