0% ont trouvé ce document utile (0 vote)
49 vues3 pages

TDNon Param

Ce document présente une série d'exercices sur la statistique non paramétrique, abordant des concepts tels que l'estimateur de Parzen-Rosenblatt, la règle empirique de Silverman, la validation croisée, et l'estimation de densité à partir de données réelles. Les exercices incluent des démonstrations mathématiques, des simulations en R, et des analyses de données sur le geyser Old Faithful. Les étudiants sont encouragés à comprendre et à appliquer ces méthodes dans divers contextes statistiques.

Transféré par

Oumarou Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues3 pages

TDNon Param

Ce document présente une série d'exercices sur la statistique non paramétrique, abordant des concepts tels que l'estimateur de Parzen-Rosenblatt, la règle empirique de Silverman, la validation croisée, et l'estimation de densité à partir de données réelles. Les exercices incluent des démonstrations mathématiques, des simulations en R, et des analyses de données sur le geyser Old Faithful. Les étudiants sont encouragés à comprendre et à appliquer ces méthodes dans divers contextes statistiques.

Transféré par

Oumarou Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STAT2—Statistique non paramétrique École Centrale de Nantes

Feuille d’exercices

Exercice 1 (Propriétés statistique de Parzen–Rosenblatt).


On s’intéresse ici aux propriétés statistiques de l’estimateur de Parzen–Rosenblatt.
a) Rappelez l’expression de cet estimateur.
b) Montrez que si f est au moins C 2 alors pour tout x ∈ R

h2 00
Biais{fˆh (x)} = f (x)µ2 (K) + o(h2 ), h → 0,
2
R
où µ2 (K) = u2 K(u)du.
c) Montrez que pour K ∈ L2 , on a pour tout x ∈ R
Z  
ˆ 1 2 1
Var{fh (x)} = f (x) K(u) du + o , nh → ∞.
nh nh

d) En déduire une expression approchée pour la MISE.

PPP
e) Trouvez la fenêtre optimale minimisant cette MISE approchée.

Exercice 2 (La règle empirique de Silverman).


Dans cet exercice nous allons essayer de mieux comprendre ce qu’il se cache derrière la règle
empirique de Silverman et voir quelques modifications de cette dernière.
a) Soit f ∼ N (µ, σ 2 ). Montrez que
Z
3
f 00 (x)2 dx = √ .
8σ 5 π

Astuce : on utilisera le fait que pour Y ∼ N (µ, σ 2 ), E{(X − µ)2k } = (2k)!σ 2k /(2k k!).
b) En déduire que le choix par défaut de la fenêtre selon Silverman est donné par
v
 5 1/5 u n
4σ̂ u 1 X
hSilverman = , σ̂ = t (Xi − X̄)2
3n n − 1 i=1

c) Expliquez l’intuition derrière la formule suivante


1/5
X[3n/4] − X[n/4]
  
4
h∗ = min σ̂, ,
3n 1.349

où X[np] représente la [np]–ième statistique d’ordre, i.e., la [np]–ième plus petite valeur de

PPP
l’échantillon X1 , . . . , Xn .

Exercice 3 (Validation croisée  Leave one out ).


On suppose que la vraie densité vérifie f ∈ L2 et on pose h > 0.

1
a) Rappelez l’expression de ce type de validation croisée pour l’estimateur de Parzen–Rosenblatt.
b) Montrez que Z
E{CV (h)} = M ISE(h) − f (x)2 dx.

PPP
c) Qu’en déduisez vous ?

Exercice 4 (Old faithful geyser).


Dans cet exercice nous allons mettre tout ce que nous avons vu sur l’estimation non paramétrique
d’une densité de probabilité en s’appuyant sur le jeu de données old faithfull geyser. Ce jeu
de données collecte (entre autre) le temps d’attente entre deux éruptions du geyser Old Faithful
situté dans le parc de Yellowstone.
a) Importez le jeu de données et renseignez vous sur ce dernier via les commandes R
data(faithful)
?faithful

data(faithful)

b) Lisez la documentation de la fonction density.


c) Exécutez les commandes suivantes, dites ce qu’elles font et commentez les résultats
par(mfrow = c(1, 3), mar = c(4, 5, 0.5, 0))
for (bandwidth in c(0.5, 10, 4)){
plot(density(faithful$waiting, kernel = "gaussian", bw = bandwidth),
main = "")
rug(faithful$waiting)
}

PPP
Exercice 5 (Mélange de gaussiennes).
Soit la fonction  
0.7 x−1
f (x) = 0.3ϕ(x) + ϕ , x ∈ R,
0.3 0.3
où ϕ(·) correspond à la densité d’une N (0, 1).
a) Montrez que f est une densité de probabilité.
b) Ecrivez une fonction R qui génère un n–échantillon (iid) selon cette loi.
c) Simulez un n–échantillon (n choisi par vos soins) et obtenez une estimation de la densité. Vosu
choisirez une fenêtre  optimale à l’oeil .

PPP
d) Sur un même graphqiue, comparer cette estimation à la densité théorique.

Exercice 6 (Nadaraya–Watson).
Dans cet exercice, nous allons retrouver la forme de l’estimateur de Nadaraya–Watson pour la
régression non paramétrique.

2
a) Soit K1 et K2 deux noyaux sur R montrez que le noyau (x, y) 7→ K1 (x)K2 (y) est un noyau sur
R2 .
b) Considérons l’estimateur de la densité bivariée f (x, y) suivant
n    
1 X Xi − x Yi − y
fˆh1 ,h2 (x, y) = Kh1 Kh2 .
nh1 h2 i=1 h1 h2

Montrez que
n  
Xi − x
Z
1X
y fˆh1 ,h2 (x, y)dy = Kh1 Yi .
n i=1 h1

c) En déduire l’expression de l’estimateur de Nadaraya–Watson pour la régression non paramétrique.


d) Lisez la documentation de la fonction ksmooth et analysez le code suivant
data(faithful)
attach(faithful)
plot(eruptions, waiting)
fit <- ksmooth(eruptions, waiting, kernel = "normal")
lines(fit, col = "seagreen3", lwd = 2)

e) Jouez un peu avec l’argument bandwidth pour faire le lien avec le cours.

PPP
f) Ecrivez un bout de code R permettant de choisir une fenêtre adaptée par leave-one-out.

Vous aimerez peut-être aussi