0% ont trouvé ce document utile (0 vote)
52 vues43 pages

Stat Non Par

Transféré par

zehesimon.imspuac
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues43 pages

Stat Non Par

Transféré par

zehesimon.imspuac
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1

MASTER DE MATHEMATIQUES

OPTION PROBABILITES-STATISTIQUE

COURS DE STATISTIQUE NON PARAMETRIQUE

par

Guy Martial NKIET

Professeur Titulaire

Université des Sciences et Techniques de Masuku


Franceville, Gabon.
2
Table des matières

1 Estimation de la densité 5
1.1 Estimateur de Rosenblatt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Propriétés ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Propriétés globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.4 Choix optimal de la fenêtre par validation croisée . . . . . . . . . . . . . . . 20
1.3 Estimation par projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Choix optimal de la dimension . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Cas de la base trigonométrique . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.4 Estimateur par ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2 Estimation de la fonction de régression 27


2.1 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.2 Propriétés globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Estimation par polynômes locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 Calcul de l’estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Estimation par projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Propriétés globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Choix du paramètre de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3 Tests nonparamétriques 39
3.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Test de Cramer-von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3
4 TABLE DES MATIÈRES
Chapitre 1

Estimation de la densité

Dans ce chapitre, nous allons introduire des méthodes permettant d’estimer une densité inconnue à
partir d’un échantillon i.i.d.. Une première estimation utilisant la fonction de répartition empirique
sera considérée, puis on se penchera sur l’estimation par la méthode du noyau et l’estimation par
projection pour lesquelles des propriétés seront ensuite établies. Dans tout ce qui suit on a un
échantillon i.i.d. X1 , · · · , Xn d’une v.a. réelle ayant une densité inconnue f , et on cherche à estimer
f.

1.1 Estimateur de Rosenblatt


Soit F la fonction de répartition (f.d.r.) de la loi commune des Xi ; on sait que f est la dérivée de
F ; on peut alors exprimer f à partir de F par la formule :
F (x + h) − F (x − h)
f (x) = F ′ (x) = lim ;
h→0 2h
ceci montre que, pour h assez petit, on a l’approximation suivante :
F (x + h) − F (x − h)
f (x) ≈ . (1.1)
2h
La f.d.r. F étant elle aussi inconnue, une idée pour estimer f consiste à remplacer dans (1.1) la
fonction F par la f.d.r. empirique Fbn calculée sur la base de l’échantillon X1 , · · · , Xn par
n
1X
Fbn (x) = 1I]−∞,x] (Xi ); (1.2)
n i=1

ceci conduit à l’estimateur fbn de f , appellé estimateur de Rosenblatt, donné par


n   n
1 X 1 X
fn (x) =
b 1I]−∞,x+h] (Xi ) − 1I]−∞,x−h] (Xi ) = 1I]x−h,x+h] (Xi ). (1.3)
2nh i=1 2nh i=1

On peut espérer avoir obtenu un bon estimateur de f car, on sait, par le théorème de Glivenko-
Cantelli, que Fbn converge presque sûrement uniformément vers F lorsque n → +∞, c’est à dire :
 
lim sup |Fn (x) − F (x)| = 0
b
n→+∞ x∈R

5
6 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

presque sûrement. Puisque


Xi − x Xi − x
Xi ∈]x − h, x + h] ⇔ x − h < Xi ≤ x + h ⇔ −1 < ≤1⇔ ∈] − 1, 1],
h h
on a 1I]x−h,x+h] (Xi ) = 1I]−1,1] ( Xih−x ), et
n  
1 X Xi − x
fbn (x) = K0 (1.4)
nh i=1 h

où K0 (t) = 21 1I]−1,1] (t).

Le principal inconvénient de l’estimateur de Rosenblatt est qu’il est une fonction discontinue.
Ceci est un handicap puisqu’il est censé estimer une densité qui, dans la plupart des cas, est une
fonction continue. Cela se voit à travers les exemples suivants dans lesquels fbn est calculé sur
des données simulées provenant d’échantillons i.i.d. de la loi normale N (0, 1). Les figures 1.1 et
1.2 représentent la fonction fbn en noir et la densité de la loi N (0, 1) en rouge. Dans la figure 1.1
apparaı̂t clairement, pour h = 0.25, le caractère discontinu de fbn contrastant avec la continuité de
la densité de la loi N (0, 1) qu’il est censé estimer. Deux autres faits sont eǵalement mis en évidence
dans ces graphiques. Tout d’abord, l’estimation est meilleure à mesure que la taille de l’échantillon
est grande. Mais aussi, et surtout, l’influence de la fenêtre sur la qualité de l’estimation apparaı̂t
nettement. En effet, on observe une meilleure estimation pour h = 0.9 que pour h = 0.25. Ceci
pose le problm̀e du choix de la feneêtre qui garantit une bonne estimation de la densité.
1.1. ESTIMATEUR DE ROSENBLATT 7

0.6
0.5
0.4
0.3
y

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

t
0.6
0.5
0.4
0.3
y

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.1 – Estimation de la densité de la loi N (0, 1) par l’estimateur de Rosenblatt. n = 20.
h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
8 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

0.4
0.3
0.2
y

0.1
0.0

−3 −2 −1 0 1 2 3

t
0.4
0.3
0.2
y

0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.2 – Estimation de la densité de la loi N (0, 1) par l’estimateur de Rosenblatt. n = 200.
h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.

1.2 Estimateur à noyau


Dans ce paragraphe, nous allons introduire un estimateur de f en généralisant la formule (1.4), en
considérant à la place de K0 une fonction qui admet de meilleures propriétés.
1.2. ESTIMATEUR À NOYAU 9

1.2.1 Définitions

Définition 1.2.1. On appelle noyau toute fonction intégrable K : R → R telle que


Z
K(t) dt = 1.
R

Exemple 1.2.1. Nous donnons ci-dessous des exemples de noyaux.

1)Noyau rectangulaire. K(t) = 21 1I[−1,1] (t).


2)Noyau triangulaire. K(t) = (1 − |t|)1I[−1,1] (t).
3)Noyau parabolique ou d’Epanechnikov. K(t) = 34 (1 − t2 )1I[−1,1] (t).
15 2 2
4)Noyau biweight. K(t) = 16 (1 − t ) 1I[−1,1] (t).
2
5)Noyau gaussien. K(t) = √1 exp(− t ).
2π 2
 
1 |t| |t|
6)Noyau de Silverman. K(t) = exp(− √ ) sin − √ + π .
2 2 2 4

Définition 1.2.2. Soit K un noyau ; on appelle estimateur à noyau, ou encore estimateur de


Parzen-Rosenblatt, l’estimateur fbn défini par
n  
1 X Xi − x
fbn (x) = K . (1.5)
nh i=1 h

Le réel h est appellé fenêtre de l’estimateur.

Il s’agit donc d’améliorer l’estimateur de Rosenblatt par le choix d’un noyau qui conduise à de
meilleures propriétés de l’estimateur de la densité ainsi obtenu.

Les graphiques suivants présentent l’estimation de la densité de la loi N (0, 1), à partir de des
données simulées, par la méthode du noyau avec les noyaux d’Epanechnikov (figures 1.3 et 1.4)
et gaussien (figures 1.5 et 1.6). On voit que le problème de discontinuité de l’estimateur, qui
était inhérent à l’estimateur de Rosenblatt, n’apparaı̂t plus. Là aussi, on observe une meilleure
estimation à mesure que la taille d’échantillon est grande, et aussi l’influence du choix de la fenêtre
de l’estimateur qui avait déja été observée pour l’estimateur de Rosenblatt.
10 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

0.8
0.6
0.4
y

0.2
0.0

−3 −2 −1 0 1 2 3

t
0.4
0.3
y

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.3 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
d’Epanechnikov. n = 20. h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
1.2. ESTIMATEUR À NOYAU 11

0.4
0.3
y

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

t
0.4
0.3
0.2
y

0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.4 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
d’Epanechnikov. n = 200. h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.

1.2.2 Propriétés ponctuelles


Nous allons, à présent, étudier les qualités de l’estimateur à noyau en un point x0 ∈ R fixé. Notons
que dans ce cas, fbn (x0 ) est un estimateur de f (x0 ) dont la qualité peut, par conséquent, être
12 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

0.4
0.3
0.2
z

0.1
0.0

−3 −2 −1 0 1 2 3

t
0.3
0.2
y

0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.5 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
gaussien. n = 20. h = 0.25 pour le premier graphique et h = 0.35 pour le deuxième.

mesurée par le risque quadratique :


 2 
MSE(x0 ) = E fn (x0 ) − f (x0 )
b = σ 2 (x0 ) + b2 (x0 ),
1.2. ESTIMATEUR À NOYAU 13

0.4
0.3
0.2
z

0.1
0.0

−3 −2 −1 0 1 2 3

t
0.4
0.3
0.2
z

0.1
0.0

−3 −2 −1 0 1 2 3

Figure 1.6 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
gaussien. n = 200. h = 0.25 pour le premier graphique et h = 0.35 pour le deuxième.

   
où σ 2 (x0 ) = V ar fbn (x0 ) est la variance de l’estimateur, et b(x0 ) = E fbn (x0 ) − f (x0 ) est le
biais. Nous allons étudier séparément la variance et le biais, puis en déduire l’étude du risque
quadratique.
14 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

Proposition 1.2.1. On suppose f bornée, et que le noyau K vérifie :


Z
K 2 (t) dt < +∞.
R

Alors, pour tous h > 0 et n ≥ 1, on a


C1
σ 2 (x0 ) ≤ , (1.6)
nh
K 2 (t) dt.
R
où C1 = ∥f ∥∞ R
Preuve. On a :
n   
2 1 X Xi − x0
σ (x0 ) = V ar K
n2 h2 i=1 h
  
1 X1 − x0
= V ar K
nh2 h
  
1 2 X1 − x0
≤ E K
nh2 h
 
u − x0
Z
1 2
= K f (u) du.
nh2 R h
u−x0
En posant t = h dans cette intégrale, il vient
Z Z
2 1 2 1
σ (x0 ) ≤ K (t) f (x0 + ht) dt ≤ ∥f ∥∞ K 2 (t) dt.
nh R nh R

Pour étudier le biais, on a besoin que f et K appartiennent à des classes de fonctions qui vont être
à présent définies.

.
Définition 1.2.3. Soient I un intervalle de R, β et L des réels strictement positifs. On pose
ℓ = ⌊β⌋. La classe de Hölder Σ(β, L) sur I est l’ensemble des fonctions φ : I → R dérivables
jusqu’à l’ordre ℓ et telles la dérivée ℓ-ième φ(ℓ) vérifie :

∀(x, y) ∈ I 2 , |φ(ℓ) (x) − φ(ℓ) (y)| ≤ L|x − y|β−ℓ . (1.7)

Définition 1.2.4. Soient ℓ ∈ N∗ et un noyau K. On dit que K est d’ordre ℓ si, pour tout
j ∈ {0, · · · , ℓ}, la fonction t 7→ tj K(t) est intégrable, et si :
Z
tj K(t) dt = 0, j = 1, · · · , ℓ. (1.8)
R

On a alors :

Proposition 1.2.2. On suppose que f ∈ Σ(β, L) où β > 0 et L > 0 , et que le noyau K est d’ordre
ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
1.2. ESTIMATEUR À NOYAU 15

Alors, pour tous h > 0 et n ≥ 1, on a

|b(x0 )| ≤ C2 hβ , (1.9)
L
où C2 = ℓ! R |t|β |K(t)| dt.
R

Preuve. On a :
n   
1 X Xi − x0
b(x0 ) = E K − f (x0 )
nh i=1 h
  
1 X1 − x0
= E K − f (x0 )
h h
 
u − x0
Z
1
= K f (u) du − f (x0 ).
h R h
u−x0
En posant t = h dans cette intégrale, il vient
Z
b(x0 ) = K (t) f (x0 + ht) dt − f (x0 )
ZR Z
= K (t) f (x0 + ht) dt − f (x0 ) K (t) dt
ZR R

= (f (x0 + ht) − f (x0 )) K (t) dt. (1.10)


R

La formule de Taylor assure l’existence de τ ∈]0, 1[ tel que



X f (j) (x0 ) hℓ tℓ (ℓ)
f (x0 + ht) − f (x0 ) = hj tj + f (x0 + τ ht);
j=1
j! ℓ!

de (1.10) il vient donc



f (j) (x0 ) hℓ
X Z Z
b(x0 ) = hj tj K (t) dt + tℓ K(t)f (ℓ) (x0 + τ ht) dt.
j=1
j! R ℓ! R

Puisque K vérifie (1.8) on obtient finalement

hℓ
Z
b(x0 ) = tℓ K(t)f (ℓ) (x0 + τ ht) dt
ℓ! R
hℓ hℓ (ℓ)
Z Z
= t K(t)f (x0 + τ ht) dt − f (x0 ) tℓ K(t) dt
ℓ (ℓ)
ℓ! R ℓ! R
ℓ Z
 
h
= tℓ K(t) f (ℓ) (x0 + τ ht) − f (ℓ) (x0 ) dt;
ℓ! R
d’où
hℓ
Z
|b(x0 )| ≤ |t|ℓ |K(t)| |f (ℓ) (x0 + τ ht) − f (ℓ) (x0 )| dt.
ℓ! R
Puisque f vérife (1.7), il vient


Z Z
L
|b(x0 )| ≤ L τ β−ℓ β
|t| |K(t)| dt ≤ |t|β |K(t)| dt hβ .
ℓ! R ℓ! R
16 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

De (1.6) et (1.9), on obtient la proposition suivante qui indique le comportement du risque qua-
dratique.

Proposition 1.2.3. On suppose que f est bornée et appartient à Σ(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
K 2 (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R

Alors, pour tous h > 0 et n ≥ 1, on a

C1
MSE(x0 ) ≤ + C22 h2β . (1.11)
nh

Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MSE(x0 ) tend vers 0 lorsque n → +∞. Cependant, on peut obtenir la fenêtre
optimale, c’est à dire celle qui conduit à une minimisation du risque quadratique, et en déduire la
vitesse de convergence correspondante de ce risque.

Proposition 1.2.4. Sous les conditions de la Proposition 1.2.3 :


 1
 2β+1
1
∗ C1
i) La fenêtre optimale est donnée par hn = 2βC 2 n− 2β+1 .
2
 2β

ii) La vitesse de convergence du risque quadratique est donnée par MSE(x0 ) = O n− 2β+1 .
Preuve.
i) On a à déterminer h qui minimise le majorant du risque donné en (1.11). Posons ψ(h) =
C1 2 2β
nh + C2 h ; la valeur optimale h∗n est celle qui minimise ψ(h), elle vérifie ψ ′ (h∗n ) = 0. Cela revient

C1
− + 2βC22 (h∗n )2β−1 = 0,
n(h∗n )2
 1
 2β+1
1
2 ∗ 2β+1
ce qui équivaut à 2βC2 (hn ) C1 ∗
= n . D’où hn = 2βC 2 C1
n− 2β+1 .
2

ii) En reportant le résultat obtenu ci-dessus dans (1.11), on obtient


 1
− 2β+1  12β
 2β+1
C1 2β
− 2β+1 C1 2β 2β
MSE(x0 ) ≤ C1 n + C22 n− 2β+1 = Kn− 2β+1 .
2βC22 2βC22

1.2.3 Propriétés globales


Pour étudier la qualité de l’estimateur à noyau non plus ponctuellement, mais globalement, on va
considérer le risque quaratique intégré défini par
Z Z Z
MISE = MSE(x) dx = σ (x) dx + b2 (x) dx.
2
(1.12)
R R R
1.2. ESTIMATEUR À NOYAU 17

Nous allons étudier séparément l’intégrale de la variance et celle du carré du biais, puis en déduire
l’étude du MISE.

Proposition 1.2.5. On suppose que le noyau K vérifie :


Z
K 2 (t) dt < +∞.
R

Alors, pour tous h > 0 et n ≥ 1, on a


Z
C3
σ 2 (x) dx ≤ , (1.13)
R nh

où C3 = R K 2 (t) dt.


R

Preuve. Puisque
    
X1 − x u−x
Z
1 1
σ 2 (x) ≤ E K 2
= K 2
f (u) du,
nh2 h nh2 R h

il vient
Z Z   
u−x
Z
1
σ 2 (x) dx ≤ K 2
f (u) du dx
R nh2 R R h
Z   
u−x
Z
1 2
= f (u) K dx du.
nh2 R R h

u−x
En posant t = h , on obtient
Z Z Z 
2 1 2
σ (x) dx ≤ f (u) K (t) dt du
R nh R R
Z Z 
1
= f (u) du K 2 (t) dt
nh
Z R R
1 2
= K (t) dt.
nh R

Pour étudier le terme du biais, on a besoin que f et K appartienne à une classe de fonctions qui
va être à présent définie.

.
Définition 1.2.5. Soient β et L des réels strictement positifs. On pose ℓ = ⌊β⌋. La classe de
Nikol’ski H(β, L) est l’ensemble des fonctions φ : R → R dérivables jusqu’à l’ordre ℓ et telles la
dérivée ℓ-ième φ(ℓ) vérifie :
Z  2 1/2
φ(ℓ) (x + t) − φ(ℓ) (x) dx ≤ L|t|β−ℓ . (1.14)
R

L’inégalité de Minkowski généralisée, définie dans le lemme suivant, sera également utile.
18 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

Lemme 1.2.1. Soit g : R × R → R une fonction borélienne. Alors


Z Z 2 Z Z 1/2 2
2
g(u, x) du dx ≤ g (u, x) dx du . (1.15)
R R R R

On peut maintenant obtenir une borne pour l’intégrale du carré du biais.

Proposition 1.2.6. On suppose que f ∈ H(β, L) où β > 0 et L > 0 , et que le noyau K est
d’ordre ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
Alors, pour tous h > 0 et n ≥ 1, on a
Z
b2 (x) dx ≤ C22 h2β , (1.16)
R
L
|t|β |K(t)| dt.
R
où C2 = ℓ! R
Preuve. En utilisant (1.10) on a
Z
b(x) = (f (x + ht) − f (x)) K (t) dt. (1.17)
R

La formule de Taylor avec reste intégrale donne :


ℓ 1
f (j) (x) hℓ tℓ
X Z
f (x + ht) − f (x) = hj tj + (1 − u)ℓ−1 f (ℓ) (x + uht) du;
j=1
j! (ℓ − 1)! 0

de (1.17) il vient donc


ℓ Z 1
f (j) (x) hℓ
X Z Z 
b(x) = hj tj K (t) dt + tℓ K(t) (1 − u)ℓ−1 f (ℓ) (x + uht) du dt.
j=1
j! R (ℓ − 1)! R 0

Puisque K vérifie (1.8) on obtient


Z 1
hℓ
Z 
b(x) = tℓ K(t) (1 − u)ℓ−1 f (ℓ) (x + uht) du dt
(ℓ − 1)! R 0
Z 1 Z 1
hℓ hℓ
Z  Z
ℓ ℓ−1 (ℓ) ℓ
= t K(t) (1 − u) f (x + uht) du dt − t K(t) dt × (1 − u)ℓ−1 f (ℓ) (x) du
(ℓ − 1)! R 0 (ℓ − 1)! R 0
Z 1
hℓ
Z   
ℓ ℓ−1 (ℓ) (ℓ)
= t K(t) (1 − u) f (x + uht) − f (x) du dt;
(ℓ − 1)! R 0

en utilisant deux fois l’inégalité (1.15), il vient


Z 1   2
h2ℓ
Z Z Z 
b2 (x) dx = t ℓ
K(t) (1 − u)ℓ−1
f (ℓ)
(x + uht) − f (ℓ)
(x) du dt dx
R ((ℓ − 1)!)2 R R 0
Z 1  2 1/2 2
h2ℓ
Z Z 
2ℓ 2 ℓ−1 (ℓ) (ℓ)
≤ t K (t) (1 − u) f (x + uht) − f (x) du dx dt
((ℓ − 1)!)2 R R 0
Z Z 1 2 1/2  2
h2ℓ
Z 
ℓ 2ℓ−2 (ℓ) (ℓ)
≤ |t| |K(t)| (1 − u) f (x + uht) − f (x) dx du dt
((ℓ − 1)!)2 R 0 R
1.2. ESTIMATEUR À NOYAU 19

Puisque f vérife (1.14), il vient


Z  2 1/2
(ℓ) (ℓ)
f (x + uht) − f (x) dx ≤ L uβ−ℓ hβ−ℓ |t|β−ℓ .
R

Donc
1  2
h2ℓ
Z Z Z
2
b (x) dx ≤ L2 ℓ
|t| |K(t)|(1 − u) ℓ−1 β−ℓ
u h β−ℓ β−ℓ
|t| du dt
R ((ℓ − 1)!)2 R 0
1  2
h2β
Z Z
≤ L2 β
|t| |K(t)|(1 − u) ℓ−1
du dt
((ℓ − 1)!)2 R 0
2ℓ
Z 2  Z 1 2
h
= L2 |t|β |K(t)| dt (1 − u)ℓ−1 du .
((ℓ − 1)!)2 R 0

Et comme 1
1
(1 − u)ℓ
Z 
ℓ−1 1
(1 − u) du = − = ,
0 ℓ 0 ℓ
il vient
2
h2β 2
Z Z
2 β
b (x) dx ≤ L |t| |K(t)| dt .
R (ℓ!)2 R

De (1.13) et (1.20), on obtient la proposition suivante qui indique le comportement asymptotique


du risque quadratique intégré.

Proposition 1.2.7. On suppose que f est bornée et appartient à H(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
2
K (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R

Alors, pour tous h > 0 et n ≥ 1, on a

C3
MISE ≤ + C22 h2β . (1.18)
nh

Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MISE tend vers 0 lorsque n → +∞. Tout comme cela avait été fait pour le risque
quadratique, la fenêtre optimale et la vitesse de convergence correspondante du MISE peuvent être
déterminées. Par un raisonnement identique à celui adopté pour le risque quadratique, on obtient :

Proposition 1.2.8. Sous les conditions de la Proposition 1.2.7 :


 1
 2β+1
1
∗ C3
i) La fenêtre optimale est donnée par hn = 2βC 2 n− 2β+1 .
2
 2β

ii) La vitesse de convergence du risque quadratique intégré est donnée par MISE= O n− 2β+1 .
20 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

1.2.4 Choix optimal de la fenêtre par validation croisée


Les valeurs optimales de la fenêtre obtenues ci-dessus ne sont pas utiles en pratique car elles ne
peuvent être calculées vu qu’elles dépendent de constantes qui, elles mêmes, dépendent de la densité
inconnue, éventuellent via β. Il y a donc nécessité de rechercher une autre méthode permettant
de déterminer une fenêtre optimale. Une première idée est de déterminer h qui minimise le MISE,
mais cette approche est, elle aussi, impraticable car le MISE dépend de la densité. Il convient alors
de déterminer un estimateur sans biais du MISE, puis d’opérer comme choix de fenêtre celle qui
minimise cet estimateur. Remarquons tout d’abord que
Z  
MISE(h) = E (fbn (x) − f (x))2 dx
R
Z 
= E (fbn (x) − f (x))2 dx
 ZR Z  Z
= E fbn2 (x) dx − 2 fbn (x)f (x) dx + f 2 (x) dx. (1.19)
R R R
2
R
Puisque R
f (x) dx ne dépend pas de h, minimiser MISE(h) équivaut à minimer J(h) où
Z Z  Z
J(h) = E fbn2 (x) dx − 2 fbn (x)f (x) dx = MISE(h) − f 2 (x) dx.
R R R

Nous allons, en fait, déterminer un estimateur sans biais de J(h) par la méthode de validation
croisée, et c’est cet estimateur qui devra être minimisé. Pour i ∈ {1, · · · , n}, on considère
n  
1 X Xj − x
fn,−i (x) =
b K
(n − 1)h j=1 h
j̸=i

et Z n
2Xb
CV
d (h) = fbn2 (x) dx − fn,−i (Xi ).
R n i=1
On a alors :

Proposition 1.2.9. On suppose que :


 
t−x
Z Z
f 2 (x) dx < +∞ et K f (t) f (x) dt dx < +∞.
R R2 h
Alors, pour tout h > 0, on a
  Z
E CV (h) = J(h) = MISE(h) − f 2 (x) dx.
d (1.20)
R

Preuve. On a d’une part :


!  
n n  
2Xb   2 X Xj − X1 
E fn,−i (Xi ) = 2E fbn,−1 (X1 ) = E K
n i=1 (n − 1)h j=2
h
  
2 X2 − X1
= E K
h h
 
t−x
Z
2
= K f (t) f (x) dt dx.
h R2 h
1.3. ESTIMATION PAR PROJECTION 21

Et, d’autre part


 Z  n Z   !
2 X Xi − x
E 2 fn (x)f (x) dx
b = E K f (x) dx
R nh i=1 R h
Z   
2 X1 − x
= E K f (x) dx
h R h
 
t−x
Z
2
= K f (t) f (x) dt dx.
h R2 h

Donc !
n  Z 
2Xb
E fn,−i (Xi ) = E 2 fn (x)f (x) dx
b
n i=1 R

et, par conséquent :


Z n  !
  2Xb
E CV
d (h) = E fbn2 (x) dx
−E fn,−i (Xi )
R n i=1
Z   Z 
2
= E fn (x) dx − E 2 fn (x)f (x) dx
b b
ZR Z
R

2
= E fn (x) − fn (x)f (x) dx
b b
R R
= J(h).

Le choix optimal de la fenêtre s’opère donc par une minimisation de CV


d (h). Plus précisement, on
détermine hCV qui vérifie :
b
hCV = arg min CV
b d (h).
h>0

1.3 Estimation par projection


1.3.1 Définition
On suppose ici que la densité f appartient à L2 (I) où I ⊂ R. Cet espace est un espace de Hilbert
séparable pour le produit scalaire défini par
Z
⟨f, g⟩ = f (x) g(x) dx.
I

Il existe donc une base orthonormée {ϕj }j∈N∗ de L2 (I), et f s’écrit sous la forme
+∞
X
f= θ j ϕj (1.21)
j=1

où Z
θj = ⟨f, ϕj ⟩ = ϕj (x) f (x) dx = E (ϕj (X)) , (1.22)
I
22 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

X étant une v.a. de densité f .

L’estimation par projection consiste à estimer une approximation de f obtenue par projection
orthogonale de cette fonction sur le sous-espace enfendré par {ϕj }1≤j≤J pour D fixé assez grand.
PD
Cette approximation fD s’exprimant sous la forme fD = j=1 θj ϕj , on voit que son estimation
se ramène à celle des coefficients θj . Puisque, d’après (1.22), ces coefficients sont des espérances
mathématiques, on peut les estimer par les moyennes empiriques correspondantes. Cela conduit à
la définition suivante :

Définition 1.3.1. On appelle estimateur par projection l’estimateur fbnD défini par
D n
X 1X
fbnD (x) = θbj ϕj (x), où θbj = ϕj (Xi ). (1.23)
j=1
n i=1

L’entier D est appellé dimension de l’estimateur.


 
Remarquons que θbj est un estimateur sans biais de θj car E θbj = θj , et que sa variance est :
   
  1 1 2 1
E ϕ2j (X1 ) − E (ϕj (X1 )) E ϕ2j (X1 ) − θj2 .
 
V ar θbj = V ar (ϕj (X1 )) = = (1.24)
n n n

1.3.2 Choix optimal de la dimension


Comme dans le cas de la fenêtre d’un estimateur à noyau, on va rechercher une valeur du paramètre
D, calculable à partir de l’échantillon, et qui minimise le risque quadratique intégré. Il convient,
tout d’abord, d’expliciter ce risque qui est défini par
Z  2 
MISE(D) = E fbnD (x) − f (x) dx. (1.25)
I

Proposition 1.3.1. On a :
D D Z
1X  n+1X
MISE(D) = E ϕ2j (X) − θ2 + f 2 (x) dx. (1.26)
n j=1 n j=1 j I

Preuve. Comme en (1.19) on a


Z Z  Z
2
MISE(D) = E fbnD (x) dx − 2 fbnD (x)f (x) dx + f 2 (x) dx. (1.27)
I I I

Or
Z    D
X  XD  
2
E fbnD (x) dx = E ∥fbnD ∥2 = E θbj2 = E θbj2
I j=1 j=1
D   D  
X   1 X
V ar θbj + θj2 E ϕ2j (X1 ) + (n − 1)θj2

= =
j=1
n j=1
1.3. ESTIMATION PAR PROJECTION 23

et
 
Z    D X
X +∞  XD D
X   XD
E fbnD (x)f (x) dx = E ⟨fbnD , f ⟩ = E θbj θℓ δjℓ = E  θbj θj  = E θbj θj = θj2 .
I j=1 ℓ=1 j=1 j=1 j=1

De (1.27) il vient :

D   D Z
1X X
E ϕ2j (X1 ) + (n − 1)θj2 − 2 θj2 + f 2 (x) dx

MISE(D) =
n j=1 j=1 I

D D Z
1X  n+1X 2
= E ϕ2j (X) − θ + f 2 (x) dx.
n j=1 n j=1 j I

Remarque 1.3.1. La formule (1.25) permet une majoration du MISE. En effet, puisque − n+1
n ≤
−1, et
Z +∞
X
f 2 (x) dx = ∥f ∥2 = θj2 ,
I j=1

il vient
D D +∞
1X  X X
MISE(D) ≤ E ϕ2j (X) − θj2 + θj2 ,
n j=1 j=1 j=1

c’est à dire
D +∞
1X X
E ϕ2j (X) + θj2 .

MISE(D) ≤ (1.28)
n j=1
j=D+1

Puisque I f 2 (x) dx ne dépend pas de D, la formule (1.25) montre que minimiser MISE(D) équivaut
R

à minimer J(D) où


Z D D
2 1X  n+1X 2
J(D) = MISE(D) − f (x) dx = E ϕ2j (X) − θ .
I n j=1 n j=1 j

Nous allons, en fait, déterminer un estimateur sans biais de J(D), et c’est cet estimateur qui devra
être minimisé. On a :

Proposition 1.3.2. L’estimateur :

D  n 
1 X 2X 2
J(D)
b = ϕj (Xi ) − (n + 1)θbj2
n − 1 j=1 n i=1

est un estimateur sans biais de J(D).


24 CHAPITRE 1. ESTIMATION DE LA DENSITÉ

Preuve.
  D  n    
1 X 2X
E J(D)
b = E ϕj (Xi ) − (n + 1)E θbj2
2
n − 1 j=1 n i=1
D     
1 X 2
 
2
= 2E ϕj (X1 ) − (n + 1) V ar θj + θj
b
n − 1 j=1
D    
1 X n+1  n+1 2
= 2E ϕ2j (X1 ) − E ϕ2j (X1 ) + θj − (n + 1)θj2
n − 1 j=1 n n
D    
1 X n−1 (n − 1)(n + 1) 2
= E ϕ2j (X1 ) − θj
n − 1 j=1 n n
D D
1X  n+1X
= E ϕ2j (X) − θ2
n j=1 n j=1 j
= J(D).

Le choix optimal de la dimension s’opère donc par une minimisation de J(D).


b Plus précisement,

on détermine D qui vérifie :
b
Db ∗ = arg min J(D).
b
D≥1

1.3.3 Cas de la base trigonométrique


On suppose ici que I = [0, 1] ; on considère alors la base trigonométrique {ϕj }j∈N∗ de L2 ([0, 1])
définie par
√ √
ϕ1 (x) = 1, ϕ2k (x) = 2 cos (2πkx) , ϕ2k+1 (x) = 2 sin (2πkx) , k ∈ N∗ .

Dans ce cas, on a pour tout j ∈ N∗ et tout x ∈ [0, 1], ϕ2 (x) ≤ 2. Ainsi, (1.28) implique
+∞
2D X
MISE(D) ≤ + θj2 .
n
j=D+1

Cette inégalité montre que si D = Dn est une suite croissante telle que limn→+∞ Dn = +∞ et
P+∞
limn→+∞ Dnn = 0, alors MISE(Dn ) tend vers 0 lorsque n → +∞ puisque limn→+∞ j=Dn +1 θj2 = 0
P+∞
vu que la série j≥1 θj2 converge.

1.3.4 Estimateur par ondelettes


On suppose ici que f ∈ L 2 (R). On considr̀e le produit scalaire de L 2 (R) défini par
Z
⟨f, g⟩ = f (x) g(x) dx.
R

Soit φ ∈ L (R) une ondelette père et ψ l’ondelette mère associée ; ce sont des fonctions de R vers
2

R vérifiant :
1.3. ESTIMATION PAR PROJECTION 25

• le système {φk , k ∈ Z}, avec φk (x) = φ(x − k), est un système orthonormé ; on note V0 le
sous-espace de L 2 (R) engendré par ce système.
• Pour tout j ∈ Z, le système {ψjk , k ∈ Z},avec ψjk (x) = 2j/2 ψ(2j x − k), est un système
orthonormé, et le sous-espace de L 2 (R) qu’il engendre est noté Wj .
L+∞
• L 2 (R) = V0 ⊕ j=0 Wj .
Alors φk , ψjk / (j, k) ∈ Z2 est une base orthonormée de L 2 (R), et f peut sécrire sous la forme :


X XX
f (x) = αk φk (x) + γjk ψjk (x),
k∈Z j∈Z k∈Z

où Z Z
αk = f (x)φk (x) dx et γjk = f (x) ψjk (x) dx.
R R

L’estimateur par ondelettes de f est alors défini par :


jn X
(n) (n)
X X
fbn (x) = α
bk φk (x) + γ
bjk ψjk (x), (1.29)
k∈Z j=0 k∈Z

où
n n
(n) 1X (n) 1X
α
bk = φk (Xi ) , γ
bjk = ψjk (Xi ) .
n i=1 n i=1

et (jn )n∈N est une suite croissante d’entiers telle que jn ↗ +∞ lorsque n → +∞.

Exemple 1.3.1. Ondelettes de Haar. Elles sont définies par les ondelettes père et mère données
par
φ = 1I[0,1[ et ψ = 1I[1/2,1[ − 1I[0,1/2] .
26 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
Chapitre 2

Estimation de la fonction de
régression

Dans ce chapitre, nous allons considérer l’estimation de la fonction de régression. Soit le modl̀e de
régression
Y = r(X) + ε (2.1)
où Y et X sont des v.a. rélles, ε est une v.a. réelle centrée et de variance ν 2 , indépendante de X, et
r est une fonction inconnue qui établit une lien entre X et Y . Remarquons que si (2.1) est vérifié,
on a    
E Y X = E r(X) X + E ε X = E r(X) X = r(X);
donc 
r(x) = E Y X = x . (2.2)

On veut estimer r sur la base d’un échantillon i.i.d. (X1 , Y1 ), · · · , (Xn , Yn ) de (X, Y ).

2.1 Estimateur à noyau


2.1.1 Définition

Définition 2.1.1. Soit K un noyau ; on appelle estimateur à noyau, ou encore estimateur de


Nadaraya-Watson de r, l’estimateur rbn défini par
Pn
Yi K Xih−x

rbn (x) = Pi=1 n Xi −x
 . (2.3)
i=1 K h

Le réel h est appellé fenêtre de l’estimateur.

Remarque 2.1.1. La formule (2.3) provient de l’expression de l’espérance conditionnelle en (2.2)


en fonction des densités et de la définition de l’estimateur de Parzen Rosenblatt. En effet, si (X, Y )
admet une densité f(X,Y ) on sait que la densité de Y conditionnelle à {X = x} est donnée par

f(X,Y ) (x, y)
fY |X=x (y) = ,
fX (x)

27
28 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION

où fX est la densité de X. Donc


R
f(X,Y ) (x, y) yf(X,Y ) (x, y) dy
Z Z
r(x) = yfY |X=x (y) dy = y dy = R . (2.4)
R R fX (x) fX (x)

Pour estimer r on peut remplacer chaque densité présente en (2.4) par son estmateur à noyau.
Ainsi, on remplace fX (x) par
n  
1 X Xi − x
fbn,X (x) = K
nh i=1 h

et f(X,Y ) (x, y) par


n    
1 X Xi − x Yi − y
fn,XY (x, y) =
b K K ,
nh2 i=1 h h
R
où K est un noyau tel que R tK (t) dt = 0. Ceci donne
Pn  
1 Xi −x Yi −y
R
nh 2 i=1 K h R
yK h dy
rbn (x) = 1
Pn Xi −x
 ;
nh i=1 K h

en effectuant le changement de variable t = Yih−y , il vient


 
Yi − y
Z Z Z Z
yK dy = h (Yi − ht)K (t) dt = hYi K (t) dt − h tK (t) dt = hYi .
R h R R R

D’où Pn
Yi K Xih−x

rbn (x) = Pi=1
n Xi −x
 .
i=1 K h

2.1.2 Propriétés globales


On va considérer le risque quaratique intégré défini par
Z Z
2
MISE = σ (x) dx + b2 (x) dx,
R R

2
où σ (x) = V ar (b rn (x)) − r(x). Pour simplifier les calculs, on se place dans le
rn (x)) et b(x) = E (b
cas où les Xi sont de loi uniforme sur [0, 1]. Dans ce cas fX est constante et égale à 1 sur [0, 1] et
(2.4) devient Z
r(x) = yf(X,Y ) (x, y) dy,
R
ce qui conduit à l’estimateur
n  
1 X Xi − x
rbn (x) = Yi K .
nh i=1 h

Le MISE peut alors être explicité par


Z 1 Z 1
2
MISE = σ (x) dx + b2 (x) dx. (2.5)
0 0
2.1. ESTIMATEUR À NOYAU 29

Proposition 2.1.1. On suppose que r est bornée et que le noyau K vérifie :


Z
K 2 (t) dt < +∞.
R

Alors, pour tous h > 0 et n ≥ 1, on a


Z 1
C4
σ 2 (x) dx ≤ , (2.6)
0 nh

où C4 = (ν 2 + ∥r∥2∞ ) R K 2 (t) dt.


R

Preuve.
     
1 X1 − x 1 X1 − x
σ 2 (x) ≤ E Y 1
2 2
K = E (r(X 1 ) + ε 1 ) 2 2
K
nh2 h nh2 h
        
1 2 2 X1 − x 1 2 2 X1 − x 2 2 X1 − x
= E r (X 1 )K + E ε1 K + E ε1 r(X1 )K .
nh2 h nh2 h nh2 h

Puisque      
X1 − x X1 − x
E ε1 r(X1 )K 2 = E (ε1 ) E r(X1 )K 2 = 0,
h h
        
X1 − x X1 − x X1 − x
E ε21 K 2 = E ε21 E K 2 = ν2E K 2

h h h
 
u−x
Z
= ν2 K2 fX (u) du
R h
Z
= ν 2 h K 2 (t) fX (x + ht) dt
ZR
≤ ν 2 h K 2 (t) dt
R

et
    
X1 − x u−x
Z
2 2 2 2
E r (X1 )K = r (x)K fX (u) du
h R h
Z
= h r2 (x + th)K 2 (t) fX (x + ht) dt
R
Z
≤ h∥r∥2∞ K 2 (t) dt,
R

il vient
1
ν 2 + ∥r∥2∞
Z Z
σ 2 (x) dx ≤ K 2 (t) dt.
0 nh R

On peut également obtenir une borne pour l’intégrale du carré du biais.


30 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION

Proposition 2.1.2. On suppose que r ∈ Σ(β, L) où β > 0 et L > 0 , et que le noyau K est
d’ordre ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
Alors, pour tous h > 0 et n ≥ 1, on a
Z 1
b2 (x) dx ≤ C12 h2β . (2.7)
0
Preuve.
n   
1 X Xi − x
b(x) = E Yi K − r(x)
nh i=1 h
  
1 X1 − x
= E Y1 K − r(x)
h h
 
u−x
Z Z
1
= yK f(X,Y ) (u, y) du dy − r(x)
h h
u−x
En posant t = h dans cette intégrale, il vient
Z Z
b(x) = yK (t) f(X,Y ) (x + ht, y) dt dy − r(x)
Z Z 
= K (t) yf(X,Y ) (x + ht, y) dy dt − r(x).
R R

Utilisant (2.4), on obtient


Z
b(x) = K (t) r(x + ht) dt − r(x).
ZR Z
= K (t) r(x + ht) dt − r(x) K (t) dt
ZR R

= (r(x + ht) − r(x)) K (t) dt. (2.8)


R

La formule de Taylor assure l’existence de τ ∈]0, 1[ tel que



X r(j) (x) hℓ tℓ (ℓ)
r(x + ht) − r(x) = hj tj + r (x + τ ht);
j=1
j! ℓ!

de (2.8) il vient donc



r(j) (x) hℓ
X Z Z
b(x) = hj tj K (t) dt + tℓ K(t)r(ℓ) (x + τ ht) dt.
j=1
j! R ℓ! R

Donc
hℓ
Z
b(x) = tℓ K(t)r(ℓ) (x + τ ht) dt
ℓ! R
hℓ hℓ (ℓ)
Z Z
= t K(t)r (x + τ ht) dt − r (x) tℓ K(t) dt
ℓ (ℓ)
ℓ! R ℓ! R
ℓ Z
 
h
= tℓ K(t) r(ℓ) (x + τ ht) − r(ℓ) (x) dt;
ℓ! R
2.2. ESTIMATION PAR POLYNÔMES LOCAUX 31

d’où
hℓ
Z
|b(x)| ≤ |t|ℓ |K(t)| |r(ℓ) (x + τ ht) − r(ℓ) (x)| dt.
ℓ! R

Puisque r vérife (1.7), il vient

hβ β−ℓ
Z Z
L
|b(x)| ≤ L τ |t|β |K(t)| dt ≤ |t|β |K(t)| dt hβ = C2 hβ .
ℓ! R ℓ! R

Donc Z 1
b2 (x) dx ≤ C22 h2β .
0

De (2.5), (2.6) et (2.7), on obtient la proposition suivante qui indique le comportement asympto-
tique du risque quadratique intégré.

Proposition 2.1.3. On suppose que r est bornée et appartient à Σ(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
K 2 (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R

Alors, pour tous h > 0 et n ≥ 1, on a


C4
MISE ≤ + C22 h2β . (2.9)
nh

Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MISE tend vers 0 lorsque n → +∞. La fenêtre optimale et la vitesse de convergence
correspondante du MISE peuvent être déterminées. On obtient :

Proposition 2.1.4. Sous les conditions de la Proposition 2.1.3 :


 1
 2β+1
1
∗ C4
i) La fenêtre optimale est donnée par hn = 2βC 2 n− 2β+1 .
2
 2β

ii) La vitesse de convergence du risque quadratique intégré est donnée par MISE= O n− 2β+1 .

2.2 Estimation par polynômes locaux


2.2.1 Définition
L’estimateur de Nadaraya-Watson est un cas particulier d’estimation par polynômes locaux. En
effet, cette méthode d’estimation est définie par une généralisation de la propriété suivante :

Proposition 2.2.1. L’estimateur rbn de Nadaraya-Watson associé à un noyau strictement positif


K vérifie : Xn   
Xi − x 2
rbn (x) = arg min K (Yi − θ) . (2.10)
θ∈R
i=1
h
32 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION

Preuve. Soit le polynôme de second degré


n  
X Xi − x 2
p(θ) = K (Yi − θ) .
i=1
h

On a
n   ( n   n  )

X Xi − x X Xi − x X Xi − x
p (θ) = −2 K (Yi − θ) = 2 θ K − Yi K (2.11)
i=1
h i=1
h i=1
h

et
n  
′′
X Xi − x
p (θ) = 2 K > 0.
i=1
h

Donc p(θ) est minimal en θ(x)


b qui vérifie p′ (θ(x))
b = 0. De (2.11) on obtient θ(x)
b = rbn (x). □

L’estimateur par polynôme local s’obtient en généralisant (2.10) par utilisation d’un polynôme de
degré supérieur à 2 en θ. Cela donne :

Définition 2.2.1. Soient K un noyau positif, ℓ ∈ N et h > 0. On définit, pour x ∈ R, :


n
X   ℓ  k 2 
Xi − x X θk Xi − x
θ(x)
b = argminθ=(θ0 ,··· ,θℓ )∈Rℓ+1 K Yi − . (2.12)
i=1
h k! h
k=0

Posant θ(x)
b = (θb0 (x), · · · , θbℓ (x)), l’estimateur par polynôme local d’ordre ℓ de r est donné par

rbn(ℓ) (x) = θb0 (x). (2.13)

Remarque 2.2.1. L’estimateur de Nadaraya-Watson est retrouvé comme cas particulier en pre-
nant ℓ = 0.

2.2.2 Calcul de l’estimateur


La fonction à minimiser définie en (2.12) peut s’écrire comme un critère des moindres carrés ; cela
facilite le calcul de l’estimateur donné en (2.13). Plus précisement, posant
 
Xi − x
wi (x) = K
h

et considérant les matrices


(X1 −x)ℓ
 
1 X1 − x · · ·
 
ℓ! w1 (x) 0 0 ··· 0
(X2 −x)ℓ 0 w2 (x) 0 ··· 0
 1 X2 − x · · ·
   
ℓ!

Xx =  et Wx =  ,
 
 .. .. .. ..
 .. .. .. .. ..
. . . . .

 . . . .   
1 Xn − x · · · (Xn −x)ℓ 0 0 0 ··· wn (x)
ℓ!

on a
2.2. ESTIMATION PAR POLYNÔMES LOCAUX 33

Proposition 2.2.2. Si la matrice XTx Wx Xx est inversible, alors l’estimateur par polynôme local
d’ordre ℓ de r vérifie :
n
X
rbn(ℓ) (x) = li (x)Yi (2.14)
i=1

où li (x) est la i-ème composante du vecteur l(x) donné par


−1
l(x) = Wx Xx XTx Wx Xx e1 ,

avec  
1
 0 
e1 =   ∈ Rℓ+1 .
 
..
 . 
0
Preuve. Le polynôme
n   ℓ  k 2 X n  ℓ  k 2
X Xi − x X θk Xi − x X θk Xi − x
p(θ) = K Yi − = wi (x) Yi −
i=1
h k! h i=1
k! h
k=0 k=0

peut être explicité comme un critère des moindres carrés. En effet, on a tout d’abord
ℓ  k
X θk Xi − x
Yi − = (Y − Xx a)i
k! h
k=0

où    
Y1 θ0
 Y2   θ1 
 h 
Y=  et a =  ..  = Vh θ,
 
..
 .   . 
θℓ
Yn hℓ
avec    
1 0 0 ··· 0 θ0
1
 0 h 0 ··· 0   θ1 
Vh =  et θ =  .
   
.. .. .. .. ..  ..
 . . . . .   . 
1
0 0 0 ··· hℓ
θℓ
Donc
n
X
p(θ) = wi (x)(Y − Xx Vh θ)2i = (Y − Xx Vh θ)T Wx (Y − Xx Vh θ)
i=1
= YT Wx Y − 2YT Wx Xx Vh θ + θT Vh XTx Wx Xx Vh θ,

et sa différentielle en un vecteur u ∈ Rℓ+1 est

Dp(θ)(u) = −2YT Wx Xx Vh u + 2θT Vh XTx Wx Xx Vh u.

L’estimateur θ(x)
b défini en (2.12) vérifie donc Dp(θ(x))(u)
b = 0 pour tout vecteur u ∈ Rℓ+1 , ce qui
donne
T
(θ(x))
b Vh XTx Wx Xx Vh u = YT Wx Xx Vh u, ∀u ∈ Rℓ+1
34 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION

et, par conséquent,


T
(θ(x))
b Vh XTx Wx Xx = YT Wx Xx
c’est à dire −1
Vh θ(x)
b = XTx Wx Xx XTx Wx Y.
De (2.13), il vient alors
n
−1 X
rbn(ℓ) (x) = θb0 (x) = eT1 Vh θ(x)
b = eT1 XTx Wx Xx XTx Wx Y = l(x)T Y = li (x)Yi .
i=1

2.3 Estimation par projection


2.3.1 Définition
On suppose ici que r appartient à L2 (I) où I = [0, 1]. Soit une base orthonormée {ϕj }j∈N∗ de
L2 (I) ; on a donc
+∞
X
r= θ j ϕj (2.15)
j=1

où Z
θj = ⟨r, ϕj ⟩ = ϕj (x) r(x) dx. (2.16)
I

PD
Pour D fixé assez grand, une approximation de r est rD = j=1 θj ϕj . Son estimation se ramène
à celle des coefficients θj . Cela conduit à la définition suivante :

Définition 2.3.1. On appelle estimateur par projection l’estimateur rbnD défini par
D n
X 1X
rbnD (x) = θbj ϕj (x), où θbj = Yi ϕj (Xi ). (2.17)
j=1
n i=1

L’entier D est appellé dimension de l’estimateur.

Remarque 2.3.1. Si on suppose que les Xi sont de loi uniforme sur [0, 1], alors θbj est un estimateur
sans biais de θj ; en effet
  Z Z
E θjb = E (Y1 ϕj (X1 )) = yϕj (x) f(X,Y ) (x, y) dx dy
Z Z 
= ϕj (x) y f(X,Y ) (x, y) dy dx.
I R

De (2.4) et (2.16), il vient :


  Z
E θbj = ϕj (x)r(x) dx = θj .
I

Sa variance est alors :


   
  1 1 2 2
 2 1 2 2
 2
V ar θj = V ar (Y1 ϕj (X1 )) =
b E Y1 ϕj (X1 ) − E (Y1 ϕj (X1 )) = E Y1 ϕj (X1 ) − θj .
n n n
2.3. ESTIMATION PAR PROJECTION 35

2.3.2 Propriétés globales


Considérons le risque quadratique intégré
Z  
2
MISE(D) = E (b rnD (x) − r(x)) dx. (2.18)
I

Proposition 2.3.1. On a :
D D Z
1X 2 2
 n+1X
MISE(D) = E Y ϕj (X) − θ2 + f 2 (x) dx
n j=1 n j=1 j I

D   +∞
1X 2 2
 2 X
≤ E r (X) + ν ϕj (X) + θj2 . (2.19)
n j=1
j=D+1

Preuve. Comme en (1.19) on a


Z Z  Z
2
MISE(D) = E rbnD (x) dx − 2 rbnD (x)r(x) dx + r2 (x) dx. (2.20)
I I I

Or
Z    D
X  XD  
2
E rbnD (x) dx rnD ∥2 = E
= E ∥b θbj2 = E θbj2
I j=1 j=1
D   D  
X   1 X
V ar θbj + θj2 Y12 ϕ2j (X1 ) 1)θj2

= = E + (n −
j=1
n j=1

et
 
Z    X +∞
D X  XD D
X   XD
E rbnD (x)r(x) dx = E ⟨b
rnD , r⟩ = E θbj θℓ δjℓ = E  θbj θj  = E θbj θj = θj2 .
I j=1 ℓ=1 j=1 j=1 j=1

De (2.20) il vient :
D   D Z
1X X
E Y12 ϕ2j (X1 ) + (n − 1)θj2 − 2 θj2 + r2 (x) dx

MISE(D) =
n j=1 j=1 I

D D Z
1X  n+1X
= E Y12 ϕ2j (X1 ) − θ2 + r2 (x) dx.
n j=1 n j=1 j I

Puisque − n+1
n ≤ −1, et
Z +∞
X
r2 (x) dx = ∥r∥2 = θj2 ,
I j=1

il vient
D D +∞ D +∞
1X  X X 1X X
E Y 2 ϕ2j (X) − θj2 + θj2 = E Y 2 ϕ2j (X) + θj2 .

MISE(D) ≤
n j=1 j=1 j=1
n j=1 j=D+1
36 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION

Or
 
2
E Y 2 ϕ2j (X) = E (r(X) + ε) ϕ2j (X) = E r2 (X)ϕ2j (X) + 2E εr(X)ϕ2j (X) + E ε2 ϕ2j (X)
   

= E r2 (X)ϕ2j (X) + 2E (ε) E r(X)ϕ2j (X) + E ε2 E ϕ2j (X)


   

= E r2 (X)ϕ2j (X) + ν 2 E ϕ2j (X)


 
 
= E r2 (X) + ν 2 ϕ2j (X) ;


donc
D   +∞
1X X
E r2 (X) + ν 2 ϕ2j (X) + θj2 .

MISE(D) ≤
n j=1
j=D+1

Remarque 2.3.2. Dans le cas de la base trigonométrique, si on suppose que r est bornée, l’inégalité
(2.19) implique
+∞
D X
MISE(D) ≤ ∥r∥2∞ + ν 2 + θj2 .
n
j=D+1

Cette inégalité montre que si D = Dn est une suite croissante telle que limn→+∞ Dn = +∞ et
limn→+∞ Dnn = 0, alors MISE(Dn ) tend vers 0 lorsque n → +∞.

2.4 Choix du paramètre de lissage


On doit choisir la fenêtre h pour l’estimateur à noyau et les estimateurs par polynômes locaux,
et la dimension D pour l’estimateur par projection. Une technique commune à ces différentes
méthodes pour déterminer une valeur optimale du paramètre est la validation croisée que nous
allons maintenant décrire. Notons λ le paramètre à choisir et rbn,λ l’estimateur de r associé à
ce paramètre. Pour avoir une meilleure estimation du risque, on doit construire son estimateur
avec des données qui n’ont pas été utilisées pour construire rbn,λ . Pour cela, on utilise la méthode
de validation croisée qui consiste à partitionner l’échantillon en V blocs notés B1 , · · · , BV . Soit
v : {1, · · · , n} → {1, · · · , V } telle que v(i) désigne le bloc auquel appartient la i-ème observation
(−k)
(Xi , Yi ) ; pour tout k ∈ {1, · · · , V }, on note rbn,λ l’etimateur obtenu en supprimant de l’échantillon
les données appartenant au bloc Bk . On a alors :

Définition 2.4.1. Le score de validation croisée V -fold est la quantité


n 2
1 X (−v(i))
R(λ)
b = Yi − rbn,λ (Xi ) .
n i=1

Un cas particulier est donnée par la validation croisée leave-one-out, obtenue quand on considère
n blocs réduits à une observation, et définie par :

Définition 2.4.2. Le score de validation croisée leave-one-out est la quantité


n 2
1 X (−i)
R(λ)
b = Yi − rbn,λ (Xi ) .
n i=1
2.4. CHOIX DU PARAMÈTRE DE LISSAGE 37

Le choix de λ s’opère alors par une minimisation de R(λ),


b c’est à dire qu’on détermine λ
b qui vérifie
 
λ
b = arg min R(λ)
b .
λ

Le calcul de R(λ)
b peut être long car on doit recalculer, pour chaque i de 1 à n l’estimateur de la
fonction de régression. Toutefois, il peut être amélioré dans certains cas. En effet, si l’estimateur
est de la forme
n
X
rbn,λ (x) = li (x) Yi , (2.21)
i=1
Pn
avec i=1 li (x) = 1, on a :

Proposition 2.4.1. Sous les hypothèses ci-dessus, le score de validation croisée leave-one-out est
égal à :
n  
1 X Yi − rbn,λ (Xi )
R(λ)
b = .
n i=1 1 − li (Xi )
Dans ce cas, le calcul est moins long car on ne calcule l’estimateur de r qu’une fois et on l’applique
ensuite aux différentes valeurs de l’échantillon.

Exemple 2.4.1. L’estimateur de Nadaraya-Watsdon a la forme (2.21) avec

K Xih−x

li (x) = P  .
n Xj −x
j=1 K
h
j̸=i
38 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION
Chapitre 3

Tests nonparamétriques

On appelle test non paramétrique un test qui fait intervenir un estimateur non paramétrique comme
statistique de test. A l’inverse de ce qui se passe dans le cas paramétrique, il n’existe pas de théorie
pour ces tests. Leur étude se résume donc à les étudier cas par cas. Dans le cadre de ce cours,
nous étudions deux tests d’ajustement basés sur la fonction de répartition empirique : le test de
Kolmogorov-Smirnov et le test de Cramer-von Mises. Ce sont deux tests d’ajustement, c’est à
dire qu’il permettent de tester l’égalité de la loi inconnue des observations à une loi donnée. Plus
précisement, soient X1 , · · · , Xn un échantillon i.i.d. dont la loi commune admet une fonction de
répartition F , et F0 la fonction de répartition d’une loi donnée. On veut tester les hypothèses

H 0 : F = F0 contre H1 : F ̸= F0 . (3.1)

On considère les statistiques d’ordres

X(1) ≤ X(2) ≤ · · · ≤ X(n) .

3.1 Test de Kolmogorov-Smirnov


Pour tester les hypothèses (3.1), le test de Kolmogorov-Smirnov consiste à prendre comme statis-
tique de tests la statistique  
Dn = sup Fbn (x) − F0 (x) , (3.2)
x∈R

où Fbn est la f.d.r. empirique définie en (1.2). Nous allons tout d’abord expliciter Dn .

Proposition 3.1.1. On suppose F et F0 continues. Alors :


 
j   j−1
Dn = max max − F0 X(j) , F0 X(j) − . (3.3)
1≤j≤n n n

Preuve. Comme en F est continue, presque sûrement, tous les Xi sont distintcs. Par conséquent,
X(1) < X(2) < · · · < X(n) et

 0 si x < X(1)
j
Fbn (x) = si x ∈ [X(j) , X(j+1) [, 1 ≤ j ≤ n − 1 . (3.4)
 n
1 si x ≥ X(n)

39
40 CHAPITRE 3. TESTS NONPARAMÉTRIQUES

On a  
Dn = max M0 , max (Mj ) , Mn (3.5)
1≤j≤n−1

où
     
M0 = sup Fbn (x)−F0 (x) , Mj = sup Fbn (x)−F0 (x) et Mn = sup Fbn (x)−F0 (x) .
x<X(1) x∈[X(j) ,X(j+1) [ x≥X(n)

Puisque F0 est croissante, on a


 

M0 = sup F0 (x) = F0 (X(1) ), Mn = sup 1 − F0 (x) = 1 − F0 (X(n) ),
x<X(1) x≥X(n)

et pour 1 ≤ j ≤ n − 1,  
j
Mj = sup − F0 (x) .
x∈[X(j) ,X(j+1) [ n
Or, pour une fonction croissante et continue f on a :
     

sup f (x) = max sup f (x), sup −f (x) = max sup f (x), − inf f (x) = max f (b), −f (a) .
a≤x<b a≤x<b a≤x<b a≤x<b a≤x<b

Appliquant ceci à la fonction croissante et continue F0 − nj , il vient


 
j j
Mj = max F0 (X(j+1) ) − , − F0 (X(j) ) .
n n
De (3.5) il vient
     
jj
Dn = max max F0 (X(j+1) ) − − F0 (X(j) ) , F0 (X(1) ), 1 − F0 (X(n) ) ;
, max
1≤j≤n−1 1≤j≤n−1 n n
(3.6)
or      
j j
max max − F0 (X(j) ) , 1 − F0 (X(n) ) = max − F0 (X(j) ) (3.7)
1≤j≤n−1 n 1≤j≤n n

et
    
  
j j−1
max max F0 (X(j+1) ) − , F0 (X(1) ) = max F0 (X(j) ) −
max , F0 (X(1) )
1≤j≤n−1 n 2≤j≤n n
 
j−1
= max F0 (X(j) ) − , (3.8)
1≤j≤n n
ce qui permet d’obtenir (3.5) à partir de (3.6) , (3.7) et (3.8) . □

La formule (3.5) permet un calcul pratique de la statistique de test. Pour réaliser le test, on a besoin
de sa loi asymptotique sous l’hypothèse nulle. Celle-ci est donnée dans la proposition suivante qui
est admise.

Proposition 3.1.2. Sous H0 , nDn converge en loi, lorsque n → +∞ vers une v.a. U dont la
loi est donnée par la f.d.r. :
+∞
2
x2
X
FU (x) = 1 − 2 (−1)k−1 e−2k . (3.9)
k=1
3.2. TEST DE CRAMER-VON MISES 41


Le test de niveau α ∈]0, 1[ de H0 contre H1 a alors pour région critique W = { nDn > qα }, où
FU (qα ) = α. Remarquons que la f.d.r. donnée en (3.9) n’a pas d’expression analytique explicite ;
par conséquent, qα ne peut être calculé explicitement par une inversion de FU . Cependant, la
loi correspondante, appelée loi de Kolmogorov-Smirnov est tabulée, ce qui permet d’obtenir les
quantiles qα .

3.2 Test de Cramer-von Mises

Le test de Cramer-von Mises consiste à prendre comme statistique de tests la statistique

Z +∞  2
wn2 = Fn (x) − F0 (x) dF0 (x).
b (3.10)
−∞

La formule donnée dans la proposition suivante donne une forme explicite de la statistique de test,
facilement calculable à partir de l’échantillon.

Proposition 3.2.1.
n  2
1 1X 2j − 1
wn2 =

2
+ − F0 X(j) . (3.11)
12n n j=1 2n

Preuve.

Z X(1)  2 n−1
XZ X(j+1)  2 Z +∞  2
wn2 = Fn (x)−F0 (x) dF0 (x)+
b Fn (x)−F0 (x) dF0 (x)+
b Fn (x)−F0 (x) dF0 (x).
b
−∞ j=1 X(j) X(n)

En utilisant (3.4), il vient :

Z X(1) n−1
X Z X(j+1)  2 Z +∞  2
j
wn2 = F02 (x) dF0 (x) + − F0 (x) dF0 (x) + 1 − F0 (x) dF0 (x)
−∞ j=1 X(j) n X(n)
 X(1) n−1
X  3 X(j+1)   3 +∞
1 3 1 j 1
= F (x) + − − F0 (x) + − 1 − F0 (x)
3 0 −∞ j=1
3 n X(j) 3 X(n)
n−1
X 3
1 3 1 j
= F (X(1) ) + − F0 (X(j) )
3 0 3 j=1
n
n−1
X 3  3
1 j 1
− − F0 (X(j+1) ) + 1 − F0 (X(n) ) . (3.12)
3 j=1
n 3
42 CHAPITRE 3. TESTS NONPARAMÉTRIQUES

D’autre part
n−1
Xj 3 n  3 n  3
X j−1 X j 1
− F0 (X(j+1) ) = − F0 (X(j) ) = − F0 (X(j) ) −
j=1
n j=2
n j=2
n n
n  3  2   
X j 3 j 3 j 1
= − F0 (X(j) ) − − F0 (X(j) ) + 2 − F0 (X(j) ) − 3
j=2
n n n n n n
n
X j   3 n  2
3X j
= − F0 (X(j) ) − − F0 (X(j) )
j=2
n n j=2 n
n  
3 X j n−1
+ 2 − F0 (X(j) ) −
n j=2 n n3
n−1
X 3  3  3
j 1
= − F0 (X(j) ) + 1 − F0 (X(n) ) − − F0 (X(1) )
j=1
n n
n  2 n  
3X j 3 X j n−1
− − F0 (X(j) ) + 2 − F0 (X(j) ) − .
n j=2 n n j=2 n n3

En remettant ceci dans (3.12) on obtient


 3 n  2 n  
1 3 1 1 1X j 1 X j n−1
wn2 = F0 (X(1) ) + − F0 (X(1) ) + − F0 (X(j) ) − 2 − F0 (X(j) ) +
3 3 n n j=2 n n j=2 n 3n3
n  2 n  
1 1 1 2 1X j 1 X j n−1
= 3
− 2
F 0 (X(1) ) + F 0 (X(1) ) + − F 0 (X(j) ) − 2
− F 0 (X(j) ) +
3n n n n j=2 n n j=2 n 3n3
n  2 n  
1 1 1 2 1X j 1 X j
= − 2 F0 (X(1) ) + F0 (X(1) ) + − F0 (X(j) ) − 2 − F0 (X(j) )
3n2 n n n j=2 n n j=2 n

Or
 2  2  
j j 1 1 j 1
− F0 (X(j) ) = − F0 (X(j) ) − + − F0 (X(j) ) − 2
n n 2n n n 4n
 2  
2j − 1 1 j 1
= − F0 (X(j) ) + − F0 (X(j) ) − 2 ,
2n n n 4n
donc
n  2 n  2 n  
1X j 1X 2j − 1 1 X j n−1
− F0 (X(j) ) = − F0 (X(j) ) + 2 − F0 (X(j) ) −
n j=2 n n j=2 2n n j=2 n 4n3

et
n  2
1 1 1 1X 2j − 1 n−1
wn2 = 2 − 2 F0 (X(1) ) + F02 (X(1) ) + − F0 (X(j) ) − .
3n n n n j=2 2n 4n3
Et comme
   2 
1 1 1 1 1 1 1
− 2 F0 (X(1) ) + F02 (X(1) ) = 2
− F0 (X(1) ) + F0 (X(1) ) = − F0 (X(1) ) − 2 ,
n n n n n 2n 4n
3.2. TEST DE CRAMER-VON MISES 43

on obtient finalement
 2 n  2
1 1 n−1 1 1 1 X 2j − 1
wn2 = − 3− + − F0 (X(1) ) + − F0 (X(j) )
3n2 4n 4n3 n 2n n j=2 2n
n  2
1 1 X 2j − 1
= + − F 0 (X(j) ) .
12n2 n j=1 2n

Pour réaliser le test, on a besoin de sa loi asymptotique sous l’hypothèse nulle. Celle-ci est donnée
dans la proposition suivante qui est admise.

P+∞ 3.2.2. Sous H0 , n wn converge en loi, lorsque n → +∞ vers une variable aléatoire
2
Proposition
U = k=1 λk Uk , où les λk sont des réels positifs et les Uk sont des v.a. indépendantes et de loi
χ21 .

Le test de niveau α ∈]0, 1[ de H0 contre H1 a alors pour région critique W = {n wn2 > qα }, où
FU (qα ) = α. où FU est la f.d.r de U .Elle n’a pas d’expression analytique explicite ; par conséquent,
qα ne peut être calculé explicitement. Cependant, la loi correspondante est tabulée, ce qui permet
d’obtenir les quantiles qα .

Vous aimerez peut-être aussi