Stat Non Par
Stat Non Par
MASTER DE MATHEMATIQUES
OPTION PROBABILITES-STATISTIQUE
par
Professeur Titulaire
1 Estimation de la densité 5
1.1 Estimateur de Rosenblatt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Propriétés ponctuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3 Propriétés globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.4 Choix optimal de la fenêtre par validation croisée . . . . . . . . . . . . . . . 20
1.3 Estimation par projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.2 Choix optimal de la dimension . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.3 Cas de la base trigonométrique . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.4 Estimateur par ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 Tests nonparamétriques 39
3.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Test de Cramer-von Mises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3
4 TABLE DES MATIÈRES
Chapitre 1
Estimation de la densité
Dans ce chapitre, nous allons introduire des méthodes permettant d’estimer une densité inconnue à
partir d’un échantillon i.i.d.. Une première estimation utilisant la fonction de répartition empirique
sera considérée, puis on se penchera sur l’estimation par la méthode du noyau et l’estimation par
projection pour lesquelles des propriétés seront ensuite établies. Dans tout ce qui suit on a un
échantillon i.i.d. X1 , · · · , Xn d’une v.a. réelle ayant une densité inconnue f , et on cherche à estimer
f.
On peut espérer avoir obtenu un bon estimateur de f car, on sait, par le théorème de Glivenko-
Cantelli, que Fbn converge presque sûrement uniformément vers F lorsque n → +∞, c’est à dire :
lim sup |Fn (x) − F (x)| = 0
b
n→+∞ x∈R
5
6 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
Le principal inconvénient de l’estimateur de Rosenblatt est qu’il est une fonction discontinue.
Ceci est un handicap puisqu’il est censé estimer une densité qui, dans la plupart des cas, est une
fonction continue. Cela se voit à travers les exemples suivants dans lesquels fbn est calculé sur
des données simulées provenant d’échantillons i.i.d. de la loi normale N (0, 1). Les figures 1.1 et
1.2 représentent la fonction fbn en noir et la densité de la loi N (0, 1) en rouge. Dans la figure 1.1
apparaı̂t clairement, pour h = 0.25, le caractère discontinu de fbn contrastant avec la continuité de
la densité de la loi N (0, 1) qu’il est censé estimer. Deux autres faits sont eǵalement mis en évidence
dans ces graphiques. Tout d’abord, l’estimation est meilleure à mesure que la taille de l’échantillon
est grande. Mais aussi, et surtout, l’influence de la fenêtre sur la qualité de l’estimation apparaı̂t
nettement. En effet, on observe une meilleure estimation pour h = 0.9 que pour h = 0.25. Ceci
pose le problm̀e du choix de la feneêtre qui garantit une bonne estimation de la densité.
1.1. ESTIMATEUR DE ROSENBLATT 7
0.6
0.5
0.4
0.3
y
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
t
0.6
0.5
0.4
0.3
y
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.1 – Estimation de la densité de la loi N (0, 1) par l’estimateur de Rosenblatt. n = 20.
h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
8 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
0.4
0.3
0.2
y
0.1
0.0
−3 −2 −1 0 1 2 3
t
0.4
0.3
0.2
y
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.2 – Estimation de la densité de la loi N (0, 1) par l’estimateur de Rosenblatt. n = 200.
h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
1.2.1 Définitions
Il s’agit donc d’améliorer l’estimateur de Rosenblatt par le choix d’un noyau qui conduise à de
meilleures propriétés de l’estimateur de la densité ainsi obtenu.
Les graphiques suivants présentent l’estimation de la densité de la loi N (0, 1), à partir de des
données simulées, par la méthode du noyau avec les noyaux d’Epanechnikov (figures 1.3 et 1.4)
et gaussien (figures 1.5 et 1.6). On voit que le problème de discontinuité de l’estimateur, qui
était inhérent à l’estimateur de Rosenblatt, n’apparaı̂t plus. Là aussi, on observe une meilleure
estimation à mesure que la taille d’échantillon est grande, et aussi l’influence du choix de la fenêtre
de l’estimateur qui avait déja été observée pour l’estimateur de Rosenblatt.
10 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
0.8
0.6
0.4
y
0.2
0.0
−3 −2 −1 0 1 2 3
t
0.4
0.3
y
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.3 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
d’Epanechnikov. n = 20. h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
1.2. ESTIMATEUR À NOYAU 11
0.4
0.3
y
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
t
0.4
0.3
0.2
y
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.4 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
d’Epanechnikov. n = 200. h = 0.25 pour le premier graphique et h = 0.9 pour le deuxième.
0.4
0.3
0.2
z
0.1
0.0
−3 −2 −1 0 1 2 3
t
0.3
0.2
y
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.5 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
gaussien. n = 20. h = 0.25 pour le premier graphique et h = 0.35 pour le deuxième.
0.4
0.3
0.2
z
0.1
0.0
−3 −2 −1 0 1 2 3
t
0.4
0.3
0.2
z
0.1
0.0
−3 −2 −1 0 1 2 3
Figure 1.6 – Estimation de la densité de la loi N (0, 1) par l’estimateur à noyau avec noyau
gaussien. n = 200. h = 0.25 pour le premier graphique et h = 0.35 pour le deuxième.
où σ 2 (x0 ) = V ar fbn (x0 ) est la variance de l’estimateur, et b(x0 ) = E fbn (x0 ) − f (x0 ) est le
biais. Nous allons étudier séparément la variance et le biais, puis en déduire l’étude du risque
quadratique.
14 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
Pour étudier le biais, on a besoin que f et K appartiennent à des classes de fonctions qui vont être
à présent définies.
.
Définition 1.2.3. Soient I un intervalle de R, β et L des réels strictement positifs. On pose
ℓ = ⌊β⌋. La classe de Hölder Σ(β, L) sur I est l’ensemble des fonctions φ : I → R dérivables
jusqu’à l’ordre ℓ et telles la dérivée ℓ-ième φ(ℓ) vérifie :
Définition 1.2.4. Soient ℓ ∈ N∗ et un noyau K. On dit que K est d’ordre ℓ si, pour tout
j ∈ {0, · · · , ℓ}, la fonction t 7→ tj K(t) est intégrable, et si :
Z
tj K(t) dt = 0, j = 1, · · · , ℓ. (1.8)
R
On a alors :
Proposition 1.2.2. On suppose que f ∈ Σ(β, L) où β > 0 et L > 0 , et que le noyau K est d’ordre
ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
1.2. ESTIMATEUR À NOYAU 15
|b(x0 )| ≤ C2 hβ , (1.9)
L
où C2 = ℓ! R |t|β |K(t)| dt.
R
Preuve. On a :
n
1 X Xi − x0
b(x0 ) = E K − f (x0 )
nh i=1 h
1 X1 − x0
= E K − f (x0 )
h h
u − x0
Z
1
= K f (u) du − f (x0 ).
h R h
u−x0
En posant t = h dans cette intégrale, il vient
Z
b(x0 ) = K (t) f (x0 + ht) dt − f (x0 )
ZR Z
= K (t) f (x0 + ht) dt − f (x0 ) K (t) dt
ZR R
hℓ
Z
b(x0 ) = tℓ K(t)f (ℓ) (x0 + τ ht) dt
ℓ! R
hℓ hℓ (ℓ)
Z Z
= t K(t)f (x0 + τ ht) dt − f (x0 ) tℓ K(t) dt
ℓ (ℓ)
ℓ! R ℓ! R
ℓ Z
h
= tℓ K(t) f (ℓ) (x0 + τ ht) − f (ℓ) (x0 ) dt;
ℓ! R
d’où
hℓ
Z
|b(x0 )| ≤ |t|ℓ |K(t)| |f (ℓ) (x0 + τ ht) − f (ℓ) (x0 )| dt.
ℓ! R
Puisque f vérife (1.7), il vient
hβ
Z Z
L
|b(x0 )| ≤ L τ β−ℓ β
|t| |K(t)| dt ≤ |t|β |K(t)| dt hβ .
ℓ! R ℓ! R
16 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
De (1.6) et (1.9), on obtient la proposition suivante qui indique le comportement du risque qua-
dratique.
Proposition 1.2.3. On suppose que f est bornée et appartient à Σ(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
K 2 (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R
C1
MSE(x0 ) ≤ + C22 h2β . (1.11)
nh
Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MSE(x0 ) tend vers 0 lorsque n → +∞. Cependant, on peut obtenir la fenêtre
optimale, c’est à dire celle qui conduit à une minimisation du risque quadratique, et en déduire la
vitesse de convergence correspondante de ce risque.
Nous allons étudier séparément l’intégrale de la variance et celle du carré du biais, puis en déduire
l’étude du MISE.
Preuve. Puisque
X1 − x u−x
Z
1 1
σ 2 (x) ≤ E K 2
= K 2
f (u) du,
nh2 h nh2 R h
il vient
Z Z
u−x
Z
1
σ 2 (x) dx ≤ K 2
f (u) du dx
R nh2 R R h
Z
u−x
Z
1 2
= f (u) K dx du.
nh2 R R h
u−x
En posant t = h , on obtient
Z Z Z
2 1 2
σ (x) dx ≤ f (u) K (t) dt du
R nh R R
Z Z
1
= f (u) du K 2 (t) dt
nh
Z R R
1 2
= K (t) dt.
nh R
□
Pour étudier le terme du biais, on a besoin que f et K appartienne à une classe de fonctions qui
va être à présent définie.
.
Définition 1.2.5. Soient β et L des réels strictement positifs. On pose ℓ = ⌊β⌋. La classe de
Nikol’ski H(β, L) est l’ensemble des fonctions φ : R → R dérivables jusqu’à l’ordre ℓ et telles la
dérivée ℓ-ième φ(ℓ) vérifie :
Z 2 1/2
φ(ℓ) (x + t) − φ(ℓ) (x) dx ≤ L|t|β−ℓ . (1.14)
R
L’inégalité de Minkowski généralisée, définie dans le lemme suivant, sera également utile.
18 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
Proposition 1.2.6. On suppose que f ∈ H(β, L) où β > 0 et L > 0 , et que le noyau K est
d’ordre ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
Alors, pour tous h > 0 et n ≥ 1, on a
Z
b2 (x) dx ≤ C22 h2β , (1.16)
R
L
|t|β |K(t)| dt.
R
où C2 = ℓ! R
Preuve. En utilisant (1.10) on a
Z
b(x) = (f (x + ht) − f (x)) K (t) dt. (1.17)
R
Donc
1 2
h2ℓ
Z Z Z
2
b (x) dx ≤ L2 ℓ
|t| |K(t)|(1 − u) ℓ−1 β−ℓ
u h β−ℓ β−ℓ
|t| du dt
R ((ℓ − 1)!)2 R 0
1 2
h2β
Z Z
≤ L2 β
|t| |K(t)|(1 − u) ℓ−1
du dt
((ℓ − 1)!)2 R 0
2ℓ
Z 2 Z 1 2
h
= L2 |t|β |K(t)| dt (1 − u)ℓ−1 du .
((ℓ − 1)!)2 R 0
Et comme 1
1
(1 − u)ℓ
Z
ℓ−1 1
(1 − u) du = − = ,
0 ℓ 0 ℓ
il vient
2
h2β 2
Z Z
2 β
b (x) dx ≤ L |t| |K(t)| dt .
R (ℓ!)2 R
Proposition 1.2.7. On suppose que f est bornée et appartient à H(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
2
K (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R
C3
MISE ≤ + C22 h2β . (1.18)
nh
Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MISE tend vers 0 lorsque n → +∞. Tout comme cela avait été fait pour le risque
quadratique, la fenêtre optimale et la vitesse de convergence correspondante du MISE peuvent être
déterminées. Par un raisonnement identique à celui adopté pour le risque quadratique, on obtient :
Nous allons, en fait, déterminer un estimateur sans biais de J(h) par la méthode de validation
croisée, et c’est cet estimateur qui devra être minimisé. Pour i ∈ {1, · · · , n}, on considère
n
1 X Xj − x
fn,−i (x) =
b K
(n − 1)h j=1 h
j̸=i
et Z n
2Xb
CV
d (h) = fbn2 (x) dx − fn,−i (Xi ).
R n i=1
On a alors :
Donc !
n Z
2Xb
E fn,−i (Xi ) = E 2 fn (x)f (x) dx
b
n i=1 R
Il existe donc une base orthonormée {ϕj }j∈N∗ de L2 (I), et f s’écrit sous la forme
+∞
X
f= θ j ϕj (1.21)
j=1
où Z
θj = ⟨f, ϕj ⟩ = ϕj (x) f (x) dx = E (ϕj (X)) , (1.22)
I
22 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
L’estimation par projection consiste à estimer une approximation de f obtenue par projection
orthogonale de cette fonction sur le sous-espace enfendré par {ϕj }1≤j≤J pour D fixé assez grand.
PD
Cette approximation fD s’exprimant sous la forme fD = j=1 θj ϕj , on voit que son estimation
se ramène à celle des coefficients θj . Puisque, d’après (1.22), ces coefficients sont des espérances
mathématiques, on peut les estimer par les moyennes empiriques correspondantes. Cela conduit à
la définition suivante :
Définition 1.3.1. On appelle estimateur par projection l’estimateur fbnD défini par
D n
X 1X
fbnD (x) = θbj ϕj (x), où θbj = ϕj (Xi ). (1.23)
j=1
n i=1
Proposition 1.3.1. On a :
D D Z
1X n+1X
MISE(D) = E ϕ2j (X) − θ2 + f 2 (x) dx. (1.26)
n j=1 n j=1 j I
Or
Z D
X XD
2
E fbnD (x) dx = E ∥fbnD ∥2 = E θbj2 = E θbj2
I j=1 j=1
D D
X 1 X
V ar θbj + θj2 E ϕ2j (X1 ) + (n − 1)θj2
= =
j=1
n j=1
1.3. ESTIMATION PAR PROJECTION 23
et
Z D X
X +∞ XD D
X XD
E fbnD (x)f (x) dx = E ⟨fbnD , f ⟩ = E θbj θℓ δjℓ = E θbj θj = E θbj θj = θj2 .
I j=1 ℓ=1 j=1 j=1 j=1
De (1.27) il vient :
D D Z
1X X
E ϕ2j (X1 ) + (n − 1)θj2 − 2 θj2 + f 2 (x) dx
MISE(D) =
n j=1 j=1 I
D D Z
1X n+1X 2
= E ϕ2j (X) − θ + f 2 (x) dx.
n j=1 n j=1 j I
Remarque 1.3.1. La formule (1.25) permet une majoration du MISE. En effet, puisque − n+1
n ≤
−1, et
Z +∞
X
f 2 (x) dx = ∥f ∥2 = θj2 ,
I j=1
il vient
D D +∞
1X X X
MISE(D) ≤ E ϕ2j (X) − θj2 + θj2 ,
n j=1 j=1 j=1
c’est à dire
D +∞
1X X
E ϕ2j (X) + θj2 .
MISE(D) ≤ (1.28)
n j=1
j=D+1
Puisque I f 2 (x) dx ne dépend pas de D, la formule (1.25) montre que minimiser MISE(D) équivaut
R
Nous allons, en fait, déterminer un estimateur sans biais de J(D), et c’est cet estimateur qui devra
être minimisé. On a :
D n
1 X 2X 2
J(D)
b = ϕj (Xi ) − (n + 1)θbj2
n − 1 j=1 n i=1
Preuve.
D n
1 X 2X
E J(D)
b = E ϕj (Xi ) − (n + 1)E θbj2
2
n − 1 j=1 n i=1
D
1 X 2
2
= 2E ϕj (X1 ) − (n + 1) V ar θj + θj
b
n − 1 j=1
D
1 X n+1 n+1 2
= 2E ϕ2j (X1 ) − E ϕ2j (X1 ) + θj − (n + 1)θj2
n − 1 j=1 n n
D
1 X n−1 (n − 1)(n + 1) 2
= E ϕ2j (X1 ) − θj
n − 1 j=1 n n
D D
1X n+1X
= E ϕ2j (X) − θ2
n j=1 n j=1 j
= J(D).
Dans ce cas, on a pour tout j ∈ N∗ et tout x ∈ [0, 1], ϕ2 (x) ≤ 2. Ainsi, (1.28) implique
+∞
2D X
MISE(D) ≤ + θj2 .
n
j=D+1
Cette inégalité montre que si D = Dn est une suite croissante telle que limn→+∞ Dn = +∞ et
P+∞
limn→+∞ Dnn = 0, alors MISE(Dn ) tend vers 0 lorsque n → +∞ puisque limn→+∞ j=Dn +1 θj2 = 0
P+∞
vu que la série j≥1 θj2 converge.
Soit φ ∈ L (R) une ondelette père et ψ l’ondelette mère associée ; ce sont des fonctions de R vers
2
R vérifiant :
1.3. ESTIMATION PAR PROJECTION 25
• le système {φk , k ∈ Z}, avec φk (x) = φ(x − k), est un système orthonormé ; on note V0 le
sous-espace de L 2 (R) engendré par ce système.
• Pour tout j ∈ Z, le système {ψjk , k ∈ Z},avec ψjk (x) = 2j/2 ψ(2j x − k), est un système
orthonormé, et le sous-espace de L 2 (R) qu’il engendre est noté Wj .
L+∞
• L 2 (R) = V0 ⊕ j=0 Wj .
Alors φk , ψjk / (j, k) ∈ Z2 est une base orthonormée de L 2 (R), et f peut sécrire sous la forme :
X XX
f (x) = αk φk (x) + γjk ψjk (x),
k∈Z j∈Z k∈Z
où Z Z
αk = f (x)φk (x) dx et γjk = f (x) ψjk (x) dx.
R R
où
n n
(n) 1X (n) 1X
α
bk = φk (Xi ) , γ
bjk = ψjk (Xi ) .
n i=1 n i=1
et (jn )n∈N est une suite croissante d’entiers telle que jn ↗ +∞ lorsque n → +∞.
Exemple 1.3.1. Ondelettes de Haar. Elles sont définies par les ondelettes père et mère données
par
φ = 1I[0,1[ et ψ = 1I[1/2,1[ − 1I[0,1/2] .
26 CHAPITRE 1. ESTIMATION DE LA DENSITÉ
Chapitre 2
Estimation de la fonction de
régression
Dans ce chapitre, nous allons considérer l’estimation de la fonction de régression. Soit le modl̀e de
régression
Y = r(X) + ε (2.1)
où Y et X sont des v.a. rélles, ε est une v.a. réelle centrée et de variance ν 2 , indépendante de X, et
r est une fonction inconnue qui établit une lien entre X et Y . Remarquons que si (2.1) est vérifié,
on a
E Y X = E r(X) X + E ε X = E r(X) X = r(X);
donc
r(x) = E Y X = x . (2.2)
On veut estimer r sur la base d’un échantillon i.i.d. (X1 , Y1 ), · · · , (Xn , Yn ) de (X, Y ).
f(X,Y ) (x, y)
fY |X=x (y) = ,
fX (x)
27
28 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION
Pour estimer r on peut remplacer chaque densité présente en (2.4) par son estmateur à noyau.
Ainsi, on remplace fX (x) par
n
1 X Xi − x
fbn,X (x) = K
nh i=1 h
D’où Pn
Yi K Xih−x
rbn (x) = Pi=1
n Xi −x
.
i=1 K h
2
où σ (x) = V ar (b rn (x)) − r(x). Pour simplifier les calculs, on se place dans le
rn (x)) et b(x) = E (b
cas où les Xi sont de loi uniforme sur [0, 1]. Dans ce cas fX est constante et égale à 1 sur [0, 1] et
(2.4) devient Z
r(x) = yf(X,Y ) (x, y) dy,
R
ce qui conduit à l’estimateur
n
1 X Xi − x
rbn (x) = Yi K .
nh i=1 h
Preuve.
1 X1 − x 1 X1 − x
σ 2 (x) ≤ E Y 1
2 2
K = E (r(X 1 ) + ε 1 ) 2 2
K
nh2 h nh2 h
1 2 2 X1 − x 1 2 2 X1 − x 2 2 X1 − x
= E r (X 1 )K + E ε1 K + E ε1 r(X1 )K .
nh2 h nh2 h nh2 h
Puisque
X1 − x X1 − x
E ε1 r(X1 )K 2 = E (ε1 ) E r(X1 )K 2 = 0,
h h
X1 − x X1 − x X1 − x
E ε21 K 2 = E ε21 E K 2 = ν2E K 2
h h h
u−x
Z
= ν2 K2 fX (u) du
R h
Z
= ν 2 h K 2 (t) fX (x + ht) dt
ZR
≤ ν 2 h K 2 (t) dt
R
et
X1 − x u−x
Z
2 2 2 2
E r (X1 )K = r (x)K fX (u) du
h R h
Z
= h r2 (x + th)K 2 (t) fX (x + ht) dt
R
Z
≤ h∥r∥2∞ K 2 (t) dt,
R
il vient
1
ν 2 + ∥r∥2∞
Z Z
σ 2 (x) dx ≤ K 2 (t) dt.
0 nh R
Proposition 2.1.2. On suppose que r ∈ Σ(β, L) où β > 0 et L > 0 , et que le noyau K est
d’ordre ℓ = ⌊β⌋ et est tel que : Z
|t|β |K(t)| dt < +∞.
R
Alors, pour tous h > 0 et n ≥ 1, on a
Z 1
b2 (x) dx ≤ C12 h2β . (2.7)
0
Preuve.
n
1 X Xi − x
b(x) = E Yi K − r(x)
nh i=1 h
1 X1 − x
= E Y1 K − r(x)
h h
u−x
Z Z
1
= yK f(X,Y ) (u, y) du dy − r(x)
h h
u−x
En posant t = h dans cette intégrale, il vient
Z Z
b(x) = yK (t) f(X,Y ) (x + ht, y) dt dy − r(x)
Z Z
= K (t) yf(X,Y ) (x + ht, y) dy dt − r(x).
R R
Donc
hℓ
Z
b(x) = tℓ K(t)r(ℓ) (x + τ ht) dt
ℓ! R
hℓ hℓ (ℓ)
Z Z
= t K(t)r (x + τ ht) dt − r (x) tℓ K(t) dt
ℓ (ℓ)
ℓ! R ℓ! R
ℓ Z
h
= tℓ K(t) r(ℓ) (x + τ ht) − r(ℓ) (x) dt;
ℓ! R
2.2. ESTIMATION PAR POLYNÔMES LOCAUX 31
d’où
hℓ
Z
|b(x)| ≤ |t|ℓ |K(t)| |r(ℓ) (x + τ ht) − r(ℓ) (x)| dt.
ℓ! R
hβ β−ℓ
Z Z
L
|b(x)| ≤ L τ |t|β |K(t)| dt ≤ |t|β |K(t)| dt hβ = C2 hβ .
ℓ! R ℓ! R
Donc Z 1
b2 (x) dx ≤ C22 h2β .
0
De (2.5), (2.6) et (2.7), on obtient la proposition suivante qui indique le comportement asympto-
tique du risque quadratique intégré.
Proposition 2.1.3. On suppose que r est bornée et appartient à Σ(β, L) où β > 0 et L > 0 , et
que le noyau K est d’ordre ℓ = ⌊β⌋ et est tel que :
Z Z
K 2 (t) dt < +∞, |t|β |K(t)| dt < +∞.
R R
Cette proposition montre que si la fenêtre h = hn est telle que nhn → +∞ et hn → 0 lorsque
n → +∞, alors MISE tend vers 0 lorsque n → +∞. La fenêtre optimale et la vitesse de convergence
correspondante du MISE peuvent être déterminées. On obtient :
On a
n ( n n )
′
X Xi − x X Xi − x X Xi − x
p (θ) = −2 K (Yi − θ) = 2 θ K − Yi K (2.11)
i=1
h i=1
h i=1
h
et
n
′′
X Xi − x
p (θ) = 2 K > 0.
i=1
h
L’estimateur par polynôme local s’obtient en généralisant (2.10) par utilisation d’un polynôme de
degré supérieur à 2 en θ. Cela donne :
Posant θ(x)
b = (θb0 (x), · · · , θbℓ (x)), l’estimateur par polynôme local d’ordre ℓ de r est donné par
Remarque 2.2.1. L’estimateur de Nadaraya-Watson est retrouvé comme cas particulier en pre-
nant ℓ = 0.
on a
2.2. ESTIMATION PAR POLYNÔMES LOCAUX 33
Proposition 2.2.2. Si la matrice XTx Wx Xx est inversible, alors l’estimateur par polynôme local
d’ordre ℓ de r vérifie :
n
X
rbn(ℓ) (x) = li (x)Yi (2.14)
i=1
avec
1
0
e1 = ∈ Rℓ+1 .
..
.
0
Preuve. Le polynôme
n ℓ k 2 X n ℓ k 2
X Xi − x X θk Xi − x X θk Xi − x
p(θ) = K Yi − = wi (x) Yi −
i=1
h k! h i=1
k! h
k=0 k=0
peut être explicité comme un critère des moindres carrés. En effet, on a tout d’abord
ℓ k
X θk Xi − x
Yi − = (Y − Xx a)i
k! h
k=0
où
Y1 θ0
Y2 θ1
h
Y= et a = .. = Vh θ,
..
. .
θℓ
Yn hℓ
avec
1 0 0 ··· 0 θ0
1
0 h 0 ··· 0 θ1
Vh = et θ = .
.. .. .. .. .. ..
. . . . . .
1
0 0 0 ··· hℓ
θℓ
Donc
n
X
p(θ) = wi (x)(Y − Xx Vh θ)2i = (Y − Xx Vh θ)T Wx (Y − Xx Vh θ)
i=1
= YT Wx Y − 2YT Wx Xx Vh θ + θT Vh XTx Wx Xx Vh θ,
L’estimateur θ(x)
b défini en (2.12) vérifie donc Dp(θ(x))(u)
b = 0 pour tout vecteur u ∈ Rℓ+1 , ce qui
donne
T
(θ(x))
b Vh XTx Wx Xx Vh u = YT Wx Xx Vh u, ∀u ∈ Rℓ+1
34 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION
où Z
θj = ⟨r, ϕj ⟩ = ϕj (x) r(x) dx. (2.16)
I
PD
Pour D fixé assez grand, une approximation de r est rD = j=1 θj ϕj . Son estimation se ramène
à celle des coefficients θj . Cela conduit à la définition suivante :
Définition 2.3.1. On appelle estimateur par projection l’estimateur rbnD défini par
D n
X 1X
rbnD (x) = θbj ϕj (x), où θbj = Yi ϕj (Xi ). (2.17)
j=1
n i=1
Remarque 2.3.1. Si on suppose que les Xi sont de loi uniforme sur [0, 1], alors θbj est un estimateur
sans biais de θj ; en effet
Z Z
E θjb = E (Y1 ϕj (X1 )) = yϕj (x) f(X,Y ) (x, y) dx dy
Z Z
= ϕj (x) y f(X,Y ) (x, y) dy dx.
I R
Proposition 2.3.1. On a :
D D Z
1X 2 2
n+1X
MISE(D) = E Y ϕj (X) − θ2 + f 2 (x) dx
n j=1 n j=1 j I
D +∞
1X 2 2
2 X
≤ E r (X) + ν ϕj (X) + θj2 . (2.19)
n j=1
j=D+1
Or
Z D
X XD
2
E rbnD (x) dx rnD ∥2 = E
= E ∥b θbj2 = E θbj2
I j=1 j=1
D D
X 1 X
V ar θbj + θj2 Y12 ϕ2j (X1 ) 1)θj2
= = E + (n −
j=1
n j=1
et
Z X +∞
D X XD D
X XD
E rbnD (x)r(x) dx = E ⟨b
rnD , r⟩ = E θbj θℓ δjℓ = E θbj θj = E θbj θj = θj2 .
I j=1 ℓ=1 j=1 j=1 j=1
De (2.20) il vient :
D D Z
1X X
E Y12 ϕ2j (X1 ) + (n − 1)θj2 − 2 θj2 + r2 (x) dx
MISE(D) =
n j=1 j=1 I
D D Z
1X n+1X
= E Y12 ϕ2j (X1 ) − θ2 + r2 (x) dx.
n j=1 n j=1 j I
Puisque − n+1
n ≤ −1, et
Z +∞
X
r2 (x) dx = ∥r∥2 = θj2 ,
I j=1
il vient
D D +∞ D +∞
1X X X 1X X
E Y 2 ϕ2j (X) − θj2 + θj2 = E Y 2 ϕ2j (X) + θj2 .
MISE(D) ≤
n j=1 j=1 j=1
n j=1 j=D+1
36 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION
Or
2
E Y 2 ϕ2j (X) = E (r(X) + ε) ϕ2j (X) = E r2 (X)ϕ2j (X) + 2E εr(X)ϕ2j (X) + E ε2 ϕ2j (X)
donc
D +∞
1X X
E r2 (X) + ν 2 ϕ2j (X) + θj2 .
MISE(D) ≤
n j=1
j=D+1
Remarque 2.3.2. Dans le cas de la base trigonométrique, si on suppose que r est bornée, l’inégalité
(2.19) implique
+∞
D X
MISE(D) ≤ ∥r∥2∞ + ν 2 + θj2 .
n
j=D+1
Cette inégalité montre que si D = Dn est une suite croissante telle que limn→+∞ Dn = +∞ et
limn→+∞ Dnn = 0, alors MISE(Dn ) tend vers 0 lorsque n → +∞.
Un cas particulier est donnée par la validation croisée leave-one-out, obtenue quand on considère
n blocs réduits à une observation, et définie par :
Le calcul de R(λ)
b peut être long car on doit recalculer, pour chaque i de 1 à n l’estimateur de la
fonction de régression. Toutefois, il peut être amélioré dans certains cas. En effet, si l’estimateur
est de la forme
n
X
rbn,λ (x) = li (x) Yi , (2.21)
i=1
Pn
avec i=1 li (x) = 1, on a :
Proposition 2.4.1. Sous les hypothèses ci-dessus, le score de validation croisée leave-one-out est
égal à :
n
1 X Yi − rbn,λ (Xi )
R(λ)
b = .
n i=1 1 − li (Xi )
Dans ce cas, le calcul est moins long car on ne calcule l’estimateur de r qu’une fois et on l’applique
ensuite aux différentes valeurs de l’échantillon.
K Xih−x
li (x) = P .
n Xj −x
j=1 K
h
j̸=i
38 CHAPITRE 2. ESTIMATION DE LA FONCTION DE RÉGRESSION
Chapitre 3
Tests nonparamétriques
On appelle test non paramétrique un test qui fait intervenir un estimateur non paramétrique comme
statistique de test. A l’inverse de ce qui se passe dans le cas paramétrique, il n’existe pas de théorie
pour ces tests. Leur étude se résume donc à les étudier cas par cas. Dans le cadre de ce cours,
nous étudions deux tests d’ajustement basés sur la fonction de répartition empirique : le test de
Kolmogorov-Smirnov et le test de Cramer-von Mises. Ce sont deux tests d’ajustement, c’est à
dire qu’il permettent de tester l’égalité de la loi inconnue des observations à une loi donnée. Plus
précisement, soient X1 , · · · , Xn un échantillon i.i.d. dont la loi commune admet une fonction de
répartition F , et F0 la fonction de répartition d’une loi donnée. On veut tester les hypothèses
H 0 : F = F0 contre H1 : F ̸= F0 . (3.1)
où Fbn est la f.d.r. empirique définie en (1.2). Nous allons tout d’abord expliciter Dn .
Preuve. Comme en F est continue, presque sûrement, tous les Xi sont distintcs. Par conséquent,
X(1) < X(2) < · · · < X(n) et
0 si x < X(1)
j
Fbn (x) = si x ∈ [X(j) , X(j+1) [, 1 ≤ j ≤ n − 1 . (3.4)
n
1 si x ≥ X(n)
39
40 CHAPITRE 3. TESTS NONPARAMÉTRIQUES
On a
Dn = max M0 , max (Mj ) , Mn (3.5)
1≤j≤n−1
où
M0 = sup Fbn (x)−F0 (x) , Mj = sup Fbn (x)−F0 (x) et Mn = sup Fbn (x)−F0 (x) .
x<X(1) x∈[X(j) ,X(j+1) [ x≥X(n)
et pour 1 ≤ j ≤ n − 1,
j
Mj = sup − F0 (x) .
x∈[X(j) ,X(j+1) [ n
Or, pour une fonction croissante et continue f on a :
sup f (x) = max sup f (x), sup −f (x) = max sup f (x), − inf f (x) = max f (b), −f (a) .
a≤x<b a≤x<b a≤x<b a≤x<b a≤x<b
et
j j−1
max max F0 (X(j+1) ) − , F0 (X(1) ) = max F0 (X(j) ) −
max , F0 (X(1) )
1≤j≤n−1 n 2≤j≤n n
j−1
= max F0 (X(j) ) − , (3.8)
1≤j≤n n
ce qui permet d’obtenir (3.5) à partir de (3.6) , (3.7) et (3.8) . □
La formule (3.5) permet un calcul pratique de la statistique de test. Pour réaliser le test, on a besoin
de sa loi asymptotique sous l’hypothèse nulle. Celle-ci est donnée dans la proposition suivante qui
est admise.
√
Proposition 3.1.2. Sous H0 , nDn converge en loi, lorsque n → +∞ vers une v.a. U dont la
loi est donnée par la f.d.r. :
+∞
2
x2
X
FU (x) = 1 − 2 (−1)k−1 e−2k . (3.9)
k=1
3.2. TEST DE CRAMER-VON MISES 41
√
Le test de niveau α ∈]0, 1[ de H0 contre H1 a alors pour région critique W = { nDn > qα }, où
FU (qα ) = α. Remarquons que la f.d.r. donnée en (3.9) n’a pas d’expression analytique explicite ;
par conséquent, qα ne peut être calculé explicitement par une inversion de FU . Cependant, la
loi correspondante, appelée loi de Kolmogorov-Smirnov est tabulée, ce qui permet d’obtenir les
quantiles qα .
Z +∞ 2
wn2 = Fn (x) − F0 (x) dF0 (x).
b (3.10)
−∞
La formule donnée dans la proposition suivante donne une forme explicite de la statistique de test,
facilement calculable à partir de l’échantillon.
Proposition 3.2.1.
n 2
1 1X 2j − 1
wn2 =
2
+ − F0 X(j) . (3.11)
12n n j=1 2n
Preuve.
Z X(1) 2 n−1
XZ X(j+1) 2 Z +∞ 2
wn2 = Fn (x)−F0 (x) dF0 (x)+
b Fn (x)−F0 (x) dF0 (x)+
b Fn (x)−F0 (x) dF0 (x).
b
−∞ j=1 X(j) X(n)
Z X(1) n−1
X Z X(j+1) 2 Z +∞ 2
j
wn2 = F02 (x) dF0 (x) + − F0 (x) dF0 (x) + 1 − F0 (x) dF0 (x)
−∞ j=1 X(j) n X(n)
X(1) n−1
X 3 X(j+1) 3 +∞
1 3 1 j 1
= F (x) + − − F0 (x) + − 1 − F0 (x)
3 0 −∞ j=1
3 n X(j) 3 X(n)
n−1
X 3
1 3 1 j
= F (X(1) ) + − F0 (X(j) )
3 0 3 j=1
n
n−1
X 3 3
1 j 1
− − F0 (X(j+1) ) + 1 − F0 (X(n) ) . (3.12)
3 j=1
n 3
42 CHAPITRE 3. TESTS NONPARAMÉTRIQUES
D’autre part
n−1
Xj 3 n 3 n 3
X j−1 X j 1
− F0 (X(j+1) ) = − F0 (X(j) ) = − F0 (X(j) ) −
j=1
n j=2
n j=2
n n
n 3 2
X j 3 j 3 j 1
= − F0 (X(j) ) − − F0 (X(j) ) + 2 − F0 (X(j) ) − 3
j=2
n n n n n n
n
X j 3 n 2
3X j
= − F0 (X(j) ) − − F0 (X(j) )
j=2
n n j=2 n
n
3 X j n−1
+ 2 − F0 (X(j) ) −
n j=2 n n3
n−1
X 3 3 3
j 1
= − F0 (X(j) ) + 1 − F0 (X(n) ) − − F0 (X(1) )
j=1
n n
n 2 n
3X j 3 X j n−1
− − F0 (X(j) ) + 2 − F0 (X(j) ) − .
n j=2 n n j=2 n n3
Or
2 2
j j 1 1 j 1
− F0 (X(j) ) = − F0 (X(j) ) − + − F0 (X(j) ) − 2
n n 2n n n 4n
2
2j − 1 1 j 1
= − F0 (X(j) ) + − F0 (X(j) ) − 2 ,
2n n n 4n
donc
n 2 n 2 n
1X j 1X 2j − 1 1 X j n−1
− F0 (X(j) ) = − F0 (X(j) ) + 2 − F0 (X(j) ) −
n j=2 n n j=2 2n n j=2 n 4n3
et
n 2
1 1 1 1X 2j − 1 n−1
wn2 = 2 − 2 F0 (X(1) ) + F02 (X(1) ) + − F0 (X(j) ) − .
3n n n n j=2 2n 4n3
Et comme
2
1 1 1 1 1 1 1
− 2 F0 (X(1) ) + F02 (X(1) ) = 2
− F0 (X(1) ) + F0 (X(1) ) = − F0 (X(1) ) − 2 ,
n n n n n 2n 4n
3.2. TEST DE CRAMER-VON MISES 43
on obtient finalement
2 n 2
1 1 n−1 1 1 1 X 2j − 1
wn2 = − 3− + − F0 (X(1) ) + − F0 (X(j) )
3n2 4n 4n3 n 2n n j=2 2n
n 2
1 1 X 2j − 1
= + − F 0 (X(j) ) .
12n2 n j=1 2n
Pour réaliser le test, on a besoin de sa loi asymptotique sous l’hypothèse nulle. Celle-ci est donnée
dans la proposition suivante qui est admise.
P+∞ 3.2.2. Sous H0 , n wn converge en loi, lorsque n → +∞ vers une variable aléatoire
2
Proposition
U = k=1 λk Uk , où les λk sont des réels positifs et les Uk sont des v.a. indépendantes et de loi
χ21 .
Le test de niveau α ∈]0, 1[ de H0 contre H1 a alors pour région critique W = {n wn2 > qα }, où
FU (qα ) = α. où FU est la f.d.r de U .Elle n’a pas d’expression analytique explicite ; par conséquent,
qα ne peut être calculé explicitement. Cependant, la loi correspondante est tabulée, ce qui permet
d’obtenir les quantiles qα .