0% ont trouvé ce document utile (0 vote)

24 vues21 pages

Mem Final

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

24 vues21 pages

Mem Final

Transféré par

عبدالفتاح العمري لعياضي

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Algérienne Démocratique et Populaire

Ministère de l’enseignements Supérieur et de la Recherche Scientifique

Université des sciences et de la Technologie Houari Boumediene

Faculté de Mathématiques

Domaine mathématiques informatique

Mémoire de Licence
Probabilité et Statistique

Thème

La fenêtre optimale pour l’estimateur à noyau de la

fonction de densité

Encadreur : Mme F. HAMRANI

Examinateur : Mr R. MESSACI

Présenté par :

ARDJANI Amina

BENMERIDJA Fatima Zohra

Projet n°0 Mai 2018

Remerciement

Nous remercions ALLAH le tout puissant de nous avoir donné la santé et la volonté d’entamer et
de terminer ce mémoire.
Tout d’abord, ce travail ne serait pas aussi riche et n’aurait pas pu avoir le jour sans l’aide et
l’encadrement de Mme F.HAMRANI, on la remercie pour la qualité de son encadrement
exceptionnel, pour sa patience, sa rigueur et sa disponibilité durant notre préparation de ce
mémoire. Sans oublier de remercier notre examinateur Mr R.MESSACI pour son aide et ses
encouragements.
Nos remerciements s’adressent également à tout nos professeurs pour leurs générosités et la grande
patience dont ils ont su faire preuve malgré leurs charges académiques et professionnelles.
Nous remercions aussi nos parents, pour leur soutien et leur encouragement quotidien. Enfin, nos
profonds remerciements vont également à toutes les personnes qui nous ont aidés et soutenue de
prés ou de loin.

1
Résumé

L’objectif de ce mémoire est d’étudier les propriétés de certains estimateurs non paramétriques pour
la fonction de répartition et la densité. On s’est intéressé à l’estimateur à noyau de la densité. Une
attention particulière est donnée au choix du paramètre de lissage (fenêtre) pour cet estimateur. Nous
avons donné la valeur optimale de ce paramètre au sens de l’erreur quadratique moyenne intégrée
par la méthode de plug-in.

2
Table des matières

1 Introduction 1

2 Estimation non paramétrique d’une fonction de répartition 2

2.1 La fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Propriétés de la fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . 3
2.2.1 Biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.3 Erreur quadratique moyenne (MSE) . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.4 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.5 La loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.6 Le Théorème centrale limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Estimation non paramétrique d’une densité 5

3.1 L’histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 L’estimateur naı̈f (ou de la fenêtre mobile) . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 L’estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3.1 Quelques propriétés de l’estimateur à noyau symétrique . . . . . . . . . . . . . 8
3.3.2 Choix théorique optimal du paramètre de lissage . . . . . . . . . . . . . . . . . 10
3.3.3 Choix pratique du paramètre de lissage par la méthode de plug-in . . . . . . . 12

4 Conclusion 15

3
Chapitre 1

Introduction

Un problème récurrent en statistique est celui de l’estimation d’une densité f ou d’une fonction de
répartition F à partir d’un échantillon de variables aléatoires réelles X1 , X2 , . . . , Xn indépendantes et
de même loi inconnue. Il existe plusieurs approches pour estimer ces dernières à partir des données. Il y
a l’approche paramétrique où on suppose que les données suivent un type de loi de distribution connu
et on se restreint à l’estimation des paramètres de cette loi. Dans l’approche non paramétrique, on ne
fait aucune hypothèse à priori sur la loi des observations mais on utilise directement les observations
pour l’estimation.
Pour la fonction de répartition, l’estimateur non paramétrique usuel est la fonction de répartition
empirique. Dans le cas de la fonction de densité, il existe plusieurs méthodes, citons :
– l’estimateur par histogramme
– l’estimateur naı̈f
– l’estimateur par la méthode du noyau.
Parmi l’ensemble de ces estimateurs, l’un les plus utilisés reste l’estimateur par la méthode du noyau
introduit par Rosenblatt(1962) et développé par Parzen (1962). Notons que l’utilisation pratique de
cette méthode nécessite le choix de deux paramètres :
– le noyau( qui est généralement une densité d’une loi statistique)
– le paramètre de lissage ou fenêtre.
Il est connu que le choix du noyau peu influent sur l’estimation, il n’en est pas de même pour
le paramètre de lissage. Un paramètre trop faible provoque l’apparition de détails artificiels sur le
graphe de l’estimateur et pour une valeur trop grande du paramètre, la majorité des caractéristiques
est effacée. Le choix du paramètre de lissage donc est une question très importante dans l’estimation
à noyau ainsi plusieurs méthodes existent pour le choix de ce paramètre, on peut citer
– la méthode de plug-in
– la méthode de validation croisée non biaisée
– la méthode du maximum de vraisemblance avec validation croisée.
Dans ce mémoire nous étudions quelque méthodes d’estimation non paramétrique de la fonction de
répartition et de la fonction de densité. Nous commençons par un chapitre d’introduction. Ensuite,
dans le chapitre deux, nous présentons un estimateur non paramétrique de la fonction de répartition
qui est la fonction de répartition empirique ainsi que ses propriétés statistiques.
Dans le chapitre trois, nous concentrons sur les méthodes d’estimation non paramétriques de la
densité : la méthode d’estimation par histogramme, la méthode d’estimation simple (l’estimateur
naı̈f) et la méthode d’estimation par noyau. Nous étudions particulièrement les propriétés statistiques
de l’estimateur à noyau. Une attention particulière est donnée au choix du paramètre de lissage par
la méthode de plug-in. Nous terminerons par une conclusion.

1
Chapitre 2

Estimation non paramétrique d’une

fonction de répartition

Nous présentons dans ce chapitre, un estimateur non paramétrique de la fonction de répartition

F d’une variable aléatoire X réelle définie sur l’espace de probabilités (Ω, A, P ) qui est la fonction
de répartition empirique et nous donnons ses propriétés statistiques.

2.1 La fonction de répartition empirique

Soit (X1 , X2 , ..., Xn ) une suite de n variables aléatoires réelles indépendantes identiquement dis-
tribuées et qui suivent la même loi que X de fonction de répartition F .
Soient X(1) ≤ X(2) ≤ ... ≤ X(n) les statistiques d’ordre associées. Soit Pn le nombre d’observations
inférieures ou égales à x dans l’échantillon.
Ainsi, la fonction de répartition empirique Fn (x) basée sur l’échantillon est une fonction en escalier
définie par

Pn
Fn (x) =
n
n
1X
= I{Xi ≤x}
n i=1

D’où


 0 si
 x ≤ X(1)
k
Fn (x) = si X(k) ≤ x ≤ X(k+1) , k = 1, 2, ..., n − 1
 n

1 si x ≥ X(n)

2
2.2 Propriétés de la fonction de répartition empirique
2.2.1 Biais
On calcule d’abord l’espérance de Fn (x).
n
!
1X
E(Fn (x)) = E I{Xi ≤x}
n i=1
n
1X
= E(I{Xi ≤x} )
n i=1
1
= nE(I{X≤x} )
n
= P (X ≤ x)
= F (x)
Donc
Biais(Fn (x)) = E(Fn (x)) − F (x) = 0
c’est à dire, Fn est un estimateur sans biais de F.

2.2.2 Variance
Remarquons que nFn (x) est une somme d’une suite de variables aléatoires indépendantes identi-
quement distribuées Ui avec Ui = I{Xi ≤x} , i = 1, 2, ..., n. Les variables aléatoires Ui suivent une loi de
Bernoulli de paramètre p = F (x) (Ui B(p), i = 1, 2, ..., n)
Xn n
X
Ainsi nFn (x) = I{Xi ≤x} = Ui suit une loi Binomiale de paramètre n et p = F (x).
i=1 i=1
Ce qui donne !
n
X
V ar(nFn (x)) = V ar Ui
i=1
= n(F (x))(1 − F (x))
Ainsi
F (x)(1 − F (x))
V ar(Fn (x)) =
n
Alors
V ar(Fn (x)) −→ 0
n→+∞
c’est à dire que Fn est un estimateur convergent de F .

2.2.3 Erreur quadratique moyenne (MSE)

L’erreur quadratique moyenne de Fn est donnée par
M SE(Fn (x)) = E (Fn (x) − F (x))2

= E (Fn (x) − E(Fn (x)) + E(Fn (x)) − F (x))2

= E (Fn (x) − E(Fn (x)))2 + 2E [(Fn (x) − E(Fn (x)))(E(Fn (x)) − F (x))]

+E (E(Fn (x)) − F (x))2

= E (Fn (x) − E(Fn (x))2 + (E(Fn (x)) − F (x))2

= V ar(Fn (x)) + Biais2 (Fn (x))

Comme Biais(Fn (x)) = 0 et V ar(Fn (x)) −→ 0 alors M SE(Fn (x)) −→ 0.
n→+∞ n→+∞

3
2.2.4 Convergence en probabilité
D’après l’inégalité de Chebyshev, on a ∀ε > 0,

V ar(Fn (x))
P (| Fn (x) − F (x) |≥ ε) ≤
ε2
Comme V ar(Fn (x)) −→ 0 alors
n→+∞
V ar(Fn (x))
−→ 0.
ε2 n→+∞

Ainsi
P
Fn (x) −−−−→ F (x).
n→+∞

2.2.5 La loi forte des grands nombres

L’estimateur Fn (x) est la moyenne empirique des variables aléatoires indépendantes identiquement
distribuées Ui (définies dans 2.2.2) avec Ui B(p = F (x)), i = 1, 2, ..., n.
Ainsi la loi forte des grandes nombres s’applique et Fn (x) converge presque sûrement vers F (x).
n
1X p.s
Fn (x) = I{Xi ≤x} −→ E(I{X≤x} )
n i=1

Comme E(I{X≤x} ) = P (X ≤ x) = F (x), on a donc

p.s
Fn (x) −−−−→ F (x).
n→+∞

2.2.6 Le Théorème centrale limite

nF (x) − nF (x) L
p n −−−−→ N (0, 1)
nF (x)(1 − F (x)) n→+∞
Alors √ L
n(Fn (x) − F (x)) −−−−→ N (0, F (x)(1 − F (x)))
n→+∞
.

4
Chapitre 3

Estimation non paramétrique d’une

densité

On présente dans ce chapitre quelques estimateurs non paramétriques de la densité. On s’intéresse

principalement à l’estimateur à noyau de Parzen- Rosenblatt. Nous étudions alors ses propriétés sta-
tistiques.

3.1 L’histogramme
Soit X1 , ..., Xn une suite de variables aléatoires réelles qui suivent la même loi que X de fonction
densité de probabilité f .
En partitionnant l’espace des observations en intervalles semi-ouverts à droite (Ik )1≤k≤D .
On note nk = Card{i; Xi ∈ Ik } le nombre d’observation dans Ik et |Ik | la longueur de de l’intervalle
Ik . L’estimateur par histogramme de f est défini par
D
1 X nk
fˆ(x) = I{x∈Ik }
n k=1 |Ik |

Remarque 1. Généralement on construit l’histogramme avec des intervalles de même longueur.

La figure 3.1 représente un histogramme construit à partir d’un échantillon de taille 1500 issu de
la loi normale centrée réduite.

3.2 L’estimateur naı̈f (ou de la fenêtre mobile)

L’estimation de la densité en x par cette méthode consiste à construire autour de x une classe
de longueur 2h centrée sur x : [x − h; x + h[ puis compter le nombre d’observation se trouvent dans
cette classe.
On sait que
P (x − h < X ≤ x + h)
f (x) = lim )
h→0 2h
F (x + h) − F (x − h)
= lim
h→0 2h

5
0.4
0.3
Density

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

Figure 3.1 – L’histogramme estimé.

En remplaçant F par la fonction de répartition empirique, on obtient l’estimateur naı̈f de f , noté fˆ,
défini par
F̂ (x + h) − F̂ (x − h)
fˆ(x) = lim
h→0 2h
n
1 X
= I{x−h<Xi ≤x+h}
2nh i=1
n
1 X1
= I{x−h<Xi ≤x+h}
nh i=1 2
n
1 X1
= I x−Xi
nh i=1 2 {−1< h ≤1}
n
1 X x − Xi
= K0
nh i=1 h
où K0 est une fonction définie par
1
K0 (x) = I[−1,1] (x).
2

3.3 L’estimateur à noyau

Définition 1. Nous appelons noyau de Parzen, toute fonction positive satisfaisant aux conditions :
lim uK(u) = 0
u−→+∞

et Z +∞
K(u)du < +∞
−∞

Remarque 2. Les conditions supplémentaires suivantes nous permettant d’obtenir les propriétés
usuelles pour les estimateurs de la densité :
– Le noyau est une densité : Z +∞
K(u)du = 1
−∞
– Le noyau est de carré intégrable :
Z +∞
K 2 (u)du < +∞
−∞

6
– Le noyau admet un moment d’ordre 2 :
Z +∞
u2 K(u)du < +∞
−∞

– le noyau est paire (symétrique) :

Z +∞
K(−u) = K(u) =⇒ uK(u)du = 0
−∞

Voici quelques exemples de noyaux symétriques les plus utilisés :

Noyau Support Densité

Biwieght [−1,1] K(u) = 15
16
(1 − u2 )2
3
Epanechnikov [−1,1] K(u) = 4 (1 − u2 )
2
Gaussien R K(u) = √12π e−u /2
Rectangulaire [−1,1] K(u) = 21
Triangulaire [−1,1] K(u) = 1 − |u|1|u|≤1

Table 3.1 – Exemples des noyaux symétriques.

gaussian triangular rectangular

0.0 0.2 0.4 0.6 0.8 1.0

Density

−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2

N = 1 Bandwidth = 1 N = 1 Bandwidth = 0.4 N = 1 Bandwidth = 0.6

epanechnikov biweight cosine

0.0 0.2 0.4 0.6 0.8 1.0

Density

−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2

N = 1 Bandwidth = 0.4 N = 1 Bandwidth = 0.35 N = 1 Bandwidth = 0.4

Figure 3.2 – Exemples des noyaux symétriques.

Définition 2. Nous appelons estimateur de densité de Parzen-Rosenblatt ou estimateur à noyau

noté fˆ, la variable aléatoire définie pour tout x ∈ R
n
ˆ 1 X x − Xi
f (x) = K
nh i=1 h

où K est un noyau de Parzen et h > 0 est un paramètre de lissage appelé fenêtre.
Exemple :

7
0.5

gaussien
epanechnikov
rectangulaire
0.4

courbe théorique
0.3
Density

0.2
0.1
0.0

−6 −4 −2 0 2 4 6

N = 250 Bandwidth = 0.45

Figure 3.3 – Estimation de la densité d’un échantillon issu d’une loi normale centrée réduite par
différents noyaux.

3.3.1 Quelques propriétés de l’estimateur à noyau symétrique

Nous présentons, ici quelques propriétés asymptotiques de l’estimateur à noyau fˆ pour un noyau
symétrique (pour une étude plus détaillée, voir par exemple Tsybakov(2004) ou Silverman(1986)).
Proposition 1. Si h −→ 0 alors pour tout x point de continuité de f , fˆ est un estimateur
n→+∞
asymptotiquement sans biais de f , c’est à dire
Biais(fˆ(x)) = E(fˆ(x)) − f (x) −→ 0
n→+∞

Preuve : On a !
n
1 X x − X i
E(fˆ(x)) = E K
nh i=1
h

1 x−X
= E K
h h
Z +∞
1 x−y
= K f (y)dy.
h −∞ h
En posant
x−y
−u =
h
On aura
y = x + uh
et
dy = hdu.

8
Nous obtenons donc Z +∞
1
E(fˆ(x)) = K(−u)f (x + uh)hdu.
h −∞
Comme la fonction noyau est paire, on aura
Z +∞
ˆ
E(f (x)) = K(u)f (x + uh)du.
−∞
Le biais peut s’écrire
Z +∞
E(fˆ(x)) − f (x) = K(u)f (x + uh)du − f (x)
−∞
Z +∞
= K(u) {f (x + uh) − f (x)} du
−∞
car Z +∞
K(u)du = 1.
−∞
En utilisant le développement de Taylor de f au voisinage de x à l’ordre 2
(uh)2 00
f (x + uh) = f (x) + uhf 0 (x) + f (x) + ◦(h2 )
2
Le biais devient
+∞
u2 h2 00
Z
E(fˆ(x)) − f (x) = K(u) uhf (x) + 0 2
f (x) + o(h ) du
−∞ 2
Z +∞ Z +∞
0 h2 00
= hf (x) uK(u)du + f (x) u2 K(u)du + o(h2 )
−∞ 2 −∞
2 Z +∞
h 00
= f (x) u2 K(u)du + o(h2 )
2 −∞
car Z +∞
uK(u)du = 0.
−∞
Nous remarquons que si h −→ 0 alors Biais −→ 0.
n→+∞ n→+∞

Proposition 2. Si nh −→ 0 alors en tout point x de continuité de f , fˆ est un estimateur

n→+∞
convergent de f .
Preuve : On sait qu’un estimateur asymptotiquement sans biais est convergent si sa variance tend
vers 0 quand n −→ +∞. Nous allons alors calculer la variance de fˆ.
n !
1 X x − X i
V ar(fˆ(x)) = V ar K
nh i=1 h
n !
1 X x − Xi
= 2 2 V ar K
nh h
i=1

1 x − X1
= V ar K
nh2 h
( " 2 # 2 )
1 x − X1 x − X1
= E K − E K
nh2 h h
Z +∞ 2 Z +∞ 2
1 x−t 1 x−t
= K f (t)dt − 2 K f (t)dt
nh2 −∞ h nh −∞ h
En faisant le changement de variable suivant

9
x−t 1
−u = ⇒ du = dt
h h
On aura
Z +∞ Z +∞ 2
ˆ 1 2 1
V ar(f (x)) = K (−u)f (x + hu)hdu − 2 K(−u)f (x + uh)hdu
nh2 −∞ nh −∞
Z +∞ Z +∞ 2
1 2 1
= K (u)f (x + hu)du − K(u)f (x + uh)du
nh −∞ n −∞
car K est une fonction paire.
En utilisant le développement de Taylor de f au voisinage de x à l’ordre 1

f (x + hu) = f (x) + uhf 0 (x) + ◦(h)

on obtient
Z +∞
ˆ 1 2 0 1
V ar(f (x)) = K (u) [f (x) + uhf (x) + ◦(h)] du + O
nh −∞ n
Z +∞ Z +∞
1 2 1 2 0 1 1
= [K(u)] f (x)du + u [K(u)] f (x)du + ◦ +O
nh −∞ n −∞ n n
Comme Z +∞
uK 2 (u)du < +∞
−∞
alors Z +∞
1 1
V ar(fˆ(x)) = 2
K (u)f (x)du + O
nh −∞ n
Finalement, si nh −→ 0 alors V ar(fˆ(x)) −→ 0.
n→+∞ n→+∞

Remarque 3. D’après les expressions du Biais et la variance, on observe que plus le paramètre h
est faible plus le biais diminue mais plus la variance augment et de façon inverse, une valeur grande
de h augmente le biais et diminue la variance (ceci est illustré dans la figure 3.4). Donc le choix de
h est très important dans l’estimation à noyau.
On peut voir l’influence de la largeur de la fenêtre sur l’estimation de la densité dans la figure
3.4. Dans le cas h = 0, 05 on a une courbe sous-lissée. Par contre, dans le cas h = 0, 8 on remarque
que la courbe est sur-lissée. Et le meilleur résultat est obtenu pour h = 0, 4.

3.3.2 Choix théorique optimal du paramètre de lissage

La valeur optimale de la fenêtre h est celle qui réalise le minimum de l’erreur quadratique moyenne
intégrée (MISE) de l’estimateur à noyau fˆ(x).
Rappelons que Z +∞ h i
ˆ
M ISE(f (x)) = ˆ 2
E (f (x) − f (x)) dx
−∞
Z +∞
= M SE(fˆ(x))dx
−∞
En procédant de la même manière que dans la section 2.2.3 du chapitre 2, on montre que

M SE(fˆ(x)) = V ar(fˆ(x)) + Biais2 (fˆ(x))

10
0.4

0.4
Density

Density
0.2

0.2
0.0

0.0
−2 −1 0 1 2 −2 −1 0 1 2 3

N = 100 Bandwidth = 0.05 N = 100 Bandwidth = 0.2

0.4

0.4
Density

Density
0.2

0.2
0.0

0.0
−3 −2 −1 0 1 2 3 4 −4 −2 0 2 4

N = 100 Bandwidth = 0.4 N = 100 Bandwidth = 0.8

Figure 3.4 – La densité théorique N (0, 1) (en rouge) et la densité estimée (en noir) avec noyau
Gaussien pour n = 100, h = 0.05, h = 0.2, h = 0.4, h = 0.8.

En utilisant les formules du biais et de la variance qu’on a déjà calculé, on obtient

+∞ Z +∞ 2
h4 00
Z
f (x) 1
M SE(fˆ(x)) = 2
K (u)du + O + (f (x)) 2
u K(u)du + ◦(h4 )
2
nh −∞ n 4 −∞

Ainsi
Z +∞
M ISE(fˆ(x)) = M SE(fˆ(x))dx
−∞
+∞ 2
h4 +∞ 00
Z Z Z +∞
1 2 1 2
= K (u)du + O + (f (x)) dx u K(u)du + ◦(h4 )
2
nh −∞ n 4 −∞ −∞

Quand n 7−→ +∞, nh 7−→ +∞ et l’approximation asymptotique du M ISE(fˆ(x)) est donnée par :
+∞ +∞ +∞ 2
h4
Z Z Z
1
AM ISE(fˆ(x)) = 2
K (u)du + 00
(f (x)) dx 2 2
u K(u)du]
nh −∞ 4 −∞ −∞

Cherchons maintenant la valeur optimale de la fenêtre notée hopt

hopt = argminAM ISE(fˆ(x))

En dérivant par rapport à h l’expression de AM ISE(fˆ(x)), on aura

Z +∞ 2 Z +∞ Z +∞
∂ 12
AM ISE(fˆ(x)) = h3 2
u K(u)du 00
[f (x)] dx − 2 K 2 (u)du
∂h −∞ −∞ nh −∞

Ensuite
∂
AM ISE(fˆ(x)) = 0
∂h

11
Z +∞ 2 Z +∞ Z +∞
3 2 00 2 1
⇔h u K(u)du [f (x)] dx − 2 K 2 (u)du = 0
−∞ −∞ nh −∞
1 R +∞ 2
−∞
K (u)du
⇔ h5 = R +∞ n R +∞
[ −∞ u2 K(u)du]2 −∞ f 002 (x)dx
R +∞ 2 !1/5
−1/5 −∞
K (u)du
⇔h=n R +∞ R +∞
[ −∞ u2 K(u)du]2 −∞ f 002 (x)dx
D’où
Z +∞ −2/5 Z +∞ 1/5 Z +∞ −1/5
00 2
hopt = 2
u K(u)du 2
K (u)du [f (x)] dx n−1/5
−∞ −∞ −∞

3.3.3 Choix pratique du paramètre de lissage par la méthode de plug-in

Le paramètre de lissage obtenu en minimisant AM ISE(fˆ(x)) n’est pas utilisable en pratique car
il dépend de la quantité inconnue f 00 . La méthode de plug-in pour le choix du paramètre h en pratique
consiste à choisir une densité de référence pour f , calculer f 00 puis la remplacer dans la formule de
hopt .
Si on suppose que f appartient à une famille de distributions normales de moyenne µ et variance σ 2
inconnue. Sous cette hypothèse
1 x−µ
f (x) = ϕ
σ σ
1 2
avec ϕ(x) = √ e−x /2 la densité de probabilité de loi normale centrée et réduite.
2π

0 1 00 x − µ 00 1 00 x − µ
f (x) = 2 ϕ ⇒ f (x) = 3 ϕ
σ σ σ σ
R +∞
La quantité inconnue −∞ (f 00 (x))2 dx s’écrit alors
+∞ Z +∞ 2
x−µ
Z
00 2 1 00
(f (x)) dx = 6 ϕ dx
−∞ σ −∞ σ
Z +∞
1 2
= 5 ϕ00 (w) dw
σ −∞

Calculons ϕ00
1 2 w 2
ϕ(w) = √ e−w /2 ⇒ ϕ0 (w) = − √ e−w /2
2π 2π
1 2
⇒ ϕ00 (w) = √ (w2 − 1)e−w /2
2π
00
On remplace l’expression de ϕ (w), on obtient
Z +∞ Z +∞
00 1 1 2
2
(f (x)) dx = 2 (w2 − 1)2 e−w dw
−∞ σ 2π −∞
Z +∞ Z +∞ Z +∞
1 1 4 −w2 2 −w2 −w2
= 5 w e dw − 2 w e dw + e dw
σ 2π −∞ −∞ −∞
1 +∞ 2 −w2
Z Z +∞
1 1 −w2
= 5 − w e dw + e dw
σ 2π 2 −∞ −∞

12
Posons √ √
u= 2w ⇒ du = 2dw
On trouve
+∞
1 +∞ u2 −u2 /2 du
Z Z Z +∞
00 2 1 1 1 −u2 /2
(f (x)) dx = − e √ +√ e du
−∞ σ 5 2π 2 −∞ 2 2 2 −∞
1√ √

1 1
= − π+ π
σ 5 2π 4
1 1 3√
= π
σ 5 2π 4
1 3
= √
σ5 8 π

On remplace cette dernière dans l’expression de hopt et on obtient

Z +∞ −2/5 Z +∞ 1/5 −1/5
3
hopt = 2
u K(u)du 2
K (u)du √ 5 n−1/5
−∞ −∞ 8 πσ̂

Où n
1 X
σ
b= (Xi − X̄)2
n − 1 i=1
est un estimateur sans biais de σ et n
1X
X̄ = Xi .
n i=1

Si on utilise le noyau gaussien

1 2
K(u) = √ e−u /2
2π
R +∞
−∞
K 2 (u)du devient
Z +∞ Z +∞
1 2
2
K (u)du = [ √ e−u ]du
−∞ −∞ 2π
Z +∞
1 −u2
= e du
−∞ 2π
1√
= π
2π
1
= √
2 π
et Z +∞
u2 K(u)du = 1
−∞

Ce qui implique

13
1/5 −1/5
1 3
hopt = 1. √ √ n−1/5
2 π 8 πσ 5
−1/5
3
= 2−1/5 π −1/10 π 1/10 σ̂n−1/5
8
= 2−1/5 23/5 3−1/5 σ̂n−1/5
= 22/5 3−1/5 σ̂n−1/5
1/5
4
= σ̂n−1/5
3
σ n−1/5
= 1.06b
Le paramètre de lissage donnée par la méthode de plug-in pour un noyau gaussien est donné par

σ n−1/5 .
hopt = 1.06b

La figure 3.5 représente la densité estimée d’un échantillon de taille 100 issu d’une loi normale centrée
réduite avec un noyau gaussien et avec la valeur optimale de h.
On remarque que la courbe estimée ajuste bien la courbe estimée.
0.5
0.4
0.3
Density

0.2
0.1
0.0

−3 −2 −1 0 1 2 3

N = 100 Bandwidth = 0.422

Figure 3.5 – La densité théorique (en rouge) et la densité estimée (en noir) avec un noyau Gaussien
et n = 100, h = hopt .

14
Chapitre 4

Conclusion

Au cours de notre mémoire, nous avons traité les techniques de l’estimation non paramétrique
de la fonction de répartition et de la fonction de densité. Il se compose de deux parties essentielles.
La première partie porte sur l’estimation de la fonction de répartition par celle empirique. Dans
la deuxième partie, nous avons présenté quelques estimateurs de la densité comme l’histogramme,
l’estimateur naı̈f et l’estimateur à noyau (l’estimateur de Parzen-Rosenblatt) pour lequel nous avons
étudié ses propriétés statistiques et nous avons mis en évidence le rôle du paramètre de lissage et
nous avons présenté une méthode de sélection de ce paramètre par la méthode de plug-in.

15
Annexe

Nous donnons dans cet annexe les programmes permettant d’obtenir les figures données dans ce
mémoire. On a programmé à l’aide de langage R i386 3.4.4.

Figure 3.1
x=rnorm(1500,0,1)
hist(x,prob=T)

Figure 3.2
par(mfrow=c(2,3))
plot(density(x=0,bw=1,kernel=”gaussian”),xlim=c(2,2),ylim=c(0,1),lwd=2,main=”gaussian”)
plot(density(x=0,bw=0.4,kernel=”triangular”),xlim=c(2,2),ylim=c(0,1),lwd=2,main=”triangular”)
plot(density(x=0,bw=0.6,kernel=”rectangular”),xlim=c(2,2),ylim=c(0,1),lwd=2,main=”rectangular”)
plot(density(x=0,bw=0.4,kernel=”epanechnikov”),xlim=c(2,2),ylim=c(0,1),lwd=2,main=”epanechnikov”)
plot(density(x=0,bw=0.35,kernel=”biweight”),xlim=c(-2,2),ylim=c(0,1),lwd=2,main=”biweight”)
plot(density(x=0,bw=0.4,kernel=”cosine”),xlim=c(-2,2),ylim=c(0,1),lwd=2,main=”cosine”)

Figure 3.3
x=rnorm(250,0,1)
plot(density(x,bw=0.45),lwd=2,xlim=c(-6,6),ylim=c(0,0.5),main=””)
lines(density(x,bw=0.45,kernel=”epanechnikov”),lwd=2,col=2,main=””)
lines(density(x,bw=0.45,kernel=”rectangular”),lwd=2,col=3,main=””)
curve(dnorm(x,0,1),col=4,add=T,lwd=2)
legend(2,0.5,cex=0.55,legend=c(”gaussien”,”epanechnikov”,”rectangulaire”,”courbe
théorique”),col=c(1,2,3,4),lwd=2)

Figure 3.4
x=rnorm(100,0,1)
par(mfrow=c(2,2))
plot(density(x,bw=0.05),ylim=c(0,0.5))
curve(dnorm(x,0,1),add=T,col=2)
plot(density(x,bw=0.2),ylim=c(0,0.5))
curve(dnorm(x,0,1),add=T,col=2)
plot(density(x,bw=0.4),ylim=c(0,0.5))
curve(dnorm(x,0,1),add=T,col=2)
plot(density(x,bw=0.8),ylim=c(0,0.5))
curve(dnorm(x,0,1),add=T,col=2)

Figure 3.5
x=rnorm(100,0,1)
plot(density(x,bw=1.06 ∗ 100−0.2 ),ylim=c(0,0.5),main=””)
curve(dnorm(x,0,1),add=T,col=2)

16
Bibliographie

[1] Tsybakov, A.B. (2004). Introduction à l’estimation non paramétrique. Springer- Verlag, New
York-Berlin. ISBN 3-540-40592-5.
[2] Parzen, E. (1962). on Estimation of a Probability Density Functions and Mode. Annals. Mathe.
Statist., Vol 33 ,Issue 3, pp 1065-1076.
[3] Rosenblatt, M. (1956). Remarks on Some Nonparametric Estimates of Density Functions. An-
nals. Mathe. Statist., Vol 27, pp 832-837.
[4] Silverman, B.W. (1986). Density estimation for statistics and data analysis. Chapman and Hall,
London.

Vous aimerez peut-être aussi

Estimation Non Paramétrique de La Densité de Probabilité Et de La Fonction de Répartition Par Des Séries Orthogonales
Pas encore d'évaluation
Estimation Non Paramétrique de La Densité de Probabilité Et de La Fonction de Répartition Par Des Séries Orthogonales
88 pages
Baia Ikram
Pas encore d'évaluation
Baia Ikram
56 pages
Khawla Mihi
Pas encore d'évaluation
Khawla Mihi
53 pages
Bencheikh Samia
Pas encore d'évaluation
Bencheikh Samia
47 pages
Memoire 2015
Pas encore d'évaluation
Memoire 2015
43 pages
SNP MH
Pas encore d'évaluation
SNP MH
77 pages
A7 Cours Non Param PDF
Pas encore d'évaluation
A7 Cours Non Param PDF
69 pages
Belahcene Intissar
Pas encore d'évaluation
Belahcene Intissar
54 pages
Régression Non Paramétrique en Statistique
Pas encore d'évaluation
Régression Non Paramétrique en Statistique
66 pages
MMAT280
Pas encore d'évaluation
MMAT280
45 pages
Stat Nonp P20 v2 1
Pas encore d'évaluation
Stat Nonp P20 v2 1
142 pages
Stat Nonp P20 Annotations
Pas encore d'évaluation
Stat Nonp P20 Annotations
132 pages
STAT2150 Transp
Pas encore d'évaluation
STAT2150 Transp
39 pages
Poly DU COURS STATS
Pas encore d'évaluation
Poly DU COURS STATS
23 pages
M1 G Turinici Statnonp v3 3
Pas encore d'évaluation
M1 G Turinici Statnonp v3 3
156 pages
L3 Projet
Pas encore d'évaluation
L3 Projet
20 pages
Statistique Non Paramétrique 101
Pas encore d'évaluation
Statistique Non Paramétrique 101
35 pages
Cours Noyau Bon
Pas encore d'évaluation
Cours Noyau Bon
37 pages
Ferhat Lamia
Pas encore d'évaluation
Ferhat Lamia
61 pages
Estimation Bayésienne à Noyau
Pas encore d'évaluation
Estimation Bayésienne à Noyau
45 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
150 pages
Cours Stat NP Ensiie
Pas encore d'évaluation
Cours Stat NP Ensiie
286 pages
Cours de Statistique Inférentielle
100% (1)
Cours de Statistique Inférentielle
131 pages
Memoire Bensahraoui v1
Pas encore d'évaluation
Memoire Bensahraoui v1
53 pages
Estimation de la densité conditionnelle
Pas encore d'évaluation
Estimation de la densité conditionnelle
43 pages
Estimation Non-Paramétrique : Répartition et Densité
Pas encore d'évaluation
Estimation Non-Paramétrique : Répartition et Densité
23 pages
Introduction à l'inférence statistique
Pas encore d'évaluation
Introduction à l'inférence statistique
43 pages
Sve 2025 123
Pas encore d'évaluation
Sve 2025 123
39 pages
Estimation de la fonction de densité
Pas encore d'évaluation
Estimation de la fonction de densité
55 pages
Stat Non Par
Pas encore d'évaluation
Stat Non Par
43 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Estimation et Modélisation Probabiliste
Pas encore d'évaluation
Estimation et Modélisation Probabiliste
10 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
119 pages
Poly Stat Inf
Pas encore d'évaluation
Poly Stat Inf
69 pages
Unisat L 2 Proba Stat
Pas encore d'évaluation
Unisat L 2 Proba Stat
79 pages
Modèles de Régression Non-Paramétriques
Pas encore d'évaluation
Modèles de Régression Non-Paramétriques
163 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
TD2 - Echantillonnage Et Estimation - 2020-21-1
Pas encore d'évaluation
TD2 - Echantillonnage Et Estimation - 2020-21-1
7 pages
Statistique: Anne Gégout-Petit Master 1 IMOI Université de Lorraine 7 Mai 2019
Pas encore d'évaluation
Statistique: Anne Gégout-Petit Master 1 IMOI Université de Lorraine 7 Mai 2019
121 pages
Histogrammes
Pas encore d'évaluation
Histogrammes
5 pages
GR 47
Pas encore d'évaluation
GR 47
119 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
135 pages
Vade Mecum de Statistique et Probabilités
Pas encore d'évaluation
Vade Mecum de Statistique et Probabilités
31 pages
Polycopiedecours Biostatistiques 2
Pas encore d'évaluation
Polycopiedecours Biostatistiques 2
80 pages
Poly Fisher
Pas encore d'évaluation
Poly Fisher
51 pages
Poly Statistiques Et Apprentissage
Pas encore d'évaluation
Poly Statistiques Et Apprentissage
82 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
STAT XPoly - Marchoffman
Pas encore d'évaluation
STAT XPoly - Marchoffman
225 pages
DS Math BELGUERNA Abderrahmane
Pas encore d'évaluation
DS Math BELGUERNA Abderrahmane
112 pages
Remerciements
Pas encore d'évaluation
Remerciements
127 pages
Introduction à la statistique non paramétrique
Pas encore d'évaluation
Introduction à la statistique non paramétrique
58 pages
Complement de Cours Sur L'estimation
Pas encore d'évaluation
Complement de Cours Sur L'estimation
64 pages
Estimation Statistique et Lois de Probabilité
Pas encore d'évaluation
Estimation Statistique et Lois de Probabilité
51 pages
Root
Pas encore d'évaluation
Root
68 pages
Remerciements
Pas encore d'évaluation
Remerciements
92 pages
Analyse de Fourier et Ondelette - Examen
Pas encore d'évaluation
Analyse de Fourier et Ondelette - Examen
1 page
Serie N5 Equations Non Lin F2020
Pas encore d'évaluation
Serie N5 Equations Non Lin F2020
5 pages
Exos 1
Pas encore d'évaluation
Exos 1
3 pages
Resume Anafonc
Pas encore d'évaluation
Resume Anafonc
9 pages
Examen d'EDP: Exercice 1
100% (1)
Examen d'EDP: Exercice 1
3 pages
Examen Final: Equations de La Physique Math Ematique
Pas encore d'évaluation
Examen Final: Equations de La Physique Math Ematique
3 pages
Variables Aleatoires Discretes
Pas encore d'évaluation
Variables Aleatoires Discretes
18 pages
Analyse de régression et ajustement statistique
Pas encore d'évaluation
Analyse de régression et ajustement statistique
13 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
Examen Methode Quantitative Ifid 2004 24 Eme Promotion
Pas encore d'évaluation
Examen Methode Quantitative Ifid 2004 24 Eme Promotion
3 pages
Information de Fisher en Statistiques
Pas encore d'évaluation
Information de Fisher en Statistiques
64 pages
Tests Statistiques sur Lois Gaussiennes
Pas encore d'évaluation
Tests Statistiques sur Lois Gaussiennes
4 pages
Chapitre 2. Diustribution Echantillonnagevf
Pas encore d'évaluation
Chapitre 2. Diustribution Echantillonnagevf
43 pages
Livret L3 MIASHS 2023-24 COG V5
Pas encore d'évaluation
Livret L3 MIASHS 2023-24 COG V5
21 pages
Cours Echantillonnage Et Estimation
Pas encore d'évaluation
Cours Echantillonnage Et Estimation
20 pages
Estimation C-2020 +tdcorrigeo
Pas encore d'évaluation
Estimation C-2020 +tdcorrigeo
16 pages
Chapitre 4 - Statistique Inferentielle
Pas encore d'évaluation
Chapitre 4 - Statistique Inferentielle
37 pages
Mini Projet L3 - Copie
Pas encore d'évaluation
Mini Projet L3 - Copie
7 pages
Méthodes d'échantillonnage en sondages
Pas encore d'évaluation
Méthodes d'échantillonnage en sondages
4 pages
Analyse Des Donnees de Panel Methodes Et Applications
Pas encore d'évaluation
Analyse Des Donnees de Panel Methodes Et Applications
21 pages
Statistique Descriptive : Concepts et Séries
100% (1)
Statistique Descriptive : Concepts et Séries
33 pages
Estimateurs non biaisés et exhaustifs
100% (3)
Estimateurs non biaisés et exhaustifs
12 pages
D2-Exos s05
Pas encore d'évaluation
D2-Exos s05
5 pages
These MAnane 2015
Pas encore d'évaluation
These MAnane 2015
159 pages
Cours de Statistique Inferentielle 1 l2 LMD Statistique
100% (1)
Cours de Statistique Inferentielle 1 l2 LMD Statistique
38 pages
TD Estimation Corrige
Pas encore d'évaluation
TD Estimation Corrige
15 pages
Chapitre 1 Introduction 22-11-2021
Pas encore d'évaluation
Chapitre 1 Introduction 22-11-2021
29 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
4 pages
Theorie de Sondage
Pas encore d'évaluation
Theorie de Sondage
92 pages
Ferrani Yacine
Pas encore d'évaluation
Ferrani Yacine
95 pages
Borovkov - Statistique Mathématique - Mir
83% (6)
Borovkov - Statistique Mathématique - Mir
601 pages
Statistics Inferential
Pas encore d'évaluation
Statistics Inferential
14 pages
Régression Linéaire: Guide Pratique
Pas encore d'évaluation
Régression Linéaire: Guide Pratique
130 pages
Methode Statistique Pour L'ingénieur
Pas encore d'évaluation
Methode Statistique Pour L'ingénieur
115 pages
Ahmed Hamimes Rachid Benamirouche: Auteur Correspondant
Pas encore d'évaluation
Ahmed Hamimes Rachid Benamirouche: Auteur Correspondant
16 pages
Cours d'Économétrie Licence 3 2011-2012
Pas encore d'évaluation
Cours d'Économétrie Licence 3 2011-2012
74 pages
Cocoa in Cote D - Ivoire
Pas encore d'évaluation
Cocoa in Cote D - Ivoire
20 pages
Cours Statistiques Inferentielles EMSI
Pas encore d'évaluation
Cours Statistiques Inferentielles EMSI
59 pages
Estimation Paramétrique Avancée
Pas encore d'évaluation
Estimation Paramétrique Avancée
24 pages