Méthode non-paramétrique en mathématiques
Méthode non-paramétrique en mathématiques
et applications
Francial Giscard Baudin Libengué Dobélé-Kpoka Libengue Dobele-Kpoka
THÈSE EN CO-TUTELLE
pour obtenir le grade de
Docteur de l’Université de Franche-Comté
et de l’Université de Ouagadougou
Spécialité : Mathématiques et Applications
Présentée par
Directeurs de Thèse :
Dieu le Père Tout Puissant qui ne cesse de faire pour moi des merveilles ;
3
4 Francial G. Libengué
Remerciements
Je suis très heureux d’exprimer ici tous mes remerciements, mes profondes gratitude
et reconnaissance à mon directeur de thèse, le Professeur Célestin C. Kokonendji, sans
qui ce travail n’aurait pu voir le jour. Merci de m’avoir proposé ce sujet de thèse aussi
intéressant. Merci d’avoir pris le temps de m’enseigner avec patience les nécessaires
bases de la statistique mathématique et de développer en moi l’aptitude d’analyse des
projets de recherche. Ta rigueur scientifique, tes critiques pertinentes et ta présence
attentive tout au long de ce parcours ont été essentiels à la réalisation de ce travail.
J’espère que cette thèse est digne de ton attente et de ton investissement personnel.
Je remercie chaleureusement mon second directeur de thèse le Professeur Blaise
Somé, Directeur de Laboratoire d’Analyse Numérique, d’Informatique et de Biomathé-
matique (LANIBIO) de l’Université de Ouagadougou qui a guidé mes premiers pas
en recherche depuis mon DEA et qui s’est fortement impliqué pour le financement
de cette thèse en me recommandant personnellement à l’Agence Universitaire de la
Francophonie (AUF). Merci d’avoir créé le LANIBIO qui nous pousse à rechercher le
meilleure de nous même.
Je remercie cordialement le Professeur Pascal Sarda, de l’université de Toulouse
II-Le Mirail et la Professeure Anne-Françoise Yao-Lafourcade, de l’Université Blaise
Pascal de Clermont Ferrand, d’avoir accepté être rapporteurs externes de cette thèse.
J’adresse également mes remerciements au Professeur Clovis Nitiéma de l’Université
de Ougadougou qui a accepté être rapporteur interne de cette thèse.
Mes remerciements au Professeur Gane Samb Lo de l’Université Gaston Berger de
Saint Louis au SENEGAL, qui a accepté présider ce jury, merci aussi à tous les autres
membres du jury à savoir les Professeurs Longhin Somé et Ousséni So de l’Université
de Ougadougou.
Mes profonds remerciements à l’Agence Universitaire de la Francophonie (AUF),
pour avoir investi sur moi en finançant entièrement cette thèse. Ces remerciements
vont aussi en l’endroit de ses agents en particulier Madame Fabar Sané, Madame Zoé
Aubièrge Wangré, Madame Anne Laure Lejeune, Monsieur Benjamin Sia, Monsieur
Ousmane Barra et Monsieur Youssouf Ouattara pour leurs services.
Je n’oublierai pas de remercier le Professeur Christian Maire, Directeur du Labora-
toire de Mathématiques de Besançon (LMB) ainsi que son prédécesseur le Professeur
Patrick Hild de m’avoir accueilli dans ce cadre idéal de travail. Mes remerciements
vont aussi en l’endroit du Professeur Gilles Lancian, Directeur de l’École Doctorale
Carnot Pasteur ainsi que tous les autres membres du LMB sans oublier Mme Catherine
Pagani.
5
J’aimerais remercier tous les membres d’Équipe de Probabilités-Statistique du LMB
en particulier les Maîtres de Conférences : Yacouba Boubacar Maïnassara, Davit Var-
ron, Stéphane Chretien et Landy Rabhéhasaina pour leur collaboration.
Je remercie particulièrement Monsieur Nicolas Klutchnikoff, Maître de Confé-
rences à l’ENSAI, pour m’avoir appris la théorie des minimax lors de mon séjour à
Rennes. Merci aussi à toute l’équipe qui m’avait accueilli.
J’adresse mes remerciements à toute l’équipe du Décanat, à tous les Enseignants
Chercheurs et en particuliers ceux du Département Mathématiques & Informatique de
la Faculté des Sciences de l’Université de Bangui.
Mes remerciement s’adressent aussi à tous les membres du LANIBIO et en parti-
culier au Pr. G. Kabré, Dr. O. Sawadogo, Dr. E. Gouba, Dr. V. Kana sans oublier Dr. Y.
Paré, Dr. W. Mbwentchou, Dr. T. Sadou, Dr. M. Kéré et Mr K. Somé.
Je remercie aussi tous les doctorants du LMB et du LANIBIO, en particulier Cyril
Moypemna, Matthieu Somé, Khoirin Nisa, Basad Al-sarray, Julien Grépat, Mohamed
Gazibo et Étienne Ouédraogo. Je vous encourage à continuer jusqu’au bout.
Je remercie les Professeurs Sékou Traoré et Faustin Touadéra qui m’ont encouragé
et orienter vers la recherche. Mes remerciements vont aussi à l’encontre de Pr. Jean L.
Syssa Magalé, Pr. Joachim R. Sioké, Dr. Jean Mboliguipa, Dr. Ernest Mada, Dr. Jocelyn
Gonessa et Dr. Doriano B. Pougaza pour les précieux conseils qu’ils n’ont cessé de me
donner.
Que mes tantes Bernadette Konam, Simone Konam, Germaine Millier et Françoise
Libengué ainsi que mes oncles Jean Aurelien Libengué, Dominique Konamo et Narcisse
Millier soient aussi remerciés pour leurs soutiens infaillibles.
Mes sincères remerciement aux familles Grébongo, Moussapiti, Dénémandji, Dou-
loumatchi, Bondéboli, Wambobo, Mokambo, Lho-Konam, Kpawilina, Légué, Adiallo,
Yandoba, Adrisse, Bompangué et Mbito pour leurs soutiens infaillible et inconditionnel
tout au long de mon parcours.
Merci à tous mes collaborateurs, je pense notamment à Frédéric Wango, Hugues
et Rebecca Penda, Ange Wakamba, Crepin Bouté, Stevens Orondrou, Stève Djetel,
Placide Douam, Arsène Solamosso, Dieudonné Mandéhou, Vianney Rama, Yvon Sen-
guéla, Martinien Penda Rodrigue Rama et Mariam Saba.
Ben-Sthal Sakoma et Bienvenu Pakouzou, mes compagnons de misères, nous avons
toujours partagé le même sort, vos soutien et conseil n’ ont cessé de me réconforter.
Que vous en soyez ainsi remerciés.
Merci à vous tous que je n’ai peut être pas nommément cité ici, pour les agréables
occasions de partage que nous avons eues je pense à Mylène et Kevin Kokonendji,
Daniel Bongo ainsi que Chérubin Magba.
Pour le meilleur, c’est surtout une profonde pensée pour mes quatre grands parents
décédés, et qui auraient été fiers de moi.
Je n’oublierai pas la Communauté Centrafricaine du Burkina (CCAB), l’Union des
Élèves, Étudiants et Stagiaires Centrafricains vivant au Burkina Faso (UEESCABF), les
jeunes légionnaires de la Paroisse Saint Michel, la chorale Notre Dame de l’Unité et le
groupe liturgique de Scholasticat Saint Camille.
6 Francial G. Libengué
Production scientifique
i. Parues
[i.1] Senga Kiessé, T., Libengué, F.G., Zocchi, S.S. & Kokonendji, C.C. (2010). The R pa-
ckage for general discrete triangular distributions, http ://[Link]/
web/packages/TRIANGG/[Link]
[i.2] Kokonendji, C.C. & Libengué, F.G. (2011). Méthode des noyaux associés continus
et estimation de densité. Procedings du 43 ème Journée de Statistique de la SFdS, 86-91,
Tunis 23-27 mai 2011.
[i.3] Kokonendji, C.C., Libengué, F.G. & Varron, D. (2012). Covergence des estimateurs
à noyaux associés de densité. Journées de Statistique de la SFdS, 5 pages, Bruxelles
21-25 mai 2012. http ://[Link]/[Link] ?id=98
[i.4] Libengué, F.G., Somé, S.M. & Kokonendji, C.C. (2013). Estimateur par noyaux a
ssociés mixtes d’un modèle de mélange. Les 45e Journées de Statistique de la SFdS,
Toulouse 27 - 31 mai 2013.
[i.5] Somé, S.M., Libengué, F.G. & Kokonendji, C.C. (2013). Estimation de densité par
noyau bêta bivarié avec structure de corrélation. Les 45e Journées de Statistique de
la SFdS, Toulouse 27 - 31 mai 2013.
ii. Soumises
[ii.1] Kokonendji, C.C. & Libengué, F.G. (2012). Asymptotic results for continuous as-
sociated kernel estimators for density functions. Soumis pour publication depuis
le 19.11.2012 à Annals of the Institute of Statistical Mathematics (Ref. AISM-D-12-
00087 ; Under Review).
[ii.2] Kokonendji, C.C. & Libengué, F.G. (2013). Non-classical associated kernels for
non-standard density estimators. Soumis pour publication depuis le 07.01.2013 à
Statistical Methodology ([Link]-D-13-00005 ; Under Review).
iii. En préparation
[iii.1] Klutchnikoff, N., Kokonendji, C.C. & Libengué, F.G. Minimax and Adaptive
Properties of Associated Kernel Density.
[iii.3] Kokonendji, C.C., Libengué, F.G. & Somé, S.M. Mixed associated kernel esti-
mators of a mixture model.
7
iv. Sans comité de lecture et séminaires universitaires
[iv.1] Libengué, F.G. (2011a). Introduction à la méthode des noyaux associés continus.
Deuxième Journée de Rencontre Dijon-Besançon en Probabilités et Statistique. Dijon
2011.01.28.
[iv.2] Libengué, F.G. (2011b). Extended beta kernel estimators for bounded functions.
Séminaires de l’Equipe Probabilités et Statistique de l’Université de Franche-Comté.
Besançon 2011.02.14.
[iv.3] Libengué, F.G. (2011c). Estimation de densités par le noyau bêta étendu. Sé-
minaires du Laboratoire d’Analyse Numérique d’Informatique et de Biomathématique
(LANIBIO) de l’Université de Ouagadougou. Ouagadougou 2011.03.03.
[iv.4] Libengué, F.G. (2012a). Quelques résultats asymptotiques des estimateurs à
noyaux associés de densité. Séminaires de l’Equipe Probabilités et Statistique de l’Uni-
versité de Franche-Comté. Besançon 2012.02.20.
[iv.5] Libengué, F.G. (2012b). Convergences des estimateurs à noyaux associés de den-
sité . Séminaires des Doctorants de l’Université de Franche-Comté. Besançon 2012.03.07.
[iv.6] Libengué, F.G.. (2012c). Convergences des estimateurs à noyaux associés de
densité . Séminaires du Laboratoire d’Analyse Numérique d’Informatique et de Bioma-
thématique (LANIBIO) de l’Université de Ouagadougou. Ouagadougou 2012.04.22
[iv.5] Libengué, F.G. (2013). Estimation par noyaux associés mixtes d’un modèle de
mélange. Séminaires de l’Equipe Probabilités et Statistique de l’Université de Franche-
Comté. Besançon 2013.02.11.
8 Francial G. Libengué
Résumé
Nous présentons dans cette thèse, l’approche non-paramétrique par noyaux associés
mixtes, pour les densités à supports partiellement continus et discrets. Nous commen-
çons par rappeler d’abord les notions essentielles d’estimation par noyaux continus
(classiques) et noyaux associés discrets. Nous donnons la définition et les caractéris-
tiques des estimateurs à noyaux continus (classiques) puis discrets. Nous rappelons
aussi les différentes techniques de choix de paramètres de lissage et nous revisitons les
problèmes de supports ainsi qu’une résolution des effets de bord dans le cas discret.
Ensuite, nous détaillons la nouvelle méthode d’estimation de densités par les noyaux
associés continus, lesquels englobent les noyaux continus (classiques). Nous définis-
sons les noyaux associés continus et nous proposons la méthode mode-dispersion pour
leur construction puis nous illustrons ceci sur les noyaux associés non-classiques de la
littérature à savoir bêta et sa version étendue, gamma et son inverse, gaussien inverse
et sa réciproque le noyau de Pareto ainsi que le noyau lognormal. Nous examinons
par la suite les propriétés des estimateurs qui en sont issus plus précisément le biais,
la variance et les erreurs quadratiques moyennes ponctuelles et intégrées. Puis, nous
proposons un algorithme de réduction de biais que nous illustrons sur ces mêmes
noyaux associés non-classiques. Des études par simulations sont faites sur trois types
d’estimateurs à noyaux lognormaux. Par ailleurs, nous étudions les comportements
asymptotiques des estimateurs de densité à noyaux associés continus. Nous montrons
d’abord les consistances faibles et fortes ainsi que la normalité asymptotique ponc-
tuelle. Ensuite nous présentons les résultats des consistances faibles et fortes globales
en utilisant les normes uniformes et L1 . Nous illustrons ceci sur trois types d’estima-
teurs à noyaux lognormaux. Par la suite, nous étudions les propriétés minimax des
estimateurs à noyaux associés continus. Nous décrivons d’abord le modèle puis nous
donnons les hypothèses techniques avec lesquelles nous travaillons. Nous présentons
ensuite nos résultats minimax et enfin nous faisons une application sur les noyaux
associés non-classiques bêta, gamma et lognormal. Enfin, nous combinons les noyaux
associés continus et discrets pour définir les noyaux associés mixtes. De là, les outils
d’unification d’analyses discrètes et continues sot utilisés, pour montrer les différentes
propriétés des estimateurs à noyaux associés mixtes. Une application sur un modèle
de mélange des lois normales et de Poisson tronquées est aussi donnée. Tout au long
de ce travail, nous choisissons le paramètre de lissage uniquement avec la méthode de
validation croisée par les moindres carrés.
Mots clés : Convergence, Densité mixte, Échelles de temps, Effet de bords, Estimation
non-paramétrique par noyau, Modèle de mélange, noyau uni-modal, Paramètre de
dispersion, Validation croisée.
9
Abstract
We present in this thesis, the non-parametric approach using mixed associated ker-
nels for densities with supports being partially continuous and [Link] first start
by recalling the essential concepts of classical continuous and discrete kernel density
estimators. We give the definition and characteristics of these estimators. We also re-
call the various technical for the choice of smoothing parameters and we revisit the
problems of supports as well as a resolution of the edge effects in the discrete case.
Then, we describe a new method of continuous associated kernels for estimating den-
sity with bounded support, which includes the classical continuous kernel method.
We define the continuous associated kernels and we propose the mode-dispersion for
their construction. Moreover, we illustrate this on the non-classical associated kernels
of literature namely, beta and its extended version, gamma and its inverse, inverse
Gaussian and its reciprocal, the Pareto kernel and the kernel lognormal. We subse-
quently examine the properties of the estimators which are derived, specifically, the
bias, variance and the pointwise and integrated mean squared errors. Then, we propose
an algorithm for reducing bias that we illustrate on these non-classical associated ker-
nels. Some simulations studies are performed on three types of estimators lognormal
kernels. Also, we study the asymptotic behavior of the continuous associated kernel
estimators for density. We first show the pointwise weak and strong consistencies as
well as the asymptotic normality. Then, we present the results of the global weak and
strong consistencies using uniform and L1 norms. We illustrate this on three types of
lognormal kernels estimators. Subsequently, we study the minimax properties of the
continuous associated kernel estimators. We first describe the model and we give the
technical assumptions with which we work. Then We present our results that we apply
on some non-classical associated kernels more precisely beta, gamma and lognormal
kernel estimators. Finally, we combine continuous and discrete associated kernels for
defining the mixed associated kernels. Using the tools of the unification of discrete and
continuous analysis, we show the different properties of the mixed associated kernel
estimators. All through this work, we choose the smoothing parameter using the least
squares cross-validation method.
10 Francial G. Libengué
Table des matières
Introduction générale 19
11
Table des matières
Bibliographie 153
Annexes 153
12 Francial G. Libengué
Table des matières
13 Francial G. Libengué
Table des matières
14 Francial G. Libengué
Liste des tableaux
3.1 Tableau récapitulatif des différents r dans les Théorème 3.1.1, Théorème
3.2.2 et Théorème 3.2.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
15
Liste des tableaux
16 Francial G. Libengué
Table des figures
17
Table des figures
18 Francial G. Libengué
Introduction générale
où t j ∈ [−∞, +∞] avec t j 6 t j+1 . Des cas usuels de (1) sont R, N, {1, 2, ..., k}, [0, 1], [0, +∞[
et [0, 1[∪N∗ .
L’objet de cette thèse est d’unifier les estimateurs à noyaux depuis les travaux de
Rosenblatt (1956) et Parzen (1962) sur T = R jusqu’à la thèse de Tristan Senga Kiessé
en 2008 sur T ⊆ N, en passant par les travaux de Chen (1999, 2000) pour T = [0, 1] et
T = [0, +∞[ respectivement. Sans perte de généralité, on s’intéressera en particulier à
de densités mixtes f par rapport à la mesure de Lebesgue pour les parties continues
et la mesure de comptage pour les parties discrètes. Cette thèse est composée de cinq
chapitres et une conclusion générale portant sur des discussions et perspectives.
Le Chapitre 1 est composé de deux parties bien distinctes. La première rappelle
les propriétés essentielles des estimateurs à noyaux continus classiques sur T = R.
On souligne la moindre importance du choix de ces noyaux contrairement à celui
de fenêtres dont les diverses techniques sont brièvement présentées. Les problèmes
de différentes structures de supports sont alors posés. La seconde partie récapitule la
solution de “lissage discret” sur T ⊆ N par des noyaux associés discrets. Différentes
19
Table des figures
20 Francial G. Libengué
Chapitre 1
21
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
avec leurs propriétés de base puis les différentes méthodes de choix de fenêtres. Dans
un second temps, nous décrivons succinctement les noyaux associés discrets et les
propriétés élémentaires des estimateurs définis à partir de ces derniers. Un accent
sera mis sur le choix du paramètre de lissage et nous terminons le chapitre par des
illustrations.
Tout au long de ce chapitre, on suppose que les observations X1 , · · · , Xn sont des
variables indépendantes de même loi (iid) de densité f .
1.1.1 Caractéristiques
Fixons la définition d’un noyau continu (classique).
Définition 1.1.1 Une fonction K de support S est dite noyau si elleR est une densité de
probabilité symétrique (i.e. K (−u) = K (u)), de moyenne µK nulle (µK := S uK (u)du = 0), de
R R
variance σ2K finie (σ2K := S u2 K (u)du < +∞) et de carré intégrable ( S K 2 (u)du < +∞).
Précisons ici qu’en tant que densité de probabilité, le noyau R K est positif et de masse
totale égale à 1 (i.e. pour tout élément u de S, K (u) ≥ 0 et S K (u)du = 1).
Définition 1.1.2 Soit hn > 0 la fenêtre de lissage et K la fonction noyau vérifiant la Définition
1.1.1. L’estimateur à noyau continu (classique) de f est défini en un point x ∈ T par :
n
b 1 X x − Xi
fn (x) = K . (1.1)
nhn i=1 hn
22 Francial G. Libengué
1.1. Estimateurs à noyaux continus classiques
n o n o
Biais fbn (x) = E fbn (x) − f (x). (1.4)
Ceci conduit à une nouvelle expression du MSE(x) comme suit
n o2 n o 2
b
MSE(x) = E fn (x) − 2E fbn (x) f (x) + E f (x) ,
n o2 h n oi2 h n oi2 n o
b
= E fn (x) − E fbn (x) + E fbn (x) − 2 f (x)E fbn (x) + f 2 (x),
n o n o
= Var fbn (x) + Biais2 fbn (x) . (1.5)
23 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Il est possible de reporter dans (1.8), les valeurs de la variance et du biais définies
dans (1.3) et (1.4), mais cela va rendre les calculs lourds et conduit à des résultats
rarement exploitables. D’où l’intérêt de faire quelques approximations et hypothèses
supplémentaires pour garder les résultats généraux. Ainsi, en dépit des conditions
vérifiées par le noyau classique dans la Définition 1.1.1, nous supposons dans la suite
que la densité à estimer f admette des dérivées de tous ordres.
En reprenant l’expression de l’espérance de l’estimateur fbn dans (1.6) et la variance
dans (1.7) puis en posant t = x − hu, on a :
n o Z
E fbn (x) = K (u) f (x − hu)du (1.9)
T
et Z
n o 1 1 2 x − X1
b
Var fn (x) = 2 2
K (u) f (x − hu)dt − 2 E K . (1.10)
nh T nh h
Le développement en séries de Taylor de f (x − hu) au voisinage de x est alors
1 n o
f (x − hu) = f (x) − hu f ′ (x) + h2 u2 f ′′ (x) + o (hu)2 .
2
En l’injectant dans (1.9) et (1.10) on obtient alors :
n o Z
1 2 2 ′′
n o
b
E fn (x) = K (u) f (x) − hu f (x) + h u f (x) dx + o (hu)2 ,
′
T 2
1
= f (x) + h2 f ′′ (x)σ2K + o(h2 ) (1.11)
2
et
n o Z
b 1 2 1
Var fn (x) = K (u) f (x)du + Rn + o ,
nh T nh
Z
1 2 1
= f (x) K (u) du + o , (1.12)
nh T nh
avec Rn = (1/nh2 ) −hu f ′ (x) + (1/2)h2 u2 f ′′ (x) − E2 [K {(x − X1 )/h}] ≃ o {1/(nh)}. De ces
deux derniers résultats (1.12) et (1.11), on peut déduire les formes approximées et
asymptotiques du MSE et du MISE notées respectivement AMSE et AMISE par :
Z
1 1
AMSE(x) = f (x) K 2 (u)du + h4 σ4K f ′′2 (x) (1.13)
nh T 2
24 Francial G. Libengué
1.1. Estimateurs à noyaux continus classiques
et Z Z
1 1
AMISE(n, h, K , f ) = K (u)du + h4 σ4K
2
f ′′2 (x)dx. (1.14)
nh T 4 T
Parmi toutes les qualités que peut avoir un estimateur (ou une suite d’estimateurs), on
s’intéresse souvent à sa consistance, b
i.e., au fait qu’une suite d’estimateurs fn converge
ou non vers f en une distance d fbn , f donnée. Le paragraphe suivant nous donne
quelques résultats de convergence des estimateurs à noyaux classiques de la littérature.
Rappelons d’abord les hypothèses (sur le noyau et la fenêtre de lissage) par les-
quelles ces résultats ont été établis.
Z Z
K (u)du = 1, sup|K (u)| < +∞ et |K (u)| du < +∞. (1.15)
T u∈T T
h → 0 quand n → +∞ (1.16)
nh → +∞ quand n → +∞. (1.17)
nh2 → +∞ quand n → +∞. (1.18)
nh
→ +∞ quand n → +∞. (1.19)
log n
Ces résultats sont établis dans les travaux respectivement de Parzen (1962) et Tiago
de Oliviera (1963). Le premier montre la convergence du MSE et le second donne celle
du MISE.
Théorème 1.1.3 (Parzen [1962]). Soit f , une densité continue sur T = R et fbn son estimateur
à noyau (classique) K vérifiant (1.15). Si le paramètre h satisfait (1.16) et (1.17) alors
n o P
MSE fbn (x) → 0, ∀x ∈ T = R,
P
où → désigne la convergence en probabilité.
Théorème 1.1.4 (Tiago de Oliviera [1963]). Soit f une densité de puissance peme -intégrable et
fbn son estimateur à noyau (classique) K satisfaisant (1.15). Si h vérifie (1.16) et (1.17) alors
P
MISE fbn → 0.
25 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Les trois résultats donnés ici sont issus des travaux de Parzen (1962), Nadaraya
(1965), et Silverman (1986). Les deux premiers montrent la consistance faible tandis
que le dernier propose quant à lui la consistance forte.
Théorème 1.1.5 (Parzen [1962]). Soit f , la densité à estimer et fbn son estimateur à noyau
(classique) ZK satisfaisant (1.15). Si h vérifie (1.18) et de plus si la transformée de Fourier
T F (z) := exp (−izu)K (u)du est absolument intégrable, alors
b P
sup fn (x) − f (x)
→ 0.
x∈T=R
Théorème 1.1.6 (Nadaraya [1965]). Soit f , une densité uniformément continue et fbn son
estimateur
X à noyau (classique) K positif et à variations bornées. Pour tout h vérifiant (1.16) tel
que exp (−εnh2 ) < +∞, alors
k>1
b
sup P
f
n (x) − f (x) → 0.
x∈T=R
Théorème 1.1.7 (Silverman [1986]). Soit f , une densité uniformément continue et fbn son
estimateur à noyau (classique) K positif et à variations bornées. Pour tout h satisfaisant (1.16)
et (1.19), alors
p.s
sup b (x) (x)
f n − f → 0,
x∈T=R
p.s
où → est la convergence presque-sûre.
Normalité asymptotique
Ce dernier résultat est tiré des travaux de Parzen (1962). Il montre que l’estimateur
à noyau est asymptotiquement normal.
Théorème 1.1.8 (Parzen [1962]). Soit f , une densité continue sur T = R et fbn son estimateur
à noyau (classique) K vérifiant (1.15). Si h satisfait (1.16) et (1.17) alors
n o
fbn (x) − E fbn (x) L
q n o → N(0, 1), ∀x ∈ T = R,
b
Var fn (x)
L
où → désigne la convergence en loi.
26 Francial G. Libengué
1.1. Estimateurs à noyaux continus classiques
n o−1 p
Fp (x) = 22p+1 B(p + 1, p) 1 − x2 , (1.20)
3
Epanechnikov (p = 1) [−1, 1] (1 − x2 ) 1
4
π
Cosinus [−1, 1] π
4
cos( x) 0, 999
2
15
Biweight (p = 2) [−1, 1] (1 − x2 )2 0, 994
16
35
Triweight (p = 3) [−1, 1] (1 − x2 )3 0, 987
32
1
Gaussien R √ exp (− 21 x2 ) 0, 946
2π
1
Unifiorme (p = 0) [−1, 1] 0, 930
2
1
Double Exponentielle R exp {− 21 |x|} 0, 759
2
27 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Epanechnikov
Biweight
Triangulaire
1.0
Uniforme
Gaussien
0.8
0.6
y
0.4
0.2
0.0
28 Francial G. Libengué
1.1. Estimateurs à noyaux continus classiques
Comme nous l’avons précédemment signalé, pour avoir une bonne estimation par
la méthode des noyaux, il faut bien choisir le paramètre de lissage h puisque celui-ci
a un rôle crucial dans le processus. Lorsque la fenêtre h est très petite, l’estimateur est
très volatile et on parle de sous-lissage (“under-smoothing” en anglais). En revanche,
lorsque h grandit, l’estimateur est alors de moins en moins influencé par les données.
On parle d’un effet de sur-lissage (“over-smoothing” en anglais). En pratique, il est
primordial de trouver la bonne dose de lissage qui permet d’éviter le sous-lissage et le
sur-lissage. Les méthodes existantes pour le choix de h peuvent être classées en deux
catégories.
La première catégorie est constitué des méthodes purement théoriques qui sont
basées sur la minimisation de l’erreur quadratique moyenne intégrée (MISE). En effet,
la valeur idéale théorique de h notée hid s’obtient en minimisant le MISE asymptotique
donné en (1.14). Ainsi, pour un échantillon de taille n donné et pour un noyau (classique)
K fixé, cette valeur idéale de h est donnée par
R 1/5
1
K 2
(t)dt
T
hid = 1/5
R . (1.21)
n σ4 f ′′ (x)dx
2
K T
Ce paramètre de lissage idéal hid obtenu n’est pas directement utilisable puisqu’il
2
dépend encore de la quantité inconnue f ′′ (x).
La deuxième catégorie est celle dite des méthodes pratiques. Elle est intéressante
puisqu’elle se laisse seulement guider par les observations. Elles ont été sujets des
travaux de nombreux auteurs parmi lesquels nous pouvons citer Scott et al. (1977),
Rudemo (1982), Stone (1984), Bowman (1984), Marron (1987), Berlinet & Devroye (1989),
Park & Marron (1992), Sarda & Vieu (1991), Cuevas et al. (1994) ainsi que Yondjé et al.
(1996a, 1996b).
Dans ce qui suit, nous allons décrire deux de ces méthodes pratiques à savoir
méthode de ré-injection (“Plug-in” en anglais), la méthode de validation croisée par les
moindres carrées (“Least Squares Cross Validation” en anglais).
Méthode Plug-in
R 2
Il s’agit ici d’estimer la quantité R f ′′ (x)dx dans l’expression de hid donnée en
(1.21). Plusieurs approches ont été proposées dans la littérature mais nous en rete-
nons deux. La première consiste à supposer que f appartient R à une famille de lois
′′ 2
paramétriques puis à estimer ces paramètres afin d’identifier T f (x)dx. L’autre est
R 2
totalement non paramétrique et fait appel à un estimateur à noyau de T f ′′ (x)dx.
Pour la première approche, en supposant que f appartienne à la famille gaussienne
centrée et de variance σ2 on trouve :
Z
2 3
f ′′ (x)dx = √ σ1/5 ≈ 0.212σ1/5 .
T 8 π
29 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
La valeur optimale de h notée hopt est obtenue en remplaçant σ dans l’expression de hid
q
Pn Pn
par son estimateur σ =
b i=1 (Xi − X) /(n − 1) avec X =
2
i=1 Xi /n. Ce qui conduit à :
! "
b
σ
hopt = 1.06 1/5 .
n
Cette approche donne de bons résultats lorsque la population est réellement normale-
ment distribuée. Toutefois, elle peut aussi donner une distribution trop lissée dans le
cas d’une population multimodale ; voir Silverman (1986).
La seconde approche est celle de SheatherR & Jones (1991) appelée communément
plug-in à trois étapes. Elle consiste à remplacer T f ′′2 (x)dx dans (1.14) par son estimateur
Z n ! "
b b′′
2 1 X (4) Xi − X j
Ra = f (x)dx = 2 5 L ,
T n a i,j=1 a
avec b = 0.912b
λn−1/9 où b
λ est l’estimateur de λ qui représente une mesure d’échelle de
f (par exemple son écart inter-quartile).
La mise en œuvre de ces différentes approches de plug-in fait usage des fonctions
nommées respectivement bw.nrd0 et [Link] disponible dans R Development Core Team
(2012).
L’idée de base des méthodes de validation croisée consiste à trouver une fonction
de score CV(h) dont le calcul est plus simple que MISE(h). Le paramètre de lissage h
sélectionné ici n’est pas déterministe mais dépend plutôt des observations. Pour plus
30 Francial G. Libengué
1.1. Estimateurs à noyaux continus classiques
de détails, on peut se référer à de nombreux auteurs tels que Bowman (1984), Marron
(1987), Rudemo (1982), Stone (1984). L’approche la plus utilisée est celle de validation
croisée par les moindres carrés. Elle consiste à minimiser une estimateur convenable
de ISE(h) défini par
Z n o2 Z Z Z
2
ISE(h) = fbn (x) − f (x) dx = b
fn (x)dx − 2 fbn (x) f (x)dx + f 2 (x)dx.
T T T T
Z
Compte tenu du fait que la quantité f 2 (x)dx ne dépend pas de h, on choisit le
T
paramètre de lissage de façon à ce qu’il minimise un estimateur de CV(h) définie par
Z n n
b
o2 2Xb
CV(h) = fn (x) dx − fn,−i (Xi ).
T n i=1
1 X ! x − Xj "
où fbn,−i (Xi ) = K est l’estimateur calculé à partir de l’échantillon
(n − 1)h j,i h
privé de l’observation Xi . Et la valeur optimale de h notée hCV est donnée par
31 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Toujours dans l’optique de résoudre le problème des effets de bord, Cowling & Hall
(1996) ont proposé la méthode des pseudo-données (“pseudo-data method” en anglais).
L’idée de cette méthode consiste à générer des observations supplémentaires X(i) à l
’aide de ce qu’ils appellent les “trois points pour mieux régner”, puis les combiner avec
les observations d’origine Xi pour former un type d’estimateur à noyau. Dans le même
ordre d’idée, Marron et Ruppert (1994) ont proposé la méthode de transformation
(“transformation method” en anglais). Elle est constituée de trois étapes. Tout d’abord,
une transformation g est choisie dans une famille paramétrique de telle sorte que la
densité des variables Yi = g(Xi ) ait une dérivée première qui est approximativement
égale à 0 aux bords. Ensuite, un estimateur à noyau de la réflexion est appliquée à
Yi . Enfin, cet estimateur est converti par la formule de changement de variables pour
obtenir une estimation de f .
Notons aussi que d’autres auteurs comme Bouezmarni et al. (2005) ainsi que Gus-
tafson et al. (2007) ont abordé le même sujet en combinant parfois quelques-unes de
ces méthodes.
Récemment, certains auteurs ont proposé, dans le cas des densités à support com-
pact, l’utilisation de noyaux dont le support coïncide avec celui de la densité à estimer.
Ceci a efficacement résolu le problème des effets de bord puisque les noyaux utilisés
ici sont généralement asymétriques et peuvent changer de forme selon la position du
point d’estimation. C’est notamment le cas de Chen (1999, 2000) avec les noyaux bêta et
gamma pour estimer les densités à support respectivement [0, 1] et [0, +∞[ puis Scaillet
(2004) avec les noyaux inverses gaussien et sa réciproque pour les densités à support
]0, +∞[.
Dans cette même optique, Senga Kiessé (2008) et Kokonendji & Senga Kiessé (2011)
ont proposé l’utilisation des noyaux associés discrets pour le lissage des données caté-
gorielles ou de dénombrement ; puisque jusqu’alors, certains auteurs comme Simonof
(1996) ainsi que Simonof & Tutz (2000) dans leur tentative d’estimation des données dis-
crètes font usage des noyaux continus. Nous présentons dans le prochain paragraphe
la méthode d’estimation par noyaux associés discrets.
1.2.1 Caractéristiques
Nous présentons, successivement, les définitions améliorées des types de noyaux et
noyaux associés discrets de Senga Kiessé (2008) et Kokonendji & Senga Kiessé (2011).
Nous rappelons ensuite les estimateurs à noyaux associés discrets. Enfin, examinons
quelques unes de leurs propriétés importantes pour la suite du présent travail.
32 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
x=−4
x=−2.1
x=1.2
0.4
x=2
0.3
N(x,h)(y)
0.2
0.1
0.0
−6 −4 −2 0 2 4 6
y
33 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
h=0.3
h=0.7
h=1.1
h=1.4
1.0
N(x,h)(y)
0.5
0.0
−1 0 1 2 3 4 5
y
34 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
Définition 1.2.1 On appelle type de noyau discret toute fonction de masse de probabilité
( f.m.p.) Kθ , paramétrée par θ ∈ Θ ⊆ R2 , de support Sθ ⊆ Z et de carré sommable.
Dans le reste de cette section, nous ne considérerons que les types de noyaux discrets
uni-modaux pour la construction des noyaux associés discrets. Donnons maintenant la
définition améliorée du noyau associé discret.
Notons que, lorsque B(x, h) 9 0, le noyau associé discret Kx,h est dit de “second ordre”.
Dans le cas contraire, il est dit du “premier ordre” (ou encore standard). Nous signalons
aussi qu’il n’existe pas une méthode générale pour la construction des noyaux associés
discrets. Il en résulte que celle-ci se fait au cas par cas. Toutefois, on peut remarquer que
les noyaux associés discrets sont en général asymétriques et leurs supports peuvent ne
pas dépendre de x et/ou h. La définition suivante présente l’estimateur à noyau associé
discret.
Définition 1.2.3 Soit X1 , X2 , · · · Xn , une suite de variables aléatoires discrètes i.i.d de fonction
de masse de probabilité (fmp) inconnue f sur TN ⊆ Z. L’estimateur à noyau associé discret de
f est défini par
1 Xn
fbn (x) = Kx,h (Xi ) (1.25)
n i=1
où h > 0 est le paramètre de lissage et Kx,h est le noyau associé discret dépendant de x et h.
Proposition 1.2.4 (Senga Kiessé [2008]). Soit f la fmp à estimer sur TN ⊆ Z et fbn son
estimateur à noyau associé discret en (1.25). Pour tout x ∈ TN et h > 0, on a respectivement
n o
E fbn (x) = E f Zx,h
fbn (x) ∈ [0, 1]
X
fbn (x) = C
x∈TN
35 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
La proposition suivante montre que les estimateurs à noyaux associés discrets sont
asymptotiquement sans biais en chaque point x ∈ TN .
Proposition 1.2.5 (Kokonendji & Senga Kiessé [2011]). Soit f la fmp à estimer sur TN ⊆ Z
et fbn son estimateur à noyau associé discret en (1.25). Pour tout x ∈ TN et h > 0, si h → 0
quand n → +∞ alors
n o X
E fbn (x) = f (y)Kx,h (y) → f (x), quand n → +∞.
y∈TN
Les résultats suivants concernent les faibles et fortes consistances ainsi que la nor-
malité asymptotique des estimateurs à noyaux associés discrets.
Proposition 1.2.6 (Abdous & Kokonendji [2009]). Soit f la fmp à estimer sur TN ⊆ Z et fbn
son estimateur à noyau associé discret en (1.25). Pour tout x ∈ TN et sous les conditions (1.23)
et (1.24) on a n o2 P
E fbn (x) − f (x) −→ 0, quand n → +∞.
P
où −→ est la convergence en probabilité.
Proposition 1.2.7 (Abdous & Kokonendji [2009]). Soit f la fmp à estimer sur TN ⊆ Z et fbn
son estimateur à noyau associé discret en (1.25). Pour tout x ∈ TN et sous les conditions (1.23)
et (1.24) on a
fbn (x) −→ f (x), quand n → +∞.
P
P.S.
où −→ désigne la convergence presque sûre.
Proposition 1.2.8 (Abdous & Kokonendji [2009]). Soit f la fmp à estimer sur TN ⊆ Z et fbn
son estimateur à noyau associé discret en (1.25). Pour tout x ∈ TN et sous les conditions (1.23)
et (1.24) on a n o
fbn (x) − E fbn (x) L
h n oi1/2 −→ N(0, 1), quand n → +∞.
b
Var fn (x)
L
où −→ représente la convergence en loi.
36 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
37 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
h
Aitchison & Aitken (1 − h) I{u=x} + I{u,x} {0, 1, ..., c − 1}
c−1
! "u ! "x+1−u
(x + 1)! x+h 1−h
Binomial {0, 1, ..., x + 1}
u!(x + 1 − u) x + 1 x+1
! "u x+1
(x + u)! x+h x+1
Binomial Négatif N
u!x! 2x + 1 + h 2x + 1 + h
(x + h)u e−(x+h)
Poisson N
u!
(m + 1)h − |u − x|h
Triangulaire {0, ±1, ..., ±k}
P(m, h)
1
Wang & Van Ryzin (1 − h) I{u=x} + (1 − h) h|u−x| I{|u−x|>1} Z
2
Dans les travaux de Senga Kiessé (2008) et Kokonendji & Senga Kiessé (2011), ceux-
ci ont proposé deux méthodes pour le choix du paramètre de lissage dans le cas discret.
Il s’agit en fait des méthodes de validation croisée par les moindres carrés et l’excès
de zéro que nous allons brièvement résumer dans les paragraphes suivants. Ensuite,
nous présentons aussi les méthodes bayésiennes pour le choix de paramètres de lissage
proposées par Zougab et al. (2012, 2013a, 2013b, 2013c).
L’idée principale de la méthode adaptée ici est la même que celle présentée dans la
Section 1.1.3. La seule différence est qu’ici, la fonction noyau Kx,h dépend intrinsèque-
ment du point d’estimation x et de paramètre de lissage h. Elle a l’avantage de ne pas
utiliser les approximations des dérivées de f .
On exprime le MISE de l’estimateur défini en (1.25) par
X
X X
bn 2 (x) b
MISE(h) = E
f
− 2E f n (x) f (x) + f 2 (x),
x∈TN x∈TN n
x∈TN
X
avec le terme f 2 (x) qui est non aléatoire et indépendant de h. Ensuite, on remplace
x∈TN n
38 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
le terme stochastique par son estimateur non biaisé CV(h) défini par
X 2X
CV(h) = fbn 2 (x) − fbn,−i (Xi )
x∈TN
n x∈TN
2
X X
2 Xn X n
=
Kx,h (Xi )
− KXi (X j ),
x∈T
x∈T
n(n − 1) i=1 j,i
N N
où fbn,−i est calculé à partir de fbn sans l’observation Xi . Enfin, on obtient le paramètre de
lissage optimal par
hcv = arg min CV(h).
h>0
Excès de zéros
Cette méthode proposée par Kokonendji et al. (2007) repose sur la particularité
des données de comptage (pour TN = N) qui consiste à avoir un nombre important
de zéros dans l’échantillon. Notons h0 = h0 (n, K) une fenêtre adaptée. Pour un noyau
associé discret Kx,h , le choix de h0 est fait de sorte que
X
P(Zx,h0 = 0) = n0 , (1.26)
y∈TN
Cette approche a été adaptée à l’estimation d’une fmp aux noyaux asymétriques par
Kuruwita et al. (2010) puis aux noyaux associés discrets par Zougab et al. (2013b). L’idée
consiste à considérer d’abord une suite de variables aléatoires discrètes X1 , X2 , · · · , Xn
de fmp f et de réalisations x = (x1 , x2 , · · · , xn ). Puis, on détermine l’estimateur de la
vraisemblance conditionnelle de données x sachant h définie par
n
Y
L(x1 , x2 , · · · , xn ; h) = π(x1 , x2 , · · · , xn |h) = fbn (xi ),
i=1
39 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
d’avoir
n
Y n
1 X
L(x1 , x2 , · · · , xn ; h) = π(x1 , x2 , · · · , xn |h) = Kx ,h (x j ). (1.27)
i=1
n − 1 j=1,i, j i
Par la suite, on choisit la loi a priori de h notée π(h) de sorte que les méthodes de Monte
Carlo pour les Chaînes de Markov (MCMC) puissent fonctionner correctement en la
prenant à constante près de la forme
1
π(h) ∝ . (1.28)
1 + h2
Ce qui n’a pas été le cas pour certains auteurs comme Brewer (1998), qui ont proposé la
loi gamma comme loi a priori pour h. Ensuite, on détermine par le théorème de Bayes
la loi a posteriori de h définie par
n
Y
π(h) fbn (xi )
π(x1 , x2 , · · · , xn |h)π(h) i=1
π(h|x1 , x2 , · · · , xn ) = = , (1.29)
π(x1 , x2 , · · · , xn ) π(x1 , x2 , · · · , xn )
Z
où π(x1 , x2 , · · · , xn ) = π(x1 , x2 , · · · , xn |h)dh. Puisque le calcul ce cette intégrale entraîne
des calculs fastidieux, alors on remplace la loi a posteriori par le produit de la loi a priori
avec l’estimateur de la vraisemblance. Ce qui conduit à
n n
1 Y 1 X
π(h|x1 , x2 , · · · , xn ) ∝ Kx ,h (x j ). (1.30)
1 + h2 i=1 n − 1 j=1,i, j i
Enfin, on utilise les méthodes de MCMC pour estimer h. Plus précisément, on applique
l’algorithme à marche aléatoire selon les quatre étapes suivantes :
Etape 1-) Initialisation de h0
XN
1
Etape 4-) Calculer l’estimateur de Bayes : b
h= h(t) .
N − N0 t=N +1
0
40 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
Comme le modèle fh est inconnu, on le remplace par son estimateur à noyau associé
discret fbh . Ainsi, la loi a posteriori de π(h|x) devient
fbh (x)π(x)
π(h|x, X1 , X2 , · · · , Xn ) = R
b . (1.32)
fbh (x)π(h)dh
L’utilisation de l’estimateur de Bayes sous la perte quadratique conduit au meilleur
estimateur bh de h au point x par
Z
b
hn (x) = π(h|x, X1 , X2 , · · · , Xn )dh.
hb (1.33)
Lorsque la loi a priori (1.31), la densité a posteriori (1.32) ainsi que la moyenne a posteriori
(1.33) ne s’obtiennent pas explicitement, on peut utiliser les MCMC.
où Kx,h est le noyau associé et hi est le paramètre de lissage adaptatif associé à chaque
observation xi . En utilisant la technique de validation croisée on estime f (xi ) comme en
(1.34) sur l’ensemble des observations sauf en xi et on a
n
1 X
fb−i (xi ) = fb(xi |{x−i }, hi ) = Kx,hi (x j ). (1.35)
n − 1 j=1,j,i
Soit π(hi ) la loi a priori de hi , à partir de la formule de Bayes, la loi a posteriori pour
chaque hi prend la forme suivante :
41 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Les expressions (1.36) et (1.37) donnent dans certains cas des résultats explicites grâce
à l’usage des priors conjugués ; le lecteur peut se référer à Brewer (2000) et Zougab et
al. (2013a).
avec
a1
X a2
X
h1
D(a1 , a2 , h1 , h2 ) = (a1 + a2 + 1) − (a1 + 1) −h1
k − (a2 + 1) −h2
kh2 .
k=1 k=1
Il a été signalé dans Kokonendji & Zocchi (2010) que lorsque h1 = h2 = h, on a la loi tri-
angulaire générale d’ordre h notée DT (m; a1 , a2 ; h, h) = DT (m; a1 , a2 ; h). Les principales
caractéristiques de cette loi sont données par le théorème suivant :
Théorème 1.2.9 (Kokonendji & Zocchi [2010]). Pour une variable aléatoire discrète Y de loi
DT (m; a1 , a2 ; h1 , h2 ) on a :
E(Y) = m + A(a1 , a2 ; h1 , h2 )
Var(Y) = B(a1 , a2 ; h1 , h2 ) − [A(a1 , a2 ; h1 , h2 )]2
avec
#
1 a2 (a2 + 1) a1 (a1 + 1)
A(a1 , a2 ; h1 , h2 ) = −
D(a1 , a2 , h1 , h2 ) 2 2
a
X1
! " h 1 a
X 2
! "h 2
%
k k
+ k − k
a1 + 1 a2 + 1
k=1 k=1
42 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
et
#
1 a2 (a2 + 1) (2a2 + 1) a1 (a1 + 1) (2a1 + 1)
B(a1 , a2 ; h1 , h2 ) = +
D(a1 , a2 , h1 , h2 ) 6 6
a
X1
! "h 1 Xa 2
! " h2
%
k k
− k2 − k2 .
a1 + 1 a2 + 1
k=1 k=1
De plus, lorsque :
La Figure 1.5 illustre les différentes formes qu’on peut obtenir en modifiant les para-
mètres de DT (m; a1 , a2 ; h1 , h2 ).
Considérons maintenant X1 , · · · , Xn une suite de variables aléatoires discrètes iid de
fmp inconnue f et de support TN = N ou TN = {0, 1, · · · , N} avec N un entier naturel
non nul. L’estimateur à noyau discret triangulaire général d’ordre h de f est défini par :
n
1X
fbn (x) = Kx,h;a1 ,a2 (Xi ) , x ∈ TN , (1.38)
n i=1
où (a1 , a2 ) ∈ N2 sont les deux bras, h = h(n) > 0 est le paramètre de lissage vérifiant
lim h(n) = 0, et Kx,h (·) ≡ f (·; x, a1 , a2 , h) qui satisfait la Définition 1.2.3. Soit Zx,a1 ,a2 ,h une
n→∞
variable aléatoire de loi DT (m; a1 , a2 ; h), les biais et variances ponctuels de cet estimateur
sont respectivement donnés par
h i 1
Bias fbn (x) = f E(Zx,a1 ,a2 ,h ) − f (x) + Var Zx,a1 ,a2 ,h f (2) (x) + o(h)
2
1 n o
= A(a1 , a2 ; h) f (1) (x) + B(a1 , a2 ; h) − [A(a1 , a2 ; h)]2 f (2) (x) + o(h), (1.39)
2
h i 1 2
Var fen (x) = f (x) 1 − f (x) Pr Zx,a1 ,a2 ,h = x + Rn (x; a1 , a2 , h)
n
1
= 2
f (x) 1 − f (x) + Rn (x; a1 , a2 , h)
n [D(a1 , a2 , h)]
43 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
Cas où T = N et a1 , 0
x si x ∈ {0, 1, · · · , a1 − 1}
a0 =
(1.40)
a si x ∈ {a1 , a1 + 1, · · · , N, · · · }.
1
44 Francial G. Libengué
1.2. Estimateurs à noyaux associés discrets
Cas où T = {0, 1, · · · , N}
Dans ce cas, l’estimateur à noyau discret triangulaire général produit les effets de
bords à droite du support {0, 1, · · · , N} puisque
[
Tx,a1 ,a2 = {−a1 , · · · , −1} ∪ {0, 1, · · · , N} ∪ {N + 1, · · · , N + a2 }.
x∈{0,1,··· ,N}
45 Francial G. Libengué
Chapitre 1. Estimateurs à noyaux : continus classiques et associés discrets
46 Francial G. Libengué
Chapitre 2
Dans le chapitre précédent, nous avons vu que pour une suite de variables aléatoires
X1 , · · · , Xn indépendantes et identiquement distribuées (iid) de fonction densité de
probabilité (fdp) f inconnue de support T, un sous ensemble de Rd (avec d = 1).
l’estimateur fbn de la fdp f est défini par
n
b 1 X x − Xi
fn (x) = K , x ∈ T = R. (2.1)
nh i=1 h
La fonction noyau K (·) en (2.1) vérifie la Définition 1.1.1 et est indépendante de la cible
x et la fenêtre de lissage h. Le lecteur peut, en plus du chapitre précédent, se référer aux
travaux de Rosenblatt (1956), Parzen (1962), Sylverman (1986), Devroye (1987), Scott
(1992) et Tsybakov (2004) afin d’approfondir ces notions. Cette fonction noyau K (·)
avait été imaginée pour estimer des densités f à support non borné T = R. Depuis
des travaux de Chen (1999, 2000) sur les noyaux bêta et gamma, respectivement pour
estimer les densité à support T = [0, 1] et T = [0, ∞), de Scaillet (2004) sur les noyaux
inverse gaussien et sa réciproque estimant les densités à support T = [0, ∞) ainsi que
les travaux de Kokonendji & Senga Kiessé (2011) pour le cas discret (i.e. T ⊆ Z), est née
une nouvelle famille d’estimateurs que nous appelons estimateurs à noyaux associés où
la fonction noyau est paramétrée par le point d’estimation x et le paramètre de lissage
h. Afin d’harmoniser l’écriture comme dans Kokonendji & Senga Kiessé (2011), on peut
écrire les estimateurs à noyaux associés continus fbn de la fdp f comme suit
n
1X
fbn (x) = Kx,h (Xi ), x ∈ T ⊆ R. (2.2)
n i=1
Il est facile de voir que le noyau (classique) K (·) en (2.1) devient un cas particulier des
noyaux associés continus Kx,h qui dépendent intrinsèquement de x et h, à travers la
relation :
1 x−·
Kx,h (·) = K . (2.3)
h h
De nombreux auteurs ont raffiné les propriétés de ces estimateurs à noyaux associés
dans des cas particuliers. C’est notamment le cas de Bouezmarni & Rolin (2003) qui ont
travaillé sur la consistance des estimateurs à noyaux bêta. Kokonendji et al. (2009) ont
47
Chapitre 2. Méthode des noyaux associés continus
aussi traité le cas d’estimation semi-paramétrique avec les noyaux associés discrets.
Bouezmarni & Roumbots (2010) ont présenté le cas multivarié essentiellement pour
les données bornées. Kokonendji & Zocchi (2010) ont proposé (comme nous l’avons
présenté dans le dernier paragraphe du chapitre précédent) une solution aux problèmes
des effets de bords dans le cas discret en utilisant le noyau triangulaire général. Senga
Kiesse & Rivoire (2010) ont pour leur part appliqué la régression semi-paramétrique sur
des données réelles. Balakrishnan et al. (2011) ont étudié le cas de mélange du noyau
Birnbaum-Sanders avec d’autres. Klutchnikoff & Bertin (2011) ont donné les propriétés
minimax des estimateurs à noyau bêta. Enfin, Zougab et al. (2012a, 2012b, 2012c) ont
traité le cas du choix de paramètres de lissage discret avec les méthodes bayésiennes.
Ce chapitre, se propose d’homogénéiser la théorie concernant les estimateurs à
noyaux associés continus en fournissant une technique systématique de construction
sans effets de bords sur n’importe quel type de support T de la densité f , à estimer.
Il s’organise de la manière suivante : nous présentons d’abord une définition géné-
rale des noyaux associés continus incluant les cas classiques. Ensuite, nous donnons
le principe de construction à partir de n’importe quelle fdp paramétrée et nous illus-
trons ceci sur les noyaux non-classiques de la littérature. Par la suite, nous utilisons ces
noyaux associés pour estimer des densités. Différentes propriétés ponctuelles sont pré-
sentées, en particulier la convergence au sens du risque quadratique moyen et intégré
asymptotique (”Asymptotic Mean Integrated Squared Error“ (AMISE) en anglais) et
l’algorithme de réduction de biais. Puis, des illustrations avec les types de noyaux tels
que Pareto, lognormal, bêta et sa version étendue, gamma et son inverse ainsi que l’in-
verse gaussien et sa réciproque, seront données. Enfin nous présentons les résultats des
études par simulation sur trois différents types d’estimateurs à noyaux lognormaux.
Dans tout ce chapitre, nous désignons par T = TI les intervalles de R a fortiori bornés
au moins d’un côté.
Définition 2.1.1 Un type de noyau continu Kθ , est une famille de densités de probabilité
paramétrées par θ ∈ Θ ⊆ R2 , de support un intervalle Sθ ⊆ R et de carré intégrable.
48 Francial G. Libengué
2.1. Noyaux associés continus
Remarque 2.1.2 (i) Le mode M(a, b) d’un type de noyau Kθ(a,b) appartient toujours à son
support Sθ(a,b) .
(ii) Le mode a la meilleure probabilité que le point moyen.
(iii) Lorsque la dispersion autour du mode tend vers zéro alors celle autour de la moyenne tend
également vers zéro.
x ∈ Sx,h , (2.4)
E(Zx,h ) = x + A(x, h), (2.5)
Var(Zx,h ) = B(x, h), (2.6)
où, Zx,h est une variable aléatoire de densité Kx,h sur Sx,h et A(x, h), B(x, h) qui tendent vers 0
quand h tend aussi vers 0.
Remarque 2.1.4 1. Les conditions (2.5) et (2.6) montrent implicitement que la construction
du noyau associé n’est pas unique voir [Proposition 2.2.6, Section 2.2.2].
2. Le support Sx,h du noyau associé Kx,h n’est pas nécessairement symétrique par rapport à
0 ou x comme dans le cas classique. Il peut ne pas dépendre de x et/ou h (e.g. le support
Sx,h du noyau d’Epanechnikov dépend de x et h. Toutefois, celui du noyau de Pareto
dépend seulement de x, par contre, les supports des noyaux bêta, gamma et autres sont
indépendants de x et h).
3. La condition (2.4) peut être remplacée par ∪x∈TI Sx,h ⊇ TI . Elle sous-entend que le choix
du noyau associé doit se faire en tenant compte du support TI de la densité f , de sorte que
Sx,h = TI afin d’éviter les problèmes classiques des effets de bords.
4. La condition (2.5) montre que les noyaux associés sont de plus en plus concentrés sur
le point d’estimation x lorsque h tend vers 0. Ceci met en évidence la flexibilité de ces
derniers à changer de forme suivant la position du point d’estimation.
49 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Dans la proposition suivante, nous montrons que tous les noyaux classiques sont des
noyaux associés. Nous y donnons aussi la forme de leurs supports en tant que noyaux
associés ainsi que leurs caractéristiques.
Proposition 2.1.5 Soit K un noyau classique (Voir Définition 1.1.1) de support S, de moyenne
µK = 0 et de variance σ2K < ∞. Pour un x ∈ T = R donné et h > 0, alors le noyau associé
classique est défini par (2.3) et son support est Sx,h = x − hS et de plus
En d’autres termes, (2.7) montre que les caractéristiques A et B du noyau associé classique Kx,h
sont :
A(x, h) = 0 et B(x, h) = O(h2 ). (2.8)
Démonstration. A partir de (2.3), pour un x fixé dans T et pour tout t dans T, il existe
u dans S tel que u = (x − t)/h et donc t = x − uh. Puisque t ∈ T, il vient de (2.4) que Sx,h =
x − hS. Les deux derniers résultats s’obtiennent facilement en calculant les moyenne et
variance de Kx,h , grâce à l’utilisation du changement de variables u = (x − t)/h.
Nous allons maintenant montrer la technique de construction des noyaux associés
non-classiques à partir de n’importe quel type de noyau.
Principe de construction
Etant donné un type de noyau Kθ(a,b) sur Sθ(a,b) , uni-modal de mode M(a, b) et d’un
paramètre de dispersion D(a, b), la méthode Mode-Dispersion permet la construction
d’une fonction Kθ(x,h) , dépendant de x et h en résolvant en a et b le système :
M(a, b) = x
(2.9)
D(a, b) = h.
50 Francial G. Libengué
2.1. Noyaux associés continus
Sθ(a(x,h),b(x,h)) , vérifie
x ∈ Sθ(x,h) , (2.10)
E(Zθ(x,h) ) − x = Aθ (x, h), (2.11)
Var(Zθ(x,h) ) = Bθ (x, h), (2.12)
où Zθ(x,h) est une variable aléatoire de densité Kθ(x,h) puis Aθ (x, h) et Bθ (x, h) tendent vers 0
quand h tend vers 0.
Démonstration. Tout d’abord, par la méthode mode-dispersion on a θ(x, h) = θ (a(x, h), b(x, h)),
ce qui permet d’avoir Sθ(x,h) = Sθ(a(x,h),b(x,h)) . Puisque Kθ(a,b) est unimodal et de mode
M(a, b) appartenant à Sθ(a,b) (grâce au point (i) de la Remarque 2.1.2), par la méthode
mode-dispersion on a le premier résultat (2.10) comme suit :
De plus, pour une variable aléatoire donnée Zθ(a,b) associée au type noyau uni-modal
Kθ(a,b) , on peut écrire E(Zθ(a,b) ) = M(a, b) + ε(a, b), où ε(a, b) est la différence entre le
mode et la moyenne de Kθ(a,b) . La méthode mode-dispersion conduit à M(a, b) = x et
ε(a, b) = ε(a(x, h), b(x, h)). On a par conséquent
En prenant Aθ (x, h) = ε(a(x, h), b(x, h)) puis, en utilisant la définition du paramètre de
dispersion autour du mode, on obtient le deuxième résultat (2.11). Enfin, comme Kθ(a,b)
admet un moment de second ordre, alors la variance de Kθ(x,h) existe et est une fonction
de x et h. On peut l’écrire comme suit :
Var(Zθ(x,h) ) = Bθ(a(x,h),b(x,h)) ,
avec Bθ(a(x,h),b(x,h)) qui tend vers zéro quand h tend vers zéro d’après le point (iii) de la
Remarque 2.1.2. On obtient le dernier résultat (2.12) en prenant Bθ (x, h) = Bθ(a(x,h),b(x,h)) .
Remarquons cependant que certains types de noyaux ne satisfont pas le principe
mode-dispersion, car il y en a qui ont des modes explicites et d’autres n’en ont pas.
C’est notamment le cas du type de noyau Weibul, de paramètres a > 1 et b > 0
(respectivement
paramètres de forme et d’échelle). Il est de moyenne et variance bΓ(1 +
1/a) et b2 Γ(1 + 2/a) − (2/a) log(2) , où Γ(a) représente la fonction gamma. Il est défini
sur ]0, +∞[ par : a
a a−1 x
Wθ(a,b) (u) = a u exp − 1[0,+∞[ (u).
b b
Son mode est égal à b(1 − 1/a)1/a et son paramètre de dispersion est b. Le système (2.9)
donne
(1 − 1/a)1/a = x/h
b = h.
On constate par là que les solutions a(x, h) et b(x, h) du système précédent seront telles
que b(x, h) = h est indépendant de x mais a(x, h) dépend fortement de x et h d’une
manière non linéaire.
51 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Un autre cas est celui du type de noyau Birnbaum-Saunders (proposé dans Birnbaum
& Saunders, 1969) de paramètres a > 0 et b > 0 et défini par :
! "1/2 ! "3/2 ! # %"
1[0,+∞) (u)
b b
−1 u b
BSθ(a,b) (u) = √
+
exp + −2 .
2ab 2π u u 2a2 b u
Ses moyenne et variance sont respectivement b(1 + a2 /2) et (ab)2 (1 + a2 /2). Le principe
mode-dispersion conduit à
arg max BSθ(a,h) (u) = x
u>0
b = h.
Il y a lieu de remarquer ici que, le mode M(a, h) = arg max BSθ(a,h) (u) n’a pas une forme
u>0
explicite. On l’obtient en résolvant une équation non linéaire en a. Balakrishnan et al.
(2011) ont calculé quelques valeurs modales en faisant varier a de 0.5 à 5.0.
Noyau bêta
Le noyau associé bêta a été introduit par Chen (1999), mais dans ses travaux, celui-ci
n’a pas montré comment il l’a construit. Nous le construisons dans ce paragraphe par
la méthode mode-dispersion. Nous signalons à l’avance que les résultats obtenus sont
les mêmes que ceux de Chen (1999).
Considérons le type de noyau bêta noté BEθ(a,b) de paramètres a > 1 et b > 0 (a et b
sont tous des paramètres de forme) et défini sur SBE = [0, 1] par :
1
BEθ(a,b) (u) = ua−1 (1 − u)b−1 1[0,1] (u),
B(a, b)
52 Francial G. Libengué
2.1. Noyaux associés continus
où B(a, b) est la fonction bêta. Son mode et son paramètre de dispersion sont respecti-
vement (a − 1)/(a + b − 2) et 1/(a + b − 2). La résolution du système (2.9) donne
x 1−x
θ(x, h) = + 1, + 1 pour tout x ∈ [0, 1] et h > 0.
h h
Ce qui permet d’écrire le noyau associé bêta BEθ(x,h) comme suit :
1
BEθ(x,h) (u) = ux/h (1 − u)(1−x)/h 1[0,1] (u).
x 1−x
B + 1, +1
h h
Son support est
SBEθ(x,h) = [0, 1] = SBE .
En injectant les composantes a(x, h) = (x/h) + 1 et b(x, h) = {(1 − x)/h} + 1 de θ(x, h), dans
les expressions
des moyenne et variance de BEθ(a,b) définies respectivement par a/(a + b)
2
et ab/ (a + b) (a + b + 1) , on trouve
h(1 − 2x) h x(1 − x) + h + h2
Aθ (x, h) = et Bθ (x, h) = .
1 + 2h (1 + 3h)(1 + 2h)2
Le noyau bêta étendu que nous introduisons ici est la généralisation du précédent.
Il est jusque-là inconnu en statistique non paramétrique mais il est souvent utilisé
en recherche opérationnelle (voir e.g. Grubbs, 1962). Il a deux paramètres de forme
a > 1, et b > 1 et est défini sur SEB = [t0 , t1 ], (t0 < t1 ≤ ∞) par :
1
EBθ(a,b;t0 ,t1 ) (u) = (u − t0 )a−1 (t1 − u)b−1 1[t0 ,t1 ] (u).
B(a, b)(t1 − t0 )a+b−1
Puisque son mode est {(a − 1)t1 + (b − 1)t0 } /(a + b − 2) et son paramètre de dispersion
1/(a + b − 2), la résolution du système (2.9) conduit à :
! "
x − t0 t1 − x
θ(x, h; t0 , t1 ) = + 1, + 1 pour tout x ∈ [t0 , t1 ] et h > 0.
(t1 − t0 )h (t1 − t0 )h
avec ∆ = B ([{x − t0 }/{(t1 − t0 )h}] + 1, [{t1 − x}/{(t1 − t0 )h}] + 1). Il est de support
En remplaçant a et b dans les expressions des moyenne et variance de BEθ(a,b;t0 ,t1 ) (i.e
dans t0 + (t1 − t0 )a/(a + b) et ab(t1 − t0 )2 /{(a + b)2 (a + b + 1)}), par les solutions a(x, h; t0 , t1 )
53 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
h{(t0 + t1 ) − 2x}
Aθ (x, h; t0 , t1 ) = (2.13)
1 + 2h
h{x − t0 + h(t1 − t0 )}{(t1 − x) + h(t1 − t0 )}
Bθ (x, h; t0 , t1 ) = . (2.14)
(1 + 2h)2 (1 + 3h)
Les figures suivantes montrent la flexibilité du noyau associé bêta étendu. Plus préci-
sément, nous présentons dans la Figure 2.1 le type de noyau bêta étendu pour x ∈ [2, 5]
puis, dans les deux derniers, nous donnons les différentes formes de ce noyau associé
respectivement sous l’effet cible x et l’effet paramètre h.
a=b=0.5
1.5
a=5,b=1
a=1,b=3
Beta(a,b;2,5)(y)
a=1.5,b=1.5
a=2,b=5
1.0
a=5,b=2
0.5
Noyau gamma
Ce noyau associé a été pour la première fois proposé par Chen (2000) dans le but
d’estimer les densités sur [0, +∞[ sans pourtant montrer comment il l’a construit. Nous
proposons ici sa construction par la méthode mode-dispersion. Une fois de plus nous
signalons d’avance que nos résultats coïncident avec ceux de Chen (2000).
Sans plus tarder notons GAθ(a,b) , le type de noyau gamma de paramètres a > 1 et
b > 0 (avec a paramètre de forme et b celui d’échelle) et défini sur SGA = [0, +∞[ par :
1 −a a−1 u
GAθ(a,b) (u) = b u exp − 1[0,+∞[ (u).
Γ(a) b
54 Francial G. Libengué
2.1. Noyaux associés continus
0.5
x=2.1
x=2.5
0.4
x=3.0
Beta(x,h;2,5)(y)
x=3.5
0.3
x=4.4
x=4.8
0.2
0.1
0.0
h=0.09
h=0.1
Beta(x,h;2,5)
h=0.105
4000
h=0.11
h=0.115
h=0.12
2000
0
55 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Partant de son mode et son paramètre de dispersion définis respectivement par b/(a+1)
et 1/b, on utilise le principe mode-dispersion pour obtenir :
1 1
θ(x, h) = − 1, pour tout h > 0 et x ∈]0, 1/h[.
xh h
Ce qui conduit au noyau associé gamma inverse noté GIθ(x,h) et défini par
h1−1/(xh) −1/(xh) 1
GIθ(x,h) (u) = u exp − 1]0,+∞[ (u).
1 hu
Γ −1
xh
Son support est
SGIθ(x,h) =]0, +∞[= SGI .
De plus, en remplaçant a et b dans les expressions de moyenne et variance de GIθ(a,b)
(i.e b/(a − 1) et b2 /{(a − 1)2 (a − 2)}) par les composantes de θ(x, h), on trouve
2x2 h x3 h
Aθ (x, h) = et Bθ (x, h) = .
1 − 2xh (1 − 2xh)2 (1 − 3xh)
Notons ici que pour tout h > 0 fixé, θ(x, h) n’est défini que sur ]0, 1/h[. Ceci montre
que le noyau associé inverse gamma n’est pas approprié pour l’estimation des densités
sur la toute partie positive de la droite réelle.
56 Francial G. Libengué
2.1. Noyaux associés continus
Le noyau associé inverse gaussien ainsi que sa version réciproque ont été introduits
par Scaillet (2004) sans aucune précision sur leur construction. Le lecteur peut aussi
consulter l’ouvrage de Seshadri (1993) pour d’autres propriétés de ce type de noyau. Ici,
nous utilisons la méthode mode-dispersion pour construire le noyau associé gaussien
inverse. Nous précisons ici que la version proposée par Scaillet (2004) est celle modifiée
du noyau associée que nous construisons ici [voir section 2.2.3] pour plus de précision.
Désignons par IGθ(a,b) le type de noyau inverse gaussien de paramètres a > 0 et b > 0
(avec a paramètre de forme et b celui d’échelle). Il est défini sur SIG =]0, +∞[ par
√ ( )
b b u a
IGθ(a,b) (u) = √ exp − −2+ 1R+∗ (u).
2πt3 2a a u
n 1/2 o
A travers son mode a 1 + 9a2 b−2 /4 − 3ab−1 /2 et son paramètre de dispersion 1/b,
on obtient d’après la méthode mode-dispersion
! "
x 1
θ(x, h) = √ , pour tout h > 0 et x ∈]0, 1/3h[.
1 − 3xh h
Ainsi, le noyau associé gaussien inverse construit est,
( ! ")
1 ξ(x, h) uξ(x, h) x
IGθ(x,h) (u) = √ exp − −2+ 1R+∗ (u),
h 2πu3 2xh x uξ(x, h)
57 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
n 1/2 o
A partir de son mode (1/a) 1 + a2 b−2 /4 − ab−1 /2 et de son paramètre de dispersion
1/b, on résout le système (5), puis on trouve
! "
1 1
θ(x, h) = √ , pour tout x ∈]0, +∞[ et h > 0.
x2 + xh h
Ce qui conduit au noyau associé gaussien inverse réciproque défini par :
( ! ")
1 ζ(x, h) u ζ(x, h)
RGθ(x,h) (u) = √ exp − −2+ 1R+∗ (u),
2πhu 2h ζ(x, h) u
En écrivant sa moyenne 1/a + 1/b puis sa variance 1/(ab) + 2/b2 en fonction des compo-
santes de θ(x, h) définies précédemment, on trouve
Noyau de Pareto
Nous introduisons ce noyau qu’on utilise dans les cas des valeurs extrêmes. Il est
de paramètres a > 0 et b > 0 respectivement paramètres de forme et d’échelle. Il a pour
support SPAθ(a,b) = [a, +∞[ et est défini par :
bab
PAθ(a,b) (u) = 1[a,+∞[ (u).
ub+1
Son mode et son paramètre de dispersion sont respectivement a et 1/b. En résolvant le
système (2.9), on obtient :
1
θ(x, h) = x, pour tout x ∈]0, +∞[ et h > 0.
h
On obtient finalement le noyau associé de Pareto défini par :
1 x 1/h
PAθ(x,h) (u) = 1[x,+∞[ (u).
hu u
Il est de support
SPAθ(x,h) = [x, ∞[, SPAθ(a,b) = [a, +∞[,
où a est le mode du type de noyau PAθ(a,b) . En exprimant sa moyenne ab/(b−1) pour b > 1
et sa variance a2 b/{(b − 1)2 (b − 2)} pour b > 2 en fonction des composantes de θ(x, h), on
obtient alors
xh (xh)2
Aθ (x, h) = et Bθ (x, h) = .
1−h (1 − h)2 (1 − 2h)
58 Francial G. Libengué
2.1. Noyaux associés continus
Noyau log-normal
défini sur
SLNθ(x,h) = [0, +∞[= SLN .
2
2 2
Puis, en exprimant sa moyenne ea+b /2 ainsi que sa variance eb − 1 e2a+b en fonction
des solutions issues du système(2.9), on a :
2 2
2
Aθ (x, h) = x e(3h )/2 − 1 et Bθ (x, h) = x2 e(3h ) eh − 1 .
Les constructions faites nous ont permis de savoir qu’en général le support du type
de noyau et celui du noyau associé construit par le principe mode-dispersion coïncident
sauf dans le cas des noyaux associés gamma inverse et gaussien inverse où le support
du type de noyau et celui des noyaux associés diffèrent. Ceci est issue des contraintes
liées à leurs paramétrisations x < 1/(3h) pour le noyau associé gaussien inverse puis
x < 1/h dans le cas de gamma inverse.
Nous signalons aussi qu’il existe d’autres méthodes de construction qu’utilisent
certains auteurs mais cela reste à leur discrétion. Nous pouvons pour cela citer les
travaux de Jin & Kawczak (2003) sur les noyaux Birnbaum-Sanders et lognormal.
Nous résumons, dans les tableaux suivants, les différents résultats obtenus dans
cette section.
59 Francial G. Libengué
Table 2.1 – Quelques types de noyaux (pour la suite voir Tableau 2.2)
a(t2 − t1 ) a b
E Zθ(a,b) t1 + ab
a+b a+b a−1
ab(t2 − t1 )2 ab b2
Var Zθ(a,b) ab2
(a + b)2 (a + b + 1) (a + b) (a + b + 1)
2 (a − 1)2 (a − 2)
Francial G. Libengué
2.1. Noyaux associés continus
Table 2.2 – Quelques types de noyaux (suite du Tableau 2.1)
ab 2
E Zθ(a,b) a a−1 + b−1 ea+b /2
b−1
Francial G. Libengué
a2 b 2 2
Var Zθ(a,b) a3 /b 1/(ab) + 2/b2 eb − 1 e2a+b
(b − 1)2 (b − 2)
Chapitre 2. Méthode des noyaux associés continus
! "
x − t1 t2 − x x 1−x
θ(x, h) + 1, +1 + 1, +1
(t2 − t1 )h (t2 − t1 )h h h
h{x − t1 + h(t2 − t1 )}{(t2 − x) + h(t2 − t1 )} h x(1 − x) + h + h2
Bθ (x, h)
(1 + 2h)2 (1 + 3h) (1 + 3h)(1 + 2h)2
62 Francial G. Libengué
2.1. Noyaux associés continus
Table 2.4 – Quelques noyaux associés non-classiques
Kθ(x,h) Gamma Gamma inv. Gaussien inv. Gaussien inv. Rec. Pareto Lognormal
! " ! "
x 1 1 x 1 1 1 1
θ(x, h) + 1, h − 1, √ , √ , x, log(x) + h2 , h
h xh h 1 − 3xh h x2 + xh h h
( )
63
2x2 h 1 √ xh 2
Aθ (x, h) h x √ −1 x2 + xh − x + h x e(3h )/2 − 1
1 − 2xh 1 − 3xh 1−h
Maintenant que nous savons nettement construire les noyaux associés Kθ(x,h) , nous
sommes en mesure de définir avec précision l’estimateur à noyau associé continu pour
une densité f inconnue sur un compact TI . C’est l’objet de la section suivante.
2.2.1 Caractéristiques
Nous désignons tout au long de cette section par X1 , X2 , · · · , Xn une suite de variables
aléatoires iid de densité f inconnue sur TI ⊆ R, par Zθ(x,h) une variable aléatoire de loi
Kθ(x,h) (où Kθ(x,h) est un noyau associé construit par la méthode mode-dispersion).
Définition 2.2.1 Soit f la densité à estimer sur TI ⊆ R, h > 0 et Kθ(x,h) un noyau associé
continu. L’estimateur fbn de f issu de Kθ(x,h) est défini par :
n
1X
fbn (x) = Kθ(x,h) (Xi ). (2.15)
n i=1
Cet estimateur est similaire à celui défini en (2.2) sauf qu’ici Kθ(x,h) est construit par
la méthode mode-dispersion. Donnons maintenant les premières propriétés de cet
estimateur.
64 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Gamma
Inverse gamma
Inverse Gaussian
Reciprocal Inverse Gaussian
lognormal
1.0
K_(x,h)(u)
0.5
0.0
0 1 2 3 4
65 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Gamma
Inverse gamma
Inverse Gaussian
Reciprocal Inverse Gaussian
lognormal
1.0
K_(x,h)(u)
0.5
0.0
0 1 2 3 4
66 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Remarque 2.2.3 La troisième propriété de la Proposition 2.2.2 montre que l’estimateur à noyau
associé n’est pas forcément une densité de probabilité. Sa masse totale Λ(n, h, K) = Λ est positive
et finie i.e. Z
Kθ(x,h) (u)dx < ∞ pour tout u ∈ Sθ(x,h) ∩ TI .
TI
Cependant, on peut facilement vérifier que Λ = 1 dans le cas des noyaux classiques.
Pour la deuxième propriété, partant du fait que Kθ(x,h) est une densité de probabilité, on
a Kθ(x,h) (Xi ) ∈ [0, 1], pour tout x ∈ Sθ(x,h) ∩ TI , Xi ∈ TI et h > 0. Puisque les Kθ(x,h) (Xi )
i
n
1X
sont aussi iid, alors Kθ(x,h) (Xi ) ∈ [0, 1]. Quant à la dernière propriété, elle se déduit
n i=1
de la Remarque 2.2.3 dans le cas des noyaux associés classiques, puis du Tableau 2.5
dans le cas non-classique.
Nous donnons dans le Tableau 2.5 les différentes valeurs de Λ dans des cas parti-
culiers des noyaux associés bêta, gamma, gamma inverse, lognormal, gaussien inverse
et sa réciproque. Dans chaque cas, nous calculons la masse totale de l’estimateur sur le
support TI correspondant en utilisant cinq échantillons de variables aléatoires de taille
n = 1000 suivant la loi normale tronquée sur TI . Signalons tout de même qu’une étude
similaire été menée par Gourieroux & Monfort (2006) dans le cas particulier de bêta et
ils ont abouti à la même conclusion.
67 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Nous présentons dans la proposition suivante les formes assez particulières des biais
et variance de l’estimateur à noyaux associés continus.
Proposition 2.2.4 Soit fbn l’estimateur à noyau associé (2.15) de f appartenent à C 2 (TI ). Pour
tout x dans TI et h = hn > 0, alors
n o 1n o
Biais fbn (x) = Aθ (x, h) f ′ (x) + A2θ (x, h) + Bθ (x, h) f ′′ (x) + o(h2 ). (2.19)
2
De plus, si f est bornée sur T alors
n o 1
2 1
Var fbn (x) = f (x) Kθ(x,h) +o , (2.20)
n 2 nhr2
Z
2 2
où r2 = r2 Kθ(x,h) > 0 est le plus grand réel tel que Kθ(x,h) 2
= Kθ(x,h) (u)du ≤ c2 (x)hn−r2
Sθ(x,h) ∩T
et 0 < c2 (x) < ∞.
Signalons que les estimateurs à noyaux associés continus sont aussi (comme dans le
cas classique), asymptotiquement sans biais (grâce à la Définition 2.1.3). Cependant,
l’expression du biais donné dans cette proposition diffère de celui introduit en (1.4)
par la présence du terme Aθ (x, h) f ′ (x) qui est visiblement non négligeable. Ceci peut
être interprété comme l’équivalent des effets de bords dans le cas classique. Pour y
remédier, un algorithme de réduction de biais est proposé dans la section 2.2.2.
Démonstration de la Proposition 2.2.4. Pour tout x ∈ TI et r > 0, on obtient le biais de
fbn en procédant de la manière suivante :
(i)
Biais fbn (x) = E f (Zθ(x,h) ) − f (x)
(ii) n o 1 n o
= f E(Zθ(x,h) ) + Var(Zθ(x,h) ) f ′′ E(Zθ(x,h) ) − f (x)
n 2
o2
+ o E Zθ(x,h) − E(Zθ(x,h) )
(iii) 1
= f {x + Aθ (x, h)} + Bθ (x, h) f ′′ {x + Aθ (x, h)} − f (x)
2
+ o {Bθ (x, h)}
(iv) 1n o
= Aθ (x, h) f ′ (x) + A2θ (x, h) + B(x, h) f ′′ (x) + o(h2 ).
2
L’égalité (i) vient de la Proposition 2.2.2. Le (ii) est obtenu après développement de
f (Zθ(x,h) ) en séries de Taylor au voisinage de E(Zθ(x,h) ) à l’ordre deux. Pour le (iii),
on remplace dans (ii) successivement, f (Zθ(x,h) ) par son approximation de Taylor, puis
E(Zθ(x,h) ) par son expression dans la Définition 2.1.3. Enfin, le (iv) s’obtient en approxi-
mant f (x + Aθ (x, h)) par les séries de Taylor au voisinage de x à l’ordre deux et en sous-
n o2
2
trayant f (x) par la suite. En fait, le reste o(h ) vient de (2.8) et o E Zθ(x,h) − E(Zθ(x,h) ) =
n o2
E oP Zθ(x,h) − E(Zθ(x,h) ) où oP (·) est le taux de convergence en probabilité. Concer-
68 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
nant la variance on a
n o 1 n o 1h n oi2
Var fbn (x) = E Kθ(x,h)
2
(X1 ) − E Kθ(x,h) (X1 )
nZ n
1 2 1h n oi2
= Kθ(x,h) (u) f (u)du − E Kθ(x,h) (X1 )
n Sθ(x,h) ∩TI n
= I1 − I2 .
A partir de (2.16) et (2.19) le second terme se comporte de la manière suivante
h n oi2
I2 := (1/n) E Kθ(x,h) (X1 ) ≃ (1/n) f 2 (x) ≃ O(1/n) puisque f est bornée pour tout x ∈ TI .
En utilisant le développement de f en séries de Taylor aux voisinages de x, le premier
terme I1 donne
Z Z
1 2 1 2
I1 := Kθ(x,h) (u) f (u)du = f (x) Kθ(x,h) (u)du + R(x, h),
n Sx,h ∩TI n Sx,h ∩TI
avec
Z # %
1 2 ′ (u − x)2 ′′ 2
R(x, h) = Kθ(x,h) (u) (u − x) f (x) + f (x) + o{(u − x) } du.
n Sx,h ∩TI 2
2
Sous l’hypothèse que Kθ(x,h) 2 ≤ c2 (x)h−rn nous déduisons successivement
2
Z ( )
1 ′ (u − x)2 ′′
0 ≤ R(x, h) ≤ r c2 (x) (u − x) f (x) + f (x) du ≃ o(n−1 h−r2 ).
nh 2 Sx,h ∩TI 2
Comme nous l’avons dit dans le deuxième paragraphe de la Section 1.1 du chapitre
précédent, le critère naturel qui permet d’évaluer la similarité de l’estimateur fbn par
rapport à la vraie densité f à estimer est le MSE dans le cas ponctuel et le MISE dans
le cas global. Nous les utilisons une fois de plus dans ce paragraphe, pour mesurer
l’efficacité de l’estimateur fbn = fbn,h,K, f obtenu à l’aide des noyaux associés continus. Nous
rappelons ici que le MSE et le MISE de l’estimateur à noyaux associés continus sont
comme dans le cas des noyaux associés classiques (1.5) et (1.8), définis respectivement
par n o n o
MSE(x) = Var fbn (x) + Biais2 fbn (x) , (2.21)
et Z Z
n o n o
MISE(n, h, K, f ) = Var fbn (x) dx + Biais2 fbn (x) dx. (2.22)
TI TI
69 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
et
Z ! 2 "
1
AMISE( fbn,h,K, f ) = ′ 2 ′′
Aθ (x, h) f (x) + {Aθ (x, h) + Bθ (x, h)} f (x) dx
TI 2
Z
1 2
+ Kθ(x,h) 2 f (x)dx. (2.24)
TI n
Proposition 2.2.5 Soit f ∈ C 2 (TI ), la densité à estimer. Si les dérivées premières et secondes
de f sont bornées alors la fenêtre optimale de lissage qui minimise le AMISE est
h = C(x)n−1/(r2 +2)
avec r2 = r2 Kθ(x,h) défini dans (2.20).
avec C1 (x) et C2 (x) les primitives respectivement de c21 (x) et c2 (x) sur TI . En prenant le
second membre égal à 0 on trouve le résultat.
La valeur de h ainsi obtenue, fournit la vitesse de convergence de l’estimateur à
noyau associé continu. Pour les noyaux classiques, cette notion a été aussi sujet des
travaux de beaucoup d’auteurs dont Sarda & Vieu (1988).
Il y a lieu ici de constater que la présence du terme Aθ (x, h) f ′ (x) avec Aθ (x, h) , 0 dans
l’expression du biais de fbn,h,K, f augmente les erreurs de ce dernier. D’où nécessité de
la réduction de biais, plus précisément l’annulation de Aθ (x, h). Ainsi, nous proposons
dans le prochain paragraphe un algorithme permettant d’annuler Aθ (x, h) dans la plus
grande partie du support TI ; cette procédure est inspirée de Chen (1999, 2000, 2010).
Pour réduire le biais de fbn,h,K, f défini en (2.19), on procède en deux étapes. La première
étape consiste à définir les régions de bords et de l’intérieur et la seconde traite de la
modification du noyau associé qui conduit à un biais réduit.
70 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Gamma
Inverse gamma
Inverse gaussien
Inverse gaussien réciproque
0.3
Lognormal
f(x)
f_n(x)
0.2
0.1
0.0
2 4 6 8 10
71 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Gamma
Inverse gamma
1.0
Inverse gaussien
Inverse gaussien réciproque
Lognormal
0.8
MSE(x)
0.6
0.4
0.2
0.0
Figure 2.7 – Comportements des MSE aux bords dans l’estmation de la densité normale
tronquée.
72 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Lognormal
Gamma
Inverse gamma
0.8
Inverse Gaussian
Reciprocal inverse Gaussian
0.6
MSE(x)
0.4
0.2
0.0
Figure 2.8 – Comportements des MSE aux bords dans l’estmation de la densité expo-
nentielle.
73 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Première étape
On divise le support TI = [t1 , t2 ] en deux régions d’ordre α(h) > 0 avec α(h) → 0
quand h → 0 ;
(i) région intérieure (La plus grande région pouvant contenir 95% des observations)
notée Tα(h),0 et définie par l’intervalle
(ii) régions de bords (pouvant être vide) représentées par les deux intervalles Tα(h),−1 et
Tα(h),+1 respectivement définis par
et
Tα(h),+1 = [t2 − α(h), t2 ] (à droite).
Deuxième étape
soit continue sur TI et constant sur Tcα(h),0 voir Chen (2010). Nous présentons quelques
illustrations dans la Section 4.
La proposition suivante montre que la fonction noyau modifié Kθ(x,h)
e de support
Sθ(x,h)
e = S θ(x,h) est un noyau associé continu.
74 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Démonstration. Nous montrons ici que Kθ(x,h) e satisfait les conditions de la Définition
2.1.3. En partant du fait que Kθ(x,h) est un noyau associé puis en utilisant la première
étape de l’algorithme de réduction de biais, on a pour tout j ∈ J = {−1, 0, +1},
x ∈ Tα(h), j ⇒ x ∈ TI ⇒ x ∈ Sθ(x,h) = Sθ(x,h)
e .
Les deux derniers résultats découlent de la Proposition 2.1.6. C’est-à-dire que pour
toute variable aléatoire Zθ(x,h)
e de densité Kθ(x,h)
e on a
E(Zθ(x,h)
e ) = x + Aθ(x,h)
e et Var(Zθ(x,h)
e ) = Bθ(x,h)
e
avec Aθ(x,h)
e et Bθ(x,h)
e qui tendent vers 0 quand h tend vers 0. En prenant A(x, e h) = Ae
θ(x,h)
e
et B(x, h) = Bθ(x,h)
e
e e
il vient que pour tout j ∈ J, A j (x, h) = Aθej (x,h) et B j (x, h) = Bθej (x,h) . En
particulier, à partir de (2.26) on obtient Aθe0 (x,h) = 0.
Ainsi, à partir de la Définition 2.2.1 puis en utilisant le noyau associé modifié Kθ(x,h)
e ,
on définit l’estimateur à noyau associé modifié fen de f par :
n
1X
fen (x) = Ke (Xi ) . (2.27)
n i=1 θ(x,h)
75 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Choix du noyau
1 1 2
AMSE0 (x) = B2e (x, h){ f ′′ (x)}2 + Ke f (x)
4 θ0 n θ(x,h) 2
Ainsi, pour des noyaux associés de même support S, le noyau optimal (le noyau qui
estime mieux) noté Kθ opt dans la région intérieure de TI (i.e. sur Tα(h),0 ) est celui qui a le
plus petit AMISE0 pour tout h > 0. On écrit alors
Remarque 2.2.8 Lorsque T = R, ceci coïncide avec le cas classique et le noyau optimal est
celui d’Epachnikov.
Le noyau associé bêta étendu construit dans la Section 2.1.3 est approprié pour
l’estimation des densités f ayant pour support TI = SEB = [t0 , t1 ]. Considérons fbn;t0 ,t1 un
estimateur de f par le noyau associé bêta étendu. Par utilisation de la Proposition 2.2.4,
le calcul de son biais donne :
# %2
n o h{(t0 + t1 ) − 2x} 1 h{(t0 + t1 ) − 2x}
b
Biais fn;t0 ,t1 (x) = ′
f (x) + f ′′ (x)
1 + 2h 2 1 + 2h
{x − t0 + h(t1 − t0 )}{(t0 − x) + h(t1 − t0 )} ′′
+ f (x) + o(h2 ).
2(1 + 2h)2 (1 + 3h)
76 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Ce biais est grand par la présence du terme non nul en f ′ et nous allons l’éliminer en
utilisant l’algorithme de réduction de biais proposé dans la Section 2.2.2. Premièrement,
nous divisons le support TI respectivement en Tα(h),−1 = [t0 , t0 + α(h)], Tα(h),0 =]t0 +
α(h), t1 − α(h)[ et Tα(h),+1 = [t1 − α(h), t1 ]. Dans un second temps, nous considérons la
fonction ψ : T → T définie par
ψ(z) = α(h){z − α(h) + 1} pour tout z ≥ 0, (2.28)
et e
B(x, h; t0 , t1 ) données par :
x(x − t0 ) + (1 − x)ψ(x − t0 )
si x ∈ [t0 , t0 + α(h)]
x − t0 + ψ(x − t0 )
e h, t0 ; t1 ) =
A(x, 0 si x ∈]t0 + α(h), t1 − α(h)[
x(t1 − x) + (1 − x)ψ(t1 − x)
si x ∈ [t1 − α(h), t1 ],
t1 − x + ψ(t1 − x)
et
h(x − t0 )ψ(x − t0 ){x − t0 + ψ(x − t0 )}−2
si x ∈ [t0 , t0 + α(h)]
{x − t0 + ψ(x − t0 ) + h}
e h(x − t0 )(t1 − x)
B(x, h) =
si x ∈]t0 + α(h), t1 − α(h)[
1+h
h(t 1 − x)ψ(t1 − x)}{(t1 − x) + ψ(t1 − x)}−2
si x ∈ [t1 − α(h), t1 ].
{(t1 − x) + ψ(t1 − x) + h}
Ainsi, le biais réduit de fen;t0 ,t1 sur ]t0 + α(h), t1 − α(h)[ est donné par :
n o 1
Biais fen;t0 ,t1 (x) = h(x − t0 )(t1 − x) f ′′ (x) + o(h2 ).
2
2
Le calcul de la variance de fen;t0 ,t1 est réduit à la détermination de EBθ(x,h;t e 0 ,t1 ) 2
. En
partant de sa définition donnée dans la Proposition 2.2.4, on a
Z
2
EBθ(x,h;t
e 0 ,t1 ) 2
= EB2(x,h;t0 ,t1 ) (t)dt
[t ,t ]
Z 0 1
(u − t0 )2(x−t0 )/h (t1 − u)2(t1 −x)/h du
=
[t0 ,t1 ] {B (1 + (x − t0 )/(t1 − t0 )h, 1 + (t1 − x)/(t1 − t0 )h)}
2
77 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
On obtient alors la variance de fen;t1 ,t2 (x) pour tout x ∈ (t1 + α(h), t2 − α(h))
n o (x − t0 )−1/2 (t1 − x)−1/2
e 1
Var fn;t1 ,t2 (x) = √ f (x) + o . (2.32)
2 π(t1 − t0 )−1 nh1/2 nh1/2
On en déduit que r2 = 1/2.
Le noyau bêta présenté dans Chen(1999) est un cas particulier de ce bêta étendu.
On l’obtient en prenant t0 = 0 et t1 = 1. Dans ce cas, son biais est
( )
n o h − 2xh 1 (h − 2xh)2 x(1 − x)h + h2 + h3 ′′
b
Biais fn (x) = ′
f (x) + + f (x) + o(h2 ).
1 + 2h 2 (1 + 2h)2 (1 + 3h)(1 + 2h)2
La première étape de réduction de biais donne : Tα(h),−1 = [0, α(h)], Tα(h),0 =]α(h), 1−α(h)[
et Tα(h),+1 = [1 − α(h), 1] (e.g. dans Chen(1999), α(h) = 2h). Le noyau bêta modifié est
e h) définie par :
obtenu à partir de θ(x,
! "
ψ(x) x
, si x ∈ [0, α(h)]
h h
e x 1−x
θ(x, h) =
, si x ∈]α(h), 1 − α(h)[
! h h "
1 − x ψ(1 − x)
, si x ∈ [1 − α(h), 1],
h h
e h) et e
les calculs de A(x, B(x, h) donnent respectivement :
(1 − x)ψ(x) + x2
si x ∈ [0, α(h)]
x + ψ(x)
e h) =
A(x, 0 si x ∈]α(h), 1 − α(h)[
(1 − x){x − ψ(1 − x)}
si x ∈ [1 − α(h), 1],
1 − x + ψ(1 − x)
78 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
et
hxψ(x)
si x ∈ [0, α(h)]
{x + ψ(x)}2 {x + ψ(x) + h}
hx(1 − x)
e
B(x, h) = si x ∈]α(h), 1 − α(h)[
1+h
h(1 − x)ψ(1 − x){1 − x + ψ(1 − x)}−2
si x ∈ [1 − α(h), 1].
{1 − x + ψ(1 − x) + h}
Donc le biais réduit à l’intérieur (i.e. pour x ∈]α(h), 1 − α(h)[) est :
n o 1 x(1 − x)h
Biais fen (x) = f ′′ (x) + o(h2 ).
2 1+h
Sa variance déduite de (2.30) est alors
n o B (1 + 2x/h, 1 + 2(1 − x)/h) 1
b 1
Var fn (x) = f (x) + o .
{B (1 + x/h, 1 + (1 − x)/h)}2 n nh1/2
79 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Considérons les ingrédients A(x, h) = 2x2 h/(1 − 2xh) et B(x, h) = x3 /(1 − 2xh)2 (1 − 3xh)
issus de la construction du noyau gamma inverse en Section 2.1.3. La première partie
de la Proposition 2.2.4 permet d’avoir :
( )
n o 2x2 h ′ 1 4x4 h2 x3 h
b
Biais fn (x) = f (x) + + f ′′ (x) + o(h2 ).
1 − 2xh 2 (1 − 2xh)2 (1 − 2xh)2 (1 − 3xh)
Suivant l’algorithme décrit en Section 2.2.2, on réduit ce biais en commençant par
diviser le support TI =]0, ∞[ en Tα(h),−1 = (0, α(h)] et Tα(h),0 = (α(h), ∞). Puis on modifie
e h) définie par :
le noyau par l’utilisation de la paramétrisation θ(x,
! "
x 1
1 + hα2 (h) , h
si x ∈ (0, α(h)]
e h) =
θ(x,
1 1
1+ , si x ∈ (α(h), ∞).
xh h
En calculant respectivement les moyenne et variance du noyau gamma inverse modifié,
e h) et e
on déduit les expressions de A(x, B(x, h) qui sont :
2
α (h) − x2
e h) = si x ∈]0, α(h)]
A(x, x
0 si x ∈]α(h), +∞[
80 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
et
hα6 (h)
si x ∈]0, α(h)]
e x2 (x − hα2 (h))
B(x, h) =
x3 h
si x ∈]α(h), +∞[.
1 − xh
Le biais réduit sur ]α(h), +∞[ est finalement
n o x3 h
Biais fen (x) = f ′′ (x) + o(h2 ).
2(1 − xh)
2
Comme dans le cas précédent, la variance s’obtient à partir de GIθ(x,h) 2 . Par une
démarche similaire on a
2 hΓ(−1 + 2/xh)
GIθ(x,h) = 21−2/(xh) ,
2 Γ2 (−1 + 1/xh)
ce qui conduit à
n o
b 1−2/(xh) hΓ(−1 + 2/xh) 1
Var fn (x) = 2 f (x) + o .
nΓ2 (−1 + 1/xh) nh1/2
n o 3/2
h 1 1 1
Var fen (x) = √ −1 f (x) + o .
2 π xh n nh1/2
Partant de la construction
n du noyau o gaussien inverse en−3/2 Section 2.1.3, on a les
3
ingrédients A(x, h) = x (1 − 3xh) −1/2
− 1 et B(x, h) = x (1 + 3xh) . En utilisant (2.19) il
vient :
! "
n o x
Biais fbn (x) = √ − x f ′ (x)
1− 3xh
! "2
1
x x3
h
′′
+ √ − x +
f (x) + o(h2 )
2 1 − 3xh (1 − 3xh) 3/2
81 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Par les calculs de biais et variance du noyau gaussien inverse modifié, on déduit les
e h) et e
caractéristiques A(x, B(x, h) données respectivement par
2x2 − α(h){α(h) + x}
si x ∈]0, α(h)]
e h) =
A(x, α(h)
0 si x ∈]α(h), +∞[
et
h{2x2 − α(h)}3
si x ∈ (0, α(h)]
e
B(x, h) = α3 (h)
x3 si x ∈]α(h), +∞[.
Ainsi, le biais réduit sur ]α(h), +∞[ est alors
n o
Biais fen (x) = x3 f ′′ (x) + o(h2 ).
La variance de l’estimateur gaussien inverse se calcule de la même manière que dans
2
les exemples précédents. On détermine d’abord IGθ(x,h) 2
comme suit
2 1
IGθ(x,h) 2
= √ ,
2 πhx3
On en déduit que la variance de fbn est
n o
b 1 1 1
Var fn (x) = √ f (x) + o ,
2 πhx3 n nh1/2
par conséquent on a à l’intérieur
n o
11 1
Var fen (x) = √ f (x) + o
2 πhx3 n nh1/2
et donc r = 1/2.
82 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Par les calculs de biais et variance du gaussien inverse réciproque et modifié, on déduit
e h) et e
les caractéristiques A(x, B(x, h) données respectivement par
x(x − hα(h)
e h) =
si x ∈]0, α(h)]
A(x, α(h)
0 si x ∈]α(h), +∞[
et
h{x2 + hα(x)}
si x ∈]0, α(h)]
e α(h)
B(x, h) =
1
+ 2h si x ∈]α(h), +∞[.
x−h
Ceci permet d’obtenir le biais réduit dans ]α(h), +∞[ défini par
n o 1
Biais fen (x) = + 2h f ′′ (x) + o(h2 ).
x−h
2
Le calcul de RGθ(x,h) 2
donne
2 1
RGθ(x,h) 2
= √ .
2 πhx
En utilisant la Proposition 2.2.7, on déduit pour tout x ∈]α(h), +∞[
n o n o
1 1 1
Var fen (x) = Var fbn (x) = √ f (x) + o .
2 πhx n nh1/2
83 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
2 1
PAθ(x,h) = .
2 2xh
Ainsi, en utilisant la Proposition 2.2.7, on trouve
n o n o
1 1
Var fen (x) = Var fbn (x) = f (x) + o
2xnh nh
et donc r2 = 1.
e h) et e
Le calcul de A(x, B(x, h) donne respectivement
3
α (h) − x3
e h) = si x ∈ (0, α(h)]
A(x, x2
0 si x ∈ (α(h), ∞)
et
α6 (h) h2
e − 1 si x ∈ (0, α(h)]
e
B(x, h) = x4
x2 (eh − 1)
2
si x ∈ (α(h), ∞).
Ainsi, le biais de l’estimateur à noyau lognormal modifié est alors pour tout x ∈
]α(h), +∞[ n o 2
Biais fen (x) = x2 (eh − 1) f ′′ (x) + o(h2 ).
84 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
2
Le calcul de LNθ(x,h) 2
conduit à
2 1
LNθ(x,h) 2
= √ .
2xh π
En faisant usage de la Proposition 2.2.7, on déduit alors pour tout x ∈]α(h), +∞[
n o n o
1 1
Var fen (x) = Var fbn (x) = √ f (x) + o ,
2xnh π nh
Ce qui prouve que r2 = 1. Nous récapitulons dans les Tableau 2.6 et Tableau 2.7 les
différents résultats présentés ci-dessus.
85 Francial G. Libengué
Table 2.6 – Quelques noyaux associés modifiés ( suite voir Tableau 2.7)
Kθ(x,h)
e Bêta : ψ(z) = {z − α(h) + 1}α(h) for all z ≥ 0. Pareto Lognormal
r2 (x)
e 1 1/2 1 1 r2 {α(h)}
e (??) 1
Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Table 2.7 – Quelques noyaux associés modifiés (suite du Tableau 2.6)
Kθ(x,h)
e Gamma Gamma inverse Gaussien inverse Gaussien inverse réciproque
Tα(h),j [0, α(h)] (α(h), ∞) [0, α(h)] (α(h), ∞) [0, α(h)] (α(h), ∞) [0, α(h)] (α(h), ∞)
r2 (x)
e 1 1/2 1 1/2 1 1/2 1 1/2
Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Le paramètre optimal obtenu dans la Proposition 2.2.5 ne peut être utilisé en pratique
car il dépend encore de la densité inconnue. Il existe plusieurs méthodes pour le choix
pratique du paramètre h comme nous l’avons décrit dans le chapitre précédent. Dans
le cas présent, nous proposons l’utilisation de la méthode de validation croisée par les
moindres carrés pour le choix de ce paramètre.
où
Z n
b
o2n 2Xb
CV(h) = fn (x) dx − fn,−i (Xi )
x∈TI n i=1
Z 2
Xn
2Xb
n
1
=
Kθ(x,h) (Xi )
dx − fn,−i (Xi ),
x∈TI n i=1 n i=1
X
et fbn,−i (u) = (n − 1)−1 Kθ(u,h) (X j ) est calculé à partir de fbn (u) sans l’observation Xi .
j,i
Cette section se propose de présenter les résultats des études par simulation faites
sur trois estimateurs de densité à noyaux lognormaux notés respectivement fbn,LN , fen,LN et
fn,LN
∗
qui sont issus des trois noyaux lognormaux LNθ , LNθe et LNθ∗ . Le noyau lognormal
LNθ est construit par la méthode mode-dispersion, LNθe est sa version modifiée et enfin
LNθ∗ est la version extraite des travaux de Jin & Kawczak (2003). Le noyau LNθ(x,h) est
défini par
oi
1 −1 h n
LNθ(x,h) (u) = √ exp log u − log x exp h2 1u>0 , x > 0, h > 0. (2.34)
uh 2π 2h2
88 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
Pour α(h) > 0, on définit les deux régions de TI =]0, +∞[ par TI =]0, α(h)]∪]α(h), +∞[.
La version modifiée de LNθ(x,h) notée LNθ(x,h)
e
f θ(x,h) est donnée par
:= LN
LNθ(x,h)
e (u) = LNθe−1 (x,h) (u) + LNθe0 (x,h) (u)
# ( 3 )%2
1 1 α (h) exp (−h2 /2)
= √ exp − 2 log(u) − log 1]0,α(h)] (u)
uh 2π 2h x2
oi2
1 1 h n
2
+ √ exp − 2 log(u) − log x exp (−h /2) 1]α(h),+∞[ (u), (2.35)
uh 2π 2h
e−1 (x, h) et θ
où θ e0 (x, h) sont respectivement les paramétrisations aux bords et à l’intérieur
données dans le Tableau 2.6. La troisième version de noyau lognormal LNθ∗ proposée
par Jin & Kawczak (2003) (sans montrer sa construction) est définie par :
( )
1 log2 (u/x)
LNθ∗ (x,h) (u) = p exp − 1(0,∞) (u). (2.36)
2u 2π log(1 + h) 8 log(1 + h)
Ces trois noyaux associés sont positifs et beaucoup plus flexibles que le noyau
gamma selon leur construction. Nous illustrons le comportement des trois estimateurs
lognormaux sur des échantillons à taille finie à travers les études par simulation. Nous
analysons les influences de paramètres de lissage sur les MISEs de ces estimateurs et
nous mesurons l’efficacité qui est acquise grâce à la réduction du biais. Ces études sont
faites aux bords et à l’intérieur sur deux modèles différents. Le premier modèle est
essentiellement constitué de la densité normale tronquée Nt (µ, σ; a, b) sur l’intervalle
[a, b]
Modèle 1 : X ∼ Nt (0.5, 0.15; a, b);
et le second modèle est un mélange des densités normale tronquée et l’exponentielle
Pour chaque Modèle, nous simulons 100 échantillons de taille n = 50, 100, 500 ou 1000,
en prenant a = 0.01 et b = 0.5 pour la région de bords puis a = 0.5 et b = 8.5 pour la
région intérieure.
Dans les Tableaux 2.8 et 2.9, nous rapportons les valeurs de fenêtres de lissage
optimales (dans le sens de MISE) avec les durées correspondantes. On voit que ces
valeurs diminuent en général (pour les deux modèles) lorsque l’on augmente la taille de
l’échantillon d’ailleurs, l’estimateur à noyau lognormal modifié fen,LN présente les plus
petites valeurs que les deux autres estimateurs fbn,LN et fn,LN
∗
. Cependant, on constate
qu’il met plus de temps de calcul que les autres.
Les Tableaux 2.10 et 2.11 fournissent les valeurs des biais et variance de ces es-
timateurs en certains points sélectionnés, correspondant aux points de bords et de
89 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Table 2.8 – Valeurs optimales de h obtenues aux bords par la validation croisée par les
moindres carrés
Model Size fn,LN
∗
fbn,LN fen,LN
n hlscv Time/s hlscv Time/s hlscv Time/s
1 50 0.121 0.456 0.412 0.360 0.002 2.153
100 0.111 0.494 0.376 0.416 0.003 3.922
500 0.110 1.409 0.367 1.090 0.004 7.543
1000 0.104 2.893 0.351 2.458 0.003 2.829
2 50 0.374 0.554 0.089 0.579 0.088 0.572
100 0.366 0.553 0.087 0.772 0.087 0.906
500 0.364 1.976 0.056 2.734 0.055 2.846
1000 0.327 4.251 0.025 5.858 0.025 5.664
Table 2.9 – Valeurs optimales de h obtenues à l’intérieur par la validation croisée par
les moindres carrés
Model Size fn,LN
∗
fbn,LN fen,LN
n hlscv Time/s hlscv Time/s hlscv Time/s
1 50 0.470 0.394 0.997 0.429 0.996 0.471
100 0.429 0.410 0.996 0.524 0.996 0.573
500 0.406 1.151 0.991 1.513 0.993 1.695
1000 0.400 2.605 0.991 3.456 0.991 3.718
2 50 0.456 0.639 0.997 0.630 0.996 0.622
100 0.429 0.582 0.996 0.812 996 0.849
500 0.410 2.021 0.994 2.570 993 2.951
1000 0.397 4.124 0.992 4.889 991 6.039
90 Francial G. Libengué
2.2. Estimateurs à noyaux associés continus
l’intérieur, respectivement pour le Modèle 1 et le Modèle 2. On voit que pour les échan-
tillons de petite taille, l’estimateur à noyau lognormal modifié fen,LN se comporte mieux
que fbn,LN et fn,LN
∗
aux bords et il devient moins bon qu’eux lorsqu’on augmente la taille
de l’échantillon. Toutefois, en prenant en considération le compromis biais-variance,
nous voyons que l’estimateur fbn,LN à noyau lognormal construit par la méthode mode-
dispersion est meilleur par rapport à l’autre et ce, quelle que soit la taille de l’échantillon.
Cela consolide les résultats de la Proposition 2.2.7 de la Section 2.2.2, puisque les trois
noyaux lognormaux appartiennent à la même famille. De plus, en observant les biais
ponctuels de ces estimateurs, on voit que les biais des deux premiers estimateurs fbn,LN
et fn,LN
∗
augmentent de plus en plus à l’intérieur. Cela est dû à la présence de terme
non nul A(x, h) f ′ (x) dans (2.19). Cette nette différence entre leur biais et ceux de fen,LN
montre l’intérêt de l’algorithme proposé pour la réduction du biais en Section 2.2.2.
Ainsi, l’estimateur à noyau lognormal modifié fen,LN reste sans aucun doute le meilleur
à l’intérieur.
Table 2.10 – Biais et variances des trois estimateurs à noyaux lognormaux suivant le
Modèle 1
Enfin, nous donnons dans le Tableau 2.12 Les MISEs minimales de ces estimateurs.
Nous rappelons au lecteur que la fonction MISE théorique est bien approchée par la
moyenne des ISEs qui peuvent être définies pour N = 100 (nombre d’essais) par
X N Z n o2
d= 1
ISE fbn (x) − f (x) dx.
N n=1 TI
91 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
Table 2.11 – Biais et variances des trois estimateurs à noyaux lognormaux suivant le
Modèle 2
Taille Cible fn,LN
∗
fbn,LN fen,LN
n x Bias Variance Bias Variance Bias Variance
100 0.25 0.265 e-1 0.137 e-3 0.207 e-1 0.248 e-3 0.191 e-1 0.721 e-3
0.50 0.273 e-1 0.176 e-3 0.212 e-1 0.292 e-3 0.217 e-1 0.714 e-3
2.50 0.230 e-1 0.148 e-3 0.195 e-1 0.283 e-3 0.183 e-1 0.698 e-3
3.50 0.237 e-1 0.132 e-3 0.173 e-1 0.257 e-3 0.162 e-1 0.672 e-3
500 0.25 0.125 e-1 0.342 e-3 0.121 e-1 0.434 e-3 0.258 e-1 0.575 e-3
0.50 0.141 e-1 0.364 e-3 0.109 e-1 0.486 e-3 0.262 e-1 0.562 e-3
2.50 0.143 e-1 0.219 e-3 0.108 e-1 0.367 e-3 0.103 e-1 0.740 e-3
3.50 0.113 e-1 0.205 e-3 0.095 e-1 0.326 e-3 0.091 e-1 0.725 e-3
1000 0.25 0.060 e-1 0.428 e-3 0.058 e-1 0.600 e-3 0.321 e-1 0.379 e-3
0.50 0.054 e-1 0.454 e-3 0.046 e-1 0.687 e-3 0.347 e-1 0.360 e-3
2.50 0.038 e-1 0.325 e-3 0.034 e-1 0.437 e-3 0.031 e-1 0.795 e-3
3.50 0.035 e-1 0.318 e-3 0.021 e-1 0.414 e-3 0.019 e-1 0.781 e-3
Table 2.12 – La moyenne des ISEs pour les trois estimateurs de densité à noyaux
lognormaux
Modèle Taille d aux bords
ISE d à intérieur
ISE
n fn,LN
∗
fbn,LN fen,LN fbn,LN fn,LN
∗
fen,LN
1 50 0.146 e-1 0.141 e-2 0.359 e-2 0.184 e-2 0.152 e-2 0.481 e-3
100 0.120 e-1 0.134 e-2 0.475 e-2 0.179 e-2 0.146 e-2 0.444 e-3
500 0.116 e-1 0.132 e-2 0.482 e-2 0.168 e-2 0.135 e-2 0.438 e-3
1000 0.828 e-2 0.121 e-2 0.485 e-2 0.165 e-2 0.132 e-2 0.416 e-3
2 50 0.124 e-2 0.340 e-3 0.277 e-3 0.312 e-3 0.396 e-3 0.808 e-4
100 0.917 e-3 0.305 e-3 0.288 e-3 0.302 e-3 0.311 e-3 0.786 e-4
500 0.891 e-3 0.287 e-3 0.308 e-3 0.298 e-3 0.287 e-3 0.751 e-4
1000 0.837 e-3 0.267 e-3 0.310 e-3 0.272 e-3 0.252 e-3 0.322 e-4
92 Francial G. Libengué
2.3. Conclusion
2.3 Conclusion
Nous avons mis en œuvre dans ce chapitre une nouvelle famille d’estimateurs de
densité à support borné ou non. Dans cette famille, l’estimateur est basé sur les noyaux
associés qui dépendent intrinsèquement du point d’estimation x et du paramètre de
lissage h. Tous les estimateurs à noyaux associés sont sans effets de bord mais ils ont une
forme de biais légèrement différente de celle des noyaux dits classiques proposés par
Rosenblatt (1956) et Parzen (1962). Nous avons fourni une définition générale et une
méthode de construction de ces noyaux associés appelée "mode-dispersion“ ainsi qu’un
algorithme de la réduction des biais des estimateurs qui y sont issus. Nous avons illustré
cette méthode de construction et l’algorithme de réduction du biais sur les noyaux
associés non-classiques. Nous avons, en particulier, examiné les performances des trois
estimateurs de densités à noyaux lognormaux fbn,LN , fen,LN et fn,LN
∗
(avec LNθ(x,h) construit
par la méthode mode-dispersion, LNθ(x,h) e sa version modifiée et LNθ∗ (x,h) celui proposé
par Jin & Kawczak (2003) sur des échantillons à tailles finies. Dans ces simulations, les
fenêtres optimales sont obtenues par la méthode de validation croisée par les moindres
carrés et nous avons constaté que l’estimateur de densités à noyau lognormal modifié
fen,LN possède les plus petites valeurs de h, mais avec beaucoup de temps de calcul. En
fait, nous avons constaté que l’estimateur de densités à noyau lognormal modifié fen,LN
est sans doute meilleur dans la région intérieure et sa première version fbn,LN issue de
la méthode mode-dispersion est aussi meilleure dans la région de bords. Cela nous
amène à recommander fortement l’utilisation de fbn,LN sur le bord et fen,LN dans la région
intérieure.
93 Francial G. Libengué
Chapitre 2. Méthode des noyaux associés continus
94 Francial G. Libengué
Chapitre 3
x ∈ Sx,h , (3.2)
E(Zx,h ) = x + A(x, h), (3.3)
Var(Zx,h ) = B(x, h), (3.4)
où, Zx,h est une variable aléatoire de densité Kx,h sur Sx,h et A(x, h), B(x, h) qui tendent vers
0 quand h tend aussi 0. Signalons que la construction d’un noyau associé continu Kx,h se
fait à l’aide de la méthode mode-dispersion proposée dans la Section 2.1.2 du chapitre
précédent que nous résumons brièvement de la manière suivante. On considère tout
95
Chapitre 3. Convergence des estimateurs à noyaux associés continus
Théorème 3.1.1 Soit f ∈ C2 (TI ) la densité à estimer et fbn son estimateur à noyau associé
défini en (3.1). Pour chaque point x fixé dans T on a alors
p.s.
fbn (x) −→ f (x) quand n → +∞ ;
96 Francial G. Libengué
3.1. Consistance et normalité asymptotique ponctuelles
de plus, s’il existe un plus grand nombre réel r2 = r2 (Kx,hn ) > 0 tel que
2
hrn2 Kx,hn 2
≤ c2 (x) < +∞ et lim nhrn2 = +∞,
n→+∞
alors
2
fbn (x) −→ f (x) quand n → +∞.
L
2
fbn (x) −→ f (x) fbn (x) −→ f (x).
L P
=⇒
97 Francial G. Libengué
Chapitre 3. Convergence des estimateurs à noyaux associés continus
Alors
n
X L
Xn,i −→ N(0, 1) quand n → +∞.
i=1
Nous faisons usage de ce lemme dans la démonstration du théorème suivant qui fournit
les résultats de la normalité asymptotique.
Théorème 3.1.3 Soit f , la densité à estimer sur TI et fbn son estimateur à noyau associé défini
en (3.1). Pour chaque point x fixé dans TI tel que f (x) > 0, et (hn )n≥1 une suite de paramètres
de lissage telle que hn → 0 quand n → +∞, on a
n o
fbn (x) − E fbn (x) L
h n oi1/2 −→ N (0, 1) quand n → +∞,
b
Var fn (x)
L
où “−→” désigne la “convergence en loi”.
Démonstration. Pour x ∈ T tel que f (x) > 0 considérons la suite Un,i (x, hn ) définie par
Kx,hn (Xi ) − E Kx,hn (Xi )
Un,i (x, hn ) = p .
nVar Kx,hn (X1 )
En sommant sur n on obtient
n o
n
X fbn (x) − E fbn (x)
Un,i (x, hn ) = h n oi1/2
i=1 Var fbn (x)
Il est facile de montrer que la suite Un,i (x, hn ) n≥1,i≤n vérifie les trois premières condi-
tions de Lemme 3.1.2 ; par conséquent
nous ne montrons que la dernière condition.
Considérons A = Un,i (x, hn )
> ε . Puisque Kx,hn est un noyau associé (donc uni-
formément borné en x et h), alors il existe M > 0 tel que pour
tout u ∈ A on a
2 2
|Kx,hn (u) − E Kx,hn (u) | ≤ M. Il s’ensuit que Un,i (x, hn ) ≤ M / nVar Kx,hn (X1 ) . Enfin,
h n oi M2
2
max E Un,i (x, hn )1A ≤ → 0 quand n → +∞,
i≤n nVar Kx,hn (X1 )
ce qui conduit au résultat.
98 Francial G. Libengué
3.2. Nouvelles convergences globales
Proposition 3.2.1 Soit f une densité continue et bornée sur TI , et fbn son estimateur à noyau
associé donné en (3.1). Pour tout sous ensemble compact I de TI , on a :
Démonstration. A partir des équations (3.3) et (3.4) on peut trouver pour tout δ > 0,
deux nombres entiers naturels n0 et n1 tels que si on a : n > n0 alors |E Zx,h − x| < δ/2
et lorsque n > n1 on a |Var Zx,h | < δ/4. On peut majorer le biais de fbn comme suit
n o
Z
E b
f (x) − f (x)
=
f (u) − f (x) K (u)du
n x,h n
T
Z
≤
f (u) − f (x) Kx,hn (u)du
T
Z
≤ f (t) − f (x)
Kx,hn (u)du
|E(Zx,hn )−x|≤δ/2
Z
+ f (u) − f (x)
Kx,hn (u)du.
|E(Zx,hn )−x|>δ/2
= J1 + J2
Comme l’ensemble x ∈ T; |E Zx,h − x| 6 δ/2 ⊆ Sx,h et f est uniformément continue
sur I, on obtient pour tout n > n0
Z
J1 = f (u) − f (x) Kx,hn (u)du
|u−E(Zx,h )|6δ/2
Z
ε ε
6 Kx,hn (u)du 6 .
2 |u−E(Zx,h )|6δ/2 2
Nous montrons dans le théorème suivant, les résultats des convergences faible (P)
et forte (p.s.) en norme uniforme.
99 Francial G. Libengué
Chapitre 3. Convergence des estimateurs à noyaux associés continus
Théorème 3.2.2 Soit f une densité continue et bornée sur TI , et fbn son estimateur à noyau
associé donné en (3.1). On suppose qu’il existe un plus grand nombre réel r0 = r0 (K) > 0
dépendant du type de noyau K tel que, pour tout x ∈ TI ,
Z
r0
hn |dKx,hn (s)| 6 c0 (x)
Sx,h
avec c0 (x) bornée sur tout compact contenant x. Pour tout sous ensemble compact I de TI , on a :
et Z
E{ fbn (x)} = Kx,hn (u)F(u) S − F(u)dKx,hn (u). (3.12)
x,h ∩TI
Sx,h ∩TI
6 C0 h−r
n
0
sup |Fn (x) − F(x)|
x∈I⊆TI
x∈I⊆TI
Proposition 3.2.3 Soit f une densité continue et bornée sur TI , et fbn son estimateur à noyau
associé donné en (3.1). Alors :
Z
E{ fbn (x)} − f (x) dx → 0 quand n → +∞.
TI
où f ⋆ est continue et est telle que ( f − f ⋆ )1I 1 < ε, ∀ε > 0 et f ⋆ = 0 sur le complé-
mentaire de I défini par Ic := TI r I. Pour un événement A, nous désignons par 1A la
fonction indicatrice de A qui prend la valeur 1 si l’événement A est réalisé et 0 sinon.
En considérant fbn⋆ = 1I fbn on a d’une part
Z Z
E fbn − E fbn⋆ = Kx,hn (u) f (u) − 1I (x) f (u) du dx
1 TI Sx,h ∩TI
Z
6Λ f (u) − f ⋆ (u) du 6 Λε
Sx,h ∩TI
R
où Λ := TI
Kx,hn (u)dx ≃ 1, ∀u, est la masse totale du noyau associé Kx,hn . D’autre part, on
a
Z Z
E fbn⋆ − f ⋆ 6 Kx,hn (u) f ⋆ (u) − f ⋆ (x) du dx
1 I S ∩TI
Z Zx,h
6ε Kx,hn (u)dxdu 6 Λℓ(I)ε,
I Sx,h ∩TI
f⋆ − f 1
= ( f − f ⋆ )1I 1
< ε,
on en déduit que
E fbn − f 6 [Λ{1 + ℓ(I)} + 1] ε.
1
Enfin, nous allons donner dans le théorème suivant les deux derniers résultats de
consistance, faible et forte de fbn en norme L1 .
Théorème 3.2.4 Soit f une densité continue et bornée sur TI , et fbn son estimateur à noyau
associé donné en (3.1). On suppose qu’il existe un plus grand nombre réel r1 = r1 (K) > 0
dépendant du type de noyau K tel que, pour tout x ∈ TI ,
Z
hrn1 |dKx,hn (s)| 6 c1 (x)
Sx,h
c1 (x) intégrable, on a :
Z n o
fbn − E fbn = b b
fn (u) − E fn (u)
dx
1 TI
Z Z
6 |Fn (u) − F(u)|
dKx,hn (u)
dx
TI Sx,h ∩TI
Z Z
6 sup |Fn (u) − F(u)|
dKx,hn (u) dx
u∈TI TI Sx,h ∩TI
6 C1 h−r
n
1
sup |Fn (u) − F(u)|
u∈TI
Z
avec C1 = c1 (x)dx , C0 . L’inégalité de Massart (1990) permet d’écrire
TI
! "
hrn1 ε
P fbn − E fbn > ε 6 P sup |Fn (u) − F(u)| >
1 u∈TI C1
! "
ε2
6 2 exp −2 2 nh2r
n
1
;
C1
ce qui conduit à la consistance faible. Par la suite, en utilisant le résultat précédent puis
en sommant à l’infini on a
X X ! "
2ε2 2r1
b
P fn − E fnb >ε 62 exp − 2 nhn .
n>1
1
n>1
C1
r
C1 log n
En prenant ε > r et n assez grand on trouve
hn n
X ! "
2ε2 2r1
exp − 2 nhn ≃ o(n−(1+δ) ), ∀δ > 0.
n≥1
C1
Ce qui permet d’obtenir la convergence presque complète qui implique le résultat (ii).
La remarque suivante vient compléter notre idée de faire une étude avec des condi-
tions souples pour souligner la sensibilité des noyaux associés continus, qui dépendent
fortement du point d’estimation.
avait été proposée par Jin & Kawczak (2003). En utilisant (3.1) nous obtenons les trois
estimateurs fbn , fen et fn∗ de f correspondant aux trois noyaux lognormaux LNθ , LNθe et
LNθ∗ , respectivement.
Dans ce qui suit, nous allons procéder à la détermination de : b r j = r j ( fbn ), e
r j = r j ( fen )
et r j = r j ( fn ), respectivement des estimateurs à noyaux lognormaux LNθ , LNθe et LNθ∗
∗ ∗
Calcul de b
r0 et b
r1
avec c0 (x) = κ log2 (x) qui en une fonction bornée et intégrable sur tout compact I ∋ x.
D’après le point (i) de la Remarque 3.2.5, on a c0 (x) = c1 (x) et donc b r1 = 2.
r0 = b
Calcul de b r2 (x)
r2 = b
Le calcul deb
r2 se fait à partir de (2.20). Plus précisément en exprimant explicitement
la norme carrée du noyau associé en question. Dans le cas présent, nous procédons en
faisant le changement de variable v = u2 /x2 et on a
Z
2 2
LNθ(x,h) 2
= LNθ(x,h) (u)du
(v=u2 /x2 ) 1
= √ E Y−1/2
2xh 2π
1
= √ exp(−h2 /8)
2xh 2π
1
6 √
2xh 2π
avec Y une variable aléatoire de loi LNθ(1,h/ √2) . On obtient alors r2 (x) = 1 car ew 6 1 pour
w 6 0.
Calcul de e
r0 et e
r1
# ( 3 )%2
1 1 α (h) exp (−h2 /2)
LNθ(x,h)
e (u) = √ exp − 2 log(u) − log 1]0,α(h)] (u)
uh 2π 2h x2
1 1 h n oi2
+ √ exp − 2 log(u) − log x exp (−h2 /2) 1]α(h),+∞[ (u). (3.14)
uh 2π 2h
Z Z
( 2)
1
1 ux 1 u
dLN (u)
=
log LN (u) + log LN (u)
du
e
θ(x,h)
h2
u α(h) θe−1 (x,h)
u x θe0 (x,h)
Z
κ−1
2 1
6 2
log(x) + log(u) 1 (u)du
h
u u
]0,α(h)]
Z
+ 2
κ0 2 log(x)
1]α(h),+∞[ (u)du
h
u
−2
6h e c0 (x)
5κ−1
avec ec0 (x) = log2 (x)1]0,α(h)] (x) + κ0 log2 (x)1]α(h),+∞[ (x) qui est une fonction bornée et
2
intégrable sur tout compact I ∋ x et donc c0 (x) = c1 (x). Une fois de plus d’après le point
(i) de la Remarque 3.2.5, on a e r0 = e r1 = 2.
Calcul de e r2 (x)
r2 = e
Ici, nous allons déterminer le réel er2 seulement aux bords ]0, α(h)] noté e
r2,−1 puisque
c’est le cas délicat et le plus intéressant. Autrement dit, nous utilisons uniquement le
premier membre de l’équation (3.14) pour déterminer ce réel. Rappelons que la version
modifiée du noyau lognormal au bord est définie par
# ( 3 )%2
1 1 α (h) exp (−h2 /2)
LNθe−1 (x,h) (u) = √ exp − 2 log(u) − log 1]0,α(h)] (u)
uh 2π 2h x2
Pour la détermination de e
r2,−1 , nous allons maintenant calculer explicitement la norme
2 √
2
carrée de LNθe−1 (x,h) en faisant le changement de variables v = u puis nous la
2
Nous procédons ici au calcul des réels r∗0 et r∗1 en utilisant le noyau lognormal proposé
par Jin & Kawczak (2003). Ce noyau, comme nous l’avons dit un peu plus haut, est
défini par
( )
1 log2 (u/x)
LNθ∗ (x,h) (u) = p exp − 1[0,+∞[ (u)
2u 2π log(1 + h) 8 log(1 + h)
= LN 2
√ (u).
θ(x exp (h ),2 log(1+h))
Nous montrons dans ce paragraphe la détermination du réel r∗2 = r∗2 (x) dans l’esti-
mation de densité par le noyau lognormal LNθ∗ (x,h) proposé par Jin & Kawczak (2003).
Comme dans les cas précédents, nous allons exprimer√ explicitement
√
la norme carrée
2 2
de LNθ∗ (x,h) en faisant le changement de variables v = u /x . On obtient alors
2 (v=u
√ √
2 /x 2 ) 1 √
LNθ∗ (x,h) 2
= p E Y∗−1/ 2
4x 2π log(1 + h)
1 1
= p exp log(1 + h)
4x 2π log(1 + h) 2
1
= p exp{w∗ (h)}
4x 2π log(1 + h)
1
6 √
4x 2πh
où Y∗ est une variable aléatoire réelle de loi LNθ∗ (1,h) = LNθ(exp (h2 ),2 √log(1+h)) et w∗ (h)
√ √
définie par w∗ (h) = −h2 2/2 − (2 2 − 1) log(1 + h), par conséquent on a r∗2 (x) = 1/2.
Nous résumons dans le Tableau 3.1 les différentes valeurs de r0 , r1 , r2 , e r0 , e
r et e
r2
obtenues sur les estimateurs à noyaux associés non-classiques comme bêta et sa version
étendue, gamma et son inverse, gaussien inverse et sa réciproque, Pareto ainsi que le
lognormal. Nous signalons également que pour les estimateurs à noyaux associés
classiques nous avons obtenu ces différentes valeurs en utilisant la forme générale
Kx,h (·) = (1/h)K {(x−·)/h}. Aussi, nous avons donné les résultats avec le noyau lognormal
de Jin & Kawczak (2003) ainsi que ceux de Bouezmarni & Scaillet (2005) sur gaussien
inverse et sa réciproque.
x ∈ Sx,h (4.1)
E Zx,h = x + A(x, h) (4.2)
Var Zx,h = B(x, h), (4.3)
où Zx,h est une variable aléatoire de loi Kx,h , et les deux caractéristiques A(x, h) et B(x, h)
de Kx,h tendent vers 0 quand h = hn tend vers 0 (quand n → +∞ par la suite). Notons
que :
• Le support T de la densité inconnue f , à estimer est considéré connu par le statisticien
et doit coïncider avec le support Sx,h du noyau associé afin d’éviter les effets de bords.
• x est un paramètre de position (le mode), et h est un paramètre de dispersion.
• Kx,h est de plus en plus concentré sur x quand h tend vers 0.
Dans le cas particulier où T = R, on a
où la fonction noyau K de support S est le noyau classique présenté dans la Section 1.1
du premier chapitre de cette thèse. D’après (4.1) et l’expression (4.4) on a
où σ2K > 0 est la variance de K . Par exemple pour les noyaux populaires comme le noyau
gaussien et celui d’Epanechnikov on a Sx,h = R et Sx,h = [x − h, x + h], respectivement.
Comme nous l’avons présenté dans le Chapitre 2, pour construire un noyau associé
Kx,h on considère un type de noyau K := Kθ (qui est une densité de probabilité para-
métrée et de carré intégrable) sur S = Sθ avec θ ∈ Θ ⊆ Rk pour k ≥ 2. En particulier,
111
Chapitre 4. Propriétés minimax des estimateurs à noyaux associés
Rappelons que le but principal lorsqu’on fait de l’estimation d’une densité f , est
de choisir, parmi tous les estimateurs possibles fbn,h , celui qui est le plus proche de
f (le meilleur). Pour ceci, plusieurs approches s’offrent pour juger la qualité d’un
estimateur parmi lesquelles figure l’approche minimax. Dans cette approche, on fixe
prioritairement un espace fonctionnel sur lequel on définit un risque. Puis, on cherche
le meilleur estimateur autrement dit celui dont le risque est minimal. Cette approche
suppose une connaissance a priori assez forte sur la densité à estimer plus précisément
sur son support et sa régularité.
Ce chapitre s’organise de la manière suivante : dans la Section 4.1, nous présentons
le modèle sur lequel nous travaillons. Ensuite, nous donnons les hypothèses techniques
(tant sur le noyau que sur la densité) de notre travail. Par la suite, nous présentons nos
résultats résumés en quatre propositions et un théorème.
Puisque nous nous sommes intéressés à l’estimation de densité, nous allons nous
concentrer sur la perte L1 qui est étroitement liée à la distance où variation totale entre
les lois de probabilité sous-jacentes.
Si fbn,h est un estimateur arbitraire de f , nous définissons son risque par rapport à f
de la manière suivante
Rn ( fbn,h , f ) = Enf k fbn,h − f k1 (4.8)
où k · k1 est la norme standard sur L1 et Enf est la moyenne par rapport à la mesure de
probabilité sur T.
Ensuite, nous définissons le risque maximal sur la classe F de la manière suivante :
Cette approche est très intéressante mais nous ne l’abordons pas dans ce travail. Le
lecteur peut se référer à Bertin & Klutchnikoff (2013) pour s’inspirer du cas particulier
des estimateurs à noyau bêta où les auteurs ont procédé au choix du paramètre de
lissage par la procédure de Lepski modifié.
Nous donnons dans le paragraphe suivant les différentes hypothèses techniques
avec lesquelles nous allons travailler.
Il est bien connu (voir [Tsybakov, 2004] par exemple) qu’en vertu de ces conditions,
la quantité suivante est bien définie et finie :
f∞ (s, L) = sup sup kg(k) k∞ .
1≤k≤ms g∈F(s,L)
4.2 Résultats
Dans cette section, on suppose que s ∈]0, 1] et L > 0 sont deux nombres réels connus
par le statisticien. De plus, on suppose que la densité inconnue f appartient à F (s, L).
Nous procédons ici à une étude plus large du risque de fbn pour des régularités
comprises entre 0 et 1 en utilisant la norme L1 . Soit f ∈ F (s, L) et h ∈ (0, 1] le risque de
l’estimateur fbn,h défini en (4.8) peut s’écrire sous la forme
Le terme |Bh (x)| est appelé le biais ponctuel tandis que I1 (n, h) est le biais intégré.
De même, Enf |Zh (x)| est le terme stochastique ponctuel tandis que I2 (n, h) est le terme
stochastique intégré.
Considérons L : T → [0, +∞[, x 7→ L(x). Notre objectif est de contrôler les termes
précédents indépendamment de f ∈ F (s, L(x)) en vue de contrôler le risque maximal
sur cette classe de fonctions. Pour ce faire, nous allons décomposer ce travail en quatre
propositions et un théorème. Dans toute la suite, K = {Kx,h }x∈T,h∈(0,1] est une famille
donnée de noyaux associés continus et F (s, L(x)) est la classe F (s, L) d’Hölder dont la
constante de Lipschitz L dépend du point d’estimation x.
Avant de donner nos résultats nous allons énoncer le lemme suivant.
Démonstration. Pour a = 0 ce résultat est évident. Supposons a > 0, pour 0 < s < 1,
considérons l’inégalité s
x s x
1+ 61+ .
a a
Posons W la fonction définie par W(u) = (1 + u)s − us − 1. On vérifie facilement que W
est décroissante et admet pour limite 0 en 0. Ce qui montre que W < 0 d’où le résultat.
La proposition suivante montre que le biais ponctuel de fbn,h est majoré.
h is
|Bh (x)| 6 L(x) E Zx,h − E Zx,h + E Zx,h − x
#q %s
2
6 L(x) E Zx,h − E Zx,h + E Zx,h − x .
Pour 0 < s ≤ 1, on a
I1 (n, h) 6 hs B∗ (s) · {1 + o(1)} .
Considérons la famille L = {K ex,h }x∈T,h∈(0,1] . Cette famille contient des densités appartenant de
K et satisfait les hypothèses H1(A)e et H2(e B). On a alors :
# %1/2
C(x)
Enf |Zh (x)| ≤ f (x) + hs µs,h (x) , (4.16)
nh
où n s o
µh,s (x) = L(x) e es (x) .
B 2 (x) + hs A (4.17)
n
1X
Enf |Zh (x)| = Enf ηk (x)
n
k=1
s
Enf |η1 (x)|2
≤ .
n
La dernière inégalité est obtenue par l’inégalité de Cauchy et grâce au fait que les
variables aléatoires ηk (x) sont iid. Étudions maintenant le terme Enf |η1 (x)|2 . On a
où ζx,h est une variable aléatoire de loi Lx,h . En utilisant l’hypothèse H3(C) on obtient :
n o
Enf |η1 (x)|2 6 h− 1C(x) f (x) + E f (ζx,h ) − f (x) .
et Z
s
(2s−1
∨ 1) e
B 2 (x)dx < +∞. (4.19)
T
et Z
C(x)µs,h (x)dx < +∞. (4.20)
T
on a :
C∗ {s, L(x)}
I2 (n, h) 6 √ · (1 + o(1)).
nh
Théorème 4.2.6 Soit K = {Kx,h }x∈T,h∈(0,1] une famille de noyaux associés continus. Supposons
que les hypothèses des Propositions 4.2.2– 4.2.5 sont vérifiées. Alors il existe un paramètre
optimal de lissage hn {s, L(x)} tel que l’estimateur à noyau associé (issu de K ) construit avec
hn {s, L(x)} satisfait :
Rn fbn,hn (s,L(x)) , F {s, L(x)} 6 D {s, L(x)} L1/(2s+1) (x)n−s/(2s+1) · {1 + o(1)} ,
où D {s, L(x)} est une constante définie dans la démonstration. De plus l’expression de hn {s, L(x)}
est de la forme
# %1/(2s+1)
κ {s, L(x)}
hn {s, L(x)} = ,
nL2 (x)
avec
# %2
C∗ {s, L(x)}
κ {s, L(x)} = .
2sB∗ (s)
4.2.2 Illustrations
Nous présentons dans ce paragraphe les résultats minimax des estimateurs à noyaux
associés classiques (en utilisant la forme générale du noyau associé classique). Rappe-
lons que les noyaux associés classiques sont définis par
1 x−·
Kx,h (·) = K . (4.21)
h h
où K (·) est un noyau classique vérifiant la Définition 1.1.1. Il a été démontré dans la
Proposition 2.1.5 de la Section 2.1 que
E Zx,h − x = 0 et Var(Zx,h ) = h2 σ2K . (4.22)
Ce qui permet de déduire les quantités A(x) et B(x) de l’hypothèse technique comme
suit :
s
A(x) = 1 et B(x) = σ2K ; ce qui implique que As (x) = 1 et B 2 (x) = σsK .
et Z Z
s
L(x)A (x)dx = L(x)dx < +∞.
R R
Par application de la Proposition 4.2.3, on obtient une majoration du biais intégré issu
de la décomposition du risque minimax. On peut explicitement l’écrire sous la forme :
Z ( Z )
I1 (n, h) = Enf fbn,h (x) − f (x) dx 6 hs σsK L(x)dx {1 + o(1)} . (4.23)
[0,1] R
Ce qui permet de constater que K ex,h est une densité de probabilité dans la même famille
que K ( par conséquent sa moyenne est nulle et sa variance est finie, voir Définition
1.1.1). Considérons Zg e
x,h la variable aléatoire de loi Kx,h , par changement de variables
t = (x − u)/h on a :
Z
g 1 2 x−u
E Zx,h = uK du
kK k22 R h
Z
1
= 2
(x − ht)K 2 (t) dt
kK k2 R
= x − hµKg
x,h
.
6 h2 σ2g (4.25)
Kx,h
d’où e
B(x) = σ2g . Ainsi, on obtient :
Kx,h
n s o
e s es s s
µh,s (x) = L(x) B (x) + h A (x) = L(x) σ g + h < +∞.
2
Kx,h
De plus, on sait d’après la condition H3(C) de la Section 4.1.2 que kKx,h k22 6 h−1 C(x).
Dans le cas présent C(x) = C est une constante indépendante de x. En considérant le
s
fait que As et B 2 et L(x) sont des quantités finies puis en remarquant que
Z 1/2
C∗ {s, L(x)} =
sup C f (x)dx
< +∞
f ∈F(s,L) R
et Z Z
s s
C(x)µh,s (x)dx = L(x)σ g + h dx < +∞,
Kx,h
R R
une application de la Proposition 4.2.5, conduit à la majoration du terme stochastique
intégré. C’est à dire
Z
C∗ {s, L(x)}
I2 (n, h) = Enf fbn,h (x) − Enf fbn,h (x) dx ≤ √ (1 + o(1)). (4.26)
[0,1] nh
En utilisant (4.23), (4.26) et le Théorème 4.2.6, on peut trouver un paramètre optimal de
lissage
# %1/(2s+1)
κ {s, L(x)}
hn {s, L(x)} = ,
nL2 (x)
avec # ∗ %2
C {s, L(x)}
κ {s, L(x)} = .
2sB∗ (s)
pour lequel les estimateurs à noyaux associés classiques des densités f , appartenant à
la classe des fonctions F{s, L(x)} avec 0 < s 6 1, atteigne la vitesse minimax.
Tout d’abord, nous rappelons au lecteur que les propriétés minimax des estimateurs
à noyau bêta ont été l’objet des travaux de Bertin & Klutchnikoff (2011). Ces auteurs ont
étudié lesdites propriétés en utilisant la perte Lp et pour des régularités s appartenant à
]0, 2]. Nous allons dans ce travail utiliser la perte L1 et en particulier pour des régularités
0 < s 6 1.
Les caractéristiques du noyau associé bêta (construit par la méthode mode-dispersion)
définies dans la Section 2.1.3, donnent
h(1 − 2x) h2
E Zx,h − x = 6 (1 − x) (4.27)
1 + 2h 2
et
h{x(1 − x) + h + h2 h2
Var Zx,h = 6 x(1 − x). (4.28)
(1 + 3h)(1 + 2h)2 3
Par conséquent on a :
1 1
A(x) = (1 − x) et B(x) = x(1 − x).
2 3
s
Puisque 0 < L(x) < +∞ et de plus les fonctions B 2 (x) et As (x) sont bornées sur [0, 1]
alors on a
Z 2s Z s
∗ 1 s 1
B (s) = L(x) {x(1 − x)} dx < +∞ et
2 L(x) (1 − x) dx < +∞.
[0,1] 3 [0,1] 2
On en déduit que
! " ! "
e h) = A x, h 1 h 1
A(x, 6 h A(x) et e
2
B(x, h) = B x, 6 h2 B(x),
2 4 2 4
par conséquent
e = 1 A(x) et e
A(x)
1
B(x) = B(x)
4 4
et donc
2s ( 2s )
1 s 1 s s
µh,s (x) = B 2 (x) + h A (x) L(x)
4 4
2s ( 2s s )
1 x 1 s s
= (1 − x) + h (1 − x) 2 L(x). (4.30)
4 3 4
De plus d’après la condition H3(C) de la Section 4.1.2, on a kBEx,h k22 6 h−1 C(x) avec
n p o−1 s
C(x) = 2 πx(1 − x) . Puisque les fonctions As et B 2 sont bornées sur [0, 1] et 0 <
L(x) < +∞ en remarquant que les quantités
Z 1/2
1
C∗ {s, L(x)} =
sup p f (x)dx
f ∈F(s,L) [0,1] 2 πx(1 + x)
et Z ( s s )
s+1
1 2 1 1 s−1 x 2 1 s
√ √ (1 − x) 2 + (1 − x) 2 L(x) f (x)dx
4 π [0,1] 2 x 3 4
sont finies alors on obtient la majoration du terme stochastique intégré par application
de la Proposition 4.2.5. C’est-à-dire
Z
b nb C∗ {s, L(x)}
I2 (n, h) = Enf fn,h (x) − E f fn,h (x) dx ≤ √ (1 + o(1)). (4.31)
[0,1] nh
De (4.29), (4.31) et d’après le Théorème 4.2.6, il existe un paramètre optimal de
lissage
# %1/(2s+1)
κ {s, L(x)}
hn {s, L(x)} = ,
nL2 (x)
avec # ∗ %2
C {s, L(x)}
κ {s, L(x)} = .
2sB∗ (s)
pour lequel les estimateurs à noyaux bêta des densités f , appartenant à la classe des
fonctions F{s, L(x)} avec 0 < s 6 1, atteigne la vitesse minimax.
où les f j sont des fonctions de densité ou masse de probabilité (f.d.m.p.) et les constantes
β j sont les proportions du mélange (supposées connues dans ce travail pour simplifier)
sur chaque composante T j partitions de T (La Figure 5.2 présente une représentation
graphique de f pour p = 2).
où les TI j sont des intervalles et les TN j′ sont des ensembles discrets au plus dénom-
brables. Sans perte de généralité, nous désignons par TI un intervalle de T et par TN
125
Chapitre 5. Estimateurs à noyaux associés mixtes et applications
un sous ensemble discret de T au plus dénombrable. Nous rappelons au lecteur que les
échelles de temps sont des fermés de R. Pour simplifier, nous écrivons T de la manière
suivante :
T = TI ∪ TN = [t0 , t1 ] ∪ {t2 , t3 , ...}. (5.3)
Sur les échelles de temps, plusieurs outils d’analyse ont été proposés pour travailler à
la fois sur les intervalles et les ensembles discrets.
Ce chapitre se propose d’en faire usage dans le but d’estimer par les méthodes
non-paramétriques les fonctions de type (5.1) sur le support T défini en (5.3) tout en
respectant la structure topologique de ce dernier. La fonction définie en (5.1) est une
f.d.m.p. dite fonction mixte univariée. La mixité est due ici au fait que la densité f à estimer
est partiellement continue et discrète. La méthode appropriée pour ce type d’estimation
est celle des noyaux associés puisque ces derniers sont construits dans l’esprit du strict
respect de la nature topologique du support de f ; cependant, nous devrions rester
attentifs aux différents changements de structures de supports. Il faut noter que la force
des noyaux associés pour ce type d’estimation réside dans leur capacité à dépendre
intrinsèquement du point d’estimation x et de la fenêtre de lissage h interprétée comme
paramètre de dispersion et qui joue le même rôle tant dans le cas discret que continu ;
voir Jørgensen (1997) et Jørgensen et Kokonendji (2011, 2013). Enfin, l’une dernière des
raisons est leur flexibilité dans l’utilisation de l’analyse unifiant le discret et le continu
que nous détaillons dans la Section 5.1.
Rappelons au lecteur que lorsque T est homogène (i.e. restreint à TI ou à TN que
[j]
nous notons simplement T j ), le noyau associé (continu ou discret) est une f.d.m.p. Kx,h
[j]
paramétrée par le point d’estimation x et le paramètre de lissage h, sur le support Sx,h
où A j (x, h) et B j (x, h) tendent vers 0 lorsque h tend 0 et Zx,h est une variable aléatoire de
[j]
loi Kx,h .
Pour une suite X1 , X2 , · · · , Xn de variables aléatoires indépendantes et identiquement
distribuées (i.i.d.) de densité inconnue f j sur le support T j , l’estimateur fbn j de f j ∈ C 2 (T j )
[j]
à noyau associé Kx,h est de la forme :
nj
b 1 X [j]
fn j (x) = K (Xi )1T j (x)1T j (X j ), (5.7)
n j i=1 x,h
où n j est le nombre d’observations tambant dans T j . Le lecteur peut consulter les articles
de Chen (1999, 2000), Kokonendji & Zocchi (2010), Kokonendji & Senga Kiessé (2011)
puis Kokonendji & Libengué (2013) pour une présentation détaillée avec des multiples
exemples. Le biais de cet estimateur est défini par
n o 1n o
Biais fbn j (x) = A j (x, h) f j(1) (x) + A2j (x, h) + B j (x, h) f j(2) (x) 1T j (x) + o(h2 ), (5.8)
2
n o 1
[ j] 2 1
Var fbn j (x) = f j (x) Kx,h 1T j (x) + o (5.9)
nj 2 nhr2
avec Z
[j]2
K (u)du si T j = TI
[j] 2
Sx ,h ∩T j x,h
Kx,h =
j
2
P [j]2
y∈Sx ,h ∩T j Kx,h (y) si T j = TN
j
[j] [ j]
et r2 = r2 (Kx,h ) est le plus grand réel dépendant du noyau associé Kx,h tel que nhr2 → +∞
lorsque n → +∞.
Nous organisons ce chapitre de la manière suivante. Nous rappelons dans la pre-
mière section les outils d’analyses sur les échelles de temps, essentiellement ceux qui
sont nécessaires pour la suite de ce travail. Puis, nous présentons dans la deuxième
section les noyaux associés mixtes ainsi que leurs estimateurs. Nous donnons les pro-
priétés de ces estimateurs en portant une attention particulière à l’étude des biais et
variance ainsi que les erreurs quadratiques moyennes ponctuelles et intégrées. Enfin,
nous terminons ce chapitre par des applications.
Bien évidemment, lorsqu’un point t est à la fois continu à droite et gauche (i.e. càg
et càd) alors on a ρ(t) = t = σ(t) et on dit que t est une point continu. De même, un point
est dit discret lorsqu’il est discret à droite et à gauche (i.e. dàd et dàg) ce qui se formule
par ρ(t) < t < σ(t).
Nous présentons dans la définition suivante la nouvelle notion de l’ordre de discré-
tisation des points sur la partie TN de T.
Nous attirons ici l’attention du lecteur sur cette notion qui sera reprise dans le para-
graphe concernant la dérivabilité. Signalons également au passage que les échelles de
temps sont des espaces métriques complets. Elles sont dotées des notions de distance,
d’ouverts qui débouchent sur les concepts des limites et continuités que nous n’al-
lons pas détailler dans ce travail. Sinon, en ce qui concerne la continuité, une fonction
f : T j → R, est dite continue sur T j lorsqu’on a :
2-) De même, on dit que f est ∇-dérivable en x si : ∀ε > 0, ∃η′ > 0 : ∀s ∈ Vη′ (x) =
]x − η′ , x + η′ [∩T ⇒
< ε
f ρ(x) − f (s) − f ▽ (x) ρ(x) − s ρ(x) − s
, ∀x ∈ Tκ .
et
∇
f ρ(x) − f (s) f (x) − f (s)
f (x) = = lim . (5.11)
ρ(x) − s x→s
x<s
x−s
Lorsque T = TI alors (5.10) et (5.11) représentent respectivement les notions usuelles
de dérivabilité à droite et à gauche de x. Cependant, lorsque T = TN alors (5.10) et
(5.11) sont similaires aux notions des différences finies décentrées à droite et à gauche
de x.
Ainsi, nous introduisons la nouvelle notion unifiant celles de dérivée première et de
différences finies de premier ordre de f en un point x de T dans la définition suivante.
Définition 5.1.4 Soient f : T → R et x ∈ Tκκ (où Tκκ est un ouvert de T). On dit que f est
dérivable en x si et seulement si elle est à la fois ∆-dérivable et ∇-dérivable en x et sa fonction
dérivée en x est de la forme :
1
f (1) (x) = {σ(x) − x} f △ (x) + x − ρ(x) f ▽ (x) , ∀x ∈ T.
σ(x) − ρ(x)
Ce qui est nettement différent du résultat de Kokonendji & Senga Kiessé (2011). Pour
ces auteurs, la quantité (5.15) est exprimée sous la forme :
{ f (x + 2) − 2 f (x) + f (x − 2)}/4 si x ∈ N r {0, 1}
f (2) (x) =
{ f (3) − 3 f (1) + 2 f (0)}/2 si x = 1 (5.16)
{ f (2) − 2 f (1) + f (0)}/2 si x = 0.
On remarque par là que les différences finies centrées à deux pas sont appliquées
aux points x, discrets d’ordre supérieur ou égal à deux. Mais dans le cas des points
0 et 1, les différences finies décentrées à un pas vers la droite sont appliquées puis
exceptionnellement les décentrées à un pas vers la gauche sont appliquées au point 1.
Il faut noter que le calcul de la dérivée d’ordre k d’une fonction f en un point x
de TN nécessite une connaissance a priori de l’ordre de discrétisation de ce point. Par
exemple dans le cas précédent, on remarque que le point 2 est discret d’ordre 2 à gauche
et d’ordre infini à droite, cependant le point 1 est discret d’ordre 1 à gauche d’ordre
infini à droite tandis que le point 0 est seulement discret à droite.
Définition 5.1.5 Une fonction f est dite de classe C k (T) si et seulement si f (k) existe et est
continue.
Enfin, les échelles de temps sont munies de ∆-mesure et ∇-mesure qui tiennent compte
de leurs structures. Ces deux mesures sont similaires à la mesures de Lebesgue lorsque
T est un intervalle puis à une mesure de dénombrement si TN est un ensemble discret.
La définition suivante introduit l’outil d’unification de calcul intégral sur les échelles
de temps.
Théorème 5.1.7 (Hilger, 1988) Soient a et b des points de T tels que a < b et f une fonction
△-mesurable sur T. L’intégrale de f sur T satisfait les propriétés suivantes :
Z b
Z b
f (t)dt si T = TI
a
f (t) △ t =
Xb (5.19)
a
f (t) si T = TN .
a
Pour la démonstration, le lecteur peut se référer à Hilger (1988) ou Bohner & Peterson
(2001, pages 26-34). On obtient les même propriétés en ce qui concerne les fonctions
∇-mesurables en utilisant l’une des relations (5.17) et (5.18).
Nous présentons dans la section suivante les estimateurs à noyaux associés mixtes.
X
où les β j sont des réels positifs tels que β j = 1 et les f j sont des fonctions de densité et/ou
j
masse de probabilité.
Remarque 5.2.2 Une densité mixte peut être considérée comme un “modèle de mélange mixte”.
A travers le mot mixte, nous voulons insister sur le fait que le mélange contient à la fois des
données discrètes et continues. Lorsque les réels β j sont inconnus, l’estimation de f est alors
“semi-paramétrique”. Dans notre travail, nous les supposons connus. Ce qui nous permet
d’estimer f par la méthode non-paramétrique des noyaux associés.
Définition 5.2.3 Un type de noyau mixte Kθ de support Sθ est une combinaison convexe des
[j] [j]
types de noyaux continus et discrets Kθ de supports Sθ . On écrit alors
X
[j]
Kθ (u) = β j Kθ (u)1S[j] (u),
θ
j
X
avec β j > 0, tels que β j = 1.
j
Nous précisons ici que le support Sθ du type de noyau mixte est la réunion des supports
[j]
Sθ des types de noyaux continus et discrets dont il est issu. On le note généralement
par : [
[ j]
Sθ = Sθ . (5.20)
j
Sans perte de généralité, nous désignerons par SθI le support d’un type de noyau
continu et par SθN celui d’un type de noyau discret. Par conséquent, le support Sθ de
Kθ sera la réunion de SθI et SθN .
Nous allons maintenant définir le noyau associé mixte.
p
X
[j]
Kθ(x,h) (·) = β j Kx,h (·)1S[ j] (x)1T j (·), (5.21)
x,h
j=1
X
où les β j sont des réels positifs tels que β j = 1.
j
p
[
[j]
Sθ(x,h) = Sx,h (5.22)
j=1
[j] [j]
avec Sx,h supports de Kx,h (·)1S[j] (x)1T j (·).
x,h
On vérifie facilement que Kθ(x,h) (·) en (5.21) satisfait les conditions des noyaux associés
(5.4)–(5.6) que l’on peut récrire de la forme
x ∈ Sθ(x,h) , (5.23)
E(Zx,hβ ) = x + Aθ (x, h), (5.24)
Var(Zx,hβ ) = Bθ (x, h). (5.25)
Pp Pp
où Aθ (x, h) = j=1
A j (x, h)1S[ j] (x) et Bθ (x, h) = j=1
B j (x, h)1S[ j] (x) tendent vers 0 lorsque h
x,h x,h
tend 0 et Zθ(x,h) est une variable aléatoire de loi Kθ(x,h) .
Quelques observations méritent d’être faites avant de continuer.
Remarque 5.2.5 (i) La construction du noyau associé mixte Kθ(x,h) dépend de celle des
[j]
noyaux associés continus et discrets Kx,h qui le constituent.
(ii) Le paramètre de lissage h peut être choisi local (i.e. différemment sur chaque T j selon
le noyau associé utilisé tout comme il peut être choisi globalement en tenant seulement
compte de Kθ(x,h) .
(iii) Le noyau associé mixte Kθ(x,h) (·) est une densité de probabilité par rapport à la variable
aléatoire mais il ne l’est pas (nécessairement) par rapport à x. Aussi, il hérite la flexibilité
des noyaux associés issus desquels il provient.
(iv) Enfin, le support Sθ(x,h) doit être égale à T pour éviter les effets de bords. Ceci veut
[j]
implicitement dire que toutes les composantes Sx,h et T j respectivement de Sθ(x,h) et T sont
deux à deux égales.
[j]
où n j le nombre d’observations tombant dans T j et les Kx,h (·)1S[j] (x)1T j (·) sont des noyaux
x,h
[ j]
associés de support Sx,h .
Cet estimateur peut être écrit encore sous la forme :
p
X
fb(x) = β j fbj (x)1T j (x), (5.27)
j=1
[j] [ j]
où les fbj sont les estimateurs à noyaux associés Kx,h (·)1S[ j] (x)1T j (·) de support Sx,h , pon-
x,h
dérés par les poids β j (connus) sur les composantes T j de T.
Nous signalons ici que l’estimateur à noyaux associés mixtes hérite simultanément
quelques une des propriétés élémentaires des noyaux associés discrets et continus le
constituant. Nous allons dans la proposition suivante donner ces propriétés.
Proposition 5.2.6 Soit fb, l’estimateur à noyaux associés mixtes Kθ(x,h) de f en (5.1). Pour
toute variable aléatoire Zθ(x,h) de loi Kθ(x,hh) , fbvérifie les propriétés suivantes
n o n o
E fb(x) = E f (Zθ(x,h) ) , (5.28)
Z
fbn (x)∆x =: Λ(n, h, Kθ ) n’est pas toujours égale à 1. (5.29)
T
D’après le point (iii) de la Remarque 5.2.5, le noyau associé mixte Kθ(x,h) (u) n’est pas
Rune densité de probabilité par rapport à la variable x. Par conséquent, l’intégrale
K
T θ(x,h)
(u)∆x est une constante positive dépendant simultanément de l’échantillon,
du paramètre de dispersion et du type de noyau associé mixte. Nous notons cette
constante Λ(n, h, Kθ ) et elle n’est pas toujours égale à 1.
Le lecteur peut se réferer à la Proposition 2.2.2 de ce travail pour plus de précision.
Signalons aussi que l’on peut retrouver le même résultat en utilisant la ∇-mesure.
Nous présentons dans cette section, les biais et variances de l’estimateur à noyau
associé mixte. Puis, nous procédons au calcul des erreurs quadratiques moyennes
asymptotiques respectivement ponctuelles et globales.
Proposition 5.3.1 Soit f ∈ C 2 (T) une densité mixte du type défini en (5.1) et fbson estimateur
à noyau associé mixte en (5.26). Pour tout x dans T et h = hn > 0, on a
n o 1n o
Biais fb(x) = Aθ (x, h) f (1) (x) + A∗θ (x, h) + Bθ (x, h) f (2) (x) + o(h2 ). (5.30)
2
P P P
avec Aθ (x, h) = j β j A j (x, h), Bθ (x, h) = j β j B j (x, h) et A∗θ (x, h) = j β j A2j (x, h).
Si en plus, f est bornée sur T alors
n o X p
β2j
b [j] 2 1
Var f (x) = f j (x) Kx,h 1T j (x) + o , (5.31)
j=1
n j 2 nhr2
où r2 = r2 (Kθ ) > 0 est le plus grand réel tel que kKθ k22 ≤ c2 (x)h−r
n
2
et 0 < c2 (x) < ∞.
p nj
p
n o
X βj X
X
b [j]
Biais f (x) = E K (Xi )1S[ j] (x)1T j (Xi ) − β j f j (x)1T j (x)
j=1
n j i=1 x,h x,h
j=1
p
nj
X
1 X
β j E
[j]
= Kx,h
(Xi )1 [ j] (x)1T (Xi ) − f j (x)1T (x)
nj Sx,h j
j
j=1 i=1
[j]
Puisque les supports Sx,h et T j sont égaux (voir point iv de la Remarque 5.2.5), alors on
a
p
nj
n o X
1 X
β j E 1 (x)
[j]
Biais fb(x) = K x,h
(X )1
i Tj (X )
i − f j (x) T j
nj
j=1 i=1
p
X h n o i
= β j E fbj (x) − f j (x) 1T j (x)
j=1
p
X p
1X n 2 o
= β j A j (x, h) f j(1) (x)1T j (x) + β j A j (x, h) + B j (x, h) f j(2) (x)1T j (x) + o(h2 )
j=1
2 j=1
1n ∗ o
= Aθ (x, h) f (1) (x) + Aθ (x, h) + Bθ (x, h) f (2) (x) + o(h2 )
2
P
où les f (j) pour j ∈ {1, 2} sont définies dans (5.13) puis Aθ (x, h) = j β j A j (x, h), Bθ (x, h) =
P P 2
j β j B j (x, h) et Aθ (x, h) = j β j A j (x, h). Montrons maintenant le second résultat. Partant
∗
n o
En remplaçant Var fbj (x) par sa valeur donnée dans (5.9), on obtient le résultat.
Nous voulons attirer l’attention du lecteur ici sur ce résultat. Comme démontré dans
la Proposition 2.2.4, l’obtention de la variance de fbj fait usage du développement en
[j] 2
série de Taylor. Ici, la formule utilisée est celle donnée en (5.12). Aussi, la norme Kx,h
2
se calcule en utilisant l’intégrale définie en (5.19).
Les deux résultats précédents nous permettent de procéder au calcul des erreurs
quadratiques moyennes asymptotiques ponctuelles et intégrées. En combinant (5.30)
et (5.31) on a :
1n ∗ o Xp
β2j [j] 2
(1) (2)
AMSE(x) = Aθ (x, h) f (x) + Aθ (x, h) + Bθ (x, h) f (x) + f j (x) Kx,h 1T j (x).
2 j=1
n j 2
Nous envisageons ici le choix de fenêtre de lissage par la méthode de validation croi-
sée. Nous précisons ici que ce choix peut se faire de deux manières. La première consiste
à choisir h globalement en utilisant directement le noyau associé mixte Kθ(x,h) dans la
validation croisée en prenant en compte l’ensemble des observations. La deuxième
manière consiste quant à elle à procéder au choix local de h sur chaque composante T j
de T. Ici, on fait intervenir uniquement les observations tombant dans T j . Dans tous
les cas, le statisticien est appelé à doubler de vigilance lorsqu’on se trouve aux points
limites i.e. au passage d’un intervalle TI à un ensemble TN discret en tenant compte des
informations du passé. Pour ce travail, nous proposons un choix global par la méthode
de validation croisée par les moindres carrés.
Telle que présentée dans la Section 1.1.3 du Chapitre 1, l’approche de validation
croisée par les moindres carrés nous amène à considérer le noyau associé mixte Kθ(x,h)
pour tout x ∈ T = ∪ j T j et h > 0. Le paramètre optimal hcv de h est obtenu par
où
Z n n
b
o2 2Xb
CV(h) = f (x) ∆x − f−i (Xi )
T n i=1
Z Xn
2
n
1
2Xb
=
Kθ(x,h) (Xi ) ∆x − fn,−i (Xi )
T n i=1 n i=1
Z p nj
2
X β j
X
[j]
=
K x,h
(X k )1 [j] (x)1T (Xk ) ∆x
∪ j T j j=1 n j k=1
j
S x,h
p nj
2 X
n
X β j X [ j]
−
K X
(X k )1 [ j] (x)1T (Xk )
n i=1 j=1 n j − 1 k ,h Sx,h
j
i,k=1
p Z X
p 2 p
X
2 Xn X
b b
=
β f 1
j j Tj (x)
∆x −
f j,−i (X )
i
j=1 Tj
j=1
n i=1
j=1
Pn j [ j]
et fbj,−i (u) = (n j − 1)−1 i,k=1 Ku,h (Xk )1S[ j] (u)1T j (Xk ) est calculé à partir de fbj (u) sans l’ob-
x,h
servation Xi .
(u − 2)(x−2)/3h (5 − u)(5−x)/3h3
EBx,h;2,5 (u) = 1[2,5] (u),
31+1/h B ([{x − 2}/3h] + 1, [{5 − x}/3h] + 1)
Il a pour caractéristiques
2h(4 − x)
A1 (x, h; 2, 5) = (5.34)
1 + 2h
−x2 + 7x + 9h + 9h2 − 10
B1 (x, h; 2, 5) = . (5.35)
(1 + 2h)2 (1 + 3h)
Kθ(x,h) (·) = 0.65EBx,h;2,5 (·)1[2,5] (x)1[2,5] (·) + 0.35DT x,6,20,h (·)1{6,7,··· ,20} (x)1{6,7,··· ,20} (·). (5.38)
Aθ (x, h) = 0.65A1 (x, h)1[2,5] (x) + 0.35A2 (x, h)1{6,7,··· ,20} (x) (5.39)
Bθ (x, h) = 0.65B1 (x, h)1[2,5] (x) + 0.35B2 (x, h)1{6,7,··· ,20} (x) (5.40)
où les quantités A1 (x, h), B1 (x, h), A2 (x, h) et B2 (x, h) sont respectivement donnés en (5.34),
(5.35), (5.36) et (5.37).
L’estimateur fbde la densité mixte f définie en (5.33) à noyau associé mixte Kθ(x,h) en
(5.38) est donné par
n1 n2
0.65 X 0.35 X
fb(x) = EBx,h;2,5 (Xi )1[2,5] (x)1[2,5] (Xi ) + DT x,6,20,h (Xi )1{6,7,··· ,20} (x)1{6,7,··· ,20} (Xi ).
n1 i=1 n2 i=1
(5.41)
Son biais est défini par
n o 1n o
Biais fb(x) = Aθ (x, h) f (1) (x) + A∗θ (x, h) + Bθ (x, h) f (2) + o(h2 ) (5.42)
2
Ici r2 = 1/2.
Nous présentons dans le Tableau 5.2, les différentes valeurs de biais, variance et
AMSE de fb. Ces résultats montrent que la variance de l’estimateur à noyau associé
mixte pour le modèle de mélange gaussien-Poisson diminue en général lorsque la taille
de l’échatillon augmente. Cependant, on note que son biais augmente aux bords de
la partie continue du support et diminue aux bords de la partie discrète quand la
taille de l’échantillon croît. Ceci peut s’expliquer d’une part par le fait que nous avons
travaillé avec un mélange utilisant la version du noyau associé bêta étendu construit
par la méthode mode-dispersion. D’autre part il peut être dû au choix du paramètre de
lissage h. Nous signalons ici que notre choix de h est fait localement par composante
de T en utilisant la méthode de validation croisée par les moindres carrés. Il est très
intéressant de comparer ce résultat en utilisant une valeur de h choisie globalement.
Nous avons proposé dans cette thèse, une méthode non-paramétrique d’estimation
de densités partiellement discrètes et continues (dites densités mixtes).
Récapitulatif
Tout d’abord, nous avons brièvement fait l’état des méthodes existantes, plus pré-
cisément celles des estimateurs à noyaux continus (classiques) de Rosenblatt (1956) et
Parzen (1962), et des estimateurs à noyaux associés discrets de Kokonendji & Senga
Kiessé (2011). Ce faisant, nous avons essentiellement développé les notions que nous
améliorons dans notre travail en insistant plus précisément sur les notions, d’erreurs
quadratiques moyennes et intégrés, les consistances ponctuelles et globales ainsi les
différentes techniques de choix du paramètre de lissage h. il faut noter aussi que dans
ce travail de rappel, nous avons proposé une définition pour les noyaux continus (clas-
siques) qui jusqu’alors se déduit de celle de l’estimateur puis nous avons aussi amélioré
la définition des noyaux associés discrets.
Ensuite, nous avons présenté la méthode des noyaux associés continus. Cette nou-
velle méthode d’estimation englobe celle proposée par Rosenblatt (1956) puis améliorée
par Parzen (1962). Les noyaux associés continus sont en général des densités de probabi-
lité, paramétrées par le point d’estimation x et le paramètre de dispersion h. La méthode
" mode-dispersion" a été proposée pour leur construction qui consiste à résoudre les
équations x = M(a, b) et h = D(a, b) où M(a, b) et D(a, b) sont, respectivement, l’unique
mode et le paramètre de dispersion de Kθ(a,b) (qui est une densité de probabilité para-
métrée et de carré intégrable). Cela conduit au noyau associé Kθ(x,h) := Kθ(a(x,h),b(x,h)) de
support Sθ(x,h) = Sθ(a(x,h),b(x,h)) , où a(x, h) et b(x, h) sont solutions des équations précédentes.
Nous avons illustré ceci sur plusieurs noyaux associés non-classiques de la littérature.
Dans cette illustration, nous avons constaté que certains noyaux associés à l’exemple
des noyaux de Weibul et de Birnbaum-Sanders ne peuvent pas être construits par la
méthode mode-dispersion. Aussi, d’autres noyaux associés comme les noyaux gamma
inverse et gaussien inverse présentent des insuffisances lorsqu’on sort du domaine de
contraintes liées à leur construction.
Par la suite, nous avons défini les estimateurs à noyaux associés continus puis nous
avons montré qu’ils sont sans effet de bord mais possèdent un biais plus grand (en
nombre de termes) que les estimateurs à noyaux classiques. Ce problème peut être
interprété comme l’équivalent des effets de bord dans le cas classique. Pour y remédier,
nous avons développé un algorithme de réduction de biais qui consiste d’abord à
143
Chapitre 5. Estimateurs à noyaux associés mixtes et applications
L’idée ici est de considérer une densité mixte multivariée f à estimer de support
Td ⊆ Rd avec d ∈ {2, 3, . . .}. Nous signalons au passage que le support Td est une
échelle de temps multidimensionnelle. Il peut être alternativement discret et continu
dans chacune des directions, ou encore uniquement discret sur une direction et continu
sur une autre ainsi de suite. Ensuite on définit pour tout x = (x1 , . . . , xd )T ∈ Td et
Hd est une matrice de fenêtres symétrique et définie positive, le noyau associé mixte
multivarié comme étant une densité de probabilité Kθ(x,Hd ) , dépendant de paramètres
θ ∈ Θ ⊆ Rd(d+3)/2 et de support Sθ(x,Hd ) satisfaisant les conditions suivantes :
x ∈ Sθ(x,Hd ) ,
E Zθ(x,Hd ) = x + Aθ (x, Hd )
Cov Zθ(x,Hd ) = Bθ (x, Hd ),
De là on peut exprimer son biais et sa variance sous la forme de biais et variance dans
les cas univarié donnés respectivement en (5.30) et (5.31).
Remarques finales
Les travaux ainsi réalisés offrent de nombreuses perspectives intéressantes.
Tout d’abord concernant les noyaux associé non-classiques, Il serait intéressant
de comparer la performance de tous les estimateurs à noyaux associés de supports
]0, +∞[ tant aux bords qu’ à l’intérieur avec les densités vérifiant les conditions de
Schuster comme traité dans Zhang (2010). Puis déterminer un équivalent du noyau
d’Epanechnikov dans le cas associé non-classique.
Puisque la fenêtres h joue un rôle très important dans la performance des estima-
teurs de densités à noyaux associés, un sujet intéressant serait d’étudier ses sélecteurs
automatiques en utilisant les critères bayésien ou les méthodes adaptatives de Lepski
modifiées.
Un autre sujet intéressant est d’étendre la méthode mode-dispersion de construction
des noyaux associés aux cas des données multidimensionnelles à support bornés. Ici
l’aspect fondamental est la notion de dispersion mutivariée.
En ce qui concerne les noyaux associés mixtes, il est intéressant d’étudier prioritaire-
ment le cas où les coefficients β j sont inconnus puis examiner les différentes techniques
existantes pour le choix du paramètre de lissage. Ensuite étudier finement les différents
effets de bords tant au passage du continu au discret qu’aux extrémités. Enfin, traiter
le problème de choix de fenêtre avc d’autre méthodes de la littérature.
[1] Abdous, B. & Kokonendji, C.C. (2009). Consistency and asymptotic normality for
discrete associated-kernel estimator. African Diaspora Journal of Mathematics 8 (2),
63-70.
[2] Agarwal, R.P. & Bohner. M. (1999). Basic calculus on time scales and some of its
applications. Results Mathematics 35, 3-22.
[3] Aitchison, J. & Aitken, C.G.G. (1976). Multivariate binary discrimination by the
kernel method. Biometrika 63, 413-420.
[4] Ash, R.B. & Doléans-Dade, C.A. (2000). Probability and Measure Theory. Academic
Press, California.
[5] Balakrishnan, N., Gupta, R.C., Kundu, D., Leiva, V. & Sanhueza, A. (2011). On some
mixture models base on Birnbaum-Saunder distribution and associated inference.
Journal of Statistical Planning and Inference 141, 2175-2190.
[6] Berlinet, A. & Devroye, L. (1989). A comparison of kernel density estimates. Pu-
blications de l’Institut de Statistique de l’Université de Paris 38, 03-59.
[7] Bertin, K. & Klutchnikoff, N. (2011). Minimax properties of beta kernel estimators.
Journal of Statistical Planning and Inference 141, 2287-2297.
[8] Billingsley, P. (1961). The Lindeberg-Lévy theorem for martingales. Proceedings of
the American Mathematical Society 5, 788-792.
[9] Birnbaum, Z.W. & Saunders, S.C. (1969). A new family of life distributions. Journal
of Applied Probability 6, 319-327.
[10] Bohner, M. & Peterson, A. (2001). Dynamic Equations on Time Scales. Birkhäuser
Boston Inc., Boston.
[11] Bohner, M., & Peterson, A. (2003). Advances in Dynamic Equations on Time Scales.
Birkhäuser Boston Inc., Boston.
[12] Bouezmarni, T. & Rolin, J.M. (2003). Consistency of the beta kernel density function
estimator. The Canadian Journal of Statistics 31, 89-98.
[13] Bouezemarni, T. & Roumbots, J.V.K. (2010). Nonparametric density estimation for
multivariate bounded data. Journal of Statistical Planning and Inference 140, 139-152.
[14] Bouezemarni, T. & Scaillet, O. (2005). Consistency of Asymmetric kernel density
estimators and smoothed histograms with application to income data. Econometric
Theory 21, 390-412.
[15] Bouezemarni, T., Karunamuni, R.J. & Alberts, T. (2005). On boundary correction
in kernel density estimation. Statistical Methodology 2, 191-212.
147
Bibliographie
[53] Kokonendji, C.C. & Zocchi, S.S. (2010). Extensions of discrete triangular distribu-
tion and boundary bias in kernel estimation for discrete functions. Statistics and
Probability Letters 80, 1655-1662.
[54] Kuruwita, C.N., Kulasekera, K.B. & Padgett, W.J. (2010). Density estimation using
asymmetric kernels and Bayes bandwidths with censored data. Journal of Statistical
Planning and Inference 140, 1765-1774.
[55] Markovich, N. (2007). Nonparametric Analysis of Univariate Heavy-Tailed Data : Re-
search and Practice. Wiley and sons, Moscow.
[56] Marron, J.S. (1987). A comparison of cross-validation techniques in density esti-
mation. The Annals of Statistics 15, 152–162.
[57] Marron, J.S. & Ruppert, D. (1994). Transformations to reduce boundary bias in
kernel density estimation. Journal of the Royal Statistical Society 4, 653-671.
[58] Marsh, L.C. & Mukhopadhyay, K. (1999). Discrete Poisson kernel density esti-
mation with an application to wildcat coal strikes. Applied Economics Letters 6,
393-396.
[59] Massart, P. (1990). The tight constant in Dvoretzky-Kiefer-Wolfowitz inequality.
Annals of Probability 18, 1269-1283.
[60] Monfort, A. (1997). Cours de Statistique Mathématique. Economica, Paris.
[61] Nadaraya, E.A. (1965). On nonparametric estimation of density function and re-
gression. Theoretical Probability for Applications 10, 186-190.
[62] Park, B.U., & Marron, J. S. (1992). On the use of pilot estimators in bandwidth
selection. Journal of Nonparametric Statistics 3, 231-240.
[63] Parzen, E. (1962). On estimation of a probability density function and mode. Annals
of Mathematical Statistics 33, 1065–1076.
[64] R Development Core Team, (2012). A language and environment for statisti-
cal computing. R Foundation for Statistical Computing, Vienna, Austria. URL
http ://[Link].
[65] Regneir, E. (2005). Activity completion time in PERT and scheduling network
simulation. Defense Resources Management Institute News Letters 2005.04.08, 9 pages.
[66] Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density
function. Annals of Mathematical Statistics 27, 832–837.
[67] Rudemo, M. (1982). Empirical choice of histograms and kernel density estimators.
Scandinavian Journal of Statistics 9, 65–78.
[68] Sanyal, S. (2008). Stochastic dynamic equations. PhD thesis, Missouri University
of Sciences and Technology.
[69] Sarda, P. & Vieu, P. (1986). Régression non paramétrique et prédiction d’un proces-
sus markovien. Cahiers du Centre d’Études de Recherche Opérationnelle, 1-3, 203–209.
[70] Sarda, P. & Vieu, P. (1988). Vitesses de convergence d’estimateurs non-
paramétriques d’une régression et de ses dérivées. Comptes Rendus de l’Académie
des Sciences. Série I. Mathématique, 2, 83–86.
[71] Sarda, P. & Vieu, P. (1991). Smoothing parameter selection in hazard estimation.
Statistics and Probability Letters 5, 429–434.
[72] Scaillet, O. (2004). Density estimation using inverse and reciprocal inverse Gaus-
sian kernels. Journal of Nonparametric Statistics 16, 217–226.
[73] Schuster, E.F. (1985). Incorporating support constraints into nonparametric esti-
mators of densities. Communication in Statistics Theory and Methods 5, 1123-1136.
[74] Scott, D.W., Tapia, R.A. & Thompson, J.R. (1977). Kernel density estimation revi-
sited. Nonlinear Analysis 1, 339-372.
[75] Scott, D.W. (1992). Multivariate Density Estimation. John Willey & Sons, Texas.
[76] Senga Kiessé, T. (2009). Approche non-parametrique par noyaux associés discrets des
données de dénombrement. Thèse de Doctorat en Statistique, Université de Pau.
http ://[Link]/tel-00372180/fr/.
[77] Senga Kiessé, T., Libengué, F.G., Zocchi, S.S. & Kokonendji, C.C. (2010). The
R package for general discrete triangular distributions, http ://[Link].r-
[Link]/web/packages/TRIANGG/[Link].
[78] Senga Kiessé, T. & Rivoire, M. (2010). Discrete semiparametric regression models
with associated kernel and applications. Journal of Nonparametric Statistics 23, 927-
941.
[79] Seshadri, V. (1993). The Inverse Gaussian Distribution : A Case Study in Exponential
Families. Oxford University Press, New-York.
[80] Sheather, J. & Jones, M.C. (1991). A reliable data-based bandwidth selection me-
thod for kernel density estimation. Journal of the Royal Statistical Society Series B, 53,
683-690.
[81] Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis. Chapman
and Hall, London.
[82] Simonof, J.S. (1996). Smoothing Methods in Statistics. Springer, New York.
[83] Simonof, J.S. & Tutz, G. (2000). Smoothing methods for discrete data. In : smoothing
and regression : Approaches, computation, and application (ed. M.G. Shimek). pp. 193-
228. Wiley, New York.
[84] Stone, C. J. (1984). An asymptotically optimal window selection rule for kernel
density estimates. The Annals of Statistitics 12, 1285–1297.
[85] Tiago de Oliviera, J. (1963). Estatistica de densidades : resultados assintoticos
Revista de la Facultad de Ciencias, Universidad de Lisboa, A9, 111-206.
[86] Tsybakov, A.B. (2004). Introduction à l’Estimation Non-paramétrique. Springer, Paris.
[87] Youndjé, E., Sarda, P. & Vieu, P. (1996a). Optimal smooth hazard estimates. Test, 2,
379–394.
[88] Youndjé, E., Sarda, P. & Vieu,P. (1996b). Choix de paramètres de lissage en esti-
mation de densité conditionnelle. Publications de l’Institut de Statistique de Paris 38,
57-80.
[89] Zhang, S. (2010). A note on the performance of the gamma kernel estimators at the
boundary. Statistics and Probability Letters 7-8, 548-557
[90] Zhang, S. & Karunamuni, R.J. (2010). Boundary performance of the beta-kernal
estimator. Journal of Nonparametric Statistics 22, 81–104
[91] Zhang, S., Karunamuni, R.J. & Jones, M.C. (1999). An improved estimator of the
density function at the boundary. Journal of the American Statistical Association 94,
1231-1241.
[92] Zougab, N., Adjabi, S. & Kokonendji, C.C. (2012). Binomial kernel and Bayes local
bandwidth in discrete functions estimation. Journal of Nonparametric Statistics 24,
783-795.
[93] Zougab, N., Adjabi, S. & Kokonendji, C.C. (2013a). A Bayesian approach to band-
width selection in univariate associate kernel estimation. Journal of Statistical Theory
and Practice 7, 8-23.
[94] Zougab, N., Adjabi, S. & Kokonendji, C.C. (2013b). Adaptive smoothing in as-
sociated kernel discrete functions estimation using Bayesian approach. Journal of
Statistical Computation and Simulation 83, DOI : 10.1080/00949655.2012.686615.
[95] Zougab, N., Adjabi, S. & Kokonendji, C.C. (2013c). Bayesian approach in nonpa-
rametric count regression with binomial kernel. Communications in Statistics -
Simulation and Computation 42, DOI : 10.1080/03610918.2012.725145.
153
Bibliographie
Programme sous R
################################## Epanechnikov
epa=function(y){
T=rep(0,length(y));
{for (j in 1:length(y))
{T[j]= (1-(abs(y[j]))^2)*(3/4)
}
}
}
return(T)
}
################################## biweigh
biweigh=function(y){
T=rep(0,length(y));
{for (j in 1:length(y))
{if (y[j]>=-1 & y[j]<=+1)
{T[j]= (15/16)*(1-((y[j]))^2)^2
}
}
}
return(T)
155
Annexe A. Programme sous R
####################################gaussien
gaussian=function(y){
T=rep(0,length(y));
{for (j in 1:length(y))
{if (y[j]>=-1 & y[j]<=+1)
{T[j]= (1/(2*pi))*exp(((-1)/2)*(y[j])^2)
}
}
}
return(T)
}
##################################uniforme
unif=function(h,y){
T=rep(0,length(y));
{for (j in 1:length(y))
{if (y[j]>=-1 & y[j]<=1) #
{T[j]= 1/2
}
}
}
return(T)
}
######################################"Graphiques
u=epa(h,y)
w=gaussian(h,y)
l=unif(h,y)
s=biweigh(h,y)
plot(y,s,type="l",lwd=2,col="red",xlab="x", ylab="density")
lines(y,u,type="l",lwd=2,col="green")
lines(y,l,type="l",lwd=2,col="magenta")
lines(y,w,type="l",lwd=2,col="blue")
legend("topright",c("Epanechnikov ","Gaussien","Uniforme",
"Biweigh"),lwd=2,col=c("red","green","magenta","blue"),inset = .02)
Nous présentons ici nos programmes concernant les différents noyaux associés
continus non-classiques construit par la méthode mode-dispersion plus particulière-
ment le cas du noyau bêta étendu qui n’est pas prédéfini dans R. Ici, nous faisons varier
a et b et nous construisons le type de noyau bêta étendu correspondant de la manière
suivante :
x=seq(2,5,0.01)
a=0.5
b=0.5
BE_1=(1/((beta(a,b))*(3^{(a+b-1)})))*((x-2)^{(a-1)})*((5-x)^{(b-1)})
a=5
b=1
BE_2=(1/((beta(a,b))*(3^{(a+b-1)})))*((x-2)^(a-1))*((5-x)^(b-1))
plot(x,BE_1,xlab="y",ylab="Beta(a,b;2,5)(y)",main="Type de noyau bêta
étendu",[Link]=1.5,[Link]=1.5,pch=".",lty=1,lwd=2,col="red")
lines(x, BE_2, lwd=2,lty=2,col="green")
op <- par(bg="white")
legend(2.7,1.8,c( "a=b=0.5","a=5,b=1"),
pch=c(".","."), lty=c(1,2),col=c("red","green"),lwd=c(2,2),cex = 1.5)
Est_Gam=function(V,x,h){
out=(1/length(V))*sum(dgamma(V,(x/h)+1,1/h))
out
}
V=rgamma(100,1.5,2.6)
x=1.5
h=0.025
test=Est_Gam(V,x,h)
test
x=seq(0,18,0.05)
F_est=0
for (i in 1:length(x)){
F_est[i]=Est_Gam(V,x[i],h)
}
F_est
f=dgamma(x,1.5,2.6)
plot(x,f,type="l")
lines(x,F_est,type="l",col="red")
C1}
Cte=0
alpV=c(1.5,1.9,2.3,2.5,2.8,3.1,3.4,3.7,4.1,4.5)
betV=c(2.6,2.8,2.9,3.5,3.9,4.5,4.7,5.2,5.7,6)
for (i in 1:length(alpV)){
Cte[i]=cal_cte(alpV[i],betV[i])}
Cte
MSE=((Bias(A,B,x,h))^2)+Var(V,K1,x,h)
MSE
A1=x*(exp(((3/2)*(h^2))-1))
B1=(x^2)*(exp((3*(h^2))))*(exp(h^2)-1)
K1=LN1(V,x,h)
A2=((alph)^(x/alph))-x
B2=(exp(h^2)-1)*(exp(((2*x*log(alph))/alph)+(h^2)/2))
K2=LN2(V,x,h)
A7=x*((1/(sqrt(1-3*x*h)))-1)
B7=((x^3)*h)/((1-3*x*h)^(3/2))
K7=IG1(V,x,h)
out}
A8=(2*(x^2)-alph*(alph+x))/(alph)
B8=h*(((2*x^2-(alph)^2)^3)/((alph)^3))
K8=IG2(V,x,h)
A10=(x*(x-alph*h))/(alph)
B10=(h*(x^2+h*(alph)))/(alph)
K10=GIR2(V,x,h)
mse7
mse9
plot(x,mse1,xlab="x",ylab="MSE(x)",ylim=c(0,1),type="l",lwd=2)
lines(x,mse3,type="l",lwd=2,col="red")
lines(x,mse5,type="l",lwd=2,col="blue")
lines(x,mse7,type="l",lwd=2,col="green")
lines(x,mse9,type="l",lwd=2,col="yellow")
pdf('msee_1.pdf')
plot(x,mse3,xlab="x",ylab="MSE(x)",ylim=c(0,1.1),main="MSE behaviors for
h=0.5",type="l",lwd=2)
lines(x,mse5,type="l",lwd=2,col="grey",lty=2)
lines(x,mse7,type="l",lwd=2,col="black",lty=3)
lines(x,mse9,type="l",lwd=2,col="grey",lty=4)
lines(x,mse1,type="l",lwd=2,col="black",lty=5)
legend(0.6,1.1,c("Gamma","Inverse gamma","Inverse gaussien","Inverse gaussien
réciproque","Lognormal"),lwd=c(2,2,1,1,2),lty=c(1,2,3,4,5),
c("black","grey","black","grey","black"))
[Link]()
Le programme donné ici est dans le cas particulier du noyau bêta. Le lecteur peut
toutefois remplacer le noyau bêta un noyau non-classique de son choix tout en faisant
for(i in 1:length(V)){
b[i,]=dbeta(V, (V[i]/h)+1, ((1-V[i])/h)+1, ncp=0,log = FALSE)
a[i]=sum(b[i,])-dbeta(V[i],(V[i]/h)+1, ((1-V[i])/h)+1, ncp=0,log = FALSE)}
out=(2/(n*(n-1)))*sum(a)}
a=CV_2(h)
a
h_cv=hcv()
h_cv=h_cv\$minimum
h_cv
out0=0
for (i in 1:length(u)){
out0[i]=Est_Bet(V,u[i],h)}
out0
out1=dbeta(u,1.5,2.5,ncp=0,log=FALSE)
out=mean((out1-out0)^2)}
test=ISE(Vsim[1,],0.05)
test
ISEsim=0
for(j in 1:Nsim){
ISEsim[j]=ISE(Vsim[j,],0.05)}
ISEsim
E=6:20
Ind_2=function(X,E){ifelse(X%in%E,1,0)}
x3=4
x4=7
Ind_2(x3,E)
Ind_2(x4,E)
E2=y:20
Ind_4=function(X,E2){ifelse(X%in%E2,1,0)}
x5=4
x6=7
Ind_4(x3,E2)
Ind_4(x4,E2)
DT=function(V,x,h)
{out0=(1/D(h))
out1=(1-((x-V)/7)^h)*Ind_3(x,E1)
out2=(1-((V-x)/7)^h)*Ind_4(x,E2)
out=out0*(out1+out2)
}
V=6:20
x=7
y=x
h=0.5
test=DT(V,x,h)
test
{out0=0
for (i in 1:6)
{out0=sum(i^(h+1))
}
out1=0
for (i in 1:20)
{out1=sum(i^(h+1))
}
out=(1/D(h))*(189+7^(-h)*out0-(21^(-h))*out1)
}
test=A2(h)
test
B2=function(h)
{out0=0
for (i in 1:6)
{out0=sum(i^(h+2))
}
out1=0
for (i in 1:20)
{out1=sum(i^(h+2))
}
out=(1/D(h))*(2961+7^(-h)*out0-(21^(-h))*out1)
}
test=B2(h)
test
Btt=0.65*B1*Ind_1(x,2,5)+0.35*B2(h)*Ind_2(x,E)
Btt
Astt=0.65*(A1^2)*Ind_1(x,2,5)+0.35*((A2(h))^2)*Ind_2(x,E)
Astt
########################Calcul des dérivee #####################
f1=(1/(sqrt(2*pi)))*exp((-1/2)*(x^2))*Ind_1(x,2,5)
f1
f11=(-x/(sqrt(2*pi)))*exp((-1/2)*(x^2))*Ind_1(x,2,5)
f11
f12=(((x^2)-1)/(sqrt(2*pi)))*exp((-1/2)*(x^2))*Ind_1(x,2,5)
f12
f2=function(x)
{(((lda)^x)/factorial(x))*exp(-lda)}
lda=3
f21=(f2(x+1)-f2(x-1))*Ind_2(x,E)
f21
f22=(1/2)*(f2(x+2)-2*f2(x+1)+2*f2(x)-2*f2(x-1)+f2(x-2))
f22
f_1=0.65*f11+.035*f21
f_2=0.65*f12+.035*f22
Biaisfn=Att*f_1+(1/2)*(Astt+Btt)*f_2
####################################################################
x=2.5
V=6:20
y=x
h=0.5
Att=0.65*A1*Ind_1(x,2,5)+0.35*A2(h)*Ind_2(x,E)
Att
Btt=0.65*B1*Ind_1(x,2,5)+0.35*B2(h)*Ind_2(x,E)
Btt
Astt=0.65*(A1^2)*Ind_1(x,2,5)+0.35*((A2(h))^2)*Ind_2(x,E)
Astt
Biaisfn=Att*f_1+(1/2)*(Astt+Btt)*f_2
Biaisfn
################################################################
x=4.5
V=6:20
y=x
h=0.5
Att=0.65*A1*Ind_1(x,2,5)+0.35*A2(h)*Ind_2(x,E)
Att
Btt=0.65*B1*Ind_1(x,2,5)+0.35*B2(h)*Ind_2(x,E)
Btt
Astt=0.65*(A1^2)*Ind_1(x,2,5)+0.35*((A2(h))^2)*Ind_2(x,E)
Astt
Biaisfn=Att*f_1+(1/2)*(Astt+Btt)*f_2
Biaisfn
##################################################################
x=7
V=6:20
y=x
h=0.5
Att=0.65*A1*Ind_1(x,2,5)+0.35*A2(h)*Ind_2(x,E)
Att
Btt=0.65*B1*Ind_1(x,2,5)+0.35*B2(h)*Ind_2(x,E)
Btt
Astt=0.65*(A1^2)*Ind_1(x,2,5)+0.35*((A2(h))^2)*Ind_2(x,E)
Astt
Biaisfn=Att*f_1+(1/2)*(Astt+Btt)*f_2
Biaisfn
##################################################################
x=19
V=6:20
y=x
h=0.5
Att=0.65*A1*Ind_1(x,2,5)+0.35*A2(h)*Ind_2(x,E)
Att
Btt=0.65*B1*Ind_1(x,2,5)+0.35*B2(h)*Ind_2(x,E)
Btt
Astt=0.65*(A1^2)*Ind_1(x,2,5)+0.35*((A2(h))^2)*Ind_2(x,E
Astt
Biaisfn=Att*f_1+(1/2)*(Astt+Btt)*f_2
Biaisfn
Varfn2=function(x,h,n1,n2)
{out2=(0.1225)*(1-f2(x))*f2(x)*Ind_2(x,E)
out3=((D(h))^2)*n2
out=(out2/out3)
}
Varfn=Varfn1(x,h,n1,n2)+varfn2(x,h,n1,n2)
Abstract
We present in this thesis, the non-parametric approach using mixed associated kernels for densities with
supports being partially continuous and discrete. We first start by recalling the essential concepts of classical continuous
and discrete kernel density estimators. We give the definition and characteristics of these estimators. We also recall the
various technical for the choice of smoothing parameters and we revisit the problems of supports as well as a resolution
of the edge effects in the discrete case. Then, we describe a new method of continuous associated kernels for estimating
density with bounded support, which includes the classical continuous kernel method. We define the continuous
associated kernels and we propose the mode-dispersion for their construction. Moreover, we illustrate this on the non-
classical associated kernels of literature namely, beta and its extended version, gamma and its inverse, inverse Gaussian
and its reciprocal, the Pareto kernel and the kernel lognormal. We subsequently examine the properties of the estimators
which are derived, specifically, the bias, variance and the pointwise and integrated mean squared errors. Then, we
propose an algorithm for reducing bias that we illustrate on these non-classical associated kernels. Some simulations
studies are performed on three types of estimators lognormal kernels. Also, we study the asymptotic behavior of the
continuous associated kernel estimators for density. We first show the pointwise weak and strong consistencies as well
as the asymptotic normality. Then, we present the results of the global weak and strong consistencies using uniform and
L1 norms. We illustrate this on three types of lognormal kernels estimators. Subsequently, we study the minimax
properties of the continuous associated kernel estimators. We first describe the model and we give the technical
assumptions with which we work. Then we present our results that we apply on some non-classical associated kernels
more precisely beta, gamma and lognormal kernel estimators. Finally, we combine continuous and discrete associated
kernels for defining the mixed associated kernels. Using the tools of the unification of discrete and continuous analysis,
we show the different properties of the mixed associated kernel estimators. All through this work, we choose the
smoothing parameter using the least squares cross-validation method.
Keywords: Asymmetric kernel, Boundary effect, Convergence, Cross-validation, Dispersion parameter,
Mixed density, Mixture model, Nonparametric kernel estimation, Time-scales, Unimodal kernel