0% ont trouvé ce document utile (0 vote)
57 vues77 pages

D Math Semmar Sihem

Cette thèse aborde l'estimation récursive de la fonction de densité conditionnelle pour des données censurées, en se concentrant sur des modèles non paramétriques. La première partie établit la convergence et la normalité asymptotique d'un estimateur à noyau récursif pour des variables aléatoires indépendantes, tandis que la seconde partie traite le cas de variables fortement mélangées. Les résultats sont appliqués à des analyses statistiques, notamment pour la prévision des intervalles de confiance.

Transféré par

Imane Mtms
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
57 vues77 pages

D Math Semmar Sihem

Cette thèse aborde l'estimation récursive de la fonction de densité conditionnelle pour des données censurées, en se concentrant sur des modèles non paramétriques. La première partie établit la convergence et la normalité asymptotique d'un estimateur à noyau récursif pour des variables aléatoires indépendantes, tandis que la seconde partie traite le cas de variables fortement mélangées. Les résultats sont appliqués à des analyses statistiques, notamment pour la prévision des intervalles de confiance.

Transféré par

Imane Mtms
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L’ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE


SCIENTIFIQUE

UNIVERSITÉ DJILLALI LYABES


FACULTÉ DES SCIENCES

THÈSE DE DOCTORAT 3ÈME CYCLE


EN : MATHÉMATIQUES
Spécialité : PROBABILITÉ ET STATISTIQUES

Présenter Par

Sihem SEMMAR

Titre

Sur l’estimation récursive de la fonction de


densitée conditionnelle pour des données
censurées

Soutenu publiquement le 30/11/2016, devant le jury composé de :

M A. LAKSACI Professeur Univ. Sidi Bel-Abbès Encadreur


M S. KHARDANI Maître de Conférence ENI de Monastir. Tunisie Co-Encadreur
M A. GHERIBALLAH Professeur Univ. Sidi Bel-Abbès Président
M M. ATTOUCH Professeur Univ. Sidi Bel-Abbès Examinateur
M F. MADANI Maître de Conférence Univ. Saida Examinateur
2

À la mémoire de ma grand mére.


3

Remerciements

Tout au long de mon parcours universitaire, j’ai eu la chance de rencontrer des per-
sonnes formidables, sur qui j’ai pu compter et qui m’ont aidé à réaliser ce travail. Leur
soutien m’était d’une importance capitale. Je tiens à les saluer et les remercier.

Je voudrais en tout premier lieu, exprimer ma profonde reconnaissance à mes direc-


teurs de thèse les professeur Ali Laksaci et Salah Khardani pour la confiance qu’il
m’ont témoignée en acceptant la direction de cette thèse aussi pour leur encadrement et
leurs encouragements durant toute la période de la réalisation de ce travail malgré toutes
leurs occupations. pour le temps et la patience que vous m’avez accordés tout au long de
ces années en me fournissant d’excellentes conditions logistiques. Je vous dis Merci

Je tiens à remercier vivement le Professeur Abdelkader Gheriballah , qui m’a fait


l’honneur de présider le jury de cette thèse, malgré ses nombreuses responsabilités.

Je suis trés honorée que Monsieur le Professeur Mohammed Kadi Attouch à ac-
cepté d’être examinateur de mon travail. Je le remercie également pour la confiance qu’il
m’a témoignée tout au long de ces années et pour tous ses conseils et remarques constructives.

Je veux exprimer ma reconnaisance à Monsieur Fethi Madani qui a accepté sans hé-
sitation d’examiner ce travail bien qu’il soit occupé. Je lui adresse mes sentiments les plus
respectueux.

Un grand merci au Membre du laboratoire de Statistique et Processus Stochastiques


de l’université de Sidi Bel Abbes, ainsi les enseignants du département de Probabilité et
Statistiques.

Bien sûre je n’aurais pu atteindre cet objectif sans l’aide continue de mes enseignants,
qui tout au long de mon apprentissage, m’ont transmis la passion du savoir et de la science
et sûrement aussi le bonheur de partager ses connaissances grâce à l’enseignement. Je cite
en particulier mes premiers enseignants, ma mère et mon père qui ont su croire en moi et
qui m’ont apporté toute leur aide quand j’en ai eu besoin, tous les remerciements du monde
ne suffiraient pas. Ce mémoire de thèse leur est dédié.

Les mots me manquent pour remercier, à sa juste valeur mon époux, pour ses encoura-
gements et son soutien perpétuel et réconfortant, Je ne saurai passer sous silence l’apport
inestimable des autres membres de ma famille qui m’ont soutenue, de près ou de loin durant
mes études doctorales. A mon très cher frère Mohammed Abderrahmane et à ma chère soeur
Fatima. Merci ma famille, je n’aurais rien fait de tout cela sans votre amour.

Je souhaite que cette thèse soit digne de toutes les personnes qui ont rendu ce travail
possible par leur présence, leur encouragment, leur amitié et leur amour.
4

Résumé
Dans cette thése, nous nous intéressons à la prévision non paramétriques récursifs dans les
modèles de censure données incomplètes (censurées). Plus précisément, nous nous intéres-
sons à la fonction densité conditionnelle pour lesquelles nous construisons des estimateurs
et étudions le comportement asymptotique.

Dans la première partie, nous considérons une suite de v.a. {Ti , i ≥ 1} indépendante et iden-
tiquement distribuée (iid), de densité g, censurée à droite par une suite aléatoire {Ci , i ≥ 1}
supposée iid et indépendante de {Ti , i ≥ 1}. Nous établissons la convergence et la normalité
asymptotique d’un estimateur à noyau récursif de la densité conditionnelle, et on va démon-
trer que cette propriété asymptotique est très utile dans des nombreuses analyses statistiques
telle la prévision des intervalles de confiance. Une étude sur des données simulées de taille
finie à étè réalisée.

Dans la deuxième partie, nous traitons le cas où la suite {Ti , i ≥ 1} est supposée fortement
mélangeante, alors que les {Ci , i ≥ 1} sont iid. Nous construisons un estimateur à noyau
récursif de la densité conditionnelle dont nous établissons la convergence presque sûre et la
normalité asymptotyque.

Mots clefs : α-mélange, convergence forte, données censurées, estimateurs de Kaplan-Meier,


estimateur à noyau,estimateurs récursifs, densitée conditionnelle, mode conditionnel, nor-
malité asymptotique.
5

Abstract

In this work, we focus on the recursive nonparametric prevision in censorship models, we are
interested in the problem of conditional density functions, for independent and dependent
data, for which we construct estimators and study the asymptotic behavior.
In the first part, we consider an independent and identically distributed (iid) sequence ran-
dom variables (rvs) {Ti , i ≥ 1} with density g. This sequence is right-censored by another
iid sequence of rvs {Ci , i ≥ 1} which is supposed to be independent of {Ti , i ≥ 1}. We
establish the consistency and asymptotic normality of a recursive kernel estimator of the
conditional density, and we will demonstrate that this asymptotic property is very useful in
many statistical analyzes such the prevision of confidence intervals.
In a second part we deal with the case where the sequence {Ti , i ≥ 1} is supposed to be
stationary and strongly mixing whereas the {Ci , i ≥ 1} are iid, We build a recursive kernel
estimator of the conditional density in which we establish the almost sure convergence and
asymptotyque normality.

Keywords : α-mixing, asymptotic normality, conditional density, strong consistency, cen-


sored data, Kaplan-Meier estimator, Kernel estimator, recursive estimator.
6
Table des matières

1 Introduction 9
1.1 Context bibliographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Description et Contribution de la thèse . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Brève présentation des résultats obtenus . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Notations : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.2 Résultats : Cas iid (unidimensionnel) . . . . . . . . . . . . . . . . . . . 18
1.3.3 Résultats : Cas α -mélangeant . . . . . . . . . . . . . . . . . . . . . . 18

2 Données incomplètes 25
2.1 Données censurées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Estimation de la fonction de survie . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Estimateur de Kaplan-Meier de la fonction de survie . . . . . . . . . . 28

3 Nonparametric conditional density estimation for censored data based on


a recursive kernel 31
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Presentation of estimates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Assumptions and main results . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Uniform strong consistency results with rate of convergence . . . . . . 36
3.3.2 Asymptotic normality . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Numerical study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5 Proofs of the intermediates results . . . . . . . . . . . . . . . . . . . . . . . . 41

4 On the strong iniform consistency of the conditional density for censored


data based on a recursive kernel 49
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Preamble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Assumptions and main results . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.1 Uniform strong consistency results with rate of convergence . . . . . . 53
4.4 Auxilary results and proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.4.1 Asymptotic normality . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8 TABLE DES MATIÈRES

5 Conclusion et perspective 67
5.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.2 Perspective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Annexe : Quelques outils de probabilités 69


6.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1.1 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1.2 Limite d’un produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.4 Inégalités exponentielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.5 Loi forte des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Chapitre 1

Introduction

On considère n observations d’une série chronologique x1 , x2 , · · · , xn , d’où on voudrait


prévoir xn+h (h est l’horizon de prévision)pour cela on utilise une méthode non paramé-
triques. La particularité de la statistique non-paramétrique est que le paramètre inconnu
qu’on cherche à détecter, à estimer ou à classifier n’est pas supposé d’appartenir à une
famille indicée par un petit nombre de paramètres réels. En général, dans la théorie non-
paramétrique on suppose que le nombre de paramètres qui décrivent la loi des observations
est une fonction croissant du nombre d’observations, ou encore que le nombre de paramètres
est infini.
Ce chapitre est divisé en trois sections. Nous commençons par une étude bibliographique à
la premier section. En suite nous présentons le plan de notre thèse dans le deuxième para-
graphe. Une brève présentation des résultats obtenus est donné dans la dernière section.

1.1 Context bibliographique


Le travail développé dans ce manuscrit de thèse se situe l’intersection entre les thématiques
importantes de la Statistique, à savoir l’estimation non paramétrique (avec des méthodes à
noyau), la théorie des données incomplètes (censures et troncatures) et la recursivité . Pour
la partie d’estimation non paramétrique, nous nous sommes intéressés plus particulièrement
à l’estimation non paramétrique de la densité conditionnelle (qui représentent une bonne
alternative de regréssion) conditionnels et non conditionnels. Nous nous sommes placé, dans
un premier temps, dans le cas où on dispose de réalisations de variables aléatoires indé-
pendantes et identiquement distribuées (i.i.d.). Ensuite nous nous sommes intéressés au cas
d’observations vérifiant une hypothèse de dépendance (mélange). En ce qui concerne la thé-
matique des données incomplètes, on s’intéresse à des variables d’intérêts censurées à droite.
Pour des raisons d’optimisation du temps de calcul et la nature des données étudiés, nous
avons choisi d’étudier des estimateurs récursifs.
L’estimation non-paramétrique de la densité et la densité conditionnelle est un sujet qui a
donné lieu à un grand nombre de travaux. Son champ d’application est très vaste et couvre
divers domaines, comme l’analyse de la régression, des séries chronologiques et la théorie de
la fiabilité. Par exemple Singh utilise des résultats sur l’estimation de la densité, en particu-
10 Introduction

lier pour estimer l’information de Fisher. Pour une revue des différentes méthodes on pourra
consulter Wegman (1972), Fukunaga (1972) et Tarter et Koonmal (1976)).

les principales méthodes non-paramétriques pour l’estimation de la densité sont la méthode


du noyau introduite par Rosenblatt (1956) et Parzen (1962), la méthode des séries ortho-
gonales étudiée entre autre par Schwartz (1967) et Watson (1964) et la méthode de l’his-
togramme introduite par Graunt puis developpée par Scott, Tran (1994), Carbon et Tran
(1996). Parmi l’ensemble de ces estimateurs, l’un des plus utilisés reste l’estimateur à noyau
défini par :
n  
1 X x − Xi
fnPR (x) := K , ∀x ∈ IRd ,
nhdn hn
i=1
d
où K est un noyau défini dans IR , borné et intégrable par rapport à la mesure de Lebesgue
et hn une suite réelle appelée paramètre de lissage, tendant vers zéro à l’infini. D’autres
conditions complémentaires sur K et hn sont nécessaires pour l’étude de cet estimateur.
L’étude de fnPR (x) a donné lieu à une vaste littérature statistique, pour une représentation
globale des résultats obtenus sur cet estimateur, notamment dans le cadre de données dé-
pendantes, nous renvoyons aux livres de Prakasa-Rao (1983) , Bosq (1998) , Bosq, Lecoutre
(1987), Bosq et Blanke(2007).

De nombreux auteurs se sont intéressés à l’estimation de la densité, on peut citer Devroye et


Penrod (1984) qui ont établi la convergence uniforme de l’estimateur des k voisins les plus
proches de la densité, Giné et Guillou (2002) qui ont montré la convergence uniforme de
l’estimateur à noyau de la densité en donnant une vitesse de convergence. Giné et al.(2004)
ont étendu à IRd les travaux de Stute (1984) sur le comportement asymptotique de l’esti-
mateur de la densité sur des compacts de IRd . Dans le cas des variables dépendantes, Cai et
Roussas (1992) montrent la convergence simple de cet estimateur à noyau .
En ce qui concerne l’estimateur de la fonction densité conditionnelle, Roussas (1968) fut le
premier à établir ses propriétés asymptotiques pour des données markoviennes, ainsi que
sa convergence en probabilité. Youndjé (1993) s’est intéressé à l’étude de la densité condi-
tionnelle pour des données complètes indépendantes. Laksasi et Yousfate (2002) ont établi,
pour un processus markovien stationnaire, la convergence en norme Lp pour l’estimateur à
noyau de la densité conditionnelle. Pour Hall et al., (2004) la densité conditionnelle joue un
rôle clef en statistique appliquée et particulièrement en économie, pour Fan and Yim (2004),
une densité conditionnelle offre le résumé le plus informatif de la relation entre variable
dépendante et indépendante, enfin Efromovich, (2007) dit que la densité conditionnelle de
la variable dépendante sachant le prédicteur décrit l’association ultime entre le prédicteur
et la variable dépendante.

La récursivité peut s’avérer cruciale lorsque l’on cherche à inférer sur des phénomènes qui
évoluent dans le temps et qui nécessitent une mise à jour constante des estimations effec-
tuées. L’intérêt des méthodes récursives est de prendre en compte l’arrivée temporelle des
informations et d’affiner ainsi au fil du temps les estimations. L’idée est d’utiliser les estima-
tions calculées sur la base de données initiales et de les remettre à jour en tenant uniquement
1.1 Context bibliographique 11

compte des nouvelles données arrivant dans la base. Le gain en terme de temps de calcul
peut être très intéressant et les applications d’une telle approche sont nombreuses. En outre,
les estimateurs récursifs peuvent s’avérer préférables aux versions non récursives du fait de
leur plus faible variance asymptotique.

Concernant la métode d’estimation récursive du noyau, une premiére forme a été introduite
par Wolverton et Wagner (1969). De nombreuses variantes récursives ont également été
proposées et étudiées depuis. Deheuvels (1973) s’est intéressé à l’estimation sequentiel de
la densité, Aussi Wegman et Davies (1979) étudient l’estimation récursif d’une densité de
probabilité, leur idée consiste à partager le paramétre de lissage de l’estimation à noyau
habituel en deux puissance. Pour des résultats récents, nous renvoyons à Mokkadem et al.
(2006) et Amiri et al. (2014).
Derniérement deux approches principales ont été développées dans le papier de Benziadi et
al. (2014), le premier est basé sur l’estimation récursive à double noyau de la fonction de
répartition conditionnelle et le second est obtenu en utilisant l’approche robuste
Les algorithmes stochastiques de recherche du zéro z ∗ d’une fonction inconnue h : R −→ R
sont construits de la façon suivante : (i) Z0 ∈ IR, (ii) : on définit récursivement la suite (Zn )
en posant
Zn = Zn−1 + βn Wn

où Wn est une observation de la fonction h au point Zn−1 et où le pas (βn ) est une suite
de réels positifs qui tend vers zéro. Soit (X1 , ..., Xn ) un échantillon de la loi d’une variable
aléatoire X de densité de probabilité f . Pour construire un estimateur de f en un point x
par la méthode des algorithmes stochastiques, on définit un algorithme de recherche du zéro
de la fonction h : y → f (x) − y. On procède donc de la façon suivante :
i) on choisit f (x) ∈ R,
ii) Pour tout n  1, on pose

fn (x) = fn−1 (x) + βn Wn (x)

où Wn (x) doit être une observation


R de la fonction h au point fn−1 (x). Soient K un noyau
(i.e. une fonction telle que ( IR K(x)dx = 1) et (hn ) une fenêtre (i.e. une suite déterministe
positive qui tend vers zéro) ; f (x) peut être estimée par Zn (x) = h−1 −1

n K hn (x − Xn ) , ce
qui mène à poser Wn (x) = Zn (x) − fn−1 (x).
Un estimateur récursif de la densité f au point x s’écrit alors sous la forme

fn (x) = (1 − βn )fn−1 (x) + βn h−1 −1



n K hn (x − Xn ) (1.1)

La relation (1.1) définit toute une classe d’estimateurs récursifs à noyau d’une densité de
probabilité. Notons que si l’on pose βn = n1 , alors l’estimateur fn défini par l’algorithme
(1.1) se réecrit sous la forme
n
1X
K h−1

fn (x) = k (x − Xk ) (1.2)
n
k=1
12 Introduction

dans ce cas, fn est l’estimateur récursif introduit par Wolverton et Wagner (1969). D’autre
part, dans le cas où on pose βn = Pnhn hk , l’estimateur fn défini par l’algorithme se réécrit
k=1
sous la forme
n
1 X
K h−1

fn (x) = Pn k (x − Xk ) (1.3)
k=1 hk k=1
fn est alors l’estimateur récursif introduit par Deheuvels (1973) et étudié par Duflo (1997).
Les deux estimateurs définis par (11.1) et (21.1) peuvent etre vu sous la forme suivante
n  
` 1 X 1 x − Xi
fn (x) := P K , x∈R (1.4)
n
h
(1−`)
i=1
h`i hi
i=1 i
pour ` = 0, 1 La question qui se pose naturellement est de savoir quel est le choix optimal
du pas. Slaoui (2010) a réalisé plusieurs travaux sur l’étude du choix optimal du pas de l’al-
gorithme en explicitant le biais et la variance de l’estimateur fn . Finalement, il considère le
point de vue de l’estimation par intervalles de confiance en donnant la vitesse de convergence
presque sûre de l’estimateur fn .
Dans le cas iid, Davies (1973), Deheuvels (1973,1974), Roussas (1992), Wegman, Davies
(1973) et Wertz (1985 étudient la famille fnH (x) et les cas ` = 0, et ` = 1. En particulier,
en dimension d = 1, Deheuvels (1973,1974) établit la convergence en moyenne quadratique
de la famille fnH (x) et donne des conditions nécessaires et suffisantes pour sa convergence
presque sûre. Roussas (1992), Wegman et Davies (1979) établissent les vitesses de conver-
gence presque sûre exactes dans les cas ` = 0 et ` = 1. Aussi, Isogai (1984) établit sous
certaines conditions, la normalité asymptotique pour ` = 1 dans le cas iid.
Dans le cas dépendant, seuls les cas ` = 1/2 et ` = 1 ont été étudiés dans la littérature.
Les résultats sur la convergence en moyenne quadratique et la normalité asymptotique pour
` = 1 sont établis par Masry (1986), pour des processus stationnaires fortement mélan-
geants. La vitesse de convergence presque sûre ponctuelle pour ` = 0 et ` = 1 est étudiée
par Takahata (1980), Masry et Györfi (1987), d’abord sous des conditions de ρ-mélangeance,
ensuite pour ` = 1, par Masry (1987), pour des processus fortement mélangeants. Un résul-
tat uniforme est également obtenu dans le cas ` = 1 par Tran (1989), sous des conditions de
forte mélangeance. La normalité asymptotique pour ` = 1 est également examinée par Lian
et Baek (2004) pour des suites de variables négativement associées. Les approches utilisées
dans ces travaux, notamment pour la convergence en moyenne quadratique et la normalité
asymptotique, ne se généralisent pas aisément, en dimension supérieure pour des valeurs
plus petites de `, alors qu’en particulier, le cas ` = 0 est intéressant du fait de la faible
variance de l’estimateur.

Dans ce travail, nous nous intéressons essentiellement au problème de prévision dans les
modèles de durées de vie à données incomplètes (censurées aléatoirement à droite). Nous
considérons, pour cela, les cas non paramétriques conditionnel et non conditionnel. Nous
proposons comme alternative à la méthode de régression la fonction densité et la fonction
densité conditionnelle.
Au-delà des origines historiques de l’analyse statistique des durées de vie, démographiques
et actuarielles, les trois grands domaines actuels de l’analyse des données de survie sont
1.1 Context bibliographique 13

la fiabilité, la biostatistique et l’économie. Ils existe néanmoins a priori deux différences


fondamentales entre les deux derniers et la fiabilité des systèmes. D’une part, au-delà de la
détermination des caractéristiques de fiabilité d’un système physique à composantes mul-
tiples, il est important d’optimiser cette fiabilité en jouant sur l’architecture du système. Une
telle approche d’optimisation pourrait être étendue aux études de survie médicale puisque,
dans une certaine mesure, le corps humain est un système complexe et une greffe d’organe
peut s’apparenter à un changement de pièce défectueuse.

Seconde différence principale : en biostatistique ou en économie, les individus sont rarement


identiques entre eux, contrairement aux systèmes physiques. Un malade sera caractérisé par
son âge, ses habitudes alimentaires, son environnement social...,etc... .Autre exemple, lors
d’une étude pratique sur les durées de vie, en médecine, les chercheurs ne se contentent pas
de relever uniquement la durée de vie observée. Les patients de l’échantillon bénéficieront
d’un suivi médical qui permettra le relevé de nombreuses données tels les antécédents fa-
miliaux, le taux de diabète du sang, la densité de différents globules, etc.... Ces données ne
sont généralement pas indépendantes de la durée de T, certaines d’entre elles pouvant être
des circonstances aggravantes pour la maladie considérée. Un demandeur d’emploi possèdera
des paramètres qui lui sont propres, tels que le diplôme le plus élevé obtenu, l’expérience
professionnelle, la durée de sa situation en chômage, le sexe, ... Un certain nombre de va-
riables exogènes seront à prendre en compte dans les modélisations.

Souvent les données de durées est de porter sur des variables aléatoires (v.a.) positives. Cela
restreint a priori la classe des modèles paramétriques utilisables, encore que toute v.a. peut
être transportée sur IR+ par une transformation appropriée (par exemple exponentielle) et
donc, pour des durées de vie, seule l’interprétation est spécifique.
Deuxième particularité : le calcul des probabilités identifie la loi de probabilité d’une v.a.
par sa fonction de répartition, sa densité ou sa fonction caractéristique. L’interprétation
d’une v.a. en termes de durée va permettre de définir d’autres notions associées, telles que
la fonction de survie, le taux de hasard, la survie conditionnelle
ou la durée de vie moyenne restante.
Une troisième différence par rapport au modèle d’échantillonnage classique de la statistique
est la présence de données incomplètes. Deux cas particuliers feront l’objet du paragraphe
1.5. Enfin, la présence de variables exogènes, qui ont essentiellement un caractère descriptif
et qui vont intervenir dans l’écriture de la loi de la durée de vie est à noter T .

Quels modèles statistiques pourra-t-on utiliser pour analyser ces durées de survie ? Trois
approches sont possibles : paramétrique, non paramétrique ou semi-paramétrique. Elles se-
ront souvent complémentaires ou plus particulièrement adaptées à certaines données ou à
certains types de problèmes.
Le modèle paramétrique spécifie l’appartenance de la vraie loi de notre variable d’intérêt
T à une classe P0 = {IPθ , θ ∈ Θ, Θ ⊂ IRd }. Il joue un rôle essentiel dans la théorie clas-
sique ; ayant l’avantage de permettre la modélisation avec un petit nombre de paramètres
pouvant être estimés "facilement" à partir d’un nombre restreint de données observées. Ces
14 Introduction

méthodes facilitent ensuite l’obtention d’intervalles de confiance et la construction de tests.


L’inconvénient de cette pseudo-simplicité est la distorsion qui peut exister entre le "vrai"
modèle du phénomène étudié et le modèle retenu.
La voie non paramétrique est susceptible de vaincre cette difficulté. On suppose alors que la
loi IP de T est quelconque dans un ensemble de lois noté P, sans spécification particulière de
la liaison entre la variable T et les variables exogènes. Comme la loi de T est caractérisée par
certaines fonctions : fonction de répartition, fonction densité, survie, hasard, etc... ou autres
paramètres dépendant de ces fonctions, tels que la moyenne, la médiane, le mode, le mode
conditionnel, on se trouve confronté à un problème d’estimation fonctionnelle. L’estimateur
de Kaplan-Meier de la fonction de survie relève typiquement de cette problématique. Cette
approche non paramétrique présente l’avantage de ne présupposer aucune forme particulière
de la fonction estimée. La contrepartie sera la nécessité de disposer d’un nombre important
d’observations (grande taille de l’échantillon), ceci est dû en fait à l’appartenance de ces
paramètres fonctionnels à un espace de dimension infinie. L’approche semi-paramétrique est
un compromis entre les deux approches précédents. Le lecteur intéressé pourra se référer à
l’article de Begun et al. (1983), ou à celui de Welner (1985), ou encore à l’ouvrage de Bickel
et al.(1987).
La principale source de difficulté dans l’analyse des durées de survie, et pour diverses raisons,
est la présence de données incomplètes. Pour de telles observations pratiques, les procédures
statistiques classiques ne sont plus valables et on a recours à des techniques statistiques
plus élaborées afin de modéliser de telles observations pratiques pour valider les résultats
expérimentaux.
Les données tronquées à gauche, modélisent des cadres d’études expérimentales pour des
durées de vie qui doivent être "assez grandes" pour être observées. En effet, T doit en fait
être plus grande qu’une variable de troncature Y pour pouvoir être observée. Ainsi, les
observations ne sont possibles que si T ≥ Y. Il s’agit d’un modèle qui est tout d’abord
apparu en astronomie, où des échantillons sont composés d’objets astraux d’une certaine
zone. Les luminosités absolue et apparente d’un objet astral sont respectivement définies
comme étant sa brillance observée à une distance fixe et depuis la Terre et l’on n’observe
que les objets qui sont suffisamment brillants, c’est-à-dire ceux pour lequels la luminosité
M ≥ m, m étant la variable de troncature : ce sont des données dites tronquées à gauche.
Dans ce cas, nous disposons de N objets dans l’échantillon, mais nous ne sommes capables
d’observer que les n objets suffisamment brillants.
L’autre cas classique de données incomplètes est celui des données dites censurées à droite. Ce
phénomène de censure modélise des cadres d’études expérimentales, pour certaines maladies,
où les patients peuvent êtres perdus de vue suite à un déménagement ou encore suite à un
décès non-inhérent à la maladie comme un accident de la route.
A titre d’exemple, analysons aussi la fonction de fiabilité d’une machine M. Dans cette
perspective, l’observation portera sur l’étude du fonctionnement de n machines identiques
à M et nous noterons T1 , ..., Tn les durées de vie de ces machines. Ces variables (aléatoires)
seront supposées positives et de même densité f . La fonction de répartition associée sera
notée F et la fonction de fiabilité sera S(t) = IP(T > t) = 1 − F (t).
C’est un problème classique qui intéresse par exemple l’industrie automobile quand elle
1.1 Context bibliographique 15

cherche à prévoir la durée de vie d’un modèle. Dans un cadre simplifié où toutes les durées
de vie sont observées, ce problème admet des solutions élémentaires et naturelles. Des esti-
mateurs empiriques naturels existent pour la fonction de répartition, la fonction de survie
notée S et pour le taux de hasard cumulé H = − log(S) qui sont, respectivement, l’estima-
teur de Kaplan-Meier pour S et l’estimateur de Nelson-Aalen pour H.

Nous nous intéressons, plus particulièrement, au cadre plus réaliste où l’observation de


T1 , ..., Tn est incomplète. Illustrons cette problématique avec l’exemple suivant. Dans un
cadre idéal, un fabricant d’automobiles, s’il assure la maintenance de ses véhicules, peut ob-
server l’instant de première panne de chaque véhicule d’un modèle qu’il vend. Il peut alors
déterminer aisément si ce modèle est fiable. De manière plus réaliste, il peut arriver que la
première panne de certains véhicules ne soit pas observée pour différentes raisons (vente par
certains propriétaires, accidents indépendants du fonctionnement du véhicule, ...). Dans ce
cadre-là, on parle de modèle censuré : c’est -à-dire à chaque véhicule i, i=1,2,...,n est associé
un couple de v.a. durées (Ti , Ci ) dont seule la plus petite est observée, Ti est la durée de
survie et Ci est l’instant de censure.
L’estimation de certaines fonctions de ce modèle est un problème beaucoup plus délicat. Pour
le résoudre, on note (Y1 , δ1 ), (Y2 , δ2 ), ..., (Yn , δn ) la suite observée où, pour tout 1 ≤ i ≤ n,

Yi = Ti ∧ Ci et δi = 1I{Ti ≤Ci } . (1.5)

Ici Yi est la durée observée et δi est une variable binaire représentant la nature de cette
durée qui prend la valeur 1 s’il s’agit d’une vraie durée de vie et 0 si c’est une censure.

Ce n’est qu’à la suite de l’article de Kaplan et Meier (1958) que les données censurées ont
trouvé le poids qui est le leur dans la réalité.

Les articles et les manuels qui traitent des durées censurées utilisent généralement l’une
ou l’autre de deux approches très différentes : soit les méthodes de la statistique classique
(Bailey (1979), Kalbfleich et Prentice (1980), Cox et Oakes (1984), Moreau (1984), Breta-
gnolle et Huber (1988) usant souvent d’arguments combinatoires fins comme chez Guilbaut
(1987), soit les processus ponctuels comme Gill (1980), Andersen et Gill (1982), Harrington
et Fleming (1982), Cross et Huber (1987).

L’estimateur de Kaplan et Meier (E.K.M.) de la fonction de survie S est défini, dans le cas
de non ex-aequo, par

( Q  1I
n
1− 1 {Y(i) ≤t} si t < Y(n) ,
1 − F̂n (t) = i=1 n−i+1
0 si t ≥ Y(n)

ou Y(1) , Y(2) , ..., Y(n) les valeurs ordonnées des Yi et pour chacune des valeurs Y(i) la valeur
δi correspondante.
16 Introduction

Cet estimateur a des propriétés analogues à celles de la fonction de répartition empirique, en


particulier il vérifie un théorème de normalité asymptotique globale ( Breslow et Crowley,
1974). Mais il a aussi d’autres propriétés qui, elles, sont typiques de la présence de censure
et ont l’intérêt de donner des idées lorsqu’on cherche à construire d’autres procédures d’es-
timation en présence de censure, comme cela sera montré un peu plus loin en chapitres 3 et
4 pour différentes situations de dépendance. Le comportement asymptotique de cet estima-
teur a suscité l’intérêt d’un grand nombre d’auteurs, Breslow et Crowley (1974) furent les
premiers à traiter de sa convergence et de sa normalité asymptotique. Pour plus de détails,
nous renvoyons au livre de Shorack et Wellner (1986, p. 304).

1.2 Description et Contribution de la thèse


La statistique non paramétrique connaît un grand essor chez de nombreux auteurs et dans
différents domaines. En effet, celle-ci possède un champ d’application très large permettant,
ainsi, l’explication de certains phénomènes mal modélisés jusqu’à présent, tels que les séries
chronologiques, et prédire les réalisations futures.

Il faut mentionner, par ailleur que la modélisation statistique par le biais de données in-
complètes est largement employée lors d’études pratiques sur les durées de vie. Les données
incomplètes les plus couramment utilisées sont les données censurées. Nous avons choisi, au
travers de cette thèse, de considérer une durée de vie T censurée à droite par une variable
C.
L’estimation par échantillonnage pour ces types de variables demande beaucoup de prudence,
contrairement aux autres méthodes classiques d’échantillonnage. Parmi les pistes explorées
pour confronter cette difficulté de robustesse, on a fait appel à l’estimateur de Kaplan-Meier
(1958) qui est d’un emploi très répandu ; son importance nous a donc conduits à lui accorder
une grande place dans notre travail.
Dans cette thèse, nous nous intéressons à l’estimation non paramétrique de la densité condi-
tionnelle en utilisant le noyeau récursif , pour des variables censurés
Après avoir construit notre estimateur de la densité conditionnelle dans le cas indépendant,
nous avons cherché à déterminer les vitesses exactes de convergence de notre estimateur.
Dans le but de présenter les travaux que nous avons réalisé durant la réalisation de cette
thèse, celle-ci est organisé comme suit :
Le chapitre suivant est un chapitre introductif qui présente une étude bibliographique des
problèmes liés à l’estimation non paramétrique des paramètres conditionnels que ce soit dans
le cadre de dimension finie ou infnie, nous donnons des contexte bibliographiques sur l’esti-
mation non paramètre de la densitè conditionnelle et sur l’estimateur récursif de la densité.
Enfin nous allons présenter des résultats obtenu durant cette thése .

Dans le chapitre 2, nous donnons la définition des donnés incomplètes précisament les don-
nées censurées. Nous y présentons la définition de l’estimateur de Kaplan-Meir pour la
fonction de survie
Dans le troixième chapitre nous considérons une suite d’observation indépendantes et iden-
1.3 Brève présentation des résultats obtenus 17

tiquement distribuées, ce chapitre est rédigés sous forme d’article, nous construisons un
estimateur à noyau récursif de la densité conditionnelle où les données sont censurées à
droite, nous établissons la convergence uniforme presque sûre sur un compacct avec vitesse
et la normalité asymptotique sous des conditions de régularité sur les noyaux et nous étu-
dions les propriétés asymptotiques de cet etimateur. Des simulation permettent de juger la
qualité de notre estimateur.

Le quatrième chapitre traite le problème de l’estimation non paramétrique de la même


fonction sous des conditions de dépendance faible (mélange fort) conditionnellement à une
covariable X de dimension d, sous une hypothèse qui combine les deux paramètres de dé-
pendance et de dimension, nous établissons la convergence uniforme presque sûre sur un
compact de IRd de la densité conditionnelle.

Nous finissons ce manuscrit par quelques perspectives de recherche.


Enfin, une annexe génralise un ensemble d’outils probabilistes ainsi que des définitions de
certaines caractéristiques pour la variable d’intérêt, utilisées dans cette thèse.

1.3 Brève présentation des résultats obtenus


Dans cette section, nous donnons une brève présentation des différents résultats obtenus
durant cette thése .

1.3.1 Notations :
Soit (Xn , Tn )n≥1 une suite strictement stationnaire de vecteurs aléatoires définis dans le
même espace probabilisé (Ω, F, P ), à valeurs dans IRd × IR, ayant la même loi que (X, T ),
considérons pour tout x ∈ IRd , la densité conditionnele ϕ(.|x) de T1 sachant X1 = x. On note
par (Ci )i=1,··· ,n variables aléatoire de censure indépendantes et identiquement distribués avec
fonction de distribution continue G. Ainsi On construit nos estimateurs par des variables
observés (Xi , Yi , δi )i=1,...n , où Yi = Ti ∧ Ci et δi = 1I{Ti ≤Ci } , où 1IA désigne la fonction
indicatrice de l’ensemble A.
Notons par g(., .) la densité de probabilité du couple (X, T ) et φ(., .) la densité conditionnelle
de T sachant X = x.
l’estimation du noyau de la densité conditionnelle φ(t|x) noté φ̄n (t|x) définit par :

n    
X x − Xi t − Yi
h−1 −1
n δi Ḡn (Yi )K L
hn hn
i=1
∀x ∈ IRd et ∀y ∈ IR φ̄n (t|x) = Pn   ,
x−Xi
i=1 K hn

où K, L sont des noyaux et hn est une séquence de nombres réels positives.


18 Introduction

La version récursive de notre précédent estimateur de noyau est


n    
X −(d+1) −1 x − Xi t − Yi
hi δi Ḡn (Yi )K L
hi hi ĝn (x, t)
i=1
φn (t|x) =
b   =:
Pn −d x−Xi `n (x)
i=1 hi K hi

1.3.2 Résultats : Cas iid (unidimensionnel)


Théoreme 1.3.1 .
Sous certaines conditions, nous aurons pour la convergence presque sûre :
( s ! !)
log n 2
sup sup φbn (t|x) − φ(t|x) = O max (d+1)
, hn a.s. as n → ∞ (1.6)
x∈C t∈Ω nhn
Théoreme 1.3.2 .
Sous certaines conditions, nous aurons :
q  
(d+1) D
φ̂n (t|x) − φ(t|x) −→ N 0, σ 2 (x, t)

nhn
D
where −→ denotes the convergence in distribution,
Z Z
φ(t|x)
σ 2 (x, t) = θ K 2 (z)L2 (y)dzdy
`(x)Ḡ(t) IRd IR
and A = {(x, t) σ 2 (x, t) 6= 0}.
Les hypothèses imposées et les preuves des résultats ci-dessus seront données dans le chapitre
2.

1.3.3 Résultats : Cas α -mélangeant


Théoreme 1.3.3 Sous l’hypothéses détaillées dans le chapitre 3, on aura :
( s ! !)
log n +2
sup sup φbn (t|x) − φ(t|x) = O max −(d+1)
, hn a.s. as n→∞
x∈C t∈Ω nhn
(1.7)
Théoreme 1.3.4 .
Nous aurons Sous les hypothéses détaillées dans le chapitre 3
q  
(d+1) D
φ̂n (t|x) − φ(t|x) −→ N 0, σ 2 (x, t)

nhn
D
où −→ :la convegence en distribution.
Z Z
2 φ(t|x)
σ (x, t) = θ K 2 (z)L2 (y)dzdy
`(x)Ḡ(t) IRd IR
and A = {(x, t) σ 2 (x, t) 6= 0}.
Les démonstration de ces théorèmes sont détaillées dans le chapitre 3.
Bibliographie

[1] Ahmad, I., Lin, P.E. (1976). Nonparametric sequential estimation of a multiple regres-
sion Function, Bull. Math. Statist., 17, 63–75.
[2] Amiri, A. (2009). Sur une famille paramétrique d’estimateurs séquentiels de la densité
pour un processus fortemement mélangeant, C. R. Acad. Sci. Paris, Ser, I 347, 309–314.
[3] Amiri, A. (2012). Recursive regression estimators with application to nonparametric
prediction, J. Nonparam. Statist, 24 (1), 169–186.
[4] Amiri, A. (2013). Asymptotic normality of recursive estimators under strong mixing
conditions, arXiv :1211.5767v2.
[5] Andersen, P. et Gill, R. (1982). Cox’s regression model for counting processes : a large
sample study. Ann. Statist., 10 : 1100-1120.
[6] Beran, R. (1981). Nonparametric regression with randomly censored survival data,
Technical university of Clifornia, Berkeley.
[7] Bosq, D. (1989). Proprietes des operateurs de covariance empiriques d’un processus
stationnaire hilbertien. C. R. Acad. Sci. Paris Ser. I Math. 309, No.14, 873-875.
[8] Bosq, D. (1990). Modele autoregressif hilbertien. Application a la prevision du compor-
tement d’un processus a temps continu sur un intervalle de temps donne. C. R. Acad.
Sci. Paris Ser. I Math. 310, No.11, 787-790.
[9] Bosq, D. (2000). Linear processs in function spaces. Theory and Application. Lectures
Notes in Statistics. Vol 149, Springer Verlag.
[10] Bosq, D., Delecroix, M. (1985). Nonparametric prediction of a Hilbertspace valued
random variable. Stochastic Process. Appl. 19, 271-280.
[11] Breslow, N. et Crowley, J. (1974). A large sample study of the life table and product-
limit estimates under random censorship. Ann. Statist., 2 : 437-453.
[12] Carbon, M. and Tran, L. T. (1996). On histograms for linear processes, J. Statist.
Plann. Inference , 53 (3), 403-419.
[13] Carbonez, A., Györfi, L., Vander Meulin EC . (1995). Partitioning estimates of a re-
gression function under random censoring, Statist. & Decisions , 13, 21–37.
[14] Carroll, J. (1976). On sequential density estimation, Z. Wahrscheinlichkeits- theorie und
Verw. Gebiete , 36, 137–151.
[15] Collomb, G. (1984). Proprietes de convergence presque complete du predicteur a noyau.
Z. W. Gebiete. 66, 441-460.
20 BIBLIOGRAPHIE

[16] Collomb, G. (1985). Nonparametric regression : an up to date bibliography Statistics.


16, 309-324.
[17] Dabo-Niang, S., Rhomari, N. (2003). Estimation non parametrique de la regression avec
variable explicative dans un espace metrique. C. R., Math., Acad. Sci. Paris. 336, 75-80.
[18] Dabrowska, D.M. (1987). Nonparametric regression with censored survival time data,
Scandi. J. Statist, 14, 181–197.
[19] Dabrowska, D.M. (1989). Uniform consistency of the kernel conditional Kaplan Meier
estimate, Ann. Statist, 17, 1157–1167.
[20] Davies, I. (1973). Strong consistency of a sequential estimator of a probability density
function, Bull. Math. Statist, 15, 49–54.
[21] Deheuvels, P. (1973). Sur l’Estimation séquentielle de la densité,C. R. Acad. Sci., Paris,
Ser. A, 276, 1119-1121.
[22] Deheuvels, P. (1974). Conditions nécessaires et suffisantes de convergence ponctuelle
presque sûre et uniforme presque sûre des estimateurs de la densité, C. R. Acad. Sci.,
Paris, 278, 1217-1220.
[23] Deheuvels, P., Einmahl, JHJ. (2000). Functional limit laws for the increments of Kaplan-
Meier product-limit processes and applications, Ann Proba, 28, 1301–1335.
[24] Devroye, L., Wagner, T.J. (1980). On the L1 convergence of kernel estimators of re-
gression functions with application in discrimination. Z. Wahrschein. Verw. Get, 51,
15-25.
[25] Doob, J. (1953). Stochastic process, Wiley New York.
2735-2759.
[26] Fan, J. et Yim, T. H., (2004). A crossvalidation method for estimating conditional
densities. Biometrika, 91(4) :819-834.
[27] Ferraty, F. (2010). Special issue on statistical methods and problems in infinite dimen-
sional spaces. J. Multivariate Analysis. 101(2), 305-490. 317-344.
[28] Gannoun, A., Saracco, J., Yu, K. (2003), Nonparametric prediction by conditional me-
dian and quantiles. J. Stat. Plann. Inference. 117, No.2, 207-223.
[29] Giné, E., Guillou, A., (2001). On consistency of kernel density estimators for randomly
censored data : rates holding uniformly over adaptive intervals. Annales de l’Institut
Henri Poincaré, 37, 503-522.
[30] Giné, E., Guillou, A., (2002). Rates of strong uniform consistency for multivariate kernel
density estimators. Annales de l’Institut Henri Poincaré, 38, 907-921.
[31] Hoeffding, W. (1963). Probability inequalities for sums of bounded random variables,
J. Amer. Statist. Assoc., 58, 13-30.
[32] Isogai, E. (1984). Joint asymptotic normality of nonparametric recursive density esti-
mators at a finite number of distinct points,J. Japan Statist. Soc., 14 (2), 125-
[33] Khardani, S., Lemdani, M., Ould Saïd, E. (2010). Some asymptotic properties for a
smooth kernel estimator of the conditional mode under random censorship, J. of the
Korean Statistical Society, 39, 455–469.
BIBLIOGRAPHIE 21

[34] Khardani, S., Lemdani, M., Ould Saïd, E. (2011). Uniform rate of strong consistency
for a smooth kernel estimator of the conditional mode for censored time series, J. Stat.
Plann. Inference, 141, 3426–3436.
[35] Kohler, M., Máthé, K., Pinter, M. (2002). Prediction from randomly Right Censored
Data, J. Multivariate Anal, (80), 73–100.
[36] Krzÿzak, A. (1992). Global convergence of the recursive kernel regression estimates with
applications in classification and nonlinear system estimation , IEEE Trans. Inform.
Theory, 38, 1323–1338.
[37] Laksaci, A. (2005). Contribution aux modèles non paramétriques conditionnels pour
variables explicatives fonctionnels. Thèse de doctorat, université de Toulouse.
[38] Laksaci, A. (2007). Convergence en moyenne quadratique de l’estimateur a noyau de la
densite conditionnelle avec variable explicative fonctionnelle. Ann. I.S.U.P. 51, 69-80.
[39] Laksaci, M. and Maref, F. (2009). Conditional cumulative distribution estimation and
its applications
[40] Laksaci, A., Madani, F., Rachdi, M. (2010). Kernel conditional density estimation when
the regressor is valued in a semi metric space. International Statistical Review. (In
press).
Journal of probability and statistical sciences, 13, Pages 47-56.
[41] Lecoutre, J. P., Ould-Said, E. (1993). Estimation de la fonction de hasard pour un
processus fortement melangeant avec censure. Publ. Inst. Statist. Univ. Paris. 37, No.1-
2, 59-69.
[42] Liang, H.Y. and Baek, J. (2004). Asymptotic normality of recursive density estimates
under some dependence assumptions, Metrika 60, 155-166.
[43] Loannides, D., Matzner-Lober, E. (2004). A note on asymptotic normality of convergent
estimates of the conditional mode with errors-in-variables. J. Nonparametr. Stat. 16,
515-524.
[44] Loeve, M. (1963). Probability Theory. Third Edition. Van Nostranr Princeton.
[45] Louani, D., Ould-Said, E. (1999). Asymptotic normality of kernel estimators of the
conditional mode under strong mixing hypothesis. J. Nonparametric Statist. 11, No.4,
413-442.
[46] Lynden-Bell, D. (1971). A method of allowing for known observational selection in small
samples applied to 3CR quasars. Monthly Notices Roy. Astronom Soc., 155, 95118.
[47] Masry, E. (1986). Recursive probability density estimation for weakly dependent sta-
tionary processes, IEEE Trans. Inform. Theory, 32, 254-267,
[48] Masry, E. (1987). Almost sure convergence of recursive density estimators for stationary
mixing processes, Statist. Probab. Lett., 5, 249-254.
[49] Masry, E. and Györfi, L. (1987). Strong consistency and rates for recursive probability
density estimators of stationary processes, J. Multivariate Anal., 22, 79- 93.
[50] Masry, E. and Fan,J., (1997). Local polynomial estimation of recursive function for
mixing processes, Scandinave Journal of Statistics, 24, 165–179.
22 BIBLIOGRAPHIE

[51] Mokkadem, A., Pelletier, M., Thiam, B. (2006) Large and moderate deviations prin-
ciples for recursive kernel estimator of a multivariate density and its partial derivatives.
Serdica Math. J. 32 , Pages 323–354.
[52] Nadaraya, E. (1964). On estimating regression. Theory Prob. Appl. 10, 186-196.
[53] Nguyen, T., Saracco, J. (2010). Estimation récursive en régression inverse par tranches,
Journal de la société française de statistique, 151(2), 19–46.
[54] Ould-Said, E., Cai Z. (2005). Strong uniform consistency of nonparametric estimation
of the censored conditional mode function. Nonparametric Statistics, 17, 797-806.
[55] Ould-Said, E., Tatachak, A. (2009a). On the nonparametric estimation of the simple
mode under random left-truncation model. Romanian Journal of Pure and Applied
Mathematics, 54, 243-266.
[56] Ould-Said, E., Tatachak, A. (2009b). Strong consistency rate for the kernel mode under
strong mixing hypothesis and left truncation. J. Comm. Statist. Theory Me- thods, 38,
1154-1169.
[57] Quintela-del-Rio, A., Vieu, P. (1997). A nonparametric conditional mode estimate. J.
Nonparametr. Statist. 8, No.3, 253-266.
2801.
[58] Rhomari, N. (2002). Approximation et inegalites exponentielles pour les sommes de
vecteurs aleatoires dependants. C. R. Acad. Sci. Paris. 334, 149-
[59] Rio, E. (2000). Théorie asymptotique des processus aléaltoires faiblement dépendants,
vol 31 Mathematics and applications Springer-Verlag, Berlin.
[60] Rosenblatt, M. (1969). Conditional probability density and regression estimators. In
Multivariate Analysis II, Ed. P.R. Krishnaiah. Academic Press, New York and London.
[61] Roussas, G. G. (1968). On some properties of nonparametric estimates of probability
density functions. Bull. Soc. Math. Greece (N.S.) 9 29-43.
[62] Roussas, G.G. (1990). Nonparametric regression estimation under mixing conditions,
Stochastic Process. Appl, 36 (1), 107–116.
[63] Roussas, G. G. (1991). Kernel estimates under association : strong uniform consistency.
Statist. Probab. Lett. 12, No.5, 393-403.
[64] Roussas, G.G. and Tran, L.T. (1992). Asymptotic normality of the recursive kernel
regression estimate under dependence conditions, Annals of Statist. 20 (1), 98-120.
[65] Roussas, G.G. (1992). Ecxact rates of almost sure convergence of a recursive kernel
estimate of a probability density function : Application to regression and hazard rate
estimation, J. Nonparametr. Stat. 1, 171-195.
[66] Samanta, M. (1989). Non-parametric estimation of conditional quantiles. Stat. Probab
. Lett. 7, No.5, 407-412.
[67] Sarda, P., Vieu, P. (2000). Kernel regression. In : M. Schimek (ed.) Smoothing and
regression ; Approaches, Computation, and Application. Wiley Series in Pprobability
and Statistics, Wiley, New York.
BIBLIOGRAPHIE 23

[68] Schwartz, S.C. (1967). Estimation of a probability density by an orthogonal series, Ann.
Math. Statist. 38, 1261-1265.
[69] Shorack, G.R. and Wellner, J.A. (1986). Empirical processes with applications to sta-
tistics. Wiley, New-York.
[70] Takahata, H. (1980). Almost sure convergence of density estimators for weakly de-
pendent stationary processes, Bull. Tokyo Gakugei Univ. Nat. Sci. Ser. IV, 11-32.
[71] Tran, L.T (1989). Recursive density estimation under dependence. IEEE Trans. In-
form. Theory 35 (5), 1103-1008.
[72] Tran, L. T. (1994). Density estimation for time series by histograms, J. Statist. Plann.
Inference , 40 (1), 61-79.
[73] Vieu, P. (1991). Quadratic errors for nonparametric estimates under dependence. J.
Multivariate Anal. 39 (2), 324-347. Watson, G. S. (1964). Smooth regression analysis.
Sankhya Ser. A. 26, 359-372.
[74] Walk, H. (2001). Strong universal pointwise consistency of recursive regression esti-
mates, Ann. Inst. Statist. Math., 53 (4), 691–707.
[75] Watson, G.S. (1964). Smooth regression analysis. Shakhya Ser. A 26, 359-372.
[76] Wegman, E.J. and Davies, H. I. (1979), Remarks on some recursive estimators of a
probability density. Ann. Statist. 7, Pages 316-327.
[77] Wertz, W. (1985), Sequential and recursive estimators of the probability density. Sta-
tistics 16, Pages 277-295.
[78] Wolverton, C.T. and Wagner, T.J. (1969), Asymptotically optimal discriminant func-
tions for pattern classification. IEEE Trans. Inform. Theory 15, Pages 258-265.
[79] Yamato, H. (1971), Sequential estimation of a continuous probability density function
and mode. Bull. Math. Satist. 14, Pages 1-12.
[80] Youndjé, E., (1993), Estimation non paramétrique de la densité conditionnelle par la
méthode du noyau. Thèse de Doctarat, Université de Rouen.
24 BIBLIOGRAPHIE
Chapitre 2

Données incomplètes

L’un des problèmes important dans l’analyse de survie est la modélisation de l’influence
de des certains nombre de facteurs sur la fonction de survie. En effet, dans la plus part
des situations il y a des individus qu’on n’arrive pas à observer sont événement d’interêt.
Un exemple souvent considéré est lorsque on s’intéresse de savoir comment le temps de
survie chez les fumeurs. Plus précisément, on étude la relation entre la variable d’intérêt
et l’âge auquel la personne a commencé à fumer. Parfois on se trouve avec un fumeur qui
décède avant le début de l’étude est systématiquement exclu de l’échantillon . Par contre,
on peut tomber avec des cas alternatifs où un fumeur non reste vivant même après la fin de
l’étude. Dans les deux situations nous avons un manque d’information et un certain nombre
d’observations incomplètes. On trouvera dans la littérature plusieurs de modèles adaptés
permettant de modéliser ces phénomènes .
La durée de vie est une variable aléatoire Y positive. Ces types des variables sont observés
dans plusieurs domaines tels que l’économie, médecine, biologie, épidémiologie, astronomie
, . . . . En pratique, la notion de durée de vie est quantifiée par le temps écoulé jusqu’a la
survenue d’un évènement ( par exemple, première panne pour une machine, décès ou rechute
pour un malade, embauche pour un chômeur,. . . ). Lorsque les durées de vie sont observées
dans leur totalité, on parle de données complètes, dans le cas contraire les données sont
incomplètes et nécessitent un traitement statistique particulier. Dans cette thèse nous nous
intéressons où cas des données incomplètes.
Les premiers résultats sur l’analyse des données de survie à (1693) par Halley. Ce dernier,
a étudié des relevés d’état civil de Londres. Typiquement, le développement de l’analyse de
survie a connu un grand sucées après la seconde guerre mondiale. La plus part des études
sont basées sur des modèles paramétriques avec des lois exponentielles ou de Weibull. Dans
ce dernier temps, les applications sur les données médicales ont eu le privilège en analyse de
survie. A ce sujet l’aspect non paramétrique est le plus utilisés. Dans ce contexte, Kaplan-
Meier (1958) est parmi les premiers qui ont développés des estimateurs non-paramétriques
pour la fonction de survie. Nous renvoyons à Cox (1972) pour le cas semi-paramétriques. Le
modèle de régression est l’un des principaux thèmes de l’analyse de survie. En particulier
si, on observe une variable T censurée à droite c’est à dire que l’observation prend fin avant
que l’évènement ne survienne, alors il est difficile de supposer que le temps d’apparition
26 Données incomplètes

d’un évènement est une réalisation d’un processus aléatoire d’un associée à une distribution
particulière ce que justifier l’importance de la modélisation non paramétrique . Nous refe-
rons aux (Bailey (1979), Kalbfleich et Prentice (1980), Cox et Oakes (1984), Moreau (1984),
Bretagnolle et Huber (1988), Gill (1980), Andersen et Gill (1982), Harrington et Fleming
(1982), Cross et Huber (1987) pour une étude bibliographique de base le traitement sta-
tistique et/ou stochastique de données incomplète. Il est à noter que la principale source
de difficulté dans l’analyse des durées de vie, est le fait que la variable d’intérêt n’est pas
complètement observée.

2.1 Données censurées


Dans cette partie nous rappelons en détaille les définitions de base des données censurées
ainsi que des exemples qu’on trouve souvent dans la littérature de base. En particulier en
Bio-statistique, lorsque, on s’intéresse au cas à la durée de vie d’un groupe d’individus. Par
exemple, on considère des patients atteints d’un cancer de la peau qui ont tous dû subir
une opération chirurgicale . Dans ce cas on s’intéresse à leur durée de vie à partir de cette
opération. Cette étude contient également une variable explicative donnant des informations
sur le patient comme par exemple : le sexe ou l’âge du patient ainsi que le moment de l’opé-
ration. Comme ces individus sont arrivés à divers instants certains étaient encore en vie à
la fin de l’étude et on ne peut donc pas connaître leur durée de vie exacte. De même, un
certain nombre de patients sont décédés par des raisons indépendante de la maladie ce qui
nous empêche de connaître leur durée de vie réelle. Dans chacun de ces cas, on ne connaît
donc que la date minimum entre leur durée de vie effective et, dans le premier cas, la date
de fin d’étude, dans le deuxième cas, la date de décès causée par un évènement indépendant
de la tumeur.
Dans cet exemple on n’observe que le minimum entre la variable d’intérêt Y et une autre
variable C dite variable de censure. Ceci signifie que l’on observe seulement la variable
T = Y ∧ C. On utilise également l’indicateur de censure, δ = IIY ≤C , afin de s’informer si
notre variable observée correspond bien à la variable d’intérêt ou à la variable de censure.
Ces observations sont liées à une variable explicative X qui fournit des informations sur Y .

Il est clair que ces modèles des données incomplètes requièrent l’utilisation de techniques
adaptées pour prendre en considération les observations censurées sans perdre trop d’infor-
mation sur Y . En pratique, on distingue trois types de censures Censure à droite
Une durée de survie est dite censurée à droite si l’individu n’a pas connu l’évènement d’in-
térêt à sa dernière visite. La censure à droite est l’exemple le plus fréquent d’observation
incomplète en analyse de survie, et a largement été décrit dans la littérature (Anderson,
Borgan et Keiding (1993)). Formellement, la durée de survie d’un évènement est définie par
le couple (T ; C) où

Y = inf(T, , C)

et
2.1 Données censurées 27


1 si T ≤ C
δ= ,
0 si T > C
Avec la durée de vie T et le temps de censure supposés indépendants. C’est-à-dire, on ob-
serve le véritable temps de survie que s’il est inférieur à C. Dans ce cas la donnée n’est pas
censurée et δ = 1. Si δ = 0, la donnée est dite censurée àà droite : au lieu d’observer T , on
observe une valeur C avec pour seule information le fait que T soit supérieur à C. C’est la
censure de type 1.

Censure de type 2 : attente.


On décide d’observer les durées de survie des n patients jusqu’à ce que r d’entre eux soient
décédés et d’arrêter l’étude à ce moment-là. La date de fin d’expérience devient alors aléa-
toire, le nombre d’évènement étant, quand à lui, non aléatoire. Ce modèle est souvent utilisé
dans les études de fiabilité.

Censure de type 3 : aléatoire.


C’est typiquement ce modèle qui est utilisé pour les essais thérapeutiques. Dans ce type d’ex-
périence, la date d’inclusion du patient dans l’étude est fixé, mais la date de fin d’observation
est inconnue (celle-ci correspond, par exemple, à la durée d’hospitalisation du patient). Ici,
le nombre d’événement observés et la durée totale de l’expérience sont aléatoires.
Exemple 2.1.1 On s’intéresse au temps de survie de personnes atteintes d’une maladie. On
fixe le temps d’étude et à la fin de ce temps certaines personnes sont encore vivantes. Pour
ces personnes, tout ce que l’on sait est que leur temps de survie dépasse le temps observé, ce
sont des données à droite de type 1.
Censure à gauche
Une durée de survie est dite censurée à gauche si l’individu a déjà connu l’évènement d’intérêt
avant l’entrée dans l’étude. Formellement, la durée de survie pour un individu est définie
par le couple (Y ; δ) où

Y = max(T, C)
et

1 si T > C
δ= ,
0 si T ≤ C
Avec la durée de vie et le temps de censure C supposés indépendants. Si δ = 1, le sujet subit
l’évènement et est observé. Si δ = 0, le sujet est dit censuré à gauche : au lieu d’observer T ,
on observe une valeur C avec pour seule information le fait que T soit inférieur à C.
Exemple 2.1.2 Sur le même (exemple 2.1.1) que précédemment, on ne peut pas toujours
savoir le moment exact du déclenchement de la maladie, pour certaines personnes, on sait
seulement que leur âge est inférieur à leur âge au moment de l’étude. Ces données sont
censurées à gauche.
28 Données incomplètes

2.2 Estimation de la fonction de survie


Dans cette section nous rappelons les estimations de base de la fonction de survie. En effet,
soit (Ω, A, IP) un espace probabilisé. Soit T1 , · · · , Tn , · · · une suite de variable aléatoire (v.a)
positives indépendantes et identiquement distribuées (i.i.d) de fonction de répartition (f.d.r.)
commune F . Soit C1 , · · · , Cn , · · · une suite de v.a. de censure, positives, i.i.d. et de f.d.r.
G. Généralement et conformément aux études biomédicales, les v.a. Ci sont supposées être
indépendantes des Ti . Soit (Yi , δi )i=1,··· ,n l’échantillon réellement observé.
Posons F (t) = IP(T > t), Ḡ(t) = IP(C > t), alors les Yi sont de f.d.r. L donnée par
L̄ = IP(Y > t) = F̄ (t)Ḡ(t). Posons aussi τH = sup{t/H̄(t) > 0} où H est une f.d.r.
Définissons un processus ponctuel "d’événement" par

Ni (t) = IP(Yi ≤ t, δi = 1).

On note par Ȳ (t) le nombre de sujets présents jusqu’ t


n
X
Ȳ (t) = Yi (t),
i=1

et par N̄ (t) le nombre d’observation non censurées inférieures ou égales à t


n
X
N̄ (t) = Ni (t),
i=1

2.2.1 Estimateur de Kaplan-Meier de la fonction de survie


Cet estimateur (que l’on notera EKM) est aussi appelé estimateur PL(Product Limit) car
il s’obtient comme la limite d’un produit. En effet pour t1 < t

IP(Y > t, Y > t1 )


F̄ (t) = IP(Y > t1 )
IP(Y > t/Y > t1 )
= IP(Y > t/Y > t1 )F̄ (t1 )

pour t2 < t1 on a F̄ (t1 ) = IP(Y > t1 /Y > t2 )F̄ (t1 ) et ainsi de suite. Si l’on choisit pour
les dates où l’on conditionne celles où il s’est produit un événement (mort ou censure), on
estime seulement des quantités de la forme

IP(Y > Yi /Y > Yi−1 ) =: pi ,

pi est la probabilité de survivre pendant l’intervalle Ii =]Y(i−1) , Y(i) [ quand on est vivant
au début de cet intervalle. Soit Ri le nombre de sujets qui sont vivants (donc "à risqueà"
de mourir ) juste avant l’instant Yi . Soit Mi le nombre de morts à l’instant Yi et soit
qi = 1 − pi =Probabilité de mourir pendant l’intervalle Ii sachant qu’on était vivant au début
de cet intervalle.
Alors l’estimateur naturel de qi est
2.2 Estimation de la fonction de survie 29

Mi nombre de morts Yi
q̂i = =
Ri nombre de sujets risque
Supposons qu’il n’y ait pas d’ex-aequo (c-à-d des temps de mort identiques pour plusieurs
sujets). Si δi = 1 c’est qu’il y a eu un mort en Yi et donc Mi = 1, si δi = 0 c’est qu’il ya une
censure en Yi

 1
1− Ri en cas de mort en Y(i) ,
pˆi =
1 en cas de censure.
Il est clair que Ri = n − i + 1. On On obtient finalement l’EKM pour la fonction de survie
de la variable durée de vie T
( Q  δ(i)
1
Y ≤t 1 − si t < Y(n)
ŜKM =: H̄n (t) =: (i) n−i+1 ,
0 si t ≥ Y(n)
et donc on a aussi l’EKM pour la fonction de survie de la variable de censure C
( Q  1−δ(i)
1
Y(i) ≤t 1 − si t < Y(n)
Ĝn (t) =: n−i+1 ,
0 si t ≥ Y(n)

où (Y(i) , δ(i) )i=1,··· ,n sont tels que Y(1) ≤ Y(2) ≤ · · · Y(n) et les δ(i) sont les indicatrices conco-
mitantes.
Remarque 2.2.1
( Q  II{Y ≤t}
n δ(i) (i)
i=1 1− si t < Y(n)
F̄n (t) =: n−i+1 ,
0 si t ≥ Y(n)
et
1−δ(i) II{Y(i) ≤t}
( Q  
n
i=1 1− si t < Y(n)
Ḡn (t) =: n−i+1 ,
0 si t ≥ Y(n)

Propriétés asymptotiques de l’estimateur de Kaplan-Meier


L’E.K.M. possède beaucoup de propriétés analogues à celles de la fonction de répartition
empirique. Les propriétés asymptotiques de l’E.K.M. ont été étudiées par plusieurs auteurs
(voir e.g. Peterson (1977), Andersen et al. (1993), Shorack et Wellner (1986)). Nous com-
mençons par ses propriétés de convergence.

Théoreme 2.2.1 Si la survie T , de fonction de répartition F et la censure C, de fonction


de répartition G sont indépendantes, alors

sup |Fn (t) − F (t)| −→ 0 p.s. quand n −→ ∞.


0≤t≤τH
30 Données incomplètes

Preuve. (voir Shorack et Wellner 1986, p.304 ).


Définissons les processus suivants, pour tout 0 ≤ t ≤ τH

Z(t) = n (Fn (t) − F (t))

Nous avons les résultats de normalité asymptotique suivants :

Théoreme 2.2.2 (Breslow et Crowley, 1974)


Si la survie T , de fonction de répartition F et la censure C, de fonction de répartition G
sont indépendantes, alors,
L
Zn −→ Z quand n −→ ∞
où Z est un processus gaussien centré de fonction de covariance
Z s∧t
dH(x)
σ(s, t) = Cov(Z(s), Z(t)) = (1 − F (s))(1 − F (t))
0 (1 − F (x))2

La première représentation forte de Fn − F par une moyenne de v.a. iid a été obtenue par
Burke et al. (1981, 1986) avec un reste d’ordre O(n−1/2 log2 n) . Ce résultat est basé sur les
travaux de Komlos et al. (1975) sur l’approximation des processus empiriques. Un second
type d’approximation fut établi par Lo et Singh (1986) avec un terme négligeable d’ordre
−1 3/4 . Ce taux a été ensuite amélioré à O(n−1 log n) par Lo et al. (1989).

O (n log n)
Chapitre 3

Nonparametric conditional density


estimation for censored data based on
a recursive kernel

Ce chapitre à fait l’objet d’une publication à la revue Electronic Journal of Statistics.


Nonparametric conditional density estimation for censored data based on a
32 recursive kernel

On the strong iniform consistency of the conditional density for censored


data based on a recursive kernel 1

Sihem Semmar and Salah Khardani

École Nationale d’Ingénieurs de Monastir (ENIM),Laboratoire de Physique-Mathématique,


Fonctions Spéciales et Applications (P.M.F.S.A) Hammam-Sousse
Laboratoire de Statistique et Processus Stochastique , Université de Sidi Bel Abbès,
BP 89 Sidi Bel Abbès 22000. Algeria

abstract Let (Tn )n≥1 be a sequence random variables (rvs) of interest distributed as T . In
censorship models the rv T is subject to random censoring by another rv C. We consider
the problem of estimating its conditional density function ,given a vector of covariates X.
and establish its almost sure convergence with rate under an α-mixing condition.

AMS 2000 subject classificcations : Primary 62G05, 62G07, 62G08, 62G20, 62H12.
Keywords and phrases : Asymptotic normality, censored data, condi- tional density, ker-
nel estimator, recursive estimation, Kaplan-Meier esti- mator, uniform almost sure conver-
gence.

1. Article écrit en collaboration avec Khardani Salah paru en EJS (2014)


3.1 Introduction 33

3.1 Introduction

Studying the relationship between a response variable and a explanatory variable is one
of the most important statistical analysis. Usually this relationship is modeled with the
regression function. However, it is well known, this nonparametric model is not efficient in
some pathological situations. For instance, the multi-modal densities case, the case where
the expected value might be nowhere near a mode or for situations in which confidence
intervals are preferred to point estimates. In all these case the conditional density is a
pertinent model to explore this relationship. The main purpose of this paper is to study this
nonparametric model when the response variable is subject to censoring, by using a kernel
recursive estimation method.
Noting that the nonparametric modeling of censored data is intensively discussed in the
recent statistical literature. It dates back to Beran (1981), who introduced a class of non-
parametric regression estimators for the conditional survival function in the presence of
right-censoring. Dabrowska (1987,1989) studied the asymptotic properties of the distribu-
tion and quantiles functions estimators. Kohler et al. (2002) gave a simpler proof in the
randomly right-censoring case for kernel, nearest neighbor, least squares and penalized least
squares estimates. Further results was obtained by Khardani et al. (2010, 2012). Concerning
the nonparametric conditional model, we cite for the conditional model in both (iid and
mixing case) and for conditional quantiles function. In this vast variety of papers, the au-
thors use the Nadaraya-Watson techniques as estimation method which is a particular case
of the recursive kernel estimator considered in this paper. Moreover, this last has various
advantages over the kernel method. We deal with recursive kernel estimators where, by re-
cursive we mean that the estimator calculated from the first n observations, say fn+1 , is only
a function of fn and the (n + 1)−th observation. As is well known, the recursive property is
particularly interesting when the sample data are obtained by mean of some observational
mechanism that allows an increase in the sample size over time. This situation is usual in
many control and supervision problems and, above all, in time series analysis. In the above
cases, the recursive estimates allow us to update the estimations as additional observations
are obtained, unlike non-recursive methods where estimates must be completely recalculated
when each additional item of data received. From a practical point of view, this iterative
procedure provides an important saving in computational time and memory, since the up-
dating of the estimates is independent of the previous sample size. It is not the case for
the basic kernel estimator which has to be computed again on the whole sample. Recursive
estimators show good theoretical properties, from the point of view of mean square error
(small variance) and almost sure convergence.
The first recursive modifications of the Nadaraya-Watson estimate have been introduced by
Ahmad and Lin (1976) and Devroye and Wagner (1980) say (AL) and (DW). In complete
data, Kernel recursive estimators have been introduced by Wolvertone and Wagner (1969)
and Yamato (1972). Next Davies (1973), Deheuvels (1974), Wertz (1985) and Roussas (1992)
have independently studied the rates of the almost sure convergence of particular recursive
density estimates.
The law of the iterated logarithm of the recursive density estimator was established by
Nonparametric conditional density estimation for censored data based on a
34 recursive kernel

Wegman and Davies (1979) and Roussas and Tran (1992). For other works on recursive
density estimation, the reader is referred to the papers of (A L) , and Carroll (1976). Recently,
in a context of α−mixing processes, Amiri (2012) gave the exact asymptotic quadratic error
of a general family of kernel estimator, whose (AL) and (DW) are particular cases. The
asymptotic normality of the same family is obtained by Amiri (2013).
The recursive regression estimator for identically independent distributed (i.i.d.) random
variables has been studied by many authors among whom we quote (A L) , Krzyzak(1992)
and Walk (2001) for a nonparametric approach and Nguyen and Saracco(2010) for semi-
parametric models. In the strong mixing case, Roussas(1990) derived the uniform almost
sure convergence for (DW), while Roussas and Tran (1992) showed its asymptotic normality.
Masry and Fan(1997) studied some properties of local polynomial regression for dependent
data.
Despite this great importance the recursive kernel estimation of censored nonparametric has
not yet been fully explored. The present work is the first contribution that consider a recur-
sive estimate in censored data. The main aim of this contribution is to study the asymptotic
properties of the recursive kernel estimator of the conditional density and its derivatives,
under random right censoring. Specifically, the asymptotic properties stated are the strong
convergence and the asymptotic normality of these estimators. The paper is organized as
follows. We present our model in Section 2. In Section 3 we introduce notations, assumptions
and we state the main results. Finally, the proofs of the main results are relegated to Section
4 with some auxiliary results with their proofs.

3.2 Presentation of estimates


Consider n pairs of independent random variables (Xi , Ti ) for i = 1, . . . , n that we assume
drawn from the pair (X, T ) which is valued in Rd × R. In this paper we consider the problem
of nonparametric estimation of the conditional density of Y given X = x when the response
variable Yi are rightly censored. Furthermore, we denote by (Ci )i=1,...n the censoring random
variables which are supposed independent and identically distributed with a common unk-
nown continuous distribution function G.Thus, we construct our estimators by the observed
variables (Xi , Yi , δi )i=1,...n , where Yi = Ti ∧ Ci and δi = 1I{Ti ≤Ci } , where 1IA denotes the
indicator function of the set A.
To follow the convention in biomedical studies, we assume that (Ci )1≤i≤n and (Ti , Xi )1≤i≤n
are independent ; this condition is plausible whenever the censoring is independent of the
modality of the patients.
The cumulative distribution function G, of the censoring random variables, is estimated by
Kaplan Meier (1958) estimator defined as follows

 Qn  1
1−δ(i) {Y(i) ≤t}
Ḡn (t) = i=1 1− n−i+1 if t < Y(n) ,
 0 otherwise

which is known to be uniformly convergent to Ḡ.


3.3 Assumptions and main results 35

Given i.i.d. observations (X1 , Y1 , δ1 ), . . . (Xn , Yn , δn ) of (X, Y, δ), the kernel estimate of the
conditional density φ(t|x) denoted φ̄n (t|x), is defined by
n    
X x − Xi t − Yi
h−1 −1
n δi Ḡn (Yi )K L
hn hn
i=1
∀x ∈ Rd and ∀y ∈ R φ̄n (t|x) = Pn   ,
x−Xi
i=1 K hn

where K, L are a kernels and hn is a sequence of positive real numbers. Note that this last
estimator has been recently used by Khardani (2010).
A recursive version of the previous kernel estimator is defined by
n    
X −(d+1) x − Xi t − Yi
hi δi Ḡn−1 (Yi )K L
hi hi ĝn (x, t)
i=1
φbn (t|x) =   =:
Pn −d
h K x−Xi `n (x)
i=1 i hi

where
n    
1X 1 x − Xi t − Yi
ĝn (x, t) := δ Ḡ−1 (Yi )K
d+1 i n
L , (3.1)
n hi hi hi
i=1

and
n  
1X 1 x − Xi
`n (x) := K , ∀x ∈ IRd .
n hdi
i=1
hi

Remark 3.2.1 the Kaplan-Meir estimator is not recursive and the use of such estimator
can slightly penalizes the efficiency of our estimator in term of computational time.

3.3 Assumptions and main results


Throughout the paper, we put h− +
n = inf i=1...n hi , hn = supi=1...n hi and all along the paper,
when no confusion is possible, we denote by M and/or M 0 any generic positive constant.
Further, we will denote by F (·) (resp. G(·)) the distribution function of T (resp. of C) and by
τF (resp. τG ) the upper endpoints of the survival function F̄ (resp. of Ḡ). In the following we
assume that τF < ∞, Ḡ(τF ) > 0 and C is independent to (X, T ). We also assume that there
exist a compact set C ⊂ C0 = {x ∈ Rd `(x) > 0} where ` is the density of the explicative
variable X, and Ω be a compact set such that Ω ⊂ (−∞, τ ] where τ < τF ∧ τG .
We introduce the following assumptions :
Assumption A1.
The kernels K and L are Lipschitz continuous functions and compactly supported satisfy .
Z Z
ul K(u)du = 0 for l = 1, . . . , d with u = (u1 , . . . , ud )T and vL(v)dv = 0
Rd R
Assumption A2.
Nonparametric conditional density estimation for censored data based on a
36 recursive kernel

(i) The marginal density `(·) is twice differentiable and satisfies a Lipschitz condition.
Furthermore `(x) > Γ for all x ∈ C and Γ > 0. Where C is a compact set of IR.
(ii) The joint density g(·, ·) of (X, T ) is bounded function twice differentiable.

Remark 3.3.1 Assumptions A1 and A2 are usually used in non censoring kernel esti-
mation method. The independence assumption between (Ci )i and (Xi , Ti )i , may seem to be
strong and one can think of replacing it by a classical conditional independence assumption
between (Ci )i and (Ti )i given (Xi )i . However considering the latter demands an a priori work
of deriving the rate of convergence of the censoring variable’s conditional law (see Deheuvels
and Einmahl (2000)). Moreover our framework is classical and was considered by Carbonez
et al. (1995) and kohler et al.(2002), among others.

3.3.1 Uniform strong consistency results with rate of convergence


In order to give the rate of the uniform almost sure convergence of our estimate we need the
following additional assumptions :
Assumption C.
− log n
(i) The sequences h+ +
n and hn satisfy limn→∞ hn + d+1 = 0 as n → ∞.
nh−
n

(ii) limn→∞ nβ h−
n = ∞ for some β > 0.

Théoreme 3.3.2 .
Under Assumptions A1, A2 and C we have
( s ! !)
log n 2
sup sup φbn (t|x) − φ(t|x) = O max (d+1)
, h+
n a.s. as n→∞
x∈C t∈Ω nhn−
(3.2)

Remark 3.3.3 Observe that, although the expression of the convergence rate is not classic
in nonparametric statistic data analysis, this convergence rate is identifiable to the usual rate
in the kernel method case where, for all i, we have hi = hn = h− +
n = hn .

Proof of Theorem 3.3.2

Set
n
1X 1
gen (x, t) := δ Ḡ−1 (Yi )Ki (x)Li (t)
(d+1) i
n h i=1 i
   
x−Xi t−Yi
with Ki (x) = K hi , Li (t) = L hi .
Now, the proof of this Theorem is based on the following decomposition
3.3 Assumptions and main results 37

gbn (x, t) g̃n (x, t) g̃n (x, t) IEg̃n (x, t)


sup sup φbn (t|x) − φ(t|x) ≤ sup sup − + −
x∈C t∈Ω x∈C t∈Ω `n (x) `n (x) `n (x) `n (x)
IEg̃n (x, t) g(x, t) g(x, t) g(x, t)
+ − + −
`n (x) `n (x) `n (x) `(x)

1
≤ sup sup |b
gn (x, t) − g̃n (x, t)| + sup sup |g̃n (x, t) − g(x, t)|
inf x∈C `n (x) x∈C t∈Ω x∈C t∈Ω

+ + sup sup |φ(t|x)| sup |`(x) − `n (x)| (3.3)
x∈C t∈Ω x∈C

So, the proof of this Theorem is a direct consequence of Lemmas 4.4.2– 4.4.4.

Lemma 3.3.4 Under Assumption C, A1 and A2 (ii), we have


( s ! !)
log n 2
sup sup |g̃n (x, t) − g(x, t)| = O max , h+
n a.s. as n → ∞.
−(d+1)
x∈C t∈Ω nhn

Lemma 3.3.5 . Under Assumption C, A1 and A2 (i), we have


( s ! !)
log n 2
sup |`(x) − `n (x)| = O max −d
, h+
n a.s. as n → ∞.
x∈C nhn

Lemma 3.3.6 . Under Assumption C, A1 and A2 (ii), we have


( r !)
log log n
sup sup |b
gn (x, t) − gen (x, t)| = O a.s. as n → ∞.
x∈C t∈Ω n

3.3.2 Asymptotic normality


Now, we study the asymptotic normality of our estimate. To do that, we replace condition
C by the following assumption :
Assumption N.
P  k
(i) limn→∞ n1 ni=1 hhni = θk .
(d+1) (d+1) +4 (d+1)
(ii) hn log log n = o(1), limn→∞ nhn hn = 0 and limn→∞ nhn =∞

Théoreme 3.3.7 .
Under Assumptions A1,A2 and N, we have, for any (x, t) ∈ A,
q  
(d+1) D
φ̂n (t|x) − φ(t|x) −→ N 0, σ 2 (x, t)

nhn
Nonparametric conditional density estimation for censored data based on a
38 recursive kernel

D
where −→ denotes the convergence in distribution,
Z Z
2 φ(t|x)
σ (x, t) = θd+1 K 2 (z)L2 (y)dzdy
`(x)Ḡ(t) IRd IR

and A = {(x, t) σ 2 (x, t) 6= 0}.

Corollary 3.3.8 Based on Gn (·), φ̂n (·|x) and `n (x) we easily get a plug-in estimator σ̂n2 (x, t)
for σ 2 (x, t) which, under the assumptions of Theorem 4.4.6, gives a confidence interval of
asymptotic level 1 − α for φ(t|x)

u1−α/2 σ̂n (x, t) u1−α/2 σ̂n (x, t)


 
φ̂n (t|x) − √ , φ̂n (t|x) + √
nhd+1 nhd+1
where u1−α/2 denotes the (1 − α/2)-quantile of the standard normal distribution.

Proof of Theorem 4.4.6


It is clear that

q
q (d+1)
(d+1)
  nhn
nhn φ̂n (t|x) − φ(t|x) = gn (x, t) − g̃n (x, t)]
[b
`n (x)
q
(d+1)
nhn
+ [g̃n (x, t) − IE(g̃n (x, t))]
`n (x)
q
(d+1)
nhn
+ [IE(g̃n (x, t)) − g(x, t)]
`n (x)
q
(d+1) g(x, t)
+ nhn [`(x) − `n (x)] .
`n (x)`(x)
(3.4)

Thus, The proof of Theorem 4.4.6 can be deduced directly from the following Lemmas

Lemma 3.3.9 Under the Hypotheses of Theorem 4.4.6, we have


q
(d+1)
nhn gn (x, t) − g̃n (x, t)] → 0 a.s. as n → ∞,
[b (3.5)

q
(d+1)
nhn [IE(g̃n (x, t)) − g(x, t)] → 0 as n→∞ (3.6)
and q
(d+1)
nhn (`n (x) − `(x)) → 0 in probability as n → ∞. (3.7)
3.4 Numerical study 39

z
z

y
x x x

C.D.F. of Model M1 C.D.F. of Model M2 C.D.F. of Model M3

Figure 3.1 – The C.D.f.

Lemma 3.3.10 Under Assumption A1, A2 and N(i), we have


 1
D
[g̃n (x, t) − IE(g̃n (x, t))] −→ N 0, σ 02
2
nh(d+1)

n

Z Z
g(x, t)
where σ 02 (x, t) =θ Ki2 (z)L2i (y)dzdy
Ḡ(t) IRd IR

3.4 Numerical study


In this short section we compare the finite-sample performance of the recursive kernel method
and the classical kernel via a Monte Carlo study. For this comparison study, we consider the
same models used in Lemdani et al. (2013) that is

M1 Y = X2 + 1 +  parabolic case,
M2 Y = sin(1.5X) +  sinus case,
M 3 Y = exp(X − 0.2) +  exponential case

where the random variables X and  are i.i.d. and follow respectively the the normal distri-
bution N (0, 1). and N (0, σ).
It is clear that the conditional density expression is closely related to the distribution of .
Thus, the conditional densities are respectively
Nonparametric conditional density estimation for censored data based on a
40 recursive kernel

In order to control the effect of the censoring in the efficiency of both estimators we variate
the the percentage of censoring for each models by considering a various censoring distri-
butions. Precisely, we generate the the censoring variables C by an exponential distribution
C(λ1 ) shifted by λ2 (for the exponential model), by a normal distribution N (0, σ1 ) (for sinus
case) and by N (0, σ2 ) (for parabolic case). Thus, the behavior of both estimators is eva-
luated over a several parameters, such as the sample size n, the percentage of censoring τ
controlled by (λ1 , λ2 , σ1 , σ2 ), the dimension of the regressors d and the type of model M..
For sake of shortness, we consider the unidimensional case, we fixe the sample size n = 200,
we took σ = 0.2, we consider three censoring type ( τ = 10, τ = 40 and τ = 70 ). The test
of the performance of both estimators is described by the following averaged squared errors
n
1X
M SE(KERN EL) = (φ̄n (Yi |Xi ) − φ(Yi |Xi ))2
n
i=1

and recursive
n
1X b
M SE(RECU RSIV E) = (φn (Yi |Xi ) − φ(Yi |Xi ))2
n
i=1

Now, for our practical study, we use the Gaussian kernel and we consider the well-known
smoothing parameter defined by hn,i = σn2 i−1/5 where
n n
1 X 1X
σn2 = (Xi − X̄)2 and X̄ = Xi
n−1 n
i=1 i=1

The obtained results are given in Table 1. It is clear from Table 1 that the recursive method
is slightly better than the classical kernel method. However, the main advantage of the
recursive method is that considerably faster than the classical one for the three models. In
particular, it reduces sensibly the computation time in function of the sample size and the
kind of models. Overall, both methods give a satisfactory level of accuracy and the latter is
strongly dependent to the censoring rate.

Model τ MSE(KERNEL) MSE(RECURSIVE)


M1 10 0.41 0.22
40 0.64 0.55
70 1.74 1.97
M2 10 0.59 0.36
40 0.33 0.30
70 1.80 1.84
M3 10 0.79 0.29
40 1.32 1.18
70 2.17 2.65
Table 1 M SE-Results.
3.5 Proofs of the intermediates results 41

3.5 Proofs of the intermediates results


Proof of Lemma 4.4.2 : We write
sup sup |g̃n (x, t) − g(x, t)| ≤ sup sup |g̃n (x, t) − IEg̃n (x, t)| + sup sup |IEg̃n (x, t) − g(x, t)| .
x∈C t∈Ω x∈C t∈Ω x∈C t∈Ω

For the quantity sup sup |IEg̃n (x, t) − g(x, t)|, we use the fact that, for all measurable function
x∈C t∈Ω
ϕ and for all i = 1, . . . n.
1I{T1 ≤C1 } ϕ(Y1 ) = 1I{T1 ≤C1 } ϕ(T1 ).
Then,
n    
−1
X 1 x − X1 t − T1 −1
IEg̃n (x, t) = n IE K δi Ḡ (Ti )L
hd+1
i=1 i
hi hi
n      
−1
X 1 x − X1 −1 t − T1  
= n IE K Ḡ (Ti )L IE 1I{Ti ≤Ci } |Xi , Ti
hd+1
i=1 i
hi hi
n     
−1
X 1 x − X1 t − T1
= n IE K L
hd+1
ii=1
h1 h1
Therefore,
n Z
X Z
−1
|IEg̃n (x, t) − g(x, t)| ≤ n K(u)L(v)[g(x − hi u, t − hi v) − g(x, t)]dudv
i=1 Rd R
n
2
X
−1
≤ Mn h2i ≤ M h+
n .
i=1
Therefore,
2
sup sup |IEg̃n (x, t) − g(x, t)| = O(h+
n ).
x∈C t∈Ω
Now, concerning the quantity sup sup |g̃n (x, t) − IEg̃n (x, t)| we use the compactness property
x∈C t∈Ω
of the sets C and Ω to write that, for some (xk )1≤k≤λn and (tj )1≤j≤κn ,
λn
[ κn
[
C⊂ B(xk , an ) and Ω⊂ B(tj , bn )
k=1 j=1

where λn ∼ a−d −1
n and κn ∼ bn with an = bn = n
−(d+1)β−1/2 .

Now, for any x ∈ C and t ∈ Ω, we set by k̃(x) = arg mink kxk − xk and j̃(t) = arg minj |t − tj |
Then, for any (x, t) ∈ C × Ω, we can write

sup sup |g̃n (x, t) − IEg̃n (x, t)| ≤ sup sup g̃n (x, t) − g̃n (x, tj̃ ) + sup sup IEg̃n (x, tj̃ ) − IEg̃n (x, t)
x∈C t∈Ω x∈C t∈Ω x∈S t∈Ω
+ max sup g̃n (x, tj ) − g̃n (xk̃ , tj ) + max sup IEg̃n (xk̃ , tj ) − IEg̃n (x, tj )
j x∈C j x∈C
+ max max |g̃n (xk , tj ) − IEg̃n (xk , tj )|
k j
=: T1,n + T2,n + T3,n + T4,n + T5,n . (3.8)
Nonparametric conditional density estimation for censored data based on a
42 recursive kernel

Concerning (T1,n ) : We use the Lipschitizian condition on L to get


n
1 X −(d+1)
sup sup g̃n (x, t) − g̃n (x, tj̃ ) ≤ sup sup hi δi Ḡ−1 (Yi )Ki (x) Li (t) − Li (tj̃ )
x∈C t∈Ω x∈C t∈Ω n
i=1
n
1 X 1 −(d+1)
≤ sup sup C t − tj̃ h δi Ḡ−1 (Yi )Ki (x)
x∈C t∈Ω n hi i
i=1
n
1 X −(d+2)
≤ M bn hi
n
i=1
bn
≤ M −d+2
. (3.9)
hn
So, under Assumption C(ii), we have
s !
log n
(T1,n ) = O (d+1)
.
nhn−

By using the same arguments as those used T1,n we obtain


s ! s ! s !
log n log n log n
(T2,n ) = O (d+1)
, (T3,n ) = O (d+1)
and (T4,n ) = O (d+1)
.
nh−
n nhn− nhn−

Finally, in order to study T5,n we use Bernstein’s inequality. To do that, we put, for 1 ≤ i ≤ n,
1 ≤ k ≤ λn , and 1 ≤ j ≤ κn
n h io
−(d+1) −(d+1)
Ui = Ui (xk , tj ) := hi δi Ḡ−1 (Yi )Ki (x)Li (t) − E hi δi Ḡ−1 (Yi )Ki (x)Li (t) .

Using the fact that the kernels K and L are bounded, we get
−(d+1) (d+1)
|Ui | ≤ Chi ≤ Chn− = M.

Moreover, by a similar ideas to those used in the first part of this Lemma, we show that

Z Z
1
V ar(Ui ) ≤ C −(d+1)
K 2 (u)L2 (v)g(xk − rh, tj − sh)dudv.
Rd R hi
−(d+1) (d+1)
≤ Chi ≤ Chn− := σ.

Hence, by Bernstein’s inequality (see Hoeffding,1963), it follows that for all  > 0 :

n
( )     
−1
X n M
P n Ui >  ≤ 2 exp − h
M σ2
i=1
(3.10)
3.5 Proofs of the intermediates results 43

where h(u) = 3u/(6 + 2u) for all u > 0.


 1/2
log n
Now, taking  = 0 −(d+1)
, we have for any (k, j), we obtain
nhn

n
( )
32 log n
X  
−1
P n Ui >  ≤ 2 exp − 0
3c + c0
i=1
2
≤ 2n−C0

Thus,
n
( )
X
IP max max Ui (xk , tj ) >  ≤ Cλn κn n−C0 . (3.11)
k=1,...,λn j=1,...,κn
i=1

Consequently, Borel-Cantelli’s lemma and an appropriate choice of 0 allows us to write


that :
s !
log n
T5,n = O (d+1)
. (3.12)
nh−
n

Proof of Lemma 4.4.5 Firstly, we write

sup |`n (x) − `(x)| ≤ sup |`n (x) − IE[`n (x)]| + sup |IE[`n (x)] − `(x)|
x∈C x∈C x∈C
=: L1n + L2n .

The first term L1n is very close to the last part of Lemma 4.4.2. So, by a standard analytical
argument we get,
2
L2n = O(h+ n ). (3.13)
While the proof of the second term For L2n follows the same lines as in Lemma 4.4.2.
Therefore, we get
log n 1/2
 
L1n = Oa.s. d
nh−n
which completes the proof of this Lemma.

Proof of Lemma 4.4.4 It is clear that

n  
X 1 1 1
|b
gn (x, t) − gen (x, t)| ≤ δ K (x)Li (t)
(d+1) i i

i=1 nhi Ḡ(Yi ) Ḡn (Yi )
supt≤τF |Ḡn (t) − Ḡ(t)|
≤ gen (x, t) (3.14)
Ḡn (τ )

Since Ḡn (τ ) > 0, in conjunction with the SLLN and the LIL on the censoring law (see
formula (4.28) in Deheuvels and Einmahl, 2000)), the result is an immediate consequence of
Nonparametric conditional density estimation for censored data based on a
44 recursive kernel

Lemma 4.4.2.

Proof of Lemma 4.4.8


— Proof of 3.5
Similarly to the previous Lemma, we have

(d+1) supt≤τF |Ḡn (t) − Ḡ(t)|


q q
(d+1)
nhn |b
gn (x, t) − gen (x, t)| ≤ nhn gen (x, t).
Ḡn (τ )

Further, as !
r
log log n
sup |Ḡn (t) − Ḡ(t)| = Oa.s.
t≤τF n

then
supt≤τF Ḡn (t) − Ḡ(t)
q   q 
(d+1) (d+1)
nhn = Oa.s. log log nhn .
Ḡn (τF )Ḡ(τF )
From N(ii) we obtain that

(d+1) supt≤τF Ḡn (t) − Ḡ(t)


q
nhn = oa.s. (1)
Ḡn (τF )Ḡ(τF )

The latter combined with the results of Lemma4.4.2 allows us to complete the proof
of 3.5.

— Proof of 3.6 It is shown in the first part of Lemma 4.4.2, that


2
[IE(g̃n (x, t)) − g(x, t)] = O(h+
n ).

Thus, q q
(d+1) +4
nhn [IE(g̃n (x, t)) − g(x, t)] = O( nhd+1
n (hn )

which goes to zero under the second part of Assumption N(ii


— Proof of 3.7 By a simple analytical arguments we show that
n
!
2
X
−1
V ar (`n (x) − `(x)) = O n hi and IE [`n (x) − `(x)] = O(h+
d
n ).
i=1

4
Now, Assumption N(ii) gives nhd+1 +
n (hn → 0 and Assumption N(i) implies that

nhd+1
n V ar (`n (x) − `(x)) = o(1).

So, q
nhd+1
n (`n (x) − `(x)) → 0 in probability as n → ∞.
3.5 Proofs of the intermediates results 45

Proof of Lemma 4.4.7 : The proof of this Lemma is based on the version of the central
limit Theorem given in (Loève (1963), p. 275) where the main point is to calculate the
following limit
02
nhd+1
n V ar [g̃n (x, t)] → σ (x). (3.15)
Indeed, we have
" n #
(d+1)
nhn X −(d+1) −1
nhd+1
n V ar [g̃n (x, t)] = V ar hi Ḡ (Y )Ki (x)Li (t)1I{T1 ≤C1 }
n2
i=1
(d+1) n
hn X −2(d+1)
IE Ḡ−2 (T )Ki2 (x)L2i (t)IE [1IT1 ≤C1 |X1 , T1 ]
 
= hi
n
i=1
(d+1) n
hn X −2(d+1)  2
IE Ḡ−1 (T )Ki (x)Li (t)IE [1IT1 ≤C1 |X1 , T1 ]

− hi
n
i=1
:= ∇1n + ∇2n .
Observe that
∇2n = hn(d+1) IE2 [g̃n (x, t)] .
Once again, we use the result of Lemma 4.4.2 to show that ∇2n = o(1).
Now, concerning the first term ∇1n , we have
n 
1 X hn (d+1) K 2 (z)L2 (y)
 Z Z
1
∇n = g(x − zhi , t − yhi )dzdy.
n
i=1
hi IRd IR Ḡ(t − yhi )

The continuity of the functions Ḡ and g permit to write


n  n
! (d+1) !
1 X hn (d+1)
Z Z  
1 g(x, t) 2 2 1X hn
∇n = K (z)L (y) +o
Ḡ(t) IRd IR n hi n hi
i=1 i=1

From Assumption A.1(ii), we obtain the claimed result (3.15).


Let’s now prove our asymptotic result. To do that we put
 1 n
X
2
nh(d+1)
n [g̃n (x, t) − IE(g̃n (x, t))] = wi,n (x)
i=1

where
 1
(d+1) 2
nhn
δi Ḡ−1 (Yi )Ki (x)Li (t) − IE δi Ḡ−1 (Yi )Ki (x)Li (t)
 
wi,n (x) =
nhd+1
i
and we prove that for some β > 2
n
X h i
IE |wi,n (x)|β
i=1
n
!!(β)/2 → 0.
X
V ar wi,n (x)
i=1
Nonparametric conditional density estimation for censored data based on a
46 recursive kernel

β
Indeed, set ψi,n (x) = IE |wi,n (x)|β . Applying the Cr-inequality (see Loève, 1963, p. 155)

 1 β
(d+1) 2
nhn
β
δi Ḡ−1 (Yi )Ki (x)Li (t) − IE δi Ḡ−1 (Yi )Ki (x)Li (t)
 
ψi,n (x) = IE
nhd+1
i

 β
(d+1) 2
nhn 
β

≤ 2 β−1
IE δi Ḡ−1 (Yi )Ki (x)Li (t)
nβ (hd+1
i )β
 β
(d+1) 2
nhn β
+ 2β−1 IE δi Ḡ−1 (Yi )Ki (x)Li (t)

.
nβ (hd+1
i )β
(3.16)

Furthermore, by a standard arguments, we show that


 
β (d+1)
IE δi Ḡ−1 (Y )Ki (x)Li (t) = O(hi )

and
β β(d+1)
IE δi Ḡ−1 (Y )Ki (x)Li (t)

= O(hi ).
Therefore,  
β
X
ψnβ (x) = ψi,n (x) = O n1−β/2 hn(d+1)(1−β/2) .
i=1

Because of 1 − β/2 < 0 we have ψnβ (x) → 0 which implies that


Pn β
i=1 IE |ψi,n (x)|
lim !!(β)/2 → 0.
n→∞ Xn
V ar wi,n (x)
i=1

The proof of this Lemma is now complete.

Acknowledgements
The authors are grateful to two anonymous referees whose careful reading and appropriate
remarks gave them the opportunity to improve the quality of the paper.
Bibliographie

[1] Ahmad, I., Lin, P.E. (1976). Nonparametric sequential estimation of a multiple regression
Function, Bull. Math. Statist., 17, 63–75.
[2] Amiri, A. (2009). Sur une famille paramétrique d’estimateurs séquentiels de la densité
pour un processus fortemement mélangeant, C. R. Acad. Sci. Paris, Ser, I 347, 309–314.
[3] Amiri, A. (2012). Recursive regression estimators with application to nonparametric
prediction, J. Nonparam. Statist, 24 (1), 169–186.
[4] Amiri, A. (2013). Asymptotic normality of recursive estimators under strong mixing
conditions, arXiv :1211.5767v2.
[5] Beran, R. (1981). Nonparametric regression with randomly censored survival data, Tech-
nical university of Clifornia, Berkeley.
[6] Carroll, J. (1976). On sequential density estimation, Z. Wahrscheinlichkeits- theorie und
Verw. Gebiete , 36, 137–151.
[7] Carbonez, A., Györfi, L., Vander Meulin EC . (1995). Partitioning estimates of a regres-
sion function under random censoring, Statist. & Decisions , 13, 21–37.
[8] Dabrowska, D.M. (1987). Nonparametric regression with censored survival time data,
Scandi. J. Statist, 14, 181–197.
[9] Dabrowska, D.M. (1989). Uniform consistency of the kernel conditional Kaplan Meier
estimate, Ann. Statist, 17, 1157–1167.
[10] Davies, I. (1973). Strong consistency of a sequential estimator of a probability density
function, Bull. Math. Statist, 15, 49–54.
[11] Deheuvels, P., Einmahl, JHJ. (2000). Functional limit laws for the increments of Kaplan-
Meier product-limit processes and applications, Ann Proba, 28, 1301–1335.
[12] Devroye, L., Wagner, T.J. (1980). On the L1 convergence of kernel estimators of re-
gression functions with application in discrimination. Z. Wahrschein. Verw. Get, 51,
15-25.
[13] Hoeffding, W. (1963). Probability inequalities for sums of bounded random variables,
J. Amer. Statist. Assoc., 58, 13-30.
[14] Khardani, S., Lemdani, M., Ould Saïd, E. (2010). Some asymptotic properties for a
smooth kernel estimator of the conditional mode under random censorship, J. of the
Korean Statistical Society, 39, 455–469.
48 BIBLIOGRAPHIE

[15] Khardani, S., Lemdani, M., Ould Saïd, E. (2011). Uniform rate of strong consistency
for a smooth kernel estimator of the conditional mode for censored time series, J. Stat.
Plann. Inference, 141, 3426–3436.
[16] Kohler, M., Máthé, K., Pinter, M. (2002). Prediction from randomly Right Censored
Data, J. Multivariate Anal, (80), 73–100.
[17] Krzÿzak, A. (1992). Global convergence of the recursive kernel regression estimates with
applications in classification and nonlinear system estimation , IEEE Trans. Inform.
Theory, 38, 1323–1338.
[18] Loève, M. (1963). Probability theory, New York : Springer-Verlag.
[19] Masry, E. and Fan,J., (1997). Local polynomial estimation of recursive function for
mixing processes, Scandinave Journal of Statistics, 24, 165–179.
[20] Nguyen, T., Saracco, J. (2010). Estimation récursive en régression inverse par tranches,
Journal de la société française de statistique, 151(2), 19–46.
[21] Roussas, G.G. (1990). Nonparametric regression estimation under mixing conditions,
Stochastic Process. Appl, 36 (1), 107–116.
[22] Roussas, G.G., Tran, L.T. (1992). Asymptotic normality of the recursive kernel regres-
sion estimate under dependence conditions , Annals of Statist, 20 (1), 98–120.
[23] Walk, H. (2001). Strong universal pointwise consistency of recursive regression esti-
mates, Ann. Inst. Statist. Math., 53 (4), 691–707.
[24] Wegman, J. Davies, I. (1979). Remarks on some recursive estimators of a probability
density, Ann. Statist, 7, 316–327.
[25] Wertz,W. (1985). Sequential and recursive estimators of the probability density, Statis-
tics, 16, 277–295.
[26] Wolverton, C. and Wagner, T.J. (1969). Asymptotically optimal discriminant functions
for pattern classifcation, IEEE Trans. Inform. Theory, 15, 258–265.
Chapitre 4

On the strong iniform consistency of


the conditional density for censored
data based on a recursive kernel

4.1 Introduction
Conditional density plays an important role in exploring relationship between responses and
covariates. In particular it is used to pricing financial derivatives and estimating parameters
in financial models . Estimating conditional density has been extensively studied in the litera-
ture. We cite, for instance, Tjøstheim (1994), Hyndman et al.(1996) Fan et al.(1996),. . . ).In
the last two decades, the kernel estimation of the conditional density estimation has recei-
ved lot of attention. For example, Bashtannyk and Hyndman (2001) and Hyndman and Yao
(2001) proposed several simple and useful rules for selecting bandwidths for the conditio-
nal density estimation. Hall et al. (2004) applied the cross-validation technique to estimate
the conditional density. Fan and Yim (2004) proposed a consistent data-driven bandwidth
selection procedure in estimating the conditional density functions. De Gooijer and Zerom
(2003) introduced a so-called re-weighted Nadaraya-Watson estimator for the conditional
density function. However, all these papers assume that the observations are complete.
The nonparametric modeling of censored data is intensively discussed in the recent statis-
tical literature. The first contribution dates back to Beran (1981), who introduced a class
of nonparametric regression estimators for the conditional survival function in the presence
of right-censoring. Dabrowska (1987,1989) establish the asymptotic properties of the distri-
bution and quantiles functions estimators. Kohler et al. (2002) gave a simpler proof in the
randomly right-censoring case for kernel, nearest neighbor, least squares and penalized least
squares estimates.Further results was studied by Khardani et al. (2010, 2012).
Concerning the practical aspects of statistical analysis of censored dependent data we give
the following usual examples. In the clinical trials domain, it is frequently happens that the
patients from the same hospital have correlated survival times due to unmeasured variables
like the quality of the hospital equipment. An example of such data can be found in Lipsitz
and Ibrahim (2000) For more examples in a real data, the reader can refer to Wei and Lin
On the strong iniform consistency of the conditional density for censored data
50 based on a recursive kernel

(1989), Cai and Prentice (1995).


The main purpose of this paper is to study a certain class of the recursive estimation.
We recall that an estimator is said to be ’recursive’ if its value calculated from the first n
observations, say fn , is only a function of fn−1 and the nth observation. In this estimation
method the estimator can be updated with each new observation added to the database.
This recursive property is clearly useful in sequential investigations and also for a fairly large
sample size, since addition of a new observation means the non-recursive estimators must
be entirely recomputed. Despite this great importance the recursive kernel estimation of
censored dependent data has not yet been fully explored. The main aim of the present work
is to study the asymptotic properties of the recursive kernel estimator of the conditional
density under random right censoring. Specifically, the asymptotic properties stated are the
strong convergence and the asymptotic normality of these estimators when the observation
satisfy the strong mixing condition .
The paper is organized as follows. In Section2 we recall our kernel conditional density esti-
mator in the censorship model with some notations.In Section3 the assumptions and main
results are given. Finally,the proofs of the main results are relegated to Section4 with some
auxiliary results with their proofs.

4.2 Preamble
Let(Xn , Tn )n≥1 be a Rd × R valued stationary strongly mixing process defined on probabi-
lity space (Ω, A, IP). In this paper we consider the model of random right censorship. Let
(Ti )1≤i≤n be the survival times and suppose that they form a stationary α−mixing sequence
with common unknown continuous distribution function (df) F with density g. In many
situations we observe only censored lifetimes of the items under study. Thait is, assuming
that (Ci )1≤i≤n is a sample independent and identically distributed (iid) censoring random
variables (rvs) with common continuous df G, we observe only the n pairs (Yi , δi ) with

Yi = Ti ∧ Ci and δi = 1I{Ti ≤Ci } . 1≤i≤n (4.1)


where 1IA denotes the indicator function of the set A. To follow the convention in biomedi-
cal studies, we assume that (Ci )1≤i≤n and (Ti , Xi )1≤i≤n are independent ; this condition is
plausible whenever the censoring is independent of the modality of the patients.
Throughout the paper, x = (x1 , ·, xd ) ∈ IRd . For any x, denote by φ(.|x) the conditional
density function of Y given X = x.
Given a sequence of observations (X1 , Y1 , δ1 ), . . . (Xn , Yn , δn ) of (X, Y, δ), the kernel estimate
of the conditional density φ(t|x) denoted φ̄n (t|x), is defined by
n    
X
−1 −1 x − Xi t − Yi
hn δi Ḡn (Yi )K L
hn hn
d i=1
∀x ∈ R and ∀y ∈ R φ̄n (t|x) = Pn   , (4.2)
x−Xi
i=1 K hn

where K, L are a kernels and hn is a sequence of positive real numbers. Note that this last
estimator has been recently used by Khardani (2010).In practice G(.) is unknown, hence it
4.3 Assumptions and main results 51

is not possible to use (4.2) as an estimator. One way to overcome this difficulty is to replace
G(.) by Kaplan and Meier(1958) estimate Gn (.) given by

 Qn  1−δ(i) 1{Y(i) ≤t}

Ḡn (t) = i=1 1 − n−i+1 if t < Y(n) ,
 0 otherwise

which is known to be uniformly convergent to Ḡ and Y(1) < Y(2) < · < Y(n) are the order
statistics of (Y(i) )1≤i≤n and δ(i) is the concomitant of Y(i) .
A recursive version of the previous kernel estimator is defined by
n    
X −(d+1) −1 x − Xi t − Yi
hi δi Ḡn (Yi )K L
hi hi ĝn (x, t)
i=1
φbn (t|x) =   =:
Pn −d x−Xi `n (x)
i=1 hi K hi

where
n    
1X 1 x − Xi t − Yi
ĝn (x, t) := δ Ḡ−1 (Yi )K
d+1 i n
L , (4.3)
n hi hi hi
i=1
and
n  
1X 1 x − Xi
`n (x) := K , ∀x ∈ IRd .
n hdi
i=1
hi

Remark 4.2.1 the Kaplan-Meir estimator is not recursive and the use of such estimator
can slightly penalizes the efficiency of our estimator in term of computational time.

Remark 4.2.2 The joint pdf `(.) is not affected by censoring and is therefore consistently
estimated by `n (.)

4.3 Assumptions and main results


Throughout the paper, when no confusion is possible, we denote by C and/or C 0 any generic
positive constant and we put C 0 hn ≤ hi ≤ Chn ; ∀1 ≤ i ≤ n. Further, we will denote by
F (·) (resp. G(·)) the distribution function of T (resp. of C) and by τF (resp. τG ) the upper
endpoints of the survival function F̄ (resp. of Ḡ). In the following we assume that τF < ∞,
Ḡ(τF ) > 0 and C is independent to (X, T ). We also assume that there exist a compact set
C ⊂ C0 = {x ∈ Rd `(x) > 0} where ` is the density of the explicative variable X, and Ω
be a compact set such that Ω ⊂ (−∞, τ ] where τ < τF ∧ τG . From now, for any function ϕ
and j ∈ IN, let ϕj denote the jth-order derivative of ϕ(with ϕ(0) = ϕ). As we deal with the
α−mixig case, we recall its definition
Definition 4.3.1 Let (Zi ) be a sequence of rvs. Given a positive integer n, set

α(n) = sup sup |IP(A ∩ B) − IP(A)IP(B)|, A ∈ F1k (Z) and B ∈ Fk+n (Z),
k
On the strong iniform consistency of the conditional density for censored data
52 based on a recursive kernel

where F1k (Z) is the σ-field of events generated by Zj , i ≤ j ≤ k.


The sequence is said to be α-mixing if the mixing coefficient α(n) → 0 → as n →→ ∞.

There exist many processes fulfilling the strong mixing property. We quote, here, the usual
ARMA processes wich are geometrically strongly mixing, i.e., there exist ρ ∈ (0, 1) and
a > 0 such that, for any n ≥ 1, α(n) ≤ aρn (see, e.g, Jones(1978)). The threshold models,
the EXPRAR models(see, Ozaki(1979)), the simple ARCH models (see Engle(1982)), their
GARCH extension( see Bollerslev(1986)) and the bilinear Markovian models are geometri-
cally strongly mixing under some general ergodicity conditions.
In order to give the rate of the uniform almost sure convergence of our estimate we need the
following assumptions :
A1 : (Tn , Xn )n≥1 is stationary α-mixing sequence of rvs, with coefficient α(n).
A2 :The mixing coefficient satisfies α(n) = O(n−ν ), ν > 0
B1 :The joint pdf g(·, ·) of (X, T ) is bounded function and continuously differentiable up to
order 3.
B2 :The joint pdf g1.j of ((X1 , T1 ), (Xj , Tj )) exists and satisfies

sup |g1.j (·, ·) − g(·)g(·)| ≤ C ≤ ∞ f or any j≥2


Rd+1 ×Rd+1

.
B3 :The marginal density `(·) is twice differentiable and satisfies a Lipschitz condition.
Furthermore `(x) > Γ for all x ∈ C and Γ > 0. Where C is a compact set of IR.
B4 :The joint pdf `1.j of ((X1 , Xj )) exists and satisfies

sup |`∗1.j (·, ·) − `(·)`(·)| ≤ C ≤ ∞ f or any j≥2


Rd ×Rd

K1Z :The kernels K and L are Lipschitz continuous functions and compactly Z supported.
K2 : ul K(u)du = 0, for l = 1, . . . , d with u = (u1 , . . . , ud )T and vL(v)dv = 0
Rd R
4+(d+1)2 β+d−ν+η
H1 : There exists η > 0 such that, Cn v+1 ≤ hd+1
n with ν > 4 + (d + 1)2 β + d

Remark 4.3.2 It is clear that the considered assumptions are standard in this context of
censoring times series analysis. In particular, ours conditions cover all the axes of our study.
Indeed, Conditions A1 and A2 control the correlation condition by defining the mixing type
as well as its coefficient rate. Assumptions B1 − B4 define our nonparametric model. Such
assumptions are usually used in asymptotic theory of kernel estimation method. Conditions
K1 − K2are mils hypotheses to characterize the kernel function of our estimate. It is well
documented in nonparametric analysis of censored data that the independence assumption
between (Ci )i and (Xi , Ti )i , may seem to be strong and one can think of replacing it by
a classical conditional independence assumption between (Ci )i and (Ti )i given (Xi )i (see,
Khardani et al. (2014) for more discussion ).
4.4 Auxilary results and proofs 53

4.3.1 Uniform strong consistency results with rate of convergence


Théoreme 4.3.3 Under Assumptions A1,A2,K1,K2, B1 - B4 and H
( s ! !)
log n
sup sup φbn (t|x) − φ(t|x) = O max (d+1)
, h2n a.s. as n → ∞ (4.4)
x∈C t∈Ω nhn

4.4 Auxilary results and proofs


Lemma 4.4.1 (Rio,2000,pp.87) Let Ui , i ≥ 1 be a stationary sequenceof centered real rvs,
with strong mixing coefficient α(n) = O(n−v ), v > 1, such that kU1 k∞ < +∞. Then for each
r > 1 and  > 0
( n ) −r/2  v+1
2

−1 2r
X
IP Ui >  ≤ C 1 + 2 + nCr ,
rSn 
i=1

Where Sn2 = 1≤i≤n 1≤j≤n |cov(Ui , Uj )| and where the constant C does not depend on n.
P P

Lemma 4.4.2 Under Assumptions B1, B3 and K2, we have


sup sup |IEg̃n (x, t) − g(x, t)| = O(h2n ) as n −→ ∞.
x∈C t∈Ω

Proof. The proof is standard, in the sense that is not affected by the dependence structure.
Using the fact that, for all measurable function ϕ and for all i = 1, . . . n.
1I{T1 ≤C1 } ϕ(Y1 ) = 1I{T1 ≤C1 } ϕ(T1 ).
Then,
n     
−1
X 1 x − X1 t − T1
−1
IEg̃n (x, t) = n IE K δi Ḡ (Ti )L
hd+1
i=1 i
hi hi
n      
−1
X 1 x − X1 −1 t − T1  
= n IE K Ḡ (Ti )L IE 1I{Ti ≤Ci } |Xi , Ti
hd+1
i=1 i
hi hi
n     
−1
X 1 x − X1 t − T1
= n IE K L
hd+1
i
i=1
h1 h1
Therefore,
n Z
X Z
|IEg̃n (x, t) − g(x, t)| ≤ n−1 K(u)L(v)[g(x − hi u, t − hi v) − g(x, t)]dudv
i=1 Rd R
n
2
X
≤ M n−1 h2i ≤ M hn .
i=1
Therefore,
2
sup sup |IEg̃n (x, t) − g(x, t)| = O(hn ).
x∈C t∈Ω
On the strong iniform consistency of the conditional density for censored data
54 based on a recursive kernel

Lemma 4.4.3 Under Assumptions of Theorem 4.3.3 we have


 ! 
 log n 1/2 
sup sup |g̃n (x, t) − IEg̃n (x, t)| = O a.s. as n −→ ∞.
x∈C t∈Ω  nh(d+1)
n

Proof. The compactness property of the sets C and Ω allows us to write that, for some
(xk )1≤k≤λn and (tj )1≤j≤κn ,
λn
[ κn
[
C⊂ B(xk , an ) and Ω⊂ B(tj , bn )
k=1 j=1

where λn ∼ a−d −1
n and κn ∼ bn with an = bn = n
−(d+1)β−1/2 .

Now, for any x ∈ C and t ∈ Ω, we set by k̃(x) = arg mink kxk − xk and j̃(t) = arg minj |t − tj |
Now setting
n h io
(d+1) (d+1)
Zi (xk , tj ) := n−1 hi δi Ḡ−1 (Yi )Ki (x)Li (t) − E hi δi Ḡ−1 (Yi )Ki (x)Li (t) (4.5)

Then, for any (x, t) ∈ C × Ω, we can write

sup sup |g̃n (x, t) − IEg̃n (x, t)| ≤ sup sup g̃n (x, t) − g̃n (x, tj̃ ) + sup sup IEg̃n (x, tj̃ ) − IEg̃n (x, t)
x∈C t∈Ω x∈C t∈Ω x∈S t∈Ω
+ max sup g̃n (x, tj ) − g̃n (xk̃ , tj ) + max sup IEg̃n (xk̃ , tj ) − IEg̃n (x, tj )
j x∈C j x∈C
+ max max |g̃n (xk , tj ) − IEg̃n (xk , tj )|
k j
=: T1,n + T2,n + T3,n + T4,n + T5,n . (4.6)

Concerning (T1,n ) : We use the Lipschitizian condition on L to get


n
1 X (d+1)
sup sup g̃n (x, t) − g̃n (x, tj̃ ) ≤ sup sup hi δi Ḡ−1 (Yi )Ki (x) Li (t) − Li (tj̃ )
x∈C t∈Ω x∈C t∈Ω n
i=1
n
1 X 1 −(d+1)
≤ sup sup C t − tj̃ h δi Ḡ−1 (Yi )Ki (x)
x∈C t∈Ω n hi i
i=1
n
1 X −(d+2)
≤ M bn hi
n
i=1
bn
≤ M . (4.7)
hd+2
n

So, we have s !
log n
(T1,n ) = O (d+1)
.
nhn
4.4 Auxilary results and proofs 55

By using the same arguments as those used T1,n we obtain


s ! s ! s !
log n log n log n
(T2,n ) = O (d+1)
, (T3,n ) = O (d+1)
and (T4,n ) = O (d+1)
.
nhn nhn nhn

Now, in order to study T5,n we put, for 1 ≤ i ≤ n, 1 ≤ k ≤ λn , and 1 ≤ j ≤ κn


(d+1)
Ui = Ui (xk , tj ) := nhi Zi (xk , tj ).

Firstly, we calculate
n
X X n
X
Sn2 = V ar(Ui ) + |cov(Ui , Ul )| =: V ar(Ui ) + Sn2∗ (4.8)
i=1 l6=i i=1

Where Sn2∗ is the sum of covariances. Using

1I{T1 ≤C1 } ϕ(Y1 ) = 1I{T1 ≤C1 } ϕ(T1 ), (4.9)

the conditional expectation properties and a change of variables, we have

    
xk − Xi tj − Ti
V ar(Ui ) = V ar δi Ḡ−1 (Yi )K L
hi hi
          
2 −2 2 xk − X1 2 tj − T1 2 −1 xk − Xi tj − Ti
= IE δ1 Ḡ (Y1 )K L − IE δi Ḡ (Yi )K L
hi hi hi hi
     
xk − X1 tj − T1
≤ IE Ḡ−2 (Y1 )K 2 L2
 
IE 1I{T1 ≤C1 } /X1 T1
hi hi
K 2 (r)L2 (s)
Z Z
(d+1)
≤ hi g(xk − rhi , tj − shi )drds
Rd R Ḡ(τ )

Under Assumptions B4 we obtain


n n
(d+1)
X X
V ar(Ui ) = hi = O(nh(d+1)
n ) (4.10)
i=1 i=1

Then from 4.5,using again the conditional expectation, we get under assumption, for l 6= i
   
δi δl 2 δ1
cov(Ui , Ul ) = IE Ki (xk )Li (tj )Kl (xk )Ll (tj ) − IE K(xk )L(tj )
Ḡ( Yi )Ḡ( Yl ) Ḡ(Y1 )
     
δi δl /Ti Tl 2 δ1
= IE IE Ki (xk )Li (tj )Kl (xk )Ll (tj ) − IE K(xk )L(tj )
Ḡ( Y )Ḡ( Y ) Ḡ(Y1 )
Z Zi Z l Z
2(d+1)
= hi [g (xk − s1 hi , tj − r1 hi , xk − s2 hi , tj − r2 hi ) (4.11)
Rd R Rd R
− g (xk − s1 hi , tj − r1 hi ) g (xk − s2 hi , tj − r2 hi )] K(s1 )L(r1 )K(s2 )L(r2 )ds1 dr1 ds2 dr2
On the strong iniform consistency of the conditional density for censored data
56 based on a recursive kernel

which yields, under Assumptions B2

cov(Ui , Ul ) = O(h2(d+1)
n ) (4.12)

uniformly on i and l.
Now, following Masry (1986), we define the sets
E1 = {(i, l) such that 1 ≤ ki−lk ≤ ξn } and E2 = {(i, l) such that ξn +1 ≤ ki−lk ≤ n−1}.
where ξn as n → ∞ at a slow rate, that is ξn = o(n). Let Sn2∗ = 1,n + 2,n where 1,n and
2,n be the sums of covariances over E1 and E2 , respectively. We then get from 4.12
X
1,n = cov(Ui , Ul ) = O(nh2(d+1)
n ξn ) (4.13)
(i,l)∈E1

For 2,n we use the modified Davydov inequality for mixing processes(see Rio,p.10, Formula
1.12a). This leads, for all i 6= l, to

|cov(Ui , Ul )| ≤ Cα(|i − l|)

we then get, from Assumption A2


n
X X
2,n ≤ C |i − l|−v = O(nξn−v+1 ) (4.14)
i=1 ξn +1<|i−l|≤n−1

Therefore equalizing the rates in 4.13 and 4.14, we get the optimal choice (minimizing the
(−2(d+1)/v)
covariance) ξn = Chn yielding

Sn2∗ = 1,n + 2,n = O(nhn2(d+1)((v−1)/v) )

wiche combined to (4.8) and (4.10) yields, then

Sn2 ∼ nh(d+1)
n (4.15)

Now we are in position to apply Lemma 4.1.

Then, for  > 0, applying Lemma 4.4.1, we have, for any (k, j)
( n
) ( n
) !−r/2 ν+1
n2 h2(d+1) 2

X X
(d+1) −1 2r
P Zi (xk , tj ) >  ≤P Ui > nh  ≤ c 1+ + ncr
16rSn2 nh(d+1) 
i=1 i=1
=: c (Ψ1,n + Ψ2,n ) (4.16)

Now, we apply (4.16) with


 1/2
log n
 = 0 and r = C log n2
nh(d+1)
4.4 Auxilary results and proofs 57

and use the Taylor series expansion of log(1 + x) and (4.16) to get
2 −(ν+1) 1−ν 3ν+1 (d+1)(ν+1)
Ψ1,n ≤ C exp −C20 log n = Cn−C0

and Ψ2,n ≤ C0 n 2 (log n) 2 h 2 .
P (4.17)
On the other hand, using IP (∪i Ai ) ≤ i IP(Ai ) we can write
n
( )
X
IP max max Zi (xk , tj ) >  ≤ Cλn κn (Ψ1,n + Ψ2,n ) . (4.18)
k=1,...,λn j=1,...,κn
i=1
P
Now (4.17), under H1, yields n λn κn Ψ1,n < ∞. Finally, applying Borel-Cantelli’s lemma
to (4.18) yields
 1/2 !
log n
I5,n = Oa.co. (4.19)
nhd+1
n

Lemma 4.4.4 . Under Assumptions of Theorem 4.3.3 we have


( r !)
log log n
sup sup |b
gn (x, t) − gen (x, t)| = O a.s. as n → ∞. (4.20)
x∈C t∈Ω n

Proof.It is clear that

n  
X 1 1 1
|b
gn (x, t) − gen (x, t)| ≤ δ K (x)Li (t)
(d+1) i i

i=1 nhi Ḡ(Yi ) Ḡn (Yi )
supt≤τF |Ḡn (t) − Ḡ(t)|
≤ gen (x, t) (4.21)
Ḡn (τ )

Since Ḡn (τ ) > 0, in conjunction with the SLLN and the LIL on the censoring law (see
formula (4.28) in Deheuvels and Einmahl, 2000)), the result is an immediate consequence of
the previous Lemmas.

Lemma 4.4.5 . Under Assumptions of Theorem 4.3.3 we have


( s ! !)
log n 2
sup |`(x) − `n (x)| = O max , hn a.s. as n → ∞.
x∈C nhdn

Proof. Firstly, we write

sup |`n (x) − `(x)| ≤ sup |`n (x) − IE[`n (x)]| + sup |IE[`n (x)] − `(x)|
x∈C x∈C x∈C
=: L1n + L2n .

The term L2n is very close to the last part of Lemma 4.4.2. So, by a standard analytical
argument we get,
2
L2n = O(hn ). (4.22)
On the strong iniform consistency of the conditional density for censored data
58 based on a recursive kernel

While the proof of the second term For L1n follows the same lines as in Lemma 4.4.3.
Therefore, we get
log n 1/2
 
L1n = Oa.s.
nhdn
which completes the proof of this Lemma.
Proof of Theorem 4.3.3.
Set
n
1X 1
gen (x, t) := δ Ḡ−1 (Yi )Ki (x)Li (t)
(d+1) i
n
i=1 hi
   
with Ki (x) = K x−Xhi
i
, Li (t) = L t−Yi
hi .
Now, the proof of this Theorem is based on the following decomposition

gbn (x, t) g̃n (x, t) g̃n (x, t) IEg̃n (x, t)


sup sup φbn (t|x) − φ(t|x) ≤ sup sup − + −
x∈C t∈Ω x∈C t∈Ω `n (x) `n (x) `n (x) `n (x)
IEg̃n (x, t) g(x, t) g(x, t) g(x, t)
+ − + −
`n (x) `n (x) `n (x) `(x)

1
≤ sup sup |b
gn (x, t) − g̃n (x, t)| + sup sup |g̃n (x, t) − g(x, t)|
inf x∈C `n (x) x∈C t∈Ω x∈C t∈Ω

+ + sup sup |φ(t|x)| sup |`(x) − `n (x)| (4.23)
x∈C t∈Ω x∈C

So, the proof of this Theorem is a direct consequence of Lemmas (4.4.2-4.4.5).

4.4.1 Asymptotic normality


Now, we study the asymptotic normality of our estimate which is given in the following
Theorem. For this purpose we replace H1
Assumptions N1 :
n  
1X hn
lim = θ and n(1−ν)/(1+ν) ≤ hd+1
n ≤ n1/(3−2ν)
n→∞ n hi
i=1

and we added
Assumptions N2 :
lim nhd+5
n →0

Théoreme 4.4.6 .
Under Assumptions K1-K2,A1-A2,B1-B4, N1-N2 we have, for any (x, t) ∈ A,
q  
(d+1) D
φ̂n (t|x) − φ(t|x) −→ N 0, σ 2 (x, t)

nhn
4.4 Auxilary results and proofs 59

D
where −→ denotes the convergence in distribution,
Z Z
2 φ(t|x)
σ (x, t) = θ K 2 (z)L2 (y)dzdy
`(x)Ḡ(t) IRd IR

and A = {(x, t) σ 2 (x, t) 6= 0}.

Proof of Theorem 4.4.6


It is clear that

q
q (d+1)
(d+1)
  nhn
nhn φ̂n (t|x) − φ(t|x) = gn (x, t) − g̃n (x, t)]
[b
`n (x)
q
(d+1)
nhn
+ [g̃n (x, t) − IE(g̃n (x, t))]
`n (x)
q
(d+1)
nhn
+ [IE(g̃n (x, t)) − g(x, t)]
`n (x)
q
(d+1) g(x, t)
+ nhn [`(x) − `n (x)] . (4.24)
`n (x)`(x)
q
J1 (x, t) + J2 (x, t) + J3 (x, t) (d+1) g(x, t)
= + nhn [`n (x) − `(x)]
`n (x) `n (x)`(x)

Thus, The proof of Theorem 4.4.6 can be deduced directly from the following Lemmas

Lemma 4.4.7 Under Assumptions K1-K2,A1-A2,B1-B2, N1 we have


 1
D
[g̃n (x, t) − IE(g̃n (x, t))] −→ N 0, σ 02
2
nh(d+1)

n

Z Z
g(x, t)
where σ 02 (x, t) =θ Ki2 (z)L2i (y)dzdy
Ḡ(t) IRd IR

Proof. Let, for any i ≥ 1 ad (x, t) ∈ IRd × IR,

 1 n
X
2
nh(d+1)
n [g̃n (x, t) − IE(g̃n (x, t))] = Wi,n (x)
i=1

where
 1
(d+1) 2
nhn
δi Ḡ−1 (Yi )Ki (x)Li (t) − IE δi Ḡ−1 (Yi )Ki (x)Li (t)
 
Wi,n (x) =
nhd+1
i
On the strong iniform consistency of the conditional density for censored data
60 based on a recursive kernel

The proof of this lemma is based on the central limit theorem of Liebscher (2001)(Corollary
2.2, p. 196) which restes on the asymptotic behavior of the following quantity
n
X
lim IE[Wi,n (x)2 ] (4.25)
n→∞
i=1

and the additional assumptions

 √ −1
 T here exists a sequence τn = o( n) such that τn ≤ (maxi=1,...,n Ci )
where Ci = ess supω∈Ω |Wi,n (x)|, (4.26)
and τnn α(τn ) → 0 f or all > 0, .


 T here exist a sequence (mn ) of a positive integers tending to ∞ such that,

nm
 n γn = o(1)whereγ
 n := max1≤i6=j≤n (IE [Wi,n (x)Wj,n (x)]) , (4.27)
 P∞

α(j) Σ n C i = o(1) .
j=mn +1 i=1

We start by evaluating the limit of (4.25). To do that, let us remark that

n
hd+1
     
1 1 2 x − Xi 2 t − Yi
X
n
IE Wi,n (x)2
 
= IE K L IE (1I{T1 ≤ C 1 }/X ,
1 1T )
n
i=1 hi
2(d+1) Ḡ2 (T1 ) hi hi
n
hd+1
     
1 1 2 x − Xi 2 t − Yi
X
n 2
− IE K L IE (1I{T1 ≤ C1 }/X1 , T1 )
n
i=1 hi
2(d+1) Ḡ2 (T1 ) hi hi
n (d+1) Z
t−v 2
    
x−u
Z
1 X hn 1
= 2(d+1)
K L g(u, v)dudv
n Rd R Ḡ(v) hi hi
i=1 hi
n (d+1) Z Z      2
1 X hn x−u t−v
− 2(d+1)
K L g(u, v)dudv
n hi hi
i=1 hi Rd R
Z Z
g(x, t)
→∞ θ [K(s)L(r)]2 dsdr (4.28)
Ḡ(t) Rd R
It follows that
n Z Z
X g(x, t)
lim IE[Wi,n (x)2 ] = θ [K(s)L(r)]2 dsdr (4.29)
n→∞
i=1
Ḡ(t) Rd R
 
√ 1
Concerning (4.26), using the boundness K and L to show that Ci = O (d+1)
. There-
nhn
r
(d+1)
nhn
fore, we can take τn = log n .
Furthermore, this choice gives, for all  > 0
n  
α(τn ) ≤ C n1−(ν+1)/2 h−(d+1)(ν+1)/2
n (log n) (ν+1)/2
τn
 2

≤ C nd(ν+1)(3ν−ν )/2(ν−1) (log n)(ν+1)/2 → 0 since ν > 3
4.4 Auxilary results and proofs 61

Let us derive (4.27). For 1 ≤ i < j ≤ n we have


!2 Z
(d+1) 1/2        
x−u t−v x−s t−r
Z Z Z
(nhn )
IE [|Wi,n (x)Wj,n (x)|] = (d+1)
K L K L
nhi Rd R Rd R hi hi hi hi
Z      #
2
x−u t−v
Z
× g1,j−i+1 (u, v, s, r)dudvdsdr − K L g(u, v)dudv
Rd R hi hi
= (n−1 h(d+1)
n ) (4.30)

we have ∀i 6= j
γn = max (IE [|Wi,n (x)Wj,n (x)|]) = O(n−1 h(d+1)
n )
1≤i6=j≤n

On the other hand, using the fact that


X −1
j −ν = (ν − 1)xν−1


j≥x+1

to write
∞ ∞
mn1−ν
X X Z
α(j) ≤ α(j) ≤ t−ν dt =
t≥mn ν−1
j=mn +1 j=mn

thus,  

!
mn1−ν n
X r
 α(j) Σni=1 Ci = O (d+1)
ν−1 hn
j=mn +1
 1/2(1−ν) 
(d+1)
hn
choosing mn = n log n where [.] denote the function integer part. It is clear that,
under (N1). In addition, if we replace mn by its expression, we obtain
 
X∞  
 α(j) Σni=1 ci = O (log n)−1/2 = o(1)
j=mn +1

and under hypothesis (N1) we have

mn γn ≤ Cn−1−1/2(1−ν) h(d+1)(1+1/2(1−ν))
n (log n)−1/2(1−ν)
≤ Cn(2ν−3)/2(1−ν) h(d+1)(3−2ν)/2(1−ν)
n (log n)−1/2(1−ν)
= o(1)

Now, the lemma can be easily deduced from (4.25)-(4.27) and corollary 2.2 of Liebscher(2001).

Lemma 4.4.8 Under assumptions of Theorem 4.4.6, we have


q
(d+1)
nhn gn (x, t) − g̃n (x, t)] → 0 a.s. as
[b n→∞ (4.31)
On the strong iniform consistency of the conditional density for censored data
62 based on a recursive kernel

q
(d+1)
nhn [IE(g̃n (x, t)) − g(x, t)] → 0 as n→∞ (4.32)
q
(d+1)
nhn (`n (x) − `(x)) → 0 in probability as n→∞ (4.33)

Proof of 4.31 Similarly to the previous Lemma, we have


n
(d+1) supt≤τF Ḡn (t) − Ḡ(t)
q q  X
(d+1) 1
nhn gn (x, t) − g̃n (x, t)] ≤ nhn
[b (d+1)
Ki (x)Li (t)
Ḡn (τF )Ḡ(τF ) i=1 nhi

Now, as r !
log log n
sup |Ḡn (t) − Ḡ(t)| = Oa.s.
t≤τF n
then
(d+1) supt≤τF Ḡn (t) − Ḡ(t)
q   q 
(d+1)
nhn = Oa.s. log log nhn
Ḡn (τF )Ḡ(τF )
From N1 we obtain that

(d+1) supt≤τF Ḡn (t) − Ḡ(t)


q
nhn = oa.s. (1)
Ḡn (τF )Ḡ(τF )

The latter combined with the results of Lemma4.4.2 and 4.4.3 allows us to complete the
proof of this assertion.

Proof of 4.32 : It is shown in Lemma 4.4.2, that

[IE(g̃n (x, t)) − g(x, t)] = O(h2n ).

Thus, q q
(d+1)
nhn [IE(g̃n (x, t)) − g(x, t)] = O( nhd+5
n )

which goes to zero under Assumption N2


Proof of 4.33 : By Lemma 4.4.4, we have
q     q 
(d+1)
p d+5
nhn (`n (x) − `(x)) = Oa.s. O max hn log n , nhn . (4.34)

p
Now, Assumption N2 gives nhd+5 → 0 and moreover it implies that hn = o n−1/(d+5) .

n
So, q 
p
hn log n = o n −1/(d+5) log n = oa.s. (1)
Bibliographie

[1] Amiri, A. (2012). Recursive regression estimators with application to nonparametric


prediction, J. Nonparam. Statist, 24 (1), 169-186.
[2] Amiri, A. (2013). Asymptotic normality of recursive estimators under strong mixing
conditions, arXiv :1211.5767v2.
[3] Bradley, R., (2007). Introduction to Strong Mixing Conditions. Volume 1-3 : Kendrick
Press.
[4] Bollerslev, T., (1986). General autoregressive conditional heteroskedasticity, J. Eco-
nomt. 31 , 307-327.
[5] Cai, Z. (1998). Asymptotic properties of Kaplan-Meier estimator for censored dependent
data. Statist. Probab. Lett., 37 : 381-389.
[6] Cai, J. and Prentice, R. L., (1995). Estimating equations for hazard ratio parameters
based on correlated failure time data, Biometrika 82, 151-164.
[7] Carbon, M. and Tran, L. T. (1996). On histograms for linear processes, J. Statist.
Plann. Inference , 53 (3), 403-419.
[8] Carbonez, A., Györfi, L., Van der Meulen, E.C., (1995). Partitioning estimates of a
regression function under random censoring. Statistics Decisions, 13, 21-37.
[9] Chernoff, H., (1964). Estimation of the mode. Annals of the Institute of Statistical
Mathematics, 16, 31-41.
[10] Chow, Y.S., Teicher, H., (1997) Probability Theory. Independence, Interchangeability,
Martingales. New York : Springer.
[11] Dedecker, J. et Prieur, C. (2005). New dependence coefficient. Examples and Applica-
tions to statistics. Probab. Theory Related Fields. 132 : 203-236. 42.
[12] Deheuvels, P., Einmahl, J.H.J., (2000). Functional limit laws for the increments of
Kaplan- Meier product-limit processes and applications. The Annals of Probability, 28,
1301-1335.
[13] Dudley, R.M., (1999). Uniform Central Limit Theorems. Cambridge, UK : Cambridge
University Press.
[14] Engle, R.F., (1982). Autoregressive conditional heteroscedasticity with estimates of the
variance of united Kingdom inflation. Econometrics, 50, 4, 987- 1007.
64 BIBLIOGRAPHIE

[15] Fan, J. et Yim, T. H., (2004). A crossvalidation method for estimating conditional
densities. Biometrika, 91(4) :819-834.
882.
[16] Giné, E., Guillou, A., (2001). On consistency of kernel density estimators for randomly
censored data : rates holding uniformly over adaptive intervals. Annales de l’Institut
Henri Poincaré, 37, 503-522.
[17] Giné, E., Guillou, A., (2002). Rates of strong uniform consistency for multivariate kernel
density estimators. Annales de l’Institut Henri Poincaré, 38, 907-921.
[18] Gooijer, J.G. and Zerom, D., (2003). On conditional density dstimation, Stat. Neerl.
57 159-176.
[19] Hall,P. Racine,J. Li,Q. (2004). Cross-validation and the estimation of conditional pro-
bability densities, J. Amer. Statist. Assoc. 99 (468) 1015-1026.
[20] Hyndman, R. and Yao, Q. (2002). Nonparametric estimation and symmetry tests for
conditional density functions. J. Nonparametr. Stat., 14, Pages 259-278.
[21] Jones, D.A. (1978). Nonlinear autoregressive processes. Proc. Roy. Soc. London A., 360,
7-95.
[22] Kaplan, E.M., Meier, P., (1958). Nonparametric estimation from incomplete observa-
tions. Journal of the American Statistical Association, 53, 457-481.
[23] Khardani, S. ; Lemdani, M. and Ould Saïd, E. (2010) Some asymptotic properties for a
smooth kernel estimator of the conditional mode under random censorship. J. Korean
Statist. Soc. 39 , 455-469.
[24] Khardani, S. ; Lemdani, M. and Ould Saïd, E. (2011) Uniform rate of strong consistency
for a smooth kernel estimator of the conditional mode for censored time series. J. Statist.
Plann. Inference 141 , 3426-3436
[25] Khardani, S. ; Lemdani, M. and Ould Saïd, E. (2012) On the strong uniform consistency
of the mode estimator for censored time series. Metrika 75, 229-241.
[26] Kohler, M., Máthé, K., Pinter, M. (2002). Prediction from randomly Right Censored
Data, J. Multivariate Anal, (80), 73-100.
[27] Konakov, V.D., (1974). On the asymptotic normality of the mode of multidimensional
distributions. Theory of Probability and its Applications, 19, 794-799.
[28] Liebscher, E., (2001). Estimation of the density and the regression function under
mixing condition. Statist. Decisions, 19 : 9-26.
[29] Lipsitz, SR, Ibrahim, JG, 2000. Estimation with Correlated Censored Survival Data
with Missing Covariates. Biostatistics, 1, 315-327.
[30] Loève, M., (1963). Probability Theory, New York : Springer-Verlag.
[31] Louani, D., (1998). On the asymptotic normality of the kernel estimators of the function
and its derivatives under censoring. Communications in Statistics. Theory and Methods,
27, 2909-2924.
BIBLIOGRAPHIE 65

[32] Louani, D., Ould Said, E., (1999). Asymptotic normality of kernel estimators of the
conditional mode under strong mixing hypothesis. Journal of Nonparametric Statistics,
11, 413-442.
[33] Mehra, K.L., Ramakrishnaiah, Y.S., Sashikala, P., (2000). Laws of iterated logarithm
and related asymptotics for estimators of conditional density and mode. Annals of the
Institute of Statistical Mathematics, 52, 630-645.
[34] Nadaraya, E.N., (1965). On nonparametric estimates of density functions and regression
curves. Theory of Probability and its Applications, 10, 186-190.
[35] Ould Said, E., (1993). Estimation non paramétrique du mode conditionnel. Application
à la prévision. Comptes Rendus de l’Académie des Sciences, Paris, Série I, tome 316,
943-947.
[36] Ould Said, E., Cai, Z., (2005). Strong uniform consistency of nonparametric estimation
of the censored conditional mode function. Journal of Nonparametric Statistics, 17,
797-806.
[37] Ozaki,T. 1979.Nonlinear time series models for nonlinear random vibrations, Technical
report, Univ. of Manchester.
[38] Polonik, W. Yao, Q. (2000). Conditional minimum volume predictive regions for sto-
chastic processes, J. Amer. Statist. Assoc. 95 509-519.
[39] Rio, E., 2000. Théorie asymptotique des processus aléatoires faiblement dépendants.
Mathématiques et applications, 31 Springer-Verlag, New York.
[40] Samanta, M., (1973). Nonparametric estimation of the mode of a multivariate density.
South African Statistical Journal, 7, 109-117.
[41] Samanta, M., Thavaneswaran, A., (1990). Nonparametric estimation of the conditional
mode. Communications in Statistics. Theory and Methods, 16, 4515-4524.
[42] Silverman, B.W., (1986). Estimation for statistics and data analysis, Monographs on
Statistics and Applied Probability, London : Chapman and Hall.
[43] Talagrand, M., (1996). New concentration inequalities in product spaces. Invent. Math.,
126, 505-563.
[44] Tjøstheim, D., (1994). Non-linear time series : a selective review, Scand. J. Statist. 21
97-130.
[45] Van der Vaart, A.W., Wellner, J.A., (1996). Weak Convergence and Empirical Pro-
cesses, Berlin : Springer.
[46] Van Ryzin, J., (1969). On strong consistency of density estimates. The Annals of Ma-
thematical Statistics, 40, 1765-1772.
[47] Vieu, P., (1996). A note on density mode function. Statistics and Probability Letters,
26, 297- 307.
[48] Wei, L. J., Lin, D. Y., Weissfeld, L., (1989). Regression analysis of multivariate incom-
plete failure time data by modeling marginal distributions. Journal of the American
Statistical Association, 84, 1065-1073.
66 BIBLIOGRAPHIE
Chapitre 5

Conclusion et perspective

5.1 Conclusion
Dans cette contribution, nous avons abordé une approche qui est fondée sur l’estimation ré-
cursive de la fonction de densitée conditionnelle, nous avons travailé sur des données censu-
rées. Deux cas ont été étudié, le premier s’agit des variables indépendantes et identiquement
distribuées tandis que le deuxième cas s’agit des variables α mélangentes.

Dans la première partie, nous avons construit pour ce modèle de censure un estimateur ré-
cursif de la densté conditionnelle. Ensuite nous avons prouvé sa convergence uniforme presue
sûre, sur un compact avec taux de convegence et nous avons établit la normalité asympto-
tique.

Dans la deuxième partie, nous avons considéré les même estimateurs récursives définit dans
le premier cas l’orsque les données présentent une forme de dépendance nous avons traité
le cas de l’α- mélange. De plus notre estimateur qu’on a donné est utilisable pour d’autre
modèle nom paramétrique. Nous illustrons les résultats obtenu par des simulations et appli-
cations réelle.

Nos résultats obtenus ont permis de confirmer que les estimateurs récursifs sont statistique-
ment meilleurs que leurs versions non récursives, au regard du gain de temps calcul réalisé,
les noyaux récursifs présentent un avantage décisif.

En conclusion, la récursivité améliore l’estimateur à noyau habituel au sens de la variance.


Ainsi, l’augmentation du biais apporté par la récursivité n’est pas compensée par la di-
minution de la variance et se traduit par une légère détérioration de l’EQM. Toutefois les
estimateurs récursifs atteignent bien les vitesses optimales et conservent un avantage décisif
en terme de rapidité de calcul.

Nous pensons par le travail présenté dans cette thèse avoir donné un outil statistique pouvant
s’appliquer à un grand nombre d’étude pratique.
68 Conclusion et perspective

5.2 Perspective
Pour conclure les travaux de cette thèse, nous exposons dans ce qui suit, quelques dévelop-
pements futurs possibles en vue d’améliorer et d’étendre nos résultats.
Cas des données fonctionnelles :
La littérature sur les données censurées est trés riche mais reste encore d’actualité notam-
ment en ce qui concerne l’estimation des paramétres fonctionnels présents dans ce modèle,
Pour cela nous pensons qu’il est possible d’adapter nos résultats sur la densité conditionnel
dans le cas ou la variable explicative est fonctionnelle.

L’estimation récursive de la densitée conditionnelle au cas spatialé :


Dans notre travail on a confirmé l’éfficacité des méthodes récursives. La généralisaton de nos
résutats au cadre spatial est une suite logique à suivre,nos données peuvent être étendus à
des données spatiales. Nous pensons que cette génération peut être facilement atteinte par
l’adaptation des résultats de Rachdi et Niang et Yao (2011), Laksaci et Mechab (2014).

Choix du paramétre de lissage :


Pour évaluer l’optimalité de la vitesse de convergence nous nous sommes basés sur le critère
de la convergence uniforme presqque sûre, établit dans le cas i.i.d par Stute (1982). Il serait
intéréssant de regarder si de tels résultat demeurent vrais pour des données tronqué.
Chapitre 6

Annexe : Quelques outils de


probabilités

6.1 Notations et définitions


Dans ce chapitre, nous allons ouvrir une parenthèse assez rapide pour rappeler quelques
définitions et théorèmes utilisés le long de cette thèse.

6.1.1 Convergence en probabilité


Definition 6.1.1 Soit (X, Xn ), n ≥ 1 une suite de variables aléatoires réelles, définies sur
le même espace de probabilité (Ω, F, IP). La suite (Xn ) converge en probabilità c vers X si :
∀ > 0, lim IP(|Xn − X| ≥ ) = 0
n→∞

6.1.2 Limite d’un produit


Proposition 6.1.1 SoientXn , Yn deux suites de variables aléatoires réelle. Si Xn −→ X,
Yn −→ Y en probabilité, alors Xn Yn −→ XY en probabilité.

Soit X, (Xn , n ≥ 1) une suite de variables aléatoires à valeurs dans espace métrique (E, d).
Definition 6.1.2 La suite Xn −→ X en probabilité si
∀ > 0, lim IP(d(Xn , X) ≥ ) = 0
n→∞

6.2 Convergence presque sûre


Definition 6.2.1 La suite (Xn ) converge presque sûrement (p.s) vers X, si

w : limn→∞ Xn(w)=(w)
a une probabilité 1.
70 Annexe : Quelques outils de probabilités

6.3 Théorème de la limite centrale


Théoreme 6.3.1 Soit (Xn ) un échantillon iid d’une loi de moyenne m et de variance σ 2 .
La convergence suivante a lieu en loi, lorsque n → ∞

√ X̄ − m Sn − nm L
Rn := n = √ → N (0, 1)
σ σ n

Théorème de limite centrale de Loève :

Théoreme 6.3.2 Soit (X Pnn)n∈ZZ une suite de variables aléatoires indépendantes de même
loi centrée. Notons Sn = k=1 Xk la somme partielle et sn = σ(Sn ) son écart-type
1 Pn 2+δ −→ 0 pour δ > O, alors
 
1. Si 2+δ
sn k=1 IE |Xk |

Sn L
→ N (0, 1)
sn
où L désigne la convergence en loi, et N (0, 1)) est la loi gaussienne centrée réduite

Théorème central limite de Doukhan et al. (1994) :

Soit (Xn )n∈ZZ une suite stationnaire et fortement mélangeante de variables aléatoires réelles
centrées, de suite de coefficients de mélange (αn )n≥0 . Notons QXPla fonction quantile de la
variable X définie par Qx (u) = inf{t : IP(|X| > t) ≤ u}, et Sn = ni=1 Xi la somme partielle

Théoreme 6.3.3 Soit (Xn )n∈ZZ une suite stationnaire de variables aléatoires centrées véri-
fiant :
Z 1
α−1 (u)(QX0 (u))2 < +∞
0

alors, la série n∈ZZ IE [X0 Xn ] converge vers σ 2 ≥ 0 et n−1 var(Sn ) converge aussi vers σ 2 .
P
Sn
De plus, si σ 2 > 0, alors √ n
converge vers une loi normale centrée de variance σ 2 .

Théorème central limite de Liebscher (2001) :

Pn (Yn,i ; i = 1, · · · , n) une suite de variables aléatoires centrées, α-mélangeantes, et Tn =


Soit
i=1 Yn,i
Notons  2
Γn := max IE Yn,i
i=1,··· ,n

γn := max (IE [|Yn,j Yn,k |] + IE [|Yn,j |] IE [|Yn,k |])


j,k1≤j,k≤n,j6=k

Condition C(p) : Supposons, 2 < p < ∞ : Γn = O(n−1 ), ∞ 2/(p−2) α(k) < ∞, et


P
k=1 k
1/p
IE [|Yn,i |p ] < ∞ (i = 1, · · · , n, n ∈ IN) . Il existe une suite de nombres réels positifs mn
qui tend vers ∞ tel que :
nmn γn = o(1),
6.4 Inégalités exponentielles 71

et !1−2/p

X n
X
2/(p−2)
j α(j) (IE [|Yn,i |p ])2/p = o(1)
mn +1 i=1

Théoreme 6.3.4 Supposons que la condition C(p) est vérifiée pour quelques p > 2, suppo-

sons aussi qu’il existe une suite de nombres réels positifs τn , tel que τn = o( n), tel que
n
X
IE |Yn,i |2 1I(|Yn,i | > τn−1 ) = o(1)
 

i=1

et
n
τn ) −→ 0, ∀¯
α(¯ 
τn
De plus, supposons que
n
X
IE |Yn,i |2 = σ 2 > 0
 
lim
n→∞
i=1
alors
D
Tn −→ N (0, σ 2 ), lorsque n −→ ∞

6.4 Inégalités exponentielles


Lemme 6.4.1 (Rio 2000, p. 87)
Soit {Ui , i ∈ IN} une suite de variables aléatoires réelles centrées et de coefficient de mélange
fort α(n) = O(n−ν ), ν > 1, et ∀n ∈ IN, 1 ≤ i ≤ n |Ui | < +∞. Alors pour tout r > 1 :
( n ) −r/2  ν+1
2

X 2r
IP Ui >  ≤ C 1 + 2 + nCr−1
rSn 
i=1

avec Sn2 =
P
1≤i,j≤n |cov(Ui , Uj )|.

Lemme 6.4.2 (Borel-Cantelli)

1. Soit An une suite d’événements


Si

X
IP(An ) < +∞,
n=1
alors IP(lim sup An ) = 0.
2. On suppose maintenant que les événements (An ) sont indépendants. Si

X
IP(An ) = +∞,
n=1

alors IP(lim sup An ) = 1.


72 Annexe : Quelques outils de probabilités

Inégalité Cr

IE [|X + Y |r ] ≤ cr IE [|X|r ] + cr IE [|Y |r ]


où Cr = 1(resp.2r−1 ) selon que r ≤ 1(resp.r ≥ 1)

Remarque 6.4.1 La convergence presque sûre entraîne la convergence en probabilité.

6.5 Loi forte des grands nombres


Théoreme 6.5.1 (loi forte des grands nombres)
Soit X, Xn une suite de variables aléatoires indépendantes et de même loi. Alors X̄ converge
p.s. si et seulement si IE [|X|] < +∞
Bibliographie

[1] Ahmad, I., Lin, P.E. (1976). Nonparametric sequential estimation of a multiple regres-
sion Function, Bull. Math. Statist., 17, 63–75.
[2] Amiri, A. (2009). Sur une famille paramétrique d’estimateurs séquentiels de la densité
pour un processus fortemement mélangeant, C. R. Acad. Sci. Paris, Ser, I 347, 309–314.
[3] Amiri, A. (2012). Recursive regression estimators with application to nonparametric
prediction, J. Nonparam. Statist, 24 (1), 169–186.
[4] Amiri, A. (2013). Asymptotic normality of recursive estimators under strong mixing
conditions, arXiv :1211.5767v2.
[5] Andersen, P. et Gill, R. (1982). Cox’s regression model for counting processes : a large
sample study. Ann. Statist., 10 : 1100-1120.
[6] Beran, R. (1981). Nonparametric regression with randomly censored survival data,
Technical university of Clifornia, Berkeley.
[7] Bosq, D. (1989). Proprietes des operateurs de covariance empiriques d’un processus
stationnaire hilbertien. C. R. Acad. Sci. Paris Ser. I Math. 309, No.14, 873-875.
[8] Bosq, D. (1990). Modele autoregressif hilbertien. Application a la prevision du compor-
tement d’un processus a temps continu sur un intervalle de temps donne. C. R. Acad.
Sci. Paris Ser. I Math. 310, No.11, 787-790.
[9] Bosq, D. (2000). Linear processs in function spaces. Theory and Application. Lectures
Notes in Statistics. Vol 149, Springer Verlag.
[10] Bosq, D., Delecroix, M. (1985). Nonparametric prediction of a Hilbertspace valued
random variable. Stochastic Process. Appl. 19, 271-280.
[11] Breslow, N. et Crowley, J. (1974). A large sample study of the life table and product-
limit estimates under random censorship. Ann. Statist., 2 : 437-453.
[12] Carroll, J. (1976). On sequential density estimation, Z. Wahrscheinlichkeits- theorie und
Verw. Gebiete , 36, 137–151.
[13] Carbonez, A., Györfi, L., Vander Meulin EC . (1995). Partitioning estimates of a re-
gression function under random censoring, Statist. & Decisions , 13, 21–37.
[14] Collomb, G. (1984). Proprietes de convergence presque complete du predicteur a noyau.
Z. W. Gebiete. 66, 441-460.
[15] Collomb, G. (1985). Nonparametric regression : an up to date bibliography Statistics.
16, 309-324.
74 BIBLIOGRAPHIE

[16] Dabo-Niang, S., Rhomari, N. (2003). Estimation non parametrique de la regression avec
variable explicative dans un espace metrique. C. R., Math., Acad. Sci. Paris. 336, 75-80.
[17] Dabrowska, D.M. (1987). Nonparametric regression with censored survival time data,
Scandi. J. Statist, 14, 181–197.
[18] Dabrowska, D.M. (1989). Uniform consistency of the kernel conditional Kaplan Meier
estimate, Ann. Statist, 17, 1157–1167.
[19] Davies, I. (1973). Strong consistency of a sequential estimator of a probability density
function, Bull. Math. Statist, 15, 49–54.
[20] Deheuvels, P. (1973). Sur l’Estimation séquentielle de la densité,C. R. Acad. Sci., Paris,
Ser. A, 276, 1119-1121.
[21] Deheuvels, P. (1974). Conditions nécessaires et suffisantes de convergence ponctuelle
presque sûre et uniforme presque sûre des estimateurs de la densité, C. R. Acad. Sci.,
Paris, 278, 1217-1220.
[22] Deheuvels, P., Einmahl, JHJ. (2000). Functional limit laws for the increments of Kaplan-
Meier product-limit processes and applications, Ann Proba, 28, 1301–1335.
[23] Devroye, L., Wagner, T.J. (1980). On the L1 convergence of kernel estimators of re-
gression functions with application in discrimination. Z. Wahrschein. Verw. Get, 51,
15-25.
[24] Doob, J. (1953). Stochastic process, Wiley New York.
[25] M. Ezzahrioui, E. Ould-Saïd. (2006). On the asymptotic properties of a nonparametric
estimator of the conditional mode for functional dependent data. Under revision in
Statistica Neerlandika.
[26] M. Ezzahrioui, E. Ould-Saïd. (2008a). Asymptotic normality of the kernel estimators
of the conditional mode for functional data. J. Nonparametric Statist., 20, 3-18.
[27] M. Ezzahrioui, E. Ould-Saïd. (2008b). Asymptotic normality of the kernel estimators
of the conditional quantile in the normed space. Far East J. Theoretical Statist., 25,
15-38.
[28] M. Ezzahrioui, E. Ould-Saïd. (2008c). Asymptotic results of the kernel estimator of
the conditional quantile in the normed space under -mixing hypothesis. Comm. Statist.
Theory and Methods 37, 2735-2759.
[29] Ferraty, F. (2010). Special issue on statistical methods and problems in infinite dimen-
sional spaces. J. Multivariate Analysis. 101(2), 305-490. 317-344.
[30] Ferraty, F. Laksaci, A., Vieu, P. (2005). Functional time series pre- diction via condi-
tional mode estimation. C. R. Math. Acad. Sci. Paris. 340, 389-392.
[31] Ferraty, F. Laksaci, A., Vieu, P. (2006). Estimation of some characteristics of the condi-
tional distribution in nonparametric functional models. Statistical Inference for Stochas-
tic Processes. 9, 47-76.
[32] Ferraty, F., Van Keilegom, I., Vieu, P. (2009). On the validity of the bootstrap in
nonparametric functional regression. Scand. J. Stat. (In press).
BIBLIOGRAPHIE 75

[33] Ferraty, F., Vieu, P. (2000). Dimension fractale et estimation de la regression dans des
espaces vectoriels semi-normes. C. R. Acad. Sci., Paris. 330, No.2, 139-142.
[34] Ferraty, F., Vieu, P. (2011). Kernel regression estimation for functional data. In the
Oxford Handbook of Functional Data Analysis (Ed. F. Ferraty and Y. Romain). Oxford
University Press.
[35] Gannoun, A., Saracco, J., Yu, K. (2003), Nonparametric prediction by conditional me-
dian and quantiles. J. Stat. Plann. Inference. 117, No.2, 207-223.
[36] Hoeffding, W. (1963). Probability inequalities for sums of bounded random variables,
J. Amer. Statist. Assoc., 58, 13-30.
[37] Isogai, E. (1984). Joint asymptotic normality of nonparametric recursive density esti-
mators at a finite number of distinct points,J. Japan Statist. Soc., 14 (2), 125-
[38] Khardani, S., Lemdani, M., Ould Saïd, E. (2010). Some asymptotic properties for a
smooth kernel estimator of the conditional mode under random censorship, J. of the
Korean Statistical Society, 39, 455–469.
[39] Khardani, S., Lemdani, M., Ould Saïd, E. (2011). Uniform rate of strong consistency
for a smooth kernel estimator of the conditional mode for censored time series, J. Stat.
Plann. Inference, 141, 3426–3436.
[40] Kohler, M., Máthé, K., Pinter, M. (2002). Prediction from randomly Right Censored
Data, J. Multivariate Anal, (80), 73–100.
[41] Krzÿzak, A. (1992). Global convergence of the recursive kernel regression estimates with
applications in classification and nonlinear system estimation , IEEE Trans. Inform.
Theory, 38, 1323–1338.
[42] Laksaci, A. (2005). Contribution aux modèles non paramétriques conditionnels pour
variables explicatives fonctionnels. Thèse de doctorat, université de Toulouse.
[43] Laksaci, A. (2007). Convergence en moyenne quadratique de l’estimateur a noyau de la
densite conditionnelle avec variable explicative fonctionnelle. Ann. I.S.U.P. 51, 69-80.
[44] Laksaci, M. and Maref, F. (2009). Conditional cumulative distribution estimation and
its applications
[45] Laksaci, A., Madani, F., Rachdi, M. (2010). Kernel conditional density estimation when
the regressor is valued in a semi metric space. International Statistical Review. (In
press).
Journal of probability and statistical sciences, 13, Pages 47-56.
[46] Lecoutre, J. P., Ould-Said, E. (1993). Estimation de la fonction de hasard pour un
processus fortement melangeant avec censure. Publ. Inst. Statist. Univ. Paris. 37, No.1-
2, 59-69.
[47] Liang, H.Y. and Baek, J. (2004). Asymptotic normality of recursive density estimates
under some dependence assumptions, Metrika 60, 155-166.
[48] Loannides, D., Matzner-Lober, E. (2004). A note on asymptotic normality of convergent
estimates of the conditional mode with errors-in-variables. J. Nonparametr. Stat. 16,
515-524.
76 BIBLIOGRAPHIE

[49] Loeve, M. (1963). Probability Theory. Third Edition. Van Nostranr Princeton.
[50] Louani, D., Ould-Said, E. (1999). Asymptotic normality of kernel estimators of the
conditional mode under strong mixing hypothesis. J. Nonparametric Statist. 11, No.4,
413-442.
[51] Lynden-Bell, D. (1971). A method of allowing for known observational selection in small
samples applied to 3CR quasars. Monthly Notices Roy. Astronom Soc., 155, 95118.
[52] Masry, E. (1986). Recursive probability density estimation for weakly dependent sta-
tionary processes, IEEE Trans. Inform. Theory, 32, 254-267,
[53] Masry, E. (1987). Almost sure convergence of recursive density estimators for stationary
mixing processes, Statist. Probab. Lett., 5, 249-254.
[54] Masry, E. and Györfi, L. (1987). Strong consistency and rates for recursive probability
density estimators of stationary processes, J. Multivariate Anal., 22, 79- 93.
[55] Masry, E. and Fan,J., (1997). Local polynomial estimation of recursive function for
mixing processes, Scandinave Journal of S ta tistics, 24, 165–179.
[56] Mokkadem, A., Pelletier, M., Thiam, B. (2006) Large and moderate deviations prin-
ciples for recursive kernel estimator of a multivariate density and its partial derivatives.
Serdica Math. J. 32 , Pages 323–354.
[57] Nadaraya, E. (1964). On estimating regression. Theory Prob. Appl. 10, 186-196.
[58] Nguyen, T., Saracco, J. (2010). Estimation récursive en régression inverse par tranches,
Journal de la société française de statistique, 151(2), 19–46.
[59] Ould-Said, E. (1997). A note on ergodic processes prediction via estimation of the
conditional mode function. Scand. J. Statist. 24, 231-239.
[60] Ould-Said, E., Cai Z. (2005). Strong uniform consistency of nonparametric estimation
of the censored conditional mode function. Nonparametric Statistics, 17, 797-806.
[61] Ould-Said, E., Tatachak, A. (2009a). On the nonparametric estimation of the simple
mode under random left-truncation model. Romanian Journal of Pure and Applied
Mathematics, 54, 243-266.
[62] Ould-Said, E., Tatachak, A. (2009b). Strong consistency rate for the kernel mode under
strong mixing hypothesis and left truncation. J. Comm. Statist. Theory Me- thods, 38,
1154-1169.
[63] Quintela-del-Rio, A., Vieu, P. (1997). A nonparametric conditional mode estimate. J.
Nonparametr. Statist. 8, No.3, 253-266.
2801.
[64] Rhomari, N. (2002). Approximation et inegalites exponentielles pour les sommes de
vecteurs aleatoires dependants. C. R. Acad. Sci. Paris. 334, 149-
[65] Rio, E. (2000). Théorie asymptotique des processus aléaltoires faiblement dépendants,
vol 31 Mathematics and applications Springer-Verlag, Berlin.
[66] Rosenblatt, M. (1969). Conditional probability density and regression estimators. In
Multivariate Analysis II, Ed. P.R. Krishnaiah. Academic Press, New York and London.
BIBLIOGRAPHIE 77

[67] Roussas, G. G. (1968). On some properties of nonparametric estimates of probability


density functions. Bull. Soc. Math. Greece (N.S.) 9 29-43.
[68] Roussas, G.G. (1990). Nonparametric regression estimation under mixing conditions,
Stochastic Process. Appl, 36 (1), 107–116.
[69] Roussas, G. G. (1991). Kernel estimates under association : strong uniform consistency.
Statist. Probab. Lett. 12, No.5, 393-403.
[70] Roussas, G.G. and Tran, L.T. (1992). Asymptotic normality of the recursive kernel
regression estimate under dependence conditions, Annals of Statist. 20 (1), 98-120.
[71] Roussas, G.G. (1992). Ecxact rates of almost sure convergence of a recursive kernel
estimate of a probability density function : Application to regression and hazard rate
estimation, J. Nonparametr. Stat. 1, 171-195.
[72] Samanta, M. (1989). Non-parametric estimation of conditional quantiles. Stat. Probab
. Lett. 7, No.5, 407-412.
[73] Sarda, P., Vieu, P. (2000). Kernel regression. In : M. Schimek (ed.) Smoothing and
regression ; Approaches, Computation, and Application. Wiley Series in Pprobability
and Statistics, Wiley, New York.
[74] Schwartz, S.C. (1967). Estimation of a probability density by an orthogonal series, Ann.
Math. Statist. 38, 1261-1265.
[75] Shorack, G.R. and Wellner, J.A. (1986). Empirical processes with applications to sta-
tistics. Wiley, New-York.
[76] Takahata, H. (1980). Almost sure convergence of density estimators for weakly de-
pendent stationary processes, Bull. Tokyo Gakugei Univ. Nat. Sci. Ser. IV, 11-32.
[77] Tran, L.T (1989). Recursive density estimation under dependence. IEEE Trans. In-
form. Theory 35 (5), 1103-1008.
[78] Vieu, P. (1991). Quadratic errors for nonparametric estimates under dependence. J.
Multivariate Anal. 39 (2), 324-347. Watson, G. S. (1964). Smooth regression analysis.
Sankhya Ser. A. 26, 359-372.
[79] Walk, H. (2001). Strong universal pointwise consistency of recursive regression esti-
mates, Ann. Inst. Statist. Math., 53 (4), 691–707.
[80] Wegman, E.J. and Davies, H. I. (1979), Remarks on some recursive estimators of a
probability density. Ann. Statist. 7, Pages 316-327.
[81] Wertz, W. (1985), Sequential and recursive estimators of the probability density. Sta-
tistics 16, Pages 277-295.
[82] Wolverton, C.T. and Wagner, T.J. (1969), Asymptotically optimal discriminant func-
tions for pattern classification. IEEE Trans. Inform. Theory 15, Pages 258-265.
[83] Yamato, H. (1971), Sequential estimation of a continuous probability density function
and mode. Bull. Math. Satist. 14, Pages 1-12.

Vous aimerez peut-être aussi