Mémoire de Master
Mémoire de Master
Mémoire de Master
Filière : Mathématiques
Spécialité : Recherche Opérationnelle
Thème
Sur les modéles d’analyse de la survie dans le cadre
paramétriques
Présenté par :
— Rouam Hayet
— Bellatrache Djahida
2018/2019
Dédicaces
Hayet
Je dédie ce travail à :
A ceux qui m’ont tout donnée sans rien en retour A ceux qui m’ont encouragée et soutenue dans les
moments les plus diffciles A vous mes chers parents Le plus beau cadeau que Dieu puissent faire à
un enfant, pour leur amour et leur support continu. Que ce travail soit le temoignagée sincére et
affectueux de ma profonde reconnaissance pour tout ce que vous avez fait pour moi.
A mes chéres fréres et à mes chéres Soeurs
A Les deux familles :Bellatrache et Rouam .
J’adresse aussi mes dédicaces à mes amies avec qui j’ai passée des moments agréables.
Djahida
Résumé
On s’interesse ici à la construction des nouveaux modéles d’analyse de la survie basée sur deux
distributions continues et à étudié certaines propriétées statistique de ces modéles proposé, et
on s’interesse aussi à leur application et à l’estimation de ses paramétres en utilisant la méthode
du maximum de vraissemblance.
Abstract
We are interested here by the construction of two models of survival analysis based on two
continuous distribution and studied some statistical properties of the proposed models ,and we
also interested by the application of these models and by the maximum likelihood estimates of
parameters.
REMERCIEMENTS
Introduction générale 3
1
2.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Cas particulier . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.4 cas générale : . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Conclusion générale 48
Bibliographie 49
Introduction générale
3
d’une maladie et la guérison, durée séparant deux naissances
_ Économie, assurance : durée d’un épisode de chômage, durée de vie d’une entre-
prise, durée séparant deux sinistres, instant d’un défaut de paiement, durée avant
la ruine
_ Dans tous les domaines oú l’on cherche à mesurer l’instant d’arrivée d’un évé-
nement aléatoire (panne, mort, maladie, chômage,)
Le domaine d’application de ces modèles est donc large.
L’analyse des données de survie a pour première particularité de ne concerner que
des variables aléatoires positives (modélisant les durées de vie). Une conséquence
de cette particularité est que la loi normale ne sera plus ici la référence en matière
de distribution. Le plus souvent, toute autre loi issue de la famille exponentielle,
et à support dans R+ , lui sera préférée.
Dans ce travail,nous allons nous intéresser à la construction de nouveaux modèles
pour l’analyse des données de survie dans un cadre paramétrique en faisant appel
à un degré de sophistication supérieur à la simple modélisation d’un échantillon I
ID de loi paramétrique fixé à priori .
la premier modèle est basé sur un mélange proportionnel de lois de probabilité
,qu’on le définit par la formule :
4
5
Chapitre 1
1.1 Introduction
l’objectif de ce chapitre est de fixer le cadre Générale de ce travail et d’introduire
certaines notions et concepts élémentaires nécessaires et connus dans la littérature
F (T ) = P (T ≤ t).
Cette fonction est croissante sur R ,continue à droite. Elle varie de 0 à 1, autre-
ment dit :
6
lim F (t) = 0, lim F (t) = 1
t−→−∞ t−→+∞
Si la v.a est discrète, il s’agit d’une fonction en escaliers. Soit pi la probabilité que
T prenne la valeur ti .
Appliquons la propriété des probabilités totales :
X
F (t) = Pi
ti ≤t
F (t) = P (T ≤ t)
7
φx (t) = E(exp itx)
en pratique,suivant le cas, la formule est différent :
S(t) = P (t < T )
8
probabilité.
S(0) = 1 et limt−→+∞ S(t) = 0
Remarquons que :
S(t) = P (T ≥ t) = 1 − P (T ≤ t) = 1 − F (t)
— En cloche
9
— En forme de baignoire
Moment ordinaire
Moment centré
1.3 Estimation
Un estimateur du paramètre inconnu θ d’un modèle ou loi de probabilité est une
fonction qui fait correspondre à une suite d’observations t1 .....tn issues du modèle
10
ou de la loi de probabilité, la valeur θ que l’on nomme estimateur ou estimation
θ̂ = f (t1 .....tn )
Fonction de vraisemblance
11
ou arg max désigne l’argument du maximum qui est l’ensemble des points en
lesquels une expression atteint sa valeur maximale.
Puisqu’il dépend de (t1 , ..., tn ), θ∗ est une estimation ponctuelle de θ
Fonction de Log-vraisemblance
Équation de vraisemblance
Pour envisager d’avoir une expression analytique de l’emv θ∗ de θ pour (t1 , ..., tn )
une idée est d’exprimer Ln (t1 , ..., tn , θ) en fonction de produits de termes exponen-
tiels/puissances, puis de considérer la fonction de log-vraisemblance ln Ln (t1 , ..., tn , θ)
Si cette derniére est dérivable en θ, une condition nécessaire que doit vérifier θ∗
est d’être solution de l’équation de vraisemblance. Il faut ensuite vérifier que θ∗
est bien un maximum pour Ln (t1 , ..., tn , θ)
12
1.4.1 La loi exponentielle
[5] La spécification la plus simple consiste à poser h(t) = λ, avec λ > 0. On en
déduit immédiatement que :
S(t) = exp(−λt)
Le modèle exponentiel est caractérisé par le fait que les fonctions de survie
conditionnellesSu , u > 0 sont exponentielles de même paramètre λ > 0. Cela si-
gnifie que le comportement de la variable aléatoire T après l’instant u ne dépend
pas de ce qui est survenu jusqu’en u. Il est également caractérisé par le fait que la
fonction de survie est multiplicative, au sens oú :
S(u + t) = S(u)S(t)
.
13
la densité de T est alors :[2, 6]
1 1 1 log t − µ 2
f (t) = √ exp(− ( ))
σ 2π t 2 σ
Où µ est le paramètre d’échelle et σ est le paramètre de forme.
T admet alors une espérance mathématique et une variance sont :
σ2
E(T ) = exp(µ + )
2
et
V (T ) = exp(2µ + σ 2 )[exp(σ 2 ) − 1]
E(T ) = α
β 2π2
V (T ) =
3
1.5 conclusion
nous avons présenté dans ce chapitres des généralités et les différents modèles
paramétriques de l’analyse de survie,dans le chapitre suivant nous allons intro-
duire l’alternative de Lehman et les deux modèles d’analyse de la survie que nous
proposons.
14
Chapitre 2
f˜(t)
h̃(t) = (2.5)
1 − F̃ (t)
15
α[F (t)]α−1 f (t)
h̃(t) = (2.6)
1 − [F (t)]α
h̃(t) = αh(t)g(t) (2.7)
[F (t)]α−1 − [F (t)]α
avec :g(t) =
1 − [F (t)]α
Le modèle de Weibull
Loi modélisant un système série[2, 5] (le système est défaillant dès lors qu’un
de ses composants l’est), dans ses trois phases de
vie
k t t
f (t) = ( )k−1 exp(− )k
λ λ λ
t k
F (t) = 1 − exp(− )
T ∼ W (k, λ), k(f orme) > 0,λ(échelle) > 0 ↔ λ
k t k−1
h(t) = ( )
λ λ
1
E(T ) = λΓ(1 + )
k
•0<k<1↔F DFR lim h(t) = +∞ ; lim h(t) = 0
h→0 h→∞
1
• k = 1 ↔ La loi de T est exponentielle
α
• k > 1 ↔ F F IFR lim h(t) = 0 ; lim h(t) = +∞
h→0 h→∞
• La loi de Weibull est une généralisation simple du modèle exponentiel, permet-
tant d’obtenir des fonctions de hasard monotone.
• Lorsque λ = 1 et k = 2 ce modèle porte le nom de « modèle de RAYLEIGH» ;
il est utilisé en physique pour modéliser la durée de vie de certaines particules.
La loi de Weibull apparaît naturellement dans l’étude de la distribution limite du
minimum d’un échantillon I.I.D
16
on aurra donc :
f (t) = θktk−1 exp −θtk
la fonction de Qnvraisemblance associé a cette fonction de densité est :
L(t,
Qn
θ, k) = i=1 f (ti )
= i=1 P θktk−1
i exp −θtki P
= θn k n ni=1 tk−1
i exp(−θ ni=1 xki )
ln L(t, θ, k) = n ln θ + n ln k + (k − 1) ni=1 ln ti − θ ni=1 tki
P P
on dérive ln L(.) par-rapport a θ et k
n P
∂ ln L = − ni=1 tki = 0
∂θ θ P
ln L = n + n ln ti − θ n tki ln ti = 0
∂ P
∂k i=1 i=1
k
la
résolution de ce système d’équations donne :
n
θ̂ = Pn k
i=1 ti
n
k̂ = Pn k
θ i=1 ti ln ti − ni=1 ln ti
P
Loi gamma
17
1
0<r<1↔F DFR lim h(t) = +∞ ; lim h(t) =
h→0 h→∞ λ
r = 1 ↔ T de loi exponentielle de paramètre θ
2.2.2 Propriétés
A• Propriété 1
G(x) est une fonction de répartition
A − 1• Preuve
on montre que (2.8) vérifie les propriétés d’une fonction de répartition :
— G(x) est continue carF1 (x) et F2 (x) sont deux fonctions continues
— 0 ≤ G(x) ≤ 1 car :
F1 (x) ≤ 1 ,donc :
p1 F1 (x) ≤ p1 ≤ 1
et : F2 (x) ≤ 1 , donc
p2 F2 (x) ≤ p2 ≤ 1
ce qui implique :
18
et on a aussi : p2 = 1 − p1 donc :
p1 F1 (x) + p2 F2 (x) ≤ 1
G(x) ≤ 1 (2.10)
F1 (x) ≥ 0 et F2 (x) ≥ 0 alors :
p1 F1 (x) ≥ 0 et p2 F2 (x) ≥ 0 donc :
p1 F1 (x) + p2 F2 (x) ≥ 0 ce qui implique :
G(x) ≥ 0 (2.11)
de (2.10) et (2.11) on aurra :
0 ≤ G(x) ≤ 1 (2.12)
— G0 (x) = p1 f1 (x) + p2 f2 (x) ≥ 0 car f1 (x) ≥ 0 et f2 (x) ≥ 0 (des fonction de
densité et 0 ≤ p1 ≤ 1 et 0 ≤ p2 ≤ 1.)
— G(+∞) = p1 F1 (+∞) + p2 F2 (+∞) = 1 (carF1 (+∞) = 1 et F2 (+∞) = 1
et p1 + p2 = 1 )
g1 (x1 ) = ng(x1 )(1 − G(x1 ))n−1 = n(p1 f1 (x) + p2 f2 (x))[1 − p1 F1 (x) − p2 F2 (x)]n−1
19
n éme ordre statistique : r=n
gn (xn ) = ng(xn )(G(xn ))n−1 = n(p1 f1 (xn ) + p2 f2 (xn ))[p1 F1 (xn ) + p2 F2 (xn )]n−1
Exemple
soit f1 (x), f2 (x) deux fonctions de densités de deux loi de Weibull de para-
mètres différents
et soit F1 (x), F2 (x) leurs fonctions de répartition respectives :
k1 x x
f1 (x) = ( )( )k1 −1 exp −( )k1
λ1 λ1 λ1
x k1
F1 (x) = 1 − exp −( )
λ1
k2 x k2 −1 x
f2 (x) = ( )( ) exp −( )k2
λ2 λ2 λ2
x k2
F2 (x) = 1 − exp −( )
λ2
on remplace dansG(x) et g(x) et on trouve :
x k1 x
G(x) = p1 (1 − exp(− ) ) + p2 (1 − exp(− )k2 (2.15)
λ1 λ2
k1 x k1 −1 x k2 x x
g(x) = p1 ( )( ) exp −( )k1 + p2 ( )( )k2 −1 exp −( )k2 (2.16)
λ1 λ1 λ1 λ2 λ2 λ2
et puisque :p2 = 1 − p1 donc on peut écrire :
x k2 x x
G(x) = p1 (exp −( ) − exp(− )k1 ) + 1 − exp −( )k2 (2.17)
λ2 λ1 λ2
20
la fonction de hasard correspondante est :
g(x)
h(x) =
1 − G(x)
alors :
k1 x k1 −1 x k2 x x
p1 ( )( ) exp −( )k1 + p2 ( )( )k2 −1 exp −( )k2
λ1 λ1 λ1 λ2 λ2 λ2
h(x) = x k1 x k2
1 − p1 (1 − exp −( ) ) − p2 (1 − exp −( )
λ1 λ2
Qn Qn
i=1 g(xi , λ1 , λ2 , k1 , k2 ) = i=1 [p1 f1 (xi , λ1 , k1 ) + p2 f2 (xi , λ2 , k2 )]
Qn Qn
ln i=1 g(xi , λ1 , λ2 , k1 , k2 ) = ln i=1 [p1 f1 (xi , λ1 , k1 ) + p2 f2 (xi , λ2 , k2 )]
Pn
= i=1 ln[p1 f1 (xi , λ1 , k1 ) + p2 f2 (xi , λ2 , k2 )]
21
k1 xki 1 −1 xki 1
f1 (xi , λ1 , k1 ) = exp − k1
λ1 k1 λ1
k1 −1 xki 1
= exp[ln(k1 xi ) − k1 ln λ1 − k1 ]
λ1
∂f1 (xi ,λ1 ,k1 ) k1 −k1 k1 −1 xki 1
∂λ1 = − − xi k1 ( k1 +1 ) exp[ln(k1 xi ) − k1 ln λ1 − k1 ]
λ1 λ1 λ1
2 k1
k1 xi k1 x
= − + k1 +1 exp[ln(k1 xki 1 −1 ) − k1 ln λ1 − ik1 ]
λ1 λ1 λ1
k1
−k1 λ1 + xi k1 2
k1 −1 xki 1
= exp[ln(k1 xi ) − k1 ln λ1 − k1 ]
λ1k1 +1 λ1
2 k1 −1 k1 3 k1 k1
−k1 xi λ1 + k1 xi xi
= exp −
λk11 +1 λk11
donc :
∂ ni=1 ln g(xi ,λ1 ,λ2 ,k1 ,k2 )
P Pn −k12 xki 1 −1 λk11 + k13 xki 1 xki 1
∂λ1 = i=1 [p1 ( exp − k1 )
λk11 +1 λ1
1
∗( )]
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
on dérive par-rapport a k1
k1 xki 1 −1 xki 1
f1 (xi , λ1 , k1 ) = exp − k1
λ1 k1 λ1
xi
= exp[ln k1 + (k1 − 1)lnxi − k1 ln λ1 − ( )k1 ]
λ1
xi
∂ exp(k1 ln )
∂f1 (xi , λ1 , k1 ) 1 λ1 xi k1
= [ +ln xi −lnλ1 − ] exp[ln k1 +(k1 −1)lnxi −k1 ln λ1 −( ) ]
∂k1 k1 ∂k1 λ1
1 xi xi xi xi
=[ + ln( ) − ln( ) exp(k1 ln( ))] exp[ln k1 + (k1 − 1)lnxi − k1 ln λ1 − ( )k1 ]
k1 λ1 λ1 λ1 λ1
1 xi xi xi xi
= [ + ln( ) − ln( )( )k1 ] exp[ln k1 + (k1 − 1)lnxi − k1 ln λ1 − ( )k1 ]
k1 λ1 λ1 λ1 λ1
k1 −1 k1
1 xi xi xi k1 xi xi
= [ + ln( ) − ln( )( )k1 ] exp −
k1 λ1 λ1 λ1 λ1 k1 λk11
22
xki 1 −1 xi k1 xki 1 −1 xi −1 xi 2k1 xi k1
= k1
+ ln( ) k
− ln( )k 1 xi ( ) exp −( )
λ1 λ1 λ1 1 λ1 λ1 λ1
donc :
Pn
∂ i=1 [ln g(xi ,λ1 ,λ2 ,k1 ,k2 ) Pn xki 1 −1 xi k1 xki 1 −1 xi −1 xi 2k1 xi k1
∂k1 = i=1 [p1 ( k1 +ln( ) k
−ln( )k 1 x i ( ) exp −( ) )
λ1 λ1 λ1 1 λ1 λ1 λ1
1
∗( )]
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
et puisque on a utilisé deux loi de Weibull de paramètres différents,donc de la
même manière on trouve :
∂ ni=1 ln g(xi ,λ1 ,λ2 ,k1 ,k2 )
P Pn −k22 xki 2 −1 λk22 + k23 xki 2 xki 2
∂λ2 = i=1 [p2 ( exp − k2 )
λk22 +1 λ2
1
∗( )]
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
et :
∂ ni=1 [ln g(xi ,λ1 ,λ2 ,k1 ,k2 )
P Pn xki 2 −1 xi k2 xki 2 −1 xi −1 xi 2k2 xi k2
∂k2 = i=1 [p2 ( k2 +ln( ) k
−ln( )k 2 x i ( ) exp −( ) )
λ2 λ2 λ2 2 λ2 λ2 λ2
1
∗( )]
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
on aurra donc le système d’équation suivant :
23
−k12 xki 1 −1 λk11 + k13 xki 1 xki 1
Pn
i=1 [p1 ( exp − k1 )
λk11 +1
λ1
1
∗(
)] = 0
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
xki 1 −1 xi k1 xki 1 −1
xi x xi k1
Pn i 2k1
−1
[p ( + ln( ) − ln( )k x ( ) exp −( ) )
i=1 1 1 i
λ1 k1 λ1 λ1 k1
λ1 λ1 λ1
1
∗( )] = 0
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
(p) λ 1 λ 1 λ1 λ2 λ 2 λ2
2 k2 −1 k2 3 k2 k2
Pn −k2 xi λ2 + k2 xi xi
i=1 [p 2 ( k2 +1
exp − k2
)
λ 2 λ 2
1
∗( )] = 0
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( ) exp −( ) + p2 ( )( ) exp −( )
λ 1 λ 1 λ1 λ2 λ 2 λ2
k2 −1 k2 −1
xi xi k2 xi xi −1 xi 2k2 xi k2
P n
− −(
i=1 [p 2 ( k
+ ln( ) k
ln( )k 2 xi ( ) exp ) )
λ λ λ λ λ λ
2 2
2 2 2 2
2 2
1
∗( )] = 0
k1 xi k1 −1 xi k1 k2 xi k2 −1 xi k2
p1 ( )( )
exp −( ) + p2 ( )( ) exp −( )
λ1 λ1 λ1 λ2 λ2 λ2
Ce système est compliqué,on peut pas le résoudre directement car les équations
sont non linéaire,pour cela nous allons faire appelle à des méthodes numériques
pour la résolution de ce système.
24
2.3 Modèle de Mélange
2.3.1 Modèle
Soit F1 (x) et F2 (x) deux fonctions de répartition,le modèle est définit par la
fonction G suivante :
p1 F1 (x) + p2 F2 (x)
G(x) = (2.18)
2 − F1 (x)
avec : 0 ≤ p1 ≤ 1 , 0 ≤ p2 ≤ 1 et p1 + p2 = 1.
2.3.2 Propriétés
A• Propriété 1
G(x) est une fonction de répartition en effet :
1 ) G(x) continue carF1 (x) etF2 (x) sont continues et 2 − F1 (x) est continue donc
G(x) est continue
2 ) 0 ≤ G(x) ≤ 1 car :
0 ≤ F1 (x) ≤ 1 et 0 ≤ F2 (x) ≤ 1 ∀x
⇒
0 ≤ p1 F1 (x) ≤ p1 (2.19)
0 ≤ p2 F2 (x) ≤ p2 (2.20)
et on a :0 ≤ p1 ≤ 1 , 0 ≤ p2 ≤ 1 donc :
0 ≤ p1 F1 (x) ≤ p1 ≤ 1 (2.21)
0 ≤ p2 F2 (x) ≤ p2 ≤ 1 (2.22)
donc :(2.21) + (2.22) ⇒ 0 ≤ P1 F1 (x) + p2 F2 ≤ p1 + p2 = 1
⇒
0 ≤ p1 F1 (x) + P2 F2 (x) ≤ 1 (2.23)
on a :0 ≤ F1 (x) ≤ 1 donc :
−1 ≤ −F1 (x) ≤ 0
⇒ 1 ≤ 2 − F1 (x) ≤ 2
1 1
⇒ ≤ ≤1 (2.24)
2 2 − F1 (x)
on multiple (2.23) et (2.24) on obtient :
25
p1F1 (x) + p2 F2 (x)
0≤ ≤1
2 − F1
⇒0 ≤ G(x) ≤ 1
p1 f1 (x) + p2 f2 [2 − F1 (x)] − (−f1 )[p1 F1 (x) + p2 F2 (x)]
3) G0(x) =
(2 − F1 (x))2
2p1 f 1(x) + f 1(x)p2F 2(x) + 2p2f 2(x) − p2f 2(x)F 1(x)
G0(x) =
(2 − F 1(x))2
f1 (x)[2p1 − p2 F2 (x) − 2p1 F1 (x)] + f2 (x)[2p2 − p2 F1 (x)]
= ≥0
(2 − F1 (x))2
⇒ G0(x) ≥ 0
p1 F1 (−∞) + p2 F2 (−∞)
4-A) G(−∞) = = 0 (carF1 (−∞) = 0
2 − F1 (−∞)
et F2 (−∞) = 0 )
p1 F1 (+∞) + p2 F2 (+∞) p1 + p 2
4-B) G(+∞) = = = 1 (carF1 (+∞) = 1 et
2 − F1 (+∞) 2−1
F2 (+∞) = 1 et p1 + p2 = 1 )
26
2.3.3 Cas particulier
Si F1 (x) =F2 (x) alors :
1) la fonction de répartition est :
F (x)
G(x) = (2.27)
2 − F (x)
2) La fonction de densité correspondante est donné par :
2f (x)
g(x) = (2.28)
(2 − F (x))2
3) la fonction de hasard correspondante est :
g(x)
h(x) =
1 − G(x)
2f (x) 2 − F (x)
=
(2 − F (x))2 2(1 − F (x))
donc :
f (x)
h(x) = (2.29)
(2 − F (x))(1 − F (x))
L’ordre statistique
27
Exemple
Le moment ordinaire :
le moment ordinaire est définit par :
Z ∞
µ0 = xr g(x)dx
0
k x x
Z ∞ 2( ( )k−1 exp(− )k )
µ0 = xr λ λ λ
x k 2 dx
0 (1 + exp(− ) )
λ
28
x
k
Z ∞ xk+r−1 exp(− )k
µ0 = 2 λ
λk x k 2 dx (2.34)
0 (1 + exp(− ) )
λ
La fonction caractéristique :
R +∞ R +∞
φx (t) = −∞ exp(itx)f (x)dx = 0 exp(itx)f (x)dx
x
k
Z +∞ xk−1 exp(itx − ( )k )
φx (t) = λ
λk x k 2 dx (2.35)
0 (1 + exp(− ) )
λ
29
k k−1 ( xi k
2 k
x i ∗ exp − )
Pn
= i=1 log[ λ λ
xi k 2 ]
(1 + exp(− ) )
λ
Pn k k−1 x i xi
= i=1 [log(2 k xi exp( − )k ) − 2 log(1 + exp(− )k )]
λ λ λ
x i
−k 2 xk−3
i λk + k 3 xki exp(− )k
λ
∂ log L(x) Pn λ k+1 2kλk−1 xki
• = i=1 [ − xi k ]
∂λ k k−1 xi k 1 + exp(− )
2 k xi exp(− ) λ
λ x λ
2 k−1 k 3 k i k
Pn (−k xi λ + k xi ) exp(− λ ) 2kλk−1 xki
= i=1 [ − xi k ]
k k−1 xi 1 + exp(− )
λk+1 2 k xi exp(− )k λ
λ λ
2 k−1 k 3 k xi k x i k
Pn (−k xi λ + k xi ) exp(− λ ) (1 + exp(− λ ) )
= i=1 [ xi xi ]
(2kλxk−1 exp(− )k )(1 + exp(− )k )
λx λ
k−1 k k−1 k
2kλ xi (2kλx exp(− ) )
− λ
x i xi
(2kλxk−1 exp(− )k )(1 + exp(− )k )
λ λ
2 k−1 k 3 k xi k 2 k−1 k 3 k xi k
Pn (−k xi λ + k xi ) exp(− λ ) + (−k xi λ + k xi ) exp(− λ )
= i=1 [ xi k xi k ]
k−1
2kλxi exp(− ) (1 + exp(− ) )
λ λ
2 2k−1 2k−1 xi k k−1 xi k
4k λ xi exp(− ) (2kλxi exp(− ) )
− λ λ
x i x
2kλxk−1
i exp(− )k (1 + exp(− )k ))
λ λ
2 k−1 k 3 k xi k
(−k x i λ + k x i ) exp(− )
Pn
= i=1 [ λ
xi xi
2kλxk−1
i exp(− )k (1 + exp(− )k )
λ λ
xi k 2 k−1 k 3 k 3 2k+1 3k+1
exp(−2 ) (−k xi λ + k xi − 8k λ xi )
− λ ]=0
k−1 xi k xi k
2kλxi exp(− ) (1 + exp(− ) )
λ λ
∂ log L(x) Pn 1 xi xi xi k kxk−1 xi
• = i=1 [( + ln( ) − ln( )( ) ( ik )) exp(− )k
∂k k λ λ λ λ λ
30
xi xi xi
2(ln( ) exp(k) ∗ ln( ) exp(− )k )
− λ λ λ ]=0
xi k
1 + exp(− )
λ
31
le n’iéme ordre donné par :
gn (xn ) = ng(xn )[G(xn )]n−1
Le moment ordinaire
Z ∞
µ0 = xr g(x)dx
0
k x x
Z 2( ( )k−1 exp(− )k )
∞
µ0 = xr λ λ λ
x k 2 dx
0 (1 + exp(− ) )
λ
Z ∞ xk+r−1 exp(− x )k
k λ dx
µ0 = 2 k x (2.38)
λ 0 (1 + exp(− )k )2
λ
Exemple
on prend deux loi de Weibull de paramètres différents (le même exemple avec
le modèle de l’alternative de Lehman généralisé )
on remplace dans G(x) on trouve :
32
x k1 x
p1 (1 − exp(− ) ) + p2 (1 − exp(− )k2 )
λ1 λ2
G(x) = x k1
2 − (1 − exp(− ) )
λ1
x k1 x
p1 (1 − exp(− ) ) + p2 (1 − exp(− )k2 )
λ1 λ2
G(x) = x k1 (2.39)
1 + exp(− )
λ1
et la fonction de densité correspondante à la formule précédante est :
k1 x k1 −1 x x x
( ) exp(− )k1 [2p1 − p2 (1 − exp(− )k2 ) − 2p1 (1 − exp(− )k1 )]
λ λ λ1 λ2 λ1
g(x) = 1 1 x k1 2
(1 + exp(− ) )
λ1
k2 x k2 −1 x x
( ) exp(− )k2 [2p2 − p2 (1 − exp(− )k1 )]
λ λ λ2 λ1
+ 2 2 x k1 2
(1 + exp(− ) )
λ1
La fonction de hasard :
g(x)
h(x) =
1 − G(x)
on a :
x k1 x x
1 + exp(− ) − p1 (1 − exp(− )k1 ) − p2 (1 − exp(− )k2 )
λ1 λ1 λ2
1 − G(x) = x k1
1 + exp(− )
λ1
alors :
k1 x k1 −1 x x x
( ) exp(− )k1 [2p1 − p2 (1 − exp(− )k2 ) − 2p1 (1 − exp(− )k1 )]
λ1 λ1 λ1 λ2 λ1
h(x) = x k1 x k1 x k2 x
[1 + exp(− ) − p1 (1 − exp(− ) ) − p2 (1 − exp(− ) )](1 + exp(− )k1 )
λ1 λ1 λ2 λ1
k2 x k2 −1 x k2 x k1
( ) exp(− ) [2p2 − p2 (1 − exp(− ) )]
λ2 λ2 λ2 λ1
+ x k1 x k1 x k2 x
[1 + exp(− ) − p1 (1 − exp(− ) ) − p2 (1 − exp(− ) )](1 + exp(− )k1 )
λ1 λ1 λ2 λ1
33
Le moment ordinaire
R∞
µ0 = 0 xr g(x)dx
k1 x k1 −1 x k1 x k2 x k1
(
R ∞ r λ1 λ1 ) exp(− ) [2p 1 − p 2 (1 − exp(− ) ) − 2p 1 (1 − exp(− ) )]
λ1 λ2 λ1
µ0 = 0 x [ x
(1 + exp(− )k1 )2
λ1
k2 x k2 −1 x x
( ) exp(− )k2 [2p2 − p2 (1 − exp(− )k1 )]
λ λ λ2 λ1
+ 2 2 x k1 2 ]dx
(1 + exp(− ) )
λ1
34
∂f1 (xi )
(2p1 − p2 F2 (xi ) − 2p1 F1 (xi ))
∂ ln L(x, λ 1 , λ 2 , k1 , k 2 ) P n ∂λ 1
= i=1 [
∂λ1 B
∂F (x
1 i ) ∂F (x
1 i ) ∂F 1 i)
(x
2p 1 f 1 (x i ) p 2 f 2 (x i ) 2
∂λ1 ∂λ1 ∂λ1
− − − ]
B B 2 − F (x )
1 i
∂f1 (xi )
(2p1 − p2 F2 (xi ) − 2p1 F1 (xi ))
∂ ln L(x, λ1 , λ2 , k1 , k2 ) Pn
∂k 1
= i=1 [
(p) ∂k 1 B
∂F 1 (x i ) ∂F 1 (x i ) ∂F 1 (x i)
2p1 f1 (xi ) p2 f2 (xi ) 2
∂k1 ∂k1 ∂k1
+ − − ]
−
B B 2 F 1 (x i )
∂F2 (xi ) ∂f2 (xi )
−f (x )p − [2p2 − p2 F1 (xi )]
1 i 2
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn
∂λ 2 ∂λ 2
= i=1 [ ]
∂λ B
2
∂F2 (xi ) ∂f2 (xi )
−f (x )p + [2p2 − p2 F1 (xi )]
1 i 2
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn
∂k 2 ∂k 2
= i=1 [ ]
∂k2 B
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn −k12 xki 1 −1 λk11 + k13 xki 1 xki 1
• = i=1 [ exp(− k1 )
∂λ1 λk11 +1 λ1
xi k2 xi k1
(2p1 − p2 (1 − exp(− ) ) − 2p1 (1 − exp(− ) )
λ2 λ1
A
k1
1 −1
x k2 xi k2 −1 x k2
xki 1 k1 λ3k
1 exp − i
p 2 ( ( ) exp(− ) )
λk11 λ2 λ2 λ2
−
A
k1
x k1 x x
xik1 k1 λ13k1 −1 exp − ik1 2p1 (( )( )k1 −1 exp −( )k1 )
λ1 λ1 λ1 λ1
+
A
k1
1 −1
x
xik1 k1 λ3k1 exp(− ik1 )
λ1
−2 xi ]=0
1 + exp(− )k1
λ1
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn xki 1 −1 xi k1 xki 1 −1 xi −1 xi 2k1 xi k1
• = i=1 [ k1 +ln( ) k
−ln( )k 1 x i ( ) exp −( )
∂k1 λ1 λ1 λ1 1 λ1 λ1 λ1
35
xi k2 x
(2p1 − p2 (1 − exp(− ) ) − 2p1 (1 − exp(− )k1 )
λ2 λ1
A
k2 xi k2 −1 x i k2
p2 ( ( ) exp(− ) )
λ2 λ2 λ2 xi xi
+ ∗ (− ln( ) exp(k1 ln(− )))
A λ1 λ1
k1 xi k1 −1 xi k1
2p1 ( ( ) exp(− ) )
λ1 λ1 λ1 xi xi
− (− ln( ) exp(k1 ln(− )))
A λ1 λ1
xi xi
(− ln( ) exp(k1 ln(− )))
λ1 λ1
+2 xi k1 ]=0
1 + exp(− )
λ1
k1 xi k1 −1 xi k1
−p 2 ( ( ) exp(− ) )
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn λ1 λ1 λ1
• = i=1 [
∂λ2 A
k2 2 k2 −1 k2 3 k2
k2 3k2 −1 xi −k2 xi λ2 + k2 xi xki 2
xi k2 λ2 exp − k2 + exp − k2
λ2 λk22 +1 λ2
xi k1
[2p2 − p2 (1 − exp(− ) )]
λ1
]=0
A
k1 xi k1 −1 xi k1
−p 2 ( ( ) exp(− ) )
∂ log L(x, λ1 , λ2 , k1 , k2 ) Pn λ1 λ1 λ1
• = i=1 [
∂k2 A
xi k1 −1 xi k1 xi xi
( ) exp(− ) (− ln( ) exp(k2 ln(− )))
λ1 λ1 λ2 λ2
k2 −1 k2 −1
x xi k2 xi xi −1 xi 2k2 xi k2
+ i k2 + ln( ) − ln( )k 2 xi ( ) exp −( )
λ2 λ2 λ2 k2 λ2 λ2 λ2
xi
[2p2 − p2 (1 − exp(− )k1 )]
λ1
]=0
avec : A
k1 x x k1 x x
A = ( )k1 −1 exp( ) (2p1 − p2 (1 − exp(− )k1 − 2p1 (1 − exp(− )k1 ))
λ1 λ1 −λ1 λ1 λ1
k2 x x k2 x
+ ( )k2 −1 exp( ) (2p2 − p2 (1 − exp( )k1 )
λ2 λ2 −λ2 λ1
et
36
Chapitre 3
3.1 Introduction
Dans ce chapitre, nous allons présenter le travail de simulation sur des données
réelles de survie effectué pour illustrer et étayer les différents aspects théoriques
abordés dans les chapitres précédents. Cette étude portera essentiellement sur :
• La comparaison des différents modèles paramétriques des données de survie
proposés dans ce mémoire :
1. Alternative de LEHMAN ;
2. Alternative de LEHMAN généralisée ;
3. Modèle de mélange.
• L’étude de la performance de ces modèles ;
• L’étude de l’influence de la taille de l’échantillon sur ces différents modèles.
Pour ceci nous avons considérer deux ensembles de données réelles :
23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71,
11, 14, 11, 16, 90, 1, 16, 52, 95.
Ces données ont également utilisées dans Gupta and Kundu et dans Singh et
al.
II) Le deuxième cas de données décrivent une étude de rémission (en mois)
d’un échantillon aléatoire de 128 patients atteints de cancer de la vessie rapportée
dans Lee and Wang [14] :
0.08,2.09, 3.48, 4.87, 6.94, 8.66, 13.11, 23.63, 0.20, 2.23, 3.52, 4.98, 6.97, 9.02,
13.29, 0.40, 2.26,3.57, 5.06, 7.09, 9.22, 13.80, 25.74, 0.50, 2.46, 3.64, 5.09, 7.26, 9.47,
37
14.24, 25.82, 0.51, 2.54,3.70, 5.17, 7.28, 9.74, 14.76, 26.31, 0.81, 2.62, 3.82, 5.32,
7.32, 10.06, 14.77,32.15, 2.64, 3.88,5.32, 7.39, 10.34, 14.83, 34.26, 0.90, 2.69, 4.18,
5.34,7.59, 10.66, 15.96, 36.66, 1.05, 2.69, 4.23,5.41, 7.62, 10.75, 16.62, 43.01, 1.19,
2.75, 4.26, 5.41, 7.63, 17.12, 46.12, 1.26,2.83, 4.33, 5.49,7.66,11.25, 17.14, 79.05,
1.35, 2.87, 5.62, 7.87, 11.64, 17.36, 1.40, 3.02, 4.34, 5.71, 7.93, 11.79,18.10, 1.46,
4.40, 5.85, 8.26, 11.98, 19.13, 1.76, 3.25, 4.50, 6.25, 8.37, 12.02, 2.02, 3.31, 4.51,
6.54, 8.53, 12.03, 20.28, 2.02, 3.36, 6.76, 12.07, 21.73, 2.07, 3.36, 6.93, 8.65, 12.63,
22.69.
Ces données ont été déja utilisées dans Singh, S. K., Singh, U. and Kummar,
M. [, 2014].
Notons que pour le premier modèle (Alternative de Lehman), nous avons consi-
déré les deux cas particulier suivant :
— α = 1 et F (x) ∼ W eibul,
— α = 1 et F (x) ∼ Gamma.
Les simulations et les graphiques ont été réalisés à l’aide du logiciel R (package
ks). Nous avons utilisé la version 2.8.0 pour la programmation. R est un système
d’analyse statistique et graphique crée par Ross Ihaka et Robert Gentlelman.
Il est à la fois un langage et un logiciel qui comporte de nombreuses fonctions pour
38
les analyses statistiques et les graphiques.
39
n Weibul Gamma ALG MM
3 -148.336 -153.721 -148.219 -148.301
5 -149.258 -153.440 -148.308 -148.216
10 -149.813 -155.127 -148.301 -149.229
15 -150.724 -155.875 -149.000 -149.001
25 -151.029 -156.166 -149.825 -149.655
Table 3.1 – La moyenne de LL pour le premier cas de données avec p1 = 1/2, p2 = 1/2, F1 ∼
Weibul et F2 ∼ Weibul
Table 3.2 – La moyenne de LL pour le premier cas de données avec p1 = 1/3, p2 = 2/3, F1 ∼
Weibul et F2 ∼ Weibul
40
n Weibul Gamma ALG MM
3 -148.336 -153.721 -147.012 -148.000
5 -149.258 -153.440 -148.671 -148.241
10 -149.813 -155.127 -148.810 -149.334
15 -150.721 -155.875 -148.997 -149.526
25 -151.029 -156.166 -149.023 -150.701
Table 3.3 – La moyenne de LL pour le premier cas de données avec p1 = 1/2, p2 = 1/2, F1 ∼
Gamma et F2 ∼ Gamma
Table 3.4 – La moyenne de LL pour le premier cas de données avec p1 = 1/3, p2 = 2/3, F1 ∼
Gamma et F2 ∼ Gamma
41
n Weibul Gamma ALG MM
3 -148.336 -153.721 -142.076 -143.971
5 -149.258 -153.440 -142.611 -144.433
10 -149.813 -155.127 -143.401 -144.892
15 -150.721 -155.875 -144.127 -145.017
25 -151.029 -156.166 -145.581 -146.872
Table 3.5 – La moyenne de LL pour le premier cas de données avec p1 = 1/2, p2 = 1/2, F1 ∼
Weibul et F2 ∼ Gamma
Table 3.6 – La moyenne de LL pour le premier cas de données avec p1 = 1/3, p2 = 2/3, F1 ∼
Weibul et F2 ∼ Gamma
42
n Weibul Gamma ALG MM
3 -526.241 -527.013 -501.388 -501.957
5 -529.102 -531.861 -504.700 -504.402
10 -538.549 -542.118 -506.899 -508.139
15 -541.134 -545.233 -507.126 -508.200
25 -550.020 -555.991 -511.615 -513.698
Table 3.7 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/2, p2 = 1/2, F1 ∼
Weibul et F2 ∼ Weibul
Table 3.8 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/3, p2 = 2/3, F1 ∼
Weibul et F2 ∼ Weibul
43
n Weibul Gamma ALG MM
3 -526.241 -527.013 -439.810 -439.901
5 -529.102 -531.861 -440.057 -439.873
10 -538.549 -542.118 -449.151 -451.227
15 -541.134 -545.233 -453.762 -456.382
25 -550.020 -555.991 -460.643 -461.109
Table 3.9 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/2, p2 = 1/2, F1 ∼
Gamma et F2 ∼ Gamma
Table 3.10 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/3, p2 = 2/3,
F1 ∼ Gamma et F2 ∼ Gamma
44
n Weibul Gamma ALG MM
3 -526.241 -527.013 -422.739 -451.037
5 -529.102 -531.861 -424.336 -451.660
10 -538.549 -542.118 -430.892 -458.407
15 -541.134 -545.233 -433.195 -461.953
25 -550.020 -555.991 -439.601 -469.377
Table 3.11 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/2, p2 = 1/2,
F1 ∼ Weibul et F2 ∼ Gamma
Table 3.12 – La moyenne de LL pour le deuxième cas de données avec p1 = 1/3, p2 = 2/3,
F1 ∼ Weibul et F2 ∼ Gamma
45
identiques entre les deux modèles (ALG) et (MM) avec un léger avantage pour la
méthode (ALG) en particulier pour la taille de l’échantillon n = 25. Ces résultats
montrent aussi que les deux modèles proposés dans ce mémoire sont plus perfor-
mants que les modèles classiques, Weibul et Gamma. On remarque par exemple
dans le tableau (1.2) : pour la taille d’échantillon n=25, nous avons LL = - 147.952
pour le modèle (ALG) alors que LL= -150.746 pour Weibull et LL = -154.000 pour
Gamma.
Les tableaux (1.5), (1.6) confirment les résultas déjà obtenus dans les ta-
bleaux précédents (1.1), (1.2), (1.3), (1.4), pour le premier modèle (Alternative
de Lehman) à savoir que la loi de Weibul est nettement meilleure que la loi de
Gamma. Mais pour les deux modèles restants (ALG et MM), le mélange de lois
(F1 ∼ W eibul et F2 ∼ Gamma) améliorent nettement leurs performances avec
un avantage claire pour le premier modèle (ALG). Par exemple, dans le tableau
(1.6), nous avons pour la taille d’échantillon n=25, LL = - 150.746 (Weibull), LL
= -154.000 (Gamma), LL = -142.013 (ALG), LL = -145.386 (MM).
Les résultats obtenus montrent aussi que la taille de l’échantillon n’influe pas
sur la qualité de l’estimation. On remarque pour les résultats sont stable en général
pour les différentes tailles de l’échantillon.
3.5 Conclusion
Notre travail de simulation aborde un problème crucial, bien connu dans l’ana-
lyse de la survie en particulier et en statistiques en général. Il s’agit du problème
de choix d’un modèle approprié dans le cadre paramétrique pour l’analyse des don-
nées de survie. Ainsi, Les résultats obtenus pour les deux ensembles de données
réelles (étude du temps de défaillance du système de climatisation d’un avion et
étude de rémission, en mois, d’un échantillon aléatoire de 128 patients atteints de
cancer de la vessie) confirment que les deux alternatives que nous avons proposés
dans ce travail sont plus éfficace que les modèle paramétriques classiques dans la
46
modélisation et l’analyse des données de survie avec un avantage significatif pour
le premier modèle, alternative de Lehman généralisée. Notons, en outre, que les
deux modèles sont stable et ne sont pas influencé significativement par la taille de
l’échantillon.
47
Conclusion générale
48
Bibliographie
[1] C.Chesneau
Sur l’estimateur de maximum de vraisemblance(env) (cour), Licence. France.
2017.
[2] C. Vassoilles
Propostion d’une nouvelle méthode de classification à base de copules , Mé-
moire l’université du Québec 2014
[3] D.Kumar,U.Singh,S.Kumar et S.Mukherjee
The new probability distribution :an aspect to a life time distribution , journal
of mathematical science letters vol 6 N 0 1,p 35-42 (2017)
[4] E.Doucet
Estimateurs de noyau et théorie des valeurs extrêmes , mémoire Université de
Québec à Montréal 2014
[5] F. Planchet
Modèles de durées (cour), 2019-2020
[6] G.Colletaz
Économétrie des durées de survies(cour) , 9 septembre 2019
[7] J.Cristophe Breton
Fondement de probabilités de (Ω, F, P ) au conséquences de la LG et et de TCL
(cour) , 2014
[8] L.Tristan
modéles statistiques pour des données de survie corrélées, thèse de doctorat
l’institut national agronomique Pari-Grignon.
[9] M.Genin
Variables aléatoires (cour), Épidémiologie et Qualité des soins octobre 2015
[10] P.Saint Pierre
Introduction à l’analyse des durées de survie (cour), Février 2015
[11] R.D.Gupta et D.Kundu
Exponentiated Exponential Family : An Alternative to Gamma and Weibull
Distributions , Biometrical Journal 43 (2001) 1, 117–130
49
[12] R.C.Gupta ,P.L.Gupta et R.D.Gupta
Modeling failure time data by lehman alternatives , Communications in Sta-
tistics - Theory and Methods (1998)
[13] S.Nedjar
Poisson pseudo lindly distribution et leurs applications en assurances vie ,
thèse de doctorat université Annaba 2017
[14] Singh, S. K., Singh, U. and Kumar
Bayesian inference for exponentiated Pareto model with application to bladder
cancer remission time, Statistics in Transition (2014)
50