Mat Sta 04-21
Thèmes abordés
Mat Sta 04-21
Thèmes abordés
Master
Spécialité : Mathématiques.
Option : Probabilités et Statistique.
Thème
Présenté par :
BOUKERRA AMMAR
Promotion 2020/2021
Remerciements
Tout d’abord, nous remercions Allah le tout puissant pour son aide et pour nous avoir
La première personne que nous tenons à remercier est sont les parents
La deuxième personne que nous tenons à remercier est notre encadreur Mme
∗Boudjerda Khawla∗
Nos vifs remerciements vont à tous enseignants qui nous suivis nos cinq années
d’études à l’université
Enfin, nous remercions toutes les personnes qui auraient contribué d’une manière ou
ii
Table des matières TABLE DES MATIÈRES
2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Méthode d’échantillonnage préférentiel . . . . . . . . . . . . . . . . . . . 19
2.4.3 Algorithme PMC général . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Applications 22
3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 La fonction de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Estimation Bayésienne sous la fonction de perte quadratique . . . . . . . . . . . 26
3.3 Estimation Bayésienne sous la fonction de perte Linex . . . . . . . . . . . . . . . 27
3.3.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Bibliographie 40
iii
Introduction générale
La statistique bayésienne est une approche statistique fondée sur l’inférence bayésienne,
Où la probabilité exprime un degré de croyance en un évènement. Le degré de croyance peut-
être basé sur des connaissances a priori, telles que les résultats d’expérience antérieurs, ou
sur des croyances personnelles concernant l’évènement. La perspective bayésienne diffère d’un
certain nombre d’autres interprétations de la probabilité, comme l’interprétation fréquentiste
qui considère la probabilité comme la limite de la fréquence relative d’un évènement après de
nombreux essais.
Les méthodes statistiques bayésiennes reposent sur le théorème de Bayes pour calculer et mettre
à jour les probabilités après l’obtention de nouvelles données. Le théorème de Bayes décrit la pro-
babilité conditionnelle d’un évènement basée sur des informations ou des croyances antérieures
sur l’évènement
Dans ce travail, on s’intéresse à l’estimation bayésienne des paramètres de la loi de Weibull à
deux paramètres en utilisant un plan des données complètes et une loi a priori conjuguée natu-
relle sur les paramètres, les fonctions de perte utilisées sont une fonction de perte quadratique,
puis une fonction de perte asymétrique celle de Linex.
Ce travail est réparti en trois chapitres : dans le premier chapitre on donne quelques notions
de la statistique bayésienne, le deuxième chapitre présente les diffères méthodes numériques
utiles dans le cadre de la statistique bayésienne telles que la méthode de Lindley, les méthodes
MCMC et les méthodes PMC. Le dernier chapitre est une application sur la loi de Weibull à
deux paramètre, et on a utilisés quelques méthodes numériques cités dans le deuxième chapitre
pour calculer les estimateurs bayésiens des paramètres, ainsi que leurs risque a posteriori.
iv
Chapitre 1
Fondement de la statistique bayésienne
1.1 Introduction
La statistique est un art interdisciplinaire de la quantification sous incertitudes utilisé par
les physiciens, les économistes, les ingénieurs, les biologistes, les assureurs, les psy-chologues,
les météorologues, etc. Tous les praticiens soucieux de bâtir, sur des fondations solides, un pont
entre théorie et données expérimentales. Depuis un siècle, la statistique s’est considérablement
développée, initiant une révolution dans les modes de pensée, car elle porte un langage de
représentation du monde et de ses incertitudes.
C’est aujourd’hui une science mathématique dont l’objectif est de décrire ce qui s’est produit et
de faire des projections quant à ce qu’il peut advenir dans le futur. Parfois, la situation peut être
simplement décrite par quelques représentations graphiques d’analyse élémentaire des données.
Bien souvent, le problème est beaucoup plus compliqué car de multiples facteurs d’influence
doivent être pris en compte.
Schématiquement, on construit deux ensembles avec ces facteurs. Un premier paquet contient
les facteurs dits explicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail.
En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas, représenter
leurs effets perturbateurs au cas par cas et, de ce fait, le jargon des modélisateurs le baptise
sous le terme bruit, décrit alors de façon plus grossière par ses caractéristiques statistiques
générales. Dans tous les cas, l’étude de la variabilité est au centre des débats : il s’agit d’abord
de caractériser l’influence des facteurs identifiés et ensuite de représenter et d’évaluer le bruit
résiduel dû à ces autres facteurs non pris en compte dans l’analyse de façon explicite. Dans
une telle situation, le statisticien classique utilise à la fois un raisonnement déterministe par
1.2. Espace de la théorie de décision 2
l’absurde, afin de proposer des valeurs acceptables pour les paramètres décrivant les effets des
facteurs explicatifs et un raisonnement probabiliste, pour traduire la variabilité des résultats
observés due au bruit. Ce mode de pensée s’appuie sur l’hypothèse de la réalité objective des
paramètres ainsi que sur l’interprétation de la probabilité comme limite des fréquences des
résultats observés.
Par contre, le statisticien bayésien utilise le même cadre de pensée pour traiter par le pari
probabiliste l’interaction de ces deux niveaux d’incertitudes : ignorance quant aux valeurs pos-
sibles des paramètres et l’aléatoire des bruits entachant les résultats expérimentaux. Choisir la
piste bayésienne paraı̂tra à certains inutilement trop sophistiquée si on se limite aux modèles
élémentaires (binomial, normal, etc.), pour ces cas d’école simples, l’approche fréquentiste est
facile (nombreux logiciels), et offre au praticien des résultats souvent très proches de ceux que
donnerait une analyse bayésienne avec une distribution a priori peu informative. Mais pour peu
que l’analyste souhaite prendre à bras le corps des problèmes plus proches de son réel quotidien,
apparaissent variables multiples, données manquantes, effets aléatoires, grandeurs latentes..., la
structure des modèles de la vie scientifique moderne se présente sous une forme où des couches
successives de conditionnement s’emboı̂tent, et pour lesquels l’approche bayésienne affirme sa
véritable pertinence.
Le premier espace est celui des états, c’est-à-dire les valeurs vraies ou mesurandes relatives
au système. Ces valeurs ne sont généralement pas connues directement, mais à travers le pro-
cessus de mesure. Les états seront notés θ et leur espace Θ.
Le deuxième espace est celui des observations ou des résultats de mesure. Ces résultats se-
ront notés x et leur espace X .
Théorème de Bayes :
Le but étant de trouver une probabilité sur les états, alors que l’on ne dispose au départ
que d’une famille de probabilités sur les observations nous conduit à raisonner dans l’espace
produit des observations.
X ×Θ
La théorie générale de l’intégration montre que la donnée d’une probabilité de transition P (x|θ)
de Θ vers X ne suffit pas à obtenir une probabilité sur le produit. Il faut encore une probabilité
dite a priori π(θ). Dans ce cas, la probabilité conjointe sur le produit est définie par
P (x, θ) = P (x|θ)π(θ)
La probabilité conjointe ainsi construite induit une marginale. En particulier, la marginale sur
l’espace des observations sera nommée simplement marginale et sera définie par
Z
M (x) = P (x|θ)π(θ)dθ
Θ
Cette probabilité conditionnelle est la probabilité a posteriori sur les états étant donné l’obser-
vation x.
Si le modèle est donné par une fonction de vraisemblance L(x, θ) et π(θ) par une densité f (θ),
on obtient la formule classique
L(θ|x)f (θ)
f (θ|x) = R
θ
L(θ|x)f (θ)dθ
Pour remonter de l’observation à l’état, la tentation est grande de lire cette fonction avec x
constant (le résultat effectif de la mesure) et θ variable. Selon l’approche fréquentiste, le meilleur
choix de l’état consiste à prendre celui qui maximise la fonction L.
C’est le principe du maximum de vraisemblance
qui souligne que cela ne dépend pas de θ. La quantité f (x) est connue comme la probabilité
marginale et est important pour le choix du modèle bayésien.
La densité de la distribution a posteriori est donc proportionnelle au produit de la vraisemblance
1
et la densité a priori de la distribution avec une constante de proportionnalité . Ceci est
f (x)
habituellement noté
π(θ|x) ∝ f (x|θ)π(θ).
1
Où ∝ représente ”est proportionnel à” et implique que R est la constante de nor-
R L(θ)π(θ)dθ
malisation pour assurer que : π(θ|x)dθ = 1. telle-que π(θ|x) est une fonction de densité valide.
L’inférence statistique à propos de θ est basée uniquement sur la distribution a posteriori. L’es-
timation ponctuelle appropriés sont les paramètres de la localisation, telles que la moyenne,
médiane ou le mode de la distribution a posteriori.
La moyenne a posteriori E(θ|x) est l’espérance de la distribution a posteriori
Z
E(θ|x) = θ π(θ|x)dθ.
Θ
La famille G = {toutes les distributions} est conjuguée trivialement par rapport à toutes
fonction de vraisemblance. Dans la pratique, on essaie de trouver des petits ensembles G qui
sont spécifiques à la probabilité L(x, θ).
Le tableau suivant donne quelques exemples des distributions a priori avec la fonction de vrai-
semblance correspondante :
1.4. Choix de la distribution a priori 6
Ou
X
π(θ) = ∞
θ∈Θ
manquante.
Un premier choix naı̈f est un a priori uniforme πθ (θ) ∝ 1, dans ce cas, l’a posteriori est pro-
portionnelle à la fonction de vraisemblance. Noter qu’un a priori uniforme localement sera
incorrecte si l’espace de paramètre est pas borné.
Cependant, il existe des problèmes liés à cette approche. On suppose que φ = h(θ) est une
transformation différentiable de θ, qui a une loi a priori localement uniforme avec une densité
πθ (θ) ∝ 1. On utilise un changement de variable, on obtient l’a priori correspondant à φ.
dh−1 (φ)
πφ (φ) = πθ h−1 (φ) |
|
dφ
dh−1 (φ)
∝| |.
dφ
On note que ce terme est nécessairement constant. En effet, πφ (φ) sera indépendante de φ
seulement si h est linéaire. Si h est non linéaire, la densité a posteriori πφ (φ) dépend de φ et
ne sera pas (localement) uniforme. Cependant, si nous avons choisi une para-métrisation avec
φ dès le départ, nous avons choisi une a priori uniforme (localement) πφ (φ) ∝ 1.
Où J(θ) est l’information de Fisher. Cette dernière équation est nommée : la règle de
Jeffrey.
L’a priori de Jeffrey est proportionnelle à la racine carrée de l’information de Fisher, qui donne
une distribution a priori impropre.
L(θ, d) = (θ − d)2
1.5. Fonctions de perte 8
Une variante de cette fonction de perte est une fonction de perte quadratique pondérée (fonction
de perte quadratique généralisée) de la forme
On trouve en utilisant cette fonction de perte, les résultats de la théorie des tests d’hypothèses.
Un problème de test est un problème de choix (de prise de décision) entre H0 : θ ∈ Θ0 et
H1 : θ ∈ Θ1 avec Θ0 ∪ Θ1 = Θ.
On définit donc de la manière suivante :
δ(x) = 1 : On accepte H0
δ(x) = 0 : On rejette H0 (ce ci ne dépend pas de θ)
On a un espace d’action de la forme A = {0, 1}
Soit w la région de rejet i.e le sous-ensemble de X qui conduit à rejeter H0 . On peut construise
une fonction de coût de la manière suivante : supposons θ ∈ Θ0 .
Si X ∈ W , on prend la décision de rejeter i.e δ(x) = 0, mais la décision n’est pas bonne on va
pénaliser et L(θ, δ(x)) = 1.
Si X n’appartient pas dans W , on ne rejette pas, on prend la décision δ(x) = 1, la décision est
bonne L(θ, δ(x)) = 0, Le coût s’écrit donc :
1 − δ(x) , si θ ∈ Θ0
L(θ, δ(x)) =
δ(x) , si θ ∈ Θ
1
d
(Eθ (L(δ(x) − θ))) = rerδ(x) − r
dδ(x)
e−rδ(x) Eθ (e(−rθ) ) = r.
Alors, l’estimateur de Bayes δbL (x) sous la fonction de perte Linex est :
1
δ(x) = − ln(Eθ (e−rθ ))
r R
1 e−rθ π(θ|x)dθ
= − ln R .
r π(θ|x)dθ
étant donné que Eθ (e−rθ ) existe et est finie.
a)- Lorsque p = 1, l’estimateur de Bayes coı̈ncide avec l’estimateur de Bayes sous la fonction
(d − θ)2
de perte quadratique pondéré .
θ
b)- Lorsque p = −1, l’estimateur de Bayes coı̈ncide avec l’estimateur de Bayes sous la fonction
de perte quadratique.
On définit alors le risque a posteriori ρ(π, δ(x)) comme étant la moyenne du coût par rapport
à la loi a posteriori
Z
π(.|x)
ρ(π, δ(x)) = E [L(θ, δ(x))] = L(θ, δ(x))π(θ|x)dθ
Θ
Dans ce chapitre, on va citer quelques principes des méthodes numériques utiles dans le
cadre bayésien, et spécialement les méthodes MCMC et PMC.
R
w(θ)exp{l(θ)}dθ
R (2.1)
v(θ)exp{l(θ)}dθ
R R
Φ(θ)exp{l(θ) + p(θ)}dθ Φ(θ)exp{Λ(θ)}dθ
E(Φ(θ)|x) = R = R (2.2)
exp{l(θ) + p(θ)}dθ exp{Λ(θ)}dθ
2.2. La Méthode de Kadane et Tierney 13
avec p(θ) = log v(θ) et Λ(θ) = log{π(θ|x)} = l(θ) + p(θ) est le logarithme de la distribution a
posteriori de θ, il est évident que le maximum de Λ(θ) = log{π(θ|x)} nous donne le mode à
postériori de θ. Lindley (1980) a obtenu l’expression requise pour E(Φ(θ)|x).
Prenons St = Φ(θ), En utilisant la méthode de Lindley, l’estimateur bayésien pour St est :
1X b ij + 1
X
St∗ = Φ(θ)
b + Φij (θ)τ Λijk (θ)τ
b ij τkl , (2.3)
2 2
Avec :
d2 Φ d3 Φ
Φij = , Λijk = , ......etc (2.4)
dθi dθj dθi dθj dθk
les τij sont les (i,j) ième éléments de l’inverse de la matrice Hessienne au signe négative. la
matrice des second dérivées pour Λ : {τij } = {−Λij }−1 , θb est le mode a posteriori.
exp{nl∗ }dθ
R
Θ
E(Φ(θ)|x) = R (2.6)
Θ
exp{nl}dθ
Pour plus de détails, voir Tierney et Kadane [1]. Alors que Lindley [2] élargit à la fois le
numérateur et le dénominateur de l’equation (2.2) au sujet d’un point commun (le mode a
posteriori), Tierney et Kadane (1986) ont développé chaque intégrale séparément sur le point
qui maximise l’intégrale. Cette méthode ne nécessite que les dérivées premières et deuxièmes de
2.3. Méthodes MCMC 14
la densité a posteriori. D’après Tierney et Kadane (1986), l’estimateur de Bayes dans l’équation
(2.6), dans le cas multi-paramétrique, prend la forme :
P∗ 21
| | h n oi
E(Φ(θ)|x)
b = P exp n l∗ (θb∗ ) − l(θ)
b ...........................(∗∗)
| |
P
donc :
−d2 l −d2 l
2
X dα dαdβ
=
(2.7)
−d2 l −d2 l
dαdβ dβ 2
Souvent, le calcul explicite, de la densité π(θ|y) n’est pas envisageable ; ainsi de nombreuses
méthodes d’approximation ont été proposées et la plus utilisé est celle de MCMC dont son
principe est de construire une chaı̂ne de Markov ergodique de réalisations θ(1) , .... , θ(t) , .......
2.3. Méthodes MCMC 15
, qui a pour distribution stationnaire π(θ|y) ; ainsi l’estimateur qui sera obtenu est Ibh :
T
1X
Ih =
b h(θ(t) ). (2.9)
T t=1
Algorithme 1
• Puis, on prend
yt , avec la probabilité ρ(θ(t) , yt ) si u < ρ(θ(t) , yt )
θ(t+1) =
θ(t) ,
avec la probabilité 1 − ρ(θ(t) , yt ) sinon
1 PT
- Étape 4 finalement calculer l’estimateur de Bayes Ibh = h(θ(t) ).
T t=1
Cette variante prend en compte la valeur précédemment générée pour simuler la suivante,
la loi instrumentale q(y|θ) sera ainsi écrite q(y − θ) = q(θ − y), c’est-à-dire que yt peut s’écrire
θ(t) + t , tel que t étant une perturbation aléatoire de q, indépendante de θ(t) , ainsi la chaı̂ne
de Markov générée associée à q est une marche aléatoire.
le principe de cet algorithme est le suivant :
1. Étant donné θ(t)
2.3. Méthodes MCMC 17
Quand le paramètre à simuler est de dimension grande, on est contraint de trouver une den-
sité instrumentale multidimensionnelle engendrant une chaı̂ne ayant le comportement d’une
chaı̂ne de Markov. Pour cela on peut utiliser un algorithme dit à une variable à la fois.
(t) (t) (t)
Le principe est de simuler les composantes (θ1 , θ2 ...., θd ) une par une. À chaque itération de
(t)
l’algorithme, on fait évoluer d composantes θi en utilisant d étapes de l’algorithme Metropolis-
Hastings , ce qui signifie que pour obtenir le nouveau vecteur θ(t+1) il faudra utiliser d densités
instrumentales qi (.|.).
(t) (t+1)
Pour simuler une composante θi il faut utiliser la loi instrumentale qi (yi |θ−i ) et la loi cible
(t+1) (t+1) (t+1) (t+1) (t+1) (t+1)
πi (θi |θ−i ) , où : θ−i = (θ−i , ..., θi−1 , θi+1 , ..., θd ) (tel que i = 1, ..., d ).
On aura ainsi la probabilité d’acceptation de l’étape i :
( (t+1) (t) (t+1)
)
(t) (t+1) πi (yi |θ−i ) qi (θi |yi , θ−i )
ρi (θi , θ−i , yi ) = M in 1, (t+1) (t+1) (t) (t+1)
πi (θi |θ−i ) qi (yi |θi , θ−i )
(t+1)
1. MH (π1 (θ1 |θ−1 ), q1 )
(t+1)
2. MH (π2 (θ2 |θ−2 ), q2 )
3. ...
(t+1)
4. MH (πd (θd |θ−d ), qd )
Propriétés
Les algorithmes de MH ne génèrent pas d’échantillon indépendant et identiquement distribués,
en particulier parce que la probabilité d’acceptation de yt dépend de θ(t) .
Remarque
Les algorithmes de Metropolis-Hastings peuvent théoriquement être utilisés pour simuler un
2.3. Méthodes MCMC 18
Algorithme 5
(0) (0) (0)
1. Initialiser θ(0) = (θ1 , θ2 , ..., θp )
2. A l’itération i : simuler
(i+1) (i) (i)
θ1 ∼ π1 (θ1 |θ2 , ..., θp )
(i+1) (i+1) (i)
θ2 ∼ π2 (θ2 |θ1 , ..., θp )
(i+1) (i+1) (i+1)
θp ∼ πp (θp |θ1 , ..., θp−1 )
3.i −→ i + 1 et aller en 2 .
Les densités conditionnelles πi sont appelées conditionnelles complètes.
Propriétés :
– Taux d’acceptation égal à 1. Toutes les valeurs simulées sont acceptées.
– Nécessite de connaı̂tre les lois conditionnelles de π, d’ou une connaissance préalable de cer-
taines propriétés probabilistes ou analytiques de π.
simulable.
-Par ailleurs, même si il ya la convergence, détecter le ”temps de chauffe” est loin d’être évident.
-MCMC est couteuse en temps de calcul.
2.4.1 Introduction
Population Monte Carlo est le très récent et puissant algorithme introduit initialement par
Cappé et al. en (2004) pour traiter le problème de reconstruction de signal dans un canal-
ionique ; puis amélioré par Douc et al. en (2005) et très récemment Celeux et al. en (2006) ont
également mis à profit cette méthode pour étudier des modèles à données manquantes [7].
PMC est une amélioration du schéma d’échantillonnage préférentiel classique en lui introduisant
une dimension itérative assurant l’adaptation de la loi instrumentale q(y|θ) à la densité cible
π(θ|y). Cette adaptation est implémentée de façon séquentielle [7] : au pas t de l’algorithme,
M réalisations de θ sont simulées à partir d’une densité instrumentale courante dépendante des
M réalisations du pas t − 1. Ainsi l’estimateur IbT asymptotiquement non biaisé de (3.8) sera
h
comme suit :
T M
T 1 X X (j) (j)
Ih =
b w h(θt ), (2.10)
T t=1 j=1 t
(j)
où wt est le poids normalisé de la particule j à la date t obtenu à partir de l’algorithme qui
sera introduit plus tard.
par
M
X
Ibh = wi h(θi ); (2.12)
i=1
2.4. Méthodes PMC 20
où
ri π(y|θi )π(θi )
wi = PM et ri = . (2.13)
j=1 rj
q(θi )
1. Les méthodes statiques, où q(θ) est déterminée de façon unique en préalable à la simu-
lation.
2. Les méthodes adaptatives, c’est la méthode PMC.
(1) (M )
1. Étape 0 : Choix de (θ0 , ..., θ0 );
2. Étape t (t=1,...,T) :
Pour i=1,...,M :
2.4. Méthodes PMC 21
(i) (i)
(i) (i) π(y|θt )π(θt )
• Générer θt∼ qit (θ) et calculer rt = (i)
;
qit (θt )
(i) (i) P (k) (i) (i)
• Calculer ωt = rt / M k=1 rt et ré-échantillonner les θt en utilisant les poids ωt ;
• Construire qi(t+1) à partir de l’échantillon courant ;
3. Aprés avoir itéré T fois l’algorithme, un estimateur asymptotiquement non biaisé de l’intégrale
(2.8) est donné dans la formule (2.10).
Chapitre 3
Applications
Introduction
La loi de Weibull nommée d’après walodi weibull en 1951, est une loi de probabilité continue,
elle est un cas spécial de loi d’extremum généralisée au même titre que la loi de Gumbel ou la
loi de Fréchet.
La distribution de Weibull est souvent utilisée dans le domaine de l’analyse de la durée de
vie, grâce à sa flexibilité : comme dit précédemment, elle permet de représenter au moins
approximativement une infinité de loi de probabilité.
3.1 Modèle
Dans cette partie nous présentons les cinq fonctions équivalentes de la loi de Weibull à deux
paramètres α et β
Fonction de densité f :
Une variable aléatoire continue X suit une loi de Weibull de paramètres α et β, si elle admet
pour densité de probabilité la fonction :
x !β
β x β−1 −
f (x; α, β) = e α .
α α
Où
• α > 0 : le paramètre d’échelle.
• β > 0 : le paramètre de la forme.
3.1. Modèle 23
Fonction de répartition F :
On dit que F est une fonction de répartition de la variable aléatoire X qui suit une loi de
Weibull à deux paramètres α, β, si F est donnée par :
x !β
−
F (x; α, β) = 1 − e α , α, β, x > 0
Fonction de fiabilité R :
Soit X une variable aléatoire continue de loi de Weibull de fonction de répartition F et de
densité de probabilité f . Sa fonction de fiabilité est définie par :
x !β
−
R(x) = 1 − F (x) = e α
- On considère loi a priori des paramètres α et β est donnée par la formule suivante :
c
π(α, β) = β −a α−b e− α , a > 1 ∧ b, c > 0
RR
m(x) = Θ
L(x; α, β)π(α, β)dαdβ est dite loi marginale
d’où
dans cette partie on considère la fonction de perte quadratique, Linex. Le tableau suivant
présente les deux fonctions de perte et l’expression de l’estimateur bayésien avec le risque a
posteriori correspondant,
RR
απ(α, β|x)dαdβ
α
bQ = Eπ (α|x) = RR
π(α, β|x)dαdβ
1 Pn c
n (− xβ
i− )
−nβ−b β
RR n−a β−1
e α i=1 α dαdβ
Q
αβ α xi
i=1
=
1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dαdβ
Q
β n−a α−nβ−b
i=1
1 P n c
n (− xβ
i − )
β n−a α−nβ−b+1 xi β−1 e αβ i=1
RR
α dαdβ
Q
i=1
= .
1 P n c
n (− xβ
i − )
xi β−1 e αβ i=1
RR
α dαdβ
Q
β n−a α−nβ−b
i=1
I Le risque a posteriori :
bQ )2 )
αQ ) = Eπ ((α − α
P R(b
2
= Eπ (b
αQ αQ + α 2 )
− 2αb
2
=α
bQ αQ Eπ (α) + Eπ (α2 ).
− 2b
RR
βπ(α, β|x)dβdα
βQ = Eπ (β|x) = RR
b
π(α, β|x)dβdα
1 Pn c
n (− xβ
i− )
−nβ−b β
RR n−a β−1
e α i=1 α dβdα
Q
ββ α xi
i=1
=
1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dβdα
Q
β n−a α−nβ−b
i=1
1 P n c
n (− xβ
i − )
β n−a+1 α−nβ−b xi β−1 e αβ i=1
RR
α dβdα
Q
i=1
= .
1 P n c
n (− xβ
i − )
xi β−1 e αβ i=1
RR
α dβdα
Q
β n−a α−nβ−b
i=1
3.3. Estimation Bayésienne sous la fonction de perte Linex 27
I Le risque a posteriori :
I Le risque a posteriori :
P R(b αQ − α
αL ) = r(b bL )
Où : α
bQ et α
bL sont les estimateurs Bayésiens de paramètre α sous les fonctions de perte qua-
dratique et Linex respectivement.
3.3. Estimation Bayésienne sous la fonction de perte Linex 28
1
βbL = − ln[Eπ (e−rβ )], r 6= 0
r RR
1 e−rβ π(α, β|x)dαdβ
= − ln[ RR ]
r π(α, β|x)dβdα
1 Pn c
n (− xβ
i− )
−rβ −nβ−b β
RR n−r β−1
e α i=1 α dβdα
Q
e β α xi
1 i=1
= − ln[ ]
r 1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dβdα
Q
β n−r α−nβ−b
i=1
1 P n c
n (− xβ
i − −rβ)
β n−r α−nβ−b xi β−1 e αβ i=1
RR
α
Q
dβdα
1 i=1
= − ln[ ].
r 1 P n c
n (− xβ
i− )
β
RR
xi e α α dβdα
Q
β n−r α−nβ−b β−1 i=1
i=1
I Le risque a posteriori :
•On peut pas calculer l’expression analytique de ces estimateurs, c’est pour ça, on utilise des
méthodes numériques pour trouver les valeurs des estimateurs Bayésiens des paramètres α et
β ainsi que leurs risque a posteriori.
3.3.1 Simulation
-Dans cette partie, on va générer un n-échantillon de la loi de Weibull à deux paramètres α
et β.
On prend des différentes tailles d’échantillon.
On suppose que : a = 2, b = c = 1 (les paramètres de la loi a priori)
On suppose aussi que : α = 1 et β = 2.
et on utilise les différentes méthodes numériques pour calculer les estimateurs Bayésien des
3.3. Estimation Bayésienne sous la fonction de perte Linex 29
paramètres ainsi que leurs risques a posteriori sous différentes fonctions de pertes (quadratique
et Linex ).
On va commencer par une des méthodes MCMC en particulier l’algorithme de Metropolis-
Hastings.
Le tableau suivante représente les estimateurs Bayésien des paramètres α et β sous la fonc-
tion de perte quadratique (avec leurs erreurs a posteriori ) obtenus en utilisant l’algorithme de
Metropolis-Hastings.
On pose : α =1, β =2
n α
bQ (P R(b
αQ )) βbQ (P R(βbQ ))
n=10 1.0779 (0.0060) 2.0348(0.0012)
n=20 1.0443(0.0019) 2.0299 (0.00089)
n=50 1.0251(0.00063) 2.0162(0.00026)
n=100 1.2161(0.6143) 2.4261(0.4768)
Les estimateurs bayesiens des paramètres α et β (avec leurs erreurs a posteriori) sous la fonction
de perte Linex (avec r = −2) sont donnés dans le tableau suivant :
n α
bL (P R(b
αL )) βbL (P R(βbL ))
n=10 1.0544 (-0.0471) 2.0536 (0.0375)
n=20 1.0299(-0.0288) 2.0250(-0.0097)
n=50 1.0317(0.01317) 2.0235(0.0146)
n=100 1.2333(0.0343) 2.8798(0.9073)
Remarque :
On remarque que on a des bons estimateurs des paramètres de la loi de Weibull sous la fonction
de perte quadratique et Linex avec différentes tailles d’echantillons.
3.3. Estimation Bayésienne sous la fonction de perte Linex 30
En utilisant l’algorithme de PMC générale, on obtient les résultats données dans les tableaux
ci-dessus :
1 - Sous la fonction de perte Quadratique :
n α
bQ (P R(b
αQ )) βbQ (P R(βbQ ))
n=10 1.0549 (0.0035) 2.0032(1.08 ∗ 10−5 )
n=20 1.1605(0.0257) 1.8723(0.0162)
n=50 0.9012(0.0097) 2.0897(0.0080)
n=100 1.0084(7.11 ∗ 10−5 ) 2.1185(0.01406)
n α
bL (P R(b
αL )) βbL (P R(βbL ))
n=10 0.5936 (0.4658) 1.0725 (0.9307)
n=20 0.6352(0.5253) 1.0387(0.8336)
n=50 0.5398(0.3614) 1.1330(0.9566)
n=100 0.06003(0.4080) 1.1642(0.9543)
Discussion :
En utilisant les méthodes MCMC (en particulier l’algorithme de Metropolis-Hastings) on ob-
tient des bons estimateurs des paramètres de la loi de Weibull sous la fonction de perte qua-
dratique et Linex avec différentes tailles d’echantillons (le risque a posteriori tend vers 0).
Mais, par les méthodes PMC, on obtient aussi des bons estimateurs des paramètres sous la fonc-
tion de perte quadratique (petit risque a posteriori ) mais ce n’est pas le cas pour la fonction
de perte Linex.
3.3. Estimation Bayésienne sous la fonction de perte Linex 31
Conclusion et Perspectives
Dans cet travail, nous nous somme intéresses à une distribution de Weibull à deux paramètres
pour une estimation bayésienne des paramètres en utilisant un plan des données complètes et
une loi a priori conjuguée naturelle sur les paramètres et sous deux fonctions de perte :
la fonction de perte quadratique et la fonction de perte Linex. Une étude par simulation à
été réalisée et les méthodes MCMC et PMC nous donne des bons estimateurs surtout sous la
fonction de perte quadratique avec différentes tailles d’échantillon.
En perspectives, ce travail peut-être élargi pour des données censurées où progressivement cen-
surée et sous, aussi, on peut refaire la même étude mais en utilisant balanced loss functions.
Résumé
Ce travail est dédié à l’étude d’estimation des paramètres. le modèle auquel on s’intéresse
est le modèle de Weibull à deux paramètres. l’approche utilisée est une approche bayésienne
avec une fonction de perte symétrique (la fonction de perte quadratique ), puis une fonction de
perte asymétrique dont la fonction de perte Linex. en utilisant des données complètes et une loi
a priori conjuguée naturelle pour les paramètres. l’expression des estimateurs bayésiens reste
sous forme d’intégrales, c’est pourquoi, nous utilisons les méthodes de Monte-Carlo (MCMC)
et les méthodes PMC.
Ces méthodes numériques nous permis de trouver la valeur des chaque estimateurs ainsi que
son risque a posteriori.
Mots clé :
bayésien - densité a posteriori - MCMC - PMC - la loi de Weibull.
Abstract
this work is dedicated to the statistical estimation of the parameters. we consider the Weibull
model with two parameters. we study the estimation problem by applying a bayesien approach
using quadratic loss function, then the asymetric loss function (Linex loss function). we use
completed data and conjugate prior. The bayesian estimators is given in integral form to which
we apply simulation techniques suchas MCMC and PMC methods.
this numerical methods given the values of each estimators and his posterior risk.
Key-Words :
bayesian - posterior density - MCMC - PMC - Weibull model.
Annexe 1
Algorithme de Metropolis-Hastings
N=1000
H1=numeric(N)
H2=numeric(N)
n=10 ;alpha=1 ;beta=2
t=numeric(N)
for(k in 1 :N){
vec=rweibull(n,alpha,beta)
vec=sort(vec)
t=vec
a=2 ;b=1 ;c=1 ;aa=4
f = f unction(x, y){(y (n−a) ) ∗ (x(−n∗y−b) ) ∗ prod(t(y−1) ) ∗ exp((−x(1/y) ) ∗ (sum(t)y ) − (c/x))}
q = f unction(x, y){(x(aa/2−1) ) ∗ exp(−x/2) ∗ (y (aa/2−1) ) ∗ exp(−y/2)}
M=500 ;ind=N*2
X=matrix(rep(0,ind),ncol=2,nrow=M)
Y=numeric(2)
X[1,1]=1 ;X[1,2]=1
for(i in 2 :M){
Y=rchisq(1,2)+c(1,2)
val=(f(Y[1],Y[2])*q(X[i-1,1],X[i-1,2]))/(q(Y[1],Y[2])*f(X[i-1,1],X[i-1,2])) ;
alpha0=min(1,val)
u=runif(1)
3.3. Estimation Bayésienne sous la fonction de perte Linex 35
if(u<alpha0)
X[i,1]=Y[1] ;X[i,2]=Y[2]
else
X[i,1]=X[i-1,1] ;X[i,2]=X[i-1,2]
} H1[k]=mean(X[,1])
H2[k]=mean(X[,2])
alphaQ=mean(H1)
betaQ=mean(H2)
alphaQ ;betaQ
PRalphaQ=(alphaQ-alpha)2
PRbetaQ=(betaQ-beta)2
PRalphaQ ;PRbetaQ
r=-2
alphaL =(-1/r)*(log(mean(exp(-r*X[, 1]))))
betaL =(-1/r)*(log(mean(exp(-r*X[, 2]))))
alphaL ;betaL
PRalphaL = r*(alphaQ - alphaL)
PRbetaL = r*(betaQ - betaL)
PRalphaL ;PRbetaL
3.3. Estimation Bayésienne sous la fonction de perte Linex 36
M=200
T=15 ;n=10 ;alpha=1 ;beta=2
vec=rweibull(n,alpha,beta)
t=sort(vec)
t
X=matrix(0,ncol=M, nrow=T+1)
Y= matrix(0,ncol=M, nrow=T+1)
r=matrix(0,ncol=M, nrow=T+1)
w=matrix(0,ncol=M, nrow=T+1)
histX=0
histY=0
vrais=0
X[1,]=rchisq(M,1)
Y[1,]=rchisq(M,1)
t< −1
while (t <= T){
X[t+1,]=rweibull(M,alpha,beta)
Y[t+1,]=rweibull(M,alpha,beta)
for(i in 1 :M){
vrais[i]=prod(dweibull(vec,X[t,],alpha,beta))
r[t+1,]=(vrais ∗ dgamma(X[t + 1, ], alpha, beta))/(dchisq(vec, X[t, ], alpha, beta))
r[t+1,]=(r[t+1,]/sum(r[t+1,]))
X[t+1,]=sample(X[t+1,], M, replace = TRUE, prob =r[t+1,])
Y[t+1,]=sample(Y[t+1,], M, replace = TRUE, prob =r[t+1,])
histX=histX+sum(r[t+1,]*X[t+1,])
histY=histY+sum(r[t+1,]*Y[t+1,])
t=t+1
}
alphaQ=mean(X[1,])
betaQ=mean(X[2,])
3.3. Estimation Bayésienne sous la fonction de perte Linex 37
alphaQ
betaQ
PR1=(alphaQ-alpha)2
PR2=(betaQ-beta)2
PR1 ;PR2
r=1
alphaL=(-1/r)*(log(mean(exp(-r*X[1,]))))
betaL=(-1/r)*(log(mean(exp(-r*X[2,]))))
PR3=r*(alphaQ-alphaL)
PR4=r*(betaQ-betaL)
PR3 ;PR4
Annexe 2
Risque fréquentiste
On dira qu’une décision est une bonne décision si elle conduite à un coût nul.
Autrement dit, une bonne décision est solution de l’équation
L(θ, δ(x)) = 0,
θ étant inconnu, on ne peut évidemment pas résoudre cette équation .Classer les décisions par
la seule considération du coût est donc impossible. Celui-ci ne prend pas compte l’information
apportée par le modèle f (x|θ). Ces remarques conduisent à considérer la moyenne de la perte,
c’est le risque fréquentiste.
Définition
On appelle risque fréquentiste le coût moyen (l’espérance mathématique)du coût d’une règle de
décision Z
R(θ, δ) = Eθ (L(θ, δ)) = L(θ, δ)dPθ (x)
R(θ, δ1 ) ≤ R(θ, δ2 ),
Méthode de rejet-acceptation
Si l’on désire générer des valeurs d’une variable aléatoire avec une densité f (x), alors que
ses propriétés ne sont pas connues, et sa fonction de répartition associée n’est pas inversible
d’une manière explicite.
La méthode de rejet-acceptation est utilisée s’il existe une fonction g(x) ayant un domaine
identique à celui de f et une constante C positive [19], telle que :
f (x) ≤ Cg(x) , ∀ x ∈ Θ.
C = max f (x)/g(x).
Θ
ρ = f (x)/Cg(x).
Remarquons que si g(x) est proche de zéro, alors C devient très grand et le taux d’acceptation
moyen diminue. L’efficacité de l’algorithme dépend donc de l’adéquation entre f et g.
Modèle
Fonction de densité f :
Une variable aléatoire continue X suit une loi de Weibull de paramètres α et β, si elle admet
pour densité de probabilité la fonction :
x !β
β x β−1 −
f (x; α, β) = e α .
α α
3.3. Estimation Bayésienne sous la fonction de perte Linex 40
Où
• α > 0 : le paramètre d’échelle.
• β > 0 : le paramètre de la forme.
Fonction de répartition F :
On dit que F est une fonction de répartition de la variable aléatoire X qui suit une loi de
Weibull à deux paramètres α, β, si F est donnée par :
x !β
−
F (x; α, β) = 1 − e α , α, β, x > 0
Fonction de fiabilité R :
Soit X une variable aléatoire continue de loi de Weibull de fonction de répartition F et de
densité de probabilité f . Sa fonction de fiabilité est définie par :
x !β
−
R(x) = 1 − F (x) = e α
[1] Tierney, L., Kadane, J.B. (1986). Accurate aproximations for posterior moments and
marginal densities, J. Amer. Statist. Assoc., 81, 82-86.
[2] Lindley, D.V, (1980). Approximate Bayesian methods . Trabajos Estadist. Inves-
tigacion Oper. 31, 232-245.
[3] N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller, and E. Tel-
ler. Equation of state calculations by fast computings machines. Chemical Physics,
21(6) :1087–1092, June 1953.
[4] W.K. Hastings. Monte Carlo Sampling methods using Markov chains and their appli-
cations, volume 57. Biometrica, April 1970. pages 97-109.
[5] S. Geman and D. Geman. Stochastic relaxation, gibbs distributions, and the bayesian
restoration of images. 6 :721–741, 1984.
[6] L. Tierney. Markov chains for exploring posterior distributions (with discussion). Annals
of Statistics, 1994.
[7] N. Bousquet. Analyse bayésienne de la durée de vie de composants industriels. Décembre
2006.
[8] A. Guillin, J.M. Marin, and C.P. Robert. Estimation bayésienne approximative par
échantillonnage préférentiel. rapport de recherche, Université Paris IX Dauphine, 2005.
[9] Boudjerda. K ,”Etude de l’estimateur de Bayes sous différentes fonctions de perte” .
Thèse de doctorat en Mathématiques, Université Badji Mokhtar Annaba, 2016/2017.
[10] Belaı̈d. N et Djerroud. L ,”Les méthodes de Monte Carlo : (MCMC et PMC). Ap-
plications” . mémoire master Recherche Opérationnelle, Université A. Mira- Béjaia, Juin
2013.
Bibliographie 42