0% ont trouvé ce document utile (0 vote)
21 vues47 pages

Mat Sta 04-21

Ce mémoire présente une étude sur l'estimation bayésienne, en se concentrant sur l'application de la loi de Weibull à deux paramètres. Il aborde les fondements de la statistique bayésienne, les méthodes numériques pertinentes, et propose des simulations pour illustrer les estimations bayésiennes sous différentes fonctions de perte. Le travail est structuré en trois chapitres, chacun explorant des aspects essentiels de l'estimation bayésienne et des méthodes associées.

Transféré par

mouhammedfomba4
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Statistiques avancées,
  • Simulation numérique,
  • Modèles de régression,
  • Estimation bayésienne asymptot…,
  • Estimation bayésienne paramétr…,
  • Statistiques descriptives,
  • Estimation bayésienne,
  • Analyse de risque,
  • Tests d'hypothèses,
  • Simulation
0% ont trouvé ce document utile (0 vote)
21 vues47 pages

Mat Sta 04-21

Ce mémoire présente une étude sur l'estimation bayésienne, en se concentrant sur l'application de la loi de Weibull à deux paramètres. Il aborde les fondements de la statistique bayésienne, les méthodes numériques pertinentes, et propose des simulations pour illustrer les estimations bayésiennes sous différentes fonctions de perte. Le travail est structuré en trois chapitres, chacun explorant des aspects essentiels de l'estimation bayésienne et des méthodes associées.

Transféré par

mouhammedfomba4
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Statistiques avancées,
  • Simulation numérique,
  • Modèles de régression,
  • Estimation bayésienne asymptot…,
  • Estimation bayésienne paramétr…,
  • Statistiques descriptives,
  • Estimation bayésienne,
  • Analyse de risque,
  • Tests d'hypothèses,
  • Simulation

République Algérienne Démocratique et Populaire

Ministère de l’enseignement Supérieur et de la Recherche Scientifique Université Mohammed


Seddik Ben Yahia - Jijel

Faculté des Sciences Exactes et Informatique


Département de Mathématiques

Mémoire de fin d’études


Présenté pour l’obtention du diplôme de

Master
Spécialité : Mathématiques.
Option : Probabilités et Statistique.
Thème

Estimation bayésienne : Simulation


numériques

Présenté par :
BOUKERRA AMMAR

Devant le jury composé de :

Abdi Zineb M.A.A Université de Jijel Président


Boudjerda Khawla M.C.B Université de Jijel Encadreur
Ghaouil Djawida M.A.A Université de Jijel Examinateur

Promotion 2020/2021
Remerciements

Tout d’abord, nous remercions Allah le tout puissant pour son aide et pour nous avoir

guidé pour mener à bien ce travail

La première personne que nous tenons à remercier est sont les parents

La deuxième personne que nous tenons à remercier est notre encadreur Mme

∗Boudjerda Khawla∗

Nos vifs remerciements vont à tous enseignants qui nous suivis nos cinq années

d’études à l’université

Enfin, nous remercions toutes les personnes qui auraient contribué d’une manière ou

d’une autre à la réalisation de ce travail.


Table des matières

1 Fondement de la statistique bayésienne 1


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Espace de la théorie de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Distribution a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Choix de la distribution a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.1 Distribution a priori conjuguée . . . . . . . . . . . . . . . . . . . . . . . 5
1.4.2 Distribution a priori impropre . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.3 Distribution a priori de Jeffrey . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Fonctions de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1 Fonction de perte quadratique . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.2 Fonction de perte 0 − 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5.3 Fonction de perte Linex . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.4 Fonction de perte de DeGroot . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5.5 Fonction de perte d’entropie . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Risque de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Méthodes numériques utiles dans le cadre bayesien 12


2.1 La Méthode de Lindley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 La Méthode de Kadane et Tierney . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Méthodes MCMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Echantillonneur de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Méthodes PMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

ii
Table des matières TABLE DES MATIÈRES

2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2 Méthode d’échantillonnage préférentiel . . . . . . . . . . . . . . . . . . . 19
2.4.3 Algorithme PMC général . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Applications 22
3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1.1 La fonction de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Estimation Bayésienne sous la fonction de perte quadratique . . . . . . . . . . . 26
3.3 Estimation Bayésienne sous la fonction de perte Linex . . . . . . . . . . . . . . . 27
3.3.1 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Bibliographie 40

iii
Introduction générale

La statistique bayésienne est une approche statistique fondée sur l’inférence bayésienne,
Où la probabilité exprime un degré de croyance en un évènement. Le degré de croyance peut-
être basé sur des connaissances a priori, telles que les résultats d’expérience antérieurs, ou
sur des croyances personnelles concernant l’évènement. La perspective bayésienne diffère d’un
certain nombre d’autres interprétations de la probabilité, comme l’interprétation fréquentiste
qui considère la probabilité comme la limite de la fréquence relative d’un évènement après de
nombreux essais.
Les méthodes statistiques bayésiennes reposent sur le théorème de Bayes pour calculer et mettre
à jour les probabilités après l’obtention de nouvelles données. Le théorème de Bayes décrit la pro-
babilité conditionnelle d’un évènement basée sur des informations ou des croyances antérieures
sur l’évènement
Dans ce travail, on s’intéresse à l’estimation bayésienne des paramètres de la loi de Weibull à
deux paramètres en utilisant un plan des données complètes et une loi a priori conjuguée natu-
relle sur les paramètres, les fonctions de perte utilisées sont une fonction de perte quadratique,
puis une fonction de perte asymétrique celle de Linex.
Ce travail est réparti en trois chapitres : dans le premier chapitre on donne quelques notions
de la statistique bayésienne, le deuxième chapitre présente les diffères méthodes numériques
utiles dans le cadre de la statistique bayésienne telles que la méthode de Lindley, les méthodes
MCMC et les méthodes PMC. Le dernier chapitre est une application sur la loi de Weibull à
deux paramètre, et on a utilisés quelques méthodes numériques cités dans le deuxième chapitre
pour calculer les estimateurs bayésiens des paramètres, ainsi que leurs risque a posteriori.

iv
Chapitre 1
Fondement de la statistique bayésienne

1.1 Introduction
La statistique est un art interdisciplinaire de la quantification sous incertitudes utilisé par
les physiciens, les économistes, les ingénieurs, les biologistes, les assureurs, les psy-chologues,
les météorologues, etc. Tous les praticiens soucieux de bâtir, sur des fondations solides, un pont
entre théorie et données expérimentales. Depuis un siècle, la statistique s’est considérablement
développée, initiant une révolution dans les modes de pensée, car elle porte un langage de
représentation du monde et de ses incertitudes.
C’est aujourd’hui une science mathématique dont l’objectif est de décrire ce qui s’est produit et
de faire des projections quant à ce qu’il peut advenir dans le futur. Parfois, la situation peut être
simplement décrite par quelques représentations graphiques d’analyse élémentaire des données.
Bien souvent, le problème est beaucoup plus compliqué car de multiples facteurs d’influence
doivent être pris en compte.
Schématiquement, on construit deux ensembles avec ces facteurs. Un premier paquet contient
les facteurs dits explicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail.
En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas, représenter
leurs effets perturbateurs au cas par cas et, de ce fait, le jargon des modélisateurs le baptise
sous le terme bruit, décrit alors de façon plus grossière par ses caractéristiques statistiques
générales. Dans tous les cas, l’étude de la variabilité est au centre des débats : il s’agit d’abord
de caractériser l’influence des facteurs identifiés et ensuite de représenter et d’évaluer le bruit
résiduel dû à ces autres facteurs non pris en compte dans l’analyse de façon explicite. Dans
une telle situation, le statisticien classique utilise à la fois un raisonnement déterministe par
1.2. Espace de la théorie de décision 2

l’absurde, afin de proposer des valeurs acceptables pour les paramètres décrivant les effets des
facteurs explicatifs et un raisonnement probabiliste, pour traduire la variabilité des résultats
observés due au bruit. Ce mode de pensée s’appuie sur l’hypothèse de la réalité objective des
paramètres ainsi que sur l’interprétation de la probabilité comme limite des fréquences des
résultats observés.
Par contre, le statisticien bayésien utilise le même cadre de pensée pour traiter par le pari
probabiliste l’interaction de ces deux niveaux d’incertitudes : ignorance quant aux valeurs pos-
sibles des paramètres et l’aléatoire des bruits entachant les résultats expérimentaux. Choisir la
piste bayésienne paraı̂tra à certains inutilement trop sophistiquée si on se limite aux modèles
élémentaires (binomial, normal, etc.), pour ces cas d’école simples, l’approche fréquentiste est
facile (nombreux logiciels), et offre au praticien des résultats souvent très proches de ceux que
donnerait une analyse bayésienne avec une distribution a priori peu informative. Mais pour peu
que l’analyste souhaite prendre à bras le corps des problèmes plus proches de son réel quotidien,
apparaissent variables multiples, données manquantes, effets aléatoires, grandeurs latentes..., la
structure des modèles de la vie scientifique moderne se présente sous une forme où des couches
successives de conditionnement s’emboı̂tent, et pour lesquels l’approche bayésienne affirme sa
véritable pertinence.

1.2 Espace de la théorie de décision


Nous abrégerons ici, la théorie bayésienne de la décision statistique, qui distingue trois es-
paces.

Le premier espace est celui des états, c’est-à-dire les valeurs vraies ou mesurandes relatives
au système. Ces valeurs ne sont généralement pas connues directement, mais à travers le pro-
cessus de mesure. Les états seront notés θ et leur espace Θ.

Le deuxième espace est celui des observations ou des résultats de mesure. Ces résultats se-
ront notés x et leur espace X .

Le troisième espace est celui des stratégies.


1.2. Espace de la théorie de décision 3

Théorème de Bayes :

Le but étant de trouver une probabilité sur les états, alors que l’on ne dispose au départ
que d’une famille de probabilités sur les observations nous conduit à raisonner dans l’espace
produit des observations.
X ×Θ

La théorie générale de l’intégration montre que la donnée d’une probabilité de transition P (x|θ)
de Θ vers X ne suffit pas à obtenir une probabilité sur le produit. Il faut encore une probabilité
dite a priori π(θ). Dans ce cas, la probabilité conjointe sur le produit est définie par

P (x, θ) = P (x|θ)π(θ)

La probabilité conjointe ainsi construite induit une marginale. En particulier, la marginale sur
l’espace des observations sera nommée simplement marginale et sera définie par
Z
M (x) = P (x|θ)π(θ)dθ
Θ

Supposons maintenant que la mesure donne l’observation x. Il est possible de considérer la


partie de X × Θ, et considérer la probabilité conditionnelle induite par la conjointe sur cette
partie.
Alors, cette probabilité conditionnelle s’écrit :
P (x, θ) P (x|θ)π(θ) P (x|θ)π(θ)
π(θ|x) = = =R .
M (x) M (x) Θ
P (x|θ)π(θ)dθ

Cette probabilité conditionnelle est la probabilité a posteriori sur les états étant donné l’obser-
vation x.
Si le modèle est donné par une fonction de vraisemblance L(x, θ) et π(θ) par une densité f (θ),
on obtient la formule classique
L(θ|x)f (θ)
f (θ|x) = R
θ
L(θ|x)f (θ)dθ

Pour remonter de l’observation à l’état, la tentation est grande de lire cette fonction avec x
constant (le résultat effectif de la mesure) et θ variable. Selon l’approche fréquentiste, le meilleur
choix de l’état consiste à prendre celui qui maximise la fonction L.
C’est le principe du maximum de vraisemblance

θb = arg min L(θ|x)


1.3. Distribution a posteriori 4

1.3 Distribution a posteriori


La distribution a posteriori [9] est la quantité la plus importante dans l’inférence bayésienne.
Il contient toutes les informations disponibles sur le paramètre θ inconnu après savoir observé
les données X = x.

Soit X = x désigne la réalisation observée d’une variable aléatoire X avec la fonction de


densité f (x|θ).
Soit π(θ) est la densité a priori qui nous permet de calculer la fonction de densité π(θ|x) de la
distribution a posteriori en utilisant le théorème de Bayes :
f (x|θ)π(θ)
π(θ|x) = R
f (x|θ)π(θ)dθ
Le terme f (x|θ) est la fonction de vraisemblance. Puisque θ est aléatoire, nous conditionnons
explicitement sur une valeur spécifique θ et on écrit L(θ) = f (x|θ).
Le dénominateur peut-être écrit comme :
Z Z
f (x|θ)π(θ)dθ = f (x, θ)dθ = f (x).

qui souligne que cela ne dépend pas de θ. La quantité f (x) est connue comme la probabilité
marginale et est important pour le choix du modèle bayésien.
La densité de la distribution a posteriori est donc proportionnelle au produit de la vraisemblance
1
et la densité a priori de la distribution avec une constante de proportionnalité . Ceci est
f (x)
habituellement noté
π(θ|x) ∝ f (x|θ)π(θ).
1
Où ∝ représente ”est proportionnel à” et implique que R est la constante de nor-
R L(θ)π(θ)dθ
malisation pour assurer que : π(θ|x)dθ = 1. telle-que π(θ|x) est une fonction de densité valide.
L’inférence statistique à propos de θ est basée uniquement sur la distribution a posteriori. L’es-
timation ponctuelle appropriés sont les paramètres de la localisation, telles que la moyenne,
médiane ou le mode de la distribution a posteriori.
La moyenne a posteriori E(θ|x) est l’espérance de la distribution a posteriori
Z
E(θ|x) = θ π(θ|x)dθ.
Θ

Le mode a posteriori M od(θ|x) est le mode de la distribution a posteriori

M od(θ|x) = arg min π(θ|x).


θ
1.4. Choix de la distribution a priori 5

La médiane a posteriori M ed(θ|x) est la médiane de la distribution a posteriori ce est le nombre


α qui vérifié
Z α Z ∞
π(θ|x)dθ = 0.5 et π(θ|x)dθ = 0.5
−∞ α

1.4 Choix de la distribution a priori


L’inférence bayésienne permet la spécification probabiliste des croyances antérieures par le
biais d’une distribution préalable.
Il est souvent utile et justifié de restreindre l’éventail des possibles distributions a priori a une
famille spécifique avec un ou deux paramètres. Le choix de cette famille peut-être basée sur le
type de fonction de vraisemblance rencontré.

1.4.1 Distribution a priori conjuguée


Une approche pragmatique de choisir une distribution a priori est de sélectionner un membre
d’une famille spécifique de distributions telles que la distribution a posteriori appartient à la
même famille. Elle est appelée distribution a posteriori conjuguée.

Définition 1.4.1. (La distribution a priori conjuguée)


Soit L(x, θ) est la fonction de vraisemblance basée sur l’observation X = x. La classe G des
distributions est appelée conjuguée par rapport à L(x, θ), si la distribution a posteriori π(θ|x)
est dans G pour tout x chaque fois que la distribution π(θ) est dans G.

La famille G = {toutes les distributions} est conjuguée trivialement par rapport à toutes
fonction de vraisemblance. Dans la pratique, on essaie de trouver des petits ensembles G qui
sont spécifiques à la probabilité L(x, θ).

Le tableau suivant donne quelques exemples des distributions a priori avec la fonction de vrai-
semblance correspondante :
1.4. Choix de la distribution a priori 6

La vraisemblance La distribution a priori conjuguée La distribution a posteriori


X|θ ∼ Bin(n, θ) θ ∼ Be(α, β) θ|x ∼ Be(α + x, β + n − x)
X|θ ∼ Geom(θ) θ ∼ Be(α, β) θ|x ∼ Be(α + 1, β + x − 1)
X|π ∼ P o(eλ) λ ∝ G(α, β) λ|x ∼ G(α + x, β + e)
X|π ∼ exp(λ) λ ∼ G(α, β) λ|x ∼ G(α + 1, β + x)
X|µ ∼ N (µ, σ 2 connu) µ ∼ N (v, τ 2 ) µ|X ∼ N (( σ12 + 1 −1 x
τ2 ) ( σ2 + v 1
τ 2 ), ( σ 2 + 1 −1
τ2 ) )

X|σ 2 ∼ N (µconnu, σ 2 ) σ 2 ∼ IG(α, β) σ 2 ∼ IG(α + 12 , β + 12 (x − µ)2 )

Tab. 1.1 -Quelques distributions a priori pour différentes fonctions


de vraisemblance.

1.4.2 Distribution a priori impropre


La distribution a priori a un influence sur la distribution a posteriori. Si on veut minimiser
l’influence de la distribution a priori, il est courant de spécifier une a priori ”vague”, par exemple
avec une très grande variance.
Dans la limite cela peut conduire à une distribution préalable mauvaise avec une fonction de
densité qui n’intègre pas. En raison de la constante de normalisation manquante, ces fonctions
de densité sont généralement spécifiées en utilisant le signe de proportionnalité ” ∝ ”.
Si on utilise l’a priori impropre, alors il est nécessaire de vérifier que au moins la distribution
a priori est impropre. Si ça le cas, alors l’a priori impropre peuvent être utilisée dans l’analyse
bayésienne.

Définition 1.4.2. (Distribution a priori impropre)


Une distribution a priori avec une fonction de densité π(θ) ≥ 0 est appelée impropre si,
Z
π(θ)dθ = ∞
Θ

Ou
X
π(θ) = ∞
θ∈Θ

Pour un paramètre θ continue ou discret, respectivement.

1.4.3 Distribution a priori de Jeffrey


Dans certaines situations, il peut-être utile de choisir une distribution a priori qui ne donne
pas beaucoup d’informations sur le paramètre en raison de la connaissance préalable faible ou
1.5. Fonctions de perte 7

manquante.
Un premier choix naı̈f est un a priori uniforme πθ (θ) ∝ 1, dans ce cas, l’a posteriori est pro-
portionnelle à la fonction de vraisemblance. Noter qu’un a priori uniforme localement sera
incorrecte si l’espace de paramètre est pas borné.
Cependant, il existe des problèmes liés à cette approche. On suppose que φ = h(θ) est une
transformation différentiable de θ, qui a une loi a priori localement uniforme avec une densité
πθ (θ) ∝ 1. On utilise un changement de variable, on obtient l’a priori correspondant à φ.
dh−1 (φ)
πφ (φ) = πθ h−1 (φ) |

|

dh−1 (φ)
∝| |.

On note que ce terme est nécessairement constant. En effet, πφ (φ) sera indépendante de φ
seulement si h est linéaire. Si h est non linéaire, la densité a posteriori πφ (φ) dépend de φ et
ne sera pas (localement) uniforme. Cependant, si nous avons choisi une para-métrisation avec
φ dès le départ, nous avons choisi une a priori uniforme (localement) πφ (φ) ∝ 1.

Définition 1.4.3. (La distribution a priori de Jeffrey)


Soit X une variable aléatoire avec une fonction de vraisemblance L(x, θ) où θ est le paramètre
inconnu.
L’a priori de Jeffrey est définie comme suit
p
π(θ) ∝ J(θ)

Où J(θ) est l’information de Fisher. Cette dernière équation est nommée : la règle de
Jeffrey.
L’a priori de Jeffrey est proportionnelle à la racine carrée de l’information de Fisher, qui donne
une distribution a priori impropre.

1.5 Fonctions de perte

1.5.1 Fonction de perte quadratique


La fonction de perte quadratique est la fonction définie par :

L(θ, d) = (θ − d)2
1.5. Fonctions de perte 8

Une variante de cette fonction de perte est une fonction de perte quadratique pondérée (fonction
de perte quadratique généralisée) de la forme

L(θ, d) = ω(θ)(θ − d)2

ω(θ) est une fonction de θ.


Sous l’hypothèse d’un coût quadratique, l’estimateur de Bayes δ π (x) de θ associé à la loi a priori
π est la moyenne a posteriori de θ

δ π (x) = Eπ(.|x) (θ)

1.5.2 Fonction de perte 0 − 1


la fonction de perte 0 − 1 est l’application L définie par

0, si θ ∈ Θ0 avec Θ0 ∪ Θ1 = Θ
L(θ, δ(x)) =
1, si θ ∈ Θ
1

On trouve en utilisant cette fonction de perte, les résultats de la théorie des tests d’hypothèses.
Un problème de test est un problème de choix (de prise de décision) entre H0 : θ ∈ Θ0 et
H1 : θ ∈ Θ1 avec Θ0 ∪ Θ1 = Θ.
On définit donc de la manière suivante :
δ(x) = 1 : On accepte H0
δ(x) = 0 : On rejette H0 (ce ci ne dépend pas de θ)
On a un espace d’action de la forme A = {0, 1}
Soit w la région de rejet i.e le sous-ensemble de X qui conduit à rejeter H0 . On peut construise
une fonction de coût de la manière suivante : supposons θ ∈ Θ0 .
Si X ∈ W , on prend la décision de rejeter i.e δ(x) = 0, mais la décision n’est pas bonne on va
pénaliser et L(θ, δ(x)) = 1.
Si X n’appartient pas dans W , on ne rejette pas, on prend la décision δ(x) = 1, la décision est
bonne L(θ, δ(x)) = 0, Le coût s’écrit donc :

1 − δ(x) , si θ ∈ Θ0
L(θ, δ(x)) =
δ(x) , si θ ∈ Θ
1

Ce qu’on peut écrire : L(θ, δ(x)) = 1(x ∈ W ) et on calcule la fonction de risque :


Z
R(θ, δ) = E(L(θ, δ(x))) = L(θ, δ(x))dPθ (x) = Pθ (x ∈ W ), θ ∈ Θ0 .
Θ
On retrouve le risque de première espèce.
1.5. Fonctions de perte 9

1.5.3 Fonction de perte Linex


Une fonction de perte asymétrique très pratique est la fonction de perte Linex (Linear
exponential). Elle a été introduite par Varian (1975). Cette fonction de perte presque exponen-
tiellement d’un coté de zéro sous l’hypothèse que la perte minimale est obtenu pour δ(x)
b = θ,
la fonction de perte Linex pour θ, soit a

L(4) ∝ er4 − r 4 −1, r 6= 0

Où : 4 = (δ(x)−θ) où δ(x) est un estimateur du θ. Le signe de r représentant respectivement la


direction et le degré de symétrie (r > 0 : la surestimation est plus grave que la sous-estimation
et vice versa). Pour approche de zéro, la perte Linex est approximativement la fonction de perte
quadratique :

Eθ (L(δ(x) − θ)) ∝ erδ(x) Eθ (e−rθ ) − r(δ(x) − Eθ (θ) − 1)..............(∗)

Où Eθ (.) représente l’espérance a posteriori relative à la densité a posteriori de θ. L’estimateur


de Bayes δπ (x) qui minimise (∗). Pour trouver l’estimateur, nous dérivons l’équation (∗) par
rapport à δ(x), nous obtenons

d
(Eθ (L(δ(x) − θ))) = rerδ(x) − r
dδ(x)

En égalant cette expression à zéro, nous obtenons

e−rδ(x) Eθ (e(−rθ) ) = r.

Alors, l’estimateur de Bayes δbL (x) sous la fonction de perte Linex est :
1
δ(x) = − ln(Eθ (e−rθ ))
r R
1 e−rθ π(θ|x)dθ
= − ln R .
r π(θ|x)dθ
étant donné que Eθ (e−rθ ) existe et est finie.

1.5.4 Fonction de perte de DeGroot


DeGroot (1970) a introduit plusieurs types des fonctions de perte et est obtient les estima-
teurs de Bayes sous cette fonction de perte. Un exemple d’une fonction de perte symétrique est
1.6. Risque de Bayes 10

la fonction de perte de DeGroot définie par :


 2
θ − δ(x)
L(θ, δ(x)) = .
δ(x)
Sous cette fonction de perte, l’estimateur de Bayes est :
E π (θ2 |x)
δπ (x) = .
E π (θ|x)

1.5.5 Fonction de perte d’entropie


Galabria et Pulcini (1994) ont proposé une fonction de perte qui découle de la fonction de
perte Linex appelée la fonction de perte entropie est définie par
 p  
d d
LE (θ, d) ∝ − p ln − 1,
θ θ
qui a minimum lorsque d = θ.
L’estimateur de Bayes de paramètre θ sous cette fonction de perte est
 −1
δ(x) = Eθ (θ−p ) p

a)- Lorsque p = 1, l’estimateur de Bayes coı̈ncide avec l’estimateur de Bayes sous la fonction
(d − θ)2
de perte quadratique pondéré .
θ
b)- Lorsque p = −1, l’estimateur de Bayes coı̈ncide avec l’estimateur de Bayes sous la fonction
de perte quadratique.

1.6 Risque de Bayes


puisque l’approche bayésienne met à la disposition du statisticien une loi a priori π(θ), on
peut considérer la moyenne du risque fréquentiste i.e la moyenne du coût moyen suivant la loi
a priori : E π (R(θ, δ(x))).
Il s’agit du risque bayésien ou risque de Bayes que l’on note r(π, δ). On a :

r(π, δ) = E π (R(θ, δ))


Z
= R(θ, δ)π(θ)dθ
Θ
Z Z
= L(θ, δ(x))f (x|θ)dxπ(θ)dθ
Θ
Z Z X

= L(θ, δ(x))π(θ, x)f (x)dxdθ


Θ X
1.6. Risque de Bayes 11

On définit alors le risque a posteriori ρ(π, δ(x)) comme étant la moyenne du coût par rapport
à la loi a posteriori
Z
π(.|x)
ρ(π, δ(x)) = E [L(θ, δ(x))] = L(θ, δ(x))π(θ|x)dθ
Θ

Il s’agit d’une fonction de x.


On a le résultat suivant : Le risque de Bayes r(π, δ) est la moyenne de coût a posteriori ρ(π, δ(x))
suivant la loi marginale f (x).
Chapitre 2
Méthodes numériques utiles dans le cadre
bayesien

Dans ce chapitre, on va citer quelques principes des méthodes numériques utiles dans le
cadre bayésien, et spécialement les méthodes MCMC et PMC.

2.1 La Méthode de Lindley


Lindley (1980) a développé la procédure d’approximation [11], pour les intégrales de la forme

R
w(θ)exp{l(θ)}dθ
R (2.1)
v(θ)exp{l(θ)}dθ

avec θ = (θ1 , θ2 ....θm ), l(θ) = log{L(θ|x)} est le logarithme de fonction de vraisemblance, et


w(θ), v(θ) sont des fonctions arbitraires de θ.

si v(θ) est la densité à priori de θ et w(θ) = Φ(θ)v(θ), l’équation(2.1) donne l’espérance à


posteriori de Φ(θ) ; telle que :

R R
Φ(θ)exp{l(θ) + p(θ)}dθ Φ(θ)exp{Λ(θ)}dθ
E(Φ(θ)|x) = R = R (2.2)
exp{l(θ) + p(θ)}dθ exp{Λ(θ)}dθ
2.2. La Méthode de Kadane et Tierney 13

avec p(θ) = log v(θ) et Λ(θ) = log{π(θ|x)} = l(θ) + p(θ) est le logarithme de la distribution a
posteriori de θ, il est évident que le maximum de Λ(θ) = log{π(θ|x)} nous donne le mode à
postériori de θ. Lindley (1980) a obtenu l’expression requise pour E(Φ(θ)|x).
Prenons St = Φ(θ), En utilisant la méthode de Lindley, l’estimateur bayésien pour St est :
1X b ij + 1
X
St∗ = Φ(θ)
b + Φij (θ)τ Λijk (θ)τ
b ij τkl , (2.3)
2 2
Avec :

d2 Φ d3 Φ
Φij = , Λijk = , ......etc (2.4)
dθi dθj dθi dθj dθk

les τij sont les (i,j) ième éléments de l’inverse de la matrice Hessienne au signe négative. la
matrice des second dérivées pour Λ : {τij } = {−Λij }−1 , θb est le mode a posteriori.

2.2 La Méthode de Kadane et Tierney


Le rapprochement de Lindley [11] exige l’évaluation des dérivés du tiers de la fonction
vraisemblance ou de la densité a posteriori qui peut-être très fastidieux et exige une grande
précision de calcul. Tierney et Kadane (1986) ont donné une méthode alternative d’évaluation
du rapport des intégrales de la forme de l’équation (2.1) Soit, les deux expressions :

L(x; θ) + log(p(θ)) ∗ log Φ(θ) + log v(θ) + L(x; θ)


l= ,l = (2.5)
n n

Donc l’équation (2.1) prend cette forme :

exp{nl∗ }dθ
R
Θ
E(Φ(θ)|x) = R (2.6)
Θ
exp{nl}dθ

Pour plus de détails, voir Tierney et Kadane [1]. Alors que Lindley [2] élargit à la fois le
numérateur et le dénominateur de l’equation (2.2) au sujet d’un point commun (le mode a
posteriori), Tierney et Kadane (1986) ont développé chaque intégrale séparément sur le point
qui maximise l’intégrale. Cette méthode ne nécessite que les dérivées premières et deuxièmes de
2.3. Méthodes MCMC 14

la densité a posteriori. D’après Tierney et Kadane (1986), l’estimateur de Bayes dans l’équation
(2.6), dans le cas multi-paramétrique, prend la forme :

 P∗  21
| | h n oi
E(Φ(θ)|x)
b = P exp n l∗ (θb∗ ) − l(θ)
b ...........................(∗∗)
| |

ou θb∗ et θb maximisent l∗ et l respectivement, et ∗ et


P P
sont les inverses de l’Hessiennes de
∗ ∗
l et l au signe négative pour θb et θb respectivement.

P
donc :

−d2 l −d2 l
 
2
X  dα dαdβ 


=


 (2.7)
 −d2 l −d2 l 
dαdβ dβ 2

2.3 Méthodes MCMC


Les méthodes MCMC [10] sont publiée en 1953 par Metropolis et ses coauteurs [3], elle
est étendue en 1970 par Hastings[4]. En 1984, les frères Geman proposent l’échantillonneur de
Gibbs pour la restauration bayésienne d’images, Cet échantillonneur est développé par Gelfand
et Smith[5]. C’est au début des années 90, après le développement et la démocratisation de
l’outil informatique, que ces outils rencontrent un important succès [6].
En statistique bayésienne, θ est considéré comme un vecteur aléatoire de densité π(θ) (loi a
priori sur θ). L’estimation bayésienne est basée sur le calcul de la loi a posteriori de θ dont
la densité est notée π(θ|y). Les estimateurs bayésiens sont de la forme Eπ (h(θ)) où Eπ est
l’opérateur des espérances mathématiques pour la loi π(θ|y).
Z
Ih = Eπ (h(θ)) = h(θ)π(θ|y)dθ. (2.8)
Θ

Souvent, le calcul explicite, de la densité π(θ|y) n’est pas envisageable ; ainsi de nombreuses
méthodes d’approximation ont été proposées et la plus utilisé est celle de MCMC dont son
principe est de construire une chaı̂ne de Markov ergodique de réalisations θ(1) , .... , θ(t) , .......
2.3. Méthodes MCMC 15

, qui a pour distribution stationnaire π(θ|y) ; ainsi l’estimateur qui sera obtenu est Ibh :
T
1X
Ih =
b h(θ(t) ). (2.9)
T t=1

La convergence de Ibh vers Ih est assurée par l’ergodicité de la chaı̂ne de Markov.


Parmi les méthodes MCMC, l’algorithme de Metropolis-Hastings (Hastings 1970) et l’algo-
rithme de Gibbs (Geman et Geman 1984) sont les plus utilisées et ont donné lieu a de nombreux
algorithmes dérivés.

2.3.1 Algorithme de Metropolis-Hastings


Principe
Le principe est de construire une chaı̂ne de Markov ergodique de loi stationnaire π(θ|y) partant
de θ(0) , on génère une chaı̂ne θ(t) à partir d’un noyau de transition de loi stationnaire π(θ|y), qui
garantit de plus la convergence en loi vers π(θ|y). Pour T ”assez grand” on peut considérer
θ(T ) comme distribué suivant π(θ|y) et obtenir ainsi un échantillon θ(T ) qui est effectivement
distribué suivant π(θ|y).

Algorithme 1

L’algorithme de Metropolis-Hastings consiste à simuler un échantillon selon une distribu-


tion objectif π(θ|y), à partir d’une distribution conditionnelle q(y|θ). Pour la mise en œuvre de
l’algorithme, on doit pouvoir simuler facilement à partir de la distribution q(.|θ), et sa densité
q(y|θ) doit être disponible analytiquement (au moins à une constante multiplicative près) ou à
π(θ|y)
défaut, le rapport doit être fini.
q(y|θ)

- Étape 1 Pour t = 0, on initialise θ(0) le premier élément de la chaı̂ne ;

- Étape 2 Pour t ∈ {1...T } ;


• On génère u ∼ U[0,1] ;

• On génère yt selon q(.|θ(t−1) ) ;


2.3. Méthodes MCMC 16

π(yt ) q(θ(t) |yt )


 
• On calcul ρ(θ , yt ) = M in 1,
(t)
π(θ(t) ) q(yt |θ(t) )

• Puis, on prend


yt , avec la probabilité ρ(θ(t) , yt ) si u < ρ(θ(t) , yt )





θ(t+1) =



θ(t) ,

avec la probabilité 1 − ρ(θ(t) , yt ) sinon

- Étape 3 t=t+1 et retourner à l’étape 2 ;

1 PT
- Étape 4 finalement calculer l’estimateur de Bayes Ibh = h(θ(t) ).
T t=1

Algorithme 2 (Metropolis-Hastings indépendant)

L’algorithme repose sur l’utilisation de la loi instrumentale q(y|θ(t) ) indépendamment de


θ(t) , c’est une généralisation de l’algorithme d’acceptation-rejet.
1. Générer yt selon q(y) ;
2. Prendre

π(yt ) q(θ(t) )
 


 yt , avec la probabilité M in 1,


 π(θ(t) ) q(yt )
θ(t+1) =




θ(t) , sinon

Algorithme 3 (Metropolis-Hastings à marche aléatoire)

Cette variante prend en compte la valeur précédemment générée pour simuler la suivante,
la loi instrumentale q(y|θ) sera ainsi écrite q(y − θ) = q(θ − y), c’est-à-dire que yt peut s’écrire
θ(t) + t , tel que t étant une perturbation aléatoire de q, indépendante de θ(t) , ainsi la chaı̂ne
de Markov générée associée à q est une marche aléatoire.
le principe de cet algorithme est le suivant :
1. Étant donné θ(t)
2.3. Méthodes MCMC 17

2. Générer yt ∼ q(y − θ(t) ).


π(yt ) q(θ(t) − yt )
 
(t)
3. On calcul ρ(θ , yt ) = M in 1,
π(θ(t) ) q(yt − θ(t) )
4. Poser 
yt , avec la probabilité ρ(θ(t) , yt )





θ(t+1) =



θ(t) , avec la probabilité 1 − ρ(θ(t) , yt )

Algorithme 4 (Metropolis-Hastings à une variable à la fois )

Quand le paramètre à simuler est de dimension grande, on est contraint de trouver une den-
sité instrumentale multidimensionnelle engendrant une chaı̂ne ayant le comportement d’une
chaı̂ne de Markov. Pour cela on peut utiliser un algorithme dit à une variable à la fois.
(t) (t) (t)
Le principe est de simuler les composantes (θ1 , θ2 ...., θd ) une par une. À chaque itération de
(t)
l’algorithme, on fait évoluer d composantes θi en utilisant d étapes de l’algorithme Metropolis-
Hastings , ce qui signifie que pour obtenir le nouveau vecteur θ(t+1) il faudra utiliser d densités
instrumentales qi (.|.).
(t) (t+1)
Pour simuler une composante θi il faut utiliser la loi instrumentale qi (yi |θ−i ) et la loi cible
(t+1) (t+1) (t+1) (t+1) (t+1) (t+1)
πi (θi |θ−i ) , où : θ−i = (θ−i , ..., θi−1 , θi+1 , ..., θd ) (tel que i = 1, ..., d ).
On aura ainsi la probabilité d’acceptation de l’étape i :
( (t+1) (t) (t+1)
)
(t) (t+1) πi (yi |θ−i ) qi (θi |yi , θ−i )
ρi (θi , θ−i , yi ) = M in 1, (t+1) (t+1) (t) (t+1)
πi (θi |θ−i ) qi (yi |θi , θ−i )

(t+1)
1. MH (π1 (θ1 |θ−1 ), q1 )
(t+1)
2. MH (π2 (θ2 |θ−2 ), q2 )
3. ...
(t+1)
4. MH (πd (θd |θ−d ), qd )

Propriétés
Les algorithmes de MH ne génèrent pas d’échantillon indépendant et identiquement distribués,
en particulier parce que la probabilité d’acceptation de yt dépend de θ(t) .

Remarque
Les algorithmes de Metropolis-Hastings peuvent théoriquement être utilisés pour simuler un
2.3. Méthodes MCMC 18

vecteur aléatoire de dimension p en utilisant une densité instrumentale multidimensionnelle.


Mais quand p est grand, ce choix est rarement fait en pratique car la convergence d’un tel
algorithme serait extrêmement lente. En effet, plus la dimension de l’espace des paramètres
est grande, et plus la proportion de candidats rejetés est importante. On préférera utiliser
l’algorithme de Gibbs comme cadre général.

2.3.2 Echantillonneur de Gibbs


Plus généralement, si l’on peut écrire θ1 , ..., θp une partition du vecteur des paramètres
θ pour le modèle étudié, et si l’on peut spécifier complètement les lois de comportement a
posteriori conditionnelles alors on peut facilement simuler, pas par pas, des réalisations condi-
tionnelles de θ1 , ..., θp . En itérant le procédé un grand nombre de fois, la chaı̂ne de Markov
produite par ces simulations répétées a pour distribution stationnaire π(θ|y).

Algorithme 5
(0) (0) (0)
1. Initialiser θ(0) = (θ1 , θ2 , ..., θp )
2. A l’itération i : simuler
(i+1) (i) (i)
θ1 ∼ π1 (θ1 |θ2 , ..., θp )
(i+1) (i+1) (i)
θ2 ∼ π2 (θ2 |θ1 , ..., θp )
(i+1) (i+1) (i+1)
θp ∼ πp (θp |θ1 , ..., θp−1 )
3.i −→ i + 1 et aller en 2 .
Les densités conditionnelles πi sont appelées conditionnelles complètes.

Propriétés :
– Taux d’acceptation égal à 1. Toutes les valeurs simulées sont acceptées.
– Nécessite de connaı̂tre les lois conditionnelles de π, d’ou une connaissance préalable de cer-
taines propriétés probabilistes ou analytiques de π.

Difficultés des méthodes MCMC

La méthode MCMC peut présenter des dificultés importantes [7] à savoir :


-La convergence : c’est-à-dire l’atteinte de l’équilibre de la chaı̂ne de Markov peut être très
lente, surtout lorsque π(θ|y) est dificile à approximer par une densité de transition q facilement
2.4. Méthodes PMC 19

simulable.
-Par ailleurs, même si il ya la convergence, détecter le ”temps de chauffe” est loin d’être évident.
-MCMC est couteuse en temps de calcul.

2.4 Méthodes PMC

2.4.1 Introduction
Population Monte Carlo est le très récent et puissant algorithme introduit initialement par
Cappé et al. en (2004) pour traiter le problème de reconstruction de signal dans un canal-
ionique ; puis amélioré par Douc et al. en (2005) et très récemment Celeux et al. en (2006) ont
également mis à profit cette méthode pour étudier des modèles à données manquantes [7].
PMC est une amélioration du schéma d’échantillonnage préférentiel classique en lui introduisant
une dimension itérative assurant l’adaptation de la loi instrumentale q(y|θ) à la densité cible
π(θ|y). Cette adaptation est implémentée de façon séquentielle [7] : au pas t de l’algorithme,
M réalisations de θ sont simulées à partir d’une densité instrumentale courante dépendante des
M réalisations du pas t − 1. Ainsi l’estimateur IbT asymptotiquement non biaisé de (3.8) sera
h

comme suit :
T M
T 1 X X (j) (j)
Ih =
b w h(θt ), (2.10)
T t=1 j=1 t
(j)
où wt est le poids normalisé de la particule j à la date t obtenu à partir de l’algorithme qui
sera introduit plus tard.

2.4.2 Méthode d’échantillonnage préférentiel


Les algorithmes d’échantillonnage préférentiel, ou d’importance, sont des méthodes de si-
mulation de Monte-Carlo qui, à partir d’un échantillon de variables aléatoires indépendantes
et identiquement distribuées θ1 ,..., θM provenant d’une densité instrumentale ou d’importance
q(θ), [7] proposent d’estimer l’intégrale :
Z
Ih = h(θ)π(θ|y)dθ; (2.11)

par
M
X
Ibh = wi h(θi ); (2.12)
i=1
2.4. Méthodes PMC 20

où
ri π(y|θi )π(θi )
wi = PM et ri = . (2.13)
j=1 rj
q(θi )

Où π(y|θi ) est la vraisemblance.


Ce type de méthodes peut apparaı̂tre fragiles dans des cas pratiques, l’estimateur Ibh étant ren-
due fortement dépendant des poids normalisés wi .
Tout l’art de l’échantillonnage préférentiel consiste donc à choisir une densité q qui doit être
proche de la loi cible.
Différentes méthodes de construction de q ont été proposées. On peut les séparer en deux
catégories à savoir :

1. Les méthodes statiques, où q(θ) est déterminée de façon unique en préalable à la simu-
lation.
2. Les méthodes adaptatives, c’est la méthode PMC.

2.4.3 Algorithme PMC général


Fondamentalement, [8] l’algorithme PMC général consiste en l’itération de deux étapes :
1. D’abord, on simule une population de n variables aléatoires(parfois dites particules) suivant
une loi choisie a priori.
2. On calcule le poids de chaque particule suivant (2.13) et on retire un échantillon dans la
population générée proportionnellement aux poids calculés.
Soit qit (i =1,...,M et t =1,...,T) une distribution d’importance. La représentation algorithmique
qu’on va présenter correspond à ces deux étapes.

principe d’algorithme PMC général :

(1) (M )
1. Étape 0 : Choix de (θ0 , ..., θ0 );
2. Étape t (t=1,...,T) :
Pour i=1,...,M :
2.4. Méthodes PMC 21

(i) (i)
(i) (i) π(y|θt )π(θt )
• Générer θt∼ qit (θ) et calculer rt = (i)
;
qit (θt )
(i) (i) P (k) (i) (i)
• Calculer ωt = rt / M k=1 rt et ré-échantillonner les θt en utilisant les poids ωt ;
• Construire qi(t+1) à partir de l’échantillon courant ;
3. Aprés avoir itéré T fois l’algorithme, un estimateur asymptotiquement non biaisé de l’intégrale
(2.8) est donné dans la formule (2.10).
Chapitre 3
Applications

Introduction
La loi de Weibull nommée d’après walodi weibull en 1951, est une loi de probabilité continue,
elle est un cas spécial de loi d’extremum généralisée au même titre que la loi de Gumbel ou la
loi de Fréchet.
La distribution de Weibull est souvent utilisée dans le domaine de l’analyse de la durée de
vie, grâce à sa flexibilité : comme dit précédemment, elle permet de représenter au moins
approximativement une infinité de loi de probabilité.

3.1 Modèle
Dans cette partie nous présentons les cinq fonctions équivalentes de la loi de Weibull à deux
paramètres α et β

Fonction de densité f :
Une variable aléatoire continue X suit une loi de Weibull de paramètres α et β, si elle admet
pour densité de probabilité la fonction :

   x !β
β x β−1 −
f (x; α, β) = e α .
α α
Où
• α > 0 : le paramètre d’échelle.
• β > 0 : le paramètre de la forme.
3.1. Modèle 23

Fonction de répartition F :
On dit que F est une fonction de répartition de la variable aléatoire X qui suit une loi de
Weibull à deux paramètres α, β, si F est donnée par :
 
x !β

F (x; α, β) = 1 − e α  , α, β, x > 0
 

Fonction de fiabilité R :
Soit X une variable aléatoire continue de loi de Weibull de fonction de répartition F et de
densité de probabilité f . Sa fonction de fiabilité est définie par :
x !β

R(x) = 1 − F (x) = e α

Fonction de taux de panne ( hasard ) h :


La fonction de hasard est définie comme la probabilité conditionnelle que le phénomène se
termine après une durée x sachant que l’on a atteint cette durée (taux de panne, taux de
défaillance, taux de décès ou risque instantané). La fonction de taux de hasard h est calculée à
l’aide de la formule suivante :
f (x) f (x)
h(x) = = ,
1 − F (x) R(x)
donc :
x
β x β−1 (−( )β )
( )( ) e α
h(x) = α α x
(−( )β )
e α
Fonction de taux de hasard cumulé H :
C’est l’intégrale du taux de hasard h :
Z x x
(−( )β )
H(x) = h(u)du = − ln(R(x)) = − ln(e α )
0
Moment d’ordre k :
Le moment d’ordre k de la distribution de Weibull est donné par la formule suivante : On
considère la loi a priori des paramètres α et β est donnée par la formule suivante :
Z x
k
E(x ) = tk f (t; α, β)dt
0
Z x
t
β t β−1 (−( )β )
k
= t ( )( ) e α dt
0 α α
1 k
= 2 Γ (1 + )
β α
3.1. Modèle 24

-La représentation graphique de la fonction de densité f et de répartition F de la loi de Weibull


(α, β) est donnée par les graphes suivants :

3.1.1 La fonction de vraisemblance


Dans cette section, on va calculer la fonction de vraisemblance de la loi de Weibull à deux
paramètres α et β ensuite on calcule la loi à posteriori π(α, β|x)
n
Y
L(x; α, β) = f (xi ; α, β)
i=1
n xi
Y β xi β−1 (−( )β )
= ( )( ) e α
i=1
α α
n 1 Pn
β n 1 β−1 n Y β−1 (− β i=1 xβi )
= ( ) (( ) ) xi e α
α α i=1
n 1 Pn
βn 1 Y
β−1
(−
β

i)
= ( n )( nβ−n ) xi e α i=1
α α i=1
n 1 P
n
β n Y β−1 (− β i=1 xβi )
= ( nβ ) xi e α .
α i=1
3.1. Modèle 25

- On considère loi a priori des paramètres α et β est donnée par la formule suivante :

c
π(α, β) = β −a α−b e− α , a > 1 ∧ b, c > 0

- L’a posteriori est calculée à l’aide de la formule :

L(x; α, β)π(α, β) L(x; α, β)π(α, β)


π(α, β|x) = RR =
Θ
L(x; α, β)π(α, β)dαdβ m(x)
Où

RR
m(x) = Θ
L(x; α, β)π(α, β)dαdβ est dite loi marginale

d’où

π(α, β|x) ∝ L(x; α, β)π(α, β)


n 1 Pn c
Y (− xβ
i ) −a −b (− )
n −nβ β−1 β
π(α, β|x) ∝ β α xi e α i=1 β α e α
i=1
n 1 Pn c
Y (− xβ
i− )
n−a −nβ−b β−1 β
π(α, β|x) ∝ β α xi e α i=1 α .
i=1

dans cette partie on considère la fonction de perte quadratique, Linex. Le tableau suivant
présente les deux fonctions de perte et l’expression de l’estimateur bayésien avec le risque a
posteriori correspondant,

Fonction de perte L’expression L’estimateur Bayésien Le risque a posteriori


Quadratique L(θ, δ) = (θ − d)2 δbQ = Eπ (θ|x) Eπ ((θ − δbQ )2 )

Linex L(θ, δ) = er4 − r 4 −1 δbL = − 1r ln(Eπ (e−rθ )) r(δbQ − δbL )

Tab. 1.2 Les deux fonctions de perte et l’expression de l’estimateur


bayésien avec le risque a posteriori correspondant.
3.2. Estimation Bayésienne sous la fonction de perte quadratique 26

3.2 Estimation Bayésienne sous la fonction de perte qua-


dratique
On a l’estimateur Bayésien des paramètres α et β de la loi de Weibull sous la fonction de
perte quadratique est la moyenne a posteriori d’où :

RR
απ(α, β|x)dαdβ
α
bQ = Eπ (α|x) = RR
π(α, β|x)dαdβ
1 Pn c
n (− xβ
i− )
−nβ−b β
RR n−a β−1
e α i=1 α dαdβ
Q
αβ α xi
i=1
=
1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dαdβ
Q
β n−a α−nβ−b
i=1
1 P n c
n (− xβ
i − )
β n−a α−nβ−b+1 xi β−1 e αβ i=1
RR
α dαdβ
Q
i=1
= .
1 P n c
n (− xβ
i − )
xi β−1 e αβ i=1
RR
α dαdβ
Q
β n−a α−nβ−b
i=1

I Le risque a posteriori :

bQ )2 )
αQ ) = Eπ ((α − α
P R(b
2
= Eπ (b
αQ αQ + α 2 )
− 2αb
2

bQ αQ Eπ (α) + Eπ (α2 ).
− 2b

RR
βπ(α, β|x)dβdα
βQ = Eπ (β|x) = RR
b
π(α, β|x)dβdα
1 Pn c
n (− xβ
i− )
−nβ−b β
RR n−a β−1
e α i=1 α dβdα
Q
ββ α xi
i=1
=
1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dβdα
Q
β n−a α−nβ−b
i=1
1 P n c
n (− xβ
i − )
β n−a+1 α−nβ−b xi β−1 e αβ i=1
RR
α dβdα
Q
i=1
= .
1 P n c
n (− xβ
i − )
xi β−1 e αβ i=1
RR
α dβdα
Q
β n−a α−nβ−b
i=1
3.3. Estimation Bayésienne sous la fonction de perte Linex 27

I Le risque a posteriori :

P R(βbQ ) = Eπ ((β − βbQ )2 )


= Eπ (β 2 − 2β βbQ + βbQ
2
)
= Eπ (β 2 ) − 2βbQ Eπ (β) + βbQ
2
.

3.3 Estimation Bayésienne sous la fonction de perte Li-


nex
On considère maintenant la fonction de perte asymétrique Linex, les estimateurs Bayésienne
des paramètres α et β sous cette fonction de perte sont les suivant :
1
bL = − ln[Eπ (e−rα )], r 6= 0
α
r RR
1 e−rα π(α, β|x)dαdβ
= − ln[ RR ]
r π(α, β|x)dαdβ
1 Pn c
n (− xβ
i− )
−rα n−r −nβ−b β
RR β−1
e α i=1 α dαdβ
Q
e β α xi
1 i=1
= − ln[ ]
r 1 Pn c
n (− xβ
i− )
β
RR
xi e α i=1 α dαdβ
Q
β n−r α−nβ−b β−1
i=1
1 Pn c
n (− xβ
i− −rα)
−nβ−b β
RR n−r β−1
e α i=1 α
Q
β α xi dαdβ
1 i=1
= − ln[ ].
r 1 Pn c
n (− xβ
i− )
β
RR
xi e α i=1 α dαdβ
Q
β n−r α−nβ−b β−1
i=1

I Le risque a posteriori :
P R(b αQ − α
αL ) = r(b bL )

Où : α
bQ et α
bL sont les estimateurs Bayésiens de paramètre α sous les fonctions de perte qua-
dratique et Linex respectivement.
3.3. Estimation Bayésienne sous la fonction de perte Linex 28

1
βbL = − ln[Eπ (e−rβ )], r 6= 0
r RR
1 e−rβ π(α, β|x)dαdβ
= − ln[ RR ]
r π(α, β|x)dβdα
1 Pn c
n (− xβ
i− )
−rβ −nβ−b β
RR n−r β−1
e α i=1 α dβdα
Q
e β α xi
1 i=1
= − ln[ ]
r 1 Pn c
n (− xβ
i− )
β
RR
xi β−1 e α i=1 α dβdα
Q
β n−r α−nβ−b
i=1

1 P n c
n (− xβ
i − −rβ)
β n−r α−nβ−b xi β−1 e αβ i=1
RR
α
Q
dβdα
1 i=1
= − ln[ ].
r 1 P n c
n (− xβ
i− )
β
RR
xi e α α dβdα
Q
β n−r α−nβ−b β−1 i=1

i=1

I Le risque a posteriori :

P R(βbL ) = r(βbQ − βbL )

•On peut pas calculer l’expression analytique de ces estimateurs, c’est pour ça, on utilise des
méthodes numériques pour trouver les valeurs des estimateurs Bayésiens des paramètres α et
β ainsi que leurs risque a posteriori.

3.3.1 Simulation
-Dans cette partie, on va générer un n-échantillon de la loi de Weibull à deux paramètres α
et β.
On prend des différentes tailles d’échantillon.
On suppose que : a = 2, b = c = 1 (les paramètres de la loi a priori)
On suppose aussi que : α = 1 et β = 2.
et on utilise les différentes méthodes numériques pour calculer les estimateurs Bayésien des
3.3. Estimation Bayésienne sous la fonction de perte Linex 29

paramètres ainsi que leurs risques a posteriori sous différentes fonctions de pertes (quadratique
et Linex ).
On va commencer par une des méthodes MCMC en particulier l’algorithme de Metropolis-
Hastings.
Le tableau suivante représente les estimateurs Bayésien des paramètres α et β sous la fonc-
tion de perte quadratique (avec leurs erreurs a posteriori ) obtenus en utilisant l’algorithme de
Metropolis-Hastings.
On pose : α =1, β =2

n α
bQ (P R(b
αQ )) βbQ (P R(βbQ ))
n=10 1.0779 (0.0060) 2.0348(0.0012)
n=20 1.0443(0.0019) 2.0299 (0.00089)
n=50 1.0251(0.00063) 2.0162(0.00026)
n=100 1.2161(0.6143) 2.4261(0.4768)

Les estimateurs bayesiens des paramètres α et β (avec leurs erreurs a posteriori) sous la fonction
de perte Linex (avec r = −2) sont donnés dans le tableau suivant :

n α
bL (P R(b
αL )) βbL (P R(βbL ))
n=10 1.0544 (-0.0471) 2.0536 (0.0375)
n=20 1.0299(-0.0288) 2.0250(-0.0097)
n=50 1.0317(0.01317) 2.0235(0.0146)
n=100 1.2333(0.0343) 2.8798(0.9073)

Remarque :

On remarque que on a des bons estimateurs des paramètres de la loi de Weibull sous la fonction
de perte quadratique et Linex avec différentes tailles d’echantillons.
3.3. Estimation Bayésienne sous la fonction de perte Linex 30

En utilisant l’algorithme de PMC générale, on obtient les résultats données dans les tableaux
ci-dessus :
1 - Sous la fonction de perte Quadratique :

n α
bQ (P R(b
αQ )) βbQ (P R(βbQ ))
n=10 1.0549 (0.0035) 2.0032(1.08 ∗ 10−5 )
n=20 1.1605(0.0257) 1.8723(0.0162)
n=50 0.9012(0.0097) 2.0897(0.0080)
n=100 1.0084(7.11 ∗ 10−5 ) 2.1185(0.01406)

2 - Sous la fonction de perte Linex : (r=1)

n α
bL (P R(b
αL )) βbL (P R(βbL ))
n=10 0.5936 (0.4658) 1.0725 (0.9307)
n=20 0.6352(0.5253) 1.0387(0.8336)
n=50 0.5398(0.3614) 1.1330(0.9566)
n=100 0.06003(0.4080) 1.1642(0.9543)

Discussion :
En utilisant les méthodes MCMC (en particulier l’algorithme de Metropolis-Hastings) on ob-
tient des bons estimateurs des paramètres de la loi de Weibull sous la fonction de perte qua-
dratique et Linex avec différentes tailles d’echantillons (le risque a posteriori tend vers 0).
Mais, par les méthodes PMC, on obtient aussi des bons estimateurs des paramètres sous la fonc-
tion de perte quadratique (petit risque a posteriori ) mais ce n’est pas le cas pour la fonction
de perte Linex.
3.3. Estimation Bayésienne sous la fonction de perte Linex 31

Conclusion et Perspectives

Dans cet travail, nous nous somme intéresses à une distribution de Weibull à deux paramètres
pour une estimation bayésienne des paramètres en utilisant un plan des données complètes et
une loi a priori conjuguée naturelle sur les paramètres et sous deux fonctions de perte :
la fonction de perte quadratique et la fonction de perte Linex. Une étude par simulation à
été réalisée et les méthodes MCMC et PMC nous donne des bons estimateurs surtout sous la
fonction de perte quadratique avec différentes tailles d’échantillon.
En perspectives, ce travail peut-être élargi pour des données censurées où progressivement cen-
surée et sous, aussi, on peut refaire la même étude mais en utilisant balanced loss functions.
Résumé

Ce travail est dédié à l’étude d’estimation des paramètres. le modèle auquel on s’intéresse
est le modèle de Weibull à deux paramètres. l’approche utilisée est une approche bayésienne
avec une fonction de perte symétrique (la fonction de perte quadratique ), puis une fonction de
perte asymétrique dont la fonction de perte Linex. en utilisant des données complètes et une loi
a priori conjuguée naturelle pour les paramètres. l’expression des estimateurs bayésiens reste
sous forme d’intégrales, c’est pourquoi, nous utilisons les méthodes de Monte-Carlo (MCMC)
et les méthodes PMC.
Ces méthodes numériques nous permis de trouver la valeur des chaque estimateurs ainsi que
son risque a posteriori.

Mots clé :
bayésien - densité a posteriori - MCMC - PMC - la loi de Weibull.
Abstract

this work is dedicated to the statistical estimation of the parameters. we consider the Weibull
model with two parameters. we study the estimation problem by applying a bayesien approach
using quadratic loss function, then the asymetric loss function (Linex loss function). we use
completed data and conjugate prior. The bayesian estimators is given in integral form to which
we apply simulation techniques suchas MCMC and PMC methods.
this numerical methods given the values of each estimators and his posterior risk.

Key-Words :
bayesian - posterior density - MCMC - PMC - Weibull model.
Annexe 1

Algorithme de Metropolis-Hastings

N=1000
H1=numeric(N)
H2=numeric(N)
n=10 ;alpha=1 ;beta=2
t=numeric(N)
for(k in 1 :N){
vec=rweibull(n,alpha,beta)
vec=sort(vec)
t=vec
a=2 ;b=1 ;c=1 ;aa=4
f = f unction(x, y){(y (n−a) ) ∗ (x(−n∗y−b) ) ∗ prod(t(y−1) ) ∗ exp((−x(1/y) ) ∗ (sum(t)y ) − (c/x))}
q = f unction(x, y){(x(aa/2−1) ) ∗ exp(−x/2) ∗ (y (aa/2−1) ) ∗ exp(−y/2)}
M=500 ;ind=N*2
X=matrix(rep(0,ind),ncol=2,nrow=M)
Y=numeric(2)
X[1,1]=1 ;X[1,2]=1
for(i in 2 :M){
Y=rchisq(1,2)+c(1,2)
val=(f(Y[1],Y[2])*q(X[i-1,1],X[i-1,2]))/(q(Y[1],Y[2])*f(X[i-1,1],X[i-1,2])) ;
alpha0=min(1,val)
u=runif(1)
3.3. Estimation Bayésienne sous la fonction de perte Linex 35

if(u<alpha0)
X[i,1]=Y[1] ;X[i,2]=Y[2]
else
X[i,1]=X[i-1,1] ;X[i,2]=X[i-1,2]
} H1[k]=mean(X[,1])
H2[k]=mean(X[,2])
alphaQ=mean(H1)
betaQ=mean(H2)
alphaQ ;betaQ
PRalphaQ=(alphaQ-alpha)2
PRbetaQ=(betaQ-beta)2
PRalphaQ ;PRbetaQ
r=-2
alphaL =(-1/r)*(log(mean(exp(-r*X[, 1]))))
betaL =(-1/r)*(log(mean(exp(-r*X[, 2]))))
alphaL ;betaL
PRalphaL = r*(alphaQ - alphaL)
PRbetaL = r*(betaQ - betaL)
PRalphaL ;PRbetaL
3.3. Estimation Bayésienne sous la fonction de perte Linex 36

Algorithme de PMC général

M=200
T=15 ;n=10 ;alpha=1 ;beta=2
vec=rweibull(n,alpha,beta)
t=sort(vec)
t
X=matrix(0,ncol=M, nrow=T+1)
Y= matrix(0,ncol=M, nrow=T+1)
r=matrix(0,ncol=M, nrow=T+1)
w=matrix(0,ncol=M, nrow=T+1)
histX=0
histY=0
vrais=0
X[1,]=rchisq(M,1)
Y[1,]=rchisq(M,1)
t< −1
while (t <= T){
X[t+1,]=rweibull(M,alpha,beta)
Y[t+1,]=rweibull(M,alpha,beta)
for(i in 1 :M){
vrais[i]=prod(dweibull(vec,X[t,],alpha,beta))
r[t+1,]=(vrais ∗ dgamma(X[t + 1, ], alpha, beta))/(dchisq(vec, X[t, ], alpha, beta))
r[t+1,]=(r[t+1,]/sum(r[t+1,]))
X[t+1,]=sample(X[t+1,], M, replace = TRUE, prob =r[t+1,])
Y[t+1,]=sample(Y[t+1,], M, replace = TRUE, prob =r[t+1,])
histX=histX+sum(r[t+1,]*X[t+1,])
histY=histY+sum(r[t+1,]*Y[t+1,])
t=t+1
}

alphaQ=mean(X[1,])
betaQ=mean(X[2,])
3.3. Estimation Bayésienne sous la fonction de perte Linex 37

alphaQ
betaQ
PR1=(alphaQ-alpha)2
PR2=(betaQ-beta)2
PR1 ;PR2
r=1
alphaL=(-1/r)*(log(mean(exp(-r*X[1,]))))
betaL=(-1/r)*(log(mean(exp(-r*X[2,]))))
PR3=r*(alphaQ-alphaL)
PR4=r*(betaQ-betaL)
PR3 ;PR4
Annexe 2

Risque fréquentiste

On dira qu’une décision est une bonne décision si elle conduite à un coût nul.
Autrement dit, une bonne décision est solution de l’équation

L(θ, δ(x)) = 0,

θ étant inconnu, on ne peut évidemment pas résoudre cette équation .Classer les décisions par
la seule considération du coût est donc impossible. Celui-ci ne prend pas compte l’information
apportée par le modèle f (x|θ). Ces remarques conduisent à considérer la moyenne de la perte,
c’est le risque fréquentiste.

Définition

On appelle risque fréquentiste le coût moyen (l’espérance mathématique)du coût d’une règle de
décision Z
R(θ, δ) = Eθ (L(θ, δ)) = L(θ, δ)dPθ (x)

On dira que δ1 est préférable à δ2 et on note δ1 < δ2 si :

R(θ, δ1 ) ≤ R(θ, δ2 ),

cette définition permet d’établir un préodre sur l’ensemble D des décisions.


Cependant, ce préodre est partiel puisqu’il ne permet pas de comparer deux règles de décision
telles que :
R(θ1 , δ1 ) < R(θ1 , δ2 ) et R(θ2 , δ1 ) > R(θ2 , δ2 ).
3.3. Estimation Bayésienne sous la fonction de perte Linex 39

Méthode de rejet-acceptation

Si l’on désire générer des valeurs d’une variable aléatoire avec une densité f (x), alors que
ses propriétés ne sont pas connues, et sa fonction de répartition associée n’est pas inversible
d’une manière explicite.
La méthode de rejet-acceptation est utilisée s’il existe une fonction g(x) ayant un domaine
identique à celui de f et une constante C positive [19], telle que :

f (x) ≤ Cg(x) , ∀ x ∈ Θ.

La méthode se résume comme suit :


1. Générer un nombre y selon g ;
2. Générer un nombre u selon U[ 0, 1] ;
f (y)
3. Si u vérifie la condition u ≤ Cg(x)
alors :
On accepte la valeur générée ;
sinon on rejette u et y.
C doit vérifier l’équation : C ≥ f (x)/g(x), ∀ x ∈ Θ.
La valeur optimale de C est donc :

C = max f (x)/g(x).
Θ

Le taux d’acceptation sera alors définit par :

ρ = f (x)/Cg(x).
Remarquons que si g(x) est proche de zéro, alors C devient très grand et le taux d’acceptation
moyen diminue. L’efficacité de l’algorithme dépend donc de l’adéquation entre f et g.

Modèle

Fonction de densité f :
Une variable aléatoire continue X suit une loi de Weibull de paramètres α et β, si elle admet
pour densité de probabilité la fonction :
   x !β
β x β−1 −
f (x; α, β) = e α .
α α
3.3. Estimation Bayésienne sous la fonction de perte Linex 40

Où
• α > 0 : le paramètre d’échelle.
• β > 0 : le paramètre de la forme.

Fonction de répartition F :
On dit que F est une fonction de répartition de la variable aléatoire X qui suit une loi de
Weibull à deux paramètres α, β, si F est donnée par :
 
x !β

F (x; α, β) = 1 − e α  , α, β, x > 0
 

Fonction de fiabilité R :
Soit X une variable aléatoire continue de loi de Weibull de fonction de répartition F et de
densité de probabilité f . Sa fonction de fiabilité est définie par :
x !β

R(x) = 1 − F (x) = e α

Fonction de taux de panne ( hasard ) h :


La fonction de hasard est définie comme la probabilité conditionnelle que le phénomène se
termine après une durée x sachant que l’on a atteint cette durée (taux de panne, taux de
défaillance, taux de décès ou risque instantané). La fonction de taux de hasard h est calculée à
l’aide de la formule suivante :
f (x) f (x)
h(x) = = ,
1 − F (x) R(x)
donc :
x
β x β−1 (−( )β )
( )( ) e α
h(x) = α α x
(−( )β )
e α
Fonction de taux de hasard cumulé H :
C’est l’intégrale du taux de hasard h :
Z x
x β
(−( ) )
H(x) = h(u)du = − ln(R(x)) = − ln(e α ).
0
Bibliographie

[1] Tierney, L., Kadane, J.B. (1986). Accurate aproximations for posterior moments and
marginal densities, J. Amer. Statist. Assoc., 81, 82-86.
[2] Lindley, D.V, (1980). Approximate Bayesian methods . Trabajos Estadist. Inves-
tigacion Oper. 31, 232-245.
[3] N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller, and E. Tel-
ler. Equation of state calculations by fast computings machines. Chemical Physics,
21(6) :1087–1092, June 1953.
[4] W.K. Hastings. Monte Carlo Sampling methods using Markov chains and their appli-
cations, volume 57. Biometrica, April 1970. pages 97-109.
[5] S. Geman and D. Geman. Stochastic relaxation, gibbs distributions, and the bayesian
restoration of images. 6 :721–741, 1984.
[6] L. Tierney. Markov chains for exploring posterior distributions (with discussion). Annals
of Statistics, 1994.
[7] N. Bousquet. Analyse bayésienne de la durée de vie de composants industriels. Décembre
2006.
[8] A. Guillin, J.M. Marin, and C.P. Robert. Estimation bayésienne approximative par
échantillonnage préférentiel. rapport de recherche, Université Paris IX Dauphine, 2005.
[9] Boudjerda. K ,”Etude de l’estimateur de Bayes sous différentes fonctions de perte” .
Thèse de doctorat en Mathématiques, Université Badji Mokhtar Annaba, 2016/2017.
[10] Belaı̈d. N et Djerroud. L ,”Les méthodes de Monte Carlo : (MCMC et PMC). Ap-
plications” . mémoire master Recherche Opérationnelle, Université A. Mira- Béjaia, Juin
2013.
Bibliographie 42

[11] Talhi. H ,”L’estimation Bayesienne en Fiabilite en Presence de Donnees Censurees” .


Thèse de doctorat en Mathématiques, Université Badji Mokhtar Annaba, 2013/2014.

Vous aimerez peut-être aussi