0% ont trouvé ce document utile (0 vote)
112 vues44 pages

SB ch1

Le document présente un cours sur les statistiques Bayésiennes, en contrastant cette approche avec celle des fréquentistes. Il aborde des concepts fondamentaux tels que la loi a posteriori, les estimateurs de Bayes, ainsi que des applications pratiques en statistiques, machine learning et finance. L'objectif est de fournir une compréhension approfondie des méthodes Bayésiennes et de leur utilisation dans divers domaines.

Transféré par

Oumaima Mb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Estimation de paramètres,
  • Modèles bayésiens,
  • Échantillons de données,
  • Statistiques en ingénierie,
  • Statistiques en environnement,
  • Statistiques en biologie,
  • Modélisation des risques,
  • Régression bayésienne,
  • Analyse multivariée,
  • Analyse de données
0% ont trouvé ce document utile (0 vote)
112 vues44 pages

SB ch1

Le document présente un cours sur les statistiques Bayésiennes, en contrastant cette approche avec celle des fréquentistes. Il aborde des concepts fondamentaux tels que la loi a posteriori, les estimateurs de Bayes, ainsi que des applications pratiques en statistiques, machine learning et finance. L'objectif est de fournir une compréhension approfondie des méthodes Bayésiennes et de leur utilisation dans divers domaines.

Transféré par

Oumaima Mb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Thèmes abordés

  • Estimation de paramètres,
  • Modèles bayésiens,
  • Échantillons de données,
  • Statistiques en ingénierie,
  • Statistiques en environnement,
  • Statistiques en biologie,
  • Modélisation des risques,
  • Régression bayésienne,
  • Analyse multivariée,
  • Analyse de données

Statistiques Bayésiennes

Hicham Janati
hjanati@[Link]
1. Introduction
2. Les Bayésiens vs Les fréquentistes

3. Rappels de probabilités (exemples)

4. Loi a posteriori et modèles conjugués

5. Estimateur de Bayes

2
Mes objectifs:

1. Synthétiser l’information et vous la présenter: vous faire gagner du temps

2. Corriger les lacunes que vous pouvez avoir

3. Vous montrer des applications concrètes des statistiques Bayésiennes en Stats / ML /


Finance

3
Ce que je vous demande

1. Interactivité: Interrompez-moi SVP si quelque chose n’est pas clair

2. Les cours contiennent des “pauses interactives / mini-exercices” : soyez actifs

3. Adoptez un esprit critique: la qualité du cours dépend de votre participation

4
Organisation

• On va alterner entre cours / TD / TP (Python)

• 1 test par semaine portant sur la séance en cours et les séances d’avant

• Tests (30%) + Examen (70%) qui évaluent votre compréhension

• Ponctualité: je commence à 8h30 - je nis à 10h20

• Les slides sont un support de cours qui m’aident à visualiser — non pas un substitut de cours

5
fi
Programme
• Chapitre I. Fondements du modèle bayésien
1. Introduction: Les Bayésiens vs Les fréquentistes, rappels
2. Modèle bayésien: Loi a priori et loi a posteriori, exemples
3. Modèles à priors conjuguées
Maîtriser > couvrir tout le programme

• Chapitre 2. Méthodes de Monte-Carlo


1. Introduction aux méthodes Monte-Carlo
2. Méthodes d’échantillonnage (sampling) Markov-Chain Monte-Carlo (MCMC)

• Chapitre 3. Applications et thématiques avancées

1. Modèles Bayésiens hiérarchiques


2. Bayesian machine learning

6
Pourquoi ce cours ?

• Modélisation des risques / incertitudes (Actuariat)

• Modélisation probabiliste en médecine / biostats

• Machine learning (Réseaux de neurones Bayésiens, modèles génératifs, Optimisation)

7
Bayesian statistics in a nutshell

Qu’est-ce que les statistiques Bayésiennes ?

L’approche Bayésienne est souvent contrastée avec l’approche Fréquentiste:

Approche Fréquentiste: Approche Bayésienne:

• On cherche à estimer de manière • On modélise le paramètre comme une variable


précise un paramètre considéré comme aléatoire avec une distribution a priori que l’on
constant à partir des données met à jour après avoir “vu” les données

• On cherche une valeur avec un intervalle • On cherche une distribution sur le paramètre
de con ance, un test statistique qui donne un niveau d’incertitude sur toutes ses
valeurs possibles

Des di érences mathématiques avec une portée philosophique

8
ff
fi
Motivation Frequentist vs Bayesian (1)

Une femme enceinte se demande: Quel est la probabilité que mon nouveau-né soit
de sexe masculin ?

The Frequentist: “Notons le sexe par une variable aléatoire binaire suivant la loi de
Bernoulli X ⇠ B(p) . Il me faut des observations indépendantes et identiquement distribuées
(i.i.d) binaires x1 , . . . ,nxn ⇠ B(p). Je pourrais ensuite inférer le paramètre p en utilisant
1 X
l’estimateur: pb = xi ”
n i=1

The Bayesian: “En considérant p comme un paramètre quelconque, le Fréquentiste omet


complètement l’idée qu’il s’agit d’une probabilité dans un contexte spéci que. Sans données,
n’importe qui aurait répondu: 0.5. L’incertitude sur la valeur du paramètre p ne devrait pas être
uniforme sur tout l’intervalle [0, 1]. Cette croyance à priori devrait être incluse dans l’analyse
statistique.”

fi
Motivation Frequentist vs Bayesian (2)

The Frequentist: “Je regarde les données et j’en tire des conclusions objectives.”
The Bayesian says: “J’ai une croyance à priori. Je regarde les données pour mettre à jour
mes croyances.”

ON NE PEUT PAS INCLURE SES OPINIONS. LA SCIENCE


DOIT RESTER OBJECTIVE.

The Frequentist

Oui, mais parfois, comme scienti que, on peut avoir des croyances
ou des hypothèses a priori qu’on doit inclure dans notre analyse car
on ne peut pas se er aux données à 100%.
The Bayesian

The Frequentist

10
fi
fi
Motivation Frequentist vs Bayesian (3)

Il fait nuit. Deux statisticiens discutent si le soleil a disparu.

The Frequentist: D'après les observations données par ma machine


astronomique, j'ai testé l'hypothèse si les particules détectées proviennent du
soleil. La probabilité que cela se produise par hasard (p-val) est de 0,03. Avec
une valeur p < 0,05, je conclus que le soleil a disparu.

The Bayesian: Je parie $100 qu’il est toujours là.

Source: Adapted from [Link]/1132/

11
Motivation Frequentist vs Bayesian (3)

Pourquoi le bayésien est-il convaincu que le soleil n'a pas disparu ?

Le Bayésien croyaient auparavant que la disparition du soleil était extrêmement rare.

Mais cela ne signi e pas que les Bayésiens peuvent « croire » tout ce qu’ils veulent.

12
fi
Motivation Bayesians and prior beliefs

Mais cela ne signi e pas que les Bayésiens peuvent « croire » tout ce qu’ils veulent.

“Steve est timide mais c'est une personne très serviable, organisée et ordonnée.
Il a un besoin d’ordre et de structure. C’est aussi une personne réservée.”

Adapted from:
Steve est-il plus susceptible d'être un bibliothécaire ou un agriculteur ?

20% des agriculteurs sont timides

90% des bibliothécaires sont timides

Cela con rme-t-il votre jugement “intuitif” ?

13
fi
fi
Motivation A formal Bayesian example

Il y a 9 fois plus d’Agriculteurs que de Bibliothécaires:

20%

Agriculteurs “Timide..”

Bibliothécaires 90% “Timide..”


14
Motivation A formal Bayesian example

Il y a 9 fois plus d’Agriculteurs que de Bibliothécaires (aux US)

Steve est Timide, quelle est la probabilité


qu’il soit un bibliothécaire ?

20% Deux méthodes possibles:


Agriculteurs
Timide
1. Formelle: On calcule la probabilité d’être
un Bibliothécaire sachant qu’on est Timide:

Bibliothécaires 90% Timide P(B|T)

2. Graphique: On estime la fréquence des B timides parmi tous les Timides

+
15
Motivation Probability theory reminders

Théorème de Bayes
Soit (⌦, P, A) un espace probabilisé. Soient B, C 2 A, alors:
P(B \ C)
P(C|B) =
P(B)

“Probabilité de C sachant B” =

B\C C “La probabilité de B et C mais


B ⌦ restreinte à B: comme si B était
devenu tout l’espace”
Ensemble de tous les événements possibles
P(B \ C) P(B|C)P(C)
En appliquant deux fois: P(C|B) = =
P(B) P(B)
16
Motivation Probability theory reminders

Théorème de Bayes
Soit (⌦, P, A) un espace probabilisé. Soient B, C 2 A, alors:
P(B \ C)
P(C|B) =
P(B)

P(B \ C) P(B|C)P(C) P(B \ C)


On a: P(C|B) = = Et: P(B|C) =
P(B) P(B) P(C)

Donc: P(B \ C) = P(B|C)P(C)

P(B|C)P(C) “Inversion des probabilités”


P(C|B) =
P(B) (Nom original donné par Bayes en 1763)
17
Motivation Probability theory reminders

Appliquons cela pour calculer P(B|T)


P(T|B)P(B) Peut-on calculer ces quantités ?
P(B|T) =
P(T)
90% des bibliothécaires sont timides donc: P(T|B) = 0.9
Il y a 9 fois plus d’A que de B donc P(A) = 9 P(B)
Or l’espace est restreint aux A et B (il n’y a pas d’autres possibilités) donc

P(A) + P(B) = 1
Ainsi: P(A) = 0.9 P(B) = 0.1

P(T) = ? Suite au tableau

18
Motivation Probability theory reminders

Loi des probabilités totales


Soit (⌦, P, A) un espace probabilisé.
S Soit (A i ) i2N une partition de ⌦, c’est-à-dire que
Ai \ Aj = ? pour i 6= j et i2N Ai = ⌦. Soit B 2 A, alors :
+1
X
P(B) = P(B|Ai )P(Ai )
i=1
Quelle est l’intuition de cette loi ? Autrement dit, d’où vient-elle ?
+1
X +1
X
n n
P(B|Ai )P(Ai ) = P(B \ Ai ) = P([i=1 B \ Ai ) = P(B \ [i=1 Ai ) = P(B \ ⌦) = P(B)
i=1 i=1
Bayes Car éléments disjoints Car partition (faire un schéma)

Corollaire : Soit X une variable aléatoire discrète prenant ses valeurs dans N. Alors :
+1
X
P(B) = P(B|X = i)P(X = i)
i=1
19
Motivation Probability theory reminders

Les A et les B forment une partition, donc:

P(T) = P(T|A)P(A) + P(T|B)P(B)

P(T|B)P(B) P(T|B)P(B)
Conclusion: P(B|T) = = P(T|A)P(A)+P(T|B)P(B)
P(T)
0.9⇥0.1 1
= 0.2⇥0.9+0.9⇥0.1
= 3

20%
Agriculteurs
Timide
+

Bibliothécaires 90% Timide


20
Motivation Bayes application

Vous voulez savoir si vous faites partie des 1% de la population humaine qui sont des génies. Vous
achetez un test de QI qui fait l’a aire et WOW, votre test est positif. Sur l'étiquette il est écrit : « 95 %
de précision ».

Quelle est la probabilité que vous soyez un génie ?

21
ff
Motivation Bayes application

Vous voulez savoir si vous faites partie des 1% de la population humaine qui sont des génies. Vous
achetez un test de QI qui fait l’a aire et WOW, votre test est positif. Sur l'étiquette il est écrit : « 95 %
de précision ».

Qu’est-ce que la précision ?


Quelle est la probabilité que vous soyez un génie ?

On note G et T les variables aléatoires binaires: “génie”: G = 1. “test positif”: T = 1

Une précision de 95% implique deux faits:


Si on est un génie, alors le test est positif 95% des fois: P(T = 1|G = 1) = 0.95
Si on n’est pas un génie, alors le test est positif (se trompe) 5% des fois donc P(T = 1|G = 0) = 0.05

22
ff
Motivation Bayes application

Nous cherchons la probabilité d’être un


génie parmi les tests positifs :
95% 5%
99% | G = 0
T=0 T=1 0.01 ⇥ 0.95
= ⇡ 0.161
0.99 ⇥ 0.05 + 0.01 ⇥ 0.95
+
1% | G = 1 95% T=1
5%
T=0

Formellement, avec Bayes + Probabilités totales:


P(T = 1|G = 1)P(G = 1) P(T = 1|G = 1)P(G = 1) 0.0095
P(G = 1|T = 1) = = = ⇡
P(T = 1) P(T = 1|G = 1)P(G = 1) + P(T = 1|G = 0)P(G = 0) 0.059

23
1. Pour le moment, on a appliqué le théorème de Bayes

2. Utilisé des probabilités conditionnelles

3. Pas encore dé ni ce qu’est un modèle Bayésien

Voyons cela en le contrastant au modèle Fréquentiste

24
fi
Soit un phénomène dont on observe des variables aléatoires i.i.d X1 , . . . , Xn modélisées par une loi paramétrée par ✓.

Modèle Fréquentiste:
1. Considère que ✓ est une constante à estimer.
Qn
2. Maximise la vraisemblance P(X1 , . . . , Xn ; ✓) = i=1 P(X i ; ✓) par rapport à ✓.

3. Obtient un estimateur ✓b qui dépend des variables X1 , . . . , Xn .

25
Soit un phénomène dont on observe des variables aléatoires i.i.d X1 , . . . , Xn modélisées par une loi paramétrée par ✓.

Modèle Bayésien:
1. Considère que ✓ est une variable aléatoire à modéliser par une loi a priori P(✓) ⇠ ⇡.

2. Calcule la loi a posteriori P(✓|X1 , . . . , Xn ) avec le théorème de Bayes:

l P(X1 , . . . , Xn |✓)P(✓) loi a posteriori


P(✓|X1 , . . . , Xn ) =
P(X1 , . . . , Xn )

3. Obtient toute une distribution sur ✓.


4. On peut utiliser cette distribution pour:
Soit un phénomène dont on observe des variables aléatoires i.i.d X1 , . . . , Xn modélisées par une loi paramétrée par ✓.
• Estimer ✓ en prenant le maximum, la moyenne, la médiane de cette distribution.
• Quantifier l’incertitude sur les valeurs possible de ✓.
• Générer des échantillons ✓1 , . . . , ✓m à partir de cette distribution.

26
Motivation Probability theory reminders

En statistiques Bayésiennes, les variables aléatoires sont très souvent continues:


La fonction de densité de probabilité d’une variable aléatoire continue (a priori) ✓ est notée f✓ .
On suppose que la densité des données fX est bien définie. La distribution a posteriori de ✓ | X est donnée par :

fX,✓ fX|✓ f✓
f✓|X = = Comment trouver la loi marginale ?
fX fX
Z
Loi des probabilités totales: fX = fX|✓ f✓ d✓
fX|✓ f✓ Z
On obtient une fonction divisée par son
intégrale: l’intégrale du rapport = 1
f✓|X =R Constante de normalisation
fX|✓ f✓ d✓ fX =indépendante
fX|✓ f✓ded✓

= cst ⇥ fX|✓ f✓ Le bayésien multiplie la vraisemblance


des données par la loi a priori pour
/ fX|✓ f✓ “mettre à jour” ses croyances sur les
Symbole qui signi e: “proportionnel à”
valeurs probables de ✓
fi
Motivation First Bayesian model
Exemple 1: “Quel est la probabilité que mon nouveau-né soit de sexe masculin ?”

On note ✓ cette probabilité. On définit une variable aléatoire binaire X désignant le sexe masculin avec P(X = 1) = ✓.
Ainsi, X suit une loi de Bernoulli B(✓) et on a pour k 2 {0, 1} P(X = k) = ✓ (1 k
✓) 1 k
.
Soit X1 , . . . , Xn des variables i.i.d ⇠ B(✓) pour les quelles on observe n valeurs x1 , . . . , xn .

1. Détaillez l’approche Fréquentiste en calculant la vraisemblance et son maximum.

2. Le Bayésien considère que ✓ est une variable aléatoire suivant une loi a priori ⇡. Quelle est la formule pour
trouver la distribution de ✓|X1 , . . . Xn ?

3. ✓|X1 , . . . Xn suit la loi a posteriori. Trouver sa distribution en prenant une loi a priori uniforme.

On rappelle que la densité d’une loi Beta(a, b) est donnée par :

xa 1
(1 x)b 1
f (x) = (a) (b)
, pour x 2 [0, 1].
(a+b)
a a 1
Sa moyenne est donnée par a+b . Pour a, b > 1, son maximum est atteint en a+b 2 .

4. Comparez avec l’approche Fréquentiste.

28
Premier modèle Bayésien La table de Bayes
Exemple 2:
Alice Bob
+1

0 0.5 p 1
1. Sur une table de billard, il y a une séparation abstraite (coordonnée p) invisible et inconnue par les joueurs.
2. À chaque tirage, une balle est jetée (uniformément entre 0 et 1) sur la table.
3. Si elle tombe à gauche de p, Alice gagne un point

29
Premier modèle Bayésien La table de Bayes
Exemple 2:
Alice Bob
+1

0 0.5 p 1
1. Sur une table de billard, il y a une séparation abstraite (coordonnée p) invisible et inconnue par les joueurs.
2. À chaque tirage, une balle est jetée (uniformément entre 0 et 1) sur la table.
3. Si elle tombe à gauche de p, Alice gagne un point
4. Si elle tombe à droite de p, Bob gagne un point

30
Premier modèle Bayésien La table de Bayes
Exemple 2:
Alice Bob
+1

0 0.5 p 1
1. Sur une table de billard, il y a une séparation abstraite (coordonnée p) invisible et inconnue par les joueurs.
2. À chaque tirage, une balle est jetée (uniformément entre 0 et 1) sur la table.
3. Si elle tombe à gauche de p, Alice gagne un point
4. Si elle tombe à droite de p, Bob gagne un point
5. Le premier à 6 points gagne. Le score est Alice 5 - 3 Bob. Quelle est la probabilité que Bob gagne ?

1. Approche fréquentiste
1. Quelle est la probabilité qu’Alice gagne un point lors d’un tirage? En déduire une estimation intuitive fréquentiste de p.
2. Notons A le score d’Alice et B celui de Bob. Quelle distribution permet de modéliser: P(A = a, B = b) ?
3. En déduire la vraisemblance du modèle. Le maximum correspond-il à votre estimation de p ?
4. Quelle est la probabilité que Bob gagne la partie ? 1. La probabilité qu’Alice gagne un point est p. Elle a gagné 5
parmi 8 tirages, une estimation de p est 5/8.
4. Pour que Bob gagne, il faut qu’Alice perde 3 fois de suite.
31 La probabilité est donc (1-p)3 = (3/8)3 ~ 0.052
Premier modèle Bayésien La table de Bayes
Exemple 2:
Alice Bob
+1

0 0.5 p 1
1. Sur une table de billard, il y a une séparation abstraite (coordonnée p) invisible et inconnue par les joueurs.
2. À chaque tirage, une balle est jetée (uniformément entre 0 et 1) sur la table.
3. Si elle tombe à gauche de p, Alice gagne un point
4. Si elle tombe à droite de p, Bob gagne un point
5. Le premier à 6 points gagne. Le score est Alice 5 - 3 Bob. Quelle est la probabilité que Bob gagne ?

2. Approche Bayésienne

1. On suppose une loi a priori uniforme pour p. Déterminez la loi a posteriori P(p|A = 5, B = 3) .
2. En utilisant la loi a posteriori, proposez un estimateur de la probabilité que Bob gagne sachant le score A = 5, B = 3.

3. Simulation
Simulez ce jeu en Python et estimez cette probabilité empiriquement. Quelle approche est la plus précise ?

32
Premier modèle Bayésien La table de Bayes
Alice Bob
+1
0 p 1

La distribution a posteriori est donnée par:


P(A = 5, B = 3|p)P(p)
P(p|A = 5, B = 3) = (1)
P(A = 5, B = 3)
/ P(A = 5, B = 3|p)P(p) (2)
✓ ◆
8 5 3
= p (1 p) 1[0,1] (p) (3)
5
5 3
/ p (1 p) (4)
On reconnait la loi Beta(6, 4). (6) (4) 5!3!
Sa constante de normalisation (6,
est:4)
= =
(10) 9!
P(A
9! = 5, B 3= 3|p)P(p)
P(p|A = 5, B = 3) = 5
p (1 p) (1)
5!3!P(A = 5, B = 3)
33
Premier modèle Bayésien La table de Bayes

Après avoir vu les donnés, la distribution a posteriori est une Beta(6, 4):
P(A
9! = 5, B 3= 3|p)P(p)
P(p|A = 5, B = 3) = 5
p (1 p) (1)
5!3!P(A = 5, B = 3)
/ P(A = 5, B = 3|p)P(p) (2)
✓ ◆
8 5 3
= p (1 p) 1[0,1] (p) (3)
5
5 3
/ p (1 p) (4)

Identique au maximum de vraisemblance, car l’a-priori est constante !


Quelle serait ici la valeur du (MAP): maximum a posteriori ? Le mode d’une Beta(6, 4) est 6 1
6+4 2 = 5
8 = 0.625.
Et celle de la moyenne a posteriori ? La moyenne d’une Beta(6, 4) est 6
6+4 = 0.6
34
Premier modèle Bayésien La table de Bayes

Bayésien: Probabilité conditionnelle en utilisant la loi des probabilités totales:


Z Distribution a posteriori
P(Bob Gagne|A = 5, B = 3) = P(Bob Gagne|A = 5, B = 3, p)dP(p|A = 5, B = 3)
Z
3
= (1 p) f (6,4) (p)dp
Z 5 3
3 p (1 p)
= (1 p) dp
(6, 4)
Z
1 5 6
= p (1 p) dp
(6, 4)
(6) (7) 5!6!
(6, 7) (13) 12! 9!6! 5! 1
= = (6) (4)
= 5!3!
= = = ⇡ 0.09
(6, 4) 9!
12!3! 12 ⇥ 11 ⇥ 10 11
(10)

Au lieu d’estimer p et substituer dans (1 p)3, le


⇡ Bayésien
0.051 calcule une “moyenne a posteriori”

35
Premier modèle Bayésien La table de Bayes

Bayésien: Probabilité conditionnelle en utilisant la loi des probabilités totales:


Z Distribution a posteriori
P(Bob Gagne|A = 5, B = 3) = P(Bob Gagne|A = 5, B = 3, p)dP(p|A = 5, B = 3)
Z
3
= (1 p) f (6,4) (p)dp
Z 5 3
3 p (1 p)
= (1 p) dp
(6, 4)
Z
1 5 6
= p (1 p) dp
(6, 4)
(6) (7) 5!6!
(6, 7) (13) 12! 9!6! 5! 1
= = (6) (4)
= 5!3!
= = = ⇡ 0.09
(6, 4) 9!
12!3! 12 ⇥ 11 ⇥ 10 11
(10)

Au lieu d’estimer p et substituer dans (1 p)3, le


⇡ Bayésien
0.051 calcule une “moyenne a posteriori”

36
Premier modèle Bayésien

Dans l’exemple de Alice - Bob on a:

1. Modélisé ✓ comme une variable aléatoire avec une loi a priori P(✓).
1.
1. Modélisé
Modélisé ✓✓ comme
comme uneune variable
variable aléatoire
aléatoire avec avec une
une loi priori P(✓).
loi aa priori P(✓).
2. Calculé la loi a posteriori P(✓|X , . . . , X ): “Modèle facile” car on a obtenu
posteriori P(✓|X
2. Calculé 1 n
2. Calculé la
la loi
loi aa posteriori P(✓|X11 ,, .. .. .. ,, X
Xnn ):
): une loi a posteriori classique
P(✓|X , . . . , X ) / P(X , . . . , X |✓)P(✓) (Beta) dont l’intégrale est
P(✓|X 1 n
/ P(X
Xnn )) /
P(✓|X11 ,, .. .. .. ,, X
1 n
Xnn |✓)P(✓)
P(X11 ,, .. .. .. ,, X |✓)P(✓) connue, sinon n’on aurait pas pu
3
obtenir la densité a posteriori
3.
3. Estimé la quantité (1 ✓) en
✓)33 prenant la moyenne a posteriori:
3. Estimé
Estimé la
la quantité
quantité (1
(1 ✓) en
en prenant
prenant la la moyenne
moyenne aa posteriori:
posteriori:
Z
Z 1
⇥⇥ 3

⇤ Z 11 3
E
E ✓|X ,...,X ⇥(1 ✓)33 ⇤ =
(1 ✓) = (1
(1 ✓)
✓) 3 f ✓|X ,...,X (✓)d✓
E✓|X 1
,...,X
✓|X1 ,...,Xn
1
n
n (1 ✓) = 0 (1 0 ✓) ff✓|X
3 1 n (✓)d✓
✓|X1 ,...,Xn (✓)d✓
1 ,...,X n
0
0

4.
4. Ainsi,
Ainsi, le
le bayésien
bayésien utilise
utilise la
la loi
loi aa posteriori
posteriori pour
pour estimer
estimer n’importe
n’importe quelle
quelle quantité:
quantité: '(✓)
'(✓) avec
avec
4. Ainsi, le bayésien utilise la loi a posteriori pour estimer n’importe quelle quantité: '(✓) avec
E
E ✓|X ,...,X ['(✓)]
['(✓)]
E✓|X 1 n
✓|X1 ,...,Xn ['(✓)]
1 ,...,X n

1. Pour quel type de modèle obtient-on une loi a posteriori facilement ?

2. Pourquoi la moyenne a posteriori, non pas le maximum ou la médiane a posteriori ?


37
Choix de l’a-priori
1. Pour quel type de modèle obtient-on une loi a posteriori facilement ?
fX|✓ f✓
f✓|X =R / fX|✓ f✓
fX|✓ f✓ d✓
1) Prendre une loi a priori uniforme:
1.
1.
1. Une
Une loi a priori uniforme sur ⇥:
Une loi a priori uniforme sur ⇥:
loi a priori uniforme sur ⇥: fff✓✓ constante.
constante.
constante.

2.
2.
2. La
La loi a posteriori est alors donnée par le modèle f
La loi a posteriori est alors donnée par le modèle ffX|✓
loi a posteriori est alors donnée par le modèle X|✓
mais
mais en fonction de ✓.
mais en fonction de ✓.
en fonction de ✓.
X|✓
3.
3.
3. Comment
Comment faire si le domaine de ✓
Comment faire si le domaine de ✓✓
faire si le domaine de n’est
n’est pas borné, R
R par exemple ?
n’est pas borné, R par exemple ??
pas borné, par exemple
RRR
4.
4.
4. On
On peut
peut considérer
considérer une
une loi
loi aa priori
priori impropre
impropre c-à-d
c-à-d à
à “densité”
densité
densité ⇡
⇡ non-intégrable
non-intégrable
On peut considérer une loi a priori impropre c-à-d à densité ⇡ non-intégrable ⌦ ⌦
f


⇡ ✓ =
=
=
= +1
+1
+1
+1 mais...
mais...
mais...
mais...

RRR
5.
5.
5. ...
... à
à condition
condition que
que la
la loi
loi a
a posteriori
posteriori obtenue
obtenue soit
soit propre
propre
... à condition que la loi a posteriori obtenue soit propre : ⌦ :
: ⌦
f
f
f X|✓
X|✓
f
f
f ✓

d✓
d✓
d✓ <
<
< +1.
+1.
+1.
⌦ X|✓ ✓

Exemple:

On considère X 1 , . . . , X n i.i.d ⇠ N (µ, 2 ) avec 2 connue.


Trouver la loi de µ|X 1 , . . . , X n en prenant une loi a priori impropre ⇡(µ) / 1 sur R.

38
a priori conjuguées
1. Pour quel type de modèle obtient-on une loi a posteriori facilement ?

2) Prendre une loi a priori conjuguée:

On dit qu’une loi a priori ⇡(✓) est conjuguée pour un modèle P(X1 , . . . , Xn | ✓)
si la loi a posteriori P(✓ | X1 , . . . , Xn ) appartient à la même famille de distributions que ⇡(✓).

Quelques exemples:
Modèle
Modèle Loi aa priori
Loi priori Vraisemblance
Vraisemblance Loi aa posteriori
Loi posteriori
Modèle Loi a priori Vraisemblance Loi a posteriori
Beta-Bernoulli ⇠ Beta(↵,
✓✓✓ ⇠ Beta(↵, ) / ✓↵↵ 11 (1 ✓) 11 X | ✓ ⇠ Bernoulli(✓), P(X
P(X | ✓) = ✓ X
(1 ✓) 11 X
✓✓✓ ||| X
X⇠⇠ Beta(↵
Beta(↵ +
+ X,
X, +
+ 11 X)
?
X X
Beta-Bernoulli
Beta-Bernoulli ⇠ Beta(↵, )) /
/ ✓✓↵ 1 (1
(1 ✓)
✓) 1 X | ✓ ⇠ Bernoulli(✓), | ✓) = ✓
X | ✓ ⇠ Bernoulli(✓), P(X | ✓) = ✓ (1X (1 ✓)
✓)1 X
X ⇠ Beta(↵ + X, + 1 X)
X)
↵↵ 11 (1 11 P(X || ✓) nn
? + X,
X nn X
X
Beta-Binomial
Beta-Binomial ⇠ Beta(↵,
✓✓✓ ⇠ Beta(↵, ) /
)) / ✓ ✓) X || ✓✓ ⇠
⇠ Bin(n,
Bin(n,✓),
✓), P(X ✓) =
= ✓X (1 ✓) ✓✓✓ ||| X
X⇠⇠ Beta(↵
Beta(↵ + X, + nn X)
Beta-Binomial ⇠ Beta(↵, / ✓✓↵ 1 (1
(1 ✓) ✓) 1 X
X | ✓ ⇠ Bin(n, ✓), P(X | ✓) = n
X
X
X
✓✓X (1
(1 ✓) ✓)n X X ⇠ Beta(↵ + X, +
+n X)
X)

⇣ ⌘⌘ ⇣⇣ ⌘⌘
⇣ (✓ (✓ µµ00))22 ⌘
2
⇣ (X (X ✓)✓)22 ⌘
2
Gaussian-Gaussian ⇠N
✓✓✓ ⇠ N(µ 2
(µ00,, 020)) /
2 / exp
exp (✓ 2µ202) X || ✓✓ ⇠
⇠NN(✓, 2
P(X || ✓)
(✓, 2 ),), P(X
2 / exp
✓) / exp (X2 2✓) ✓ |
✓✓ || XX ⇠
⇠ NN (µ , 22
),
Gaussian-Gaussian X (µ
?
n, n 2n),
Gaussian-Gaussian ⇠ N (µ0 , 0 ) / exp 2 020
2
X | ✓ ⇠ N (✓, ), P(X | ✓) / exp 2 2
2
2 n
X ⇠ N (µn , n ),
0 22 X+ 22 µ0 22 22
20X+ 2 µ0 , 2
µ
µ n =
n = 0 22 + 22 0 , n
0 X+ µ 2
2n =
= 20 2
0
2 + 22
µn = 20+
0 + 2
, n= 20+
2
00 2
0 0+

?
X ✓✓
Gamma-Poisson
Gamma-Poisson ⇠ Gamma(↵,
✓✓✓ ⇠ Gamma(↵, ) / ✓↵↵
) / ✓↵ 11 e
1e
✓✓ X || ✓✓ ⇠
X ⇠ Poisson(✓), P(X || ✓)
Poisson(✓), P(X ✓) = ✓X
= ✓XX!
✓ ee ✓
✓✓✓ ||| X
X⇠⇠ Gamma(↵
Gamma(↵ +
+ X,
X, +
+ 1)
1)
Gamma-Poisson ⇠ Gamma(↵, ) / ✓ e ✓
X | ✓ ⇠ Poisson(✓), P(X | ✓) = X! e
X! X ⇠ Gamma(↵ + X, + 1)

39
Risque fréquentiste minimax
2. Pourquoi la moyenne a posteriori, non pas le maximum ou la médiane a posteriori ?
Idée: développer un critère pour comparer ces estimateurs
D’abord, en analyse fréquentiste:
1. On suppose qu’il existe un vrai paramètre ✓ tel que les données X ⇠ P
P (X).
On suppose qu’il existe un vrai paramètre ✓✓ tel
queque
lesles données XP⇠
X P✓✓ (X).
1. X⇠ ✓
1. On
1. On suppose
supposequ’il
qu’ilexiste
existeun
unvrai
vraiparamètre
paramètre✓ teltel que données
les données ✓ (X).

On suppose qu’il existe un vrai paramètre ✓ tel que les données X ⇠ P✓ (X).(X).
2.
2. On
On
On détermine
détermine
détermine une
une
une fonction
fonction
fonction T T
T (estimateur)
(estimateur)
(estimateur) appliquée
appliquée
appliquée auxaux
aux données
données
données pour pour
pour estimer
estimer
estimer ✓ par ✓✓ par
par
T (X). T
T (X).
(X).
2.
2. On
On détermine
détermine une une fonction
fonction T T (estimateur)
(estimateur) appliquée
appliquée aux
aux données
données pour pour estimer
estimer ✓✓ par par T T (X).
(X).
3.
3.
3. On
On
On peut
peut
peut quantitifer
quantitifer
quantitifer sa
sa
sa qualité
qualité
qualitéenen
en calculant
calculant
calculantuneune fonction
fonction
une fonctionde de
perte
de perte
(loss
perte (loss function)
function)
(loss L(T
function) L(T
(X),
L(T (X),
✓).
(X), ✓).
✓).
3.
3. On
On peut
peut quantitifer
quantitifer sa sa qualité
qualité en
en calculant
calculant une
une fonction
fonction dede perte
perte (loss function) L(T
(loss function) L(T (X),
(X), ✓). ✓).
4. Choix classiques de L: la perte quadratique L(a, b) = (a 2 b)22 ou en valeur absolue: L(a, b) = |a b|.
4. Choix
Choix classiques
classiques de
de L:
L: lalaperte
perte quadratique
quadratique L(a, b)
L(a, =
b) (a
= (a b) ou
b) en valeur absolue: L(a, b)
L(a, = |a b|.
|a
4. Choix L: L(a, 2 ou
2 en valeur absolue: L(a, b) = |a b|.
4. Choix classiques de L: la perte quadratique L(a, b) = (a b) ou en valeur absolue: L(a, b) = |a b|.
classiques de la perte quadratique b) = (a b) ou en valeur absolue: b) = b|.
def def
5.
5. L(T
L(T
L(T (X),
(X),
(X), ✓)
✓)
✓) dépend
dépend
dépend des
des
des données,
données,
données, onon
on calcule
calcule
calcule une
une perte
perte
une moyenne
moyenne
perte moyenne ditedite “Risque”:
“Risque”:
dite “Risque”:R(T R(T
,
R(T ✓) ,
= ✓)
,, ✓) E =
def
=
def
X E
[L(T
E [L(T
(X),
X [L(T
X (X),
✓)]
(X), ✓)]
✓)]
5.
5. L(T (X), ✓) dépend des données, on calcule une perte moyenne dite
L(T (X), ✓) dépend des données, on calcule une perte moyenne dite “Risque”: R(T , ✓) = EX “Risque”: R(T ✓) def
= E X
[L(T
[L(T (X),
(X), ✓)]
✓)]
6.
6. Ce
Ce
Ce Risque
Risque
Risque dépend
dépend
dépend de
du
du ✓,✓,
✓,on veut
on
on veut
veutun estimateur
un
un estimateur
estimateur T qui
T
T soit
qui
qui bon
soit
soit pour
bon
bon tous
pour
pour les
tous
tous ✓.
les
les ✓.
✓.
6.
6. Ce
Ce Risque dépend du ✓, on veut un estimateur T qui soit bon pour tous les ✓.
Risque dépend du ✓, on veut un estimateur T qui soit bon pour tous les ✓.
def def
7.
7. On
On quantifie
quantifie sa
sa pire
pire performance
performance par le le
par plus grand
plus grandrisque
risqueR(TR(T ) =) max
=
def max , ✓). , ✓). “worst-case” analysis
R(TR(T
7.
7. On
On quantifie
quantifie sa
sa pire
pire performance
performance par
par le
le plus
plus grand
grand risque
risque R(T
R(T )) def
= ✓ max
def
= max R(T
R(T ,, ✓).
7. On quantifie sa pire performance par le plus grand risque R(T ) = max ✓ R(T , ✓).

✓).


8.
8. Le
Le meilleur
meilleur estimateur
estimateur TTest estcelui
celuiqui minimise
qui minimise ce ce
plus
plusgrand
grand risque
risque minminmaxmaxR(TR(T , ✓). , ✓).
8.
8. Le
Le meilleur
meilleur estimateur
estimateur T
T est
est celui
celui qui
qui minimise
minimise ce
ce plus
plus grand
grand risque
risque T min
min✓ max
max R(T
R(T ,, ✓).
✓ R(T , ✓).
T ✓
8. Le meilleur estimateur T est celui qui minimise ce plus grand risque min T max
T ✓
✓).
“critère mini-max”
T ✓

40
Risque bayésien et risque a posteriori
Le fréquentiste cherche l’estimateur T qui minimise: max R(T, ✓) = max EX [L(T (X), ✓)]
✓ ✓
Que devrait-être le critère du Bayésien ?

Le Bayésien ne maximise pas, il “moyenne” avec la loi a priori:


Z Z
def
R⇡ (T ) = R(T, ✓)⇡(✓)d✓ = (EX [L(T (X), ✓)]) ⇡(✓)d✓ = E✓⇠⇡ (EX [L(T (X), ✓)])

Risque de Bayes pour la loi a priori ⇡


def
Le Bayésien cherche l’estimateur T qui minimise: R⇡ (T ) = Un tel estimateur est dit: “Estimateur de Bayes”
Qu’obtient-on si on intègre la perte par rapport a la loi a-posteriori ?
ZZ
def
def
⇢⇢⇡⇡(T,
(T, X)
X) =
= L(T
L(T(X),
(X), ✓)dP(✓|X)
✓)dP(✓|X) On intègre par rapport à ✓ uniquement, ce risque dépend des données !

Risque a posteriori Et si on le minimise par rapport à T, on obtient une fonction en X: un estimateur !


Théorème

L’estimateur: arg minT ⇢⇡ (T, X), s’il existe, est un estimateur de Bayes: il minimise R⇡ (T ) pour la même perte L.

Preuve facile: appliquer le théorème de Bayes puis changer l’ordre de l’intégrale double avec le théorème de Fubini (notes UPMC)
41
Estimateur de Bayes
Corollaire 1

On considère la perte quadratique L(a, b) = ka bk et ✓ 2 ⇥ ⇢ R avec une loi a priori ⇡ sur ⇥.


2 d

On suppose que la loi ⇡ admet un moment d’ordre 2. Un estimateur de Bayes pour la loi ⇡ est donné
par la moyenne a posteriori: Z
b
✓(X) = ✓dP (✓|X)

Preuve (au tableau)

Corollaire 2

On considère la perte en valeur absolue L(a, b) = |a b| et ✓ 2 ⇥ ⇢ R avec une loi a priori ⇡ sur ⇥.
On suppose que la loi ⇡ admet un moment d’ordre 1. Un estimateur de Bayes pour la loi ⇡ est donné
par la médiane a posteriori:
b
✓(X) = med(P (✓|X))
Preuve facile: il su t d’écrire la dé nition de l’intégrale de la valeur absolue et de la découper à la médiane

Si la perte n’est pas précisée, l’expression “Estimateur de Bayes” désigne toujours la moyenne a posteriori

42
ffi
fi
Estimateur de Bayes asymptotique
Que devient la loi a posteriori lorsque la quantité des données tend vers l’in ni ?
Théorème (Bernstein-von Mises)
Soit X1 , . . . , Xn i.i.d. ⇠ P✓0 avec ✓0 2 ⇥ ⇢ Rd tel que P✓ un modèle régulier (densité 2 C 1 , ✓0 2 int(⌦)).
On note l’estimateur du maximum de vraisemblance par ✓bM V .
Si la loi a priori est régulière et non nulle en ✓0 et la matrice d’information de Fisher I(✓0 ) est inversible, alors:

La loi a posteriori ✓|X1 , . . . , Xn est asymptotiquement normale centrée en ✓bM V :


p ⇣ ⌘
b d
n ✓ ✓M V |X1 , . . . , Xn ! N (0, I(✓0 ) 1 )

Preuve très avancée: Voir 10.2 dans l’ouvrage Asymptotic Statistics de van der Vaart (1998).

Application
h 2
i h 2
i
On rappelle que l’information de Fisher en dimension 1 est donnée par: I(✓) = E @
@✓ log f (X; ✓) = E @
@✓ 2 log f (X; ✓)
1. Analysez l’une de ces expressions pour comprendre son intuition.

2. Simulez en Python un modèle Beta-Bernoulli et véri er le comportement asymptotique donné par le théorème BvM.

43
fi
fi
1.
1.
1.
2. OnOn
On
On suppose
suppose
suppose
suppose
Le suppose
modèle BayésienXX
X
1, . . . , Xn
,
1 ,.
Bayésien. . .. ., ,XX n
n des
desdes
des
considère observations
observations
observations
observations
que ✓✓ est i.i.d
est une i.i.d
i.i.d
i.i.d suivant
suivant
suivant
suivant
une variable
variable uneune une
une loi
loi loi paramétrée
paramétrée
paramétrée
loi
aléatoire paramétrée P P ✓
✓.P
P
✓ P✓
à modéliser
modéliser. ✓ .
. par une une loi loi aa priori priori P(✓) P(✓) ⇠ ⇠ ⇡, ⇡, la la
1.
2. Le modèle X 11 , . . . , X des
considère
nn observations
que i.i.d suivant une loi
aléatoire paramétrée
à P . par P(✓)
2.
1.
1.2.
2.
Le
On
Le
On
modèle
suppose
modèle
suppose
distribution
Le modèle
Bayésien
X
X
des
1
1 ,
Bayésien
,
Bayésien
.. .
. .
.
données
,
, X
X
considère
n
n des
considère
des
que
observations
que
observations
(vraisemblance)
considère que



est
est
est
une
i.i.d
une
i.i.d
devient
une Résumé
variable
suivant
variable
suivant
alors
variable
une
une
aléatoire
loi
aléatoire
loi
conditionnelle:
aléatoire

paramétrée

paramétrée

modéliser
modéliser
P(X|✓). P
modéliser

✓ .
.
par
par
par
une
une
une
loi
loi
loi
a
aa
priori
priori
priori P(✓)
P(✓)



⇡,
⇡,
⇡,
la
la
la
2.
1.
2. distribution
Le
On
Le modèle
suppose
modèle
distribution des
X 1
Bayésien
,
Bayésien
des données
. . .
données , X n (vraisemblance)
considère
des
considère que
observations
(vraisemblance) que ✓ ✓ est
est devient
une
i.i.d
une
devient alors
variable
suivant
variable
alors conditionnelle:
une aléatoire
loi à
paramétrée
aléatoire
conditionnelle: P(X|✓).
à P
modéliser
P(X|✓).
modéliser ✓
. par parune une loi a
loi priori
a prioriP(✓)
P(✓) P(✓) ⇠ ⇡,⇠ la⇡, la
2.
1.
2. Le
On modèle
modèle
suppose
distribution
Le modèle
distribution
Bayésien
des1
Bayésien
X ,
Bayésien
des . .
1 données .
données , considère
X n
considère
des
n (vraisemblance)
considère que
que
observations
(vraisemblance) que ✓ ✓
✓ est est
est une une
i.i.d
devient
une
devient
variable
variable
suivant
alors
variable
alors unealéatoire
aléatoire
loi
conditionnelle: à modéliser
paramétrée
aléatoire
conditionnelle: P(X|✓).

à P
modéliser
modéliser
P(X|✓).

✓ . par une
par
par une
uneloi aloi
loi priori
a
a priori
priori P(✓)
P(✓)⇠ ⇡, ⇠
⇠ la ⇡,
⇡, la
la
1.
2. On
Le suppose
modèle
distribution
distribution X
des
des ,
Bayésien . . .
données
données
1 données , X des
considère observations
(vraisemblance)
(vraisemblance)
n (vraisemblance) que ✓ est i.i.d
une
devient
devient suivant
variable
alors
alors une loi paramétrée
aléatoire
conditionnelle:
conditionnelle: P(X|✓).
à P
modéliser
P(X|✓).
P(X|✓). ✓ . par une loi a priori P(✓)
P(✓) ⇠ ⇡, la
2.3.
3. distribution
Le
Le modèle
modèle
distribution
Le modèle
distribution des
Bayésien
Bayésien
des
Bayésien
des données
données considère
met
met à jour
(vraisemblance)
à jour
(vraisemblance) que
la
la ✓
distribution
distribution estdevient
une
devient
devient sur
sur alors
variable

alors

alors conditionnelle:
avec
avec aléatoire
les données
conditionnelle:
les données
conditionnelle: à
et
et P(X|✓).
modéliser
obtient
P(X|✓).
obtient la
la par
loi
loi aa une
posteriori
posteriori loi a P(✓|X
priori
P(✓|X ,
,
P(✓) .. .
. .
. ,
, ⇠X
X ⇡,
)
) la
2.
3.
2.3. Le
Le
Le
Le modèle
modèle
distribution
modèle
modèle Bayésien
Bayésien
des
Bayésien
Bayésien données considère
met
met à jour
(vraisemblance)
considère
à jour que
la
que
la ✓
distribution

distribution est
est une
devient
une variable
sur
sur ✓
alors
variable
✓ avec
avec aléatoire
les données
conditionnelle:
aléatoire
les données à
et

et modéliser
obtient
P(X|✓).
modéliser
obtient la
la par
loi
par
loi a
a une
posteriori
une
posteriori loi
loi a
a P(✓|X
priori
P(✓|X
priori
1
1
1 ,
P(✓)
, .
. .
. .
. ,
, ⇠
=X
X
n
n
n ⇡,
)
⇡,
) la
la
3.
2.
3. distribution
avec
Le
avec
Le
Le le
modèle
le
modèle
modèle théorème
théorèmedes
Bayésien
Bayésien
Bayésien données
de
de Bayes:
met
Bayes: à
considère
met à P(✓|X
(vraisemblance)
jour
P(✓|X
jour la
que
la , . . .
distribution
1,distribution
. .
✓ . ,
, X
estX devient
)
n)une// P(X
sur
P(X alors

variable
sur ✓ ,
, .
. .
avec
.
avec .
. ,
,conditionnelle:
XX les |✓)P(✓)
données
n|✓)P(✓)
aléatoire
les données àet
et P(X|✓).
obtient
modéliser
obtient la
la loi
par
loi a
a uneposteriori
posteriori loi a P(✓|X
P(✓|X
priori ,
P(✓)
1
, .
. .
. .
. ,
, ⇠X
X n )
⇡,
) la
3.
3. avec
distribution
Le
Le
avec le
modèle
modèle
modèle
distributionle théorèmedes
Bayésien
Bayésien
Bayésien
théorèmedes de
données
de
données Bayes:
met
met
met
Bayes: à à
à P(✓|X
(vraisemblance)
jour
jour
P(✓|X
jour
(vraisemblance)lala
la
1
1 ,
, . . . ,
distribution
distribution
distribution
. . . , X
X
n
n )
) /
devient
/
devient P(X
sur
P(Xsur
sur✓
1
1
1 ,
alors
,
alors✓
✓.
avec
. .
. .
avec
avec
. ,
, X
Xles n
n |✓)P(✓)
conditionnelle:
les
|✓)P(✓)
les
conditionnelle: données
données
données et P(X|✓).
et obtient
obtient
P(X|✓).
et obtient la la
loi
la aloi
loi a
posteriori
a posteriori
posteriori P(✓|X P(✓|X
P(✓|X
1
1, . . .
1 ,
,, X
.. .
. .
n
.
n ,
)
, X
X n )
)
3.
3. Le
avec
avec modèle
distribution
Le le
le
modèle Bayésien
théorème
théorèmedes
Bayésien de
de
données met
Bayes:
Bayes:
met à P(✓|X
jour
P(✓|X
(vraisemblance)
à jour la
la
1
1 ,
, distribution
.
. .
. .
. ,
,
distribution X
X n
n )
) /
/
devient P(X
P(Xsur
sur
1
1 ,
,
alors✓
✓.
. .
.avec
.
.
avec ,
, X
X R
n
R
n les
|✓)P(✓)
|✓)P(✓)
conditionnelle:
les données
données et
et obtient
P(X|✓).
obtient la
la loi
loi a
a posteriori
posteriori P(✓|X
P(✓|X
1 1
1 ,
, .
. .
.
n
.
. ,
, X
X n
n )
)
3.4. avec
avec
4. avec
Une
Le
Une le
le
loi
modèle
le
loi théorème
théorème
de densité
Bayésien
théorème
de densité dede
de Bayes:
Bayes:
proportionnelle
met
Bayes:
proportionnelle à P(✓|X
P(✓|X
P(✓|X
jour la,
1 à
1 1à ., ..
g .. ,. X
est
distribution
, .
g . .
est,
, X
X
n) /
dite) /P(X P(X
impropre
P(X
sur
n) /impropre
ndite 1,
1 1 .✓ ,
.
, . .
,
avec
. . .
X
si
.
si ,
, R
X
n
R
nX g
les
g |✓)P(✓)
|✓)P(✓) =
n|✓)P(✓)
= +1.
données
+1. et obtient la loi a posteriori P(✓|X 1 , . . . , X n )
4.
3. avec
Une
Le
avec le
loi
modèle
le théorème
de densité
Bayésien
théorème de
de Bayes:
proportionnelle
met
Bayes: à P(✓|X
jour
P(✓|X la 1
1à , .
g . .
est
distribution
, . . . ,
, X
X dite
n
n )
) /
/ P(X
impropre
sur
P(X 1
1✓ ,
, . .
avec
. . .
si
. ,
, R
X
R
X gn
les
n |✓)P(✓)
= +1.
données
|✓)P(✓) et obtient la loi a posteriori P(✓|X 1
, . . . , X n
)
4.
3.4. Une
Le
Une
avec loi
modèle
loi
le de
de densité
Bayésien
densité
théorème de proportionnelle
met
proportionnelle
Bayes: à jour
P(✓|X la à g
g
. . est
1à,distribution
est
. , X dite
dite impropre
sur
P(X
n ) /impropre 1✓, .avec. si
si
. ,R X R
Rg
les
n
g == +1.
données
+1.
|✓)P(✓) et obtient la loi a posteriori P(✓|X 1
1 , . . . , X n
n )
4.
3.
4.
5. Une
Le
avec
Une
On loi
modèle
le
loi
loi
peut dede
de densité
Bayésien
théorème
densité
densité
très bien de proportionnelle
met
Bayes:
proportionnelle
proportionnelle
considérer à jour
P(✓|X
des la 1
àà
lois ,g
à g
. .
g
a est
distribution
.
est , X
est dite
n
dite
priori )
dite/ impropre
sur
P(X
impropre
impropre
impropres ✓
1
, avec
. .
si si
.
(ex.,siXles
gRg
n
= g= +1.
données
|✓)P(✓)
+1.
=
uniforme +1. suret obtient
R: ⇡(✓) /la 1 loisur a R)posteriori
... P(✓|X 1 , . . . , X n )
5.
4.
5.
4. On
Une
avec
On
Une peut
loi
le
peut
loi de
de très
très bien
densité
théorème bien
densité de considérer
proportionnelle
Bayes:
considérer
proportionnelle P(✓|X
des
des lois
1
lois
1 à
,
à . a
g
a
g. . priori
est
,
estX
priori n
dite
)
dite
n / P(X
impropres
impropre
impropres
impropre 1
1 , . . (ex.
.
([Link]
,
si X R
Runiforme
n |✓)P(✓)
gg =
uniforme
n = +1.
+1. sur
sur R:
R: Abus/
⇡(✓)
⇡(✓) / de11 sur
notation:
sur R)
R) ...
...P d’une variable aléatoire
4.
5.
5.
4. avec
Une
On
On
Une le
loi
peut
peut
loi théorème
de
de densité
très
très bien
bien
densité de Bayes:
proportionnelle
considérer
considérer
proportionnelle P(✓|X
des
des lois
lois
1 ,

à . g
a
g.
a . ,
estX
priori
priori
est n )
dite
dite / P(X
impropre
impropres
impropres
impropre1 , . . . ,
(ex.
([Link]
siX R |✓)P(✓)
g =
uniforme
uniforme
n g = +1.
+1. sur
sur R:
R: ⇡(✓)
R
⇡(✓) // 1
1 sur
sur R)
R) ...
...
5.
5.6.
4.
6. On
On
Une
... peut
peut
siloi
peut la de très
très
très
loi bien
bien
densité
a bien
posteriori considérer
considérer
proportionnelle
considérer
est propre des
des
des lois
lois
lois à
c-à-d a ga a priori
priori
est
que dite
priori la impropres
impropres
impropre
impropres
constante (ex.
(ex. si
(ex.
de Runiforme
uniforme
g = +1.
uniforme
normalisation sur
sur R:
surR:
désigne
R:
R
⇡(✓)
RR ⇡(✓)
⇡(✓) P(X
sa
/
/ 11/
densité
1, .sur
sur .1 . R)
sur
, XR)(continue
...
R)
...
|✓)P(✓)d✓
...
ou discrète)
est finie.
5.
5. ...
On
4.6. On
Une
... si
peut
si la
loi
peutla loi
detrès
loi
trèsa posteriori
bien
densité
a posteriori
bien est
considérer
proportionnelle
est
considérer propre
propre des
des c-à-d
lois
lois a
à ga est
c-à-d que
priori
que la
dite
priori la constante
impropres
impropre (ex.
constante
impropres de
(ex. R normalisation
uniforme
side normalisation
guniforme sur
= +1. sur R:RR ⇡(✓) R: P(X
P(X
⇡(✓) 1/
/,
, .
. .
1
.
1 .
. ,
sur
,
sur X
X nn R)
|✓)P(✓)d✓
R) ...
|✓)P(✓)d✓
... est
est finie.
finie.
6.
4.
5.
6. ...
Une
On
... siloi
peut
si la
la loi
detrès
loi a
a posteriori
densité
bien
posteriori est
proportionnelle
considérer
est propre
propre des c-à-d
lois à
c-à-d g a que
est
priori
que la
dite
la constante
impropre
impropres
constante side
([Link] normalisation
g = +1.
uniforme
normalisation sur R: R P(X
⇡(✓)
P(X
R
1
/,
, .
. .
1
. .
. ,
sur
, X
X
n
R)
|✓)P(✓)d✓
...
|✓)P(✓)d✓ est
est finie.
finie.
5.
6. On
... peut
si la très
loi a bien
posteriori considérer
est propre des lois
c-à-d a priori
que la impropres
constante (ex.
de uniforme
normalisation sur R: P(X
⇡(✓)
R
P(X
R
1
1/, . .1 . sur
, X nn R) ...
|✓)P(✓)d✓ est finie.
6.
7.
5.
6.
7.
6.
5.
...
On
On
...
On
...
On
si
si
si
la
dit
peut
la
dit
la
peut
loi
que
que
loi
a
très
loi
trèsa
alaposteriori
la loi
bien
posteriori
loi
posteriori
bien aa priori
priori est
considérer
est
est
considérer est
estpropre
propre des c-à-d
conjuguée
conjuguée
propre des lois
c-à-d
c-à-d
lois a
a
que
pour
priori
pourque
que
priori
lale
la
le
la
constante
modèle
impropres
constante
modèle
constante
impropres X|✓
X|✓ de si
(ex.
si
(ex. de
de
normalisation
elle
elle appartient
uniforme
normalisation
appartient
normalisation
uniforme sur
sur à
àR:
R: la
la P(X
même
⇡(✓)
même
R
⇡(✓) P(X
,
1
/
. . 1
.
1 / famille
1,
,
,
famille
1 ..X
sur
.
sur. .. n
n, X
, XR)
|✓)P(✓)d✓
R)de
de n la
...
la
... loi
|✓)P(✓)d✓
loi
|✓)P(✓)d✓ aest
a finie.
posteriori.
est
posteriori.
est finie.
finie.
7.
6.
7.
5.
6.
On
...
On
On
... si
si
dit
la
dit
peut
la
que
loi
que
loitrèsa
a
la
la loi
posteriori
loi
bien
posteriori
aa priori
priori est
considérer
est
est
est conjuguée
propre
conjuguée
propre des c-à-d
lois
c-à-d a
pour
pourque
priori
que
le
la
le
la
modèle
constante
modèle
impropres
constante
X|✓
X|✓ (ex.
si
side
de
elle
elle appartient
normalisation
appartient
uniforme
normalisation sur
àà la
R: la P(X
même
R P(X
même
⇡(✓) /
famille
1 , .
famille
11 , .sur.
. .
. ,
, X
R)
X
de
den
n la
la
...
loi
|✓)P(✓)d✓
loi
|✓)P(✓)d✓
aa posteriori.
est
posteriori.
est finie.
finie.
7.
6.
7. On
...
On si dit
la
dit que
loi
que a la
la loi
posteriori
loi a
a priori
priori est est
est conjuguée
propre
conjuguée c-à-d pour
que
pour le
la
le modèle
constante
modèle X|✓
X|✓ si
si deelle
elle appartient
normalisation
appartient à
à la
la R
même
P(X
même
R 1famille
, .
famille . . , X de
den la
la loi
|✓)P(✓)d✓
loi a
a posteriori.
est
posteriori. finie.
7.
7.
8. On
8. ...
6. On dit
L’estimateur
siditla
L’estimateur que
loi
que la
ala loi
de a
Bayes
posteriori
loi
de a
Bayespriori
priori estest
correspond
est
correspond conjuguée
propreconjuguéeà la
c-à-d
à pour
la moyenne
moyenne
que
pour lelamodèle
le de cette
constante
modèle
de X|✓
cetteX|✓ si elle
distribution
de
si
distribution appartient
normalisation
elle appartient
appelée à
appelée moyenne la à même
moyenne
la
R P(X
même famille
1
aa, posteriori.
posteriori.
..famille
.. .. ,, X
famille de n la loi
n |✓)P(✓)d✓
de la a
la loi posteriori.
loi aaest finie.
posteriori.
7.
8.
6.
7. On
On dit
L’estimateur
... siditla que
loi
que ala
la loi
de
posteriori
loi a
Bayes
a priori
priori est est
correspond
est propreconjuguée

conjuguéec-à-d la pour
moyenne
que
pour le
la
le modèle
de cette
constante
modèle X|✓
X|✓ si
distribution
de
si elle appartient
appelée
normalisation
elle appartient à
à la
moyenne
la P(X
même
même 1
a
1 , posteriori.
famille X n |✓)P(✓)d✓
de
de la loi a estposteriori.
finie.
posteriori.
8.
6.
7.
8.
8.
7.
L’estimateur
...
On si ditla
L’estimateur
L’estimateur
On dit loi
que
que ala
la
de
loi
de
de
loi
Bayes
posterioria
Bayes
Bayes
a priori
priori
correspond
est est
correspond
correspond
est propreconjuguée
conjuguée
àà la
c-à-d
à la
la
moyenne
que
pour
moyenne
moyenne
pour la
le
le
de
de
de
cette
constante
modèle
cette
cette
modèle X|✓
X|✓
distribution
desi
distribution
distribution
si elle
appelée
normalisation
elle appartient
appelée
appelée
appartient
moyenne
à la
moyenne
moyenne
à la P(X
même
même 1aa, posteriori.
a . . .
famille,
posteriori.
posteriori.
famille X n |✓)P(✓)d✓
de la loi
1 de la loi a posteriori.
a est finie.
posteriori.
8.
9.
7.
9. L’estimateur
BvM:
On
BvM: dit La
que
La loi
loilade
a
aloi Bayes
posteriori
a
posteriori priori correspond
est
est
est à
asymptotiquement
conjuguée
asymptotiquement la moyenne
pour le de cette
normale
modèle
normale distribution
de
X|✓
de moyenne
si
moyenne elle ✓b
appelée
b
appartient
✓ et moyenne
de
V et deà variance variance
la même a posteriori.
I(✓)
I(✓)famille 1 .. de la loi a posteriori.
1
8.
7.9.
8. L’estimateur
BvM:
L’estimateur
On dit La
que loila ade
de
loi Bayes
posteriori
Bayes
a priori correspond
est
correspond
est conjuguée à
asymptotiquement
à la
la moyenne
moyenne
pour le de
normale
de
modèle cette
cette de
X|✓ distribution
moyenne
distribution
si elle b
✓ Mappelée
M et
appelée
appartient
b V de à moyenne
variance
moyenne
la même I(✓)
aa posteriori.
.
posteriori.
famille 1 de la loi a posteriori.
8.
9.
7.
9.
8. L’estimateur
BvM:
On
BvM: dit
L’estimateur La
que
La loi
la
loi de
a
aloi
de Bayes
posteriori
a
posteriori
Bayes priori correspond
est
est
est
correspond à
asymptotiquement
conjuguée
asymptotiquement
à la
la moyenne
pour
moyenne le de
normale
modèle
normale
de cette
cette de
X|✓
de distribution
moyenne
si
moyenne elle
distribution ✓bM appelée
appartient
✓bM
V et
et
appelée
V de
de à moyenne
variance
la même
variance
moyenne a
I(✓)
famille
I(✓)
a posteriori.
1 .
1 . de la loi a posteriori.
posteriori.
9.
8.
9.
10. BvM:
L’estimateur
BvM:
Ainsi, si LaLa loi
loi
si cet
n! aa
de posteriori
Bayes
posteriori
!estimateur
+1, la loi est
correspond
est
loicorrespond
a priori asymptotiquement
asymptotiquement
priori devient à
devient la moyenne normale
de
normale
négligeable: cette dede
on retrouve moyenne
distribution
moyenne
retrouve b
✓✓ M
M
l’approche
V
V et
appelée
et de de variance
moyenne
variance
fréquentiste. I(✓)
I(✓) a 1
. .
posteriori.
10.
8.
9.
10.
9. Ainsi,
L’estimateur
Calculer
Ainsi,
Calculer si n
n
cet ! +1,
de
+1, Bayes
estimateur la
la loi a
nécessite
a priori
nécessite de à
devient
de la
connaı̂trenégligeable:
moyenne
connaı̂tre la
négligeable:
la de on
cette
constante
on
constante distribution
retrouve de
de l’approche
M Vappelée
normalisation
l’approche
normalisation fréquentiste.
moyenne
pour
fréquentiste.
pour avoir
avoir a une
une posteriori.
densité.
densité.
8.
9.
10.
10.
L’estimateur
Calculer
Ainsi,
Ainsi, si
si cet
n
n !
!
de
+1,
+1,
Bayes
estimateur la
la loi
loi
correspond
nécessite
a
a priori
priori de à
devient
devient
la moyenne
connaı̂tre la
négligeable:
négligeable:
de cette
constante
on
on
distribution
retrouve
retrouve de normalisation
l’approche
l’approche
appelée moyenne
pour
fréquentiste.
fréquentiste. avoir a une posteriori.
densité.
8.
9.
10. L’estimateur
Calculer
Ainsi,
9. Calculer si cet
n
cet ! de+1, Bayes
estimateur
estimateur la loicorrespond
nécessite
a priori
nécessite de à
devient la
deconnaı̂tre moyenne
connaı̂tre
connaı̂tre la
négligeable: de
laconstantecette
constante
constanteon distribution
retrouve de normalisation
l’approche
denormalisation
normalisationappelée moyenne
pour
fréquentiste.
pour avoir
avoir a une
une posteriori.
densité.
densité.
10.
11.
11.
9. Ainsi,
Calculer
Calculer
Calculer si ncet
cet
cet ! +1,
estimateur
estimateur
estimateur la loi a priori
nécessite
nécessite
nécessite devient
de
dede connaı̂tre négligeable:
connaı̂tre la
lala on
constante
constante retrouvede
de de l’approche
normalisation
normalisation fréquentiste.
pour
pour pour avoir
avoir
avoir une
une une densité.
densité.
densité.
10.
11.
10.
9.
11.
Si
Si le
Calculer
le
Calculer
Calculer
modèle
modèle cet
cet
cet
est
est conjugué,
estimateur
conjugué,
estimateur alors
nécessite
alors
nécessite
nécessite
ce
de
ce
dede calcul
connaı̂tre
calcul
connaı̂tre
connaı̂tre
est
est déjà
la
déjà
lala connu.
constante
connu.
constante
constante de
de de normalisation
normalisation
normalisation pour
pour pour avoir
avoir
avoir une
une une densité.
densité.
densité.
10.
11.
9.
10.
11. Si
Si le
Calculer
Calculer
le
Calculer modèle
modèle cet
cet
cet est
est conjugué,
estimateur
estimateur
conjugué,
estimateur alors
nécessite
nécessite
alors
nécessite ce
cede
de
de calcul
connaı̂tre
connaı̂tre
calcul
connaı̂tre est
est déjà
lala
déjà
la connu.
constante
constante
connu.
constante de
de de normalisation
normalisation
normalisation pour
pour pour avoir
avoir
avoir une
une une densité.
densité.
densité.
10.
11.
12.
12. Si
Si
Si lele
Calculer
le modèle
modèle
modèle est
cet estimateur
est
est conjugué,
conjugué,
conjugué, nécessite alors ce
alors
alors cecalcul
de
ce calcul
connaı̂tre
calcul estdéjà
est
est déjà
la
déjà connu. de normalisation pour avoir une densité.
constante
connu.
connu.
10.
11.
12.
11.
10.
12. Si
Si
Si
Si le
ce
le
ce
le
le modèle
n’est
modèle
n’est
modèle
modèle pas
pas est
est le
le conjugué,
cas,
conjugué,
cas,
conjugué,
conjugué, la
la alors
constante
alors
constante
alors
alors ce
ce
ce
ce calcul
de
calcul
de
calcul
calcul est
normalisation
est
normalisation
est
est déjà
déjà
déjà
déjà connu.
connu.
connu.
connu. est
est très
très souvent
souvent intractable
intractable (difficile
(difficile à
à calculer).
calculer).
11.
12.
10.
11.
12. Si
Si
Si
Si ce
le
cele
le n’est
modèle
modèle
n’est
modèle pas
pas est
est
est le
le cas,
conjugué,
conjugué,
cas,
conjugué, la
la constante
alors
alors
constante
alors ce
ce
ce de
calcul
calcul
de
calcul normalisation
est
est
normalisation
est déjà
déjà
déjà connu.
connu.
connu. est
est très
très souvent
souvent intractable
intractable (difficile
(difficile à
à calculer).
calculer).
12.
11.
13.
13. Si
Si
Si le
cece
ce modèle
n’est
n’est
n’est pas
pas
pasest le
leconjugué,
cas,
cas, la
la alors
constante
constante
constante ce calcul
de
de de est
normalisation
normalisation déjà
normalisation [Link]
est est très
très
très souvent
souvent
souvent intractable
intractable
intractable (difficile
(difficile
(difficile à
à à calculer).
calculer).
calculer). P
P m
11.
13.
12. Si
Si
Avec ce
ce n’est
n’est
des pas le
échantillons cas, la
la✓ constante
constante
, . . . , ✓ ⇠ de de✓|X, normalisation
normalisation
on peut est
estimer est très
très une souvent
souventmoyenne intractable
intractable
a posteriori (difficile
(difficileempiriqueà à
calculer). 1
calculer).
1 P
P m
m ✓ .
12.
11.
13.
12.
13. Avec
Si
Si
Avec
Si ce
ce
ce des
n’est
n’est
des
n’est échantillons
pas
pas le
échantillons
pas le cas,
cas, ✓
la
la

la11 ,
, .
. .
constante
constante
.
constante.
. ,
, ✓
✓ m
m ⇠
⇠ de
de de✓|X,
✓|X, on
normalisation
normalisation
on
normalisation peut
peut estimer
est
estimer
est est très une
très
très une moyenne
souvent
souventmoyenne
souvent a
a
intractableposteriori
intractable
intractableposteriori (difficileempirique
(difficile
(difficileempiriqueà
à à calculer).
calculer).
calculer). Pm1
1 P mi=1 ✓
✓ i .
ii .
11.
13.
12.
13. Si
Si
Avec
Si ce
cece n’est
n’est
des
n’est pas
pas le
le
échantillons
pas le cas,
cas,
cas, la
la✓ 1
1 ,constante
constante
.
constante. . , ✓ m
m ⇠dede de✓|X, normalisation
normalisation
on
normalisation peut est
estimer
est est très très
très une souvent
souvent
souvent moyenne intractable
intractable
a
intractable posteriori (difficile
(difficile
(difficile empirique
àà à
calculer).
calculer). 1 P P m
calculer).
m1 m
m P
i=1
m ✓i .
i=1
14. Avec
12.
14. Avec des
Avec des échantillons
des échantillons ✓✓111,, .........,,,✓✓✓m
échantillons m
m ⇠⇠
⇠ ✓|X,
✓|X,
✓|X, on
on
on peut
peut
peut estimer
estimer
estimer une
une une moyenne
moyenne
moyenne aa posteriori
posteriori
a posteriori empirique
empirique
empirique 1
1 P
P
m1 m P ✓
i=1

m i .
. ✓ i .
14.
12.
13.
14. Avec
Avec
Pour
Avec des
des
générer
des échantillons
échantillons
de
échantillons tels ✓
✓ ,
, ..
échantillons,
✓ 11 , . .
.. .
.. ,
,,✓
✓✓mm ⇠
⇠⇠ on ✓|X,
✓|X,
✓|X, utiliseon
on
on peut
peut
des
peut estimer
estimer
méthodes
estimer une
une une moyenne
dites moyenne
moyennede a
Montea posteriori
a posteriori
Carlo.
posteriori empirique
empirique
empirique
m
m1 Pm1 i=1
m
i=1
mP ✓
i=1
m

i
i .
. ✓ i .
13.
12.
14.
13.
14.
Pour
Avec
Avec
Pour
Avec
générer
des
des
générer
des
de
échantillons
échantillons
de
échantillons
tels
tels échantillons,
✓ ,
, ..
échantillons,
✓ 11 , . .
.. .
.. ,
,, ✓

✓mm ⇠


on
on ✓|X,
✓|X,
✓|X,
utilise
utilise on
on
on
des
peut
peut
des
peut
méthodes
estimer
estimer
méthodes
estimer une
une
dites
une moyenne
dites
moyenne
de
moyenne
de Monte
Montea
a a Carlo.
posteriori
posteriori
Carlo.
posteriori empirique
empirique
empirique
m
m
1
1 P m
1
i=1
m m
i=1 i=1


i=1ii . ✓ i .
.
12.
13.
14.
15.
13. Avec
Pour
Avec
Pour
Pour des
des échantillons
générer
générer
générer de
échantillons
de
de tels
tels
1
échantillons,
✓ 1, . .
échantillons,
échantillons, . , ✓ ✓ m
m
m ⇠ ⇠ on
✓|X,
onon ✓|X, utilise
utiliseon
utilise on peut
peutdes
des
des estimer
méthodes
estimer
méthodes
méthodes une une
dites
dites moyenne
moyenne
dites dede
de Monte
Monte a
Monte a posteriori
Carlo.
posteriori
Carlo.
Carlo. empirique
empirique 1m
m
m
m
mi=1
i=1 ✓
i=1 .
i ✓ i .
15.
15.
13. Pour
Pour
Pour générer
générer
générer de tels
tels échantillons,
1
échantillons,
échantillons,
m on
onon utilise
utilise
utilise des
des
des méthodes
méthodes
méthodes dites
dites
dites de
dedeMonte
Monte
Monte Carlo.
Carlo.
Carlo. m i=1 i
15.
13.
15. Pour
Pour
Pour générer
générer
générer de
de tels
tels échantillons,
échantillons, on
échantillons, on utilise
on utilise utilisedes des méthodes
desméthodes
méthodesdites dites
ditesde de Monte
deMonte
Monte Carlo.
Carlo.
Carlo.
15.
13. Pour
15. Pour générer générer
générer de de
de tels tels échantillons,
tels échantillons,
échantillons,on on
onutilise utilise
utilisedes des méthodes
desméthodes
méthodes dites
ditesdites de
de deMonte
MonteMonte Carlo.
[Link].

Vous aimerez peut-être aussi