0% ont trouvé ce document utile (0 vote)
55 vues22 pages

Chap3 Inf Bayesienne

Transféré par

mohamedyassinefaida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues22 pages

Chap3 Inf Bayesienne

Transféré par

mohamedyassinefaida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INFERENCE BAYESIENNE

Modèles probabilistes et classification


• Dans les problèmes de classification, l'objectif est de prédire
l'étiquette ou la classe 𝑌 d'une observation 𝑋, en fonction des
caractéristiques de cette observation.
• Par exemple: si un email est un spam ou non, ou bien si un patient est malade
ou non.
• Pour effectuer cette classification, nous pouvons utiliser une
approche probabiliste. Les modèles probabilistes tentent de
modéliser la relation entre les caractéristiques 𝑋 et les étiquettes 𝑌 à
travers des probabilités.
• L’idée derrière les modèles probabilistes est de modéliser la probabilité
conditionnelle 𝑃(𝑌∣𝑋), c'est-à-dire la probabilité que l'étiquette soit 𝑌,
donnée l'observation 𝑋
Modèles probabilistes et classification
Il existe deux grandes approches pour modéliser cette probabilité
𝑃(𝑌∣𝑋) en machine learning :
• Modèles génératifs :modélisent la distribution conjointe des données
et des étiquettes, c'est-à-dire 𝑃(𝑋,𝑌), et utilisent l'inférence
bayésienne pour faire des prédictions.
• ils cherchent à comprendre comment les données et les étiquettes sont
générées ensemble
• Modèles discriminatifs : ne s'intéressent qu'à modéliser directement
la probabilité conditionnelle 𝑃(𝑌∣𝑋).
• Au lieu de comprendre comment les données sont générées, ils cherchent à
maximiser la précision de la prédiction.
Modèles génératifs et inférence bayésienne
• Les modèles génératifs utilisent directement les principes de l'inférence
bayésienne pour faire des prédictions.
• L'inférence bayésienne permet de mettre à jour nos croyances sur l'étiquette
𝑌 après avoir observé une donnée 𝑋, et cela grâce au théorème de Bayes:
𝑃 𝑥
Ԧ 𝑌 = 𝑐 .𝑃(𝑌=𝑐)
P(Y=c∣X=𝑥)=Ԧ
𝑃(𝑥)
• P(Y = c) est la distribution a priori des étiquettes, avant d’avoir observé les données ;
• P(𝑥Ԧ |Y = c) est la vraisemblance. Elle quantifie à quel point il est vraisemblable que l’on
observe la réalisation 𝑥Ԧ de X sachant que la classe est c ;
• P(Y = c| 𝑥)
Ԧ est la distribution a posteriori des étiquettes, après avoir observé les
données.
• P(𝑥)
Ԧ est la probabilité marginale que 𝑥Ԧ soit observée, indépendamment de sa classe. Il
peut être réécrit sous la forme P(𝑥)=P(
Ԧ 𝑥Ԧ |Y =0)P(Y =0)+P(𝑥Ԧ |Y =1)P(Y =1).
Dans le cas multi-classe, on écrira P(𝑥)= Ԧ σ𝐶𝑐=1 P(𝑥Ԧ |Y =c)P(Y =c).
Modèles génératifs et inférence bayésienne
Exercice: Contexte du dépistage médical :
• Imaginons qu'il y ait un test pour dépister une maladie (ex: cancer). Ce test a deux
caractéristiques importantes :
• Sensibilité : La probabilité que le test soit positif si la personne est malade 𝑃(test positif∣malade).
supposons que la sensibilité soit de 90 %.
• Spécificité : La probabilité que le test soit négatif si la personne n'est pas malade
P(test negatif∣non-malade). supposons que 95 % des non-malades aient un test négatif
• Autres Informations:
• Probabilité a priori de la maladie 𝑃(malade) : La probabilité qu'une personne soit malade avant
de faire le test (c'est l'incidence de la maladie dans la population). supposons que 1 % des
personnes dans la population soient malades.
• P(test positif)) :C'est la probabilité d’obtenir un test positif, que la personne soit malade ou non
Quelle est la probabilité que la personne soit réellement malade après avoir vu le
test positif (probabilité a posteriori) ?
RÈGLES DE DÉCISION
Rapport de vraisemblance
• L'idée de base en classification est de choisir la classe à laquelle
appartient une observation donnée, le rapport de vraisemblance est
l'une des méthodes classiques utilisée pour comparer les classes
P(X∣Y=1)
Λ(X)=
P(X∣Y=0)
෠ 1 𝑠𝑖 Λ(X > 1
donc 𝑌=ቊ
0 𝑠𝑖𝑛𝑜𝑛
RÈGLES DE DÉCISION
Rapport de vraisemblance: Exemple(déterminer le sexe d'un poisson à partir de sa
taille)
• Nous avons un échantillon de poissons d'une même espèce, composé de mâles et
de femelles.
• La variable 𝑌 prend deux valeurs :𝑌=0 pour les mâles et 𝑌=1pour les femelles.
• Les mâles ont une taille qui suit une distribution normale 𝑁(4,1), c'est-à-dire une moyenne de
4 cm et un écart-type de 1 cm.
• Les femelles ont une taille qui suit une distribution normale 𝑁(6,1), c'est-à-dire une moyenne
de 6 cm et un écart-type de 1 cm.
• Le rapport de vraisemblance est donné par (comme ces probabilités sont issues de
distributions normales, nous utilisons la fonction de densité de la loi normale) :
2
𝑋−6
− 2
P(X∣Y=1) 𝑒
Λ(X)= ​= 2
P(X∣Y=0) 𝑒 − 𝑋−4
2
RÈGLES DE DÉCISION
Rapport de vraisemblance: Exemple(déterminer le sexe d'un poisson à partir de sa taille)
• Pour simplifier les calculs, nous prenons le logarithme du rapport de vraisemblance:
Ln(Λ(X))=2X−10
• Première situation : proportions égales de mâles et femelles
• si la taille 𝑋 d'un poisson est supérieure à 5 cm, on décide que c'est une femelle.
• Si la taille 𝑋 est inférieure à 5 cm, on décide que c'est un mâle.
• Deuxième situation : 5 fois plus de femelles que de mâles
• Lorsque nous avons des probabilités a priori différentes pour les deux classes, nous devons ajuster le
rapport de vraisemblance en conséquence.
P(X∣Y=1) P(Y=1) P(X∣Y=1)
. = .5
P(X∣Y=0) P(Y=0) P(X∣Y=0)
• Pour simplifier les calculs, nous prenons le logarithme du rapport ajusté :
P(X∣Y=1) P(X∣Y=1)
Ln ( . 5)= ln( ) + ln(5)
P(X∣Y=0) P(X∣Y=0)
• un nouveau seuil de décision d'environ 4,195 cm
• Nous allons prédire qu’un poisson est une femelle si sa longueur est supérieure à 5 − ln(5)/2 ≈ 4,195
RÈGLES DE DÉCISION
Théorie de la décision bayésienne
• Elle permet de prendre des décisions optimales en tenant compte de
l'incertitude et des probabilités. Elle repose sur l'idée de choisir une
action qui minimise une perte ou un coût, en fonction de la probabilité
de différents événements incertains.
• L'objectif de la théorie de la décision bayésienne est de minimiser la
perte espérée. La perte espérée est la moyenne des pertes possibles,
pondérée par la probabilité que chaque résultat se produise.
• Une fonction de coût 𝐿:𝑌×𝐴→𝑅 est utilisée pour quantifier les pertes associées
à chaque paire état-action. Le coût dépend de l'action choisie 𝑎 et de l'état réel
𝑦 du monde.
RÈGLES DE DÉCISION
la règle de décision bayésienne
• Elle consiste à choisir une action 𝑎∗ qui minimise l'espérance de la
fonction de coût (ou la perte espérée). C'est-à-dire qu'on cherche à
minimiser le coût moyen que l'on subit en fonction de ce qui pourrait
réellement se passer :
a*(x)= arg min E[L(Y,a)∣X=x]= arg min σyϵ𝑌 P(Y=y∣X=x)L(y,a)
aϵ𝐴 aϵ𝐴
• a∗(x) est l'action optimale à prendre pour l'observation 𝑋=𝑥.
• 𝐿(𝑌,𝑎) est la fonction de coût, qui donne le coût associé à l'action 𝑎 quand l'état
réel est 𝑌.
• 𝑃(𝑌=𝑦∣𝑋=𝑥) est la probabilité a posteriori de chaque état 𝑌=𝑦, étant donné 𝑋=𝑥.
RÈGLES DE DÉCISION
la règle de décision bayésienne
• Exemple :Le tableau suivant montre le coût associé à chaque décision en fonction
de l'état réel du temps :
Action Pas de pluie Pluie faible Pluie forte Vent
Prendre un parapluie 1 0 0 2
Ne pas prendre de parapluie 0 2 4 0

• Pour prendre une décision optimale, nous devons considérer à la fois les
probabilités des différents états météo et les coûts associés à chaque décision.
• Le but est de minimiser la perte espérée. Si, par exemple, tu estimes qu'il y a :
• 50 % de chances qu'il ne pleuve pas,
• 20 % de chances qu'il y ait une pluie faible,
• 10 % de chances qu'il y ait une pluie forte,
• 20 % de chances qu'il y ait du vent,
• calculer la perte espérée
RÈGLES DE DÉCISION
Risque de Bayes
• C’est une mesure théorique qui quantifie l'erreur minimale ou le coût
minimal que l'on peut atteindre en suivant la règle de décision de
Bayes.

r= ‫ 𝑋∈𝑥׬‬σ𝑦∈𝑌 𝐿 𝑦, 𝑎 𝑥 𝑃(𝑥, 𝑦) ⅆ𝑥
• le risque de Bayes est une moyenne pondérée du coût 𝐿(𝑦,𝑎∗(𝑥)) pour
toutes les observations 𝑥 et les classes 𝑦, où les poids sont donnés
par les probabilités conjointes 𝑃(𝑥,𝑦).
RÈGLES DE DÉCISION
Classification binaire par la règle de décision de Bayes
• La règle de Bayes consiste à choisir la classe prédite 𝑦ො qui minimise le coût moyen.
ො 1 𝑠𝑖 λ11𝑃 𝑌 = 1 𝑥ҧ + λ10𝑃 𝑌 = 0 𝑥ҧ ≤ λ01𝑃 𝑌 = 1 𝑥ҧ + λ00𝑃 𝑌 = 0 𝑥ҧ
𝑦=ቊ
0 𝑠𝑖𝑛𝑜𝑛
• P(Y=1∣ 𝑥)ҧ et P(Y=0∣ 𝑥)ҧ sont les probabilités a posteriori que la classe de l'observation 𝑥 soit 1 ou 0.
• 𝜆11 est le coût de prédire 1 quand la vraie classe est 1.
• 𝜆10 est le coût de prédire 0 quand la vraie classe est 1 (erreur de faux négatif).
• 𝜆01​ est le coût de prédire 1 quand la vraie classe est 0 (erreur de faux positif).
• 𝜆00​ est le coût de prédire 0 quand la vraie classe est 0.
• la règle de décision de Bayes est réécrite sous forme d'un test du rapport de
vraisemblance.
𝑃 𝑌 = 1 𝑥ҧ (λ01−λ00)𝑃 𝑌=0
1 𝑠𝑖 >
𝑦=ቐ
ො 𝑃 𝑌 = 0 𝑥ҧ (λ10−λ11)𝑃 𝑌=1
0 𝑠𝑖𝑛𝑜𝑛
RÈGLES DE DÉCISION
Règle de décision de Bayes pour le multiclasse
• La règle de décision de Bayes consiste à choisir la classe 𝑐𝑘qui minimise l'espérance du coût
parmi toutes les classes possibles.
𝑦ො = 𝑎𝑟𝑔 min σ𝐾 𝑘=1 λ𝑐𝑘𝑃(𝑌 = 𝑘|= 𝑥) ҧ
𝑐=1,…,𝐾
• Exemple de classification multiclasse: Imaginons que tu essaies de classer des e-mails dans trois
catégories : "Important" (classe 1), "Ordinaire" (classe 2), et "Spam" (classe 3). Chaque décision
entraîne un coût si elle est incorrecte, et tu as des probabilités a posteriori pour chaque classe
donnée une observation 𝑥.
• Prédire que l'e-mail est "Important" alors qu'il est "Spam" (classe 3) est très coûteux (𝜆13=5).
• Prédire que l'e-mail est "Ordinaire" (classe 2) alors qu'il est "Spam" (classe 3) est moins grave (𝜆23=2).
• Prédire "Spam" (classe 3) pour un e-mail "Important" est aussi coûteux (𝜆31=4).
• Supposons que, pour une observation donnée 𝑥, tu calcules les probabilités a posteriori
suivantes :
• 𝑃(𝑌=1∣𝑥)=0.1 (probabilité que l'e-mail soit "Important"),
• 𝑃(𝑌=2∣𝑥)=0.3 (probabilité que l'e-mail soit "Ordinaire"),
• 𝑃(𝑌=3∣𝑥)=0.6 (probabilité que l'e-mail soit "Spam").
• Selon la règle de décision bayésienne, choisissez la classe qui minimise l'espérance du coût.
ESTIMATION DE DENSITÉ
• L'estimation de densité consiste à estimer la fonction de densité de
probabilité d'une variable aléatoire X à partir d'un ensemble d'observations
D={x1 ,x2 ,…,xn }. Cela signifie que nous voulons modéliser la distribution
d'une variable 𝑋 en fonction des données que nous avons observées.
• Nous supposons que la distribution de 𝑋 suit une forme paramétrique
connue. La distribution est paramétrée par un ensemble de paramètres
noté 𝜃. Par exemple :
• Pour une distribution normale, 𝜃 serait constitué de la moyenne 𝜇 et de la variance
𝜎2 : 𝜃=(𝜇,𝜎2).
• Pour une distribution exponentielle, 𝜃 serait le paramètre de taux 𝜆 : 𝜃=𝜆.
• Comment estimer 𝜃 à partir de l'échantillon 𝐷 ?
ESTIMATION DE DENSITÉ
Estimation par maximum de vraisemblance (Maximum Likelihood Estimation - MLE)
• L'estimateur par maximum de vraisemblance cherche à trouver la valeur du
paramètre 𝜃 qui maximise la probabilité d'observer les données 𝐷, c'est-à-dire
qu'on cherche à maximiser la fonction de vraisemblance 𝑃(𝐷∣𝜃).
θ෠ MLE​ =arg max P(D∣θ)
θ
• Si les observations 𝑥𝑖 sont indépendantes et identiquement distribuées (iid), la
probabilité totale d'observer l'échantillon 𝐷={𝑥1,𝑥2,...,𝑥𝑛} est le produit des
probabilités individuelles :
P(D∣θ)=ς𝑛𝑖=1 P(xi∣θ)
• Comme ce produit peut devenir difficile à manipuler, on préfère travailler avec le
logarithme de la fonction de vraisemblance:
Log P(D| θ)=σ𝑛𝑖=1 log P(xi∣θ)
• L'estimation du paramètre θ par maximum de vraisemblance revient alors à
maximiser cette fonction log-vraisemblance.
ESTIMATION DE DENSITÉ
Estimation par maximum de vraisemblance (Maximum Likelihood Estimation - MLE)
• Exemple : Imaginons que nous faisons plusieurs lancers d'une pièce de monnaie
biaisée, où la probabilité d'obtenir "pile" est inconnue. Nous notons cette
probabilité 𝑝, et notre objectif est de l'estimer à partir des observations (les lancers
de la pièce).
• Étape 1 : Définition du modèle probabiliste: Le modèle que nous utilisons ici est
une loi de Bernoulli. Chaque lancer peut donner deux résultats :
• "Pile" (noté 1) avec probabilité 𝑝."Face" (noté 0) avec probabilité 1−𝑝.
• Étape 2 Observations : Supposons que nous faisons 𝑛=10 lancers, et que nous
observons les résultats suivants :𝐷={1,0,1,1,0,1,0,1,0,1}
• Étape 3 Calcul de la vraisemblance : La fonction de vraisemblance est la probabilité
d'obtenir ces résultats pour une valeur donnée de 𝑝.
L(p)=P(D∣p)=ς𝑛𝑖=1 p𝑥𝑖 1 − 𝑝 1 − 𝑥𝑖
• où 𝑥𝑖=1 si le lancer 𝑖 donne "pile", et 𝑥𝑖=0 si c'est "face". Pour nos données, cela
donne : 𝐿(𝑝)=𝑝6(1−𝑝)4
ESTIMATION DE DENSITÉ
Estimation par maximum de vraisemblance (Maximum Likelihood Estimation - MLE)
• Étape 4 : Maximisation de la vraisemblance: Pour simplifier les calculs, on prend
souvent le logarithme de la vraisemblance
log𝐿(𝑝)=6log(𝑝)+4log(1−𝑝)
• Étape 5 : Dérivée et maximisation: Pour maximiser la log-vraisemblance, nous
prenons la dérivée par rapport à 𝑝, puis nous résolvons l'équation obtenue en
l'égalant à zéro.
𝑑 6 4
log𝐿(𝑝)= − =0
𝑑𝑝 𝑝 1−𝑝
P=0.6
• L'estimation par maximum de vraisemblance de la probabilité 𝑝 d'obtenir "pile" est
𝑝=0.6, ce qui signifie que, d'après nos observations, nous estimons que la
probabilité d'obtenir "pile" avec cette pièce biaisée est de 60 %
ESTIMATION DE DENSITÉ
Estimateur de Bayes
• L'estimateur de Bayes est une méthode d'estimation qui utilise deux sources
d'information pour faire des prédictions :
• Les données observées (ce que vous avez mesuré).
• L'information a priori (vos croyances ou connaissances antérieures sur le paramètre que vous
voulez estimer).
• La formule donnée dans la définition 4.7 (estimé bayésien) est :
θ෠ Bayes​ =arg min 𝐸[L(θ,θ)]

θ෡
• Cela signifie que l'estimateur de Bayes minimise l'erreur quadratique moyenne (si
𝐿 représente la fonction de coût basée sur l’erreur quadratique). En minimisant
cette erreur, l’estimateur de Bayes prend en compte à la fois les données et
l’information a priori. La formule donnée dans l'équation représente l'espérance
conditionnelle de 𝜃 donnée les données 𝑋 et la distribution a priori :
θ෠ Bayes =𝐸[𝜃∣𝑋]=‫𝜃𝑑)𝑋∣𝜃(𝑃𝜃 ׬‬
ESTIMATION DE DENSITÉ
Estimateur de Bayes
• Exemple : Supposons que vous voulez estimer la probabilité p qu'une pièce
tombe sur "pile". Vous avez une croyance a priori sur cette probabilité,
mais vous ne savez pas exactement combien elle vaut. Vous décidez de
modéliser 𝑝 à l’aide d’une loi Beta.
• Etape 1 (Information a priori : loi Beta): Vous choisissez donc une loi
Beta(2, 2) pour modéliser cette croyance a priori :𝑝∼Beta(2,2)
• La moyenne de cette distribution Beta est :
2
𝐸[𝑝]=𝛼+𝛽= =0.5
2+2
• Etape 2 (Observation des données):Vous lancez la pièce 10 fois et obtenez
7 "pile". Ici :𝑛=10 (nombre total de lancers),𝑡=7 (nombre de succès, c’est-à-
dire le nombre de "pile" observés).
ESTIMATION DE DENSITÉ
Estimateur de Bayes
• Etape 3(Calcul de l'estimateur de Bayes ) :L’estimateur de Bayes combine vos
croyances a priori avec les données observées. La formule générale de
l’estimateur de Bayes pour une loi Beta-Binomiale est donnée par :
𝛼+𝑡
𝑝Ƹ Bayes = ​ où :
𝛼+𝛽+𝑛
• 𝛼 et 𝛽 sont les paramètres de la loi Beta a priori,
• 𝑡 est le nombre de succès observés,
• 𝑛 est le nombre total d’observations.
2+7
• Dans notre cas, cela donne : 𝑝Ƹ Bayes = ​ ≈0.64.
2+2+10
• Cela signifie que, après avoir pris en compte vos croyances a priori et les 10
lancers observés (dont 7 étaient "pile"), vous estimez que la probabilité de
tomber sur "pile" est d’environ 64 %.
ESTIMATION DE DENSITÉ
Estimateur de Bayes
• Comparaison avec l'estimation par maximum de vraisemblance : Si
vous utilisiez uniquement les données (sans la croyance a priori),
l'estimateur par maximum de vraisemblance serait simplement :
𝑡
𝑝Ƹ MLE = ​ =0.7
𝑛
• Donc, l’estimateur de Bayes est légèrement plus bas que l’estimateur,
car il prend en compte vos croyances a priori (qui pensaient que 𝑝
était proche de 0.5) et les combine avec les données.

Vous aimerez peut-être aussi