0% ont trouvé ce document utile (0 vote)
41 vues10 pages

4 Ac

L'analyse discriminante est une méthode utilisée pour décrire et classer des individus en fonction de variables explicatives, couramment appliquée dans des domaines tels que le crédit scoring et le diagnostic médical. Elle vise à établir une relation entre des symptômes et des diagnostics en maximisant la variance interclasse tout en minimisant la variance intraclasse. Le document aborde également des méthodes d'affectation basées sur des règles géométriques et des modèles bayésiens pour améliorer la précision des classifications.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
41 vues10 pages

4 Ac

L'analyse discriminante est une méthode utilisée pour décrire et classer des individus en fonction de variables explicatives, couramment appliquée dans des domaines tels que le crédit scoring et le diagnostic médical. Elle vise à établir une relation entre des symptômes et des diagnostics en maximisant la variance interclasse tout en minimisant la variance intraclasse. Le document aborde également des méthodes d'affectation basées sur des règles géométriques et des modèles bayésiens pour améliorer la précision des classifications.

Transféré par

lcflak630
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

[theorem]Définition

L’Analyse discriminante

Leila HAMDAD

Leila HAMDAD Introduction au Machine Learning


Plan

1 Introduction

Leila HAMDAD Introduction au Machine Learning


Introduction

Introduction
L’analyse discriminante est une méthode de description et de classement
des individus caractérisés par un certain nombre de variables
explicatives(attributs). C’est une méthode très utilisée en credit scoring,
diagnostic automatique, contrôle de qualité, prévision de risques,
reconnaissance des formes
Exemple
Exemple d’application : Soit une population de malades souffrant de
maladie cardiaques, On observe un certain nombre de symptômes
caractéristiques. Chaque malade est représenté par un vecteur dans
l’espace des symptômes. Le médecin pose un diagnostic sur les maldes,
donc le nuage de malades est scindé en plusieurs sous nuages relatives
chacun à un diagnostic.

Le but de L’AD est d’étudier la relation entre les symptômes (x) et les
diagnostics (y ). L’AD cherchera un système de combinaison linéaire des
variables qui permet de discriminer au mieux les modalités de la variables
qualitatives y . Cette combinaison est celle qui vérifiera que la variance
entre modalités est grande et la variance correspondant à la modalité est
minimal.
Leila HAMDAD Introduction au Machine Learning
Introduction

Centres de Gravités
Le centre de gravité du nuage N(I ) :
1
 
n X
X  . 
g=  .. 
pi xi =  
i=1 2
X
Le centre de gravité du nuage N(Ik )
1

nk X
X  . 
gk = pik xik = 
 .. 

i=1 2
X
Comme on a m centres de gravités gk , k = 1, ..., m, on définit le nuage
des centres de gravités N(G ) = {(gk , p k ), k = 1, ..., m}, tel que p k = nnk

Remarque
Les centres de gravités de N(I ) et de N(G ) sont identiques.

Leila HAMDAD Introduction au Machine Learning


Introduction

Problème de l’AD

D’après le théorème de Huygens, on a

I = IG + Ik

tels que I représente l’inertie du nuage N(I ), IG est l’inertie du nuage


N(G ) et Ik est l’inertie du nuage N(Ik ).
Pour un vecteur donné u dans R p , cela se traduit par

u t Vu = u t Eu + u t Du

où ,V , E et D , sont les matrices de variances covariances totale, inter


classes et intra classes respectivement.
Le problème de l’AD se formule ainsi : Trouver un vecteut u dans R p qui
t
maximise la quantité uut Vu
Eu
. C’est à dire choisir parmi les formes linéaires,
celle qui maximise l’inertie interclasse et minimise l’inertie intraclasse.

Leila HAMDAD Introduction au Machine Learning


Introduction

Résolution du problème

t
: Rendre maximale uut Vu
Eu
c’est maximiser u t Eu et minimiser u t Vu, et
puisque V = E + D, donc minimiser u t Du.
ainsi
u t Eu u t Eu
max t ⇔ max t = max ψ(u)
u Vu u Du
Le vecteur u qui maximise cette fonction, annule donc la dérivée dψ(u)du .
La résolution de ce problème mène au résultat suivant, l’axe qui
discrimine au mieux léchantillon d’apprentissage est engendré par le
vecteur u, vecteur propre de la matrice D −1 E , associé à la plus grande
valeur propre.

Leila HAMDAD Introduction au Machine Learning


Introduction

Règles d’affectation

Une fois trouvées les fonctions discriminantes qui séparent au mieux les
individus répartis en m classes, on veut trouver la classe d’affectation
d’un nouvel individu, pour lequel on connaı̂t les valeurs des variables
(X l , X 2 , ..., X p ).
Règle géométrique : Une règle simple et géométrique affecte le nouvel
individu dont le centre de gravité est le plus proche selon la distance de
Mahalhanobis.
Cette approche purement géométrique ne prend cependant pas en compte
les probabilités à priori des différentes classes, qui peuvent être très
inégales dans certaines applications (prévision de défaillance par exemple,
ou diagnostic d’un événement rare). Le modèle bayésien d’affectation qui
est une méthode probabiliste permet d’améliorer cet inconvénient.

Leila HAMDAD Introduction au Machine Learning


Introduction

Le modèle bayésien d’affectation


Au moment de l’apprentissage, nous savons que l’individu i appartient au
groupe Ik (appartenance codée par la valeur : Yi = k) et nous calculons
une estimation de la probabilité P(Xi /Ik ), Au moment de l’affectation
d’un nouvel individu noté x, on peut calculer les différents P(x/Ik ) pour
k = l, 2, ..., m.
Il paraı̂t raisonnable d’affecter x à la classe Ik pour laquelle P(x/Ik ) est
maximale.
Cependant, ce ne sont pas les probabilités P(x/Ik ) qu’il faudrait
connaı̂tre mais les probabilités P(Ik /x), c’est-à-dire la probabilité du
groupe Ik sachant que x est réalisé.
D’aprés le Théorème de Bayes :

P(x/Ik )P(Ik )
P(I /x) = m
P
P(x/Ik )P(Ik )
k=1

P(Ik ) est la probabilité à priori du groupe k. Le dénominateur est le


même pour toutes les classes. La classe d’affectation de x sera celle pour
laquelle le produit P(x/Ik )P(Ik ) est maximal.
Leila HAMDAD Introduction au Machine Learning
Introduction

Le modèle bayésien dans le cas normal

Soit fk (X ) la densité de probabilité de x connaissant Ik dans le cas


multinormal, gk et Dk désignant respectivement la moyenne et la matrice
des covariances théoriques à l’intérieur du groupe Ik :
−p −1 −1
fk (X ) = (2π) 2 |Dk | 2 exp{ (x − gk )t Dk−1 (x − gk )}.
2

L’affectation se fera selon la règle : choisir kb tel que


fbk (X )P(Ibk ) = maxfk (X )P(Ik , k = 1, ..., m
ce qui est équivalent à trouver le minimum sur k de la fonction sck (x)
appelée score discriminant :

sck (x) = (x − gk )t Dk−1 (x − gk ) + log |Dk | − 2logP(Ik

Leila HAMDAD Introduction au Machine Learning


Introduction

Le modèle bayésien dans le cas nonparamétrique

Lorsque la densité fk (X ) est inconnue, elle est estimée par l’estimateur à


noyau (Parzen et Rosenblatt en (1962)), elle est définie par
nk
1 X x − xi
fk (X ) = K( ).
hnk h
i=1

R que K (x) est la fonction noyau qui vérifie que k(x) ≥ 0 et


tels
k(x)dx = 1. Cette densité peut prendre plusieurs forme dont :
Z
−x 2
k(x) = e 2 dx.

h est appelé fenêtre de lissage, c’est un paramètre très important, qui est
déterminé de façon à garantir un faible biais et une faible variance. La
méthode de validation croisée est utilisée pour déterminer h.

Leila HAMDAD Introduction au Machine Learning

Vous aimerez peut-être aussi