[theorem]Définition
L’Analyse discriminante
Leila HAMDAD
Leila HAMDAD Introduction au Machine Learning
Plan
1 Introduction
Leila HAMDAD Introduction au Machine Learning
Introduction
Introduction
L’analyse discriminante est une méthode de description et de classement
des individus caractérisés par un certain nombre de variables
explicatives(attributs). C’est une méthode très utilisée en credit scoring,
diagnostic automatique, contrôle de qualité, prévision de risques,
reconnaissance des formes
Exemple
Exemple d’application : Soit une population de malades souffrant de
maladie cardiaques, On observe un certain nombre de symptômes
caractéristiques. Chaque malade est représenté par un vecteur dans
l’espace des symptômes. Le médecin pose un diagnostic sur les maldes,
donc le nuage de malades est scindé en plusieurs sous nuages relatives
chacun à un diagnostic.
Le but de L’AD est d’étudier la relation entre les symptômes (x) et les
diagnostics (y ). L’AD cherchera un système de combinaison linéaire des
variables qui permet de discriminer au mieux les modalités de la variables
qualitatives y . Cette combinaison est celle qui vérifiera que la variance
entre modalités est grande et la variance correspondant à la modalité est
minimal.
Leila HAMDAD Introduction au Machine Learning
Introduction
Centres de Gravités
Le centre de gravité du nuage N(I ) :
1
n X
X .
g= ..
pi xi =
i=1 2
X
Le centre de gravité du nuage N(Ik )
1
nk X
X .
gk = pik xik =
..
i=1 2
X
Comme on a m centres de gravités gk , k = 1, ..., m, on définit le nuage
des centres de gravités N(G ) = {(gk , p k ), k = 1, ..., m}, tel que p k = nnk
Remarque
Les centres de gravités de N(I ) et de N(G ) sont identiques.
Leila HAMDAD Introduction au Machine Learning
Introduction
Problème de l’AD
D’après le théorème de Huygens, on a
I = IG + Ik
tels que I représente l’inertie du nuage N(I ), IG est l’inertie du nuage
N(G ) et Ik est l’inertie du nuage N(Ik ).
Pour un vecteur donné u dans R p , cela se traduit par
u t Vu = u t Eu + u t Du
où ,V , E et D , sont les matrices de variances covariances totale, inter
classes et intra classes respectivement.
Le problème de l’AD se formule ainsi : Trouver un vecteut u dans R p qui
t
maximise la quantité uut Vu
Eu
. C’est à dire choisir parmi les formes linéaires,
celle qui maximise l’inertie interclasse et minimise l’inertie intraclasse.
Leila HAMDAD Introduction au Machine Learning
Introduction
Résolution du problème
t
: Rendre maximale uut Vu
Eu
c’est maximiser u t Eu et minimiser u t Vu, et
puisque V = E + D, donc minimiser u t Du.
ainsi
u t Eu u t Eu
max t ⇔ max t = max ψ(u)
u Vu u Du
Le vecteur u qui maximise cette fonction, annule donc la dérivée dψ(u)du .
La résolution de ce problème mène au résultat suivant, l’axe qui
discrimine au mieux léchantillon d’apprentissage est engendré par le
vecteur u, vecteur propre de la matrice D −1 E , associé à la plus grande
valeur propre.
Leila HAMDAD Introduction au Machine Learning
Introduction
Règles d’affectation
Une fois trouvées les fonctions discriminantes qui séparent au mieux les
individus répartis en m classes, on veut trouver la classe d’affectation
d’un nouvel individu, pour lequel on connaı̂t les valeurs des variables
(X l , X 2 , ..., X p ).
Règle géométrique : Une règle simple et géométrique affecte le nouvel
individu dont le centre de gravité est le plus proche selon la distance de
Mahalhanobis.
Cette approche purement géométrique ne prend cependant pas en compte
les probabilités à priori des différentes classes, qui peuvent être très
inégales dans certaines applications (prévision de défaillance par exemple,
ou diagnostic d’un événement rare). Le modèle bayésien d’affectation qui
est une méthode probabiliste permet d’améliorer cet inconvénient.
Leila HAMDAD Introduction au Machine Learning
Introduction
Le modèle bayésien d’affectation
Au moment de l’apprentissage, nous savons que l’individu i appartient au
groupe Ik (appartenance codée par la valeur : Yi = k) et nous calculons
une estimation de la probabilité P(Xi /Ik ), Au moment de l’affectation
d’un nouvel individu noté x, on peut calculer les différents P(x/Ik ) pour
k = l, 2, ..., m.
Il paraı̂t raisonnable d’affecter x à la classe Ik pour laquelle P(x/Ik ) est
maximale.
Cependant, ce ne sont pas les probabilités P(x/Ik ) qu’il faudrait
connaı̂tre mais les probabilités P(Ik /x), c’est-à-dire la probabilité du
groupe Ik sachant que x est réalisé.
D’aprés le Théorème de Bayes :
P(x/Ik )P(Ik )
P(I /x) = m
P
P(x/Ik )P(Ik )
k=1
P(Ik ) est la probabilité à priori du groupe k. Le dénominateur est le
même pour toutes les classes. La classe d’affectation de x sera celle pour
laquelle le produit P(x/Ik )P(Ik ) est maximal.
Leila HAMDAD Introduction au Machine Learning
Introduction
Le modèle bayésien dans le cas normal
Soit fk (X ) la densité de probabilité de x connaissant Ik dans le cas
multinormal, gk et Dk désignant respectivement la moyenne et la matrice
des covariances théoriques à l’intérieur du groupe Ik :
−p −1 −1
fk (X ) = (2π) 2 |Dk | 2 exp{ (x − gk )t Dk−1 (x − gk )}.
2
L’affectation se fera selon la règle : choisir kb tel que
fbk (X )P(Ibk ) = maxfk (X )P(Ik , k = 1, ..., m
ce qui est équivalent à trouver le minimum sur k de la fonction sck (x)
appelée score discriminant :
sck (x) = (x − gk )t Dk−1 (x − gk ) + log |Dk | − 2logP(Ik
Leila HAMDAD Introduction au Machine Learning
Introduction
Le modèle bayésien dans le cas nonparamétrique
Lorsque la densité fk (X ) est inconnue, elle est estimée par l’estimateur à
noyau (Parzen et Rosenblatt en (1962)), elle est définie par
nk
1 X x − xi
fk (X ) = K( ).
hnk h
i=1
R que K (x) est la fonction noyau qui vérifie que k(x) ≥ 0 et
tels
k(x)dx = 1. Cette densité peut prendre plusieurs forme dont :
Z
−x 2
k(x) = e 2 dx.
h est appelé fenêtre de lissage, c’est un paramètre très important, qui est
déterminé de façon à garantir un faible biais et une faible variance. La
méthode de validation croisée est utilisée pour déterminer h.
Leila HAMDAD Introduction au Machine Learning