Apprentissage statistique : Analyse
discriminante
Jean-Michel Marin
Université de Montpellier
Institut Montpelliérain Alexander Grothendieck (IMAG)
HMMA303
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 1 / 30
1 Introduction
2 Cas paramétrique : modélisation gaussienne des
distributions dans les classes
3 Analyse discriminante linéaire
Estimation de π0 et π1
Estimation de µ0 et µ1
Estimation de Σ
Prédiction à partir de Pθ̂
4 Analyse discriminante quadratique
5 Analyse discriminante non paramétrique
Méthode du noyau
Approximation en dimension 1
Approximation en dimension supérieure
Application à l’estimation de P(Y = 1|X = x)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 2 / 30
Introduction
On vise ici l’estimation de P(Y = 0|X = x) et P(Y = 1|X = x)
Une fois cette estimation effectuée, on peut aisément construire
un classifieur et l’on dispose d’un score
L’analyse discriminante linéaire ou quadratique s’applique au
cas où x ∈ Rd , les d variables prédictives sont quantitatives
Ces deux méthodes sont paramétriques, elles postulent que le
couple (X, Y) appartient à une famille de lois (Pθ )θ∈Θ
où Θ ⊆ Rp est un espace de dimension finie
L’analyse discriminante non paramétrique ne fait pas cette hy-
pothèse, l’objet à estimer appartient à un espace de dimension
infinie (typiquement une fonction)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 3 / 30
Cas paramétrique : modélisation gaussienne des
distributions dans les classes
y ∈ {0, 1} et x ∈ Rd
Hypothèses
X|Y = 0 ∼ N (µ0 , Σ0 )
X|Y = 1 ∼ N (µ1 , Σ1 )
µ0 ∈ Rd , µ1 ∈ Rd , Σ0 et Σ1 sont des matrices de covariance que
l’on suppose non dégénérées (déterminants strictement positifs)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 4 / 30
Cas paramétrique : modélisation gaussienne des
distributions dans les classes
Dans ce cas,
1 1
fj (x) = exp − (x − µj )T Σ−1
j (x − µj )
(2π)d/2 |Σj |1/2 2
Notons π0 = P(Y = 0) et π1 = P(Y = 1)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 5 / 30
Cas paramétrique : modélisation gaussienne des
distributions dans les classes
On dispose d’un n-échantillon (X1 , Y1 ), . . . , (Xn , Yn ) du couple
(X, Y)
On allons estimer θ = (µ0 , Σ0 , µ1 , Σ1 , π0 ) dans le but d’estimer
P(Y = 1|X = x)
D’après la règle de Bayes
π̂1 f1 (x; µ̂1 , Σ̂1 )
P̂(Y = 1|X = x) =
π̂0 f0 (x; µ̂0 , Σ̂0 ) + π̂1 f1 (x; µ̂1 , Σ̂1 )
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 6 / 30
Analyse discriminante linéaire
Dans le cas LDA (Linear Discriminant Analysis), on restreint
le modèle à des gaussiennes de même matrice de covariance
Σ0 = Σ1 = Σ
d(d−1) 5d d2
On doit alors estimer 1 + 2d + 2 +d= 2 + 2 +1
Plusieurs méthodes d’estimation
I maximum de vraisemblance
I méthode des moments
I méthodes d’estimation robustes
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 7 / 30
Analyse discriminante linéaire
Estimation de π0 et π1
Pn Pn
On note N0 = i=1 1Yi =0 et N1 = i=1 1Yi =1 = n − N0
N0 N1
π̂0 = n et π̂1 = n , N0 + N1 = n
Ces estimateurs sont extrêmement intuitifs, ils sont sans biais et
de variance minimale
Cependant, ils sont basés sur l’hypothèse selon laquelle notre
échantillon est représentatif de la population totale
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 8 / 30
Analyse discriminante linéaire
Estimation de π0 et π1
Dans de nombreux cas ce n’est pas vrai pour la loi marginale de
Y, notamment si l’on choisit les individus sur lesquels l’analyse
est réalisée
Dans un tel cas, on n’estime pas πj par π̂j mais par une estima-
tion issue d’une étude préalable ou une estimation fournie par
des experts
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 9 / 30
Analyse discriminante linéaire
Estimation de µ0 et µ1
Le maximum de vraisemblance et la méthode des moments
donnent les mêmes estimateurs
1 X
n
µ̂j = Xi 1Yi =j
Nj
i=1
Ces estimateurs sont extrêmement intuitifs, ils sont sans biais et
de variance minimale
On estime l’espérance mathématique par la moyenne empirique
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 10 / 30
Analyse discriminante linéaire
Estimation de Σ
On utilise classiquement l’estimateur par la méthode des mo-
ments qui est sans biais contrairement à l’estimateur du maxi-
mum de vraisemblance
1 X
n
Σ̂ = 1Yi =0 (Xi − µ̂0 )(Xi − µ̂0 )T +
n−2
i=1
X
n
T
1Yi =1 (Xi − µ̂1 )(Xi − µ̂1 )
i=1
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 11 / 30
Analyse discriminante linéaire
Prédiction à partir de Pθ̂
Sur la base de l’estimation de θ par θ̂, on estime P(Y = 1|X = x)
par
N1 exp − 12 (x − µ̂1 )T Σ̂−1 (x − µ̂1 )
N0 exp − 12 (x − µ̂0 )T Σ̂−1 (x − µ̂0 ) + N1 exp − 12 (x − µ̂1 )T Σ̂−1 (x − µ̂1 )
Si l’on singe le classifieur de Bayes, on affecte le point x à la
classe 1 si P̂(Y = 1|X = x) > 1/2
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 12 / 30
Analyse discriminante linéaire
Prédiction à partir de Pθ̂
L’ensemble des points affectés à la classe 1 est
{x ∈ Rd |(µ̂0 − µ̂1 )T Σ̂−1 x > b}
où b est un scalaire dépendant de θ̂
On remarque que la frontière (µ̂0 − µ̂1 )T Σ̂−1 x = b est un hyper-
plan : c’est pourquoi on parle d’analyse discriminante linéaire
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 13 / 30
Analyse discriminante quadratique
On ne contraint plus les structures de covariance à être iden-
tiques Σ0 , Σ1
On doit alors estimer 1 + 2d + d(d − 1) + 2d = d2 + 3d + 1
Les paramètres π0 , π1 , µ0 et µ1 sont estimés comme dans le
cas linéaire
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 14 / 30
Analyse discriminante quadratique
Par la méthode des moments, l’estimateur de Σ0 est
1 X n
Σ̂0 = 1Yi =0 (Xi − µ̂0 )(Xi − µ̂0 )T
N0 − 1
i=1
De même, Σ1 est estimé par
1 X n
Σ̂1 = 1Yi =1 (Xi − µ̂1 )(Xi − µ̂1 )T
N1 − 1
i=1
On en déduit une estimation de P(Y = 1|X = x)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 15 / 30
Analyse discriminante quadratique
Si l’on singe le classifieur de Bayes, on affecte le point x à la
classe 1 si P̂(Y = 1|X = x) > 1/2
L’ensemble des points affectés à la classe 1 est tel que
1 1
x ∈ Rd | − (x − µ̂1 )T Σ̂1−1 (x − µ̂1 ) + (x − µ̂0 )T Σ̂0−1 (x − µ̂0 ) > d 0
2 2
La frontière séparant les 2 classes est une hypersurface qua-
dratique
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 16 / 30
Analyse discriminante non paramétrique
En statistique, on parle d’estimation non paramétrique ou fonc-
tionnelle lorsque le nombre de paramètres à estimer est infini
Par exemple, au lieu de supposer que l’on a affaire à une densité
de type connu (dont on estime les paramètres), on cherche à
estimer la fonction de densité toute entière
Pour tout x ∈ E, f(x) est estimée par f̂(x)
Approche très souple mais qui n’est applicable qu’avec
des échantillons de grande taille
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 17 / 30
Analyse discriminante non paramétrique
Y ∈ {0, 1}, π0 = P(Y = 0), π1 = P(Y = 1) et
fj (x) densité de X|Y = j
On ne suppose plus que les fj (x) sont gaussiennes mais on les
estime totalement
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 18 / 30
Analyse discriminante non paramétrique
Méthode du noyau
On considère avant tout le cas de variables prédictives quantita-
tives X ∈ Rd
Definition
On appelle noyau de probabilité sur Rd , une fonction
K : Rd × Rd −→ R telle que K(·, x0 ) est une densité de
probabilité
Definition
L’approximation noyau de f (relativement au noyau K) est
1X
n
f̂K (x) = K(x, Xi )
n
i=1
où X1 , . . . , Xn est un n-échantillon de X
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 19 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Pour construire un noyau, on part d’une densité de probabilité
sur R, m(x), symétrique
I m(x) > 0 pour tout x ∈ R
R
R m(x)dx = 1
I
I m(−x) = m(x) pour tout x ∈ R
Puis, on définit
x − x0
0 1
K(x, x ) = m
h h
avec h > 0
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 20 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Example (noyau rectangulaire)
1
m(x) =1 (x)
2 [−1,1]
x − x0
0 1 1
Kh (x, x ) = m = 1 0 0 (x)
h h 2h [x −h,x +h]
Pour σ = 1, on estime f(x) par
1 X
n
f̂(x) = 1[x−1,x+1] (Xi )
2n
i=1
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 21 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Example (noyau triangulaire)
m(x) = (1 − |x|)1[−1,1] (x)
x − x0
0 1
Kh (x, x ) = 1− 1[x 0 −h,x 0 +h] (x)
h h
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 22 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Example (noyau gaussien)
2
1 x
m(x) = √ exp −
2π 2
(x − x 0 )2
1
Kh (x, x 0 ) = √ exp −
2πh 2h2
h c’est la fenêtre, plus h est petit plus l’estimation est versatile
et le modèle sous-jacent complexe
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 23 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Ayant fait le choix d’un noyau uni-dimensionnel associé à la den-
sité m(·), on peut procéder par tensorisation
I mono-fenêtre σ > 0 x, x 0 ∈ Rd
1 Y
d
!
xj − xj0
Kh (x, x 0 ) = d m
h h
j=1
I multi-fenêtres h = (h1 , . . . , hd ), hi > 0
Y
d
!
0 1 xj − xj0
Kh (x, x ) = m
hj hj
j=1
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 24 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Lorsque l’on estime la densité de X avec ces deux méthodes,
les composantes de X sont supposées indépendantes
Difficile de calibrer un estimateur à noyaux avec des covariances
En pratique, on utilise la solution multi-fenêtres et on se ramène
donc au choix d’un noyau en dimension 1 et à la calibration de
d fenêtres
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 25 / 30
Analyse discriminante non paramétrique
Méthode du noyau
Typiquement, on utilise un noyau gaussien et on fixe hj à
q̂j,0.75 − q̂j,0,25
0.9 min σ̂j , n−1/5
1.34
C’est la règle du pouce de Silverman
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 26 / 30
Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)
On se place dans le contexte de la classification supervisée bi-
naire
On considère que l’on dispose de d variables prédictives dont q
quantitatives et d − q qualitatives
On dispose d’un n-échantillon (X1 , Y1 ), . . . , (Xn , Yn )
Objectif : estimer P(Y = 1|X = x)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 27 / 30
Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)
Comme pour l’analyse discriminante linéaire/quadratique, on es-
time avant tout f0 (x) et f1 (x) densités conditionnelles de X|Y = 0
et X|Y = 1
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 28 / 30
Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)
Méthode naı̈ve Bayes pour estimation de fj (x)
I on prend les xi tels que yi = j, xi ∈ Rd
I on estime par la méthode à noyau multi-fenêtres la densité
des q variables quantitatives
I on estime la densité des d − q variables qualitatives en
utilisant les fréquences empiriques correspondantes
I on en déduit f̂j (x)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 29 / 30
Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)
Hypothèse sous-jacente importante : les variables prédictives
sont supposées indépendantes conditionnellement à Y
Pour estimer π0 et π1 on fait comme dans le cas de l’analyse
discriminante linéaire/quadratique
Formule de Bayes
π̂1 f̂1 (x)
P̂(Y = 1|X = x)
π̂0 f̂0 (x) + π̂1 f̂1 (x)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 30 / 30