0% ont trouvé ce document utile (0 vote)
78 vues30 pages

Analyse Discriminante Quadratique

Transféré par

Salif Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
78 vues30 pages

Analyse Discriminante Quadratique

Transféré par

Salif Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage statistique : Analyse

discriminante

Jean-Michel Marin

Université de Montpellier
Institut Montpelliérain Alexander Grothendieck (IMAG)

HMMA303

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 1 / 30


1 Introduction
2 Cas paramétrique : modélisation gaussienne des
distributions dans les classes
3 Analyse discriminante linéaire
Estimation de π0 et π1
Estimation de µ0 et µ1
Estimation de Σ
Prédiction à partir de Pθ̂
4 Analyse discriminante quadratique
5 Analyse discriminante non paramétrique
Méthode du noyau
Approximation en dimension 1
Approximation en dimension supérieure
Application à l’estimation de P(Y = 1|X = x)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 2 / 30


Introduction

On vise ici l’estimation de P(Y = 0|X = x) et P(Y = 1|X = x)

Une fois cette estimation effectuée, on peut aisément construire


un classifieur et l’on dispose d’un score

L’analyse discriminante linéaire ou quadratique s’applique au


cas où x ∈ Rd , les d variables prédictives sont quantitatives

Ces deux méthodes sont paramétriques, elles postulent que le


couple (X, Y) appartient à une famille de lois (Pθ )θ∈Θ
où Θ ⊆ Rp est un espace de dimension finie

L’analyse discriminante non paramétrique ne fait pas cette hy-


pothèse, l’objet à estimer appartient à un espace de dimension
infinie (typiquement une fonction)
Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 3 / 30
Cas paramétrique : modélisation gaussienne des
distributions dans les classes

y ∈ {0, 1} et x ∈ Rd

Hypothèses
X|Y = 0 ∼ N (µ0 , Σ0 )
X|Y = 1 ∼ N (µ1 , Σ1 )

µ0 ∈ Rd , µ1 ∈ Rd , Σ0 et Σ1 sont des matrices de covariance que


l’on suppose non dégénérées (déterminants strictement positifs)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 4 / 30


Cas paramétrique : modélisation gaussienne des
distributions dans les classes

Dans ce cas,

1 1
fj (x) = exp − (x − µj )T Σ−1
j (x − µj )
(2π)d/2 |Σj |1/2 2

Notons π0 = P(Y = 0) et π1 = P(Y = 1)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 5 / 30


Cas paramétrique : modélisation gaussienne des
distributions dans les classes

On dispose d’un n-échantillon (X1 , Y1 ), . . . , (Xn , Yn ) du couple


(X, Y)

On allons estimer θ = (µ0 , Σ0 , µ1 , Σ1 , π0 ) dans le but d’estimer


P(Y = 1|X = x)

D’après la règle de Bayes

π̂1 f1 (x; µ̂1 , Σ̂1 )


P̂(Y = 1|X = x) =
π̂0 f0 (x; µ̂0 , Σ̂0 ) + π̂1 f1 (x; µ̂1 , Σ̂1 )

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 6 / 30


Analyse discriminante linéaire

Dans le cas LDA (Linear Discriminant Analysis), on restreint


le modèle à des gaussiennes de même matrice de covariance
Σ0 = Σ1 = Σ

d(d−1) 5d d2
On doit alors estimer 1 + 2d + 2 +d= 2 + 2 +1

Plusieurs méthodes d’estimation

I maximum de vraisemblance
I méthode des moments
I méthodes d’estimation robustes

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 7 / 30


Analyse discriminante linéaire
Estimation de π0 et π1

Pn Pn
On note N0 = i=1 1Yi =0 et N1 = i=1 1Yi =1 = n − N0

N0 N1
π̂0 = n et π̂1 = n , N0 + N1 = n

Ces estimateurs sont extrêmement intuitifs, ils sont sans biais et


de variance minimale

Cependant, ils sont basés sur l’hypothèse selon laquelle notre


échantillon est représentatif de la population totale

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 8 / 30


Analyse discriminante linéaire
Estimation de π0 et π1

Dans de nombreux cas ce n’est pas vrai pour la loi marginale de


Y, notamment si l’on choisit les individus sur lesquels l’analyse
est réalisée

Dans un tel cas, on n’estime pas πj par π̂j mais par une estima-
tion issue d’une étude préalable ou une estimation fournie par
des experts

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 9 / 30


Analyse discriminante linéaire
Estimation de µ0 et µ1

Le maximum de vraisemblance et la méthode des moments


donnent les mêmes estimateurs

1 X
n
µ̂j = Xi 1Yi =j
Nj
i=1

Ces estimateurs sont extrêmement intuitifs, ils sont sans biais et


de variance minimale

On estime l’espérance mathématique par la moyenne empirique

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 10 / 30


Analyse discriminante linéaire
Estimation de Σ

On utilise classiquement l’estimateur par la méthode des mo-


ments qui est sans biais contrairement à l’estimateur du maxi-
mum de vraisemblance


1 X
n
Σ̂ = 1Yi =0 (Xi − µ̂0 )(Xi − µ̂0 )T +
n−2
i=1

X
n
T
1Yi =1 (Xi − µ̂1 )(Xi − µ̂1 )
i=1

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 11 / 30


Analyse discriminante linéaire
Prédiction à partir de Pθ̂

Sur la base de l’estimation de θ par θ̂, on estime P(Y = 1|X = x)


par

N1 exp − 12 (x − µ̂1 )T Σ̂−1 (x − µ̂1 )
 
N0 exp − 12 (x − µ̂0 )T Σ̂−1 (x − µ̂0 ) + N1 exp − 12 (x − µ̂1 )T Σ̂−1 (x − µ̂1 )

Si l’on singe le classifieur de Bayes, on affecte le point x à la


classe 1 si P̂(Y = 1|X = x) > 1/2

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 12 / 30


Analyse discriminante linéaire
Prédiction à partir de Pθ̂

L’ensemble des points affectés à la classe 1 est

{x ∈ Rd |(µ̂0 − µ̂1 )T Σ̂−1 x > b}

où b est un scalaire dépendant de θ̂

On remarque que la frontière (µ̂0 − µ̂1 )T Σ̂−1 x = b est un hyper-


plan : c’est pourquoi on parle d’analyse discriminante linéaire

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 13 / 30


Analyse discriminante quadratique

On ne contraint plus les structures de covariance à être iden-


tiques Σ0 , Σ1

On doit alors estimer 1 + 2d + d(d − 1) + 2d = d2 + 3d + 1

Les paramètres π0 , π1 , µ0 et µ1 sont estimés comme dans le


cas linéaire

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 14 / 30


Analyse discriminante quadratique

Par la méthode des moments, l’estimateur de Σ0 est

1 X n
Σ̂0 = 1Yi =0 (Xi − µ̂0 )(Xi − µ̂0 )T
N0 − 1
i=1

De même, Σ1 est estimé par

1 X n
Σ̂1 = 1Yi =1 (Xi − µ̂1 )(Xi − µ̂1 )T
N1 − 1
i=1

On en déduit une estimation de P(Y = 1|X = x)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 15 / 30


Analyse discriminante quadratique

Si l’on singe le classifieur de Bayes, on affecte le point x à la


classe 1 si P̂(Y = 1|X = x) > 1/2

L’ensemble des points affectés à la classe 1 est tel que


1 1
x ∈ Rd | − (x − µ̂1 )T Σ̂1−1 (x − µ̂1 ) + (x − µ̂0 )T Σ̂0−1 (x − µ̂0 ) > d 0
2 2

La frontière séparant les 2 classes est une hypersurface qua-


dratique

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 16 / 30


Analyse discriminante non paramétrique

En statistique, on parle d’estimation non paramétrique ou fonc-


tionnelle lorsque le nombre de paramètres à estimer est infini

Par exemple, au lieu de supposer que l’on a affaire à une densité


de type connu (dont on estime les paramètres), on cherche à
estimer la fonction de densité toute entière

Pour tout x ∈ E, f(x) est estimée par f̂(x)

Approche très souple mais qui n’est applicable qu’avec


des échantillons de grande taille

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 17 / 30


Analyse discriminante non paramétrique

Y ∈ {0, 1}, π0 = P(Y = 0), π1 = P(Y = 1) et


fj (x) densité de X|Y = j

On ne suppose plus que les fj (x) sont gaussiennes mais on les


estime totalement

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 18 / 30


Analyse discriminante non paramétrique
Méthode du noyau
On considère avant tout le cas de variables prédictives quantita-
tives X ∈ Rd
Definition
On appelle noyau de probabilité sur Rd , une fonction
K : Rd × Rd −→ R telle que K(·, x0 ) est une densité de
probabilité

Definition
L’approximation noyau de f (relativement au noyau K) est

1X
n
f̂K (x) = K(x, Xi )
n
i=1

où X1 , . . . , Xn est un n-échantillon de X

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 19 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Pour construire un noyau, on part d’une densité de probabilité


sur R, m(x), symétrique

I m(x) > 0 pour tout x ∈ R


R
R m(x)dx = 1
I

I m(−x) = m(x) pour tout x ∈ R

Puis, on définit
x − x0
 
0 1
K(x, x ) = m
h h
avec h > 0

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 20 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Example (noyau rectangulaire)


1
m(x) =1 (x)
2 [−1,1]

x − x0
 
0 1 1
Kh (x, x ) = m = 1 0 0 (x)
h h 2h [x −h,x +h]

Pour σ = 1, on estime f(x) par

1 X
n
f̂(x) = 1[x−1,x+1] (Xi )
2n
i=1

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 21 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Example (noyau triangulaire)


m(x) = (1 − |x|)1[−1,1] (x)

x − x0
 
0 1
Kh (x, x ) = 1− 1[x 0 −h,x 0 +h] (x)
h h

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 22 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Example (noyau gaussien)


 2
1 x
m(x) = √ exp −
2π 2

(x − x 0 )2
 
1
Kh (x, x 0 ) = √ exp −
2πh 2h2

h c’est la fenêtre, plus h est petit plus l’estimation est versatile


et le modèle sous-jacent complexe

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 23 / 30


Analyse discriminante non paramétrique
Méthode du noyau
Ayant fait le choix d’un noyau uni-dimensionnel associé à la den-
sité m(·), on peut procéder par tensorisation

I mono-fenêtre σ > 0 x, x 0 ∈ Rd

1 Y
d
!
xj − xj0
Kh (x, x 0 ) = d m
h h
j=1

I multi-fenêtres h = (h1 , . . . , hd ), hi > 0

Y
d
!
0 1 xj − xj0
Kh (x, x ) = m
hj hj
j=1

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 24 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Lorsque l’on estime la densité de X avec ces deux méthodes,


les composantes de X sont supposées indépendantes

Difficile de calibrer un estimateur à noyaux avec des covariances

En pratique, on utilise la solution multi-fenêtres et on se ramène


donc au choix d’un noyau en dimension 1 et à la calibration de
d fenêtres

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 25 / 30


Analyse discriminante non paramétrique
Méthode du noyau

Typiquement, on utilise un noyau gaussien et on fixe hj à


 
q̂j,0.75 − q̂j,0,25
0.9 min σ̂j , n−1/5
1.34

C’est la règle du pouce de Silverman

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 26 / 30


Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)

On se place dans le contexte de la classification supervisée bi-


naire

On considère que l’on dispose de d variables prédictives dont q


quantitatives et d − q qualitatives

On dispose d’un n-échantillon (X1 , Y1 ), . . . , (Xn , Yn )

Objectif : estimer P(Y = 1|X = x)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 27 / 30


Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)

Comme pour l’analyse discriminante linéaire/quadratique, on es-


time avant tout f0 (x) et f1 (x) densités conditionnelles de X|Y = 0
et X|Y = 1

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 28 / 30


Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)

Méthode naı̈ve Bayes pour estimation de fj (x)

I on prend les xi tels que yi = j, xi ∈ Rd


I on estime par la méthode à noyau multi-fenêtres la densité
des q variables quantitatives
I on estime la densité des d − q variables qualitatives en
utilisant les fréquences empiriques correspondantes
I on en déduit f̂j (x)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 29 / 30


Analyse discriminante non paramétrique
Application à l’estimation de P(Y = 1|X = x)

Hypothèse sous-jacente importante : les variables prédictives


sont supposées indépendantes conditionnellement à Y

Pour estimer π0 et π1 on fait comme dans le cas de l’analyse


discriminante linéaire/quadratique

Formule de Bayes

π̂1 f̂1 (x)


P̂(Y = 1|X = x)
π̂0 f̂0 (x) + π̂1 f̂1 (x)

Jean-Michel Marin (IMAG) Analyse discriminante HMMA303 30 / 30

Vous aimerez peut-être aussi