0% ont trouvé ce document utile (0 vote)
37 vues33 pages

Objectifs

Transféré par

Salif Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
37 vues33 pages

Objectifs

Transféré par

Salif Ouedraogo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage statistique

Cadre de la classification supervisée


Problématique de choix de modèles

Jean-Michel Marin

Université de Montpellier
Institut Montpelliérain Alexander Grothendieck (IMAG)
Institut de Biologie Computationelle (IBC)

HMMA 303

Jean-Michel Marin (IMAG) Objectifs HMMA 303 1 / 33


1 Prédiction
Contexte
Formalisation
Prédicteur optimal

2 Risque

3 Stratégies d’estimation

4 Problématique de sélection de modèles et complexité

5 Risque et complexité

6 Méthodes pratiques de sélection de modèles


Méthode de validation
Méthode de la validation croisée

Jean-Michel Marin (IMAG) Objectifs HMMA 303 2 / 33


Prédiction
Contexte

On dispose des données (x1 , y1 ), . . . , (xn , yn ) fournies par l’ob-


servation d’un système

On fait l’hypothèse qu’il y a une dépendance entre les compor-


tements des couples (x, y) ∈ E × F

On souhaite, à partir des données, extraire cette dépendance


pour prédire y lorsque l’on observe x

Jean-Michel Marin (IMAG) Objectifs HMMA 303 3 / 33


Prédiction
Contexte
Example (filtrage de spams)

Dans une base de données de courriels classés spam ou non


spam se trouve les fréquences relatives de 60 mots

On veut construire un filtre automatique de spam qui déciderait


au vu des fréquences relatives des 60 mots si l’on a affaire à un
spam ou non

n correspond au nombre de courriels dans la base de données


d’apprentissage (x1 , y1 ), . . . , (xn , yn )

E = [0, 1]⊗60 et F = {spam, non spam}

Jean-Michel Marin (IMAG) Objectifs HMMA 303 4 / 33


Prédiction
Contexte

Example (reconnaissance de caractères manuscrits)

Un procédé de lecture optique produit des images 16 × 16 de


chiffres manuscrits

On veut construire un système de reconnaissance automatique


qui interprète une image quelconque

Si chaque pixel est binaire, alors E = {0, 1}⊗256 et


F = {0, 1, . . . , 9}

Jean-Michel Marin (IMAG) Objectifs HMMA 303 5 / 33


Prédiction
Contexte

Example (credit scoring)

On dispose de données sur les risques de crédit

x vecteur contenant des informations sur la personne ayant


sollicité un crédit

y est binaire et code le fait qu’il y a eu ou pas un incident de


paiement

Objectif : construire un prédicteur qui identifie les individus à


risque

Jean-Michel Marin (IMAG) Objectifs HMMA 303 6 / 33


Prédiction
Contexte
Example (aide au diagnostic médical)

Des données relatives au risque d’infarctus du myocarde ont


été collectées pour plusieurs centaines d’individus males d’une
population

x est le vecteur de 7 coordonnées relatives à la pression


sanguine, la consommation de tabac, le cholestérol, la
présence d’antécédents familiaux, l’obésité, la consommation
d’alcool et l’âge

y, binaire, code le fait que l’individu a ou non fait un infarctus

Objectif : construire un prédicteur qui détecte les sujets à risque

Jean-Michel Marin (IMAG) Objectifs HMMA 303 7 / 33


Prédiction
Formalisation

Hypothèse : (X1 , Y1 ), . . . , (Xn , Yn ), la base de données d’ap-


prentissage, constituent un n-échantillon du couple (X, Y) à va-
leurs dans E × F :

I (Xi , Yi ) ⊥
⊥ (Xj , Yj ) pour tout i , j
I les couples (Xi , Yi ) ont la même loi de probabilités
I (xi , yi ) est la réalisation de (Xi , Yi )

Y est la variable à prédire, la réponse


X est le vecteur des variables prédictives

Jean-Michel Marin (IMAG) Objectifs HMMA 303 8 / 33


Prédiction
Formalisation
Definition
On appelle prédicteur de Y à partir de X toute fonction
g : E −→ F

La qualité d’un prédicteur est mesurée par son coût moyen

Definition
Le coût moyen d’un prédicteur g est

C(g) = E [h(Y, g(X))]

où h est une fonction de coût unitaire h : F × F −→ R+ qui


facture l’écart entre la valeur prédite et la valeur observée

Jean-Michel Marin (IMAG) Objectifs HMMA 303 9 / 33


Prédiction
Formalisation
Example (classification binaire)

Y ∈ F = {0, 1}

Supposons que h(0, 0) = h(1, 1) = 0


h(0, 1) = a > 0 et h(1, 0) = b > 0

Comparons deux classifieurs


0 avec proba 1/2
I le hasard g1 (x) =
1 avec proba 1/2

I celui consistant à affecter tout le monde à la classe 1


g2 (x) = 1

Jean-Michel Marin (IMAG) Objectifs HMMA 303 10 / 33


Prédiction
Formalisation
Example (classification binaire - suite)

Calculons le coût moyen de g1

g1 (x) = 1U>1/2 où U est une variable aléatoire suivant une loi
uniforme sur [0, 1]

C(g1 ) = E [h(Y, g1 (X))]


= aP({Y = 0} ∩ {U > 1/2}) + bP({Y = 1} ∩ {U < 1/2})
a b
= P(Y = 0) + P(Y = 1)
2 2

Jean-Michel Marin (IMAG) Objectifs HMMA 303 11 / 33


Prédiction
Formalisation

Example (classification binaire - suite)

Calculons le coût moyen de g2

C(g2 ) = E [h(Y, 1)]


= aP(Y = 0)

Jean-Michel Marin (IMAG) Objectifs HMMA 303 12 / 33


Prédiction
Formalisation
Example (classification binaire - suite)
Comparons les deux coûts

C(g1 ) 6 C(g2 )
a b
P(Y = 0) + P(Y = 1) 6 aP({Y = 0}
2 2
a b b
P(Y = 0) + P(Y = 0) >
2 2 2
b
P(Y = 0) >
a+b
Cas particulier du coût symétrique a = b

1
C(g1 ) 6 C(g2 ) ⇐⇒ P(Y = 0) >
2

Jean-Michel Marin (IMAG) Objectifs HMMA 303 13 / 33


Prédiction
Prédicteur optimal
Definition
Le prédicteur optimal est celui qui a le coût moyen le plus faible

On se place dans le cas de la classification supervisée binaire


F = {0, 1}

On considère la fonction de coût élémentaire la plus générale


h(0, 0) = h(1, 1) = 0, h(0, 1) = a, h(1, 0) = b

On cherche le classifieur g∗ qui minimise le coût moyen

g∗ ∈ arg min C(g)


g

Jean-Michel Marin (IMAG) Objectifs HMMA 303 14 / 33


Prédiction
Prédicteur optimal

Nous remarquons que C(g) = E [h(Y, g(X))] = E[E[h(Y, g(X))|X]]

Minimiser C(g) est équivalent à minimiser


E[h(Y, g(X))|X = x] pour tout x ∈ E

Le minimum point par point minimise également l’intégrale

On cherche donc à minimiser

E[h(Y, g(X))|X = x] =

a1g(x)=1 P(Y = 0|X = x) + b1g(x)=0 P(Y = 1|X = x)

Jean-Michel Marin (IMAG) Objectifs HMMA 303 15 / 33


Prédiction
Prédicteur optimal

On obtient
 a
 1 si P(Y = 1|X = x) > a+b
∗ a
g (x) = 0 si P(Y = 1|X = x) <
 a+b
a
1 ou 0 si P(Y = 1|X = x) = a+b

Cas particulier coût symétrique a = b



 1 si P(Y = 1|X = x) > 1/2
g∗ (x) = 0 si P(Y = 1|X = x) < 1/2

1 ou 0 si P(Y = 1|X = x) = 1/2

Jean-Michel Marin (IMAG) Objectifs HMMA 303 16 / 33


Prédiction
Prédicteur optimal

g∗ (x) = 1P(Y=1|X=x)>1/2
est appelé le classifieur de Bayes

Ne pas confondre avec la règle de Bayes

P(B|A)P(A)
P(A|B) =
P(B)

Jean-Michel Marin (IMAG) Objectifs HMMA 303 17 / 33


Prédiction
Prédicteur optimal

Lorsque a = b = 1,
h(Y, g(X)) = 0 si classification correcte
h(Y, g(X)) = 1 si erreur de classification

=⇒ C(g) est alors le taux d’erreur de classification

Le classifieur de Bayes est celui qui minimise le taux d’erreur de


classification

Jean-Michel Marin (IMAG) Objectifs HMMA 303 18 / 33


Risque

Un algorithme d’apprentissage prend en entrée un échantillon


An = {(X1 , Y1 ), . . . , (Xn , Yn )} et rend en sortie un prédicteur
ĝAn : E −→ F

ĝAn est une fonction aléatoire, sa performance s’apprécie à la


valeur de son risque R

R(ĝAn ) = E[C(ĝAn )]
 
= EAn E(X,Y) [h(Y, ĝAn (X)]

Jean-Michel Marin (IMAG) Objectifs HMMA 303 19 / 33


Stratégies d’estimation

Definition
Le coût empirique du prédicteur g, noté CAn (g), est tel que

1X
n
CAn (g) = h(Yi , g(Xi ))
n
i=1

Dans le cas de la classification supervisée binaire et pour la


fonction de coût symétrique avec a = b = 1, le coût empi-
rique correspond à la proportion de mal classés par g dans
l’échantillon d’apprentissage

1X
n
CAn (g) = 1Yi ,g(Xi )
n
i=1

Jean-Michel Marin (IMAG) Objectifs HMMA 303 20 / 33


Stratégies d’estimation

Il existe trois stratégies

Méthode 1 on minimise le coût empirique par rapport à g ∈ G


où G est une certaine classe de fonction

Cette stratégie ne fait sens que si les fonctions appartenant à G


sont de même niveau de complexité

Méthode 2 le seconde stratégie vise dans un premier temps à


l’estimation de PY|X=x pour tout x ∈ E, la loi de probabilité de
Y|X = x

puis à utiliser cette estimation pour construire un classifieur, en


singeant éventuellement le classifieur ayant le coût moyen mini-
mal

Jean-Michel Marin (IMAG) Objectifs HMMA 303 21 / 33


Stratégies d’estimation
Pour estimer P(Y = 1|X = x) on procède comme suit

I on estime les densités conditionnelles de X sachant Y = 0


et Y = 1 par f̂0 (x) et f̂1 (x)
I on estime la loi marginale de Y, π0 = P(Y = 0) et
π1 = P(Y = 1), par π̂0 et π̂1
I on applique la règle de Bayes et on estime P(Y = 0|X = x)
par
π̂0 f̂0 (x)
P̂(Y = 0|X = x) =
π̂0 f̂0 (x) + π̂1 f1 (x)

On peut alors construire un classifieur à l’aide de P̂(Y = 0|X = x)


et P̂(Y = 1|X = x) = 1 − P̂(Y = 0|X = x)

Jean-Michel Marin (IMAG) Objectifs HMMA 303 22 / 33


Stratégies d’estimation

Méthode 3 on modélise directement P(Y = 1|X = x)

C’est ce que l’on fait dans le cas de la régression logistique


tout est conditionné à x

Jean-Michel Marin (IMAG) Objectifs HMMA 303 23 / 33


Problématique de sélection de modèles et complexité

Les méthodes d’apprentissage laissent souvent à l’utilisateur le


soin du réglage de paramètres qui ont un impact sur la com-
plexité des prédicteurs auxquels elles donnent accès

Une fois fixé les valeurs de ces paramètres, l’ensemble des


prédicteurs potentiels est ce que l’on appelle un modèle

Jean-Michel Marin (IMAG) Objectifs HMMA 303 24 / 33


Problématique de sélection de modèles et complexité
Example (classification par régression)

E = Rp et F = {0, 1} classification supervisée binaire et p


variables prédictives quantitatives

On utilise la procédure suivante


I on estime un régresseur linéaire par la méthode des
moindres carré

f̂An (x) = α̂0 + α̂1 x(1) + . . . + α̂p x(p)

à l’aide de An
I on propose comme classifieur

ĝAn (x) = 1 ⇐⇒ f̂An (x) > 1/2

Jean-Michel Marin (IMAG) Objectifs HMMA 303 25 / 33


Problématique de sélection de modèles et complexité

Example (classification par régression - suite)

Pour toute sorte de raison, on peut envisager d’appliquer cette


procédure à des parties + ou - restreintes de l’ensemble des
variables

Fixer un sous-ensemble de régresseurs c’est choisir un modèle

Une mesure de complexité est par exemple le nombre de


variables

Jean-Michel Marin (IMAG) Objectifs HMMA 303 26 / 33


Problématique de sélection de modèles et complexité
Example (méthode des k-plus-proches voisins)

E = Rd et F = {0, 1}

Elle fonctionne comme suit


I pour tout x ∈ E on note VAn ,k (x) l’ensemble contenant les
k-plus-proches voisins de x au sens d’une distance bien
choisie
I ĝAn ,k (x) est la classe majoritaire dans VAn ,k (x)

En cas d’égalité, on prend la classe majoritaire sur les


k − 1-plus-proches voisins

L’entier k joue sur le comportement du classifieur : plus k est


grand moins le classifieur est complexe

Jean-Michel Marin (IMAG) Objectifs HMMA 303 27 / 33


Risque et complexité

Le coût empirique sous-estime le risque pour les modèles com-


plexes

Avec le coût empirique, on choisit toujours le modèle le plus


complexe

Donner trop de flexibilité au modèle conduit à des classifieurs


de mauvaise qualité, c’est le phénomène de sur-apprentissage
(overfitting)

Jean-Michel Marin (IMAG) Objectifs HMMA 303 28 / 33


Méthodes pratiques de sélection de modèles

Idée de base ne pas se fier au coût empirique calculé


sur l’échantillon qui a servi à faire l’estimation/la prédiction

1X
n
CAn (ĝAn ) = h(Yi , ĝAn (Xi ))
n
i=1

est un mauvais estimateur de


 
R(ĝAn ) = EAn E(X,Y) [h(Y, ĝAn (X)]

On voudrait choisir un modèle, ie un niveau de complexité en


fonction du risque

On veut déterminer le modèle de risque le plus faible et pour


cela nous devons estimer le risque

Jean-Michel Marin (IMAG) Objectifs HMMA 303 29 / 33


Méthodes pratiques de sélection de modèles
Méthode de validation
Lorsque l’on a beaucoup de données (n très grand) un usage
courant est de séparer les données en 2 parties à peu près
égales

I A données d’apprentissage à l’aide desquelles sont


construits les prédicteurs A ⊂ AN , #A ≈ n/2
I T données de test qui servent à évaluer la qualité des
prédicteurs à l’aide de
1 X
CT (ĝA ) = h(y, ĝA (x))
#T
(x,y)∈T

T ⊂ An et #T ≈ n/2

Jean-Michel Marin (IMAG) Objectifs HMMA 303 30 / 33


Méthodes pratiques de sélection de modèles
Méthode de la validation croisée

Dans le cas précédent, on peut renverser les rôles joués par A


et T , on croise

De manière générale, lorsque la masse des données est insuf-


fisante on découpe notre jeu de données en plus de 2 parties.
on utilise la méthode de la validation croisée à K ensembles (K-
fold-cross-validation)

Objectif : estimer les risques associés aux différents modèles et


comparer les risques pour choisir un modèle

Jean-Michel Marin (IMAG) Objectifs HMMA 303 31 / 33


Méthodes pratiques de sélection de modèles
Méthode de la validation croisée
Algorithme

I on divise les données en K parties disjointes (partition) de


taillesP
égales (si possible) B1 , . . . , BK de tailles n1 , . . . , nK
avec K i=1 ni = n

I pour chaque i ∈ {1, . . . , K}


on utilise A−i = AnP /Bi pour calculer ĝA−i (x) ∈ F
on calcule R̂i = n1i (x,y)∈Bi h(y, ĝAi (x))

I on calcule l’estimateur final du risque

1X
K
R̂ = R̂i
K
i=1

Jean-Michel Marin (IMAG) Objectifs HMMA 303 32 / 33


Méthodes pratiques de sélection de modèles
Méthode de la validation croisée

Si n est grand relativement à p = dim(E) (nombre de variables


prédictives) on prend K = 2

Si n est de taille moyenne, on prend K = 5 ou K = 10

Si n est petit, on prend K = n, leave-one-out cross validation

Jean-Michel Marin (IMAG) Objectifs HMMA 303 33 / 33

Vous aimerez peut-être aussi