0% ont trouvé ce document utile (0 vote)
71 vues89 pages

Machine Learning

Transféré par

kakouedi22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
71 vues89 pages

Machine Learning

Transféré par

kakouedi22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning

Dr KEITA Kolé
Université Jean Lorougnon Guédé
UFR Sciences Economiques et de Gestion

Année Universitaire 2024-2025

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 1 / 87


1 Introduction

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 2 / 87


Introduction

Sommaire

1 Introduction
Quelques exemples
Eléments statistiques

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des


modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 3 / 87


Introduction Quelques exemples

Exemple 1 :
La base de données ci-dessous porte sur les mouvements journaliers
d'indices boursiers de Standard & Poor's 500 (500 grandes sociétés cotées
sur les bourses aux États-Unis) sur 5 ans. Source :
[Link]

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 4 / 87


Introduction Quelques exemples

Avec
Lag1 : le pourcentage de la variation pour le jour précédent
Lag1 : le pourcentage de la variation pour le jour d'après
···
Volume : le nombre d'actions négociées quotidiennement
Today : le pourcentage de rendement
Direction : une variable binaire qui indique si le marche est négatif ou
positif
Objectif : prédire la variable catégorielle Direction qui indique la
performance du marché en fonction des pourcentages de variable des
indices journaliers.
Il s'agit d'un problème de classication.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 5 / 87


Introduction Quelques exemples

Exemple 2 :

Techniques de statistique de ltrage automatique des spams : le volume


croissant de courriers électroniques non sollicités (appelés  spam ) a
généré un besoin de ltres anti-spam ables.
La base de données utilisée dans 1 contient 4601 messages électroniques.
Objectif : concevoir un détecteur automatique capable de ltrer les
messages électroniques avant d'encombrer les boîtes mails des utilisateurs.
Il s'agit de prédire si un mail est spam ou non.
Pour l'ensemble des 4601 messages, le véritable résultat est disponible,
ainsi que les fréquences relatives de 57 mots et signes de ponctuation les
plus courants dans le message électronique.

1
Source : Mark Hopkins, Erik Reeber, George Forman, Jaap Suermondt,
Hewlett-Packard Labs, USA :
https : //mlr [Link] − org .com/reference/mlrt askss [Link]
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 6 / 87
Introduction Quelques exemples

Le code python de récupération de la base de données des messages


indiquant les fréquences de certains mots et signes de caractères.

Le tableau ci-dessous donne des mots et des caractères achant la plus


grande moyenne dans le spam et le courrier électronique.

Il s'agit d'un problème de classication dont les classes de la variable


catégorielle (réponse) sont message et spam.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 7 / 87
Introduction Quelques exemples

Exemple 3 : Reconnaissance de chires manuscrits

Figure: Exemples de chires manuscrits provenant d'enveloppes postales


américaines 1

1
Source : AT&T Bell Labs, USA
1
Source : AT&T Bell Labs, USA
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 8 / 87
Introduction Quelques exemples

L' image correspond aux données provenant des codes postaux manuscrits
scannés à partir d'enveloppes du service postal américain. Chaque
caractère est un seul chire, isolé d'un code postal à 5 chires.
Les caractères sont des images grises de 16 Ö 16 bits, chacune pixel dont
l'intensité varie de 0 à 255. Les caractères ont été normalisés pour avoir
approximativement la même taille et la même orientation.
Objectif : prédire l'identité d'une nouvelle image c ∈ {0, 1, 2, · · · , 9} de
16 x 16 pixels.
Il s'agit encore d'un problème de classication.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 9 / 87


Introduction Quelques exemples

Exemple 4 : Scoring
Le scoring est un domaine de la statistique décisionnelle dont le but
est de discriminer, de sélectionner, de classer, de segmenter, de prévoir
le comportement d'un client conformément à un critère donné. Il
existe plusieurs types de scores au sein des banques :
▶ acceptation d'une ore de prêt,
▶ fraude (transaction,...),
▶ retard de paiement, etc.
Ces techniques sont aussi appliquées en marketing : optimiser ses
actions commerciales en envoyant des ores à des clients sélectionnés.
Plus l'entreprise connaitra ses clients, plus elle sera susceptible de leur
proposer des produits personnalisés.
D'autres études de scoring orientées Marketing :
▶ scores d'appétence : évaluer les probabilités qu'un client réponde
favorablement à une ore ou à un service proposé.
▶ scores d'attrition : traduire la probabilité qu'un client ou un abonné
passe chez les concurrents ou résilie son abonnement.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 10 / 87
Introduction Quelques exemples

Score d'assurance évalue la probabilité qu'un client soit impliqué dans


un futur accident ou une réclamation d'assurance (un score favorable
entraînera une baisse de paiement).
Le score a pour but de classer les emprunteurs pour prédire la classe D
(défaut) et la classe ND (non défaut) dans laquelle nous allons ensuite les
observer.
Les revenus annuels et les soldes mensuels de cartes de crédit pour un
sous-ensemble de 10000 personnes sont représentés sur la gure ci-dessous.

Figure:
Dr KEITA (UJLoG) Données par2 : défaut
ECUE de la carte de crédit
Machine Learning Octobre 2024 11 / 87
Introduction Quelques exemples

Exemple 5 : Diagnostics
Dans le domaine de la santé, la phase de diagnostic permet de suivre et
d'orienter les patients. De nouvelles techniques permettent au medecin de
optimiser un bon diagnostic,
gagner du temps,
détecter les anomalies sur les images des radios.
Quelques projets exécutés ou en cours
Amazon a lancé n 2018 Amazon Comprehend Medical 1 , nouveau
service dédié aux professionnels de santé. Ce service utilise les
techinques de machine learning pour analyser les dossiers médicaux
des patients et leur faire gagner du temps dans la prise de décision.
Le deploiement des assistants virtuels (inrmières virtuelles) dans les
hôpitaux de dernière génération. Ces assistants sont capables
d'interroger les patients et même repondre aux questions.
1
[Link]
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 12 / 87
Introduction Quelques exemples

Exemple 6 : Planning familial


Les données des eorts des plannings familiaux en Amérique du Sud 1 .
Le niveau social et les eorts des plannings familiaux sont mesurés par une
combinaison d'indices. Plus l'indice est élevé plus le niveau social (resp.
l'eort) est élevé.

1
Mauldin and Berelson, 1978
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 13 / 87
Introduction Quelques exemples

Dans ce problème, on cherche à exprimer le taux de natalité en fonction du


niveau social et les eorts de planication. Le but de cette étude est de
comprendre comment le niveau social et les eorts de planication inuent
sur le taux de natalité.
Il s'agit d'un problème de régression linéaire.
Dans cette base de données, il existe 20 observations (individus).
variables explicatives : le niveau social et les eorts de planication.
variable expliquée : le taux de natalité.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 14 / 87


Introduction Eléments statistiques

Dans tous les exemples, nous avons


l'utilisation des données pour construire un modèle de prédiction qui
sera capable de prédire de nouvelles observations.
des problèmes d'apprentissage supervisé.
▶ Apprentissage supervisé : la construction de modèles pour prédire ou
estimer un résultat basé sur un ou plusieurs entrées ou fonctionnalités
(données labélisées).
▶ Apprentissage non supervisé : décrire comment les données sont
organisées ou regroupés. C'est-à-dire déterminer les patterns dans les
données non labélisées.
Dans un problème d'apprentissage supervisé, nous commençons par une
suite composée des observations et de réponses (Xi , yi )1≤i≤N (N ∈ N) .
Xi sont les vecteurs de variables explicatives (les prédicteurs ou
features). Ces variables peuvent être qualicatives (nominales ou
ordinales) ou quantitatives (discrètes ou continues).
Notons par AX l'ensemble de toutes les variables Xi .

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 15 / 87


Introduction Eléments statistiques

yi représentent les observations de la variable expliquée ou réponse.


Ces variables peuvent être catégorielles avec deux ou plusieurs
modalitées ou quantitatives (discrètes ou continues).
Notons par Ay l'ensemble de toutes les variables yi .
L'objectif principal de l'apprentissage automatique (machine learning
abrégé en ML)
Construire un modèle qui donne les valeurs de la variable réponse
yi ∈ Ay en fonction des prédicteurs Xi ∈ AX
La prédiction des observations futures doit être précise.
Dénition
Un modèle de machine learning est une fonction mathématique dénie
par
fˆN : AX −→ Ay
X −→ fˆN (X)
et permet de prédire le résultat de nouvelles observations.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 16 / 87
Introduction Eléments statistiques

Meilleur modèle
Un bon modèle (meilleur modèle) est celui qui prédit le résultat d'une
observation avec précision.
Si XN+p est une nouvelle observation, le but d'un bon modèle est de
prédire la sortie yN+p avec une précision élévée.
Algorithme d'apprentissage
Un algorithme d'apprentissage est une fonction dénie par
A : ∪i∈N (AX × Ay ) −→ F (AX , Ay )
R −→ fˆN

Un algorithme d'apprentissage construit un modèle de prédiction qui


peut être utilisé par la suite pour prédire de nouvelles observations.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 17 / 87


Introduction Eléments statistiques

Un algorithme d'apprentissage utilise un ensemble (base de données)


d'entraînement (appelée train set) pour "apprendre" la relation entre
les variables explicatives et la réponse.
Un ensemble de données (appelé test set) est utilisé pour calculer la
performance et la précision d'un algorithme d'apprentissage.
Problème de classication :
les variables explicatives ou features sont qualicatives ou
quantitatives (discrètes ou continues)
La réponse est une variable catégorielle dont chaque modalité
correspond à une classe.
Régression linéaire :
La variable réponse y est une variable quantitative.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 18 / 87


Introduction Eléments statistiques

Dans la suite du cours, nous supposons que X ∈ Rp (p variables


explicatives) un vecteur aléatoire de réalisations (Xi )0≤i≤N et y ∈ R une
variable aléatoire de réalisations (yi )0≤i≤N .
Les N réalisations (Xi , yi ) de (X, y ) sont considérées indépendantes et de
même loi de distribution P (En pratique, les données ne sont pas
indépendantes et identiquement distribuées (i.i.d )).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 19 / 87


Introduction Eléments statistiques

En général, la fonction mathématique du modèle est donnée par y = f (X)


et son estimation nécessite l'écritutre une fonction de perte pour
minimiser les erreurs de prédiction.
Quelques de fonctions utilisées pour mesurer les erreurs de prédiction :
La fonction de perte l mesure la diérence entre la vraie valeur de y
et la valeur estimée ŷ .
l : R × R −→ R+
(y , ŷ ) −→ l(y , ŷ )
La fonction risque mesure la qualité du modèle f et correspond à la
moyenne des pertes.
Z
R(f ) = E(l(y , f (X)) = l(y , f (x))dP(x, y )

La perte quadratique :
 2
lq (y , f (X)) = y − f (X)

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 20 / 87


Analyse discriminante

Sommaire

1 Introduction

2 Analyse discriminante
Introduction
Classier Bayesien
Analyse discriminante
linéaire
Analyse discriminante
quadratique

3 Modèle logistique

4 Choix et validation des


modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 21 / 87


Analyse discriminante Introduction

Problème de score :
Soit X les caractéristiques des emprunteurs (variables explicatives ou
exogènes). Notons par s(X) le score qui sert à évaluer la probabilité que
l'emprunteur soit en défaut (noté D). Nous notons
deux classes de prédiction : la classe y=0 correspond aux bons
emprunteurs et y=1 correspond aux mauvais emprunteurs
deux classes d'observation : la classe D des emprunteurs en défaut et
la classe ND des emprunteurs en survie
Pour un modèle de prédiction parfait, nous retrouvons
tous les éléments de la classe y=1 observés dans la classe D
tous les éléments de la classe y=0 observés dans la classe ND
Les varaibles explicatives ou endogènes de ce problème :
ratios nanciers (revenus, charges, niveau d'endettement, etc)
caractéristiques socio-économiques (âge, statut marital,etc)
performance des crédits passés
nature des prêts souscrits
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 22 / 87
Analyse discriminante Introduction

Dénition
Soit (Ω, F, P) un espace probabilisé. Soient A et B deux évènements tels
que P(B) ̸= 0. On dénit la probabilité de A sachant B par
P(A ∩ B)
P(A|B) =
P(B)

Exemple : Portefeuille de 1150 prêts immobiliers de la banque de Vinci.


Statut Nbre_ND Nbre_D
Propriétaire 600 30
Locataire 200 70
Investisseur 225 25
Total 1025 125
125 1025
P(D) = = 0.109, P(ND) = = 0.891
1025 + 125 1025 + 125
200
P(ND|Locataire) = = 0.74
270
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 23 / 87
Analyse discriminante Introduction

La probabilité pour que la réponse y d'appartenne à une classe m ∈ {0, 1}


sachant la valeur de la variable explicative X , peut être déterminée avec le
théorème de Bayes (probabilité conditionnelle).
Théorème de Bayes
P(y = m)
P(y = m|X = x) = .P(X = x|y = m)
P(X = x)

Dans le cas de la regression logistique, la probabilité P(y = m|X = x)


correspond à une fonction logistique. La regression logistique n'est pas
souvent recommendée pour les raisons suivantes
L'estimateur du maximum de vraisemblance (fonction coût) de la
fonction logistique ne converge pas (données separables). On peut
envisager l'analyse discriminante.
Si le nombre d'échantillon est petit et la distribution de X est
approximativement normale dans chaque classe de y , l'analyse
discriminante est plus stable que la régression logistique.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 24 / 87
Analyse discriminante Classier Bayesien

L'analyse discriminante peut aussi être envisagée lorsqu'il y'a plus de deux
classes.
Supposons que nous disposons M ≥ 2 classes.
La probabilité à priori de la réponse y de la classe m ∈ {1, 2, · · · , M}
est notée πm = P(y = m)
La densité conditionnelle fm (x) de la variable X sachant que y = m.
Si x ∈ Rp alors fX (x) = M
Q
m=1 πm fm (x)
Illustration : deux lois
  normales dont les densités
  sont
1
  
2 0   
7 1 0
f1 ∼ N , et f2 ∼ N , .
2 0 2 5 0 3

Figure: Simulation de deux classes


Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 25 / 87
Analyse discriminante Classier Bayesien

Nous avons
π1 = 0.3, π2 = 0.7, fX (x) = 0.3f1 (x) + 0.7f2 (x)

Figure: Classier (D)

La règle de classication est donnée par


1 si x est à gauche de (D)

C(x) =
2 si x est à droite de (D)

Dénition
Un classier C est une fonction mesurable dénie sur AX à valeurs dans Ay
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 26 / 87
Analyse discriminante Classier Bayesien

Soit XN+1 une nouvelle observation. Le classier (ou encore la règle de


décision) désigne la classe à laquelle appartient cette observation en
calculant C(XN+1 )
A partir de la dénition et le rôle d'un classier, plusieurs questions
peuvent se poser.
Comment construire un classier à partir d'un ensemble de données
d'apprentissage (train set)?
Comment évaluer la qualité d'un classier?
Pouvons nous déterminer un classier optimal?
Pour répondre à certaines questions, nous avons besoin d'une fonction
perte pour le calcul de l'erreur des observations mal classées.
La fonction perte l(m1 , m2 ) représente l'erreur lorsque y = m1 alors que
le classier donne y = m2 . Elle est dénie par
0

si m 1 = m2
l(m1 , m2 ) = 1m1 ̸=m2 = (1)
1 si m1 ̸= m2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 27 / 87


Analyse discriminante Classier Bayesien

Soit C un classier. Le risque de C est donné par


Z
R(C) = E(l(y , C(X))) = l(y , C(X))dP(x, y ) = P(y ̸= c(X)).
AX ×Ay

Puisque l appartient à {0, 1}, alors un meilleur classier est celui avec le
risque R(C) minimal.
la fonction perte (formule (1)) n'est pas toujours appropriée à tous les
problèmes de classication (problème mail/spam).
Dénition
La probabilité a posteriori de la classe y = m sachant que X = x est
πm fm (x) πm fm (x)
P(y = m|X = x) = = QM .
fX (x) k=1 πk fk (x)

Il s'agit de la probabilité qu'une observation avec une valeur prédictive x


appartienne à la classe y = m.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 28 / 87
Analyse discriminante Classier Bayesien

Naturellement, l'observation x appartient à la classe y = m si la valeur de


la probabilité P(y = m|X = x) est large.
Classier Bayesien
Un classier Bayesien C ∗ attribue à une observation la classe ayant la plus
grande probabilité sachant la valeur x de l'observation.
C ∗ (x) = m si P(y = m|X = x) = max P(y = k|X = x)
k∈{1,2,··· ,M}

⇔ C ∗ (x) = arg max P(y = k|X = x)


k∈{1,2,··· ,M}

Remarque :
Pour un problème à deux classes (01). Le classier Bayesien prédit la
classe y = 0 si P(y = 0|X = x) > 0.5.
Si la densité fX (x) est indépendante des classes alors le classier peut
se réécrire comme C ∗ (x) = arg max πk fk (x)
k∈{1,2,··· ,M}

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 29 / 87


Analyse discriminante Classier Bayesien

Illustration
deux lois normales dont les densités (π1 = 
0.2, π2 = 0.8) sont
 1 2 0   −1 1 0 
f1 ∼ N
2 , 0 2 et f2 ∼ N −2 , 0 2

(a) : Simulation de deux classes (b) : Boxplots des deux variables


Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 30 / 87
Analyse discriminante Classier Bayesien

Les densités des deux classes :


1  1
exp − (x1 − 1)2 + (x2 − 2)2 ,

fy =1 (X = (x1 , x2 )) =
4π 4
1  1 1
fy =2 (X = (x1 , x2 )) = √ exp − (x1 + 1)2 + (x2 + 2)2 .

2 2π 2 2
La densité de X : fX (x1 , x2 ) = 0.2fy =1 (x1 , x2 ) + 0.8fy =2 (x1 , x2 ) La frontière
des deux classes est déterminée en posant

0.2fy =1 (x1 , x2 ) = 0.8fy =2 (x1 , x2 ) ⇔ x12 + 6x1 + 8x2 = 4 ln(4 2) − 1.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 31 / 87


Analyse discriminante Classier Bayesien

La courbe noire représente les points X = (x1 , x2 ) tels que la


probabilité d'appartenir est égale à 0.5. C'est la frontière de la
décision de Bayes.
Les points à droite de la courbe noire ont une probabilité supérieure à
0.5 tandis que ceux à gauche ont une probabilité inférieure à 0.5.
Proposition
Parmis tous les classiers, le classier Bayesien est le moins risqué. Il est
dit optimal.
Preuve : Soit C un classier, nous avons
  Z
R(C) = E(l(y , C(X))) = E E(l(y , C(X)|X) = E(l(y , C(X)|X)fX (x)dx

Soit C ∗ qui minimise E(l(y , C(X)|X) alors


E(l(y , C ∗ (X)|X) ≤ E(l(y , C(X)|X)
Puisque ∀x ∈ Rp , fX (x) ≥ 0 alors R(C ∗ ) ≤ R(C)
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 32 / 87
Analyse discriminante Classier Bayesien

Nous avons
M
E(l(y , C(X)|X) = l(y = m, C(x))P(y = m|X = x)
X

m=1
Si C(x) = m′ alors
M
E(l(y , C(X)|X)) l(y = m, m′ )P(y = m|X = x)
X
=
m=1
M
1m̸=m′ P(y = m|X = x)
X
=
m=1

P(y = m|X = x) = 1 − P(y = m′ |X = x)


X
=
m̸=m′

1 − P(y = k|X = x)
 
arg min = arg max P(y = k|X = x)
k∈{1,2,··· ,M} k∈{1,2,··· ,M}
qui correspond au classier Bayesien alors C ∗ est le classier Bayesien.
Remarque : l'optmalité du classier Bayesien n'implique pas que le risque
est petit.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 33 / 87
Analyse discriminante Classier Bayesien

Illustration
Premier cas : f1 ∼ N (−1, 0.5), f2 ∼ N (1, 0.5) et π1 = π2 . Le classier
Bayesien est donné par
1

∗ si f1 (x) > f2 (x)
C (x) =
2 si f1 (x) < f2 (x)

Figure: (a): Densités des deux lois. (b) Histogrammes des deux lois. La courbe
noire représente le classier.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 34 / 87
Analyse discriminante Classier Bayesien

Second cas : f1 ∼ N (−0.5, 1), f2 ∼ N (0.5, 1) et π1 = π2

Figure: (a): Densités des deux lois. (b) Histogrammes des deux lois. La courbe
noire représente le classier.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 35 / 87


Analyse discriminante Analyse discriminante linéaire

Supposons que la variable explicative X suit une loi normale


multidimensionnelle (à plusieurs variables) de centre (vecteur moyenne)
µ ∈ Rp et de matrice de variance-covariance Σ ∈ Mp (R). La matrice Σ
est semi-dénie positive. La fonction de densité de X :
1  1
exp − (x − µ)T Σ−1 (x − µ) , x ∈ Rp

fX (x) =
(2π) 2 det(Σ)
pp
2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87


Analyse discriminante Analyse discriminante linéaire

Supposons que la variable explicative X suit une loi normale


multidimensionnelle (à plusieurs variables) de centre (vecteur moyenne)
µ ∈ Rp et de matrice de variance-covariance Σ ∈ Mp (R). La matrice Σ
est semi-dénie positive. La fonction de densité de X :
1  1
exp − (x − µ)T Σ−1 (x − µ) , x ∈ Rp

fX (x) =
(2π) 2 det(Σ)
pp
2

0 1 0
   
Figure: Fonction de densité fX pour µ = et Σ =
0 0 1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87


Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec la loi


 0 1 0 
N ,
0 0 1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 37 / 87


Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec la loi


 0 1 0 
N ,
0 0 1

0 1 −1
   
Figure: Fonction de densité fX pour µ = et Σ =
Dr KEITA (UJLoG) ECUE 2 : Machine Learning
0 − 1 1.5
Octobre 2024 37 / 87
Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec


 0  1 −1 
N ,
0 −1 1.5

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 38 / 87


Analyse discriminante Analyse discriminante linéaire

Figure: Simulation de deux classes de lois gaussiennes multidimensionnelles

Les données de la classe y=m suit une loi gaussienne multidimensionnelle


de paramètres µm et Σ (identique pour toutes les classes). La densité de la
classe :
1  1
exp − (x − µm )T Σ−1 (x − µm ) , x ∈ Rp

fm (x) =
(2π) 2 det(Σ)
pp
2
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 39 / 87
Analyse discriminante Analyse discriminante linéaire

La probabilité de prédiction de la classe y=m sachant la valeur de X :


πm fm (x) πm fm (x)
P(y = m|X = x) = = QM
fX (x) k=1 πk fk (x)

Le classier Bayesien attribue l'observation X = x à la classe dont


C ∗ (x) = arg max πk fk (x) = arg max ln(πk ) + ln(fk (x))
k∈{1,2,··· ,M} k∈{1,2,··· ,M}
1
= arg max ln(πk ) − (x − µk )T Σ−1 (x − µk )
k∈{1,2,··· ,M} 2
−1 T −1 T 1
= arg max ln(πk ) + µT
k Σ x − µk Σ µk
k∈{1,2,··· ,M} 2
:= arg max δkL (x).
k∈{1,2,··· ,M}

Les frontières de la décision de Bayes sont déterminées en posant


L (x) = δ L (x) pour tout m ̸= m . Ces frontières séparent les données
δm1 m2 1 2
en M domaines.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 40 / 87
Analyse discriminante Analyse discriminante linéaire

Exemple
  :
−2 2 , π = 0.5, µ = 6 , π = 0.2 et
   
µ1 =
6 , π1 = 0.3, µ2 =
2 2 3
6 2
1 0 . Les fonctions qui séparent les trois classes sont donnnées

Σ=
0 1 par
:
δ1L (x1 , x2 ) = ln(π1 ) − 2x1 + 6x2 − 20, δ2L (x1 , x2 ) = ln(π2 ) + 2x1 + 2x2 − 4,
δ3L (x1 , x2 ) = ln(π3 ) + 6x1 + 6x2 − 36

Figure: Exemple de trois classes de données gaussiennes et le classier de décision


de Bayes en noir.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 41 / 87
Analyse discriminante Analyse discriminante linéaire

En pratique, il faudra vérier la normalité de la variable explicative X et les


estimations des paramètres se vont avec l'échantillon d'apprentissage. Cela
correspond à
1 X Nm
µ̂m = xj , (2)
Nm
j=1

1 M X
X
Σ̂ = (xi − µk )(xi − µk )T ,
N −M
k=1 i:yi =k

Nm
π̂m = ; (3)
N
Avec Nm le nombre d'éléments dans la classe y = m ( = N ), M
PM
k=1 Nk
le nombre de classes.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 42 / 87


Analyse discriminante Analyse discriminante linéaire

L'analyse discriminante linéaire (LDA) attribue à l'observation X = x la


classe dénie ci-dessous.
1
LDA(x) = arg max ln(πk ) + µTk Σ̂−1 x − µ̂Tk Σ̂−1 µ̂Tk
k∈{1,2,··· ,M} 2
:= arg max δ̂kL (x).
k∈{1,2,··· ,M}

La fonction LDA est une fonction ane en x et linéaire par rapport à


ces paramètres.
L'utilisation de la fonction LDA suppose que les données dans chaque
classe suivent une loi gaussienne de centre µk lié à la classe. Toutes
les classes ont la même matrice variance-covariance.
NB : Le classiier LDA n'est pas pertinente lorsque les matrices
variance-covariance des classes sont diérentes.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 43 / 87


Analyse discriminante Analyse discriminante quadratique

Supposons que la variable explicative de chaque classe y = m suit une loi


normale multidimensionnelle de centre µm ∈ Rp et de matrice de
variance-covariance Σm ∈ Mp (R). La fonction de densité de X est donnée
par
1  1
T −1

fm (x) = exp − (x − µ) Σ (x − µ) , x ∈ Rp
(2π)
p
2 m
p
2 det(Σm )

La probabilité de prédiction de la classe y = m :


πm fm (x) πm fm (x)
P(y = m|X = x) = = QM
fX (x) k=1 πk fk (x)

Le classier Bayesien attribue X = x à la classe dont


C ∗ (x) = arg max πk fk (x) = arg max ln(πk ) + ln(fk (x))
k∈{1,2,··· ,M} k∈{1,2,··· ,M}

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 44 / 87


Analyse discriminante Analyse discriminante quadratique

1 1 1
C ∗ (x) = arg max ln(πk ) − ln(det(Σk )) − (x − µk )T Σ−
k (x − µk)
k∈{1,2,··· ,M} 2 2
:= arg max δkQ (x)
k∈{1,2,··· ,M}

Les frontières de la décision de Bayes sont déterminées en posant


Q (x) = δ Q (x) pour tout m ̸= m . Ces frontières séparent les données
δm1 m2 1 2
en M domaines.  
−2 1 0 , π = 0.3,
 
Exemple : µ1 = , Σ1 =
6  0 1 1 
2 , Σ = 1 0 , π = 0.5, µ = 6 , Σ = 3 0 , π = 0.2.
    
µ2 =
2 2
0 3 2 3
6 3
0 1 2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 45 / 87


Analyse discriminante Analyse discriminante quadratique

Lorsque les paramètres des lois des données des classes sont inconnus, on
peut estimer µm et πm avec les formules (2) et (3) données dans le cas de
l'analyse discriminante linéaire. Les estimations des matrices
variance-covariance :
1 X
Σ̂m = (xi − µ̂m )T (xi − µ̂m ).
N −1
i:yi =m

Le classier d'analyse discriminante quadratique QDA attribue à


l'observation X = x la classe suivante
1
QDA(x) = arg max ln(πk ) − ln(det(Σk ))
k∈{1,2,··· ,M} 2
1 1
− (x − µk )T Σ− k (x − µk)
2
:= arg max δkQ (x)
k∈{1,2,··· ,M}

La fonction du classier QDA(x) est quadratique en x .


Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 46 / 87
Analyse discriminante Analyse discriminante quadratique

Quelques points importants :


La préférence de QDA à LDA ou vice-versa est liée à un compromis
entre le bias et la variance.
Puisque la matrice variance-covariance est symétrique alors dans le cas
d'une variable explicative de p composantes, son estimation avec LDA
nécessite le calcul de p(p+
2
1)
paramètres.
Le nombre de paramètres pour QDA devient M p(p+ 2
1)
où M est le
nombre total de classes.
Le classsier LDA nécessite d'estimer moins de paramètres par
rapport à QDA et a une variance nettement inférieure. Ce qui peut
conduire à une amélioration de performance dans les prédictions.
Le classier LDA peut avoir des problèmes de biais alors qu'il faut un
compromis entre le bias et la variance pour un bon classier.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 47 / 87


Analyse discriminante Analyse discriminante quadratique

Recommandations :
On peut préférer LDA à QDA quand il y en a relativement peu
observations d'entraînement (et donc la réduction de la variance est
cruciale).
QDA est recommandé si l'ensemble de formation est très vaste ou si
l'hypothèse d'une matrice de covariance commune est clairement
intenable.
Remarques :
les performances de LDA/QDA peuvent être évaluées à l'aide de la
matrice de confusion, de la sensibilité (sensitivity) et de la spécicité
(specicity)
La courbe ROC et l'AUC s'appliquent également à la LDA/QDA et
peuvent être utilisés pour comparer les classicateurs (LDA, QDA,
régression logistique).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 48 / 87


Modèle logistique

Sommaire

1 Introduction

2 Analyse discriminante

3 Modèle logistique
Introduction
L'estimateur du maximum
de vraisemblance
Modèle de régression
logistique
Estimation des paramètres
Propriétés asymptotiques de
l'estimateur

4 Choix et validation des


modèles
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 49 / 87
Modèle logistique Introduction

Exemple d'application

Une chaine de magasin a mis en place une carte de crédit. Elle dispose de
145 clients dont 40 ont connu des défauts de paiement. Les
caractéristiques connues des clients sont
le sexe,
le taux d'endettement,
les revenus mensuels,
les dépenses éectuées sur les gammes de produit.
Problème
Nous souhaitons savoir si un nouveau client connaîtra des défauts de
paiement (prédiction).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 50 / 87


Modèle logistique Introduction

Nous disposons de deux classes de prédiction : y=1 quand le client est en


défaut de paiement et y=0 dans le cas contraire.
La variable y suit une loi binomiale de paramètres N et π où N est le
nombre d'observations et π = P(y = 1).
La probabilité d'appartenance à la classe y=0 est
P(y = 0) = 1 − π,
et nous résumons que pour tout yi ∈ {0, 1} .
P(y = yi ) = π yi (1 − π)1−yi , avec i ∈ {0, 1, · · · , N}
Nous rappelons que
E(y ) = π, Var (y ) = π(1 − π).

Question
Comment estimer la probabilité π?
L'estimation de la probabilité π peut se faire avec la méthode du
maximum de vraisemblance.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 51 / 87
Modèle logistique L'estimateur du maximum de vraisemblance

Supposons les réalisations de la variable y notées y1 , y2 , · · · , yN sont


indépendantes et identiquement distribuées.
La vraisemblance de π est donnée par
N
π yi (1 − π)1−yi .
Y
LN (π) =
i=1

La log-vraisemblance est dénie par


N 
yi log(π) + (1 − yi ) log(1 − π) .
X 
LN (π) =
i=1

Il faut retenir que


max LN (π) = max LN (π).
π π
La condition du premier ordre nous donne
∂LN
N 
yi 1 − yi  1X N
= 0 ⇒ π̂ =
X
= − yi = ȳ .
∂π π=π̂
i=1
π 1 − π π=π̂ N
i=1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 52 / 87


Modèle logistique L'estimateur du maximum de vraisemblance

La loi faible des grands nombres garantit que π̂ −


→ E(y ) = π quand N tend
P

vers ∞.
A partir du théorème central limite, nous avons
√ π̂ − π √ π̂ − E(y ) L
np = np → N (0, 1).

π(1 − π) Var (y )

A partir du théorème de Slutsky, on a


√ π̂ − π
→ N (0, 1).
L
np −
π̂(1 − π̂)

L'intervalle de conance de l'estimateur avec un niveau de risque 5%


(Normalité asymptotique de π̂) :
sp sp
π̂(1 − π̂) π̂(1 − π̂) i
π̂ − 1.96 ; π̂ + 1.96
h
.
N N

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 53 / 87


Modèle logistique L'estimateur du maximum de vraisemblance

En faisant la représentation graphique des fréquences des observations des


classes en fonctions des variables individuelles, nous remarquons les courbes
tendent des fonctions sigmoïdes.

Figure: Fonctions de répartition de la fonction logistique (bleu) et probit (rouge).

Remarque
A partir de la remarque faite sur la représentation graphique, nous pouvons
en déduire que
E(y |X = x) = f (x);
Où f est une fonction sigmoïde.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 54 / 87
Modèle logistique L'estimateur du maximum de vraisemblance

La
 remarque prouve que la probabilité de yi notée πi
πi = P(Yi = yi |Xi ) = E(Yi |Xi ) dépend explicitement des variables


explicatives Xi = xi .
Questions
Le choix d'un modèle linéaire de la forme
πi = E(Yi |Xi ) = XiT β = β1 Xi,1 + β2 Xi,2 + · · · + βN Xi,N

convient t'il?
Quels types de modèles peuvent être envisagés?
La réponse à la première question est non car
la probabilité πi ∈ [0, 1] et aucune propriété ne garantit que
XTi β ∈ [0, 1].
une fonction sigmoide n'est pas linéaire.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 55 / 87


Modèle logistique Modèle de régression logistique

Supposons que nous possédons N observations


(X1 , y1 ), (X2 , y2 ), · · · , (XN , yN ) avec
La variable Xi ∈ Rp est un vecteur de variables explicatives
(covariables )
La variable yi ∈ {0, 1} est la réponse binaire qui détermine le groupe
de l'observation.
Objectif
Construire un modèle de classication binaire qui va prédire les classes des
nouvelles observations.
En réalité, les variables Xi sont déterministes et les variables yi sont
aléatoires.
Les variables yi suivent une loi de Bernoulli de paramètres πi . On rappelle
que
πi := P(Yi = yi |Xi = xi )

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 56 / 87


Modèle logistique Modèle de régression logistique

La fonction logit est dénie sur ]0, 1[ par


p
∀p ∈]0, 1[, logit(p) = log( ).
1−p
C'est une fonction dérivable et bijective sur ]0, 1[ vers R.
L'image de la probabilité πi :
 P(Y = y |X = x ) 
logit(πi ) = log i i i i
= xiT β;
1 − P(Yi = yi |Xi = xi )
avec β ∈ Rp .
On obtient
exp(xiT β)
P(Yi = yi |Xi = xi ) =
1 + exp(xiT β)
Si yi = 1 alors
1
P(Yi = 0|Xi = xi ) =
1 + exp(xiT β)
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 57 / 87
Modèle logistique Modèle de régression logistique

D'autres fonctions sigmoïde peuvent être utilisées à la place de la fonction


logit :
La fonction probit :
∀p ∈ [0, 1], probit(p) = ϕ−1 (p);

où ϕ est la fonction de distribution de la loi normale centrée réduite


dénie par
1  1 
Z u
ϕ(u) = √ exp − t 2 dt
2π −∞ 2
La fonction log-log :
∀p ∈]0, 1[, log-log = log − log(1 − p) .
 

En pratique, la fonction logit est largement utilisée à cause l'interprétation


facile du paramètre β dans cette fonction.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 58 / 87


Modèle logistique Estimation des paramètres

Considérons N observations indépendantes et identiquement distribuées de


réalisations (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ). La fonction vraisemblance :
N
P(yi = 1|xi )yi (1 − P(yi = 1|xi ))1−yi
Y
LN (β) =
i=1
N
Y exp(yi β T xi )
=
i=1
1 + exp(β T xi ))
La fonction log-vraisemblance :
N 
yi β T xi − log(1 + e β
X Tx

LN (β) = i
)
i=1

Le problème d'optimisation (maximiser la log-vraisemblance) :


β̂N = arg max LN (β).
β

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 59 / 87


Modèle logistique Estimation des paramètres

La dérivée partielle par rapport à la variable βj (j ∈ {1, 2, · · · , p}) :


N  T
∂LN X e yi β xi 
= yi xi,j − xi,j .
∂βj
i=1
1 + e yi βT xi
N T
e yi β xi 
∀j ∈ {1, 2, · · · , p}
X 
= xi,j yi − ,
i=1
1 + e yi βT xi
La dérivée partielle par rapport à βj peut s'écrire sous la forme matricielle :
N T
∂LN X  e yi β xi 
TN (β) = = xi,j yi −
∂βj
i=1
1 + e yi βT xi
L'estimateur β̂ est solution du système p équations.
T
0
 P  
N e yi β xi

i=1 xi, 1 yi − T =
1+e yi β xi

.. .. ..

(4)

 . . .
T
= 0
 
e yi β xi
 PN
i=1 xi,p yi − 1+e yi β T xi

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 60 / 87


Modèle logistique Estimation des paramètres

La solution exacte du système d'équations n'existe pas. Les estimations de


β̂ se font avec l'algorithme numérique de Newton-Raphson.
Sous certaine condition de séparabilité, la fonction
log-vraisemblance est concave et la méthode du maximum de
vraisemblance converge vers un unique maximum.
Le choix du point de départ pour l'algorithme numérique n'est pas
critique. On peut commencer par 0 ou par un point aléatoire.
Algorithme de Newton-Raphson : une méthode numérique qui permet
de déterminer la racine d'une fonction mathématique F (β).
Dans notre cas, on pose
N T N T
X  e yi β xi  X  e yi β xi 
F (β) = xi,1 yi − , x 2 yi − ,
i=1
1 + e yi β xi i=1
T i,
1 + e yi βT xi
N T
X  e yi β xi 
··· , xi,p yi −
i=1
1 + e yi βT xi
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 61 / 87
Modèle logistique Estimation des paramètres

Algorithme de Newton-Raphson
1 Initialisation : on donne β (0)
2 Approximation linéaire de la fonction F au point initial β (0) + h:
F (β (0) + h) ≃ F (β (0) ) + hF ′ (β (0) )

3 Déterminer une solution β (1) = β (0) + h telle que F (β (1) ) = 0


implique h = −[F ′ (β (0) )]−1 F (β (0) ). Donc
β (1) = β (0) − [F ′ (β (0) )]−1 F (β (0) )

4 Itérer le processus jusqu'à ce que le critère de convergence soit satisfait


Dans le cas du modèle logistique, l'algorithme de Newton-Raphson porte
sur la résolution du système
∂LN
F (β) = = 0Rp .
∂β
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 62 / 87
Modèle logistique Estimation des paramètres

1 Initier β (0)
2 Pour tout k ≥ 0, calculer
 ∂2L −1 ∂L
β (k+1) = β (k) −
N N
|β (k)
∂β∂β T β (k) ∂β
3 Itérer le processus jusqu'à ce que β (k+1) ≈ β (k) et/ou
LN (β (k+1) ) ≈ LN (β (k) ).

Posons que X la matrice des covariables de N lignes (nombres


d'observations) et p colonnes (nombre de variables explicatives) :
 
x1,1 x1,2 · · · x1,p
 x2,1 x2,2 · · · x2,p 
X=  .. .. .. .. 

 . . . . 
xN,1 xN,2 · · · xN,p
T
Posons que et

y = y1 , y2 , · · · , yN
Φ(β) = (ϕ(β T x1 ), ϕ(β T x2 ), · · · , ϕ(β T xN )) avec ϕ(u) = 1+e
eu
u , ∀u ∈ R.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 63 / 87


Modèle logistique Estimation des paramètres

Le système d'équations (4) a la forme suivante


XT y − Φ(β) = 0.
 

L'élément de la ligne j et de la colonne k de la matrice Hessienne :


N T
∂LN X e yi β xi
= − xi,j xi,k
∂βj ∂βk
i=1
(1 + e yi β T xi )2
N
xi,j xi,k ϕ(β T xN )(1 − ϕ(β T xN ))
X
= −
i=1
N
xi,j ϕ(β T xN )(1 − ϕ(β T xN ))xi,k
X
= −
i=1
Alors
∂ 2 LN
= −XT W(β)X,
∂β∂β T
avec
W(β) = diag (ϕ(β T x1 )(1 − ϕ(β T x1 )), · · · , ϕ(β T xN )(1 − ϕ(β T xN )))T
 

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 64 / 87


Modèle logistique Estimation des paramètres

En utilisant les écritures matricielles


∂LN   ∂ 2 LN
= XT y − Φ(β) , = −XT W(β)X.
∂β ∂β∂β T

L'algorithme de Newton-Raphson devient :


− 1 
β (k+1) = β (k) − XT W(β (k) )X
 
XT y − Φ(β (k) )
 − 1
= XT W(β (k) )X XT W(β (k) )

Xβ (k) − W−1 (β (k) ) y − Φ(β (k) )
 

 − 1
= X W(β )X XT W(β (k) )Z;
T (k)

Où Z = Xβ (k) − W−1 (β (k) ) .


  
y − Φ(β (k) )

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 65 / 87


Modèle logistique Estimation des paramètres

Problème de convergence :
Le problème de convergence de l'estimateur du maximum de vraisemblance
peut être lié à la séparabilité des classes.
Dénition
Un nuage de points (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ) avec xi ∈ Rp et
yi ∈ {0, 1}, est dit
complètement séparable si ∃β ∈ Rp tel que ∀i , yi = 1 on a
β T xi > 0 et ∀i , yi = 0 on a β T xi < 0.
quasi-complètement séparable si ∃β ∈ Rp tel que ∀i , yi = 1 on a
β T xi ≥ 0, ∀i , yi = 0 on a β T xi ≤ 0 et {i : β T xi = 0} = ̸ ∅.
en recouvrement ("overlap data") s'il n'est ni complètement
séparable et ni quasi-complètement séparable.
L'estimateur du maximum de vraisemblance ne converge pas si les données
sont complètement séparées et quasi-complètement séparées.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 66 / 87
Modèle logistique Estimation des paramètres

Figure: A gauche : données complètement séparables. Au milieu : données


quasi-complètement séparables. A droite : données en recouvrement (overlap
data).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 67 / 87


Modèle logistique Propriétés asymptotiques de l'estimateur

Théorème
Sous hypothèses des données en recouvrement, l'estimateur du maximum
√ 
de vraisemblance β̂ est consistant et n β̂ − β converge en loi vers

n∈N∗
N 0, I(β)−1 où I(β) est la matrice d'information de Fisher dénie par
 

 ∂2 
I(β)i,j = −E L(β) ,
∂βi ∂βj

avec L(β) est la log-vraisemblance d'une observation.


L'estimation de I(β) est nécessaire pour calculer les intervalles de
conance pour β et pour tester des hypothèses sur β .
Soit L(k) (β) la contribution de l'observation k dans la
log-vraisemblance LN (β). C'est-à-dire
N
X
LN (β) = L(k) (β).
k=1
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 68 / 87
Modèle logistique Propriétés asymptotiques de l'estimateur

La matrice inconnue I(β) est estimée


1 N
X ∂2  1 ∂2 X N 
Î(β) = − L (β) = − L (β)
N ∂β∂β T (k) N ∂β∂β T (k)
k=1 k=1
1 ∂2
= − LN (β) = XT W(β)X
N ∂β∂β T

Puisque les paramètres β sont inconnus alors on calcule


Î(β̂) = XT W(β̂)X,

où β̂ est calculé avec l'algorithme de Newton-Raphson.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 69 / 87


Choix et validation des modèles

Sommaire

1 Introduction

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des


modèles
Choix des modèles
Validation

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 70 / 87


Choix et validation des modèles Choix des modèles

En pratique,
diérents modèles peuvent se présenter en fonction des nombres de
covariables (variables explicatives)
le choix du meilleur modèle est une étape cruciale en machine learning
Considérons n modèles M1 , M2 , · · · , Mn .
Question
Comment choisir le meilleur modèle parmis ces modèles?
Il n'existe pas de critère universel de dénition du meilleur modèle.
Le meilleur modèle dépend d'un critère donné.
Plusieurs types de critères de selection du meille:
Tests sur les paramètres des modèles emboités
Critère d'information d'Akaike : AIC
Critère d'information bayésien : BIC
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 71 / 87
Choix et validation des modèles Choix des modèles

Tests sur les paramètres


Considérons deux modèles M1 et M2 .
On suppose que le modèle M1 est emboité dans le modèle M2 (M1 est
un cas particulier de M2 ).
Posons que
M1 : logit(πi ) = β1 x1 + β2 x2 ;
M2 : logit(πi ) = β1 x1 + β2 x2 + β3 x3 + β4 x4 .

Le test de comparaison des modèles M1 et M2 :


H0 : β 3 = β 4 = 0 contre H0 : β3 ̸= 0, β4 ̸= 0

En général, les deux modèles contiennent respectivement p1 et p2


paramètres et l'un des deux modèles est emboîté dans l'autre.
Le test de comparaison des deux modèles porte sur la nullité de
certains paramètres : Wald et du rapport de vraisemblance
Sous l'hypothèse H0 , les statistiques suivent une loi de chi2 de degré
de liberté p2 − p1 si p2 > p1
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 72 / 87
Choix et validation des modèles Choix des modèles

Critère d'information d'Akaike (AIC)


Soit un modèle M de p paramètres estimés par l'estimateur de maximum
de vraisemblance β̂ .
Le critère AIC est une méthode de pénalisation de la log-vraisemblance :
AIC(M) = −2LN (β̂) + 2p

Idée
Il faut choisir le modèle qui a la plus grande log-vraisemblance sachant que
la log-vraisemblance croît en fonction la complexité du modèle (le nombre
de paramètres).
Intuitivement, le modèle ayant la plus grande log-vraisemblance est le
modèle complet mais à retenir que ce modèle est sur-paramétré (appelé
"overtting").
Le critère AIC permet de pénaliser les modèles avec le nombre de
paramètres an de satisfaire des critères.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 73 / 87
Choix et validation des modèles Choix des modèles

Critère d'information bayésien (BIC)

Soit un modèle M de p paramètres estimés par l'estimateur de maximum


de vraisemblance β̂ .
Le critère BIC est inspirée du critère AIC. Pour un échantillon de N
observations. Le critère BIC est déni par
BIC(M) = −2LN (β̂) + p log(N)

Idée
Choisir un modèle dont les valeurs de AIC et BIC sont petites.
Si log(N) > 2 (N > 8), le critère BIC aura tendance à choisir le modèle le
plus parcimonieux que le critère AIC.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 74 / 87


Choix et validation des modèles Validation

La validation d'un modèle est basée sur le pouvoir de prédiction et se fait


en plusieurs étapes :
Pour chaque modèle, déterminer le nombre d'observations mal classées
Calculer les taux d'erreur des modèles
L'approche consiste à dénir une règle de classication des observation à
partir d'un modèle logistique :
G : Rp → {0, 1}
X 7→ y
Le modèle logistique :
exp(β̂ T xi )
P(y = yi |X = x) =
1 + exp(β̂ T xi )
Pour une nouvelle observation XN+1 , on
yi si P(y = yi |X = xN+1 ) ≥ s

G(XN+1 ) =
1 − yi sinon (5)
s est le seuil xé.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 75 / 87
Choix et validation des modèles Validation

Il existe plusieurs critères de mesure de performance d'une règle de


classication dont l'estimation de la probabilité d'erreur P(G(X) ̸= y ).
Soit (Xi ) une suite d'observations prédites dans les classes G(Xi ). La
proportion des observations mal classées :
1 N
1G(Xi )̸=yi
X
Pml (G) =
N
i=1

Un modèle qui classe bien toutes les observations (modèle parfait) a une
proportion des mal classées égale à 0.
Problèmes
Pml (G) n'est pas un bon estimateur de la probabilté P(G(X) ̸= y ).
La théorie des grands nombres ne peut pas être appliquée car les
1G(Xi )̸=yi ne sont pas indépendantes.
La base de données train set est utilisée deux fois pour calculer G et
Pml (G).
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 76 / 87
Choix et validation des modèles Validation

Solution
Dans le cas d'une base de données riche et bien traitée, composée des
éléments (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ), on partitionne aléatoirement
l'échantillon en deux parties :
un échantillon d'entrainement (train set) pour estimer la fonction
G de taille q , noté Aq = {(xi , yi ), i ∈ Eq }
un échantillon de test ou de validation (test set) pour estimer la
probabilité Pml (G) de taille N − q , noté VN−q = {(xi , yi ), i ∈ EN−q }.
1
1G(Xi )̸=yi ,
X
P̂ml (G) =
N −q
i∈EN−q

Eq ∪ EN−q = {1, 2, · · · , N}, Eq ∩ EN−q = ∅

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 77 / 87


Choix et validation des modèles Validation

Figure: Base initiale (bleue), train set(vert) et test set(rouge).

P̂ml (G)est un estimateur sans biais de Pml (G)


On retient le modèle ayant la plus petite valeur de P̂ml (G)
Remarque : Il est dicile de donner une règle générale sur la manière de
choisir le nombre d'observations dans les bases de données d'entrainement
et de test car cela dépend du rapport signal/bruit dans les données et de la
complexité des modèles.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 78 / 87
Choix et validation des modèles Validation

Validation croisée (Cross-validation)


Quelques inconvénients de la procédure basée sur la partition train/test
Il faut une grande base de données pour une correcte estimation des
paramètres avec train set et une meilleure évaluation des erreurs sur
le test set.
Les résultats de la procédure dépendent de la composition des bases
de données train/test et train set.
Pour surmonter ces dicultés, la méthode de validation croisée
(cross-validation) peut être envisagée.
La méthode la plus simple et la plus utilisée pour faire de la prédiction
des erreurs.
Lorsqu'il y'a largement de données, il est possible de retirer des
données qui sont utilisées pour la validation. Cela n'est pas possible
lorsqu'il y'a moins de données.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 79 / 87


Choix et validation des modèles Validation

Validation croisée en K − blocs


Subdiviser la base de données en K sous-échantillons Ek de même taille
(k ∈ {1, 2, · · · , K }. Cela donne K train/test procédures à mener.
Pour la procédure d'ordre k :
L'échantillon train set : utilisé pour estimer β̂
L'échantillon test set : utilisé pour estimer l'erreur de prédiction.
Dans la procédure d'ordre k , nous obtenons une prédiction des classes y
pour chaque échantillon Ek .
A la n de la procédure, une prédiction de y est disponible pour chacune
des observations de la base de données initiale. Ces prédictions sont
utilisées pour calculer la prédiction erreur. Nous trouvons le modèle avec la
plus petite erreur.
Soit κ : {1, 2, · · · , N} → {1, 2, · · · , K } la fonction indiquant la partition
aléatoire dans laquelle se trouve l'observation i de la base de données.
Soit ŷiκ(i) la prédiction de yi dans l'échantillon κ(i) retiré des autres
données.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 80 / 87
Choix et validation des modèles Validation

card(Eκ(i) )
1
1ŷ κ(i) ̸=yi .
X
CVκ(i) =
N i
i=1

Le meilleur modèle est celui avec la petite valeur de CVκ(i) .

Le meilleur choix du paramètre K .


Si K est petit, le nombre de données dans les train set est petit,
Si K est grand, le nombre de données dans les test set est petit
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 81 / 87
Choix et validation des modèles Validation

Les valeurs typiques de K :


K = 2 : Validation croisée à 2 blocs. Deux sous-échantillons de même
taille sont utilisés pour train/test set.
K =5
K = 10
K = N : leave-one-out cross-validation (LOOCV)
Les échantillons train set et test set contiennent respectivement
N − 1 observations et une observation.
Dans l'ensemble, les validations croisées à 5 ou 10 blocs sont généralement
recommandées comme un bon compromis.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 82 / 87


Choix et validation des modèles Validation

Matrice de confusion
Erreurs de pédiction : il existe deux types d'erreurs de prédictions
une observation y = 0 peut être prédite ŷ = 1
une observation y = 1 peut être prédite ŷ = 0.
Il est souvent intéressant de déterminer le type d'erreur commise.
La matrice de confusion est un moyen pratique pour acher les
informations concernant les erreurs.
ŷ =0 ŷ =1 Total
y=0 Vraie Négative (TN) Fausse Positive (FP) Négative (N)
y=1 Fausse Négative (FN) Vraie Positive (TP) Positive (P)
N̂ P̂
A partir de la matrice de confusion, on dénit les mesures de
performance suivantes
Précision (precision) : taux de positifs parmis les positifs prédits et
utile lorsque les FP ont des conséquences graves.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 83 / 87
Choix et validation des modèles Validation

TP TP
precision = = .
P̂ TP + FP

Rappel ou Sensibilité (sensitivity or recall) : taux de positifs parmis


les positifs observés.
TP TP
recall = sensivility = = .
P TP + FN
Spécité (specicity) : taux de négatifs prédits parmis les négatifs
observés et utile lorsque les FN ont des conséquences graves.
TN TN
specicity = = .
N TN + FP
F1Score : utile lorsque les deux classes ne sont pas équilibrées.
2*Precision*Recall
F1Score = .
Precision+Recall
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 84 / 87
Choix et validation des modèles Validation

Exactitude (accuracy score) : la proportion de prédictions correctes


parmi le nombre total de cas examinés.
TP + TN TP + TN
accuracy score = = .
N +P TP + TN + FP + FN
Les inconveniants des mesures de performance
precision et recall peuvent être trompeurs si les deux classes ne sont
pas équilibrées.
F1Score peut-être biaisé si l'une des valeurs (la précision ou le
rappel) est plus importante que l'autre.
Ces mesures de performances dépendent de la valeur du seuil s donnée
dans la formule (5).
Quand s augmente, sensivility ou recall décroit et specicity
augmente.
Un bon modèle est celui qui donne les grandes valeurs de sensivility
et de specicity.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 85 / 87
Choix et validation des modèles Validation

Courbe ROC et AUC


Courbe ROC
La courbe Receiver Operating Characteristic (ROC) est une courbe
paramétrée de paramètre le seuil s . Elle représente les évolutions de
sensivility et de 1 -specicity en faisant varier le seuil s .
Les courbes ROC sont utiles pour comparer diérents modèles
puisqu'ils prennent en compte tous les seuils possibles.
La performance globale de classication du modèle dans l'ensemble des
seuils possibles sont résumés par la zone sous la courbe ROC ( AUC).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 86 / 87


Choix et validation des modèles Validation

Pour un classier non aléatoire, la courbe ROC est au dessus de la


ligne diagonale ( AUC>0.5)
Le meilleur classier est celui qui a la plus grande valeur de AUC
L'aire entre la courbe ROC et la ligne diagonale est égale AUC − 0.5
et Gini coecient = 2AUC − 1
Plusieurs modèles peuvent être comparés en superposant les courbes
ROC sur le même graphe.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 87 / 87

Vous aimerez peut-être aussi