0% ont trouvé ce document utile (0 vote)

71 vues89 pages

Machine Learning

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

71 vues89 pages

Machine Learning

Transféré par

kakouedi22

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning

Dr KEITA Kolé
Université Jean Lorougnon Guédé
UFR Sciences Economiques et de Gestion

Année Universitaire 2024-2025

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 1 / 87

1 Introduction

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 2 / 87

Introduction

Sommaire

1 Introduction
Quelques exemples
Eléments statistiques

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des

modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 3 / 87

Introduction Quelques exemples

Exemple 1 :
La base de données ci-dessous porte sur les mouvements journaliers
d'indices boursiers de Standard & Poor's 500 (500 grandes sociétés cotées
sur les bourses aux États-Unis) sur 5 ans. Source :
[Link]

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 4 / 87

Introduction Quelques exemples

Avec
Lag1 : le pourcentage de la variation pour le jour précédent
Lag1 : le pourcentage de la variation pour le jour d'après
···
Volume : le nombre d'actions négociées quotidiennement
Today : le pourcentage de rendement
Direction : une variable binaire qui indique si le marche est négatif ou
positif
Objectif : prédire la variable catégorielle Direction qui indique la
performance du marché en fonction des pourcentages de variable des
indices journaliers.
Il s'agit d'un problème de classication.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 5 / 87

Introduction Quelques exemples

Exemple 2 :

Techniques de statistique de ltrage automatique des spams : le volume

croissant de courriers électroniques non sollicités (appelés spam ) a
généré un besoin de ltres anti-spam ables.
La base de données utilisée dans 1 contient 4601 messages électroniques.
Objectif : concevoir un détecteur automatique capable de ltrer les
messages électroniques avant d'encombrer les boîtes mails des utilisateurs.
Il s'agit de prédire si un mail est spam ou non.
Pour l'ensemble des 4601 messages, le véritable résultat est disponible,
ainsi que les fréquences relatives de 57 mots et signes de ponctuation les
plus courants dans le message électronique.

1
Source : Mark Hopkins, Erik Reeber, George Forman, Jaap Suermondt,
Hewlett-Packard Labs, USA :
https : //mlr [Link] − org .com/reference/mlrt askss [Link]
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 6 / 87
Introduction Quelques exemples

Le code python de récupération de la base de données des messages

indiquant les fréquences de certains mots et signes de caractères.

Le tableau ci-dessous donne des mots et des caractères achant la plus

grande moyenne dans le spam et le courrier électronique.

Il s'agit d'un problème de classication dont les classes de la variable

catégorielle (réponse) sont message et spam.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 7 / 87
Introduction Quelques exemples

Exemple 3 : Reconnaissance de chires manuscrits

Figure: Exemples de chires manuscrits provenant d'enveloppes postales

américaines 1

1
Source : AT&T Bell Labs, USA
1
Source : AT&T Bell Labs, USA
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 8 / 87
Introduction Quelques exemples

L' image correspond aux données provenant des codes postaux manuscrits
scannés à partir d'enveloppes du service postal américain. Chaque
caractère est un seul chire, isolé d'un code postal à 5 chires.
Les caractères sont des images grises de 16 Ö 16 bits, chacune pixel dont
l'intensité varie de 0 à 255. Les caractères ont été normalisés pour avoir
approximativement la même taille et la même orientation.
Objectif : prédire l'identité d'une nouvelle image c ∈ {0, 1, 2, · · · , 9} de
16 x 16 pixels.
Il s'agit encore d'un problème de classication.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 9 / 87

Introduction Quelques exemples

Exemple 4 : Scoring
Le scoring est un domaine de la statistique décisionnelle dont le but
est de discriminer, de sélectionner, de classer, de segmenter, de prévoir
le comportement d'un client conformément à un critère donné. Il
existe plusieurs types de scores au sein des banques :
▶ acceptation d'une ore de prêt,
▶ fraude (transaction,...),
▶ retard de paiement, etc.
Ces techniques sont aussi appliquées en marketing : optimiser ses
actions commerciales en envoyant des ores à des clients sélectionnés.
Plus l'entreprise connaitra ses clients, plus elle sera susceptible de leur
proposer des produits personnalisés.
D'autres études de scoring orientées Marketing :
▶ scores d'appétence : évaluer les probabilités qu'un client réponde
favorablement à une ore ou à un service proposé.
▶ scores d'attrition : traduire la probabilité qu'un client ou un abonné
passe chez les concurrents ou résilie son abonnement.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 10 / 87
Introduction Quelques exemples

Score d'assurance évalue la probabilité qu'un client soit impliqué dans

un futur accident ou une réclamation d'assurance (un score favorable
entraînera une baisse de paiement).
Le score a pour but de classer les emprunteurs pour prédire la classe D
(défaut) et la classe ND (non défaut) dans laquelle nous allons ensuite les
observer.
Les revenus annuels et les soldes mensuels de cartes de crédit pour un
sous-ensemble de 10000 personnes sont représentés sur la gure ci-dessous.

Figure:
Dr KEITA (UJLoG) Données par2 : défaut
ECUE de la carte de crédit
Machine Learning Octobre 2024 11 / 87
Introduction Quelques exemples

Exemple 5 : Diagnostics
Dans le domaine de la santé, la phase de diagnostic permet de suivre et
d'orienter les patients. De nouvelles techniques permettent au medecin de
optimiser un bon diagnostic,
gagner du temps,
détecter les anomalies sur les images des radios.
Quelques projets exécutés ou en cours
Amazon a lancé n 2018 Amazon Comprehend Medical 1 , nouveau
service dédié aux professionnels de santé. Ce service utilise les
techinques de machine learning pour analyser les dossiers médicaux
des patients et leur faire gagner du temps dans la prise de décision.
Le deploiement des assistants virtuels (inrmières virtuelles) dans les
hôpitaux de dernière génération. Ces assistants sont capables
d'interroger les patients et même repondre aux questions.
1
[Link]
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 12 / 87
Introduction Quelques exemples

Exemple 6 : Planning familial

Les données des eorts des plannings familiaux en Amérique du Sud 1 .
Le niveau social et les eorts des plannings familiaux sont mesurés par une
combinaison d'indices. Plus l'indice est élevé plus le niveau social (resp.
l'eort) est élevé.

1
Mauldin and Berelson, 1978
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 13 / 87
Introduction Quelques exemples

Dans ce problème, on cherche à exprimer le taux de natalité en fonction du

niveau social et les eorts de planication. Le but de cette étude est de
comprendre comment le niveau social et les eorts de planication inuent
sur le taux de natalité.
Il s'agit d'un problème de régression linéaire.
Dans cette base de données, il existe 20 observations (individus).
variables explicatives : le niveau social et les eorts de planication.
variable expliquée : le taux de natalité.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 14 / 87

Introduction Eléments statistiques

Dans tous les exemples, nous avons

l'utilisation des données pour construire un modèle de prédiction qui
sera capable de prédire de nouvelles observations.
des problèmes d'apprentissage supervisé.
▶ Apprentissage supervisé : la construction de modèles pour prédire ou
estimer un résultat basé sur un ou plusieurs entrées ou fonctionnalités
(données labélisées).
▶ Apprentissage non supervisé : décrire comment les données sont
organisées ou regroupés. C'est-à-dire déterminer les patterns dans les
données non labélisées.
Dans un problème d'apprentissage supervisé, nous commençons par une
suite composée des observations et de réponses (Xi , yi )1≤i≤N (N ∈ N) .
Xi sont les vecteurs de variables explicatives (les prédicteurs ou
features). Ces variables peuvent être qualicatives (nominales ou
ordinales) ou quantitatives (discrètes ou continues).
Notons par AX l'ensemble de toutes les variables Xi .

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 15 / 87

Introduction Eléments statistiques

yi représentent les observations de la variable expliquée ou réponse.

Ces variables peuvent être catégorielles avec deux ou plusieurs
modalitées ou quantitatives (discrètes ou continues).
Notons par Ay l'ensemble de toutes les variables yi .
L'objectif principal de l'apprentissage automatique (machine learning
abrégé en ML)
Construire un modèle qui donne les valeurs de la variable réponse
yi ∈ Ay en fonction des prédicteurs Xi ∈ AX
La prédiction des observations futures doit être précise.
Dénition
Un modèle de machine learning est une fonction mathématique dénie
par
fˆN : AX −→ Ay
X −→ fˆN (X)
et permet de prédire le résultat de nouvelles observations.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 16 / 87
Introduction Eléments statistiques

Meilleur modèle
Un bon modèle (meilleur modèle) est celui qui prédit le résultat d'une
observation avec précision.
Si XN+p est une nouvelle observation, le but d'un bon modèle est de
prédire la sortie yN+p avec une précision élévée.
Algorithme d'apprentissage
Un algorithme d'apprentissage est une fonction dénie par
A : ∪i∈N (AX × Ay ) −→ F (AX , Ay )
R −→ fˆN

Un algorithme d'apprentissage construit un modèle de prédiction qui

peut être utilisé par la suite pour prédire de nouvelles observations.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 17 / 87

Introduction Eléments statistiques

Un algorithme d'apprentissage utilise un ensemble (base de données)

d'entraînement (appelée train set) pour "apprendre" la relation entre
les variables explicatives et la réponse.
Un ensemble de données (appelé test set) est utilisé pour calculer la
performance et la précision d'un algorithme d'apprentissage.
Problème de classication :
les variables explicatives ou features sont qualicatives ou
quantitatives (discrètes ou continues)
La réponse est une variable catégorielle dont chaque modalité
correspond à une classe.
Régression linéaire :
La variable réponse y est une variable quantitative.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 18 / 87

Introduction Eléments statistiques

Dans la suite du cours, nous supposons que X ∈ Rp (p variables

explicatives) un vecteur aléatoire de réalisations (Xi )0≤i≤N et y ∈ R une
variable aléatoire de réalisations (yi )0≤i≤N .
Les N réalisations (Xi , yi ) de (X, y ) sont considérées indépendantes et de
même loi de distribution P (En pratique, les données ne sont pas
indépendantes et identiquement distribuées (i.i.d )).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 19 / 87

Introduction Eléments statistiques

En général, la fonction mathématique du modèle est donnée par y = f (X)

et son estimation nécessite l'écritutre une fonction de perte pour
minimiser les erreurs de prédiction.
Quelques de fonctions utilisées pour mesurer les erreurs de prédiction :
La fonction de perte l mesure la diérence entre la vraie valeur de y
et la valeur estimée ŷ .
l : R × R −→ R+
(y , ŷ ) −→ l(y , ŷ )
La fonction risque mesure la qualité du modèle f et correspond à la
moyenne des pertes.
Z
R(f ) = E(l(y , f (X)) = l(y , f (x))dP(x, y )

La perte quadratique :
2
lq (y , f (X)) = y − f (X)

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 20 / 87

Analyse discriminante

Sommaire

1 Introduction

2 Analyse discriminante
Introduction
Classier Bayesien
Analyse discriminante
linéaire
Analyse discriminante
quadratique

3 Modèle logistique

4 Choix et validation des

modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 21 / 87

Analyse discriminante Introduction

Problème de score :
Soit X les caractéristiques des emprunteurs (variables explicatives ou
exogènes). Notons par s(X) le score qui sert à évaluer la probabilité que
l'emprunteur soit en défaut (noté D). Nous notons
deux classes de prédiction : la classe y=0 correspond aux bons
emprunteurs et y=1 correspond aux mauvais emprunteurs
deux classes d'observation : la classe D des emprunteurs en défaut et
la classe ND des emprunteurs en survie
Pour un modèle de prédiction parfait, nous retrouvons
tous les éléments de la classe y=1 observés dans la classe D
tous les éléments de la classe y=0 observés dans la classe ND
Les varaibles explicatives ou endogènes de ce problème :
ratios nanciers (revenus, charges, niveau d'endettement, etc)
caractéristiques socio-économiques (âge, statut marital,etc)
performance des crédits passés
nature des prêts souscrits
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 22 / 87
Analyse discriminante Introduction

Dénition
Soit (Ω, F, P) un espace probabilisé. Soient A et B deux évènements tels
que P(B) ̸= 0. On dénit la probabilité de A sachant B par
P(A ∩ B)
P(A|B) =
P(B)

Exemple : Portefeuille de 1150 prêts immobiliers de la banque de Vinci.

Statut Nbre_ND Nbre_D
Propriétaire 600 30
Locataire 200 70
Investisseur 225 25
Total 1025 125
125 1025
P(D) = = 0.109, P(ND) = = 0.891
1025 + 125 1025 + 125
200
P(ND|Locataire) = = 0.74
270
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 23 / 87
Analyse discriminante Introduction

La probabilité pour que la réponse y d'appartenne à une classe m ∈ {0, 1}

sachant la valeur de la variable explicative X , peut être déterminée avec le
théorème de Bayes (probabilité conditionnelle).
Théorème de Bayes
P(y = m)
P(y = m|X = x) = .P(X = x|y = m)
P(X = x)

Dans le cas de la regression logistique, la probabilité P(y = m|X = x)

correspond à une fonction logistique. La regression logistique n'est pas
souvent recommendée pour les raisons suivantes
L'estimateur du maximum de vraisemblance (fonction coût) de la
fonction logistique ne converge pas (données separables). On peut
envisager l'analyse discriminante.
Si le nombre d'échantillon est petit et la distribution de X est
approximativement normale dans chaque classe de y , l'analyse
discriminante est plus stable que la régression logistique.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 24 / 87
Analyse discriminante Classier Bayesien

L'analyse discriminante peut aussi être envisagée lorsqu'il y'a plus de deux
classes.
Supposons que nous disposons M ≥ 2 classes.
La probabilité à priori de la réponse y de la classe m ∈ {1, 2, · · · , M}
est notée πm = P(y = m)
La densité conditionnelle fm (x) de la variable X sachant que y = m.
Si x ∈ Rp alors fX (x) = M
Q
m=1 πm fm (x)
Illustration : deux lois
normales dont les densités
sont
1

2 0
7 1 0
f1 ∼ N , et f2 ∼ N , .
2 0 2 5 0 3

Figure: Simulation de deux classes

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 25 / 87
Analyse discriminante Classier Bayesien

Nous avons
π1 = 0.3, π2 = 0.7, fX (x) = 0.3f1 (x) + 0.7f2 (x)

Figure: Classier (D)

La règle de classication est donnée par

1 si x est à gauche de (D)

C(x) =
2 si x est à droite de (D)

Dénition
Un classier C est une fonction mesurable dénie sur AX à valeurs dans Ay
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 26 / 87
Analyse discriminante Classier Bayesien

Soit XN+1 une nouvelle observation. Le classier (ou encore la règle de

décision) désigne la classe à laquelle appartient cette observation en
calculant C(XN+1 )
A partir de la dénition et le rôle d'un classier, plusieurs questions
peuvent se poser.
Comment construire un classier à partir d'un ensemble de données
d'apprentissage (train set)?
Comment évaluer la qualité d'un classier?
Pouvons nous déterminer un classier optimal?
Pour répondre à certaines questions, nous avons besoin d'une fonction
perte pour le calcul de l'erreur des observations mal classées.
La fonction perte l(m1 , m2 ) représente l'erreur lorsque y = m1 alors que
le classier donne y = m2 . Elle est dénie par
0

si m 1 = m2
l(m1 , m2 ) = 1m1 ̸=m2 = (1)
1 si m1 ̸= m2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 27 / 87

Analyse discriminante Classier Bayesien

Soit C un classier. Le risque de C est donné par

Z
R(C) = E(l(y , C(X))) = l(y , C(X))dP(x, y ) = P(y ̸= c(X)).
AX ×Ay

Puisque l appartient à {0, 1}, alors un meilleur classier est celui avec le
risque R(C) minimal.
la fonction perte (formule (1)) n'est pas toujours appropriée à tous les
problèmes de classication (problème mail/spam).
Dénition
La probabilité a posteriori de la classe y = m sachant que X = x est
πm fm (x) πm fm (x)
P(y = m|X = x) = = QM .
fX (x) k=1 πk fk (x)

Il s'agit de la probabilité qu'une observation avec une valeur prédictive x

appartienne à la classe y = m.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 28 / 87
Analyse discriminante Classier Bayesien

Naturellement, l'observation x appartient à la classe y = m si la valeur de

la probabilité P(y = m|X = x) est large.
Classier Bayesien
Un classier Bayesien C ∗ attribue à une observation la classe ayant la plus
grande probabilité sachant la valeur x de l'observation.
C ∗ (x) = m si P(y = m|X = x) = max P(y = k|X = x)
k∈{1,2,··· ,M}

⇔ C ∗ (x) = arg max P(y = k|X = x)

k∈{1,2,··· ,M}

Remarque :
Pour un problème à deux classes (01). Le classier Bayesien prédit la
classe y = 0 si P(y = 0|X = x) > 0.5.
Si la densité fX (x) est indépendante des classes alors le classier peut
se réécrire comme C ∗ (x) = arg max πk fk (x)
k∈{1,2,··· ,M}

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 29 / 87

Analyse discriminante Classier Bayesien

Illustration
deux lois normales dont les densités (π1 =
0.2, π2 = 0.8) sont
1 2 0 −1 1 0
f1 ∼ N
2 , 0 2 et f2 ∼ N −2 , 0 2

(a) : Simulation de deux classes (b) : Boxplots des deux variables

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 30 / 87
Analyse discriminante Classier Bayesien

Les densités des deux classes :

1 1
exp − (x1 − 1)2 + (x2 − 2)2 ,

fy =1 (X = (x1 , x2 )) =
4π 4
1 1 1
fy =2 (X = (x1 , x2 )) = √ exp − (x1 + 1)2 + (x2 + 2)2 .

2 2π 2 2
La densité de X : fX (x1 , x2 ) = 0.2fy =1 (x1 , x2 ) + 0.8fy =2 (x1 , x2 ) La frontière
des deux classes est déterminée en posant
√
0.2fy =1 (x1 , x2 ) = 0.8fy =2 (x1 , x2 ) ⇔ x12 + 6x1 + 8x2 = 4 ln(4 2) − 1.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 31 / 87

Analyse discriminante Classier Bayesien

La courbe noire représente les points X = (x1 , x2 ) tels que la

probabilité d'appartenir est égale à 0.5. C'est la frontière de la
décision de Bayes.
Les points à droite de la courbe noire ont une probabilité supérieure à
0.5 tandis que ceux à gauche ont une probabilité inférieure à 0.5.
Proposition
Parmis tous les classiers, le classier Bayesien est le moins risqué. Il est
dit optimal.
Preuve : Soit C un classier, nous avons
Z
R(C) = E(l(y , C(X))) = E E(l(y , C(X)|X) = E(l(y , C(X)|X)fX (x)dx

Soit C ∗ qui minimise E(l(y , C(X)|X) alors

E(l(y , C ∗ (X)|X) ≤ E(l(y , C(X)|X)
Puisque ∀x ∈ Rp , fX (x) ≥ 0 alors R(C ∗ ) ≤ R(C)
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 32 / 87
Analyse discriminante Classier Bayesien

Nous avons
M
E(l(y , C(X)|X) = l(y = m, C(x))P(y = m|X = x)
X

m=1
Si C(x) = m′ alors
M
E(l(y , C(X)|X)) l(y = m, m′ )P(y = m|X = x)
X
=
m=1
M
1m̸=m′ P(y = m|X = x)
X
=
m=1

P(y = m|X = x) = 1 − P(y = m′ |X = x)

X
=
m̸=m′

1 − P(y = k|X = x)

arg min = arg max P(y = k|X = x)
k∈{1,2,··· ,M} k∈{1,2,··· ,M}
qui correspond au classier Bayesien alors C ∗ est le classier Bayesien.
Remarque : l'optmalité du classier Bayesien n'implique pas que le risque
est petit.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 33 / 87
Analyse discriminante Classier Bayesien

Illustration
Premier cas : f1 ∼ N (−1, 0.5), f2 ∼ N (1, 0.5) et π1 = π2 . Le classier
Bayesien est donné par
1

∗ si f1 (x) > f2 (x)
C (x) =
2 si f1 (x) < f2 (x)

Figure: (a): Densités des deux lois. (b) Histogrammes des deux lois. La courbe
noire représente le classier.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 34 / 87
Analyse discriminante Classier Bayesien

Second cas : f1 ∼ N (−0.5, 1), f2 ∼ N (0.5, 1) et π1 = π2

Figure: (a): Densités des deux lois. (b) Histogrammes des deux lois. La courbe
noire représente le classier.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 35 / 87

Analyse discriminante Analyse discriminante linéaire

Supposons que la variable explicative X suit une loi normale

multidimensionnelle (à plusieurs variables) de centre (vecteur moyenne)
µ ∈ Rp et de matrice de variance-covariance Σ ∈ Mp (R). La matrice Σ
est semi-dénie positive. La fonction de densité de X :
1 1
exp − (x − µ)T Σ−1 (x − µ) , x ∈ Rp

fX (x) =
(2π) 2 det(Σ)
pp
2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87

Analyse discriminante Analyse discriminante linéaire

Supposons que la variable explicative X suit une loi normale

0 1 0

Figure: Fonction de densité fX pour µ = et Σ =
0 0 1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87

Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec la loi

0 1 0
N ,
0 0 1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 37 / 87

Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec la loi

0 1 0
N ,
0 0 1

0 1 −1

Figure: Fonction de densité fX pour µ = et Σ =
Dr KEITA (UJLoG) ECUE 2 : Machine Learning
0 − 1 1.5
Octobre 2024 37 / 87
Analyse discriminante Analyse discriminante linéaire

Figure: Représentations graphiques des données générées avec

0 1 −1
N ,
0 −1 1.5

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 38 / 87

Analyse discriminante Analyse discriminante linéaire

Figure: Simulation de deux classes de lois gaussiennes multidimensionnelles

Les données de la classe y=m suit une loi gaussienne multidimensionnelle

de paramètres µm et Σ (identique pour toutes les classes). La densité de la
classe :
1 1
exp − (x − µm )T Σ−1 (x − µm ) , x ∈ Rp

fm (x) =
(2π) 2 det(Σ)
pp
2
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 39 / 87
Analyse discriminante Analyse discriminante linéaire

La probabilité de prédiction de la classe y=m sachant la valeur de X :

πm fm (x) πm fm (x)
P(y = m|X = x) = = QM
fX (x) k=1 πk fk (x)

Le classier Bayesien attribue l'observation X = x à la classe dont

C ∗ (x) = arg max πk fk (x) = arg max ln(πk ) + ln(fk (x))
k∈{1,2,··· ,M} k∈{1,2,··· ,M}
1
= arg max ln(πk ) − (x − µk )T Σ−1 (x − µk )
k∈{1,2,··· ,M} 2
−1 T −1 T 1
= arg max ln(πk ) + µT
k Σ x − µk Σ µk
k∈{1,2,··· ,M} 2
:= arg max δkL (x).
k∈{1,2,··· ,M}

Les frontières de la décision de Bayes sont déterminées en posant

L (x) = δ L (x) pour tout m ̸= m . Ces frontières séparent les données
δm1 m2 1 2
en M domaines.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 40 / 87
Analyse discriminante Analyse discriminante linéaire

Exemple
:
−2 2 , π = 0.5, µ = 6 , π = 0.2 et

µ1 =
6 , π1 = 0.3, µ2 =
2 2 3
6 2
1 0 . Les fonctions qui séparent les trois classes sont donnnées

Σ=
0 1 par
:
δ1L (x1 , x2 ) = ln(π1 ) − 2x1 + 6x2 − 20, δ2L (x1 , x2 ) = ln(π2 ) + 2x1 + 2x2 − 4,
δ3L (x1 , x2 ) = ln(π3 ) + 6x1 + 6x2 − 36

Figure: Exemple de trois classes de données gaussiennes et le classier de décision

de Bayes en noir.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 41 / 87
Analyse discriminante Analyse discriminante linéaire

En pratique, il faudra vérier la normalité de la variable explicative X et les

estimations des paramètres se vont avec l'échantillon d'apprentissage. Cela
correspond à
1 X Nm
µ̂m = xj , (2)
Nm
j=1

1 M X
X
Σ̂ = (xi − µk )(xi − µk )T ,
N −M
k=1 i:yi =k

Nm
π̂m = ; (3)
N
Avec Nm le nombre d'éléments dans la classe y = m ( = N ), M
PM
k=1 Nk
le nombre de classes.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 42 / 87

Analyse discriminante Analyse discriminante linéaire

L'analyse discriminante linéaire (LDA) attribue à l'observation X = x la

classe dénie ci-dessous.
1
LDA(x) = arg max ln(πk ) + µTk Σ̂−1 x − µ̂Tk Σ̂−1 µ̂Tk
k∈{1,2,··· ,M} 2
:= arg max δ̂kL (x).
k∈{1,2,··· ,M}

La fonction LDA est une fonction ane en x et linéaire par rapport à

ces paramètres.
L'utilisation de la fonction LDA suppose que les données dans chaque
classe suivent une loi gaussienne de centre µk lié à la classe. Toutes
les classes ont la même matrice variance-covariance.
NB : Le classiier LDA n'est pas pertinente lorsque les matrices
variance-covariance des classes sont diérentes.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 43 / 87

Analyse discriminante Analyse discriminante quadratique

Supposons que la variable explicative de chaque classe y = m suit une loi

normale multidimensionnelle de centre µm ∈ Rp et de matrice de
variance-covariance Σm ∈ Mp (R). La fonction de densité de X est donnée
par
1 1
T −1

fm (x) = exp − (x − µ) Σ (x − µ) , x ∈ Rp
(2π)
p
2 m
p
2 det(Σm )

La probabilité de prédiction de la classe y = m :

πm fm (x) πm fm (x)
P(y = m|X = x) = = QM
fX (x) k=1 πk fk (x)

Le classier Bayesien attribue X = x à la classe dont

C ∗ (x) = arg max πk fk (x) = arg max ln(πk ) + ln(fk (x))
k∈{1,2,··· ,M} k∈{1,2,··· ,M}

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 44 / 87

Analyse discriminante Analyse discriminante quadratique

1 1 1
C ∗ (x) = arg max ln(πk ) − ln(det(Σk )) − (x − µk )T Σ−
k (x − µk)
k∈{1,2,··· ,M} 2 2
:= arg max δkQ (x)
k∈{1,2,··· ,M}

Les frontières de la décision de Bayes sont déterminées en posant

Q (x) = δ Q (x) pour tout m ̸= m . Ces frontières séparent les données
δm1 m2 1 2
en M domaines.
−2 1 0 , π = 0.3,

Exemple : µ1 = , Σ1 =
6 0 1 1
2 , Σ = 1 0 , π = 0.5, µ = 6 , Σ = 3 0 , π = 0.2.

µ2 =
2 2
0 3 2 3
6 3
0 1 2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 45 / 87

Analyse discriminante Analyse discriminante quadratique

Lorsque les paramètres des lois des données des classes sont inconnus, on
peut estimer µm et πm avec les formules (2) et (3) données dans le cas de
l'analyse discriminante linéaire. Les estimations des matrices
variance-covariance :
1 X
Σ̂m = (xi − µ̂m )T (xi − µ̂m ).
N −1
i:yi =m

Le classier d'analyse discriminante quadratique QDA attribue à

l'observation X = x la classe suivante
1
QDA(x) = arg max ln(πk ) − ln(det(Σk ))
k∈{1,2,··· ,M} 2
1 1
− (x − µk )T Σ− k (x − µk)
2
:= arg max δkQ (x)
k∈{1,2,··· ,M}

La fonction du classier QDA(x) est quadratique en x .

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 46 / 87
Analyse discriminante Analyse discriminante quadratique

Quelques points importants :

La préférence de QDA à LDA ou vice-versa est liée à un compromis
entre le bias et la variance.
Puisque la matrice variance-covariance est symétrique alors dans le cas
d'une variable explicative de p composantes, son estimation avec LDA
nécessite le calcul de p(p+
2
1)
paramètres.
Le nombre de paramètres pour QDA devient M p(p+ 2
1)
où M est le
nombre total de classes.
Le classsier LDA nécessite d'estimer moins de paramètres par
rapport à QDA et a une variance nettement inférieure. Ce qui peut
conduire à une amélioration de performance dans les prédictions.
Le classier LDA peut avoir des problèmes de biais alors qu'il faut un
compromis entre le bias et la variance pour un bon classier.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 47 / 87

Analyse discriminante Analyse discriminante quadratique

Recommandations :
On peut préférer LDA à QDA quand il y en a relativement peu
observations d'entraînement (et donc la réduction de la variance est
cruciale).
QDA est recommandé si l'ensemble de formation est très vaste ou si
l'hypothèse d'une matrice de covariance commune est clairement
intenable.
Remarques :
les performances de LDA/QDA peuvent être évaluées à l'aide de la
matrice de confusion, de la sensibilité (sensitivity) et de la spécicité
(specicity)
La courbe ROC et l'AUC s'appliquent également à la LDA/QDA et
peuvent être utilisés pour comparer les classicateurs (LDA, QDA,
régression logistique).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 48 / 87

Modèle logistique

Sommaire

1 Introduction

2 Analyse discriminante

3 Modèle logistique
Introduction
L'estimateur du maximum
de vraisemblance
Modèle de régression
logistique
Estimation des paramètres
Propriétés asymptotiques de
l'estimateur

4 Choix et validation des

modèles
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 49 / 87
Modèle logistique Introduction

Exemple d'application

Une chaine de magasin a mis en place une carte de crédit. Elle dispose de
145 clients dont 40 ont connu des défauts de paiement. Les
caractéristiques connues des clients sont
le sexe,
le taux d'endettement,
les revenus mensuels,
les dépenses éectuées sur les gammes de produit.
Problème
Nous souhaitons savoir si un nouveau client connaîtra des défauts de
paiement (prédiction).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 50 / 87

Modèle logistique Introduction

Nous disposons de deux classes de prédiction : y=1 quand le client est en

défaut de paiement et y=0 dans le cas contraire.
La variable y suit une loi binomiale de paramètres N et π où N est le
nombre d'observations et π = P(y = 1).
La probabilité d'appartenance à la classe y=0 est
P(y = 0) = 1 − π,
et nous résumons que pour tout yi ∈ {0, 1} .
P(y = yi ) = π yi (1 − π)1−yi , avec i ∈ {0, 1, · · · , N}
Nous rappelons que
E(y ) = π, Var (y ) = π(1 − π).

Question
Comment estimer la probabilité π?
L'estimation de la probabilité π peut se faire avec la méthode du
maximum de vraisemblance.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 51 / 87
Modèle logistique L'estimateur du maximum de vraisemblance

Supposons les réalisations de la variable y notées y1 , y2 , · · · , yN sont

indépendantes et identiquement distribuées.
La vraisemblance de π est donnée par
N
π yi (1 − π)1−yi .
Y
LN (π) =
i=1

La log-vraisemblance est dénie par

N
yi log(π) + (1 − yi ) log(1 − π) .
X
LN (π) =
i=1

Il faut retenir que

max LN (π) = max LN (π).
π π
La condition du premier ordre nous donne
∂LN
N
yi 1 − yi 1X N
= 0 ⇒ π̂ =
X
= − yi = ȳ .
∂π π=π̂
i=1
π 1 − π π=π̂ N
i=1

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 52 / 87

Modèle logistique L'estimateur du maximum de vraisemblance

La loi faible des grands nombres garantit que π̂ −

→ E(y ) = π quand N tend
P

vers ∞.
A partir du théorème central limite, nous avons
√ π̂ − π √ π̂ − E(y ) L
np = np → N (0, 1).
−
π(1 − π) Var (y )

A partir du théorème de Slutsky, on a

√ π̂ − π
→ N (0, 1).
L
np −
π̂(1 − π̂)

L'intervalle de conance de l'estimateur avec un niveau de risque 5%

(Normalité asymptotique de π̂) :
sp sp
π̂(1 − π̂) π̂(1 − π̂) i
π̂ − 1.96 ; π̂ + 1.96
h
.
N N

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 53 / 87

Modèle logistique L'estimateur du maximum de vraisemblance

En faisant la représentation graphique des fréquences des observations des

classes en fonctions des variables individuelles, nous remarquons les courbes
tendent des fonctions sigmoïdes.

Figure: Fonctions de répartition de la fonction logistique (bleu) et probit (rouge).

Remarque
A partir de la remarque faite sur la représentation graphique, nous pouvons
en déduire que
E(y |X = x) = f (x);
Où f est une fonction sigmoïde.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 54 / 87
Modèle logistique L'estimateur du maximum de vraisemblance

La
remarque prouve que la probabilité de yi notée πi
πi = P(Yi = yi |Xi ) = E(Yi |Xi ) dépend explicitement des variables

explicatives Xi = xi .
Questions
Le choix d'un modèle linéaire de la forme
πi = E(Yi |Xi ) = XiT β = β1 Xi,1 + β2 Xi,2 + · · · + βN Xi,N

convient t'il?
Quels types de modèles peuvent être envisagés?
La réponse à la première question est non car
la probabilité πi ∈ [0, 1] et aucune propriété ne garantit que
XTi β ∈ [0, 1].
une fonction sigmoide n'est pas linéaire.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 55 / 87

Modèle logistique Modèle de régression logistique

Supposons que nous possédons N observations

(X1 , y1 ), (X2 , y2 ), · · · , (XN , yN ) avec
La variable Xi ∈ Rp est un vecteur de variables explicatives
(covariables )
La variable yi ∈ {0, 1} est la réponse binaire qui détermine le groupe
de l'observation.
Objectif
Construire un modèle de classication binaire qui va prédire les classes des
nouvelles observations.
En réalité, les variables Xi sont déterministes et les variables yi sont
aléatoires.
Les variables yi suivent une loi de Bernoulli de paramètres πi . On rappelle
que
πi := P(Yi = yi |Xi = xi )

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 56 / 87

Modèle logistique Modèle de régression logistique

La fonction logit est dénie sur ]0, 1[ par

p
∀p ∈]0, 1[, logit(p) = log( ).
1−p
C'est une fonction dérivable et bijective sur ]0, 1[ vers R.
L'image de la probabilité πi :
P(Y = y |X = x )
logit(πi ) = log i i i i
= xiT β;
1 − P(Yi = yi |Xi = xi )
avec β ∈ Rp .
On obtient
exp(xiT β)
P(Yi = yi |Xi = xi ) =
1 + exp(xiT β)
Si yi = 1 alors
1
P(Yi = 0|Xi = xi ) =
1 + exp(xiT β)
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 57 / 87
Modèle logistique Modèle de régression logistique

D'autres fonctions sigmoïde peuvent être utilisées à la place de la fonction

logit :
La fonction probit :
∀p ∈ [0, 1], probit(p) = ϕ−1 (p);

où ϕ est la fonction de distribution de la loi normale centrée réduite

dénie par
1 1
Z u
ϕ(u) = √ exp − t 2 dt
2π −∞ 2
La fonction log-log :
∀p ∈]0, 1[, log-log = log − log(1 − p) .

En pratique, la fonction logit est largement utilisée à cause l'interprétation

facile du paramètre β dans cette fonction.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 58 / 87

Modèle logistique Estimation des paramètres

Considérons N observations indépendantes et identiquement distribuées de

réalisations (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ). La fonction vraisemblance :
N
P(yi = 1|xi )yi (1 − P(yi = 1|xi ))1−yi
Y
LN (β) =
i=1
N
Y exp(yi β T xi )
=
i=1
1 + exp(β T xi ))
La fonction log-vraisemblance :
N
yi β T xi − log(1 + e β
X Tx

LN (β) = i
)
i=1

Le problème d'optimisation (maximiser la log-vraisemblance) :

β̂N = arg max LN (β).
β

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 59 / 87

Modèle logistique Estimation des paramètres

La dérivée partielle par rapport à la variable βj (j ∈ {1, 2, · · · , p}) :

N T
∂LN X e yi β xi
= yi xi,j − xi,j .
∂βj
i=1
1 + e yi βT xi
N T
e yi β xi
∀j ∈ {1, 2, · · · , p}
X
= xi,j yi − ,
i=1
1 + e yi βT xi
La dérivée partielle par rapport à βj peut s'écrire sous la forme matricielle :
N T
∂LN X e yi β xi
TN (β) = = xi,j yi −
∂βj
i=1
1 + e yi βT xi
L'estimateur β̂ est solution du système p équations.
T
0
 P
N e yi β xi

i=1 xi, 1 yi − T =
1+e yi β xi

.. .. ..

(4)

 . . .
T
= 0

e yi β xi
 PN
i=1 xi,p yi − 1+e yi β T xi



Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 60 / 87

Modèle logistique Estimation des paramètres

La solution exacte du système d'équations n'existe pas. Les estimations de

β̂ se font avec l'algorithme numérique de Newton-Raphson.
Sous certaine condition de séparabilité, la fonction
log-vraisemblance est concave et la méthode du maximum de
vraisemblance converge vers un unique maximum.
Le choix du point de départ pour l'algorithme numérique n'est pas
critique. On peut commencer par 0 ou par un point aléatoire.
Algorithme de Newton-Raphson : une méthode numérique qui permet
de déterminer la racine d'une fonction mathématique F (β).
Dans notre cas, on pose
N T N T
X e yi β xi X e yi β xi
F (β) = xi,1 yi − , x 2 yi − ,
i=1
1 + e yi β xi i=1
T i,
1 + e yi βT xi
N T
X e yi β xi
··· , xi,p yi −
i=1
1 + e yi βT xi
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 61 / 87
Modèle logistique Estimation des paramètres

Algorithme de Newton-Raphson
1 Initialisation : on donne β (0)
2 Approximation linéaire de la fonction F au point initial β (0) + h:
F (β (0) + h) ≃ F (β (0) ) + hF ′ (β (0) )

3 Déterminer une solution β (1) = β (0) + h telle que F (β (1) ) = 0

implique h = −[F ′ (β (0) )]−1 F (β (0) ). Donc
β (1) = β (0) − [F ′ (β (0) )]−1 F (β (0) )

4 Itérer le processus jusqu'à ce que le critère de convergence soit satisfait

Dans le cas du modèle logistique, l'algorithme de Newton-Raphson porte
sur la résolution du système
∂LN
F (β) = = 0Rp .
∂β
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 62 / 87
Modèle logistique Estimation des paramètres

1 Initier β (0)
2 Pour tout k ≥ 0, calculer
∂2L −1 ∂L
β (k+1) = β (k) −
N N
|β (k)
∂β∂β T β (k) ∂β
3 Itérer le processus jusqu'à ce que β (k+1) ≈ β (k) et/ou
LN (β (k+1) ) ≈ LN (β (k) ).

Posons que X la matrice des covariables de N lignes (nombres

d'observations) et p colonnes (nombre de variables explicatives) :
 
x1,1 x1,2 · · · x1,p
 x2,1 x2,2 · · · x2,p 
X=  .. .. .. .. 

 . . . . 
xN,1 xN,2 · · · xN,p
T
Posons que et

y = y1 , y2 , · · · , yN
Φ(β) = (ϕ(β T x1 ), ϕ(β T x2 ), · · · , ϕ(β T xN )) avec ϕ(u) = 1+e
eu
u , ∀u ∈ R.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 63 / 87

Modèle logistique Estimation des paramètres

Le système d'équations (4) a la forme suivante

XT y − Φ(β) = 0.

L'élément de la ligne j et de la colonne k de la matrice Hessienne :

N T
∂LN X e yi β xi
= − xi,j xi,k
∂βj ∂βk
i=1
(1 + e yi β T xi )2
N
xi,j xi,k ϕ(β T xN )(1 − ϕ(β T xN ))
X
= −
i=1
N
xi,j ϕ(β T xN )(1 − ϕ(β T xN ))xi,k
X
= −
i=1
Alors
∂ 2 LN
= −XT W(β)X,
∂β∂β T
avec
W(β) = diag (ϕ(β T x1 )(1 − ϕ(β T x1 )), · · · , ϕ(β T xN )(1 − ϕ(β T xN )))T

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 64 / 87

Modèle logistique Estimation des paramètres

En utilisant les écritures matricielles

∂LN ∂ 2 LN
= XT y − Φ(β) , = −XT W(β)X.
∂β ∂β∂β T

L'algorithme de Newton-Raphson devient :

− 1
β (k+1) = β (k) − XT W(β (k) )X

XT y − Φ(β (k) )
− 1
= XT W(β (k) )X XT W(β (k) )

Xβ (k) − W−1 (β (k) ) y − Φ(β (k) )

− 1
= X W(β )X XT W(β (k) )Z;
T (k)

Où Z = Xβ (k) − W−1 (β (k) ) .

y − Φ(β (k) )

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 65 / 87

Modèle logistique Estimation des paramètres

Problème de convergence :
Le problème de convergence de l'estimateur du maximum de vraisemblance
peut être lié à la séparabilité des classes.
Dénition
Un nuage de points (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ) avec xi ∈ Rp et
yi ∈ {0, 1}, est dit
complètement séparable si ∃β ∈ Rp tel que ∀i , yi = 1 on a
β T xi > 0 et ∀i , yi = 0 on a β T xi < 0.
quasi-complètement séparable si ∃β ∈ Rp tel que ∀i , yi = 1 on a
β T xi ≥ 0, ∀i , yi = 0 on a β T xi ≤ 0 et {i : β T xi = 0} = ̸ ∅.
en recouvrement ("overlap data") s'il n'est ni complètement
séparable et ni quasi-complètement séparable.
L'estimateur du maximum de vraisemblance ne converge pas si les données
sont complètement séparées et quasi-complètement séparées.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 66 / 87
Modèle logistique Estimation des paramètres

Figure: A gauche : données complètement séparables. Au milieu : données

quasi-complètement séparables. A droite : données en recouvrement (overlap
data).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 67 / 87

Modèle logistique Propriétés asymptotiques de l'estimateur

Théorème
Sous hypothèses des données en recouvrement, l'estimateur du maximum
√
de vraisemblance β̂ est consistant et n β̂ − β converge en loi vers

n∈N∗
N 0, I(β)−1 où I(β) est la matrice d'information de Fisher dénie par

∂2
I(β)i,j = −E L(β) ,
∂βi ∂βj

avec L(β) est la log-vraisemblance d'une observation.

L'estimation de I(β) est nécessaire pour calculer les intervalles de
conance pour β et pour tester des hypothèses sur β .
Soit L(k) (β) la contribution de l'observation k dans la
log-vraisemblance LN (β). C'est-à-dire
N
X
LN (β) = L(k) (β).
k=1
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 68 / 87
Modèle logistique Propriétés asymptotiques de l'estimateur

La matrice inconnue I(β) est estimée

1 N
X ∂2 1 ∂2 X N
Î(β) = − L (β) = − L (β)
N ∂β∂β T (k) N ∂β∂β T (k)
k=1 k=1
1 ∂2
= − LN (β) = XT W(β)X
N ∂β∂β T

Puisque les paramètres β sont inconnus alors on calcule

Î(β̂) = XT W(β̂)X,

où β̂ est calculé avec l'algorithme de Newton-Raphson.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 69 / 87

Choix et validation des modèles

Sommaire

1 Introduction

2 Analyse discriminante

3 Modèle logistique

4 Choix et validation des

modèles
Choix des modèles
Validation

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 70 / 87

Choix et validation des modèles Choix des modèles

En pratique,
diérents modèles peuvent se présenter en fonction des nombres de
covariables (variables explicatives)
le choix du meilleur modèle est une étape cruciale en machine learning
Considérons n modèles M1 , M2 , · · · , Mn .
Question
Comment choisir le meilleur modèle parmis ces modèles?
Il n'existe pas de critère universel de dénition du meilleur modèle.
Le meilleur modèle dépend d'un critère donné.
Plusieurs types de critères de selection du meille:
Tests sur les paramètres des modèles emboités
Critère d'information d'Akaike : AIC
Critère d'information bayésien : BIC
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 71 / 87
Choix et validation des modèles Choix des modèles

Tests sur les paramètres

Considérons deux modèles M1 et M2 .
On suppose que le modèle M1 est emboité dans le modèle M2 (M1 est
un cas particulier de M2 ).
Posons que
M1 : logit(πi ) = β1 x1 + β2 x2 ;
M2 : logit(πi ) = β1 x1 + β2 x2 + β3 x3 + β4 x4 .

Le test de comparaison des modèles M1 et M2 :

H0 : β 3 = β 4 = 0 contre H0 : β3 ̸= 0, β4 ̸= 0

En général, les deux modèles contiennent respectivement p1 et p2

paramètres et l'un des deux modèles est emboîté dans l'autre.
Le test de comparaison des deux modèles porte sur la nullité de
certains paramètres : Wald et du rapport de vraisemblance
Sous l'hypothèse H0 , les statistiques suivent une loi de chi2 de degré
de liberté p2 − p1 si p2 > p1
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 72 / 87
Choix et validation des modèles Choix des modèles

Critère d'information d'Akaike (AIC)

Soit un modèle M de p paramètres estimés par l'estimateur de maximum
de vraisemblance β̂ .
Le critère AIC est une méthode de pénalisation de la log-vraisemblance :
AIC(M) = −2LN (β̂) + 2p

Idée
Il faut choisir le modèle qui a la plus grande log-vraisemblance sachant que
la log-vraisemblance croît en fonction la complexité du modèle (le nombre
de paramètres).
Intuitivement, le modèle ayant la plus grande log-vraisemblance est le
modèle complet mais à retenir que ce modèle est sur-paramétré (appelé
"overtting").
Le critère AIC permet de pénaliser les modèles avec le nombre de
paramètres an de satisfaire des critères.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 73 / 87
Choix et validation des modèles Choix des modèles

Critère d'information bayésien (BIC)

Soit un modèle M de p paramètres estimés par l'estimateur de maximum

de vraisemblance β̂ .
Le critère BIC est inspirée du critère AIC. Pour un échantillon de N
observations. Le critère BIC est déni par
BIC(M) = −2LN (β̂) + p log(N)

Idée
Choisir un modèle dont les valeurs de AIC et BIC sont petites.
Si log(N) > 2 (N > 8), le critère BIC aura tendance à choisir le modèle le
plus parcimonieux que le critère AIC.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 74 / 87

Choix et validation des modèles Validation

La validation d'un modèle est basée sur le pouvoir de prédiction et se fait

en plusieurs étapes :
Pour chaque modèle, déterminer le nombre d'observations mal classées
Calculer les taux d'erreur des modèles
L'approche consiste à dénir une règle de classication des observation à
partir d'un modèle logistique :
G : Rp → {0, 1}
X 7→ y
Le modèle logistique :
exp(β̂ T xi )
P(y = yi |X = x) =
1 + exp(β̂ T xi )
Pour une nouvelle observation XN+1 , on
yi si P(y = yi |X = xN+1 ) ≥ s

G(XN+1 ) =
1 − yi sinon (5)
s est le seuil xé.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 75 / 87
Choix et validation des modèles Validation

Il existe plusieurs critères de mesure de performance d'une règle de

classication dont l'estimation de la probabilité d'erreur P(G(X) ̸= y ).
Soit (Xi ) une suite d'observations prédites dans les classes G(Xi ). La
proportion des observations mal classées :
1 N
1G(Xi )̸=yi
X
Pml (G) =
N
i=1

Un modèle qui classe bien toutes les observations (modèle parfait) a une
proportion des mal classées égale à 0.
Problèmes
Pml (G) n'est pas un bon estimateur de la probabilté P(G(X) ̸= y ).
La théorie des grands nombres ne peut pas être appliquée car les
1G(Xi )̸=yi ne sont pas indépendantes.
La base de données train set est utilisée deux fois pour calculer G et
Pml (G).
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 76 / 87
Choix et validation des modèles Validation

Solution
Dans le cas d'une base de données riche et bien traitée, composée des
éléments (x1 , y1 ), (x2 , y2 ), · · · , (xN , yN ), on partitionne aléatoirement
l'échantillon en deux parties :
un échantillon d'entrainement (train set) pour estimer la fonction
G de taille q , noté Aq = {(xi , yi ), i ∈ Eq }
un échantillon de test ou de validation (test set) pour estimer la
probabilité Pml (G) de taille N − q , noté VN−q = {(xi , yi ), i ∈ EN−q }.
1
1G(Xi )̸=yi ,
X
P̂ml (G) =
N −q
i∈EN−q

Eq ∪ EN−q = {1, 2, · · · , N}, Eq ∩ EN−q = ∅

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 77 / 87

Choix et validation des modèles Validation

Figure: Base initiale (bleue), train set(vert) et test set(rouge).

P̂ml (G)est un estimateur sans biais de Pml (G)

On retient le modèle ayant la plus petite valeur de P̂ml (G)
Remarque : Il est dicile de donner une règle générale sur la manière de
choisir le nombre d'observations dans les bases de données d'entrainement
et de test car cela dépend du rapport signal/bruit dans les données et de la
complexité des modèles.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 78 / 87
Choix et validation des modèles Validation

Validation croisée (Cross-validation)

Quelques inconvénients de la procédure basée sur la partition train/test
Il faut une grande base de données pour une correcte estimation des
paramètres avec train set et une meilleure évaluation des erreurs sur
le test set.
Les résultats de la procédure dépendent de la composition des bases
de données train/test et train set.
Pour surmonter ces dicultés, la méthode de validation croisée
(cross-validation) peut être envisagée.
La méthode la plus simple et la plus utilisée pour faire de la prédiction
des erreurs.
Lorsqu'il y'a largement de données, il est possible de retirer des
données qui sont utilisées pour la validation. Cela n'est pas possible
lorsqu'il y'a moins de données.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 79 / 87

Choix et validation des modèles Validation

Validation croisée en K − blocs

Subdiviser la base de données en K sous-échantillons Ek de même taille
(k ∈ {1, 2, · · · , K }. Cela donne K train/test procédures à mener.
Pour la procédure d'ordre k :
L'échantillon train set : utilisé pour estimer β̂
L'échantillon test set : utilisé pour estimer l'erreur de prédiction.
Dans la procédure d'ordre k , nous obtenons une prédiction des classes y
pour chaque échantillon Ek .
A la n de la procédure, une prédiction de y est disponible pour chacune
des observations de la base de données initiale. Ces prédictions sont
utilisées pour calculer la prédiction erreur. Nous trouvons le modèle avec la
plus petite erreur.
Soit κ : {1, 2, · · · , N} → {1, 2, · · · , K } la fonction indiquant la partition
aléatoire dans laquelle se trouve l'observation i de la base de données.
Soit ŷiκ(i) la prédiction de yi dans l'échantillon κ(i) retiré des autres
données.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 80 / 87
Choix et validation des modèles Validation

card(Eκ(i) )
1
1ŷ κ(i) ̸=yi .
X
CVκ(i) =
N i
i=1

Le meilleur modèle est celui avec la petite valeur de CVκ(i) .

Le meilleur choix du paramètre K .

Si K est petit, le nombre de données dans les train set est petit,
Si K est grand, le nombre de données dans les test set est petit
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 81 / 87
Choix et validation des modèles Validation

Les valeurs typiques de K :

K = 2 : Validation croisée à 2 blocs. Deux sous-échantillons de même
taille sont utilisés pour train/test set.
K =5
K = 10
K = N : leave-one-out cross-validation (LOOCV)
Les échantillons train set et test set contiennent respectivement
N − 1 observations et une observation.
Dans l'ensemble, les validations croisées à 5 ou 10 blocs sont généralement
recommandées comme un bon compromis.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 82 / 87

Choix et validation des modèles Validation

Matrice de confusion
Erreurs de pédiction : il existe deux types d'erreurs de prédictions
une observation y = 0 peut être prédite ŷ = 1
une observation y = 1 peut être prédite ŷ = 0.
Il est souvent intéressant de déterminer le type d'erreur commise.
La matrice de confusion est un moyen pratique pour acher les
informations concernant les erreurs.
ŷ =0 ŷ =1 Total
y=0 Vraie Négative (TN) Fausse Positive (FP) Négative (N)
y=1 Fausse Négative (FN) Vraie Positive (TP) Positive (P)
N̂ P̂
A partir de la matrice de confusion, on dénit les mesures de
performance suivantes
Précision (precision) : taux de positifs parmis les positifs prédits et
utile lorsque les FP ont des conséquences graves.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 83 / 87
Choix et validation des modèles Validation

TP TP
precision = = .
P̂ TP + FP

Rappel ou Sensibilité (sensitivity or recall) : taux de positifs parmis

les positifs observés.
TP TP
recall = sensivility = = .
P TP + FN
Spécité (specicity) : taux de négatifs prédits parmis les négatifs
observés et utile lorsque les FN ont des conséquences graves.
TN TN
specicity = = .
N TN + FP
F1Score : utile lorsque les deux classes ne sont pas équilibrées.
2*Precision*Recall
F1Score = .
Precision+Recall
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 84 / 87
Choix et validation des modèles Validation

Exactitude (accuracy score) : la proportion de prédictions correctes

parmi le nombre total de cas examinés.
TP + TN TP + TN
accuracy score = = .
N +P TP + TN + FP + FN
Les inconveniants des mesures de performance
precision et recall peuvent être trompeurs si les deux classes ne sont
pas équilibrées.
F1Score peut-être biaisé si l'une des valeurs (la précision ou le
rappel) est plus importante que l'autre.
Ces mesures de performances dépendent de la valeur du seuil s donnée
dans la formule (5).
Quand s augmente, sensivility ou recall décroit et specicity
augmente.
Un bon modèle est celui qui donne les grandes valeurs de sensivility
et de specicity.
Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 85 / 87
Choix et validation des modèles Validation

Courbe ROC et AUC

Courbe ROC
La courbe Receiver Operating Characteristic (ROC) est une courbe
paramétrée de paramètre le seuil s . Elle représente les évolutions de
sensivility et de 1 -specicity en faisant varier le seuil s .
Les courbes ROC sont utiles pour comparer diérents modèles
puisqu'ils prennent en compte tous les seuils possibles.
La performance globale de classication du modèle dans l'ensemble des
seuils possibles sont résumés par la zone sous la courbe ROC ( AUC).

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 86 / 87

Choix et validation des modèles Validation

Pour un classier non aléatoire, la courbe ROC est au dessus de la

ligne diagonale ( AUC>0.5)
Le meilleur classier est celui qui a la plus grande valeur de AUC
L'aire entre la courbe ROC et la ligne diagonale est égale AUC − 0.5
et Gini coecient = 2AUC − 1
Plusieurs modèles peuvent être comparés en superposant les courbes
ROC sur le même graphe.

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 87 / 87

Vous aimerez peut-être aussi

Chapit 1 ML L3 IRS
Pas encore d'évaluation
Chapit 1 ML L3 IRS
38 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
15 pages
Introduction au Machine Learning et Deep Learning
Pas encore d'évaluation
Introduction au Machine Learning et Deep Learning
36 pages
Cours ML: Python et Classification
Pas encore d'évaluation
Cours ML: Python et Classification
80 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Analyse Prédictive et Machine Learning
Pas encore d'évaluation
Analyse Prédictive et Machine Learning
100 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
63 pages
Cours Apprentissage
Pas encore d'évaluation
Cours Apprentissage
24 pages
Chap1-Introduction Au ML
Pas encore d'évaluation
Chap1-Introduction Au ML
41 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
96 pages
AI Cours
Pas encore d'évaluation
AI Cours
12 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
38 pages
Rapport Stage Dété 2021
Pas encore d'évaluation
Rapport Stage Dété 2021
16 pages
ML Motivation ApprentissatgeStat French
Pas encore d'évaluation
ML Motivation ApprentissatgeStat French
37 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
25 pages
Cours Article Cepe Intro ML
Pas encore d'évaluation
Cours Article Cepe Intro ML
56 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
5 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
28 pages
Cours
Pas encore d'évaluation
Cours
575 pages
Seance 1
Pas encore d'évaluation
Seance 1
26 pages
ML-Chap I Introduction
Pas encore d'évaluation
ML-Chap I Introduction
43 pages
Apprentissage Supervisé - Introduction - vf23
Pas encore d'évaluation
Apprentissage Supervisé - Introduction - vf23
44 pages
Classification 1
Pas encore d'évaluation
Classification 1
29 pages
Machine - Learning - Classification
Pas encore d'évaluation
Machine - Learning - Classification
34 pages
CM1 Intro
Pas encore d'évaluation
CM1 Intro
42 pages
Support de Cours 4
Pas encore d'évaluation
Support de Cours 4
12 pages
Intro Au Machine Learning
Pas encore d'évaluation
Intro Au Machine Learning
12 pages
Critères pour un classifieur généraliste
Pas encore d'évaluation
Critères pour un classifieur généraliste
24 pages
Cours de Machine Learning: Théorie et Pratique
Pas encore d'évaluation
Cours de Machine Learning: Théorie et Pratique
84 pages
01 Concepts Fondamentaux 2pages
Pas encore d'évaluation
01 Concepts Fondamentaux 2pages
32 pages
Intro DMBeamer 2018
Pas encore d'évaluation
Intro DMBeamer 2018
30 pages
Apprentissage Machine ML 2
Pas encore d'évaluation
Apprentissage Machine ML 2
46 pages
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
Pas encore d'évaluation
Data - Science - Chap4 - 1 - Machine - Learning - Preliminaires FR
42 pages
Purple Gradient Artificial Intelligence Presentation
100% (1)
Purple Gradient Artificial Intelligence Presentation
40 pages
Introduction au Machine Learning et Algorithmes Supervisés
Pas encore d'évaluation
Introduction au Machine Learning et Algorithmes Supervisés
11 pages
Plan D'études M2-SS
Pas encore d'évaluation
Plan D'études M2-SS
36 pages
Chap 2
Pas encore d'évaluation
Chap 2
5 pages
Cours de Machine Learning2
Pas encore d'évaluation
Cours de Machine Learning2
44 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
10 pages
Introction To ML
Pas encore d'évaluation
Introction To ML
46 pages
01 Introduction
Pas encore d'évaluation
01 Introduction
45 pages
Python Inter B3 - 5
Pas encore d'évaluation
Python Inter B3 - 5
7 pages
Machine Learning (Deep Learning) Pour La Vision Artificielle 2021
Pas encore d'évaluation
Machine Learning (Deep Learning) Pour La Vision Artificielle 2021
4 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
83 pages
0 Intro - New
Pas encore d'évaluation
0 Intro - New
16 pages
Introduction à l'apprentissage machine
Pas encore d'évaluation
Introduction à l'apprentissage machine
64 pages
ML Part1
Pas encore d'évaluation
ML Part1
19 pages
Presentation ML
Pas encore d'évaluation
Presentation ML
10 pages
Concepts de Base en Apprentissage Automatique
Pas encore d'évaluation
Concepts de Base en Apprentissage Automatique
37 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
28 pages
Introduction Au Machine Learning - Chapitre1
Pas encore d'évaluation
Introduction Au Machine Learning - Chapitre1
13 pages
Big Data Et Analyse Prédictive
Pas encore d'évaluation
Big Data Et Analyse Prédictive
44 pages
TP Ia
Pas encore d'évaluation
TP Ia
8 pages
Introduction à Scikit-Learn et ML
Pas encore d'évaluation
Introduction à Scikit-Learn et ML
35 pages
FMM Student Avril 2025 - 250505 - 094755
Pas encore d'évaluation
FMM Student Avril 2025 - 250505 - 094755
20 pages
Cours ML
Pas encore d'évaluation
Cours ML
40 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Slides v2
Pas encore d'évaluation
Slides v2
114 pages
Cours Introductifs
Pas encore d'évaluation
Cours Introductifs
13 pages
Rapport Version Finale
Pas encore d'évaluation
Rapport Version Finale
127 pages
Travaux Dirigés de Chimie N° 5: Exercice 1: Ecriture de La Constante de Réaction
Pas encore d'évaluation
Travaux Dirigés de Chimie N° 5: Exercice 1: Ecriture de La Constante de Réaction
2 pages
Introduction en Bourse Jet Alu Maroc
Pas encore d'évaluation
Introduction en Bourse Jet Alu Maroc
256 pages
Rosaire Alice Lenczewskz
Pas encore d'évaluation
Rosaire Alice Lenczewskz
3 pages
Texte
100% (2)
Texte
13 pages
Sécurité Incendie en Industrie Pétrolière
Pas encore d'évaluation
Sécurité Incendie en Industrie Pétrolière
5 pages
Optimisation des Coûts chez Sotetel via ABC
Pas encore d'évaluation
Optimisation des Coûts chez Sotetel via ABC
60 pages
Linter de Coton
Pas encore d'évaluation
Linter de Coton
2 pages
Recettes et Astuces pour Sublimer Vos Desserts
Pas encore d'évaluation
Recettes et Astuces pour Sublimer Vos Desserts
21 pages
Formulaire Du Projet PEJC2024
Pas encore d'évaluation
Formulaire Du Projet PEJC2024
18 pages
Cours S1 27 Novembre
Pas encore d'évaluation
Cours S1 27 Novembre
176 pages
00 (Projet Prévisionnel)
86% (7)
00 (Projet Prévisionnel)
2 pages
Transformée de Laplace et Applications
Pas encore d'évaluation
Transformée de Laplace et Applications
1 page
Agroforestier Cacao Et Mangue
Pas encore d'évaluation
Agroforestier Cacao Et Mangue
9 pages
Kentpon Ελληνικησ Και Ρωμαϊκησ Αρχαιοτητοσ Εθνικον Ι∆Ρυμα Ερευνων Centre De Recherches De L'Antiquite Grecque Et Romaine Fondation Nationale De La Recherche Scientifique
Pas encore d'évaluation
Kentpon Ελληνικησ Και Ρωμαϊκησ Αρχαιοτητοσ Εθνικον Ι∆Ρυμα Ερευνων Centre De Recherches De L'Antiquite Grecque Et Romaine Fondation Nationale De La Recherche Scientifique
4 pages
Automatisation et Déploiement d'Images IT
Pas encore d'évaluation
Automatisation et Déploiement d'Images IT
3 pages
Séance 4
Pas encore d'évaluation
Séance 4
7 pages
Report-Application de Tracking de La Valeur D'un Portefeuille (Blockchain)
Pas encore d'évaluation
Report-Application de Tracking de La Valeur D'un Portefeuille (Blockchain)
55 pages
8 Pieces de Rechange Classification PDF
Pas encore d'évaluation
8 Pieces de Rechange Classification PDF
14 pages
Outils et Méthodes de Maintenance 6S
Pas encore d'évaluation
Outils et Méthodes de Maintenance 6S
78 pages
Droit de L'Union Economique Et Monétaire Ouest-Africaine Des Ententes Et Abus de Position Dominante
Pas encore d'évaluation
Droit de L'Union Economique Et Monétaire Ouest-Africaine Des Ententes Et Abus de Position Dominante
43 pages
Tache Finale Louisiana Grille April 2022
Pas encore d'évaluation
Tache Finale Louisiana Grille April 2022
1 page
Devoir 3e SVT
100% (2)
Devoir 3e SVT
2 pages
Rapport de Stage Bicec
100% (5)
Rapport de Stage Bicec
52 pages
Exemple Dossier Technique Désamiantage
Pas encore d'évaluation
Exemple Dossier Technique Désamiantage
31 pages
2020 AYYASH Arch
Pas encore d'évaluation
2020 AYYASH Arch
438 pages
الامتحان الجهوي السنة الأولى باكالوريا جميع الشعب مادة اللغة الفرنسية 2007 جهة الدار البيضاء الكبري
Pas encore d'évaluation
الامتحان الجهوي السنة الأولى باكالوريا جميع الشعب مادة اللغة الفرنسية 2007 جهة الدار البيضاء الكبري
2 pages
Evaluation Ndiebel2023
Pas encore d'évaluation
Evaluation Ndiebel2023
7 pages
Barème 4ème SC - Info DS2 2023 2024
Pas encore d'évaluation
Barème 4ème SC - Info DS2 2023 2024
5 pages
Corrigés - Applications - Rhéologie Des Polymères - GM3-PC - ENIM - 2021
Pas encore d'évaluation
Corrigés - Applications - Rhéologie Des Polymères - GM3-PC - ENIM - 2021
7 pages

Machine Learning

Transféré par

Machine Learning

Transféré par

Machine Learning

Année Universitaire 2024-2025

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 1 / 87

4 Choix et validation des modèles

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 2 / 87

4 Choix et validation des

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 3 / 87

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 4 / 87

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 5 / 87

Techniques de statistique de ltrage automatique des spams : le volume

Le code python de récupération de la base de données des messages

Le tableau ci-dessous donne des mots et des caractères achant la plus

Il s'agit d'un problème de classication dont les classes de la variable

Exemple 3 : Reconnaissance de chires manuscrits

Figure: Exemples de chires manuscrits provenant d'enveloppes postales

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 9 / 87

Score d'assurance évalue la probabilité qu'un client soit impliqué dans

Exemple 6 : Planning familial

Dans ce problème, on cherche à exprimer le taux de natalité en fonction du

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 14 / 87

Dans tous les exemples, nous avons

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 15 / 87

yi représentent les observations de la variable expliquée ou réponse.

Un algorithme d'apprentissage construit un modèle de prédiction qui

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 17 / 87

Un algorithme d'apprentissage utilise un ensemble (base de données)

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 18 / 87

Dans la suite du cours, nous supposons que X ∈ Rp (p variables

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 19 / 87

En général, la fonction mathématique du modèle est donnée par y = f (X)

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 20 / 87

4 Choix et validation des

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 21 / 87

Exemple : Portefeuille de 1150 prêts immobiliers de la banque de Vinci.

La probabilité pour que la réponse y d'appartenne à une classe m ∈ {0, 1}

Dans le cas de la regression logistique, la probabilité P(y = m|X = x)

Figure: Simulation de deux classes

Figure: Classier (D)

La règle de classication est donnée par

Soit XN+1 une nouvelle observation. Le classier (ou encore la règle de

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 27 / 87

Soit C un classier. Le risque de C est donné par

Il s'agit de la probabilité qu'une observation avec une valeur prédictive x

Naturellement, l'observation x appartient à la classe y = m si la valeur de

⇔ C ∗ (x) = arg max P(y = k|X = x)

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 29 / 87

(a) : Simulation de deux classes (b) : Boxplots des deux variables

Les densités des deux classes :

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 31 / 87

La courbe noire représente les points X = (x1 , x2 ) tels que la

Soit C ∗ qui minimise E(l(y , C(X)|X) alors

P(y = m|X = x) = 1 − P(y = m′ |X = x)

Second cas : f1 ∼ N (−0.5, 1), f2 ∼ N (0.5, 1) et π1 = π2

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 35 / 87

Supposons que la variable explicative X suit une loi normale

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87

Supposons que la variable explicative X suit une loi normale

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 36 / 87

Figure: Représentations graphiques des données générées avec la loi

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 37 / 87

Figure: Représentations graphiques des données générées avec la loi

Figure: Représentations graphiques des données générées avec

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 38 / 87

Figure: Simulation de deux classes de lois gaussiennes multidimensionnelles

Les données de la classe y=m suit une loi gaussienne multidimensionnelle

La probabilité de prédiction de la classe y=m sachant la valeur de X :

Le classier Bayesien attribue l'observation X = x à la classe dont

Les frontières de la décision de Bayes sont déterminées en posant

Figure: Exemple de trois classes de données gaussiennes et le classier de décision

En pratique, il faudra vérier la normalité de la variable explicative X et les

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 42 / 87

L'analyse discriminante linéaire (LDA) attribue à l'observation X = x la

La fonction LDA est une fonction ane en x et linéaire par rapport à

Dr KEITA (UJLoG) ECUE 2 : Machine Learning Octobre 2024 43 / 87

Supposons que la variable explicative de chaque classe y = m suit une loi

La probabilité de prédiction de la classe y = m :

Techniques de statistique de ltrage automatique des spams : le volume

Le tableau ci-dessous donne des mots et des caractères achant la plus

Il s'agit d'un problème de classication dont les classes de la variable

Exemple 3 : Reconnaissance de chires manuscrits

Figure: Exemples de chires manuscrits provenant d'enveloppes postales

Figure: Classier (D)

La règle de classication est donnée par

Soit XN+1 une nouvelle observation. Le classier (ou encore la règle de

Soit C un classier. Le risque de C est donné par

Le classier Bayesien attribue l'observation X = x à la classe dont

Figure: Exemple de trois classes de données gaussiennes et le classier de décision

En pratique, il faudra vérier la normalité de la variable explicative X et les

La fonction LDA est une fonction ane en x et linéaire par rapport à

Le classier Bayesien attribue X = x à la classe dont

Le classier d'analyse discriminante quadratique QDA attribue à

La fonction du classier QDA(x) est quadratique en x .

La log-vraisemblance est dénie par

L'intervalle de conance de l'estimateur avec un niveau de risque 5%

La fonction logit est dénie sur ]0, 1[ par