1 2 3 4 5
CONTEXTE THEORIQUE Classification Définition
Classification : C’est une technique de Machine Learning supervisé
appliquée lorsque la variable à prédire peut prendre une valeur d’un
ensemble fini de valeurs (qu’on appelle des classes) – Prédire Catégorie
En règle générale, dans toute tâche de classification, votre modèle ne peut
obtenir que deux résultats :
o Soit votre modèle était correct dans sa prédiction
o Soit votre modèle était incorrect dans sa prédiction
1 2 3 4 5
CONTEXTE THEORIQUE Classification Types
Classification Binaire Normal
C’est lorsque la variable à Spam
prédire Y prendre que deux
valeurs possibles.
TH
Classification Multiple
IMS
C’est lorsque la variable à
prédire Y prendre plusieurs LI
valeurs possibles.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Évaluation
Lors de la création d'un modèle de classification il est important
d’évaluer le modèle La comparaison entre les valeurs prédites et les
valeur réelles de l'ensemble de test.
Ce processus de comparaison consiste en un nombre de
correspondances :
Combien de lignes de données ont été correctement classées
Combien de lignes de données ont été incorrectement classées par
le modèle.
Ces nombres sont résumés dans la matrice de confusion.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Matrice de Confusion
La matrice de confusion a été initialement introduite pour nous permettons
d’organiser nos valeurs prédites par rapport aux valeurs réelles
Dans cette matrice, la première chose à faire est de prendre arbitrairement
l'une des deux classes comme Classe d'intérêt (Classe Positive) et l'autre
classe est alors automatiquement considérée comme la Classe Négative.
Classe Prédite
Total des Classes
Positive Négative
Classe Actuelle Positive Correctes Incorrectes
(Réelle) Négative Incorrectes Correctes
1 2 3 4 5
CONTEXTE THEORIQUE Classification Matrice de Confusion
Classe Prédite
Total = 921
Spam Normal
Classe Actuelle Spam 320 43
(Réelle) Normal 20 538
1 2 3 4 5
CONTEXTE THEORIQUE Classification Composantes de la Matrice de Confusion
Classe Prédite
Total
Spam Normal
Classe Actuelle Spam True Positive (TP) False Negative (FN)
(Réelle) Normal False Positive (FP) True Negative (TN)
True Positive (TP) – Vrais Positifs : Le nombre des emails qui sont Spam et le
modèle à correctement les classés comme Spam.
True Negative (TN) – Vrais Négatifs : Le nombre des emails qui sont Normal et
le modèle à correctement les classés comme Normal.
False Positive (TP) – Faux Positifs : Le nombre des emails qui sont Normal et le
modèle à correctement les classés comme Spam.
False Negative (TP) – Faux Négatifs : Le nombre des emails qui sont Spam et le
modèle à correctement les classés comme Normal.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Critères d’évaluation
Classe Prédite
Total
Spam Normal
Classe Actuelle Spam True Positive (TP) False Negative (FN)
(Réelle) Normal False Positive (FP) True Negative (TN)
Sensitivity = Recall
Accuracy F-Score
Specificity Precision
1 2 3 4 5
CONTEXTE THEORIQUE Classification Critères d’évaluation
Classe Prédite
Exemple : 921
Spam Normal
Classe Spam 320 43
Actuelle Normal 20 538
Question : Combien de prédictions sont correctes en pourcentage?
L’exactitude (Accuracy) : C’est le nombre de prédictions correctes faites par le
modèle divisé par le nombre total des prédictions
𝐓𝐏 + 𝐓𝐍
𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 =
𝐓𝐏 + 𝐓𝐍 + 𝐅𝐏 + 𝐅𝐍
𝟑𝟐𝟎 + 𝟓𝟑𝟖 𝟖𝟓𝟖
= = = 𝟎, 𝟗𝟑 ≡ 𝟗𝟑%
𝟑𝟐𝟎 + 𝟐𝟎 + 𝟒𝟑 + 𝟓𝟑𝟖 𝟗𝟐𝟏
1 2 3 4 5
CONTEXTE THEORIQUE Classification Critères d’évaluation
La sensibilité (Sensitivity) : Mesure la capacité du modèle à détecter des
événements dans la classe positive.
Étant donné que les e-mails de spam sont la classe positive, la sensibilité
quantifie le nombre d'e-mails qui sont réellement Spam et le modèle à
correctement les prédits comme Spam.
𝐓𝐏
𝐒𝐞𝐧𝐬𝐢𝐛𝐢𝐥𝐢𝐭é =
𝐓𝐏 + 𝐅𝐍
La spécificité (Specificity) : Mesure l'exactitude avec laquelle se fait
l'affectation à la classe négative, dans ce cas, la prédiction d'un e-mail
Normal.
𝐓𝐍
𝐒𝐩é𝐜𝐢𝐟𝐢𝐭é =
𝐅𝐏 + 𝐓𝐍
1 2 3 4 5
CONTEXTE THEORIQUE Classification Critères d’évaluation
Classe Prédite
Exemple : 921
Spam Normal
𝐓𝐏 𝟑𝟐𝟎
Spam 320 43 𝐒𝐞𝐧𝐬𝐢𝐛𝐢𝐥𝐢𝐭é = = = 𝟎, 𝟖𝟖𝟐
Classe 𝐓𝐏 + 𝐅𝐍 𝟑𝟐𝟎 + 𝟒𝟑
Actuelle 𝐓𝐍 𝟓𝟑𝟖
Normal 20 538 𝐒𝐩é𝐜𝐢𝐟𝐢𝐜𝐢𝐭é = = = 𝟎, 𝟗𝟔𝟒
𝐅𝐏 + 𝐓𝐍 𝟓𝟑𝟖 + 𝟐𝟎
Pour la valeur de sensibilité cela signifie qu'environ 88,2 % des e-mails de
Spam dans l'ensemble de données ont été correctement prédits comme
spam.
La valeur de spécificité est de 96,4% cela signifie donc que moins de 3,6 %
de tous les e-mails normaux sont considérés à tort comme Spam.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Critères d’évaluation
Classe Prédite
Exemple : 921
Spam Normal
𝐓𝐏 𝟑𝟐𝟎
Classe Spam 320 43 𝐑𝐚𝐩𝐩𝐞𝐥 = = = 𝟎, 𝟖𝟖𝟐
𝐓𝐏 + 𝐅𝐍 𝟑𝟐𝟎 + 𝟒𝟑
Actuelle
Normal 20 538
𝐓𝐏
𝐏𝐫é𝐜𝐢𝐬𝐢𝐨𝐧 =
𝐓𝐏 + 𝐅𝐏
𝟑𝟐𝟎
= = 𝟎, 𝟗𝟒𝟏
𝟑𝟐𝟎 + 𝟐𝟎
= 𝟗𝟒%
La valeur de précision du modèle est de 0,941. Ainsi, près de 95 % des e-mails
prédits comme Spam étaient en fait des e-mails Spam.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Erreur Type I & II
Le rappel et la précision sont souvent rapportés par paires car ces métriques
rapportent la pertinence du modèle par rapport deux angles :
L’erreur de type I mesurée par le rappel
L’erreur de type II mesurée par la précision
Rappel et Précision sont souvent liés :
Si nous utilisons un filtre anti-spam plus strict, nous réduirons le
nombre d'e-mails dangereux dans la boîte de réception, mais
augmenterons ensuite le nombre d'e-mails normaux qui doivent être
collectés dans le dossier de la boîte de spam.
L'inverse, c'est-à-dire un filtre anti-spam moins strict, nous
obligerait à faire un deuxième filtrage manuel de la boîte de
réception où certains spams atterrissent occasionnellement.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Matrice de Confusion pour le cas Multi-Classes
Classe Prédite
Total des Classes
Spam Ad Normal
Classe Spam Correctes Incorrectes
Actuelle Ad
(Réelle) Incorrectes Correctes
Normal
Classe Prédite
Total des Classes
Spam Ad Normal
Classe Spam 27 286 40
Actuelle Ad 1 37 9
(Réelle) Normal 5 16 500
1 2 3 4 5
CONTEXTE THEORIQUE Classification Conclusion
La matrice de confusion montre les performances d'un modèle de
classification : combien d'événements positifs et négatifs sont prédits
correctement ou incorrectement.
Les éléments de la matrice servent la base de calcul des indicateurs
statistiques à savoir : la sensibilité et la spécificité, le rappel et la précision,
et la F-mesure.
La matrice de confusion peut être définie pour les problèmes de
classification binaire. Cependant, nous avons montré comment ils peuvent
être facilement étendus pour résoudre des problèmes de classification multi
-classes.
1 2 3 4 5
CONTEXTE THEORIQUE Classification Algorithmes de Classification
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
Axon
Dendrites
Cell nucleus
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
Shopping %
Sport %
? Fille ou Garçon ?
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
𝑦 − 𝑦0 = 𝑚 𝑥 − 𝑥0
𝑦−0 =1 𝑥−0
𝑦=𝑥
𝑥−𝑦 =0
𝑥%
1 𝑔𝑎𝑟ç𝑜𝑛 𝑥 − 𝑦 > 0
x-y Fille ou Garçon ? 𝐺𝑒𝑛𝑟𝑒 = ቊ
0 𝑓𝑖𝑙𝑙𝑒 𝑥−𝑦 <0
𝑦%
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
1 𝑔𝑎𝑟ç𝑜𝑛 𝑥 − 𝑦 > 0
𝐺𝑒𝑛𝑟𝑒 = ቊ
0 𝑓𝑖𝑙𝑙𝑒 𝑥−𝑦 <0
(𝑥 = −100; 𝑦 = 100)
𝑥 − 𝑦 = −100 − 100 = −200 < 0
𝐺𝑒𝑛𝑟𝑒 = 𝑓𝑖𝑙𝑙𝑒
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Analogie de base
𝒇 𝑜
1 𝑥−𝑦 >0
𝑜 = 𝑓 𝑥, 𝑦 = ቊ
0 𝑥−𝑦 <0
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
1 𝑥−𝑦 >0
𝑜 = 𝑓 𝑥, 𝑦 = ቊ
0 𝑥−𝑦 <0
À la place de x et y; utilisant 𝒑𝟏 , 𝒑𝟐 Utilisant aussi des poids 𝒘𝟏 , 𝒘𝟐
1 𝑤1 𝑝1 + 𝑤2 𝑝2 > 𝑏
𝑜 = 𝑓 𝑝1 , 𝑝2 =ቊ
0 𝑤1 𝑝1 + 𝑤2 𝑝2 < 𝑏
À la place de 0; utilisant b
1 𝑤1 𝑝1 + 𝑤2 𝑝2 − 𝑏 > 0
𝑜 = 𝑓 𝑝1 , 𝑝2 =ቊ
0 𝑤1 𝑝1 + 𝑤2 𝑝2 − 𝑏 < 0
Utilisant le signe (+) car b (négative)
1 𝑤1 𝑝1 + 𝑤2 𝑝2 + 𝑏 > 0
𝑜 = 𝑓 𝑝1 , 𝑝2 =ቊ
0 𝑤1 𝑝1 + 𝑤2 𝑝2 + 𝑏 < 0
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
𝑝1 𝑝2 Les entrées (Features)
𝟏 𝒘𝟏 𝒑𝟏 + 𝒘𝟐 𝒑 𝟐 + 𝒃 > 𝟎
𝒐 = 𝒇 𝒑𝟏 , 𝒑𝟐 =ቊ 𝒘𝟏 ; 𝒘𝟐 Les poids
𝟎 𝒘𝟏 𝒑𝟏 + 𝒘𝟐 𝒑 𝟐 + 𝒃 < 𝟎
𝑏 Le Biais
𝑝1 ∑ L’unité de sommation
𝑤1
∑ 𝑓 𝑜 Fonction d’Activation
𝑓 (Fonction de transfert)
𝑝2 𝑤2
𝑏 𝑜 La sortie (Outputs)
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
Caractéristiques | Entrées
(Features)
(𝒑𝟏 , 𝒑𝟐 , … , 𝒑𝒏 )
• Hauteur 1,5
• Prix 12
• Couleur des pixels 255
• Angle 360
Terminologies • Poids 70
• Longueur des cheveux 0,1
Importantes • Température 100
Classes
(0 𝑜𝑢 1)
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
𝑝1
1
1 w1 p1 + w2 p2 + b > 0
o = f p1 , p2 = ቊ
0 w1 p1 + w2 p2 + b < 0 ∑ 𝑓 𝑜
𝑝2 −1
0
𝑝2
𝑤1
1 w1 p1 + w2 p2 + w3 p3 + b > 0 𝑤2 ∑ 𝑓
o = f p1 , p2 , p3 = ቊ 𝑝2 𝑜
0 w1 p1 + w2 p2 + w3 p3 + b < 0
𝑤3
𝑝3
𝑏
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
𝑝1
𝑤1
𝑝2
𝑤2
𝑝3 𝑤3
𝑤4 ∑ 𝑓 𝑜 Hyperplan
𝑝4
. . 𝑏
. .
. . 𝑤𝑛
𝑝𝑛
o = w1 p1 + w2 p2 + ⋯ + wn pn + b = f pk wk + b
k=1
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
𝑝1
𝑝1
𝑤1
𝑝2 𝑤1
𝑝3
𝑤2
𝑤3
𝑤4 ∑ 𝑓 𝑜
𝑝2
𝑝3
𝑤2
𝑤3
∑𝑓 𝑜
𝑝4 𝑤4
𝑝4
. . 𝑏
. . .
. . 𝑤𝑛 .
. 𝑤𝑛 𝑏
𝑝𝑛
𝑝𝑛
𝐧 Axon
Dendrites
𝐨=𝐟 𝐩𝐤 𝐰𝐤 + 𝐛
𝐤=𝟏 Cell nucleus
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Modèle Mathématique
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Fonctions d’activation
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Fonctions d’activation
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Fonctions d’activation
1 2 3 4 5
CONTEXTE THEORIQUE Réseau de neurones artificiels Techniques d’encodage