Chapitre II Machine Learning
Chapitre II Machine Learning
Chapitre II
Machine Learning
1
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique
2
Introduction
✓ Le machine learning est un domaine captivant. Issu de nombreuses disciplines
comme les statistiques, l’optimisation, l’algorithmique ou le traitement du signal,
c’est un champ d’études en mutation constante.
3
Qu’est ce que le machine learning ?
• En français Apprentissage Automatique
• Benureau (2015) : « L’apprentissage est une modification d’un comportement sur la base d’une
expérience ».
• Arthur Samuel (1959) : « domaine d'études qui donne aux ordinateurs la capacité
d'apprendre sans être explicitement programmés. »
• Tom Mitchell (1998) : On dit qu'un programme informatique apprend de
l'expérience E par rapport à une tâche T et à une mesure de performance P, si sa
performance sur T, telle que mesurée par P, s'améliore avec l'expérience
5
Qu’est ce que le machine learning ?
Supposons que votre programme de messagerie surveille les e-mails
que vous marquez ou ne marquez pas comme spam et, en fonction de
cela, apprenne à mieux filtrer le spam. Quelle est la tâche T dans ce
cadre ?
7
Différences entre ML et les algorithmes
traditionnels basés sur des règles
Rule-based algorithms Machine learning
Training
data
Machine
learning
9
Scénarios d'application du ML
Complex
Machine learning
Rule complexity
Manual rules
algorithms
Simple
Rule-based
Simple problems
algorithms
Small Large
11
Termes et concepts de base
• Ensemble de données (Dataset) : fait référence à un ensemble de données
utilisées dans les tâches d'apprentissage automatique. Chaque donnée est
appelée un échantillon. L'événement ou l'attribut qui reflète la
performance ou la nature d'un échantillon dans un certain aspect est
appelé une caractéristique (feature).
12
Termes et concepts de base
• Ensemble de test (Test set) : le test fait référence au processus d'utilisation
du modèle appris pour la prédiction. L'ensemble de données utilisé est
appelé ensemble de test et chaque échantillon est appelé échantillon de
test.
13
Termes et concepts de base
• Erreur : fait référence à la différence entre le résultat de l'échantillon
prédit par le modèle appris et le résultat de l'échantillon réel.
• Erreur d'apprentissage : erreur du modèle sur l'ensemble d'apprentissage
• Erreur de généralisation : erreur sur le nouvel échantillon. Évidemment, nous
préférons un modèle avec une erreur de généralisation plus faible.
15
Principaux problèmes résolus
par le ML
Classification
• Un programme informatique doit spécifier à laquelle des k catégories une entrée appartient. Pour accomplir
cette tâche, les algorithmes d'apprentissage génèrent généralement une fonction 𝑓 : 𝑅𝑛 → (1,2, … , 𝑘).
Régression
• Un programme informatique prédit la sortie pour l'entrée donnée. Les algorithmes d'apprentissage génèrent
généralement une fonction 𝑓 : 𝑅𝑛 → 𝑅
Clustering
• Une grande quantité de données d'un ensemble non étiqueté est divisée en plusieurs catégories en fonction
de la similitude interne des données.
16
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique
17
Types d'apprentissage automatique
• Apprentissage supervisé (Supervised learning) : Sur la base des
échantillons de classes connues, obtenez un modèle optimal avec les
performances requises grâce à la formation et à l'apprentissage. Ensuite,
le modèle est utilisé pour mapper toutes les entrées aux sorties et
effectuer un jugement simple sur les sorties (classification). Ce modèle
classe les données inconnues.
Supervised learning
Feature 1 ... Feature n Goal
algorithm
Wind Enjoy
Weather Temperature
Spee Sports
d
Yes
Sunny Warm Strong
No
Rainy Cold Fair
Yes
Sunny Cold Weak 20
Apprentissage supervisé : Régression
LUNDI MARDI
25°
21
Apprentissage non supervisé
Data Feature
Unsupervised Internal
Feature 1 ... Feature n similarity
learning algorithm
Monthly Consumptio
Commodity
Consumptio n Time Category
n
Cluster 1
Badminton
1000–2000 6:00–12:00 Cluster 2
racket
500–1000 Basketball 18:00–24:00
1000–2000 Game console 00:00–6:00
22
Apprentissage semi supervisé
Data Feature Label
Semi-supervised
Feature 1 ... Feature n Unknown
learning algorithms
Wind Enjoy
Weather Temperature
Speed Sports
Sunny Warm Strong Yes
Rainy Cold Fair /
Sunny Cold Weak /
23
Apprentissage par renforcement
• Le modèle perçoit l'environnement, prend des mesures et fait des
ajustements et des choix en fonction du statut et de l'attribution ou
de la punition, cherche toujours les meilleurs comportements.
• L'apprentissage par renforcement s'adresse aux machines ou aux
robots.
24
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique
25
Processus ML
Feedback et itération
26
Vérification de l'ensemble des données
4 80 9 Southeast 1100
27
Importance du traitement des données
⚫ Les données sont cruciales pour les modèles. C'est le plafond des capacités
du modèle. Sans bonnes données, il n'y a pas de bon modèle.
Prétraitement
Normalisation des
Nettoyage des
données des données données
29
Nettoyage des données
⚫ La plupar t des mo dèles d' appr ent issag e aut o mat ique t r ait ent des
car act ér ist iques, qui so nt g énér alement des r epr ésent at io ns numér iques
des v ar iables d' ent r ée po uv ant êt r e ut ilisées dans le mo dèle.
⚫ Dans la plupart des cas, les données collectées ne peuvent être utilisées par des
algorithmes qu'après avoir été prétraitées. Les opérations de prétraitement comprennent
les suivantes :
Filtrage des données
Traitement des données perdues
Traitement des exceptions, erreurs ou valeurs anormales possibles
Combinaison de données provenant de plusieurs sources de données
Consolidation des données
30
Mauvaises données (1)
⚫ Généralement, les données réelles peuvent avoir des problèmes de qualité.
Incomplétude : contient des valeurs manquantes ou des données sans attributs
Bruit : contient des enregistrements ou des exceptions incorrects.
Incohérence : contient des enregistrements incohérents.
31
Mauvaises données (2)
IsTe #Stu
# Id Name Birthday Gender ach dent Country City
er s
32
Conversion des données
Après avoir été prétraitées, les données doivent être converties en une forme de
représentation adaptée au modèle d'apprentissage. Les formes de conversion de
données courants sont les suivants :
En ce qui concerne la classification, les données de catégorie sont codées dans une
représentation numérique correspondante.
Les données de valeur sont converties en données de catégorie pour réduire la
valeur des variables (pour la segmentation par âge).
Autres données
◼
Dans le texte, le mot est converti en un vecteur de mot par insertion de mots
(généralement en utilisant le modèle word2vec, modèle BERT, etc.).
◼Traiter les données d'image (espace colorimétrique, niveaux de gris, changement
géométrique et amélioration de l'image)
Ingénierie des fonctionnalités
◼ Normaliser les caractéristiques pour garantir les mêmes plages de valeurs pour les
variables d'entrée du même modèle.
◼ Extension des fonctionnalités : combinez ou convertissez des variables existantes pour
générer de nouvelles fonctionnalités, telles que la moyenne. 33
Nécessité de la sélection des fonctionnalités
⚫ Généralement, un ensemble de données a de nombreuses caractéristiques, dont
certaines peuvent être redondantes ou sans rapport avec la valeur à prédire.
Simplify
models to
Reduce the
make them
training time
easy for users
to interpret
Improve
Avoid model
dimension generalization
explosion and avoid
overfitting
34
Méthodes de sélection des caractéristiques -
Filtre
Les méthodes de filtrage sont indépendantes du modèle lors de la sélection des
⚫
caractéristiques.
En évaluant la corrélation entre chaque caractéristique et
l'attribut cible, ces méthodes utilisent une mesure
statistique pour attribuer une valeur à chaque
caractéristique. Les fonctionnalités sont ensuite triées par
score, ce qui est utile pour préserver ou éliminer des
fonctionnalités spécifiques.
Limites :
• La méthode de filtrage a tendance à sélectionner
Procédure d'une méthode de filtrage des variables redondantes car la relation entre les
caractéristiques n'est pas prise en compte.
35
Méthodes de sélection de caractéristiques -
Wrapper
⚫ Les méthodes wrapper utilisent un modèle de prédiction pour évaluer les sous-
ensembles de caractéristiques.
Les méthodes wrapper considèrent la sélection de
caractéristiques comme un problème de recherche
Sélectionnez le sous- pour lequel différentes combinaisons sont évaluées et
ensemble de comparées. Un modèle prédictif est utilisé pour
caractéristiques optimales évaluer une combinaison de caractéristiques et
attribuer un score basé sur la précision du modèle.
Générer Méthodes communes
un sous- Entrainer
ensemble
• Recursive feature elimination (RFE)
Parcourez toutes le Evaluate
de
les caractéristiques modèle models Limites
caractéris
tiques • Les méthodes wrapper entraînent un
nouveau modèle pour chaque sous-ensemble,
ce qui entraîne un grand nombre de calculs.
Procédure
Wrapper • Un ensemble de caractéristiques avec les
meilleures performances est généralement
fourni pour un type spécifique de modèle
36
Méthodes de sélection de fonctionnalités –
Intégrées (Embedded)
⚫ Les méthodes intégrées considèrent la sélection des caractéristiques comme faisant
partie de la construction du modèle.
Le type le plus courant de méthode de sélection de
caractéristiques intégrées est la méthode de régularisation.
Sélectionnez le sous-ensemble de Les méthodes de régularisation sont également appelées
caractéristiques optimales méthodes de pénalisation qui introduisent des contraintes
supplémentaires dans l'optimisation d'un algorithme prédictif
Insérer un
Entrainer le
qui biaisent le modèle vers une complexité moindre et
Parcourez toutes sous
modèle
les ensemble réduisent le nombre de caractéristiques.
de + Évaluer l'effet
caractéristiques
caractéristi
ques
Méthodes communes
Procédure d'une méthode embarquée
• Lasso regression
• Ridge regression
37
Procédure globale de construction d'un modèle
Model Building Procedure
1 2 3
6 5 4
38
Exemples d'apprentissage supervisé - Phase
d'apprentissage
⚫ Utilisez le modèle de classification pour prédire si une personne est un joueur de basket-ball.
Feature
( attribute) Target
39
Exemples d'apprentissage supervisé - Phase de
prédiction
Name City Age Label
Marine Miami 45 ?
Julien Miami 52 ? Unknown data
Recent data, it is not
New Fred Orlando 20 ?
known whether the
data Michelle Boston 34 ? people are basketball
Nicolas Phoenix 90 ? players.
• Interprétabilité
Le résultat de la prédiction est-il facile à interpréter ?
• Vitesse de prédiction
Combien de temps faut-il pour prédire chaque
donnée ?
• Praticabilité
Le taux de prédiction est-il toujours acceptable
lorsque le volume de données devient énorme ?
41
Validité du modèle
⚫ Capacité du modèle : capacité du modèle à ajuster les fonctions, également appelée complexité du modèle.
Lorsque la capacité correspond à la complexité de la tâche et à la quantité de données
d'entraînement fournies, l'effet de l'algorithme est généralement optimal.
Les modèles avec une capacité insuffisante ne peuvent pas résoudre des tâches complexes et
un sous-apprentissage peut se produire.
Un modèle à haute capacité peut résoudre des tâches complexes, mais un surapprentissage
peut se produire si la capacité est supérieure à celle requise par une tâche.
42
Cause du sur-apprentissage — Erreur
⚫ Erreur totale de la prédiction finale = Bias + Variance + Erreur irréductible
⚫ Variance: Bias
⚫ Bias:
Différence entre la valeur de prédiction attendue (ou moyenne) et la
valeur correcte que nous essayons de prédire.
43
Variance et Bias
⚫ Les combinaisons de variance et de biais sont
les suivantes :
Faible biais et faible variance -> Bon modèle
Faible biais et variance élevée
Biais élevé et faible variance
Biais élevé et variance élevée -> Modèle
médiocre
⚫ Idéalement, nous voulons un modèle capable de
capturer avec précision les règles dans les
données d'apprentissage et de résumer les
données invisibles (nouvelles données).
Cependant, il est généralement impossible pour
le modèle d'effectuer les deux tâches en même
44
temps.
Complexité du model et erreur
⚫ Au fur et à mesure que la complexité du modèle augmente, l'erreur d'apprentissage
diminue.
⚫ À mesure que la complexité du modèle augmente, l'erreur de test diminue jusqu'à un certain
point puis augmente dans le sens inverse, formant une courbe convexe.
Testing error
Error
Training error
Model Complexity
45
Évaluation des performances du ML -
Régression
⚫ Plus l'erreur absolue moyenne (Mean Absolute Error, MAE) est proche de 0, mieux le modèle peut
s'adapter aux données d'apprentissage.
⚫ La plage de valeurs de R2 (range) est (–∞, 1]. Une valeur plus élevée indique que le modèle peut mieux
s'adapter aux données d'apprentissage. TSS indique la différence entre les échantillons. RSS indique la
différence entre la valeur prédite et la valeur de l'échantillon.
46
Évaluation des performances du ML -
Classification (1)
• P : positif, indiquant le nombre de cas réels positifs dans les données.
• 𝑁 : négatif, indiquant le nombre de cas réels négatifs dans les
données.
• 𝑇P : vrai positif, indiquant le nombre de cas positifs correctement
classés par le classifieur.
• 𝑇𝑁 : vrai négatif, indiquant le nombre de cas négatifs qui sont
correctement classés par le classifieur.
• 𝐹𝑃 : faux positif, indiquant le nombre de cas positifs mal classés par
le classificateur.
• 𝐹𝑁 : faux négatif, indiquant le nombre de cas négatifs mal classés par
le classificateur.
47
Évaluation des performances du ML -
Classification (2)
⚫ Matrice de confusion : au moins une table 𝑚 × 𝑚. 𝐶𝑀𝑖,𝑗 des 𝑚 premières lignes et 𝑚 colonnes
indiquent le nombre de cas qui appartiennent réellement à la classe 𝑖 mais qui sont classés dans la
classe 𝑗 par le classificateur.
Idéalement, pour un classificateur de haute précision, la plupart des valeurs de prédiction devraient être situées dans la
diagonale de 𝐶𝑀1,1 à 𝐶M𝑚,𝑚 du tableau tandis que les valeurs en dehors de la diagonale sont 0 ou proches de 0.
Estimated
amount Total
yes no
Actual amount
yes 𝑇𝑃 𝐹𝑁 𝑃
no 𝐹𝑃 𝑇𝑁 𝑁
Total 𝑃′ 𝑁′ 𝑃+𝑁
Confusion matrix 48
Évaluation des performances du ML -
Classification (3)
49
Exemple d'évaluation des performances
Nous avons entraîné un modèle d'apprentissage automatique pour identifier si l'objet dans une
image est un chat. Maintenant, nous utilisons 200 images pour vérifier les performances du modèle.
Parmi les 200 images, les objets sur 170 images sont des chats, tandis que d'autres ne le sont pas. Le
résultat d'identification du modèle est que les objets dans 160 images sont des chats, tandis que
d'autres ne le sont pas.
Estimated
amount
Actual 𝒚𝒆𝒔 𝒏𝒐 Total
amount
𝑛𝑜 20 10 30
50
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique
51
Exemple Régression linéaire à une variable
prix 200
Algorithme
d’aprentissage
Superficie h Prix
estimé
54
La fonction de coût
Superficie en feet2
Prix en 1000$ (y)
(x)
2104 460
1416 232
1534 315
852 178
… …
Hypothèse:
Choisir ?
55
La fonction de coût
3 3 3
2 2 2
1 1 1
0 0 0
0 1 2 3 0 1 2 3 0 1 2 3
56
La fonction de coût
Parammètres:
Fonction de coût
Objectif:
58
La fonction de coût
( fixé, function de x) (function du paramètre )
3 3
2 2
y
1 1
0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x
59
La fonction de coût
3 3
2 2
y
1 1
0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x
60
La fonction de coût
3 3
2 2
y
1 1
0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x
61
La fonction de coût
Hypothèse:
Paramètres:
Fonction de coût:
but:
62
La fonction de coût
( fixes, en function de x)
(en fontion des paramètres )
500
400
100
0
0 500 1000 1500 2000 2500 3000
Size in feet2 (x)
63
La fonction de coût
64
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)
65
La fonction de coût
( fixes, en function de x) (en fontion des paramètres )
66
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)
67
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)
68
La décente du gradient
Soit la function :
On veut
Plan:
• On choisi arbitrairement
• On modifie pour réduire
Jusqu’à un minimum 69
La décente du gradient
J(0,1)
1
0
70
La décente du gradient
J(0,1)
1
0
71
La décente du gradient : Algorithme
72
La décente du gradient : Algorithme
73
La décente du gradient
74
La décente du gradient
À l’optimal local
Valeur courante de
76
La décente du gradient
La descente de gradient peut converger vers un minimum local, même
avec le taux d'apprentissage α fixé.
77
78
La décente du gradient
79
La décente du gradient
update
and
simultaneously
80
La décente du gradient
J(0,1)
1
0
81
La décente du gradient
83
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)
84
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)
85
La décente du gradient
86
La décente du gradient
87
La décente du gradient
88
La décente du gradient
89
La décente du gradient
90
La décente du gradient
91
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)
92
Variantes de la décente du gradient
⚫ Batch Gradient Descent (BGD) utilise les échantillons dans tous les ensembles de
données pour mettre à jour le paramètre de poids en fonction de la valeur du gradient au
m
1
i
point actuel. wk +1 = wk − f wk (x )
m i=1
⚫ La descente de gradient stochastique (SGD) sélectionne de manière aléatoire un
échantillon dans un ensemble de données pour mettre à jour le paramètre de pondération en
fonction de la valeur du gradient au point actuel.
wk +1 = wk −fw (x i )
k
wk +1 = wk −
1
n i=t
f wk (x i )
93
Comparaison des trois méthodes de
descente de gradient
• Dans le SGD, les échantillons sélectionnés pour chaque apprentissage sont stochastiques. Une
telle instabilité rend la fonction de perte instable ou même provoque un déplacement inverse
lorsque la fonction de perte diminue jusqu'au point le plus bas.
• BGD a la stabilité la plus élevée mais consomme trop de ressources informatiques.
• MBGD est une méthode qui équilibre SGD et BGD.
BGD
Uses all training samples for training each time.
SGD
Uses one training sample for training each time.
MBGD
Uses a certain number of training samples for
training each time.
94
Paramètres et hyperparamètres dans les
modèles
• Le modèle contient non seulement
des paramètres mais aussi des
hyperparamètres.
Model parameters are
• Le but est de permettre au modèle "distilled" from data.
95
Hyperparamètres d'un modèle
• Souvent utilisé dans les processus • λ pendant la régression Lasso/Ridge
• Taux d'apprentissage pour l'entraînement
d'estimation des paramètres du modèle.
d'un réseau de neurones, nombre
• Souvent spécifié par le praticien. d'itérations, taille du lot, fonction
• Peut souvent être défini à l'aide d'activation et nombre de neurones
• 𝐶 et dans le vecteur support machines
d'heuristiques.
(SVM)
• Souvent réglé pour un problème de • K dans k plus proche voisin (KNN)
modélisation prédictive donné. • Nombre d'arbres dans une forêt aléatoire
96
Procédure et méthode de recherche
d'hyperparamètres
1. Diviser un ensemble de données en un ensemble d'apprentissage, un ensemble de
validation et un ensemble de test.
2. Optimiser les paramètres du modèle à l'aide de l'ensemble d'apprentissage basé sur
les indicateurs de performance du modèle.
Procédure de 3. Recherche des hyper-paramètres du modèle à l'aide du jeu de validation basé sur les
recherche indicateurs de performance du modèle.
d'hyperparamètres 4. Effectuez l'étape 2 et l'étape 3 en alternance. Enfin, déterminez les paramètres et les
hyperparamètres du modèle et évaluez le modèle à l'aide de l'ensemble de test.
• Grille de recherche
• Recherche aléatoire
• Recherche intelligente
Algorithme de heuristique
recherche • Recherche bayésienne
(étape 3)
97
Méthode de recherche d'hyperparamètres -
Recherche par grille
• La recherche par grille tente de rechercher de
Grid search
manière exhaustive toutes les combinaisons
5
d'hyperparamètres possibles pour former une grille
Hyperparameter 1
de valeurs d'hyperparamètres. 4
98
Méthode de recherche
d'hyperparamètres - Recherche aléatoire
• Lorsque l'espace de recherche d'hyperparamètres est
Random search
grand, la recherche aléatoire est meilleure que la
recherche par grille.
• Dans la recherche aléatoire, chaque paramètre est
échantillonné à partir de la distribution des valeurs de
paramètres possibles, dans le but de trouver le meilleur
Parameter 1
sous-ensemble d'hyperparamètres.
• La recherche est effectuée dans une plage grossière,
qui sera ensuite réduite en fonction de l'endroit où le
meilleur résultat apparaît
• Certains hyperparamètres sont plus importants que
d'autres et l'écart de recherche sera affecté lors de la Parameter 2
recherche aléatoire.
Cross Validation (1)
Validation croisée : Il s'agit d'une méthode d'analyse statistique utilisée pour valider les
performances d'un classificateur. L'idée de base est de diviser l'ensemble de données
d'origine en deux parties : l'ensemble d'apprentissage et l'ensemble de validation. Entraînez le
classificateur à l'aide de l'ensemble d'apprentissage et testez le modèle à l'aide de l'ensemble
de validation pour vérifier les performances du classificateur.
k-fold cross validation (𝑲 - 𝑪𝑽):
• Divisez les données brutes en 𝑘 groupes (généralement répartis de manière égale).
• Utilisez chaque sous-ensemble comme ensemble de validation et utilisez les autres sous-
ensembles − 1 comme ensemble d'apprentissage. Un total de 𝑘 modèles peut être obtenu.
• Utilisez la précision de classification moyenne des ensembles de validation finaux des
modèles comme indicateur de performance du classificateur 𝐾 − 𝐶𝑉.
Cross Validation (2)
Entire dataset
102
Présentation de l'algorithme
d'apprentissage automatique
103
Formulation
• On appelle fonction d’apprentissage la fonction notée : l ∶ X -> Y qui associe un résultat
(valeur) supervisé à chaque vecteur d’entrée.
• Le but d’un algorithme d’apprentissage supervisé sera donc d’approcher cette fonction l,
uniquement à partir des exemples d’apprentissage.
• En fonction du résultat (comportement) supervisé que l’on veut obtenir, on peut
distinguer deux types problèmes :
–Régression : lorsque le résultat supervisé que l’on cherche à estimer est une
valeur dans un ensemble continu de réels.
–Classification : lorsque l’ensemble des valeurs de sortie est discret. Ceci revient à
attribuer une classe (aussi appelée étiquette ou label) pour chaque vecteur d’entrée.
• Nous nous plaçons souvent dans le cas de problème classification à deux classes (2-classe)
qui peut être facilement étendu à N-classe.
104
Méthodes de classification
supervisée
• Les méthodes de classification supervisée peuvent être basées sur
• des hypothèses probabilistes (cas du classifieur naïf bayésien),
• des notions de proximité (exemple, k plus proches voisins) ou
• des recherches dans des espaces d'hypothèses (exemple, arbres de
décisions).
105
Problème Linéaire et Non-
Linéaire
• On dit qu'un problème est linéairement séparable si les exemples de classes
différentes sont complètement séparables par un hyperplan
• Un problème peut être non séparable de manière linéaire. Dans ce cas, il faut
utiliser d'autres types de classifieurs, souvent plus longs à paramétrer, mais qui
obtiennent des résultats plus précis.
106
Problème Linéaire et Non-
Linéaire
• Un problème, initialement, non linéairement séparable peut s'avérer séparable avec
l'ajout d'un nouvel attribut.
• D'où l'intérêt d'un choix judicieux de ces attributs.
• C'est ce principe qui est utilisé par le classifieur Support Vector Machine (SVM)
107
Classifieurs à mémoire
•L'intérêt de ces classifieurs est qu'ils ne nécessitent aucune phase
d'apprentissage ou d’entraînement
•Ils permettent de déduire directement la classe d'un nouvel exemple
à partir de l'ensemble d'apprentissage.
108
Régression linéaire (1)
• Une méthode d'analyse statistique pour déterminer les relations
quantitatives entre deux ou plusieurs variables par l'analyse de
régression par les statistiques.
109
Régression linéaire (2)
• La fonction de modèle de la régression linéaire est la suivante, w
indique le paramètre de pondération, 𝑏 indique le biais et 𝑥 indique
l'attribut de l'échantillon.
111
Régression linéaire et prévention du
surapprentissage
• Des termes de régularisation peuvent être utilisés pour réduire le
surapprentissage. La valeur de ne peut pas être trop grande ou trop petite dans
l'espace échantillon. Vous pouvez ajouter une perte de somme carrée sur la
fonction cible.
113
Régression logistique
• Le modèle de régression logistique et le modèle de régression linéaire sont tous deux des
modèles linéaires généralisés. La régression logistique introduit des facteurs non
linéaires (la fonction sigmoïde) basés sur la régression linéaire et définit des seuils, afin
de pouvoir traiter les problèmes de classification binaire.
• Selon la fonction modèle de la régression logistique, la fonction de perte de la régression
logistique peut être estimée comme suit en utilisant l'estimation du maximum de
vraisemblance :
114
Extension de régression logistique -
Fonction Softmax
• La régression logistique s'applique principalement aux problèmes de
classification binaire. Pour les problèmes de classification multi-
classes, utilisez la fonction Softmax.
115
Extension de régression logistique -
Fonction Softmax
• La fonction Softmax est utilisée pour mapper un vecteur K-
dimensions de valeurs réelles arbitraires à un autre vecteur K-
dimensions de valeurs réelles, où chaque élément est dans l'intervalle
(0, 1).
• La fonction de probabilité de régression de Softmax est la suivante :
116
Extension de régression logistique -
Fonction Softmax
• Softmax attribue une probabilité à chaque classe dans un problème
multi-classes. Ces probabilités doivent totaliser 1.
Catégorie Probabilité
Raisin? 0.09
Banane? 0.01
117
K-plus proches Voisins
•Le classifieur des k plus proches voisins ou k-ppv (k-Nearest
Neighbor ou k-NN, en anglais) est l'un des algorithmes de
classification les plus simples.
•Principe : Un exemple est classifié par vote majoritaire de ses k
"voisins" (par mesure de distance),
–c'est-à-dire qu'il est prédit de classe C si la classe la plus
représentée parmi ses k voisins est la classe C.
–L'opérateur de distance le plus souvent utilisé est la distance
Euclidienne.
–Un cas particulier est le cas où k = 1, l'exemple est alors affecté à
la classe de son plus proche voisin. 118
K-plus proches Voisins
•Le choix du k est très important pour la classification.
•On s’abstient de choisir des valeurs paires de k, pour éviter les cas
d'égalité.
119
Pseudo-Algorithme K−ppv
120
Segmentation d'image par k-ppv
• On suppose qu’on dispose d’une base d’exemple étiquetés (dans ce cas un
ensemble de pixels dont on connaît leurs appartenances aux régions
(classes) dans l’image)
• Pour un nouveau pixel xi , prédire sa classe d’appartenance yi
• Pour chaque pixel xi à classer :
–Calculer les distances avec les pixels des régions étiquetées : {dj }
–Si k = 1 ⇒ la classe yi de xi est celle de l’exemple le plus proche de xi
–si k > 1 ⇒ la classe yi de xi est la classe majoritaire des k exemples les plus
proches au sens de la distance choisie
121
Segmentation d'image par k-ppv
122
Classifieur Naïf Bayésien
123
Théorème de Bayes
•Soit l’ensemble d’apprentissage D, la probabilité aposteriori de
l’hypothèse h, P(h|D) suit le théorème de Bayes :
125
Exemple
• Le problème de classification peut être formalisé en utilisant les probabilités a-
posteriori:
126
Exemple estimer P(xi|C)
Temps
Temps Temperature Humidite Vent Class
soleil chaud élevé faux N P(soleil|P) = 2/9 P(soleil|N) = 3/5
soleil chaud élevé VRAI N
couvert chaud élevé faux P P(couvert|P) = 4/9 P(couvert|N) = 0
pluie tiede élevé faux P
pluie froid normal faux P P(pluie|P) = 3/9 P(pluie|N) = 2/5
pluie froid normal N
couvert froid normal VRAI P Température
soleil tiede élevé faux N
soleil froid normal faux P P(chaud|P) = 2/9 P(chaud|N) = 2/5
pluie tiede normal faux P
soleil tiede normal VRAI P P(tiède|P) = 4/9 P(tiède|N) = 2/5
couvert tiede élevé VRAI P
couvert chaud normal faux P P(froid|P) = 3/9 P(froid|N) = 1/5
pluie tiede élevé VRAI N
Humidité
P(p) = 9/14 P(élevée|P) = 3/9 P(élevée|N) = 4/5
Vent
P(Vrai|P) = 3/9 P(vrai|N) = 3/5
X = <pluie, chaud, P(faux|P) = 6/9 127
P(faux|N) = 2/5
élevée, faux>
Exemple : test
• Soit X = <pluie, chaud, élevée, faux>
• P(X|p)·P(p) =
P(pluie|p)·P(chaud|p)·P(élevée|p)·P(faux|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 =
0.010582
• P(X|n)·P(n) =
P(pluie|n)·P(chaud|n)·P(élevée|n)·P(faux|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 =
0.018286
128
Exercice
Fievre Douleur Toux Maladie
oui Abdomen non Appendicite
non Abdomen oui Appendicite
oui gorge non rhume
oui gorge oui rhume
non gorge oui mal de gorge
oui non non aucune
oui non oui rhume
non non oui refroidissement
non non non aucune
129
Arbres de Décision
•Les arbres de décision sont un outil très populaire de classification. Leur
principe repose sur la construction d'un arbre de taille limitée.
•La racine constitue le point de départ de l'arbre et représente l'ensemble
des données d'apprentissage. Puis ces données sont segmentées en
plusieurs sous-groupes, en fonction d'une variable discriminante (un des
attributs).
•Une fois l'arbre construit à partir des données d'apprentissage, on peut
prédire un nouveau cas en le faisant descendre le long de l'arbre, jusqu'à
une feuille.
•Comme la feuille correspond à une classe, l'exemple sera prédit comme
faisant partie de cette classe.
130
Exemple
•Une personne qui a une température < 37°C et qui a de la toux est
prédite comme malade, tandis qu'une personne qui a une température
< 37°C mais pas de toux est considérée comme saine.
131
Construction de l’arbre
•Lors de la création de l'arbre, la première question qui vient à l'esprit est
le choix de la variable de segmentation sur un sommet.
•Pourquoi par exemple avons-nous choisi la variable "température" à la
racine de l'arbre ?
•Il nous faut donc une mesure afin d'évaluer la qualité d'une segmentation
et sélectionner la meilleure variable sur chaque sommet.
•Ces algorithmes s'appuient notamment sur les techniques issues de la
théorie de l'information, et notamment la théorie de Shannon
132
Idée et Propriétés Générales
•Diviser récursivement et le plus efficacement possible les individus de
l’ensemble d’apprentissage par des tests définis à l’aide des variables
jusqu’à ce que l’on obtienne des sous-ensembles d’individus ne
contenant (presque) que des exemples appartenant à une même
classe
•A la base, trois opérations seront nécessaires :
–Décider si un nœud est terminal (tous les individus sont dans la même
classe).
–Sélectionner un test à associer à un nœud (utiliser critères
statistiques).
–Affecter une classe à une feuille (nœud terminal)- la classe majoritaire
133
Classification et Règles
•L’Arbre de Décision (AD) permet de classer un nouvel exemple : (37.2, oui), c’
est-à-dire, Température=37.2 et Gorge-Irritée=oui, comme appartenant à la
classe malade.
•L’AD peut être traduit en un système de règles ; lesquelles pouvant être
considérées comme le pseudo-code ou l’algorithme de l’AD :
–Si (Temp. < 37.5) et (Gorge-irritée) Alors malade.
–Si (Temp. < 37.5) et Non (Gorge-irritée) Alors Sain.
–Si (Temp. > 37.5) Alors malade.
134
Inférence d’Arbres de Décision
135
Mélange et Degré de Mélange
•Le calcul du degré de mélange des classes dans la population vient
du besoin de comparer les différents choix possibles.
•Ainsi, de ce besoin, on introduit des fonctions qui permettent de
mesurer le degré de mélange d’une population dans les différentes
classes.
•Les propriétés de ces fonctions devraient être de la sorte :
–Le minimum est atteint lorsque tous les nœuds sont « purs » (si tous les
individus associés au nœud appartiennent à la même classe). Ainsi, le
mélange sera minimal (sinon nul).
–Le maximum est atteint lorsque les individus sont équirépartis entre les
classes (mélange maximal).
136
Exemples de Fonctions Mélanges
137
Notion de Gain
138
Algorithme de Construction
d’un Arbre de Décision
139
Jeu de Données
• Soit le tableau suivant récapitulant l’ensemble des clients
d’une compagnie d’assurance.
141
Tester les Candidats à la Racine
142
Tester les Candidats à la Racine
143
Tester les Candidats à la Racine
144
Quel Test Choisir ?
145
Le Premier Niveau de l’Arbre Appris
146
Exercice
147
SVM (Support Vector Machine)
• SVM est un modèle de classification binaire dont le modèle de base
est un classificateur linéaire défini dans l'espace propre avec le plus
grand intervalle. Les SVM incluent également des astuces de noyau
qui en font des classificateurs non linéaires. L'algorithme
d'apprentissage SVM est la solution optimale à la programmation
quadratique convexe.
Projection
or
With binary classification Both the left and right methods can be used to
Two-dimensional dataset divide datasets. Which of them is correct?
149
SVM linéaire
• Les lignes droites sont utilisées pour diviser les données en différentes classes. En fait, nous
pouvons utiliser plusieurs lignes droites pour diviser les données. L'idée de base de la SVM est de
trouver une ligne droite et de garder le point proche de la ligne droite aussi loin que possible de la
ligne droite. Cela peut permettre une forte capacité de généralisation du modèle. Ces points sont
appelés vecteurs supports.
• Dans l'espace à deux dimensions, nous utilisons des lignes droites pour la segmentation. Dans
l'espace de grande dimension, nous utilisons des hyperplans pour la segmentation.
La distance entre
les vecteurs de
support est aussi
loin que possible
150
SVM non linéaire
151
SVM non linéaire
• Les fonctions du noyau sont utilisées pour construire des SVM non linéaires.
• Les fonctions de noyau permettent aux algorithmes de s'adapter au plus grand
hyperplan dans un espace de caractéristiques transformé de grande dimension.
Linear Polynomial
kernel kernel
function function
Gaussian Sigmoid
kernel kernel
function function Input space High-dimensional
feature space
152
Méthodes de classification non supervisées
• Il s’agit d’une tâche principale en intelligence artificielle et dans la
fouille exploratoire de données.
• C’est une technique d’analyse statistique des données très utilisée
dans de nombreux domaines y compris l’apprentissage automatique,
la reconnaissance de formes, le traitement d’images, la recherche
d’information, etc.
• L’idée est de découvrir des groupes au sein des données, de façon
automatique.
153
Algorithme des Centres Mobiles
•K-means est un algorithme de minimisation alternée qui, étant donné un
entier K , va chercher à séparer un ensemble de points en K clusters ou
groupes
154
Combien de Classes ?
•Le nombre K représente le nombre de classes que
l’algorithme doit former à partir des propriétés des
échantillons ou exemples.
•Le nombre de groupes K peut être supposé fixe (donné par
l’utilisateur) ou fixé par la nature du problème à traiter.
–C’est le cas, si l’on s’intéresse à classer des images de chiffres
manuscrits (nombre de classes = 10 : 0, ..., 9) ou de lettres
manuscrites (nombre de classes = nombres de caractères de
l’alphabet), etc.
155
Données, Classes et Métrique
•Considérons une image couleur. On peut donc représenter le ième pixel
par un vecteur xi de dimension 3 : xi= (xi1 , xi2 , xi3 ) ∈ {0, 1, ... , 255} 3 .
•Ainsi, si le problème de classification consiste à répartir les données
pixel en 3 classes : rouge, verte, bleue. L’idée revient à mesurer la
proportion (métrique en taux) de chaque composante de couleur
(R%, V% et B%) contenue dans chaque pixel.
•Mais, on peut aussi procéder de la manière suivante : Si l’on connaît
les classes de certains pixels, on pourra prédire les classes des autres
pixels en choisissant une mesure de (dis)similarité ou de
(dis)ressemblance,
156
Exemple
•7 objets représentés chacun par un descripteur à 2 paramètres
•On veut grouper ces données (selon leurs similarités) en deux (k=2) groupes
: G 1 et G 2 .
157
Exemple
• On procèdera de la manière suivante :
158
159
160
Propriétés du K-means
•C’est un algorithme de regroupement simple et rapide, mais aussi très
utilisé.
•La méthode k-means minimise une mesure de dissemblance intra-
classe pour les k-groupes.
•Chaque objet est affecté au cluster dont le centre
(centroîde/barycentre) est le plus proche.
•Le centre d’un groupe est la moyenne de tous les points (éléments)
de ce groupe.
•Son inconvénient est qu’il produit un résultat différent à chaque
exécution (initialisation).
161
Classification Hiérarchique
Ascendante
•La classification hiérarchique ou (re)groupement
hiérarchique (ou clustering) est une méthode de
classification automatique qui consiste à effectuer une suite
de regroupements en agrégeant à chaque étape les objets
(données ou descripteurs d’objets) ou les groupes d’objets
les plus proches.
•On trouve des applications dans des domaines très divers
tels que la biologie (classements par espèce, genre),
l’archéologie, le traitement d’images, le traitement de
requêtes, etc.
162
Exemple
•Soit un ensemble d’objets
représentés par des points
numérotés de 1 à 5, dans
un repère euclidien.
•Notons d la distance
euclidienne mesurée entre
les objets.
163
164
165
166
Dendrogramme
•Cette hiérarchie de
regroupement, clustering,
des objets peut être
représentée par un
diagramme dit :
dendrogramme. C’est
une représentation
arborescente d’une
hiérarchie.
167
Etapes du Regroupement
12 Hiérarchique
10
6 1 colonne
2 colonne
3 colonne
0
1 ligne 2 ligne 3 ligne 4 ligne
168
Recherche d’une Hiérarchie Indicée
à partir d’une Ultramétrique
169
Exemple
170
171