0% ont trouvé ce document utile (0 vote)
440 vues170 pages

Chapitre II Machine Learning

Le document présente une introduction au machine learning, en définissant son concept, ses types, et ses processus. Il aborde les différences entre les algorithmes traditionnels et ceux basés sur l'apprentissage automatique, ainsi que les principaux problèmes résolus par le machine learning, tels que la classification, la régression et le clustering. Enfin, il souligne l'importance du traitement des données pour la performance des modèles d'apprentissage automatique.

Transféré par

Mon BAC
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
440 vues170 pages

Chapitre II Machine Learning

Le document présente une introduction au machine learning, en définissant son concept, ses types, et ses processus. Il aborde les différences entre les algorithmes traditionnels et ceux basés sur l'apprentissage automatique, ainsi que les principaux problèmes résolus par le machine learning, tels que la classification, la régression et le clustering. Enfin, il souligne l'importance du traitement des données pour la performance des modèles d'apprentissage automatique.

Transféré par

Mon BAC
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Intelligence Artificielle

Chapitre II
Machine Learning

1
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique

2
Introduction
✓ Le machine learning est un domaine captivant. Issu de nombreuses disciplines
comme les statistiques, l’optimisation, l’algorithmique ou le traitement du signal,
c’est un champ d’études en mutation constante.

✓ Déjà utilisé depuis des décennies dans la reconnaissance automatique de caractères


ou les filtres anti-spam, il sert maintenant à protéger contre la fraude bancaire,
recommander des livres, films, identifier les visages dans le viseur de notre appareil
photo, ou traduire automatiquement des textes d’une langue vers une autre.

✓ Dans les années à venir, le machine learning nous permettra vraisemblablement


d’améliorer la sécurité routière, la réponse d’urgence aux catastrophes naturelles, le
développement de nouveaux médicaments, ou l’efficacité énergétique de nos
bâtiments et industries.

3
Qu’est ce que le machine learning ?
• En français Apprentissage Automatique
• Benureau (2015) : « L’apprentissage est une modification d’un comportement sur la base d’une
expérience ».
• Arthur Samuel (1959) : « domaine d'études qui donne aux ordinateurs la capacité
d'apprendre sans être explicitement programmés. »
• Tom Mitchell (1998) : On dit qu'un programme informatique apprend de
l'expérience E par rapport à une tâche T et à une mesure de performance P, si sa
performance sur T, telle que mesurée par P, s'améliore avec l'expérience

Data Learning Basic


algorithms understanding
(Experience E)
(Task T) (Measure P)4
Qu’est ce que le machine learning ?

5
Qu’est ce que le machine learning ?
Supposons que votre programme de messagerie surveille les e-mails
que vous marquez ou ne marquez pas comme spam et, en fonction de
cela, apprenne à mieux filtrer le spam. Quelle est la tâche T dans ce
cadre ?

o Classer les e-mails comme spam ou non spam.


o Vous étiquetez les e-mails comme spam ou non spam.
o Le nombre d'e-mails correctement classés comme spam/non spam.
o Aucune des réponses ci-dessus : il ne s'agit pas d'un problème
d'apprentissage automatique.
6
Qu’est ce que le machine learning ?

7
Différences entre ML et les algorithmes
traditionnels basés sur des règles
Rule-based algorithms Machine learning

Training
data

Machine
learning

New data Model Prediction

• Des échantillons sont utilisés pour


• La programmation explicite est utilisée l’entrainement.
pour résoudre des problèmes. • Les règles de prise de décision sont
• Les règles peuvent être spécifiées complexes ou difficiles à décrire.
manuellement. • Les règles sont automatiquement apprises
8
par les machines.
Scénarios d'application du ML
• La solution à un problème est complexe, ou le problème peut
impliquer une grande quantité de données sans fonction de
distribution de données claire.
• L'apprentissage automatique peut être utilisé dans les scénarios
suivants :
Les règles sont Les règles changent La distribution des
complexes ou ne au fil du temps. données change au fil
peuvent pas être du temps
décrites

9
Scénarios d'application du ML

Complex
Machine learning
Rule complexity

Manual rules
algorithms
Simple

Rule-based
Simple problems
algorithms

Small Large

Scale of the problem 10


Compréhension rationnelle des algorithmes
du ML
• La fonction cible f est inconnue. Les algorithmes
d'apprentissage ne peuvent pas obtenir une fonction parfaite f.
• Supposons que la fonction d'hypothèse g se rapproche de la
fonction f, mais peut être différente de la fonction f.

11
Termes et concepts de base
• Ensemble de données (Dataset) : fait référence à un ensemble de données
utilisées dans les tâches d'apprentissage automatique. Chaque donnée est
appelée un échantillon. L'événement ou l'attribut qui reflète la
performance ou la nature d'un échantillon dans un certain aspect est
appelé une caractéristique (feature).

• Ensemble d'apprentissage (training set) : fait référence à un ensemble de


données utilisé dans le processus d'apprentissage, où chaque échantillon
est appelé échantillon d'apprentissage. Le processus d'apprentissage d'un
modèle à partir de données est appelé apprentissage (training).

12
Termes et concepts de base
• Ensemble de test (Test set) : le test fait référence au processus d'utilisation
du modèle appris pour la prédiction. L'ensemble de données utilisé est
appelé ensemble de test et chaque échantillon est appelé échantillon de
test.

• Capacité de généralisation (Generalization capability): l'objectif de


l'apprentissage automatique est que le modèle appris fonctionne bien sur
les nouveaux échantillons, et pas seulement sur ceux sur lesquels le
modèle a été formé. La capacité de bien performer sur de nouveaux
échantillons est appelée capacité de généralisation.

13
Termes et concepts de base
• Erreur : fait référence à la différence entre le résultat de l'échantillon
prédit par le modèle appris et le résultat de l'échantillon réel.
• Erreur d'apprentissage : erreur du modèle sur l'ensemble d'apprentissage
• Erreur de généralisation : erreur sur le nouvel échantillon. Évidemment, nous
préférons un modèle avec une erreur de généralisation plus faible.

• Sous-apprentissage (Underfitting) : se produit lorsque l'erreur


d'entraînement est trop importante.

• Surapprentissage (Overfitting) : se produit lorsque l'erreur


d'apprentissage du modèle appris est faible mais que l'erreur de
généralisation est importante (faible capacité de généralisation).
14
Termes et concepts de base
• Capacité d'un modèle : fait référence à la capacité de s'adapter à une grande variété
de fonctions. Les algorithmes d'apprentissage automatique fonctionnent
généralement mieux lorsque leur capacité est appropriée à la véritable complexité de
la tâche qu'ils doivent effectuer et à la quantité de données d'entraînement qui leur
sont fournies. Les modèles avec une capacité insuffisante sont incapables de résoudre
des tâches complexes. Les modèles avec une capacité élevée peuvent résoudre des
tâches complexes, mais lorsque leur capacité est supérieure à celle nécessaire pour
résoudre la tâche actuelle, ils peuvent être surdimensionnés.

15
Principaux problèmes résolus
par le ML
Classification
• Un programme informatique doit spécifier à laquelle des k catégories une entrée appartient. Pour accomplir
cette tâche, les algorithmes d'apprentissage génèrent généralement une fonction 𝑓 : 𝑅𝑛 → (1,2, … , 𝑘).

Régression
• Un programme informatique prédit la sortie pour l'entrée donnée. Les algorithmes d'apprentissage génèrent
généralement une fonction 𝑓 : 𝑅𝑛 → 𝑅

Clustering
• Une grande quantité de données d'un ensemble non étiqueté est divisée en plusieurs catégories en fonction
de la similitude interne des données.
16
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique

17
Types d'apprentissage automatique
• Apprentissage supervisé (Supervised learning) : Sur la base des
échantillons de classes connues, obtenez un modèle optimal avec les
performances requises grâce à la formation et à l'apprentissage. Ensuite,
le modèle est utilisé pour mapper toutes les entrées aux sorties et
effectuer un jugement simple sur les sorties (classification). Ce modèle
classe les données inconnues.

• Apprentissage non supervisé (Unsupervised learning) : pour les


échantillons non étiquetés, l'algorithme d'apprentissage modélise
directement les ensembles de données d'entrée, tels que le clustering. Il
nous suffit de rassembler des échantillons très similaires, de calculer la
similitude de nouveaux échantillons et de les classer par similitude.
18
Types d'apprentissage automatique
• Apprentissage semi-supervisé (Semi-supervised learning ) : dans une tâche,
un modèle d'apprentissage automatique qui utilise automatiquement une
grande quantité de données non étiquetées pour faciliter l'apprentissage
direct d'une petite quantité de données étiquetées.

• Apprentissage par renforcement (Reinforcement learning) : il s'agit d'un


domaine de l'apprentissage automatique qui concerne la manière dont les
agents doivent entreprendre des actions dans un environnement pour
maximiser une notion de récompense cumulative. La différence entre
l'apprentissage par renforcement et l'apprentissage supervisé est le signal de
l'enseignant. Le signal de renforcement fourni par l'environnement dans
l'apprentissage par renforcement est utilisé pour évaluer l'action (signal
scalaire) plutôt que de dire au système d'apprentissage comment effectuer les
actions correctes.
19
Apprentissage supervisé : Classification
Data feature Label

Feature 1 ... Feature n Goal

Supervised learning
Feature 1 ... Feature n Goal
algorithm

Feature 1 ... Feature n Goal

Wind Enjoy
Weather Temperature
Spee Sports
d
Yes
Sunny Warm Strong
No
Rainy Cold Fair
Yes
Sunny Cold Weak 20
Apprentissage supervisé : Régression

LUNDI MARDI

25°
21
Apprentissage non supervisé
Data Feature

Feature 1 ... Feature n

Unsupervised Internal
Feature 1 ... Feature n similarity
learning algorithm

Feature 1 ... Feature n

Monthly Consumptio
Commodity
Consumptio n Time Category
n
Cluster 1
Badminton
1000–2000 6:00–12:00 Cluster 2
racket
500–1000 Basketball 18:00–24:00
1000–2000 Game console 00:00–6:00
22
Apprentissage semi supervisé
Data Feature Label

Feature 1 ... Feature n Goal

Semi-supervised
Feature 1 ... Feature n Unknown
learning algorithms

Feature 1 ... Feature n Unknown

Wind Enjoy
Weather Temperature
Speed Sports
Sunny Warm Strong Yes
Rainy Cold Fair /
Sunny Cold Weak /
23
Apprentissage par renforcement
• Le modèle perçoit l'environnement, prend des mesures et fait des
ajustements et des choix en fonction du statut et de l'attribution ou
de la punition, cherche toujours les meilleurs comportements.
• L'apprentissage par renforcement s'adresse aux machines ou aux
robots.

24
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique

25
Processus ML

Nettoyage Extraction et Déploiement


Entrainem
Collecte de des sélection de Evaluation et intégration
ent du
données données caractéristiqu du modèle du modèle
modèle
es

Feedback et itération

26
Vérification de l'ensemble des données

Feature 1 Feature 2 Feature 3 Label

No. Area School Districts Direction House Price

1 100 8 South 1000

2 120 9 Southwest 1300


Training
set 3 60 6 North 700

4 80 9 Southeast 1100

Test set 5 95 3 South 850

27
Importance du traitement des données
⚫ Les données sont cruciales pour les modèles. C'est le plafond des capacités
du modèle. Sans bonnes données, il n'y a pas de bon modèle.

Prétraitement
Normalisation des
Nettoyage des
données des données données

Normalisez les données


Complétez les pour réduire le bruit et
valeurs manquantes, améliorer la précision du
détectez et éliminez modèle.
les causes des
exceptions de jeu de
données.
Réduction des
dimensions
de données

Simplifiez les attributs de


données pour éviter
l'explosion des
dimensions. 28
Charge de travail du nettoyage des données

3% Remodeling training datasets


5% Others
4% Optimizing models

9% Mining modes from data

19% Collecting datasets

60% Cleansing and sorting data

CrowdFlower Data Science Report 2016

29
Nettoyage des données
⚫ La plupar t des mo dèles d' appr ent issag e aut o mat ique t r ait ent des
car act ér ist iques, qui so nt g énér alement des r epr ésent at io ns numér iques
des v ar iables d' ent r ée po uv ant êt r e ut ilisées dans le mo dèle.

⚫ Dans la plupart des cas, les données collectées ne peuvent être utilisées par des
algorithmes qu'après avoir été prétraitées. Les opérations de prétraitement comprennent
les suivantes :


Filtrage des données
 Traitement des données perdues
 Traitement des exceptions, erreurs ou valeurs anormales possibles
 Combinaison de données provenant de plusieurs sources de données
 Consolidation des données
30
Mauvaises données (1)
⚫ Généralement, les données réelles peuvent avoir des problèmes de qualité.

Incomplétude : contient des valeurs manquantes ou des données sans attributs
 Bruit : contient des enregistrements ou des exceptions incorrects.
 Incohérence : contient des enregistrements incohérents.

31
Mauvaises données (2)
IsTe #Stu
# Id Name Birthday Gender ach dent Country City
er s

1 111 John 31/12/1990 M 0 0 Ireland Dublin

2 222 Mery 15/10/1978 F 1 15 Iceland Missing value


Madri
3 333 Alice 19/04/2000 F 0 0 Spain
d

4 444 Mark 01/11/1997 M 0 0 France Paris


Invalid value
5 555 Alex 15/03/2000 A 1 23 Germany Berlin

6 555 Peter 1983-12-01 M 1 10 Italy Rome

7 777 Calvin 05/05/1995 M 0 0 Italy Italy Value that


should be in
8 888 Roxane 03/08/1948 F 0 0 Portugal Lisbon another column
Switzerlan Gene
Invalid duplicate item 9 999 Anne 05/09/1992 F 0 5
d v a

10 101010 Paul 14/11/1992 M 1 26 Ytali Rome Misspelling

Incorrect format Attribute dependency

32
Conversion des données
Après avoir été prétraitées, les données doivent être converties en une forme de
représentation adaptée au modèle d'apprentissage. Les formes de conversion de
données courants sont les suivants :
 En ce qui concerne la classification, les données de catégorie sont codées dans une
représentation numérique correspondante.
 Les données de valeur sont converties en données de catégorie pour réduire la
valeur des variables (pour la segmentation par âge).

Autres données

Dans le texte, le mot est converti en un vecteur de mot par insertion de mots
(généralement en utilisant le modèle word2vec, modèle BERT, etc.).
◼Traiter les données d'image (espace colorimétrique, niveaux de gris, changement
géométrique et amélioration de l'image)
 Ingénierie des fonctionnalités
◼ Normaliser les caractéristiques pour garantir les mêmes plages de valeurs pour les
variables d'entrée du même modèle.
◼ Extension des fonctionnalités : combinez ou convertissez des variables existantes pour
générer de nouvelles fonctionnalités, telles que la moyenne. 33
Nécessité de la sélection des fonctionnalités
⚫ Généralement, un ensemble de données a de nombreuses caractéristiques, dont
certaines peuvent être redondantes ou sans rapport avec la valeur à prédire.

⚫ La sélection des caractéristiques est nécessaire dans les aspects suivants :

Simplify
models to
Reduce the
make them
training time
easy for users
to interpret

Improve
Avoid model
dimension generalization
explosion and avoid
overfitting

34
Méthodes de sélection des caractéristiques -
Filtre
Les méthodes de filtrage sont indépendantes du modèle lors de la sélection des

caractéristiques.
En évaluant la corrélation entre chaque caractéristique et
l'attribut cible, ces méthodes utilisent une mesure
statistique pour attribuer une valeur à chaque
caractéristique. Les fonctionnalités sont ensuite triées par
score, ce qui est utile pour préserver ou éliminer des
fonctionnalités spécifiques.

Parcourez Sélectionnez Méthodes courantes :


Entraine
toutes les
le sous- Évaluer les • Coefficient de corrélation de Pearson
ensemble de ment du
caractéristiqu modèle
performances • Coefficient Chi-square
caractéristiqu
es es optimales • Informations mutuelles

Limites :
• La méthode de filtrage a tendance à sélectionner
Procédure d'une méthode de filtrage des variables redondantes car la relation entre les
caractéristiques n'est pas prise en compte.

35
Méthodes de sélection de caractéristiques -
Wrapper
⚫ Les méthodes wrapper utilisent un modèle de prédiction pour évaluer les sous-
ensembles de caractéristiques.
Les méthodes wrapper considèrent la sélection de
caractéristiques comme un problème de recherche
Sélectionnez le sous- pour lequel différentes combinaisons sont évaluées et
ensemble de comparées. Un modèle prédictif est utilisé pour
caractéristiques optimales évaluer une combinaison de caractéristiques et
attribuer un score basé sur la précision du modèle.
Générer Méthodes communes
un sous- Entrainer
ensemble
• Recursive feature elimination (RFE)
Parcourez toutes le Evaluate
de
les caractéristiques modèle models Limites
caractéris
tiques • Les méthodes wrapper entraînent un
nouveau modèle pour chaque sous-ensemble,
ce qui entraîne un grand nombre de calculs.
Procédure
Wrapper • Un ensemble de caractéristiques avec les
meilleures performances est généralement
fourni pour un type spécifique de modèle

36
Méthodes de sélection de fonctionnalités –
Intégrées (Embedded)
⚫ Les méthodes intégrées considèrent la sélection des caractéristiques comme faisant
partie de la construction du modèle.
Le type le plus courant de méthode de sélection de
caractéristiques intégrées est la méthode de régularisation.
Sélectionnez le sous-ensemble de Les méthodes de régularisation sont également appelées
caractéristiques optimales méthodes de pénalisation qui introduisent des contraintes
supplémentaires dans l'optimisation d'un algorithme prédictif
Insérer un
Entrainer le
qui biaisent le modèle vers une complexité moindre et
Parcourez toutes sous
modèle
les ensemble réduisent le nombre de caractéristiques.
de + Évaluer l'effet
caractéristiques
caractéristi
ques
Méthodes communes
Procédure d'une méthode embarquée
• Lasso regression
• Ridge regression

37
Procédure globale de construction d'un modèle
Model Building Procedure

1 2 3

Data splitting: Model training: Model verification:


Divide data into training Use data that has been Use validation sets to
sets, test sets, and cleaned up and feature validate the model
validation sets. engineering to train a model. validity.

6 5 4

Model fine-tuning: Model deployment: Model test:


Continuously tune the Deploy the model in Use test data to evaluate
model based on the an actual the generalization
actual data of a service production scenario. capability of the model in
scenario. a real environment.

38
Exemples d'apprentissage supervisé - Phase
d'apprentissage
⚫ Utilisez le modèle de classification pour prédire si une personne est un joueur de basket-ball.
Feature
( attribute) Target

Service Name City Age Label


Training set
data Mike Miami 42 yes The model searches
Jerry New York 32 no for the relationship
(Cleansed features and tags)
between features
Splitting Bryan Orlando 18 no
and targets.
Task: Use a classification model to predict Patricia Miami 45 yes
whether a person is a basketball player
under a specific feature. Elodie Phoenix 35 no Test set
Remy Chicago 72 yes Use new data to
verify the model
John New York 48 yes
validity.
Model
training
Each feature or a combination of several features can
provide a basis for a model to make a judgment.

39
Exemples d'apprentissage supervisé - Phase de
prédiction
Name City Age Label
Marine Miami 45 ?
Julien Miami 52 ? Unknown data
Recent data, it is not
New Fred Orlando 20 ?
known whether the
data Michelle Boston 34 ? people are basketball
Nicolas Phoenix 90 ? players.

IF city = Miami → Probability = +0.7


IF city= Orlando → Probability = +0.2
IF age > 42 → Probability = +0.05*age + 0.06
Application IF age ≤ 42 → Probability = +0.01*age + 0.02
model
Name City Age Prediction
Marine Miami 45 0.3
Possibility prediction
Julien Miami 52 0.9
Apply the model to the
Fred Orlando 20 0.6 new data to predict
Prediction whether the customer
Michelle Boston 34 0.5
data will change the supplier.
Nicolas Phoenix 90 0.4 40
Qu'est-ce qu'un bon modèle ?
• Capacité de généralisation
Peut-il prédire avec précision les données de réelles ?

• Interprétabilité
Le résultat de la prédiction est-il facile à interpréter ?

• Vitesse de prédiction
Combien de temps faut-il pour prédire chaque
donnée ?
• Praticabilité
Le taux de prédiction est-il toujours acceptable
lorsque le volume de données devient énorme ?

41
Validité du modèle
⚫ Capacité du modèle : capacité du modèle à ajuster les fonctions, également appelée complexité du modèle.


Lorsque la capacité correspond à la complexité de la tâche et à la quantité de données
d'entraînement fournies, l'effet de l'algorithme est généralement optimal.
 Les modèles avec une capacité insuffisante ne peuvent pas résoudre des tâches complexes et
un sous-apprentissage peut se produire.

Un modèle à haute capacité peut résoudre des tâches complexes, mais un surapprentissage
peut se produire si la capacité est supérieure à celle requise par une tâche.

Underfitting Good fitting Overfitting


. Noises are learned.

42
Cause du sur-apprentissage — Erreur
⚫ Erreur totale de la prédiction finale = Bias + Variance + Erreur irréductible

⚫ Généralement, l'erreur de prédiction peut être divisée en deux types :



Erreur causée par "biais"
Variance
 Erreur causée par l’écart « Variance"

⚫ Variance: Bias

 Décalage du résultat de prédiction par rapport à la valeur


moyenne
 Erreur causée par la sensibilité du modèle aux petites
fluctuations de l'ensemble d'apprentissage

⚫ Bias:
 Différence entre la valeur de prédiction attendue (ou moyenne) et la
valeur correcte que nous essayons de prédire.

43
Variance et Bias
⚫ Les combinaisons de variance et de biais sont
les suivantes :

Faible biais et faible variance -> Bon modèle
 Faible biais et variance élevée
 Biais élevé et faible variance
 Biais élevé et variance élevée -> Modèle
médiocre
⚫ Idéalement, nous voulons un modèle capable de
capturer avec précision les règles dans les
données d'apprentissage et de résumer les
données invisibles (nouvelles données).
Cependant, il est généralement impossible pour
le modèle d'effectuer les deux tâches en même
44
temps.
Complexité du model et erreur
⚫ Au fur et à mesure que la complexité du modèle augmente, l'erreur d'apprentissage
diminue.
⚫ À mesure que la complexité du modèle augmente, l'erreur de test diminue jusqu'à un certain
point puis augmente dans le sens inverse, formant une courbe convexe.

High bias & Low bias &


low variance high variance

Testing error
Error

Training error

Model Complexity

45
Évaluation des performances du ML -
Régression
⚫ Plus l'erreur absolue moyenne (Mean Absolute Error, MAE) est proche de 0, mieux le modèle peut
s'adapter aux données d'apprentissage.

⚫ Erreur quadratique moyenne (Mean Square Error, MSE)

⚫ La plage de valeurs de R2 (range) est (–∞, 1]. Une valeur plus élevée indique que le modèle peut mieux
s'adapter aux données d'apprentissage. TSS indique la différence entre les échantillons. RSS indique la
différence entre la valeur prédite et la valeur de l'échantillon.

46
Évaluation des performances du ML -
Classification (1)
• P : positif, indiquant le nombre de cas réels positifs dans les données.
• 𝑁 : négatif, indiquant le nombre de cas réels négatifs dans les
données.
• 𝑇P : vrai positif, indiquant le nombre de cas positifs correctement
classés par le classifieur.
• 𝑇𝑁 : vrai négatif, indiquant le nombre de cas négatifs qui sont
correctement classés par le classifieur.
• 𝐹𝑃 : faux positif, indiquant le nombre de cas positifs mal classés par
le classificateur.
• 𝐹𝑁 : faux négatif, indiquant le nombre de cas négatifs mal classés par
le classificateur.

47
Évaluation des performances du ML -
Classification (2)
⚫ Matrice de confusion : au moins une table 𝑚 × 𝑚. 𝐶𝑀𝑖,𝑗 des 𝑚 premières lignes et 𝑚 colonnes
indiquent le nombre de cas qui appartiennent réellement à la classe 𝑖 mais qui sont classés dans la
classe 𝑗 par le classificateur.
 Idéalement, pour un classificateur de haute précision, la plupart des valeurs de prédiction devraient être situées dans la
diagonale de 𝐶𝑀1,1 à 𝐶M𝑚,𝑚 du tableau tandis que les valeurs en dehors de la diagonale sont 0 ou proches de 0.
Estimated
amount Total
yes no
Actual amount
yes 𝑇𝑃 𝐹𝑁 𝑃

no 𝐹𝑃 𝑇𝑁 𝑁

Total 𝑃′ 𝑁′ 𝑃+𝑁
Confusion matrix 48
Évaluation des performances du ML -
Classification (3)

49
Exemple d'évaluation des performances
Nous avons entraîné un modèle d'apprentissage automatique pour identifier si l'objet dans une
image est un chat. Maintenant, nous utilisons 200 images pour vérifier les performances du modèle.
Parmi les 200 images, les objets sur 170 images sont des chats, tandis que d'autres ne le sont pas. Le
résultat d'identification du modèle est que les objets dans 160 images sont des chats, tandis que
d'autres ne le sont pas.
Estimated
amount
Actual 𝒚𝒆𝒔 𝒏𝒐 Total
amount

𝑦𝑒𝑠 140 30 170

𝑛𝑜 20 10 30

Total 160 40 200

50
Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique

51
Exemple Régression linéaire à une variable

Apprentissage supervisé 500


On donne la « bonne réponse »
pour chaque exemple dans les 400
données.
300

prix 200

(en 1000$) 100


Problème de régression 0
0 500 1000 1500 2000 2500 3000
Prédire la valeur réelle
superficie (feet2)
52
Exemple Régression linéaire à une variable
Superficie en feet2
Prix en 1000$ (y)
(x)
2104 460
1416 232
1534 315
852 178
… …
Notation:
m = Nombre d’échantillons
x = variable "d'entrée" / caractéristiques
y = variable « sortie » / variable « target » 53
Exemple Régression linéaire à une variable
Comment représente-t-on h ?
Training Set

Algorithme
d’aprentissage

Superficie h Prix
estimé
54
La fonction de coût
Superficie en feet2
Prix en 1000$ (y)
(x)
2104 460
1416 232
1534 315
852 178
… …
Hypothèse:

Choisir ?
55
La fonction de coût

3 3 3

2 2 2

1 1 1

0 0 0
0 1 2 3 0 1 2 3 0 1 2 3

56
La fonction de coût

Idée: Choisir tels que


est proche de
pour un exemple
d’entrainement 57
La fonction de coût
Hypothèse: Simplifié

Parammètres:

Fonction de coût

Objectif:

58
La fonction de coût
( fixé, function de x) (function du paramètre )
3 3

2 2

y
1 1

0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x

59
La fonction de coût
3 3

2 2

y
1 1

0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x

60
La fonction de coût
3 3

2 2

y
1 1

0 0
0 1 2 3 -0,5 0 0,5 1 1,5 2 2,5
x

61
La fonction de coût
Hypothèse:

Paramètres:

Fonction de coût:

but:

62
La fonction de coût
( fixes, en function de x)
(en fontion des paramètres )
500

400

Price ($) 300


in 1000’s
200

100

0
0 500 1000 1500 2000 2500 3000
Size in feet2 (x)

63
La fonction de coût

64
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)

65
La fonction de coût
( fixes, en function de x) (en fontion des paramètres )

66
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)

67
La fonction de coût
(en fontion des paramètres )
( fixes, en function de x)

68
La décente du gradient
Soit la function :
On veut

Plan:
• On choisi arbitrairement
• On modifie pour réduire
Jusqu’à un minimum 69
La décente du gradient

J(0,1)

1
0

70
La décente du gradient

J(0,1)

1
0

71
La décente du gradient : Algorithme

Correct: Mise à jour simultanée Incorrect:

72
La décente du gradient : Algorithme

73
La décente du gradient

74
La décente du gradient

Si α est trés petit la décente du


gradient sera lente

Si α est trop grand, la descente


de gradient peut dépasser le
minimum. Il peut ne pas
converger, voire diverger.
75
La décente du gradient

À l’optimal local

Valeur courante de

76
La décente du gradient
La descente de gradient peut converger vers un minimum local, même
avec le taux d'apprentissage α fixé.

À mesure que nous approchons d'un


minimum local, la descente de
gradient effectuera automatiquement
des pas plus petits. Donc, pas besoin
de diminuer α au fil du temps.

77
78
La décente du gradient

Algorithme de la décente du gradient Modèle de regression linéaire

79
La décente du gradient

update
and
simultaneously

80
La décente du gradient

J(0,1)

1
0

81
La décente du gradient

83
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)

84
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)

85
La décente du gradient

(en fontion des paramètres )


( fixes, en fonction de x)

86
La décente du gradient

(en fontion des paramètres )


( fixes, en function de x)

87
La décente du gradient

(en fontion des paramètres )


( fixes, en fonction de x)

88
La décente du gradient

(en fontion des paramètres )


( fixes, en fonction de x)

89
La décente du gradient

(en fontion des paramètres )


( fixes, en fonction de x)

90
La décente du gradient

(en fontion des paramètres )


( fixes, en fonction de x)

91
La décente du gradient
(en fontion des paramètres )
( fixes, en fonction de x)

92
Variantes de la décente du gradient
⚫ Batch Gradient Descent (BGD) utilise les échantillons dans tous les ensembles de
données pour mettre à jour le paramètre de poids en fonction de la valeur du gradient au
m
1

i
point actuel. wk +1 = wk − f wk (x )
m i=1
⚫ La descente de gradient stochastique (SGD) sélectionne de manière aléatoire un
échantillon dans un ensemble de données pour mettre à jour le paramètre de pondération en
fonction de la valeur du gradient au point actuel.
wk +1 = wk −fw (x i )
k

⚫ Mini-Batch Gradient Descent (MBGD) combine les fonctionnalités de BGD et SGD et


sélectionne les gradients de n échantillons dans un ensemble de données pour mettre
à jour le paramètre de poids. t+n−1

wk +1 = wk −
1

n i=t
f wk (x i )
93
Comparaison des trois méthodes de
descente de gradient
• Dans le SGD, les échantillons sélectionnés pour chaque apprentissage sont stochastiques. Une
telle instabilité rend la fonction de perte instable ou même provoque un déplacement inverse
lorsque la fonction de perte diminue jusqu'au point le plus bas.
• BGD a la stabilité la plus élevée mais consomme trop de ressources informatiques.
• MBGD est une méthode qui équilibre SGD et BGD.

BGD
Uses all training samples for training each time.

SGD
Uses one training sample for training each time.

MBGD
Uses a certain number of training samples for
training each time.
94
Paramètres et hyperparamètres dans les
modèles
• Le modèle contient non seulement
des paramètres mais aussi des
hyperparamètres.
Model parameters are
• Le but est de permettre au modèle "distilled" from data.

d'apprendre les paramètres


Model
optimaux.
• Les paramètres sont automatiquement
appris par les modèles. Training
• Les hyperparamètres sont définis Use
manuellement. hyperparameters to
control training.

95
Hyperparamètres d'un modèle
• Souvent utilisé dans les processus • λ pendant la régression Lasso/Ridge
• Taux d'apprentissage pour l'entraînement
d'estimation des paramètres du modèle.
d'un réseau de neurones, nombre
• Souvent spécifié par le praticien. d'itérations, taille du lot, fonction
• Peut souvent être défini à l'aide d'activation et nombre de neurones
• 𝐶 et dans le vecteur support machines
d'heuristiques.
(SVM)
• Souvent réglé pour un problème de • K dans k plus proche voisin (KNN)
modélisation prédictive donné. • Nombre d'arbres dans une forêt aléatoire

Les hyperparamètres de Hyperparamètre


modèle sont des de modèle
configurations externes de communs
modèles.

96
Procédure et méthode de recherche
d'hyperparamètres
1. Diviser un ensemble de données en un ensemble d'apprentissage, un ensemble de
validation et un ensemble de test.
2. Optimiser les paramètres du modèle à l'aide de l'ensemble d'apprentissage basé sur
les indicateurs de performance du modèle.
Procédure de 3. Recherche des hyper-paramètres du modèle à l'aide du jeu de validation basé sur les
recherche indicateurs de performance du modèle.
d'hyperparamètres 4. Effectuez l'étape 2 et l'étape 3 en alternance. Enfin, déterminez les paramètres et les
hyperparamètres du modèle et évaluez le modèle à l'aide de l'ensemble de test.

• Grille de recherche
• Recherche aléatoire
• Recherche intelligente
Algorithme de heuristique
recherche • Recherche bayésienne
(étape 3)

97
Méthode de recherche d'hyperparamètres -
Recherche par grille
• La recherche par grille tente de rechercher de
Grid search
manière exhaustive toutes les combinaisons
5
d'hyperparamètres possibles pour former une grille

Hyperparameter 1
de valeurs d'hyperparamètres. 4

• En pratique, la plage de valeurs d'hyperparamètres à 3

rechercher est spécifiée manuellement. 2

• Cette méthode fonctionne bien lorsque le nombre 1

d'hyperparamètres est relativement petit. Par


0 1 2 3 4 5
conséquent, il est applicable aux algorithmes
Hyperparameter 2
d'apprentissage automatique en général mais
inapplicable aux réseaux de neurones

98
Méthode de recherche
d'hyperparamètres - Recherche aléatoire
• Lorsque l'espace de recherche d'hyperparamètres est
Random search
grand, la recherche aléatoire est meilleure que la
recherche par grille.
• Dans la recherche aléatoire, chaque paramètre est
échantillonné à partir de la distribution des valeurs de
paramètres possibles, dans le but de trouver le meilleur

Parameter 1
sous-ensemble d'hyperparamètres.
• La recherche est effectuée dans une plage grossière,
qui sera ensuite réduite en fonction de l'endroit où le
meilleur résultat apparaît
• Certains hyperparamètres sont plus importants que
d'autres et l'écart de recherche sera affecté lors de la Parameter 2
recherche aléatoire.
Cross Validation (1)
Validation croisée : Il s'agit d'une méthode d'analyse statistique utilisée pour valider les
performances d'un classificateur. L'idée de base est de diviser l'ensemble de données
d'origine en deux parties : l'ensemble d'apprentissage et l'ensemble de validation. Entraînez le
classificateur à l'aide de l'ensemble d'apprentissage et testez le modèle à l'aide de l'ensemble
de validation pour vérifier les performances du classificateur.
k-fold cross validation (𝑲 - 𝑪𝑽):
• Divisez les données brutes en 𝑘 groupes (généralement répartis de manière égale).
• Utilisez chaque sous-ensemble comme ensemble de validation et utilisez les autres sous-
ensembles − 1 comme ensemble d'apprentissage. Un total de 𝑘 modèles peut être obtenu.
• Utilisez la précision de classification moyenne des ensembles de validation finaux des
modèles comme indicateur de performance du classificateur 𝐾 − 𝐶𝑉.
Cross Validation (2)
Entire dataset

Training set Test set

Training set Validation set Test set


Plan
• Définition de l'apprentissage automatique
• Types d'apprentissage automatique
• Processus d'apprentissage automatique
• Autres méthodes clés d'apprentissage
automatique
• Algorithmes courants d'apprentissage
automatique

102
Présentation de l'algorithme
d'apprentissage automatique

103
Formulation
• On appelle fonction d’apprentissage la fonction notée : l ∶ X -> Y qui associe un résultat
(valeur) supervisé à chaque vecteur d’entrée.
• Le but d’un algorithme d’apprentissage supervisé sera donc d’approcher cette fonction l,
uniquement à partir des exemples d’apprentissage.
• En fonction du résultat (comportement) supervisé que l’on veut obtenir, on peut
distinguer deux types problèmes :
–Régression : lorsque le résultat supervisé que l’on cherche à estimer est une
valeur dans un ensemble continu de réels.
–Classification : lorsque l’ensemble des valeurs de sortie est discret. Ceci revient à
attribuer une classe (aussi appelée étiquette ou label) pour chaque vecteur d’entrée.
• Nous nous plaçons souvent dans le cas de problème classification à deux classes (2-classe)
qui peut être facilement étendu à N-classe.
104
Méthodes de classification
supervisée
• Les méthodes de classification supervisée peuvent être basées sur
• des hypothèses probabilistes (cas du classifieur naïf bayésien),
• des notions de proximité (exemple, k plus proches voisins) ou
• des recherches dans des espaces d'hypothèses (exemple, arbres de
décisions).

105
Problème Linéaire et Non-
Linéaire
• On dit qu'un problème est linéairement séparable si les exemples de classes
différentes sont complètement séparables par un hyperplan
• Un problème peut être non séparable de manière linéaire. Dans ce cas, il faut
utiliser d'autres types de classifieurs, souvent plus longs à paramétrer, mais qui
obtiennent des résultats plus précis.

106
Problème Linéaire et Non-
Linéaire
• Un problème, initialement, non linéairement séparable peut s'avérer séparable avec
l'ajout d'un nouvel attribut.
• D'où l'intérêt d'un choix judicieux de ces attributs.
• C'est ce principe qui est utilisé par le classifieur Support Vector Machine (SVM)

107
Classifieurs à mémoire
•L'intérêt de ces classifieurs est qu'ils ne nécessitent aucune phase
d'apprentissage ou d’entraînement
•Ils permettent de déduire directement la classe d'un nouvel exemple
à partir de l'ensemble d'apprentissage.

108
Régression linéaire (1)
• Une méthode d'analyse statistique pour déterminer les relations
quantitatives entre deux ou plusieurs variables par l'analyse de
régression par les statistiques.

109
Régression linéaire (2)
• La fonction de modèle de la régression linéaire est la suivante, w
indique le paramètre de pondération, 𝑏 indique le biais et 𝑥 indique
l'attribut de l'échantillon.

• La relation entre la valeur prédite par le modèle et la valeur réelle est


la suivante, y indique la valeur réelle et ε indique l'erreur.

• L'erreur ε est influencée par de nombreux facteurs indépendamment.


Selon la fonction de distribution normale et l'estimation du maximum
de vraisemblance (maximum likelihood estimation) la fonction de
perte de la régression linéaire est la suivante :
110
Extension de régression linéaire -
Régression polynomiale
• Généralement, la complexité d'un
ensemble de données dépasse la
possibilité d'ajustement par une ligne
droite. C'est-à-dire qu'un sous-
ajustement évident se produit si le
modèle de régression linéaire d'origine
est utilisé. La solution est d'utiliser la
régression polynomiale.
Comparison between linear regression
and polynomial regression

111
Régression linéaire et prévention du
surapprentissage
• Des termes de régularisation peuvent être utilisés pour réduire le
surapprentissage. La valeur de ne peut pas être trop grande ou trop petite dans
l'espace échantillon. Vous pouvez ajouter une perte de somme carrée sur la
fonction cible.

• Termes de régularisation (norme) : Le terme de régularisation est ici appelé


norme L2. La régression linéaire qui utilise cette fonction de perte est également
appelée Ridge regression.

• La régression linéaire avec perte absolue est appelée régression de Lasso.


112
Régression logistique
• Le modèle de régression logistique est utilisé pour résoudre les problèmes de
classification. Le modèle est défini comme suit :

• où 𝑤 indique le poids, 𝑏 indique le biais et 𝑤𝑥 + 𝑏 est considéré comme la


fonction linéaire de 𝑥. Comparez les deux valeurs de probabilité précédentes. La
classe avec une valeur de probabilité plus élevée est la classe de 𝑥 .

113
Régression logistique
• Le modèle de régression logistique et le modèle de régression linéaire sont tous deux des
modèles linéaires généralisés. La régression logistique introduit des facteurs non
linéaires (la fonction sigmoïde) basés sur la régression linéaire et définit des seuils, afin
de pouvoir traiter les problèmes de classification binaire.
• Selon la fonction modèle de la régression logistique, la fonction de perte de la régression
logistique peut être estimée comme suit en utilisant l'estimation du maximum de
vraisemblance :

• où 𝑤 indique le paramètre de poids, 𝑚 indique le nombre d'échantillons, 𝑥 indique


l'échantillon et 𝑦 indique la valeur réelle. Les valeurs de tous les paramètres de poids
peuvent également être obtenues grâce à l'algorithme de descente de gradient.

114
Extension de régression logistique -
Fonction Softmax
• La régression logistique s'applique principalement aux problèmes de
classification binaire. Pour les problèmes de classification multi-
classes, utilisez la fonction Softmax.

115
Extension de régression logistique -
Fonction Softmax
• La fonction Softmax est utilisée pour mapper un vecteur K-
dimensions de valeurs réelles arbitraires à un autre vecteur K-
dimensions de valeurs réelles, où chaque élément est dans l'intervalle
(0, 1).
• La fonction de probabilité de régression de Softmax est la suivante :

116
Extension de régression logistique -
Fonction Softmax
• Softmax attribue une probabilité à chaque classe dans un problème
multi-classes. Ces probabilités doivent totaliser 1.
Catégorie Probabilité

Raisin? 0.09

• Somme des probabilités :


Orange? 0.22 • 0.09 + 0.22 + 0.68 + 0.01 =1
• Très probablement, cette
Pomme? image est une pomme.
0.68

Banane? 0.01

117
K-plus proches Voisins
•Le classifieur des k plus proches voisins ou k-ppv (k-Nearest
Neighbor ou k-NN, en anglais) est l'un des algorithmes de
classification les plus simples.
•Principe : Un exemple est classifié par vote majoritaire de ses k
"voisins" (par mesure de distance),
–c'est-à-dire qu'il est prédit de classe C si la classe la plus
représentée parmi ses k voisins est la classe C.
–L'opérateur de distance le plus souvent utilisé est la distance
Euclidienne.
–Un cas particulier est le cas où k = 1, l'exemple est alors affecté à
la classe de son plus proche voisin. 118
K-plus proches Voisins
•Le choix du k est très important pour la classification.
•On s’abstient de choisir des valeurs paires de k, pour éviter les cas
d'égalité.

119
Pseudo-Algorithme K−ppv

120
Segmentation d'image par k-ppv
• On suppose qu’on dispose d’une base d’exemple étiquetés (dans ce cas un
ensemble de pixels dont on connaît leurs appartenances aux régions
(classes) dans l’image)
• Pour un nouveau pixel xi , prédire sa classe d’appartenance yi
• Pour chaque pixel xi à classer :
–Calculer les distances avec les pixels des régions étiquetées : {dj }
–Si k = 1 ⇒ la classe yi de xi est celle de l’exemple le plus proche de xi
–si k > 1 ⇒ la classe yi de xi est la classe majoritaire des k exemples les plus
proches au sens de la distance choisie

121
Segmentation d'image par k-ppv

122
Classifieur Naïf Bayésien

•La classification naïve bayésienne repose sur l'hypothèse que


les attributs sont fortement (ou naïvement) indépendants.
•Elle est basée sur le théorème de Bayes qui ne s'applique
que sous cette hypothèse.
•Etant donné un objet O, la méthode consiste à calculer la
probabilité d’appartenance de O à chaque classe, puis choisir
celle qui maximise cette valeur

123
Théorème de Bayes
•Soit l’ensemble d’apprentissage D, la probabilité aposteriori de
l’hypothèse h, P(h|D) suit le théorème de Bayes :

•MAP (maximum posteriori) hypothesis

•Difficulté pratique: on a besoin de connaître initialement plusieurs


probabilités et un temps de calcul non négligeable
• On suppose que les attributs sont indépendants:
Exemple
• Etant donné des données d’entrainement, on peut calculer les probabilités.
P:jouer au tennis et N: ne pas jouer au tennis
Temps Temperature Humidite Vent Class
soleil chaud élevé faux N
soleil chaud élevé VRAI N temps P N humidité P N
couvert chaud élevé faux P soleil 2/9 3/5 élevée 3/9 4/5
pluie tiede élevé faux P
pluie froid normal faux P couvert 4/9 0 normal 6/9 1/5
pluie froid normal N
couvert froid normal VRAI P
pluie 3/9 2/5
soleil tiede élevé faux N température vent P N
soleil froid normal faux P
pluie tiede normal faux P chaud 2/9 2/5 VRAI 3/9 3/5
soleil tiede normal VRAI P tiède 4/9 2/5 FAUX 6/9 2/5
couvert tiede élevé VRAI P
couvert chaud normal faux P froid 3/9 1/5
pluie tiede élevé VRAI N

125
Exemple
• Le problème de classification peut être formalisé en utilisant les probabilités a-
posteriori:

• P(C|X) = prob. que X=<x1,…,xk> soit de la classe C.


• Ex. P(classe=N | temps=soleil,vent=vrai,…)
• Affecter à X la classe C tel que P(C|X) est maximal
• Hypothèse: indépendance des attributs
• P(x1,…,xk|C) = P(x1|C)·…·P(xk|C)

126
Exemple estimer P(xi|C)
Temps
Temps Temperature Humidite Vent Class
soleil chaud élevé faux N P(soleil|P) = 2/9 P(soleil|N) = 3/5
soleil chaud élevé VRAI N
couvert chaud élevé faux P P(couvert|P) = 4/9 P(couvert|N) = 0
pluie tiede élevé faux P
pluie froid normal faux P P(pluie|P) = 3/9 P(pluie|N) = 2/5
pluie froid normal N
couvert froid normal VRAI P Température
soleil tiede élevé faux N
soleil froid normal faux P P(chaud|P) = 2/9 P(chaud|N) = 2/5
pluie tiede normal faux P
soleil tiede normal VRAI P P(tiède|P) = 4/9 P(tiède|N) = 2/5
couvert tiede élevé VRAI P
couvert chaud normal faux P P(froid|P) = 3/9 P(froid|N) = 1/5
pluie tiede élevé VRAI N
Humidité
P(p) = 9/14 P(élevée|P) = 3/9 P(élevée|N) = 4/5

P(n) = 5/14 P(normale|P) = 6/9 P(normale|N) = 2/5

Vent
P(Vrai|P) = 3/9 P(vrai|N) = 3/5
X = <pluie, chaud, P(faux|P) = 6/9 127
P(faux|N) = 2/5
élevée, faux>
Exemple : test
• Soit X = <pluie, chaud, élevée, faux>

• P(X|p)·P(p) =
P(pluie|p)·P(chaud|p)·P(élevée|p)·P(faux|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 =
0.010582

• P(X|n)·P(n) =
P(pluie|n)·P(chaud|n)·P(élevée|n)·P(faux|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 =
0.018286

• X est classifié en N (ne pas jouer au tennis)

128
Exercice
Fievre Douleur Toux Maladie
oui Abdomen non Appendicite
non Abdomen oui Appendicite
oui gorge non rhume
oui gorge oui rhume
non gorge oui mal de gorge
oui non non aucune
oui non oui rhume
non non oui refroidissement
non non non aucune
129
Arbres de Décision
•Les arbres de décision sont un outil très populaire de classification. Leur
principe repose sur la construction d'un arbre de taille limitée.
•La racine constitue le point de départ de l'arbre et représente l'ensemble
des données d'apprentissage. Puis ces données sont segmentées en
plusieurs sous-groupes, en fonction d'une variable discriminante (un des
attributs).
•Une fois l'arbre construit à partir des données d'apprentissage, on peut
prédire un nouveau cas en le faisant descendre le long de l'arbre, jusqu'à
une feuille.
•Comme la feuille correspond à une classe, l'exemple sera prédit comme
faisant partie de cette classe.
130
Exemple
•Une personne qui a une température < 37°C et qui a de la toux est
prédite comme malade, tandis qu'une personne qui a une température
< 37°C mais pas de toux est considérée comme saine.

131
Construction de l’arbre
•Lors de la création de l'arbre, la première question qui vient à l'esprit est
le choix de la variable de segmentation sur un sommet.
•Pourquoi par exemple avons-nous choisi la variable "température" à la
racine de l'arbre ?
•Il nous faut donc une mesure afin d'évaluer la qualité d'une segmentation
et sélectionner la meilleure variable sur chaque sommet.
•Ces algorithmes s'appuient notamment sur les techniques issues de la
théorie de l'information, et notamment la théorie de Shannon

132
Idée et Propriétés Générales
•Diviser récursivement et le plus efficacement possible les individus de
l’ensemble d’apprentissage par des tests définis à l’aide des variables
jusqu’à ce que l’on obtienne des sous-ensembles d’individus ne
contenant (presque) que des exemples appartenant à une même
classe
•A la base, trois opérations seront nécessaires :
–Décider si un nœud est terminal (tous les individus sont dans la même
classe).
–Sélectionner un test à associer à un nœud (utiliser critères
statistiques).
–Affecter une classe à une feuille (nœud terminal)- la classe majoritaire

133
Classification et Règles
•L’Arbre de Décision (AD) permet de classer un nouvel exemple : (37.2, oui), c’
est-à-dire, Température=37.2 et Gorge-Irritée=oui, comme appartenant à la
classe malade.
•L’AD peut être traduit en un système de règles ; lesquelles pouvant être
considérées comme le pseudo-code ou l’algorithme de l’AD :
–Si (Temp. < 37.5) et (Gorge-irritée) Alors malade.
–Si (Temp. < 37.5) et Non (Gorge-irritée) Alors Sain.
–Si (Temp. > 37.5) Alors malade.

134
Inférence d’Arbres de Décision

•Objectif : Inférer (déduire et aussi au sens de construire) un arbre de


décision à partir d’exemples.
•Pour ce faire, on a besoin :
–de comprendre la répartition de la population (ex., de patients) dans
l’arbre. Ainsi, il est intéressant de savoir mesurer le degré de mélange d’une
population.
–de la définition d’une méthode d’inférence, en saisissant :
–Comment sélectionner le test à effectuer à un nœud ?
–Comment décider si un nœud est terminal ?
–Quelle classe associée à une feuille ?
–Enfin, de comment tout écrire mathématiquement ?

135
Mélange et Degré de Mélange
•Le calcul du degré de mélange des classes dans la population vient
du besoin de comparer les différents choix possibles.
•Ainsi, de ce besoin, on introduit des fonctions qui permettent de
mesurer le degré de mélange d’une population dans les différentes
classes.
•Les propriétés de ces fonctions devraient être de la sorte :
–Le minimum est atteint lorsque tous les nœuds sont « purs » (si tous les
individus associés au nœud appartiennent à la même classe). Ainsi, le
mélange sera minimal (sinon nul).
–Le maximum est atteint lorsque les individus sont équirépartis entre les
classes (mélange maximal).

136
Exemples de Fonctions Mélanges

137
Notion de Gain

138
Algorithme de Construction
d’un Arbre de Décision

139
Jeu de Données
• Soit le tableau suivant récapitulant l’ensemble des clients
d’une compagnie d’assurance.

- M : salaire ou moyenne des montants sur le compte.


- A : âge du client.
- R : lieu de résidence du client.
- E : le client a fait des études supérieures ou non ?
- I : le client consulte ses comptes sur internet ou non ? (classe) 140
Mélange Initial
•Avec 8 clients dont : 3 (oui) ont Internet (classe 1 : oui) et 5 non
(classe 2 : non), le mélange initial (selon Gini) :

•La construction est descendante : on commence par tester les


candidats à la racine.
•Au début, tous les individus sont regroupés (au niveau 0, la racine
de l’arbre).
•Ainsi, quatre (04) constructions sont possibles, suivant les
variables : Montant (M), âge (A), résidence (R) et études (E).

141
Tester les Candidats à la Racine

142
Tester les Candidats à la Racine

143
Tester les Candidats à la Racine

144
Quel Test Choisir ?

145
Le Premier Niveau de l’Arbre Appris

146
Exercice

147
SVM (Support Vector Machine)
• SVM est un modèle de classification binaire dont le modèle de base
est un classificateur linéaire défini dans l'espace propre avec le plus
grand intervalle. Les SVM incluent également des astuces de noyau
qui en font des classificateurs non linéaires. L'algorithme
d'apprentissage SVM est la solution optimale à la programmation
quadratique convexe.

Projection

Complex Easy segmentation in


segmentation in low- high-dimensional space
dimensional space 148
SVM linéaire
• Comment diviser les jeux de données rouge et bleu par une ligne
droite ?

or

With binary classification Both the left and right methods can be used to
Two-dimensional dataset divide datasets. Which of them is correct?

149
SVM linéaire
• Les lignes droites sont utilisées pour diviser les données en différentes classes. En fait, nous
pouvons utiliser plusieurs lignes droites pour diviser les données. L'idée de base de la SVM est de
trouver une ligne droite et de garder le point proche de la ligne droite aussi loin que possible de la
ligne droite. Cela peut permettre une forte capacité de généralisation du modèle. Ces points sont
appelés vecteurs supports.
• Dans l'espace à deux dimensions, nous utilisons des lignes droites pour la segmentation. Dans
l'espace de grande dimension, nous utilisons des hyperplans pour la segmentation.

La distance entre
les vecteurs de
support est aussi
loin que possible

150
SVM non linéaire

Le SVM linéaire peut bien Les jeux de données non linéaires


fonctionner pour les ne peuvent pas être fractionnés
ensembles de données avec des lignes droites.
séparables linéairement.

151
SVM non linéaire
• Les fonctions du noyau sont utilisées pour construire des SVM non linéaires.
• Les fonctions de noyau permettent aux algorithmes de s'adapter au plus grand
hyperplan dans un espace de caractéristiques transformé de grande dimension.

Linear Polynomial
kernel kernel
function function

Gaussian Sigmoid
kernel kernel
function function Input space High-dimensional
feature space

152
Méthodes de classification non supervisées
• Il s’agit d’une tâche principale en intelligence artificielle et dans la
fouille exploratoire de données.
• C’est une technique d’analyse statistique des données très utilisée
dans de nombreux domaines y compris l’apprentissage automatique,
la reconnaissance de formes, le traitement d’images, la recherche
d’information, etc.
• L’idée est de découvrir des groupes au sein des données, de façon
automatique.

153
Algorithme des Centres Mobiles
•K-means est un algorithme de minimisation alternée qui, étant donné un
entier K , va chercher à séparer un ensemble de points en K clusters ou
groupes

154
Combien de Classes ?
•Le nombre K représente le nombre de classes que
l’algorithme doit former à partir des propriétés des
échantillons ou exemples.
•Le nombre de groupes K peut être supposé fixe (donné par
l’utilisateur) ou fixé par la nature du problème à traiter.
–C’est le cas, si l’on s’intéresse à classer des images de chiffres
manuscrits (nombre de classes = 10 : 0, ..., 9) ou de lettres
manuscrites (nombre de classes = nombres de caractères de
l’alphabet), etc.

155
Données, Classes et Métrique
•Considérons une image couleur. On peut donc représenter le ième pixel
par un vecteur xi de dimension 3 : xi= (xi1 , xi2 , xi3 ) ∈ {0, 1, ... , 255} 3 .
•Ainsi, si le problème de classification consiste à répartir les données
pixel en 3 classes : rouge, verte, bleue. L’idée revient à mesurer la
proportion (métrique en taux) de chaque composante de couleur
(R%, V% et B%) contenue dans chaque pixel.
•Mais, on peut aussi procéder de la manière suivante : Si l’on connaît
les classes de certains pixels, on pourra prédire les classes des autres
pixels en choisissant une mesure de (dis)similarité ou de
(dis)ressemblance,
156
Exemple
•7 objets représentés chacun par un descripteur à 2 paramètres
•On veut grouper ces données (selon leurs similarités) en deux (k=2) groupes
: G 1 et G 2 .

157
Exemple
• On procèdera de la manière suivante :

158
159
160
Propriétés du K-means
•C’est un algorithme de regroupement simple et rapide, mais aussi très
utilisé.
•La méthode k-means minimise une mesure de dissemblance intra-
classe pour les k-groupes.
•Chaque objet est affecté au cluster dont le centre
(centroîde/barycentre) est le plus proche.
•Le centre d’un groupe est la moyenne de tous les points (éléments)
de ce groupe.
•Son inconvénient est qu’il produit un résultat différent à chaque
exécution (initialisation).

161
Classification Hiérarchique
Ascendante
•La classification hiérarchique ou (re)groupement
hiérarchique (ou clustering) est une méthode de
classification automatique qui consiste à effectuer une suite
de regroupements en agrégeant à chaque étape les objets
(données ou descripteurs d’objets) ou les groupes d’objets
les plus proches.
•On trouve des applications dans des domaines très divers
tels que la biologie (classements par espèce, genre),
l’archéologie, le traitement d’images, le traitement de
requêtes, etc.
162
Exemple
•Soit un ensemble d’objets
représentés par des points
numérotés de 1 à 5, dans
un repère euclidien.
•Notons d la distance
euclidienne mesurée entre
les objets.

163
164
165
166
Dendrogramme
•Cette hiérarchie de
regroupement, clustering,
des objets peut être
représentée par un
diagramme dit :
dendrogramme. C’est
une représentation
arborescente d’une
hiérarchie.

167
Etapes du Regroupement
12 Hiérarchique
10

6 1 colonne
2 colonne
3 colonne

0
1 ligne 2 ligne 3 ligne 4 ligne

168
Recherche d’une Hiérarchie Indicée
à partir d’une Ultramétrique

169
Exemple

170
171

Vous aimerez peut-être aussi