CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.3- MESURE DES PERFORMANCES
Exemple : Réseau de neurones artificiel (ANN)
39
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.3- MESURE DES PERFORMANCES
b) Sélection d’hyper-paramètres
Les hyperparamètres sont des paramètres dont les valeurs
contrôlent le processus d'apprentissage et déterminent les
valeurs des paramètres du modèle qu'un algorithme
d'apprentissage finit par apprendre.
Exemples: ……………………………..
Les paramètres, quant à eux, sont internes au modèle.
Autrement dit, ils sont appris ou estimés uniquement à
partir des données pendant la formation, car l'algorithme
utilisé tente d'apprendre le mappage entre les
caractéristiques d'entrée et les étiquettes ou cibles.
Exemples: ……………………………
40
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.3- MESURE DES PERFORMANCES
b) Sélection d’hyper-paramètres
Au fur et à mesure que l’apprentissage progresse, les
valeurs initiales sont mises à jour à l'aide d'un algorithme
d'optimisation (par exemple, descente de gradient).
L'algorithme d'apprentissage met continuellement à jour les
valeurs des paramètres au fur et à mesure de la progression
de l'apprentissage, mais les valeurs des hyperparamètres
définies par le concepteur du modèle restent inchangées.
41
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.3- MESURE DES PERFORMANCES
c) Validation croisée
Pour résoudre le problème de surapprentissage, on divise les données
disponibles en deux groupes distincts. Le premier sera l’ensemble d’apprentissage,
et le deuxième sera l’ensemble de test.
Pour avoir une bonne séparation des données en données d’apprentissage et
données de test, on utilise la validation croisée. L’idée c’est de séparer
aléatoirement les données dont on dispose en k parties séparées de même taille.
Parmi ces k parties, une fera office d’ensemble de test et les autres constitueront
l’ensemble d’apprentissage. Après que chaque échantillon ait été utilisé une fois
comme ensemble de test. On calcule la moyenne des k erreurs moyennes pour
estimer l’erreur de prédiction.
42
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.4- ALGORITHMES D’APPRENTISSAGE SUPERVISÉ
a) k plus proches voisins (k Nearest Neighbors –KNN)
L’algorithme des k plus proches voisins (kNN) est un algorithme de
Machine Learning supervisé qui peut être utilisé pour résoudre des
problèmes de classification et de régression.
kNN recherche les distances entre une requête cible et toutes les
observations des données. Ensuite il sélectionne les k observations les plus
proches de la requête. Enfin il vote pour le libellé le plus fréquent (dans le
cas de la classification) ou la moyenne des libellés (en le cas de la
régression).
Paramètres Clés
•k (nombre de voisins) : Nombre de voisins pris en compte pour faire la
prédiction. Choisir un k trop petit peut rendre le modèle trop sensible aux
fluctuations dans les données (surapprentissage), tandis qu'un k trop grand
peut le rendre trop général.
•Métrique de distance : La distance euclidienne est la plus courante, mais
d'autres distances comme Manhattan ou Minkowski peuvent être utilisées 43
selon les caractéristiques des données.
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.4- ALGORITHMES D’APPRENTISSAGE SUPERVISÉ
a) k plus proches voisins (k Nearest Neighbors –KNN)
Avantages
Simplicité : Facile à comprendre et à implémenter.
Pas de phase d'entraînement : Toute la complexité est dans la prédiction,
ce qui peut être un avantage si les données changent fréquemment.
Flexibilité : Peut être utilisé à la fois pour la classification et la régression.
Inconvénients
Lenteur sur de grands ensembles de données : Chaque prédiction
nécessite un calcul de distance avec tous les points d'entraînement, ce qui
peut être coûteux en termes de temps.
Sensible aux données bruitées : Les voisins peuvent inclure des points
bruités, ce qui affecte la précision.
Nécessité de normalisation : Si les caractéristiques des données ont 44
des échelles très différentes, la performance peut être dégradée.
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.4- ALGORITHMES D’APPRENTISSAGE SUPERVISÉ
a) k plus proches voisins (k Nearest Neighbors –KNN)
Exemple de classification:
On implémente un modèle K-Nearest Neighbors (K-NN) sur un jeu de
données public pour la classification (ex : Iris Dataset ou MNIST).
45
CHAPITRE II: APPRENTISSAGE SUPERVISÉ
2.4- ALGORITHMES D’APPRENTISSAGE SUPERVISÉ
a) k plus proches voisins (k Nearest Neighbors –KNN)
Exemple de classification (suite):
46