0% ont trouvé ce document utile (0 vote)

32 vues67 pages

Classification KNN

Le document traite de l'apprentissage supervisé en classification, en expliquant ses principes, ses étapes, et les méthodes d'évaluation des performances des modèles. Il aborde spécifiquement l'algorithme k-Nearest Neighbor (k-NN) et présente des indicateurs tels que l'accuracy, le recall, la précision et le F1 score pour mesurer l'efficacité des modèles. Des exemples concrets de problèmes de classification, comme la détection de spams et l'analyse du risque en santé, sont également fournis.

Transféré par

rima.jenhani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues67 pages

Classification KNN

Transféré par

rima.jenhani

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage Supervisé Classification

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Content

1 Introduction

2 Classification
Définition et généralités
Processus de classification

3 Evaluation des méthodes de classification

Généralités
Exemple
Matrice de confusion
Accuracy, Recall, Précision, F1 score

4 k-Nearest Neighbor (k-NN)

Généralités
Principe et algoithme

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Étapes du Machine Learning

Étapes du Machine Learning
1 Définition des Objectifs du Projet : Clarifier les buts et les résultats attendus.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Étapes du Machine Learning

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Étapes du Machine Learning

Étapes du Machine Learning
1 Définition des Objectifs du Projet : Clarifier les buts et les résultats attendus.
2 Collecte des Données : Identifier et acquérir les sources de données
pertinentes.
3 Prétraitement des Données
▸ Nettoyage des Données : les valeurs manquantes, les erreurs et les incohérences.
▸ Transformation des Données : Normaliser, standardiser et encoder.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Étapes du Machine Learning

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Étapes du Machine Learning

Remarque
Sélection des Algorithmes : Identifier et choisir l’algorithme de machine
learning (supervisé, non supervisé, par renforcement) les plus adaptés aux
caractéristiques des données et aux objectifs fixés.
Pertinence du Modèle : Opter pour les modèles les plus pertinents permet
d’assurer des performances optimales tout en garantissant une bonne capacité de
UP-Mathématique 2024-2025 ESPRIT school of engineering
Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Algorithme de machine learning

Dénition
Un algorithme de machine learning est un processus qui permet à une machine
d’apprendre à partir de données, en identifiant des motifs ou en prédisant des
valeurs à partir de variables d’entrée.

UP-Mathématique
Figure: Type d'algorithme
2024-2025 ESPRIT school of engineering
Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Apprentissage Supervisé

L’apprentissage supervisé, aussi appelé Machine Learning supervisé, fait partie

des méthodes d’apprentissage automatique.
Il consiste à entraîner un algorithme à l’aide de données d’entrée et de sortie
connues et étiquetées.
L’objectif est d’utiliser ces données d’entraînement pour construire un modèle
capable de prédire avec précision la sortie pour de nouvelles données non vues.
L’algorithme mesure sa précision par le biais de la fonction de perte, en s’ajustant
jusqu’à ce que l’erreur soit suffisamment réduite.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Catégories d’apprentissage supervisé

L’apprentissage supervisé peut être divisé en deux sous-catégories : la régression et
la classification.
Régression
La régression permet de comprendre la relation entre les variables dépendantes
et indépendantes.
Elle est couramment utilisée pour établir des projections, telles que le chiffre
d’affaires d’une entreprise donnée.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Catégories d’apprentissage supervisé

Classication
La classification utilise un algorithme pour attribuer avec précision des données
de test à des catégories particulières.
Attribuer une catégorie ou une classe à chaque observation d’un ensemble de
données, en fonction de ses caractéristiques.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Classification

Dénition
La classification permet de prédire si un élément est membre d’un groupe ou d’une
catégorie donnée.

Classes:
Identification de groupes avec des profils particuliers.
Possibilité de décider de l’appartenance d’une entité à une classe.
Caractéristiques de classification:
Apprentissage supervisé: classes connues à l’avance.
Qualité de la classification (taux d’erreur).

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemples de problème de classification

La détection de spams:
▸ Après avoir scanné le texte d’un mail,
▸ Tagguer certains mots et phrases.
▸ La signature du message peut être injectée dans un algorithme de classification.
Déterminer si oui ou non il s’agit d’un spam.
L’analyse du risque dans le domaine de la santé:
▸ Les statistiques vitales d’un patient.
▸ L’historique de santé.
▸ Les niveaux d’activités.
▸ Les données démographiques
Ces données peuvent être croisées pour attribuer une note (un niveau de
risque) et évaluer la probabilité d’une maladie.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Processus de classification

Le processus de classification se fait en deux étapes:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Processus de classification

Le processus de classification se fait en deux étapes:

Etape 1
Construction du modèle à partir de l’ensemble d’apprentissage (training set).

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Processus de classification

Le processus de classification se fait en deux étapes:

Etape 1
Construction du modèle à partir de l’ensemble d’apprentissage (training set).

Etape 2
Utilisation du modèle: tester la précision du modèle (test set) et l’utiliser dans la
classification de futur donnée( nouvelles données) .

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Etape 1: Construction de modèle

Chaque donnée est affectée à une classe selon ces valeurs.

1 La classe d’une donnée est déterminée par l’attribut classe.
2 L’ensemble des données d’apprentissage (train set) est utilisé dans la construction
du modèle (entrainement).
3 Le modèle est représenté par des règles de classification (Algorithme
d’apprentisage)

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Etape 2: Utilisation du modèle

Classification de nouvelles donnée ou donnée inconnues

Estimer le taux d’erreur du modèle
▸ La classe connue d’une donnée test est comparée avec le résultat du modèle.
▸ Taux d’erreur = pourcentage de tests incorrectement classés par le modèle.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemple:Construction de modèle

Figure: Construction de modèle

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemple:Validation de modèle

Figure: Construction de modèle

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemple:Utilisation de modèle

Figure: Construction de modèle

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Evaluation des méthodes de classification

Évaluer les performances d’un modèle de classification est primordial:

Pour savoir si le modèle est globalement significatif: Mon modèle traduit-il
vraiment une causalité ?
Pour se donner une idée des performances en déploiement : Quelle sera la
fiabilité (les coûts associés) lorsque j’utiliserai mon modèle ?
Pour comparer plusieurs modèles candidats: Lequel parmi plusieurs modèles sera
le plus performant compte tenu de mes objectifs ?

Remarque
La mesure et l’évaluation de la performance d’un modèle de classification se fait
toujours sur l’échantillon de test: Il faut tester la performance de modèle sur des
données qui n’ont pas été utilisées pour construire le modèle de classification.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Evaluation des méthodes de classification

Plusieurs indicateurs permettent de mesurer la performance des modèles de

classification.
Chaque indicateur a ses spécificités.
il faut bien souvent en utiliser plusieurs pour avoir une vision complète de la
performance de votre modèle.
Pour évaluer la performance d’un modèle de classification nous présentons quatre
indicateurs qui sont calculés Ã partir de la matrice de confusion:
L’accuracy.
Le recall.
La precision.
F1 score.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemple de classification
score de churn
Nous avons une base de données client qui ont été abonnés à un service.
Des clients qui sont encore abonnés.
Des clients qui ont résilié le service.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Exemple de classification

Nous construisons un score de churn : pour chaque client, on prédit s’il va résilier ou
conserver son abonnement le mois suivant.

Quelle est la performance de ce score ?

A quel point je peux lui faire confiance pour prédire les résiliations futures?

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Evaluation des méthodes de classification

Matrice de confusion
Une matrice de confusion sert à évaluer la qualité d’une classification. Elle est obtenue en comparant les données classées avec des données de
référence (test set) qui doivent être différentes de celles ayant servi à réaliser la classification (train set).

Classification supervisée binaire, y ∈ {0, 1} , où la modalité de la variable à prédire correpond à la classe postive et l’autre à la classe négative, on
nomme les coefficients de la matrice de confusion:

Figure: Construction de modèle

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Matrice de confusion

Les fausses prédictions:

▸ Nombre de faux négatifs (FN): les clients qui ont résilié mais pour lesquels le score a prédit à
tort qu’ils allaient rester abonnés.
▸ Nombre de faux positifs (FP): les clients qui sont restés abonnés alors que le score a prédit à
tort qu’ils allaient résilier.
Les bonnes prédictions:
▸ Nombre de vrais positifs (VP): les clients qui ont résilié pour lesquels le score a bien prédit
qu’ils allaient résilier.
▸ Nombre de vrais négatifs(VN): les clients qui sont toujours abonnés et pour lesquels
l’algorithme a bien prédit qu’ils resteraient abonnés.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Evaluation des méthodes de classification

Accuracy
Il indique le pourcentage de bonnes prédictions.
vrais positifs + vrais négatifs
Accuracy =
total

Parfois, l’accuracy ne suffit pas:

Considérons un problème de 2-classes:
▸ Nombre de Classes 0 égal à 9990
▸ Numbre de Classes 1 égal à 10.
▸ La base de données n’est pas équilibrée.
Si le modèle prédit que tout est de classe 0, la précision est de
9990/10000 = 99, 9%. La précision est trompeuse car le modèle ne détecte aucun
exemple de classe 1.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Recall

Le recall (rappel) permet de répondre à la question suivante :

Quelle proportion de résultats positifs réels a été identifiée correctement ?

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Recall

Le recall (rappel) permet de répondre à la question suivante :

Quelle proportion de résultats positifs réels a été identifiée correctement ?

Recall
Il donne une indication sur la part de faux négatifs.
vrais positifs
Recall =
Vrais positif + faux négatifs

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Recall

Le recall (rappel) permet de répondre à la question suivante :

Quelle proportion de résultats positifs réels a été identifiée correctement ?

Recall
Il donne une indication sur la part de faux négatifs.
vrais positifs
Recall =
Vrais positif + faux négatifs

Un modèle ne produisant aucun faux négatif a un rappel de 1.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Précision

La précision permet de répondre à la question suivante:

Quelle proportion d’identifications positives était effectivement correcte ?

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Précision

La précision permet de répondre à la question suivante:

Quelle proportion d’identifications positives était effectivement correcte ?

Précision
Il donne une indication sur les faux positifs.
vrais positifs
Precision =
Vrais positifs + faux positifs

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Précision

La précision permet de répondre à la question suivante:

Quelle proportion d’identifications positives était effectivement correcte ?

Précision
Il donne une indication sur les faux positifs.
vrais positifs
Precision =
Vrais positifs + faux positifs

Un modèle de classification ne produisant aucun faux positif a une précision de 1.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Précision et Recall

Pour évaluer les performances d’un modèle de façon complète: Il faut analyser à
la fois la précision et le rappel.
La précision et rappel sont fréquemment en tension: l’amélioration de la précision
se fait généralement au détriment du rappel et réciproquement.
Si on veut comparer les performances de deux classificateurs et on a:
▸ Supposons que le classificateur A a un recall plus élevé et le classificateur B a une précision
plus élevée.
Alors on ne peut pas comparer les classificateurs A et B
Différents outils ont été créés pour évaluer simultanément la précision et le rappel.
La F-score en fait partie.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

F1 score

Le F1 score combine la précision et le recall d’un classificateur en une seule

métrique en prenant leur moyenne harmonique.
Le F1 score est utilisé pour comparer les performances de deux classificateurs
dans le cas suivant:
▸ Supposons que le classificateur A a un recall plus élevé et le classificateur B a une précision
plus élevée.
▸ Dans ce cas, les F1 score des deux classificateurs peuvent être utilisés pour déterminer celui qui
produit les meilleurs résultats.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

F1 score

Le F1 score combine la précision et le recall d’un classificateur en une seule

F1 score
Il est la moyenne pondérée de la précision et du recall. Par conséquent, ce score prend en compte à la fois les faux positifs et les faux négatifs.

2 ∗ (Recall ∗ Precision)
F1 score =
Recall + Precision

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Généralités

L’algorithme des k plus proches voisins est un algorithme d’apprentissage

supervisé, il est nécessaire d’avoir des données labellisées.
À partir d’un ensemble E de données labellisées, il sera possible de classer
(déterminer le label) une nouvelle donnée (n’appartenant pas à E ).
Il est aussi possible d’utiliser l’algorithme des k plus proches voisins pour la
régression (on cherche à déterminer une valeur à la place d’une classe).

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Généralités

Méthode de raisonnement à partir de cas: prendre des décisions en recherchant

un ou des cas similaires déjà résolus.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Généralités

Méthode de raisonnement à partir de cas: prendre des décisions en recherchant

un ou des cas similaires déjà résolus.
Pas d’étape d’apprentissage: construction d’un modèle à partir d’un échantillon
d’apprentissage.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Généralités

Méthode de raisonnement à partir de cas: prendre des décisions en recherchant

un ou des cas similaires déjà résolus.
Pas d’étape d’apprentissage: construction d’un modèle à partir d’un échantillon
d’apprentissage.
Modèle= échantillon d’apprentissage + fonction de distance + fonction de choix de
la classe en fonction des classes des voisins les plus proches.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
Soit la base de donnée:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
On veut prédire à quelle classe appartient la nouvelle donnée:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
Si on prend un seul voisin:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
Si on considère deux voisins:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
Si on considère trois voisins:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Principe
Si on considère quatres voisins:

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Algorithme de KNN

Début Algorithme
Input :
un ensemble de données D .
une fonction de définition distance d.
Un nombre entier k
une nouvelle observation X
Output:
Prédire la variable de sortie y de X :
Faire :
1 Calculer toutes les distances de cette observation X avec les autres observations du jeu de données D.
2 Retenir les k observations du jeu de données D les proches de X en utilisation le fonction de calcul de distance d
3 Prendre les valeurs de y des k observations retenues : et calculer le mode de y retenues.
4 Retourner la valeur calculée dans l’étape 3 comme étant la valeur qui a été prédite par K-NN pour l’observation X .
Fin Algorithme

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance

L’algorithme, K-NN a besoin d’une fonction de calcul de distance entre deux

observations.
Dénition distance
on appelle distance sur un ensemble E de Rn , une application définie de E × E à
valeurs dans R+ notée d qui à tout couple (x, y) ∈ E × E fait correspondre un réel
positif ou nul d(x, y) vérifiant:
1 d(x, y) = 0 SSi x = y .
2 d(x, y) = d(y, x), ∀(x, y) ∈ E 2 .
3 d(x, y) ≤ d(x, z) + d(z, y), ∀(x, y, z) ∈ E 3 .

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Type des distance

Il existe plusieurs fonctions de calcul de distance:
La distance euclidienne.
la distance de Manhattan.
la distance de Minkowski
la distance de Jaccard.
la distance de Hamming.
Le choix de la fonction de distance en fonction des types de données qu’on manipule.
Ainsi pour les données quantitatives (exemple : poids, salaires, taille, montant de
panier éléctronique etc...) et du même type: la distance euclidienne est un bon
candidat.
La distance de Manhattan est une bonne mesure à utiliser quand les données
(input variables) ne sont pas du même type (exemple :age, sexe, longueur, poids
etc...).

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance euclidienne

Dénition
C’est la distance qui calcule la racine carrée de la somme des différences carrées entre les coordonnées de deux points:
Soient X = (x1 , x2 , ..., xn ) et Y = (y1 , y2 , ..., yn ) la distance euclidienne entre X et Y est:
¿
Án
À ∑ (xi − yi )2 .
d(X, Y ) = Á
i=1

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance euclidienne

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance Manhattan

Dénition
C’est la distance qui calcule la somme des valeurs absolues des différences entre les coordonnées de deux points:
Soient X = (x1 , x2 , ..., xn ) et Y = (y1 , y2 , ..., yn ) la distance Manhattan entre X et Y est:
n
dm (X, Y ) = ∑ ∣xi − yi ∣.
i=1

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance Manhattan

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Distance de Minkowski

Dénition
La distance de Minkowski ou métrique de Minkowski est une généralisation à la fois de la distance euclidienne et de la distance de Manhattan:
Soient X = (x1 , x2 , ..., xn ) et Y = (y1 , y2 , ..., yn ) la distance Minkowski d’ordre p entre X et Y est:
¿
Á n
p
Á p
dM (X, Y ) = À ∑ (xi − yi ) .
i=1

Remarque
Si p → +∞ alors la distance de Minkowski nous obtenons la distance de Chebyshev:
Soient X = (x1 , x2 , ..., xn ) et Y = (y1 , y2 , ..., yn ) la distance Minkowski d’ordre p entre X et Y est:
¿
Á n
p
Á p
dT (X, Y ) = lim À ∑ (xi − yi ) = max ∣xi − yi ∣.
p→+∞ i
i=1

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Comment choisir la valeur K

Le choix de la valeur K à utiliser pour effectuer une classification avec K-NN,

varie en fonction du jeu de données.
En règle générale, moins on utilisera de voisins (un nombre K petit) plus on sera
sujette au sous apprentissage (underfitting).
Par ailleurs, plus on utilise de voisins (un nombre K grand) plus, sera fiable dans
notre classification.
Toutefois, si on utilise K nombre de voisins avec K = N et N étant le nombre
d’observations, on risque d’avoir du overfitting.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Limitations de K-NN

K-NN est un algorithme assez simple à appréhender.

Principalement, grâce au fait qu’il n’a pas besoin de modèle pour pouvoir
effectuer une prédiction.
Le contre coût est qu’il doit garder en mémoire l’ensemble des observations pour
pouvoir effectuer sa prédiction. Ainsi il faut faire attention à la taille du jeu
d’entrainement.
Le choix de la méthode de calcul de la distance ainsi que le nombre de voisins k
peut ne pas être évident. Il faut essayer plusieurs combinaisons et faire du tuning
de l’algorithme pour avoir un résultat satisfaisant.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

Nous avons un ensemble d’objets avec les caractéristiques suivantes :Poids (en
grammes) et couleurs.
Notre objectif est de classer un nouvel objet en fonction de ses voisins les plus
proches pour déterminer s’il s’agit d’un fruit ou d’un légume.
Le nouvel objet a comme caractéristiques : Poids= 92g et Couleur = 1 (Rouge).

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

Objets Poids Couleurs Classe Distance Ecludienne

Cerise 43 1 (rouge) Fruit .............
Pomme 150 1 (rouge) Fruit .............
Poire 174 2 (jaune) Fruit .............
Brocoli 140 3 (vert) Légume .............
Laitue 92 3 (vert) Légume .............
Carott 165 4 (orangé) Légume .............

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

Pour que les valeurs des données se situent dans une plage similaire, nous allons
tout d’abord transformer les données en standardisant les poids et les couleurs de
notre ensemble d’entrainement avant de calculer les distances euclidiennes.
Moyenne et écart-type des caractéristiques : Moyenne Poids : 127.33 g, Écart-type
Poids : 45.89 g, Moyenne Couleur : 2.33, Écart-type Couleur : 1.11 .

Objets Poids Couleurs Classe Distance Ecludienne

Cerise -1,84 -1,2 Fruit .............
Pomme 0,49 -1,2 Fruit .............
Poire 1,02 -0,3 Fruit .............
Brocoli 0,28 0,6 Légume .............
Laitue -0,77 0,6 Légume .............
Carott 0,82 1,5 Légume .............

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

Nous allons calculer les distances euclidiennes entre le nouvel objet et chaque
objet de cet ensemble, puis sélectionner les 3 plus proches voisins.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

UP-Mathématique 2024-2025 ESPRIT school of engineering

Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Application : Classification à l’aide de l’algorithme KNN

Nous allons calculer les distances euclidiennes entre le nouvel objet et chaque
objet de cet ensemble, puis sélectionner les 3 plus proches voisins.
Le nouvel objet (Poids standardisé = -0.77, Couleur standardisée = -1.2)
Objets Poids Couleurs Classe Distance Ecludienne
Cerise -1,84 -1,2 Fruit 1,07
Pomme 0,49 -1,2 Fruit 1,26
Poire 1,02 -0,3 Fruit 2
Brocoli 0,28 0,6 Légume 2,08
Laitue -0,77 0,6 Légume 1,8
Carott 0,82 1,5 Légume 3,13
Les 3 plus proches voisins sont : Cerise (Fruit), Pomme (Fruit) et Laitue
(Légume).
Conclusion: Selon l’algorithme KNN (K=3), comme la majorité des voisins (2 sur
3) sont des Fruits, le nouvel objet sera classé comme un Fruit.
UP-Mathématique 2024-2025 ESPRIT school of engineering
Introduction Classication Evaluation des méthodes de classication k-Nearest Neighbor (k-NN)

Thank you for your attention.

UP-Mathématique 2024-2025 ESPRIT school of engineering

Vous aimerez peut-être aussi

Cours CH3
Pas encore d'évaluation
Cours CH3
100 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Chapitre - MachineLearning - Arbre de Decison
Pas encore d'évaluation
Chapitre - MachineLearning - Arbre de Decison
31 pages
Cours sur l'IA au Lycée Ibn Timiya
Pas encore d'évaluation
Cours sur l'IA au Lycée Ibn Timiya
34 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
CH3 Classification V4
Pas encore d'évaluation
CH3 Classification V4
73 pages
Classification du Trafic Réseau Maillé
Pas encore d'évaluation
Classification du Trafic Réseau Maillé
10 pages
Concepts et Techniques du Machine Learning
Pas encore d'évaluation
Concepts et Techniques du Machine Learning
6 pages
MLBy HVR-FR
Pas encore d'évaluation
MLBy HVR-FR
74 pages
Cour 2
Pas encore d'évaluation
Cour 2
3 pages
Chapitre 3 - Classification Supervisé
Pas encore d'évaluation
Chapitre 3 - Classification Supervisé
31 pages
Chapitre 3 Apprentissage Supervisé - Classification
Pas encore d'évaluation
Chapitre 3 Apprentissage Supervisé - Classification
85 pages
Projet Recherche Examen Intro Recherche
Pas encore d'évaluation
Projet Recherche Examen Intro Recherche
5 pages
Techniques d'apprentissage automatique
Pas encore d'évaluation
Techniques d'apprentissage automatique
16 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Iid 2 Automne 2023-2024: Machine Learning Ensak
Pas encore d'évaluation
Iid 2 Automne 2023-2024: Machine Learning Ensak
3 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
63 pages
Algorithme KNN
Pas encore d'évaluation
Algorithme KNN
18 pages
Introduction à Scikit-Learn et ML
Pas encore d'évaluation
Introduction à Scikit-Learn et ML
35 pages
Chapitre 4 Classification
Pas encore d'évaluation
Chapitre 4 Classification
68 pages
AI Cours
Pas encore d'évaluation
AI Cours
12 pages
DM Chapitre 02 Partie 02
Pas encore d'évaluation
DM Chapitre 02 Partie 02
70 pages
TP 9 ML
Pas encore d'évaluation
TP 9 ML
9 pages
Introduction à la Classification
Pas encore d'évaluation
Introduction à la Classification
19 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
2 8 Cours
Pas encore d'évaluation
2 8 Cours
25 pages
Chapitre3 Part1 Classification
Pas encore d'évaluation
Chapitre3 Part1 Classification
45 pages
Cours Complet ML Mory - (Partie 1)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 1)
91 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
TP4 ML
Pas encore d'évaluation
TP4 ML
3 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
25 pages
ML Motivation ApprentissatgeStat French
Pas encore d'évaluation
ML Motivation ApprentissatgeStat French
37 pages
Mpi Ia
Pas encore d'évaluation
Mpi Ia
18 pages
Machine Learning CH3
Pas encore d'évaluation
Machine Learning CH3
46 pages
04 Classification Lineaire 2pages
Pas encore d'évaluation
04 Classification Lineaire 2pages
65 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
90 pages
Introduction au Clustering AI
Pas encore d'évaluation
Introduction au Clustering AI
63 pages
Classification d'Images par Apprentissage Artificiel
100% (1)
Classification d'Images par Apprentissage Artificiel
7 pages
L'apprentissage Automatique Octobre 2024
Pas encore d'évaluation
L'apprentissage Automatique Octobre 2024
61 pages
ML Supervise
Pas encore d'évaluation
ML Supervise
28 pages
Projet IA Cheikh - Ibra
Pas encore d'évaluation
Projet IA Cheikh - Ibra
13 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
38 pages
TP4 ML Lsi3
Pas encore d'évaluation
TP4 ML Lsi3
4 pages
IA SE3 Chapter1
Pas encore d'évaluation
IA SE3 Chapter1
63 pages
Chapitre2 Part1 Machine Learning 2024 2025
Pas encore d'évaluation
Chapitre2 Part1 Machine Learning 2024 2025
59 pages
Machine - Learning - Classification
Pas encore d'évaluation
Machine - Learning - Classification
34 pages
ML If-Sitn
Pas encore d'évaluation
ML If-Sitn
122 pages
Cours Fouilles Donnees
Pas encore d'évaluation
Cours Fouilles Donnees
37 pages
TP4 - KNN VF 2022-2023
Pas encore d'évaluation
TP4 - KNN VF 2022-2023
4 pages
Introbf
Pas encore d'évaluation
Introbf
32 pages
Chap 2
Pas encore d'évaluation
Chap 2
5 pages
Cours de Machine Learning2
Pas encore d'évaluation
Cours de Machine Learning2
44 pages
Chapitre 1m2r
Pas encore d'évaluation
Chapitre 1m2r
7 pages
Arbres de Décision en IA
Pas encore d'évaluation
Arbres de Décision en IA
24 pages
ML If-Sitn
Pas encore d'évaluation
ML If-Sitn
140 pages
Chapitre7 Intelligence Artificielle
Pas encore d'évaluation
Chapitre7 Intelligence Artificielle
29 pages
TD 3
Pas encore d'évaluation
TD 3
12 pages
Concours Master 2025 à l'Université Skikda
Pas encore d'évaluation
Concours Master 2025 à l'Université Skikda
6 pages
Secret d'IA Pour Gagner de L'argent en 2025
Pas encore d'évaluation
Secret d'IA Pour Gagner de L'argent en 2025
22 pages
Cours Formation Python Pour Automatisation BEIS
Pas encore d'évaluation
Cours Formation Python Pour Automatisation BEIS
102 pages
Intelligent Artificielle Football Fonctionnalites
Pas encore d'évaluation
Intelligent Artificielle Football Fonctionnalites
2 pages
TD Série Chronologique
Pas encore d'évaluation
TD Série Chronologique
18 pages
ECE : Formation Ingénieur Numérique et Alternance
Pas encore d'évaluation
ECE : Formation Ingénieur Numérique et Alternance
12 pages
Attention en Deep Learning pour Images
Pas encore d'évaluation
Attention en Deep Learning pour Images
134 pages
Tunda Olembe Djamba, Cours de Robotique
Pas encore d'évaluation
Tunda Olembe Djamba, Cours de Robotique
9 pages
Controle de Fin de Semestre 15.01.2023 Corrigã©-Type
Pas encore d'évaluation
Controle de Fin de Semestre 15.01.2023 Corrigã©-Type
4 pages
Boughaba Boukhris
Pas encore d'évaluation
Boughaba Boukhris
43 pages
Comment Créer Et Vendre Des Agents Ia
Pas encore d'évaluation
Comment Créer Et Vendre Des Agents Ia
194 pages
Rapport PFE - La Digitalisation Des Services Bancaires: Application de Modèle TAM
Pas encore d'évaluation
Rapport PFE - La Digitalisation Des Services Bancaires: Application de Modèle TAM
64 pages
Apprentissage du Perceptron Multi-Couches
Pas encore d'évaluation
Apprentissage du Perceptron Multi-Couches
50 pages
Robotique : Conception et Applications
Pas encore d'évaluation
Robotique : Conception et Applications
13 pages
Remédiation 2as Fiche App
Pas encore d'évaluation
Remédiation 2as Fiche App
4 pages
Introduction à l'IA pour Réseaux
Pas encore d'évaluation
Introduction à l'IA pour Réseaux
33 pages
Programme Digital Horizon Final
Pas encore d'évaluation
Programme Digital Horizon Final
12 pages
La Philosophie Du Travail À L'ère de L'automatisation
Pas encore d'évaluation
La Philosophie Du Travail À L'ère de L'automatisation
2 pages
Modélisation IA des Fuites des Barrages Algériens
Pas encore d'évaluation
Modélisation IA des Fuites des Barrages Algériens
25 pages
Introduction à l'Intelligence Artificielle
Pas encore d'évaluation
Introduction à l'Intelligence Artificielle
27 pages
Baudrillard, J., Modernite
Pas encore d'évaluation
Baudrillard, J., Modernite
3 pages
d31 - Be Gest - Sujet - Juin 2021
Pas encore d'évaluation
d31 - Be Gest - Sujet - Juin 2021
32 pages
Le Rôle de l'IA Dans L'éducation
Pas encore d'évaluation
Le Rôle de l'IA Dans L'éducation
11 pages
Rapport D'activité 2018 de l'ANR
Pas encore d'évaluation
Rapport D'activité 2018 de l'ANR
47 pages
Éthique IA
Pas encore d'évaluation
Éthique IA
3 pages
Maîtrisez l'IA D'excel
Pas encore d'évaluation
Maîtrisez l'IA D'excel
13 pages
Commande Avancée
Pas encore d'évaluation
Commande Avancée
54 pages
Programme Formation Intensive Data Science
Pas encore d'évaluation
Programme Formation Intensive Data Science
10 pages
Digiu French
Pas encore d'évaluation
Digiu French
64 pages
Intelligence Artificielle Appliquee Impact Lintelligence Artificielle Systeme Educatif
100% (3)
Intelligence Artificielle Appliquee Impact Lintelligence Artificielle Systeme Educatif
28 pages