0% ont trouvé ce document utile (0 vote)
373 vues3 pages

TP KNN

Le document décrit un TP sur la classification avec l'algorithme des k plus proches voisins (k-NN). Il explique le fonctionnement de l'algorithme k-NN et donne comme exercice l'implémentation d'un classificateur k-NN pour prédire si une tumeur mammaire est maligne ou bénigne à partir d'un jeu de données.

Transféré par

Hanane KARDI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
373 vues3 pages

TP KNN

Le document décrit un TP sur la classification avec l'algorithme des k plus proches voisins (k-NN). Il explique le fonctionnement de l'algorithme k-NN et donne comme exercice l'implémentation d'un classificateur k-NN pour prédire si une tumeur mammaire est maligne ou bénigne à partir d'un jeu de données.

Transféré par

Hanane KARDI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Master Data Science & Big Data

Année 2022-2023
TP : Machine Learning

TP- K-Nearest Neighbors

 KNN

Le but de ce TP est l’application des enseignements au niveau du cours


ML partie, KNN.

Explication :
K plus proches voisins (k-NN) est un algorithme de classification qui utilise les K points les plus
proches pour déterminer la classification d'un ensemble de données.

Voici un exemple de classification avec k-NN : L'image représente un point rond qui est un
échantillon de test et doit être classifié comme un carré ou un triangle.

Dans le cas de K = 3, les 3 voisins les plus proches sont sélectionnés, comme indiqué par le cercle
solide. En examinant les 3 voisins les plus proches, il y a deux triangles et un carré à l'intérieur du

Bonne Chance !
cercle solide. Par conséquent, le point de test devrait être classifié comme un triangle. Maintenant, si
nous augmentons K à 5, cela signifie que nous considérons les 5 voisins les plus proches, comme
indiqué par le cercle en pointillés. En examinant les 5 voisins les plus proches, il y a trois carrés et
deux triangles à l'intérieur du cercle en pointillés. Par conséquent, le point de test devrait être
classifié comme un carré.

Cela montre comment la classification peut varier en fonction du nombre de voisins considérés dans
l'algorithme k-NN.

En choisissant un K plus grand, la décision finale peut être influencée par une majorité de voisins
appartenant à une classe particulière.

Il est important de choisir judicieusement la valeur de K en fonction des caractéristiques des données
et du problème de classification spécifique. Une valeur de K trop petite peut conduire à une
sensibilité excessive aux données d'entraînement, tandis qu'une valeur de K trop grande peut
conduire à une perte d'informations et à une mauvaise généralisation.

Le choix de K dans l'algorithme k-NN est donc crucial pour obtenir de bonnes performances de
classification. Il est recommandé d'expérimenter différentes valeurs de K et d'évaluer les
performances du modèle en utilisant des métriques d'évaluation appropriées telles que l'exactitude,
la précision et le rappel.

Exercice :
Titre : Classification du cancer du sein avec les k-plus proches voisins (k-
NN)

Objectif : Implémenter un classificateur k-plus proches voisins (k-NN)


pour prédire si une tumeur mammaire est maligne ou bénigne en
utilisant le jeu de données sur le cancer du sein.

Instructions :
1- Utilisez le jeu de données "cancer.csv".
2- Importez la bibliothèque Pandas.
3- Chargez le jeu de données "cancer.csv" en utilisant la méthode
read_csv() et stockez-le dans une variable df.
4- Affichez un résumé du jeu de données en utilisant la méthode info().
5- Supprimez la colonne "id" du dataframe en utilisant la méthode
drop().
6- Supprimez la colonne "Unnamed: 32" du dataframe en utilisant la
méthode drop().

Bonne Chance !
7- Divisez le jeu de données en un ensemble d'entraînement (80%) et un
ensemble de test (20%) en utilisant la méthode train_test_split() de la
bibliothèque scikit-learn.
8- Importez le modèle k-plus proches voisins (k-NN) en utilisant la classe
KNeighborsClassifier de la bibliothèque scikit-learn.
9- Instanciez un objet de la classe KNeighborsClassifier en spécifiant le
nombre de voisins à considérer (par exemple, k=5).
10- Entraînez le modèle en utilisant la méthode fit() avec les données
d'entraînement.
11- Faites des prédictions sur l'ensemble de test en utilisant la méthode
predict().
12- Calculez et affichez la matrice de confusion en utilisant la fonction
confusion_matrix() de la bibliothèque scikit-learn.
13- Calculez et affichez l'exactitude (accuracy), la précision (precision) et
le rappel (recall) en utilisant les fonctions appropriées de la
bibliothèque scikit-learn.
14- Tracez un graphique de la précision (accuracy) en fonction de la
valeur de k (nombre de voisins) pour k=1 à k=40. Interprétez les
résultats obtenus et discutez des performances du modèle.

Bonne Chance !

Vous aimerez peut-être aussi