Data Mining: 1 Données Et Problème

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

30 vues3 pages

Data Mining: 1 Données Et Problème

Transféré par

melileffy

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

TP k-plus proches voisins

Wilson Toussile

25/11/2021

1 Données et problème
1.1 Données
Nous considérons le problème de classification supervisée sur les données digits du module datasets de la
librairie scikit-learn. Ces données ont été obtenues en numérisant l’écriture manuscrite des chiffres de 0 à
9, à la résolution 8 × 8. Cela signifie que chaque image est décrite par 8 × 8 = 64 variables, chaque variable
correspondant au niveau d’activation d’un pixel représenté par un nombre compris entre 0 et 255. On a par
ailleurs le nombre représenté sur chaque image, que nous considérons comme variable à expliquer. La variable
à expliquer est qualitative et ses modélités sont 0, 1, · · · , 9.
import numpy as np
import pandas as pd
from sklearn import datasets
import matplotlib.pyplot as plt

digits0 = datasets.load_digits()
digits = pd.DataFrame(digits0.data)
digits["y"] = digits0.target
digits.head()

## 0 1 2 3 4 5 6 ... 58 59 60 61 62 63 y
## 0 0.0 0.0 5.0 13.0 9.0 1.0 0.0 ... 6.0 13.0 10.0 0.0 0.0 0.0 0
## 1 0.0 0.0 0.0 12.0 13.0 5.0 0.0 ... 0.0 11.0 16.0 10.0 0.0 0.0 1
## 2 0.0 0.0 0.0 4.0 15.0 12.0 0.0 ... 0.0 3.0 11.0 16.0 9.0 0.0 2
## 3 0.0 0.0 7.0 15.0 13.0 1.0 0.0 ... 7.0 13.0 13.0 9.0 0.0 0.0 3
## 4 0.0 0.0 0.0 1.0 11.0 0.0 0.0 ... 0.0 2.0 16.0 4.0 0.0 0.0 4
##
## [5 rows x 65 columns]
Voici quelques images sélectionnées aléatoirement, avec les chiffres qu’ils représentent:
# Dimensions du jeu de données
n, p = tuple(digits.shape)

# Indices sous forme de matrice 5*5

indices = np.random.choice(range(n), size=25, replace=False).reshape((5, 5))

# Figure
plt.figure(figsize = (10, 20))
fig, axs = plt.subplots(nrows=5, ncols=5, sharex='col', sharey='row')
for i in range(5):
for j in range(5):

1
axs[i, j].imshow(digits0.images[indices[i, j]])
axs[i, j].set_title(digits0.target[indices[i, j]])
plt.show()

2 4 1 4 5
0
5
9 1 9 1 2
0
5
4 2 4 5 9
0
5
0 0 6 8 7
0
5
8 9 3 3 9
0
5
0 5 0 5 0 5 0 5 0 5

1.2 Problème
Le but de ce TP est d’entraîner un classifieur sur ces données, de sorte à reconnaître un chiffre manuscrit
pour lequel on a une image en résolution 8 × 8.

2 Description des données

Pour nous conforter à l’idée que les données des images permettent d’automatiser la reconnaissance des
chiffres correspondant, il convient de faire une représentation graphique des données avec différentes couleurs
pour différents chiffres.
Question: Comment représenter 64 dimensions en dimension 2 de sorte à ressortir la discrimination des
classes?
Réponse: L’analyse factorielle discriminante (AFD) permet de le faire: Réduire la dimension de représentation
des données tout en conservant au mieux la discrimination des classes.
Sous Python, l’AFD est mise en œuvre dans la classe LinearDiscriminantAnalysis.

Travail à faire
En vous inspirant de ce qui est fait ici https://scikit-learn.org/stable/modules/lda_qda.html, réaliser une
AFD sur les données digits, puis comment les résultats

2
3 Classifieur des k plus proches voisins
Un des enjeux du classifieur des k plus proches voisins est la sélection de l’hyper-paramètre k. Rappelons-nous
que la complexité de l’algorithme k-pp décroît lorsque k croît.
Le classifieur k-pp est implémenté dans la classe KNeighborsClassifier du module neighbors de la librairie
scikit-learn. La classe GridSearchCV du module model_selection de la même librairie permet de
sélectionner l’hyper-paramètre optimal par validation croisée.

Travail à faire
1. Scinder aléatoirement le jeu de données en échantillon d’entraînement/échantillon test, de sorte de 70%
des données soient consacrées à l’entraînement. Pour cela, utiliser la fonction train_test_split du
module model_selection de scikit-learn.
k de voisins. Utiliser la classe
2. Utiliser l’échantillon d’entraînement pour sélectionner le nombre optimal b
GridSearchCV du module model_selection. Cette classe est basée sur la validation croisée par cv-fold.
Choisir cv = 5.
3. Utiliser l’échantillon test pour évaluer le classifieur sélectionné à la question précédente. Des mesures
de performances sont implémentées dans le module metrics de la librairie scikit-learn.
4. (Bonus)
1. Proposez votre propre implémentation de la classe GridSearchCV vous nommerez MyKnnGridSearchCV,
spécifique pour la sélection du nombre de voisins.
2. Sans refaire le découpage échantollon apprentissage/échantillon test, appliquez votre classe aux
données précédentes et comparez vos résultats aux précédents.

Vous aimerez peut-être aussi

TP3 Classification
Pas encore d'évaluation
TP3 Classification
4 pages
TP1 Classification Par Les K Plus Proches Voisins 23 24
Pas encore d'évaluation
TP1 Classification Par Les K Plus Proches Voisins 23 24
4 pages
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
Pas encore d'évaluation
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
10 pages
Algorithme des k plus proches voisins
Pas encore d'évaluation
Algorithme des k plus proches voisins
5 pages
Classification K-NN avec IRIS et MNIST
Pas encore d'évaluation
Classification K-NN avec IRIS et MNIST
4 pages
TP KNN
Pas encore d'évaluation
TP KNN
3 pages
TP-KNN Compress
Pas encore d'évaluation
TP-KNN Compress
3 pages
Classification KNN : Méthodes et Implémentations
Pas encore d'évaluation
Classification KNN : Méthodes et Implémentations
25 pages
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
Pas encore d'évaluation
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
3 pages
TP Afd
Pas encore d'évaluation
TP Afd
3 pages
KNN et Mesures de Distance en Classification
Pas encore d'évaluation
KNN et Mesures de Distance en Classification
22 pages
IA Exercices Applications (Corrigés)
Pas encore d'évaluation
IA Exercices Applications (Corrigés)
6 pages
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
Pas encore d'évaluation
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
5 pages
Classification des iris avec KNN en Python
Pas encore d'évaluation
Classification des iris avec KNN en Python
6 pages
TP4 : Classification avec k-NN en Python
Pas encore d'évaluation
TP4 : Classification avec k-NN en Python
3 pages
TP KNN
Pas encore d'évaluation
TP KNN
3 pages
Méthodes de Machine Learning expliquées
Pas encore d'évaluation
Méthodes de Machine Learning expliquées
5 pages
Algorithmeknn 121213175830 Phpapp02
Pas encore d'évaluation
Algorithmeknn 121213175830 Phpapp02
14 pages
Introduction au KNN et TP Pratique
Pas encore d'évaluation
Introduction au KNN et TP Pratique
6 pages
TP2KNN
Pas encore d'évaluation
TP2KNN
7 pages
Algorithme KNN pour la classification d'élèves
Pas encore d'évaluation
Algorithme KNN pour la classification d'élèves
6 pages
Algorithmeknn 121213175830 Phpapp02
0% (1)
Algorithmeknn 121213175830 Phpapp02
14 pages
Guide - KNN - KMeans Sara
Pas encore d'évaluation
Guide - KNN - KMeans Sara
20 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
100% (1)
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
TP Classificateur KNN - Ipynb - Colab
Pas encore d'évaluation
TP Classificateur KNN - Ipynb - Colab
8 pages
Chap3 KNN
Pas encore d'évaluation
Chap3 KNN
20 pages
Algorithme KNN
Pas encore d'évaluation
Algorithme KNN
18 pages
KNN : Classification et Exercices Pratiques
Pas encore d'évaluation
KNN : Classification et Exercices Pratiques
2 pages
2 TD
Pas encore d'évaluation
2 TD
4 pages
Application de l'algorithme K-NN
Pas encore d'évaluation
Application de l'algorithme K-NN
3 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
Machine Learning CH3
Pas encore d'évaluation
Machine Learning CH3
46 pages
TD2 KNN Classification
Pas encore d'évaluation
TD2 KNN Classification
12 pages
Itc MP TP6
Pas encore d'évaluation
Itc MP TP6
4 pages
Classification par k plus proches voisins
Pas encore d'évaluation
Classification par k plus proches voisins
32 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
Le KNN
Pas encore d'évaluation
Le KNN
14 pages
4-k Means
Pas encore d'évaluation
4-k Means
4 pages
K Plus Proches Voisins : TP et Classes
Pas encore d'évaluation
K Plus Proches Voisins : TP et Classes
3 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
TD1 KNN Classification Algorithmique
Pas encore d'évaluation
TD1 KNN Classification Algorithmique
7 pages
Algorithme k-NN pour la classification de fruits
Pas encore d'évaluation
Algorithme k-NN pour la classification de fruits
12 pages
TP k-plus proches voisins en R
Pas encore d'évaluation
TP k-plus proches voisins en R
2 pages
Chapitre4 KNN
Pas encore d'évaluation
Chapitre4 KNN
8 pages
Algorithme des k plus proches voisins
Pas encore d'évaluation
Algorithme des k plus proches voisins
4 pages
Cours 2emepartie 2emeannee Partie Inteligence Artificielle
Pas encore d'évaluation
Cours 2emepartie 2emeannee Partie Inteligence Artificielle
6 pages
KNN - Découvrez Cet Algorithme de Machine Learning PDF
Pas encore d'évaluation
KNN - Découvrez Cet Algorithme de Machine Learning PDF
5 pages
Prédiction de Crédit avec IA
Pas encore d'évaluation
Prédiction de Crédit avec IA
29 pages
Travaux Pratiques N°2: Travail À Faire
Pas encore d'évaluation
Travaux Pratiques N°2: Travail À Faire
2 pages
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
TP Ia
Pas encore d'évaluation
TP Ia
4 pages
Classification clients télécoms avec KNN
Pas encore d'évaluation
Classification clients télécoms avec KNN
3 pages
Correction TP2 : Modèles de classification
Pas encore d'évaluation
Correction TP2 : Modèles de classification
19 pages
Analyse des modèles KNN sur cancer
Pas encore d'évaluation
Analyse des modèles KNN sur cancer
7 pages
K-plus Proches Voisins : Classification et Régression
Pas encore d'évaluation
K-plus Proches Voisins : Classification et Régression
3 pages
DM TD4
Pas encore d'évaluation
DM TD4
2 pages
Partie Concepts de Base de L'informatique
Pas encore d'évaluation
Partie Concepts de Base de L'informatique
15 pages
Hand Gesture Control Robot Pfa
Pas encore d'évaluation
Hand Gesture Control Robot Pfa
33 pages
Format de Police
Pas encore d'évaluation
Format de Police
5 pages
Module M202
100% (1)
Module M202
13 pages
Iris Maroc Ordinateur de Bureau HP Elite Tour 800 g9 TWR I7 13700 16go 512go SSD Win11p DVD Writer 36m 628k4et
Pas encore d'évaluation
Iris Maroc Ordinateur de Bureau HP Elite Tour 800 g9 TWR I7 13700 16go 512go SSD Win11p DVD Writer 36m 628k4et
6 pages
Exercices de récursivité en algorithmique
Pas encore d'évaluation
Exercices de récursivité en algorithmique
2 pages
Recherche de stage en cybersécurité et DB admin
Pas encore d'évaluation
Recherche de stage en cybersécurité et DB admin
1 page
Agent Process
100% (1)
Agent Process
7 pages
Partie Linux Examen SR 1a 2022-2023
Pas encore d'évaluation
Partie Linux Examen SR 1a 2022-2023
3 pages
La Blockchain Et Les Cryptos de A-Z
Pas encore d'évaluation
La Blockchain Et Les Cryptos de A-Z
13 pages
Exam Ref (70-412) Configuration Des Services Avances
Pas encore d'évaluation
Exam Ref (70-412) Configuration Des Services Avances
700 pages
FIL40
Pas encore d'évaluation
FIL40
3 pages
Cours Tableaux Structures
Pas encore d'évaluation
Cours Tableaux Structures
7 pages
8-Représentation Des Nombres
Pas encore d'évaluation
8-Représentation Des Nombres
9 pages
Sélecteur de Pompe Pedrollo: Guide Utilisateur
Pas encore d'évaluation
Sélecteur de Pompe Pedrollo: Guide Utilisateur
33 pages
BADRnet Guide
100% (1)
BADRnet Guide
20 pages
Critique de la méthode MERISE
Pas encore d'évaluation
Critique de la méthode MERISE
12 pages
Quiz Lego Fan Quizz #1 Personnel
Pas encore d'évaluation
Quiz Lego Fan Quizz #1 Personnel
1 page
Documentation Sur Les Outils de Travail Collaboratifs
Pas encore d'évaluation
Documentation Sur Les Outils de Travail Collaboratifs
8 pages
Initiation PCMO
100% (1)
Initiation PCMO
50 pages
Gestion des Licences Automation V6.0 SP8
Pas encore d'évaluation
Gestion des Licences Automation V6.0 SP8
13 pages
Programmation et mémoire du ATMEGA 328P
100% (1)
Programmation et mémoire du ATMEGA 328P
5 pages
Administration Système et Réseau 2024
Pas encore d'évaluation
Administration Système et Réseau 2024
44 pages
Introduction aux Systèmes Automatisés
100% (1)
Introduction aux Systèmes Automatisés
45 pages
Programmation MATLAB pour Ingénieurs
Pas encore d'évaluation
Programmation MATLAB pour Ingénieurs
12 pages
Label Epi : Inclusion numérique en Drôme
Pas encore d'évaluation
Label Epi : Inclusion numérique en Drôme
13 pages
Trucs et Astuces Gmail : Guide Complet
Pas encore d'évaluation
Trucs et Astuces Gmail : Guide Complet
114 pages
Protocole SOAP et Gestion des Adhésions
Pas encore d'évaluation
Protocole SOAP et Gestion des Adhésions
5 pages
Journée Mondiale Sans Le Téléphone
Pas encore d'évaluation
Journée Mondiale Sans Le Téléphone
3 pages
Introduction à JavaScript pour Développeurs
100% (1)
Introduction à JavaScript pour Développeurs
194 pages