0% ont trouvé ce document utile (0 vote)

67 vues41 pages

1 Slides

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

67 vues41 pages

1 Slides

Transféré par

prof arama

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Les K plus proches voisins

Exemple introductif
Exemple introductif
Données plus complexe
Sepal length Sepal width Petal length Petal width Type
1 5.1 3.5 1.4 0.2 Iris setosa
2 4.9 3.0 1.4 0.2 Iris setosa
…
51 7.0 3.2 4.7 1.4 Iris versicolor
52 6.4 3.2 4.5 1.5 Iris versicolor
…
101 6.3 3.3 6.0 2.5 Iris virginica
102 5.8 2.7 5.1 1.9 Iris virginica
…

Quelle iris est-ce ?

Type de variable
• Variables qualitatives ou catégorielles.
– Ex.: couleur des yeux, type d’engrais, méthode
d’enseignement, catégorie grammaticale...
– Deux types: nominal ou ordinal.
– On appelle “niveaux” ou “modalités” les valeurs que peuvent
prendre une variable qualitative.
• Variables quantitatives ou numériques
– Elles peuvent être discrètes (à valeurs dans les entiers;
example: comptage) ou continues (à valeurs dans les réels).
– Deux types: intervalle (seule la différence à un sens, ex: heure)
ou
ratio (le rapport à un sens, ex: vitesse).
– Ex.: taille, production en maïs, temps de réaction...
• Les procédures statistiques diffèrent en fonction des types des
variables.
Variables
Exemple introductif
Classification
– Elle permet de prédire si un élément est membre
d’un groupe ou d’une catégorie donnée.
– Classes
• Identification de groupes avec des profils
particuliers
• Possibilité de décider de l’appartenance d’une
entité à une classe
– Caractéristiques
• Apprentissage supervisé : classes connues à l’avance
• Pb : qualité de la classification (taux d’erreur)
– Ex : établir un diagnostic (si erreur !!!)
Classification - Applications
• Comprendre les critères prépondérants pour
l’achat d’un produit ou d’un service
• Isoler les critères explicatifs d’un
comportement d’achat
• Analyse de risque: détecter les facteurs
prédisant un comportement de non paiement
• Détecter les causes de réclamation
Processus à deux étapes
• Etape 1 :
• Construction du modèle à
partir de l’ensemble
d’apprentissage (training set)

• Etape 2 :
• Utilisation du modèle :
tester la précision du modèle
et l’utiliser dans la
classification de nouvelles
données
Construction du modèle
• Chaque instance est supposée
appartenir à une classe
prédéfinie
• La classe d’une instance est Etape 1
déterminée par l’attribut
”classe”
• L’ensemble des instances
d’apprentissage est utilisé
dans la construction du
modèle
• Le modèle est représenté par
des règles de classification,
arbres de décision, formules
mathématiques, ...
Utilisation du modèle
• Classification de nouvelles
instances ou instances inconnues

• Estimer le taux d’erreur du modèle

Etape 2 – la classe connue d’une
instance test est comparée avec le
résultat du modèle
– Taux d’erreur = pourcentage de
tests incorrectement classés par le
modèle
Validation de la Classification
(accuracy)
• Estimation des taux d’erreurs :
• Partitionnement : apprentissage et test
(ensemble de données important)
– Utiliser 2 ensembles indépendents, e.g., ensemble
d’apprentissage (2/3), ensemble test (1/3)

Apprentissage Dt Validation D\Dt

Validation de la Classification
(accuracy)
• Validation croisée (ensemble de données modéré)
– Diviser les données en k sous-ensembles
– Utiliser k-1 sous-ensembles comme données
d’apprentissage et un sous-ensemble comme données test
D1 D2 D3 D4

D1 D2 D3 D4 D1 D2 D3 D4

• Bootstrapping : n instances test aléatoires (ensemble

de données réduit)
Exemple : Construction du modèle
Algorithmes
Classification
Données
Apprentissage

Nom Rang Année Titulaire

Mary Assistant Prof 3 non
Modèle
James Assistant Prof 7 oui
Bill Professor 2 oui
John Associate Prof 7 oui
Mark Assistant Prof 6 Ou Année > 6
Annie Associate Prof 3 non lors Titulaire = Oui

A
Exemple : Utilisation du modèle

Classifier

Données Taux d’erreur

Test du modèle ?

Nom Rang Année Titulaire

Tom Assistant Prof 2 non
Lisa Associate Prof 7 non
Jack Professor 5 oui
Ann Assistant Prof 7 oui
Exemple : Utilisation du modèle

Classifier

Donnée
inconnue
Titulaire ?

Nom Rang Année Titulaire

Jeff Professor 4 ? Oui
Paul Associate Prof 7 ? Oui
Evaluation des
méthodes de classification
• Taux d’erreur (Accuracy)
• Temps d’exécution (construction, utilisation)
• Robustesse (bruit, données manquantes,...)
• Extensibilité
• Interprétabilité
• Simplicité
Méthodes de Classification
– Méthode K-NN (plus proche voisin)
– Arbres de décision
– Réseaux de neurones
– Classification bayésienne

– Caractéristiques
• Apprentissage supervisé (classes connues)
Dis moi qui sont tes amis, je te dirais qui tu es
…

KNN
Méthode des plus proches voisins
• Méthode dédiée à la classification (k-NN
: nearest Neighbors).
• Méthode de raisonnement à partir de cas :
prendre des décisions en recherchant un ou des
cas similaires déjà résolus.
• Pas d’étape d ’apprentissage : construction d ’un
modèle à partir d’un échantillon d ’apprentissage
(réseaux de neurones, arbres de décision, …).
• Modèle = échantillon d’apprentissage + fonction
de distance + fonction de choix de la classe en
fonction des classes des voisins les plus proches.
Nearest-Neighbor
Unknown record
Algorithme kNN (K-nearest neighbors)
• Objectif : affecter une classe à une nouvelle
instance
• donnée : un échantillon de m enregistrements
classés (x, c(x))
• entrée : un enregistrement y
– 1. Déterminer les k plus proches enregistrements
de y
– 2. combiner les classes de ces k exemples
en une classe c
• sortie : la classe de y est c(y)=c
Qu’est ce qu’être proche ?
• Vocabulaire
• Mesure de dissimilarité (DM) : plus la mesure
est faible plus les points sont similaires ( ~
distance)
• Mesure de similarité (SM) : plus la mesure est
grande, plus les points sont similaires
• DM = borne - SM
Mesure de la similarité
• Il n’y a pas de définition
unique de la similarité entre
objets
– Différentes
mesures de distances
d(x,y)

• La définition de la similarité
entre objets dépend de :
– Le type des
données
considérées
– Le type de
similarité
recherchée
Mesure de similarité
Distance
• Propriétés d’une distance :
1. d ( x , y )  0
2. d ( x , y )  0 iff x  y
3. d ( x , y )  d ( y , x )
4. d ( x , z )  d ( x , y )  d ( y , z)

• Similarité : vérifie s(I,j)=s(j,i), s(i,j) >= 0;

s(i,i)>=s(i,j)
Distance – Données numériques
• Combiner les distances : Soient x=(x1,…,xn) et y=(y1, …,yn)
• Exemples numériques :
n
• Distance euclidienne : xiyi 2
d(x,y) 
ni1

• i x 
d(x,y)
Distance de Manhattan : i
1
• Distance de Minkowski : q
y
q n
d(x,y)  x
yi i1 i i

• 
q=1 : distance de Manhattan.
• q=2 : distance euclidienne
Distance données énumératives
• Champs discrets :
– Données binaires :
d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

– Donnée énumératives : distance nulle

si les valeurs sont égales et 1 sinon.

– Donnée énumératives ordonnées : idem. On

peut définir une distance utilisant la relation
d’ordre.
Distance – Données énumératives
• Généralisation des variables binaires, avec plus de 2 états,
e.g., rouge, jaune, bleu, vert

• Méthode 1: correpondance simple

– m: # de correspondances, p: # total de variables

d (i, j )  p p m
Variables Ordinales
• Une variable ordinale peut être discrète ou continue
• L’ordre peut être important, ex: classement
• Peuvent être traitées comme les variables intervalles
– remplacer xif par son rang r {1,...,M }
if f
– Remplacer le rang de chaque variable par une valeur dans
[0, 1] en remplaçant la variable f dans l’objet I par
1
z if = r if
M f 1
– Utiliser une distance pour calculer la similarité
Variables Ordinales
• Formulaire de satisfaction
– Att1 : Très satisfait, Satisfait, Neutre, Mécontent
–Donc 4 valeurs, dont les rangs sont
1,2,3,4 Devient :
(1-1)/(4-1), (2-1)/(4-1),(3-1)/(4-1),(4-1)/(4-1)

Donc Valeurs : 0, 1/3, 2/3, 3/3 (1)

Données mixtes
• Soit - transformation des variables numériques
en variables catégorielles
• (découpage en intervalles -> pris comme
p
modalités) d 2 (i, j) 1
•  distance/similarité
 p 
sur  j
(i, j)
k1 tableau disjonctif

• transformation des variables catégorielles

en variables numériques
• - utilisation de mesu[r0e,1]s "mixtes » Normaliser !!!!
• Principe :
Données mixtes
• Normalisation d’un attribut

vi  min vi  Avg(vi )
ai  ai
maxvi vi  min StDev(v i )

vi

• Ou directement dans le calcul de la distance

Pour une variable numérique :
(xik  x jk )
k (i, j)
 (max min)
Distance – Données mixtes
• Exemple : (Age, Propriétaire résidence principale,
montant des mensualités en cours)
• x=(30,1,1000), y=(40,0,2200), z=(45,1,4000)
• d(x,y)=sqrt( (10/15)2 + 12 + (1200/3000)2) = 1.27
• d(x,z)= sqrt( (15/15)2 + 02 + (3000/3000)2) = 1.41
• d(y,z)= sqrt( (5/15)2 + 12 + (1800/3000)2) = 1.21
• plus proche voisin de x = y

• Distances normalisées.
• Sommation : d(x,y)=d1(x1,y1) + … + dn(xn,yn)
Classification par plus proche voisin
• Choisir k:
– Si k est trop petit, knn sera sensible au bruit
– Si k est trop grand, le voisinage pourrait
inclure des points d’autres classes

X
Definition de Plus Proche Voisin

X X X

(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor

Algorithme kNN : sélection de la classe
• Basé sur l’apprentissage par analogie
• Basée sur une notion de distance et Similarité
• Solution simple : rechercher le cas le plus proche et
prendre la même décision (Méthode 1-NN).
• Combinaison des k classes :
– Heuristique : k = nombre d ’attributs + 1
– Vote majoritaire : prendre la classe majoritaire.
– Vote majoritaire pondéré : chaque classe est pondérée.
Le poids de c(xi) est inversement proportionnel à la distance
d(y,xi).

• Confiance : Définir une confiance dans la classe attribuée

= rapport entre les votes gagnants et le total des votes.
Vote pondéré

Classiquement weight factor, w = 1/d2

Exemple
8 plus proches voisins

Voisinage
5 de la classe
3 de la classe

=
Forces et faiblesses
• Les attributs ont le même poids
– centrer et réduire pour éviter les biais
– certains peuvent être moins classant que d'autres
• Apprentissage paresseux
– rien n'est préparé avant le classement
– tous les calculs sont fait lors du classement
– nécessité de technique d'indexation pour large BD
• Calcul du score d'une classe
– peut changer les résultats; variantes possibles

Vous aimerez peut-être aussi

1 Slides
Pas encore d'évaluation
1 Slides
43 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
22 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
KNN VF
Pas encore d'évaluation
KNN VF
32 pages
KNN PDF
Pas encore d'évaluation
KNN PDF
7 pages
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
Pas encore d'évaluation
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
10 pages
Machine Learning CH3
Pas encore d'évaluation
Machine Learning CH3
46 pages
Introduction à l'algorithme KNN en ML
Pas encore d'évaluation
Introduction à l'algorithme KNN en ML
16 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
KNN et Mesures de Distance en Classification
Pas encore d'évaluation
KNN et Mesures de Distance en Classification
22 pages
Classification KNN : Méthode et Applications
Pas encore d'évaluation
Classification KNN : Méthode et Applications
26 pages
Chapitre 4 - App Supervisé - Algo KNN
Pas encore d'évaluation
Chapitre 4 - App Supervisé - Algo KNN
18 pages
Comprendre l'algorithme k-ppv
Pas encore d'évaluation
Comprendre l'algorithme k-ppv
26 pages
Leçon5 KNN
100% (1)
Leçon5 KNN
10 pages
Algorithmeknn 121213175830 Phpapp02
0% (1)
Algorithmeknn 121213175830 Phpapp02
14 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
Algorithmeknn 121213175830 Phpapp02
Pas encore d'évaluation
Algorithmeknn 121213175830 Phpapp02
14 pages
Classification Par La Méthode KNN KNN
Pas encore d'évaluation
Classification Par La Méthode KNN KNN
26 pages
Définition de K-nearest neighbors
Pas encore d'évaluation
Définition de K-nearest neighbors
25 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Le KNN
Pas encore d'évaluation
Le KNN
14 pages
Classification Non-Supervisée et Clustering
Pas encore d'évaluation
Classification Non-Supervisée et Clustering
29 pages
TD1 KNN Classification Algorithmique
Pas encore d'évaluation
TD1 KNN Classification Algorithmique
7 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
48 pages
Chapitre 6 - K Plus Proches Voisins (KNN)
Pas encore d'évaluation
Chapitre 6 - K Plus Proches Voisins (KNN)
30 pages
2 TD
Pas encore d'évaluation
2 TD
4 pages
Chapitre4 KNN
Pas encore d'évaluation
Chapitre4 KNN
8 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Méthodes de Classification : K-means, CHA, KNN
Pas encore d'évaluation
Méthodes de Classification : K-means, CHA, KNN
10 pages
K Nearest Neighbor
Pas encore d'évaluation
K Nearest Neighbor
16 pages
Modélisation et Prédiction en IA
100% (3)
Modélisation et Prédiction en IA
75 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
131 pages
K plus proches voisins : Guide complet
Pas encore d'évaluation
K plus proches voisins : Guide complet
29 pages
Algorithme k-NN : Concepts et Applications
Pas encore d'évaluation
Algorithme k-NN : Concepts et Applications
32 pages
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
Pas encore d'évaluation
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
14 pages
Méthode Des Plus Proches Voisins: Mohamed Bouguessa
Pas encore d'évaluation
Méthode Des Plus Proches Voisins: Mohamed Bouguessa
13 pages
Algorithme K-nearest neighbor expliqué
Pas encore d'évaluation
Algorithme K-nearest neighbor expliqué
5 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
Clustering et K-means en Informatique
Pas encore d'évaluation
Clustering et K-means en Informatique
7 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Comprendre le KNN en Machine Learning
Pas encore d'évaluation
Comprendre le KNN en Machine Learning
10 pages
TP k-plus proches voisins en R
Pas encore d'évaluation
TP k-plus proches voisins en R
2 pages
Apprentissage Supervisé et Classification
Pas encore d'évaluation
Apprentissage Supervisé et Classification
83 pages
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
Pas encore d'évaluation
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
5 pages
Algorithme Kppv en Classification Supervisée
Pas encore d'évaluation
Algorithme Kppv en Classification Supervisée
14 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
K-Moyennes et KNN : Algorithmes expliqués
Pas encore d'évaluation
K-Moyennes et KNN : Algorithmes expliqués
10 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Méthodes Non-Paramétriques en Classification
Pas encore d'évaluation
Méthodes Non-Paramétriques en Classification
24 pages
FD 5
Pas encore d'évaluation
FD 5
18 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Classification KNN en Science des Données
Pas encore d'évaluation
Classification KNN en Science des Données
19 pages
Méthodes de Clustering et Classification
Pas encore d'évaluation
Méthodes de Clustering et Classification
107 pages
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
Pas encore d'évaluation
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
3 pages
Algorithme KNN pour la classification d'élèves
Pas encore d'évaluation
Algorithme KNN pour la classification d'élèves
6 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Chapitre - 5
Pas encore d'évaluation
Chapitre - 5
9 pages
Présentation du modèle K-NN en ML
Pas encore d'évaluation
Présentation du modèle K-NN en ML
19 pages
Stratégies de Croissance pour Contoso
Pas encore d'évaluation
Stratégies de Croissance pour Contoso
14 pages
Techniques de communication efficace
Pas encore d'évaluation
Techniques de communication efficace
13 pages
Créer des présentations PowerPoint efficaces
Pas encore d'évaluation
Créer des présentations PowerPoint efficaces
12 pages
Installation Et Configuration D'asterisk
Pas encore d'évaluation
Installation Et Configuration D'asterisk
20 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Introduction à l'Intelligence Artificielle
Pas encore d'évaluation
Introduction à l'Intelligence Artificielle
2 pages
TD1Signaux Aleatoires
Pas encore d'évaluation
TD1Signaux Aleatoires
3 pages
Administrateur Gestion Client Par MGR
Pas encore d'évaluation
Administrateur Gestion Client Par MGR
74 pages
BTS Plomberie Sanitaire
Pas encore d'évaluation
BTS Plomberie Sanitaire
44 pages
Benn Our Ya Mina
Pas encore d'évaluation
Benn Our Ya Mina
70 pages
Installation de My Routes sur R-LINK
Pas encore d'évaluation
Installation de My Routes sur R-LINK
3 pages
FLE A2 La Vie Avant Internet - Imparfait
Pas encore d'évaluation
FLE A2 La Vie Avant Internet - Imparfait
2 pages
Fiche Produit KinTrack Médimex 2022
Pas encore d'évaluation
Fiche Produit KinTrack Médimex 2022
2 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
29 pages
OwnersManual Yamaha Expansion Manager FR Om v250 h0 PDF
Pas encore d'évaluation
OwnersManual Yamaha Expansion Manager FR Om v250 h0 PDF
25 pages
Diagramme de Gantt de Suivi de Date1
Pas encore d'évaluation
Diagramme de Gantt de Suivi de Date1
2 pages
Systèmes Distribués : Communication et Horloges
Pas encore d'évaluation
Systèmes Distribués : Communication et Horloges
38 pages
Guide de création et diffusion de RAT
100% (1)
Guide de création et diffusion de RAT
14 pages
Management de La Logistique
100% (1)
Management de La Logistique
21 pages
Corrélation en traitement de signal
Pas encore d'évaluation
Corrélation en traitement de signal
19 pages
Cloud
Pas encore d'évaluation
Cloud
19 pages
Chapitre2 CPS
Pas encore d'évaluation
Chapitre2 CPS
11 pages
Boucles en Visual Basic : Guide Complet
Pas encore d'évaluation
Boucles en Visual Basic : Guide Complet
6 pages
Travaux Sur Base de Données Requêtes
Pas encore d'évaluation
Travaux Sur Base de Données Requêtes
12 pages
Cahier Exercices Reseau
Pas encore d'évaluation
Cahier Exercices Reseau
81 pages
Gagner Sa Vie Et Sa Liberte Sur Internet
Pas encore d'évaluation
Gagner Sa Vie Et Sa Liberte Sur Internet
75 pages
TP 3 Corba V1 V2 Solution
Pas encore d'évaluation
TP 3 Corba V1 V2 Solution
3 pages
Contrôle SNT : Cartographie et Géolocalisation
Pas encore d'évaluation
Contrôle SNT : Cartographie et Géolocalisation
4 pages
Exercice Architecture Des Ordinateurs 2
Pas encore d'évaluation
Exercice Architecture Des Ordinateurs 2
2 pages
WN1FP2 - Utilisation de La Souris
Pas encore d'évaluation
WN1FP2 - Utilisation de La Souris
6 pages
Le Problème Du Voyageur de Commerce
Pas encore d'évaluation
Le Problème Du Voyageur de Commerce
56 pages
Détecteur Titan Ger 1000 Manuel d'Utilisation
Pas encore d'évaluation
Détecteur Titan Ger 1000 Manuel d'Utilisation
40 pages
Marketing des services à la SG Madagascar
Pas encore d'évaluation
Marketing des services à la SG Madagascar
23 pages
Modèles de CV en Ligne 2023 À Télécharger Gratuit CV Word
Pas encore d'évaluation
Modèles de CV en Ligne 2023 À Télécharger Gratuit CV Word
13 pages
Indicateur de défaut MX-482 pour parafoudres
Pas encore d'évaluation
Indicateur de défaut MX-482 pour parafoudres
2 pages
Man 8040t PRG PDF
Pas encore d'évaluation
Man 8040t PRG PDF
326 pages