0% ont trouvé ce document utile (0 vote)

97 vues29 pages

Classification Non-Supervisée et Clustering

Ce document présente les principes de base de la classification non supervisée. Il décrit plusieurs algorithmes de clustering comme k-means et les regroupements hiérarchiques. Il aborde également les notions de similarité et de distance entre objets qui sont importantes pour le clustering.

Transféré par

wikokkk

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

97 vues29 pages

Classification Non-Supervisée et Clustering

Transféré par

wikokkk

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Classification Avancée

Rémi Eyraud (grandement épaulé par Cécile Capponi)

Chapitre 3
Classification Non-Supervisée

Master 2 TSI-IMOVI
Rappel (pour les poissons rouges) : classification supervisée

● Un ensemble X = X1 x ... x Xd où chaque Xi est le domaine d'un

attribut Ai symbolique ou numérique.
● Un ensemble fini de classes Y.
● On suppose l'existence d'une variable aléatoire Z=(X,Y) à
valeurs dans X x Y.
● Les exemples/données sont des couples (x,y) de X x Y tirés
selon la distribution jointe :
P(Z=(x,y)) = P(X=x)P(Y=y|X=x).
● Un échantillon S est un ensemble fini d'exemples {(x1,y1), ... ,
(xn,yn)} i.i.d. selon P.
Classification Non-supervisée
● Les instances du problème sont identiques à la classification
supervisée, mais la classe des exemples n'est pas donnée : les
données font partie de X seulement !
● L'objectif est toujours de trouver un classifieur qui minimise le
risque
● Mais on ne peut même plus évaluer le risque sur l'échantillon
d'apprentissage !
● Il faut donc se servir d'autres informations pour segmenter les
données en classes (information sur le nombre de classes,
topologie de l'espace des attributs, ...)
● Principe : Regroupement (Clustering)
Le Clustering, c’est quoi ?

● Regroupement (Clustering): construire une collection

d’objets
○ Similaires au sein d’un même groupe
○ Dissimilaires quand ils appartiennent à des groupes
différents
● Le Clustering est de la classification non supervisée: pas de
classes prédéfinies
Le Clustering, exemples

Le clustering est le cas le plus souvent rencontré !

● Marketing : groupes distincts de clients (recommandation)
● Image : regroupement de zones similaires (segmentation)
● Analyse de réseau social
● Détection de fraude
● Etc. !
Qu’est-ce qu’un bon regroupement ?

● Une bonne méthode de regroupement permet de garantir

○ Une grande similarité intra-groupe
○ Une faible similarité inter-groupe
● La qualité d’un regroupement dépend donc de la mesure de
similarité utilisée par la méthode et de son implémentation
Mesurer la qualité d’un clustering

● Métrique pour la similarité: la similarité est exprimée par le

biais d’une mesure de distance
● Une autre fonction est utilisée pour la mesure de la qualité
● Les définitions de distance sont très différentes selon que les
domaines d'attributs sont des intervalles (continues), des
catégories, des booléens.
● En pratique, on utilise souvent une pondération des attributs
Plan de cette partie

1. Introduction
2. Algorithmes de Clustering
3. Retours sur la notion de distance - Similarité
Algorithmes de Clustering
Les différentes approches de regroupement
● Algorithmes de Partitionnement : Construire plusieurs partitions
puis les évaluer selon certains critères
● Algorithmes hiérarchiques : Créer une décomposition
hiérarchique des objets selon certains critères
● Algorithmes basés sur la densité : basés sur des notions de
connectivité et de densité
● Algorithmes de grille : basés sur un structure à multi-niveaux de
granularité
● Algorithmes à modèles : Un modèle est supposé pour chaque
cluster. Puis vérifier chaque modèle sur chaque groupe pour
choisir le meilleur
Algorithmes à partitionnement
● Construire une partition à k clusters d’une base D de n objets
● Les k clusters doivent optimiser le critère choisi
○ Global optimal: Considérer toutes les k-partitions

○ Heuristic methods: Algorithmes k-means et k-medoids

●
k-means (MacQueen’67):
Chaque cluster est représenté par son centre de gravité
●
k-medoids or PAM (Partition around medoids) (Kaufman &
Rousseeuw’87):
Chaque cluster est représenté par un de ses objets
L’Algorithme des k-moyennes (k-means)

L’algorithme k-means est en 4 étapes :

1. Choisir k objets Mi formant ainsi k clusters Ci
2. (Ré)affecter chaque donnée x au cluster Ci de centre Mi tel
que distance(x, Mi) est minimal
3. Recalculer Mi de chaque cluster (le barycentre)
4. Aller à l’étape 2 si on vient de faire une affectation
k-means : exemples
En 1D : [Link]
k-means : exemples
En 2 D:

[Standford, 2018]
Commentaires sur la méthode des k-means
● Force :
○ Relativement efficace: O(tkn), où n: nombre de données,
k: nb de clusters, et t: nb itérations. Normalement k, t << n.
○ Passage à l’échelle
○ Tend à réduire la variance inter-cluster (Théorème)

Distance de Manhattan Distance euclidienne

Commentaires sur la méthode des k-means
● Faiblesses :
○ Très dépendant de l’initialisation
○ On doit spécifier k (nombre de clusters)
○ Les clusters sont construits par rapports à des objets
inexistants (les milieux) (solution : k-médoïdes)
○ Ne peut pas découvrir les groupes non-convexes
Autres algorithmes de clustering
● Regroupement hiérarchiques : Ascendant ou descendant

● Autres :
○ Clustering spectral (non-convexe)
○ Algorithme EM (mélanges de gaussiennes, estimation de
densité)
○ Sampling (CLARA, CURE, ...)
Notion de distance - Similarité
Interval : pré-traitement
● Standardiser les données :
○ Calculer l’écart absolu moyen pour la colonne j :

où
○ Calculer la valeur standardisée pour chaque case de la
matrice de données :
Standardisation : exemple
MAge = 60 SAge = 5

MSalaire = 11074 SSalaire = 148

Similarité entre données

Les distances expriment une similarité

● Exemple : distance de Minkowski :

○ Si p = 1, d1 est la distance de Manhattan

○ Si p = 2, d2 est la distance euclidienne
Exemple : distance de Manhattan

d1(p1, p2) = 120

d1(p1, p3) = 132
Conclusion : p1 ressemble
plus à p2 qu’à p3 :-(

d1(p1, p2) = 120

d1(p1, p3) = 132
Conclusion : p1 ressemble
plus à p3 qu’à p2 :-)
Distance pour attributs binaires
● Table de contingence des attributs à valeurs dans {0, 1} :
Donnée j

1 0

1 a b
Donnée i
0 c d

● Exemple : x1 = (1, 1, 0, 1, 0) et x2 = (1, 0, 0, 0, 1)

alors : a = 1, b = 2, c =1, d = 1
Distance pour attributs binaires : distances
● Coefficient d’appariement simple :

Exemple pour x1 = (1, 1, 0, 1, 0) et x2 = (1, 0, 0, 0, 1),

Appariement(x1, x2) = 3/5
● Coefficient de Jaccard (attributs non-symétriques) :

Donnée j

Exemple: Jaccard(x1, x2) = 3/4 1 0

1 a b
Donnée i
0 c d
Distance pour attributs binaires : asymétriques
● Attribut symétrique : Ex. le sexe d’une personne : coder masculin
par 1 et féminin par 0 c’est pareil que le codage inverse
● Attribut asymétrique : Ex. Test HIV. Le test peut être positif ou
négatif (0 ou 1) mais il y a une valeur qui sera plus présente que
l’autre.
Généralement, on code par 1 la modalité la moins fréquente :
2 personnes ayant la valeur 1 pour le test sont plus similaires
que 2 personnes ayant 0 pour le test
Distance pour attributs binaires : asymétriques
Exemple :

Le Genre est un attribut symétrique, les autres non.

Prenons Y = P = 1 et N =0, les distances sur les attributs asymétriques :

Jack et Mary sont les plus similaires : sans doute le même mal
Distance pour les attributs nominaux
● Généralisation du cas binaires. Exemple : valeurs parmi rouge,
vert, bleu
● Méthode 1 : Matching simple. m = nombre d’appariements,
p = nombre d’attributs nominaux :

● Méthode 2 : transformation en attributs binaires. Exemple :

Une colonne “Rouge” qui prend les valeurs vrai ou faux, une
colonne “Vert”, et une colonne “Bleu”
Distance pour les attributs ordinaux
● Les valeurs peuvent être discrètes (ex: classement) ou
continues (ex: temps de course)
● Ce qui compte : l’ordre
● Méthode : traité comme des intervalles : pour l’attribut A
○ Remplacer x par son rang r ∈ {1, …, max(A)} {1, …, max(A)}
i,A i,A
○ Remplacer le rang par une valeur dans [0, 1] avec :

○ Utiliser une distance de Minkowski

Présence d’attributs de différents types

● Pour chaque type d'attributs, utiliser une mesure adéquate.

Problèmes: les regroupements obtenus peuvent être
différents !
● On utilise une formule pondérée pour les combiner.

Vous aimerez peut-être aussi

Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
48 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Méthodes de Clustering en Apprentissage Automatique
Pas encore d'évaluation
Méthodes de Clustering en Apprentissage Automatique
35 pages
Clustering et K-means en Informatique
Pas encore d'évaluation
Clustering et K-means en Informatique
7 pages
Clustering
Pas encore d'évaluation
Clustering
51 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Méthodes de Clustering et Classification
Pas encore d'évaluation
Méthodes de Clustering et Classification
107 pages
Clustering
100% (1)
Clustering
114 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Méthodes de Classification : K-means, CHA, KNN
Pas encore d'évaluation
Méthodes de Classification : K-means, CHA, KNN
10 pages
Apprentissage Non Supervisé en Machine Learning
Pas encore d'évaluation
Apprentissage Non Supervisé en Machine Learning
101 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Chp3 Les Techniques de Clustering
Pas encore d'évaluation
Chp3 Les Techniques de Clustering
40 pages
Techniques de Fouilles de Données
Pas encore d'évaluation
Techniques de Fouilles de Données
110 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
1 Slides
Pas encore d'évaluation
1 Slides
41 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
18 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Kmeans
100% (2)
Kmeans
23 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Clustering et Distances en ML
Pas encore d'évaluation
Clustering et Distances en ML
129 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
50 pages
Analys
Pas encore d'évaluation
Analys
16 pages
Techniques de Segmentation en Data Mining
Pas encore d'évaluation
Techniques de Segmentation en Data Mining
59 pages
Classification Hiérarchique en Clustering
Pas encore d'évaluation
Classification Hiérarchique en Clustering
64 pages
Cours
Pas encore d'évaluation
Cours
13 pages
Chapitre V ML Apprentissage Non Supervise
Pas encore d'évaluation
Chapitre V ML Apprentissage Non Supervise
23 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
ML NonSupervise
Pas encore d'évaluation
ML NonSupervise
30 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
48 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
22 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
Introduction à la classification automatique
Pas encore d'évaluation
Introduction à la classification automatique
19 pages
Modélisation en Apprentissage Non Supervisé Classification Automatique
Pas encore d'évaluation
Modélisation en Apprentissage Non Supervisé Classification Automatique
68 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Techniques de Segmentation et Clustering
Pas encore d'évaluation
Techniques de Segmentation et Clustering
51 pages
Chapitre 3 Segmentation
Pas encore d'évaluation
Chapitre 3 Segmentation
33 pages
Analyse de Données : Méthodes et Outils
Pas encore d'évaluation
Analyse de Données : Méthodes et Outils
3 pages
Chapitre 7. Le Clustering
Pas encore d'évaluation
Chapitre 7. Le Clustering
14 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
63 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
22 pages
Classification KNN en Science des Données
Pas encore d'évaluation
Classification KNN en Science des Données
19 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Comprendre l'algorithme k-ppv
Pas encore d'évaluation
Comprendre l'algorithme k-ppv
26 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Système de gestion de bibliothèque moderne
Pas encore d'évaluation
Système de gestion de bibliothèque moderne
11 pages
Analyse en Composantes Principales (A.C.P.)
Pas encore d'évaluation
Analyse en Composantes Principales (A.C.P.)
37 pages
correctionTD2 PDF
Pas encore d'évaluation
correctionTD2 PDF
3 pages
Projecteurs et Analyse en Données
Pas encore d'évaluation
Projecteurs et Analyse en Données
54 pages
ACP
Pas encore d'évaluation
ACP
81 pages
Base de données Manga et Animés
Pas encore d'évaluation
Base de données Manga et Animés
6 pages
Justice des enfants : enjeux et réflexions
Pas encore d'évaluation
Justice des enfants : enjeux et réflexions
7 pages
01 - L'Enfance de Bécassine
Pas encore d'évaluation
01 - L'Enfance de Bécassine
72 pages
Amérindiens et colonisation jusqu'en 1608
Pas encore d'évaluation
Amérindiens et colonisation jusqu'en 1608
5 pages
Conseils Longévité Leung Kok Yuen
100% (1)
Conseils Longévité Leung Kok Yuen
2 pages
Fiche Enrichie TOTALE On Ne Badine Pas Musset
Pas encore d'évaluation
Fiche Enrichie TOTALE On Ne Badine Pas Musset
7 pages
Travaux Encadrés Le Bourgeois Gentilhomme
Pas encore d'évaluation
Travaux Encadrés Le Bourgeois Gentilhomme
2 pages
Origines du Parc national des Cévennes
Pas encore d'évaluation
Origines du Parc national des Cévennes
247 pages
1.formes Galéniques
0% (1)
1.formes Galéniques
56 pages
Corrigé Examen Math Bac 2 Science Math 2020 Normale
Pas encore d'évaluation
Corrigé Examen Math Bac 2 Science Math 2020 Normale
18 pages
Réaménagement Paroissial: Eucharistie et Assemblée
Pas encore d'évaluation
Réaménagement Paroissial: Eucharistie et Assemblée
214 pages
Steiner Rudolf - Connaissance Du Christ
100% (1)
Steiner Rudolf - Connaissance Du Christ
266 pages
Modèle bureaucratique de Max Weber
Pas encore d'évaluation
Modèle bureaucratique de Max Weber
16 pages
A1.1 - Exercices de Grammaire
Pas encore d'évaluation
A1.1 - Exercices de Grammaire
3 pages
Dictee Bilan 2a
Pas encore d'évaluation
Dictee Bilan 2a
4 pages
Loco Revue 2024 08
Pas encore d'évaluation
Loco Revue 2024 08
100 pages
Master Musicologie: Pratiques et Développement
Pas encore d'évaluation
Master Musicologie: Pratiques et Développement
28 pages
Mécanique : Pendule conique et anneau sur tige
Pas encore d'évaluation
Mécanique : Pendule conique et anneau sur tige
2 pages
Sorcier Tieffelin : Érudition et Magie
Pas encore d'évaluation
Sorcier Tieffelin : Érudition et Magie
2 pages
Expose Sur La Tricherie en Milieu Scolai
Pas encore d'évaluation
Expose Sur La Tricherie en Milieu Scolai
4 pages
Histoire et principes de la linguistique
Pas encore d'évaluation
Histoire et principes de la linguistique
7 pages
Examen de Compréhension et Langue
Pas encore d'évaluation
Examen de Compréhension et Langue
2 pages
Scène de théâtre : Amour et transformations
Pas encore d'évaluation
Scène de théâtre : Amour et transformations
4 pages
TDR Mobilisation Sociale Ouverture Centre ADRA
Pas encore d'évaluation
TDR Mobilisation Sociale Ouverture Centre ADRA
7 pages
Origines de la Philosophie Occidentale
Pas encore d'évaluation
Origines de la Philosophie Occidentale
5 pages
Faire Un Câlin À Un Arbre Ou La Sylvothérapie
Pas encore d'évaluation
Faire Un Câlin À Un Arbre Ou La Sylvothérapie
2 pages
LATIN - Tableaux Des Verbes Actifs Et Passifs
Pas encore d'évaluation
LATIN - Tableaux Des Verbes Actifs Et Passifs
9 pages
Exos Ev
Pas encore d'évaluation
Exos Ev
4 pages
Nutrition et santé : dangers de l'alimentation
Pas encore d'évaluation
Nutrition et santé : dangers de l'alimentation
4 pages