03-Segmentation (2p)
03-Segmentation (2p)
IND6212
Valorisation de données industrielles
Bruno Agard
Laboratoire en Intelligence des Données ([Link]
Département de Mathématiques et Génie Industriel
École Polytechnique de Montréal
[Link]@[Link]
Segmentation
Clustering
1
16/01/2022
Prédiction
X1 X2 X3 Y1
C1 1 0 1 2
X1 X2 X3 Y1
C2 1 1 0 3
C1 1 0 1 2
C3 1 0 1 2
C2 1 1 0 3
C4 1 0 1 2
C3 1 0 1 2
C5 1 0 .. 2
C4 1 0 1 ..
C6 .. 1 0 3
C5 1 0 .. 2
C7 1 1 0 4
C6 .. 1 0 3
C7 1 1 0 4 Segmentation
X1 X2 X3 Y1
C1 1 0 1 2
C2 1 1 0 3
Description
C3 1 0 1 2
If X1=1 then X3 =1 [6, 3/6] C4 1 0 1 ..
If (X1=1 and X2=0) then X3=1 [3, 3/3] C5 1 0 .. 2
If X1=1 then !X1=0 [6, 100%]
C6 .. 1 0 3
….
C7 1 1 0 4
Sommaire
• Introduction/Définitions
• Métriques
• Classification des algorithmes
• Exemples de méthodes…
• Conclusions
2
16/01/2022
Introduction/
Définitions
Introduction/Définitions
• Principe:
• Maximiser l’homogénéité à l’intérieur de chaque groupe
• Minimiser une distance interne
• Maximiser l’hétérogénéité entre les groupes
• Maximiser une distance externe
3
16/01/2022
Métriques
Métriques
4
16/01/2022
• Distance Euclidienne d ( x1 , x2 ) = å (x i
1,i - x2,i ) 2
B
• Voisin le plus éloigné (complete linkage) A
C
B
• Distance moyenne (average linkage) A
C
B
• Distance au centre de gravité A
C
•…
10
5
16/01/2022
G2
G1 B
• Plus proche voisin (single linkage) A
C
𝐷 = 𝑚𝑖𝑛 𝑑 𝑃𝑖 , 𝑃𝑗 , ∀𝑃𝑖 ∈ 𝐺1, ∀𝑃𝑗 ∈ 𝐺2 D
11
Principe
12
6
16/01/2022
13
Algorithm classification
14
7
16/01/2022
Méthodes par
partitionnement
15
K-means
16
8
16/01/2022
Méthode K-means
• Principe
• Nombre de classes connu
• Rechercher des classes homogènes
• Données de base
• Matrice de points
• Points connu en coordonnées
• Métrique (distance)
• Pb
• Non unicité de la solution, le résultat dépends des points de départ
17
• Initialisation
• N centres de classes = N premiers points
• Déterminer les classes
• stable = faux
• Tant que non stable faire
• Début : calculer les centres de classes
• Affecter chaque point au centre le plus proche
• Si les classes évoluent Alors stable = faux
• Sinon stable = vrai
• Fin
• Fin
18
9
16/01/2022
Exemple
27
Propriétés
• K-means peut converger vers un optimum local.
• Le problème peut être résolu en choisissant de meilleurs point de
départ (choix judicieux, chance, exhaustivité).
• Le nombre de clusters est une donnée de la méthode, il dépend de la
granularité escomptée de l’analyse.
K-means
28
10
16/01/2022
Mini-Batch K-Means
29
30
11
16/01/2022
From [Link]
31
K-MEDOIDS
32
12
16/01/2022
Principe K-medoids
• Particularités:
• Choix des points de départ
• Choix de la métrique
• Choix du représentant
33
Algorithme
(Kaufman et Rousseeuw, 1987)
• On considère le critère d’erreur suivant:
k
E = å å d ( p, mi ) 2
i =1 pÎCi
• Algorithme
• Initialisation
• Choisir K représentants, appelés medoids
• Tant que non stable faire
• Affecter tout les points restants au medoid le plus proche
• Sélectionner un point non medoid et interchanger si le critère d’erreur diminue
• Si le critère d’erreur ne peut plus diminuer stable = vrai
34
13
16/01/2022
PAM example
J. Han and M. Kamber
E’-E<0
E’-E>0
E’-E<0
35
Exemple PAM
36
14
16/01/2022
CLARA
37
CLARA
• Rq:
• La qualité du résultat dépend de la taille de l’échantillon
• Si les échantillons ne sont pas représentatifs de l’ensemble de la population, le
résultat est biaisé
38
15
16/01/2022
Méthodes hiérarchiques
39
Classification hiérarchique
40
16
16/01/2022
41
CHA
• Algorithme:
1. Initialisation:
• Chaque individu forme un cluster
• Calcul de la matrice de proximité entre chaque paire de points
2. Fusion:
• Sélectionner les deux points les plus proches
• Fusionner les deux points en question dans un cluster
• Mettre à jour la matrice de proximité
3. Arrêter lorsqu’il ne reste plus qu’un cluster
42
17
16/01/2022
Exemple
Machines
a b c d e f g h i j k
1 1 1 0 0 1 1 0 1 0 1 0
2 1 0 0 0 1 0 0 0 1 1 0
Produits
3
4
0
1
1
0
0
0
0
1
0
1
1
0
1
0
1
1
0
0
1
0
0
1
Distances
5 0 1 1 1 1 0 1 0 1 1 0 de Hamming
6 0 1 0 1 1 1 1 0 0 0 0
7 1 1 0 1 1 1 1 0 1 1 1
8 1 1 1 1 1 1 1 1 0 0 1
1 2 3 4 5 6 7 8
Étape 1 1 0 4 3 5 7 5 5 5
2 4 0 7 5 5 7 5 9
3 3 7 0 8 6 4 6 6
4 5 5 8 0 8 6 6 4
5 7 5 6 8 0 4 4 6
6 5 7 4 6 4 0 4 4
7 5 5 6 6 4 4 0 4
8 5 9 6 4 6 4 4 0
43
Étape 1 - suite
1 2 3 4 5 6 7 8 1;3 2 4 5 6 7 8
1 0 4 3 5 7 5 5 5 1;3 0 7 3 8 7 5 6 6
2 4 0 7 5 5 7 5 9 2 7 0 7 5 5 7 5 9
3 3 7 0 8 6 4 6 6 3 7 0 8 6 4 6 6
4 5 5 8 0 8 6 6 4 4 8 5 8 0 8 6 6 4
5 7 5 6 8 0 4 4 6 5 7 5 6 8 0 4 4 6
6 5 7 4 6 4 0 4 4 6 5 7 4 6 4 0 4 4
7 5 5 6 6 4 4 0 4 7 6 5 6 6 4 4 0 4
8 5 9 6 4 6 4 4 0 8 6 9 6 4 6 4 4 0
Distance de 2
Groupe (1,3):
Au groupe (1,3):
Distance=3
Max(d(2,1),d(2,3))
44
18
16/01/2022
Étape 3
1;3 2 4 5 6 7;8 1;3 2 4 5 6;7;8
1;3 0 7 8 7 5 6 1;3 0 7 8 7 6 6
2 7 0 5 5 7 9 2 7 0 5 5 9 9
4 8 5 0 8 6 6 4 8 5 0 8 6 6
5 7 5 8 0 4 6 5 7 5 8 0 6 6
6 5 7 6 4 0 4 6;7;8 6 9 6 6 0 4
7;8 6 9 6 6 4 0 6 9 6 6 4 0
45
Etape 5
1;3 2;4 5 6;7;8 1;3 2;4 5;6;7;8
1;3 0 8 7 6 1;3 0 8 7 6
2;4 8 0 8 9 2;4 8 0 9 9
5 7 8 0 6 5;6;7;8 7 9 0 6
6;7;8 6 9 6 0 6 9 6 0
Etape 6
1;3 2;4 5;6;7;8 2;4 1;3;5;6;7;8
1;3 0 8 7 0 8 7
2;4 8 0 9 2;4 8 0 9
5;6;7;8 7 9 0 1;3;5;6;7;8 7 9 0
46
19
16/01/2022
Resultat
Dendrogram
CHA
47
From [Link]
48
20
16/01/2022
49
Introduction
50
21
16/01/2022
Présentation
• Segmentation en k groupes
• Méthode hiérarchique par agglomération
• Chaque cluster est représenté non pas par sa moyenne mais par c
éléments du cluster «bien répartis»
• Métrique quelconque pour la distance entre deux individus
(Euclidienne, Manhattan, Hamming…)
51
Métriques
52
22
16/01/2022
L’algorithme
• Initialisation
• Chaque individu forme un cluster
53
54
23
16/01/2022
Revenons à l’algorithme
• Initialisation
• Chaque individu forme un cluster
• Tant que nombre de clusters >k, faire:
• Fusion des 2 clusters les plus proches
• Sélection des c nouveaux représentants « bien répartis »
66
• Formes complexes
• K-means et HAC seulement pour les formes « sphériques »
• Mais fonctionne mal pour les formes convexes
67
24
16/01/2022
68
BIRCH
69
25
16/01/2022
70
71
26
16/01/2022
• Principe:
• Utilisation de la densité à la place de la distance
• Un point est voisin d’un autre s’il est à une distance inférieure à une valeur
fixée
• Un point est dense si le nombre de ses voisins dépasse un certain seuil
• Paramètres de densité:
• Rayon
• Nombre minimal de points q
p
72
Principe DBSCAN
• Faire:
1. Sélection aléatoire d’un point dense
2. Tous les points atteignables à partir de ce point, forment un cluster, et sont
retirés de l’espace
3. Recommencer en 1, jusqu’à ce que tous les points soit retirés
73
27
16/01/2022
DBSCAN
DBSCAN
74
75
28
16/01/2022
76
OPTICS
OPTICS
• Semblable au DBSCAN :
• Trouve des éléments de haute densité et en développe des grappes
• Mais, garde la hiérarchie des clusters
77
29
16/01/2022
78
79
30
16/01/2022
STING: Principe
80
STING: Algorithme
• Chaque cellule à un niveau supérieur est divisé en des cellules plus petites au
niveau inférieur
• Les informations statistiques de chaque cellule sont calculées et stockées
• Nombre d’éléments, min, max, moyenne, écart-type, …
• Type de distribution (normale, exponentielle, uniforme, …)
• Par affinages successifs
• On détermine la probabilité que les cellules du niveau inférieur soit denses
• On supprime les cellules non denses
81
31
16/01/2022
82
CLIQUE
83
32
16/01/2022
CLIQUE : Algorithme
84
CLIQUE: Définitions
• Unité : Après avoir formé une structure en grille dans l’espace, chaque
cellule rectangulaire est appelée UNITÉ. Chaque unité possède une taille
(T) définie par l’utilisateur…,
• Densité: Une UNITÉ est dense si la fraction totale des points qu’elle
contient égale ou exède le paramètre de densité (E), défini par
l’utilisateur…
• Cluster: Un CLUSTER est défini comme un maximum d’UNITÉS DENSES
interconnectés.
85
33
16/01/2022
86
Les CLUSTERS
87
34
16/01/2022
CLIQUE
88
• Forces
• Trouve automatiquement les unités les plus denses dans tous les sous espaces.
• Efficacité a regrouper les clusters
• Insensible à l’ordre d’entrée des données
• Peut travailler avec des données manquantes
• Fournit des descriptions des clusters compréhensible. pour les utilisateurs
• Faiblesse
• La précision dans la détection des Clusters dépend en grande partie du
positionnement de la grille dans l’espace (choix de la taille de la grille). Certains
auteurs soulignent aussi la trop grande simplicité de la méthode.
89
35
16/01/2022
90
Index Silhouette
• Silhouette
• a: distance moyenne entre un élément et tous les autres points de la même classe.
• b: distance moyenne entre un élément et tous les autres points du groupe suivant le plus proche..
• Le Coefficient Silhouette s est donné par:
𝑏−𝑎
𝑠=
max(𝑎, 𝑏)
• Le coefficient de silhouette pour un ensemble d’éléments est donné par la moyenne du
coefficient de silhouette pour chaque élément.
• Le score est limité entre -1 pour un regroupement incorrect et +1 pour un regroupement très
dense.
• Le score est plus élevé lorsque les groupes sont denses et bien séparés.
91
36
16/01/2022
Index Calinski-Harabasz
• Le score est plus élevé lorsque les grappes sont denses et bien
séparées, ce qui correspond à un concept standard de groupe.
92
Index Davies-Bouldin
• Utilise :
• la distance moyenne entre chaque point du groupe et le centroïde de ce
groupe (diamètre du groupe).
• La distance entre les centres des groupes.
• Zéro est le score le plus bas possible. Des valeurs plus proches de zéro
indiquent une meilleure partition.
93
37
16/01/2022
94
95
38
16/01/2022
96
• Taille du groupe
• Dispersion au sein d'un groupe
Analyses
• Dispersion entre les groupes
• Représentants d’un groupe
97
39
16/01/2022
Conclusions
98
Rappels
99
40
16/01/2022
100
Partitions vs hiérarchies
101
41
16/01/2022
Densité vs grilles
102
103 © 2020 Executive Education HEC Montréal. All rights reserved. From [Link]
Bruno Agard IND6212 - Valorisation de données industrielles 103/X
103
42