0% ont trouvé ce document utile (0 vote)

65 vues35 pages

4 Clustering

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

65 vues35 pages

4 Clustering

Transféré par

Dr. Chekir Amira

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Mohamed Boudiaf – M’sila

Département Informatique
Master Intelligence Artificielle
2020-2021

Chapitre 4
Clustering

Dr. Mehenni Tahar

Clustering
• La Classification est un apprentissage supervisé. La
supervision est faite en nommant les classes des instances
d’apprentissage.

• Le Clustering est un apprentissage non supervisé. Il n’y a pas

une connaissance apriori des classes, ni un ensemble
d’apprentissage.

• L’algorithme de clustering nécessite une affectation de

chaque instance à un groupe ou classe (cluster) de telle façon
que tous les objets d’un même groupe sont plus semblables
que les autres.
Clustering
• Trouver des groupes (classes) d’objets tels que chaque objet d’un groupe est
similaire qu’un autre objet du même groupe et différent des autres objets des
autres groupes
• L’objectif est de trouver un groupement le plus naturel possible des instances.
- A l’intérieur d’un groupe: Maximiser la similarité entre instances.
- Entre les groupes: Minimiser la similarité entre les instances.

Distances
Distances Inter-classes
Intra- sont
classes sont maximisées
minimisées
Clustering

• Par exemple, soit l’ensemble de figures suivant:

• Un algorithme de clustering peut trouver les clusters suivants:

• Bien que certaines figures différentes coexistent dans un

cluster.
Le problème du Clustering

• Etant donnée une base de données D={t1,t2,…,tn} de

tuples et une valeur entière k, le Clustering est de définir
une application f:Dg{1,..,k} où chaque ti est affecté à un
seul cluster (groupe ou classe) Kj, 1<=j<=k.

• Un Cluster, Kj, contient exactement les tuples qui lui

sont affectés.

• Contrairement au problème de classification, les

clusters ne sont pas connus apriori.
Qu’est ce qu’un bon regroupement?

• Une bonne méthode de regroupement permet de

garantir
• Une grande similarité intra-groupe
• Une faible similarité inter-groupe
• La qualité d’un regroupement dépend donc de la mesure
de similarité utilisée par la méthode et de son
implémentation
Structures de données
• Matrice de données  x11 ... x1f ... x1p 
 
 ... ... ... ... ... 
x ... xif ... xip 
 i1 
 ... ... ... ... ... 
x ... xnf ... xnp 
• Matrice de similarité  n1 

 0 
 d(2,1) 0 
 
 d(3,1) d ( 3,2) 0 
 
 : : : 
d ( n,1) d ( n,2) ... ... 0
Types des variables
Mesurer la qualité d’un clustering

• Métrique pour la similarité: La similarité est

exprimée par le biais d’une mesure de distance
• Une autre fonction est utilisée pour la mesure de la
qualité
• Les définitions de distance sont très différentes que
les variables soient des intervalles (continues),
catégories, booléennes ou ordinales
• En pratique, on utilise souvent une pondération des
variables
Similarité entre objets

• Les distances expriment une similarité

• Ex: la distance de Minkowski :

d (i, j)  (| x  x |  | x  x | ... | x  x | )
q
q q q
i1 j1 i2 j2 ip jp
où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets p-
dimensionnels et q un entier positif
• Si q = 1, d est la distance de Manhattan

d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1 i2 j2 ip jp
Similarité entre objets(I)

• Si q = 2, d est la distance Euclidienne :

d (i, j)  (| x  x |2  | x  x |2 ... | x  x |2 )
i1 j1 i2 j2 ip jp

• Propriétés
• d(i,j)  0
• d(i,i) = 0
• d(i,j) = d(j,i)
• d(i,j)  d(i,k) + d(k,j)
Variables binaires
• Une table de contingence pour données binaires
Objet j a= nombre de positions
1 0 sum où i a 1 et j a 1

1 a b a b
Objet i
0 c d cd
sum a  c b  d p

• Exemple oi=(1,1,0,1, 0) et
oj=(1,0,0,0,1)
a=1, b=2, c=1, d=1
Mesures de distances

• Coefficient d’appariement (matching) simple (invariant

pour variables symétriques):

d (i, j)  bc
a bc  d
Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
d(oi, oj)=3/5
• Coefficient de Jaccard d (i, j)  bc
a bc
d(oi, oj)=3/4
Variables binaires (I)

• Variable symétrique: Ex. le sexe d’une personne, i.e coder

masculin par 1 et féminin par 0 c’est pareil que le codage
inverse

• Variable asymétrique: Ex. Test HIV. Le test peut être positif

ou négatif (0 ou 1) mais il y a une valeur qui sera plus
présente que l’autre. Généralement, on code par 1 la
modalité la moins fréquente
• 2 personnes ayant la valeur 1 pour le test sont plus
similaires que 2 personnes ayant 0 pour le test
Variables binaires(II)
• Exemple
Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N
• Sexe est un attribut symétrique
• Les autres attributs sont asymétriques
• Y et P  1, N  0, la distance n’est mesurée que sur les asymétriques

0  1
d(jack, mary)   0.33
2  0  1
1  1
d(jack, ji m)   0.67
1  1  1
1  2
d(ji m, mary)   0.75
1  1  2

Les plus similaires sont Jack et Maryatteints du même mal

Approches de Clustering
• Algorithmes de Partitionnement: Construire plusieurs partitions
puis les évaluer selon certains critères
• Algorithmes hiérarchiques: Créer une décomposition
hiérarchique des objets selon certains critères
• Algorithmes basés sur la densité: basés sur des notions de
connectivité et de densité
• Algorithmes de grille: basés sur un structure à multi-niveaux de
granularité
• Algorithmes à modèles: Un modèle est supposé pour chaque
cluster ensuite vérifier chaque modèle sur chaque groupe pour
choisir le meilleur
Algorithmes à partitionnement
• Construire une partition à k clusters d’une base D de n objets
• Les k clusters doivent optimiser le critère choisi
• Global optimal: Considérer toutes les k-partitions
• Heuristic methods: Algorithmes k-means et k-medoids
• k-means (MacQueen’67): Chaque cluster est représenté
par son centre
• k-medoids or PAM (Partition around medoids) (Kaufman
& Rousseeuw’87): Chaque cluster est représenté par un
de ses objets
La méthode des k-moyennes (K-Means)

• L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci de centre

Mi tel que dist(O,Mi) est minimal

3. Recalculer Mi de chaque cluster (le barycentre)

4. Aller à l’étape 2 si on vient de faire une affectation

K-Means :Exemple
• A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A

• On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3. Ca

donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

• Chaque objet O est affecté au cluster au milieu duquel, O est

le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86
K-Means :Exemple (suite)

• dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent pas.
C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11

• dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent pas.
C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12

• dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en C2. Les

autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17},
M3=13.25

• dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2

C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15

Plus rien ne bouge

Commentaires sur la méthode des K-Means
• Force
• Relativement efficace: O(tkn), où n est # objets, k est #
clusters, et t est # itérations. Normalement, k, t << n.
E   p  mi
k 2
• Tend à réduire
pCi
i 1
• Faiblesses
• N’est pas applicable en présence d’attributs qui ne sont pas
du type intervalle (moyenne=?)
• On doit spécifier k (nombre de clusters)
• Les clusters sont construits par rapports à des objets
inexistants (les milieux)
• Ne peut pas découvrir les groupes non-convexes
La méthode des K-Medoids (PAM)

• Trouver des objets représentatifs (medoïdes) dans les

clusters (au lieu de la moyenne)
• Principe
• Commencer avec un ensemble de medoïdes puis
itérativement remplacer un par un autre si ça
permet de réduire la distance globale
• Efficace pour des données de petite taille
Algorithme des k-Medoides

Choisir arbitrairement k medoides

Répéter
affecter chaque objet restant au medoide le plus proche
Choisir aléatoirement un non-medoide Or
Pour chaque medoide Oj
Calculer le coût TC du remplacement de Oj par Or
Si TC < 0 alors
Remplacer Oj par Or
Calculer les nouveaux clusters
Finsi
FinPour
Jusqu’à ce ce qu’il n’y ait plus de changement
PAM (Partitioning Around Medoids) (1987)

Choisir arbitrairement k objets représentatifs

• Pour toute paire (h,j) d’objets t.q h est choisi et j
non, calculer le coût TCjh du remplacement de j
par h
• Si TCih < 0, j est remplacé par h
• Puis affecter chaque objet non sélectionné au
medoïde qui lui est le plus similaire
• Répéter jusqu’à ne plus avoir de changements
La méthode des K-Medoids

• TCjh représente le gain en distance globale que l’on va

avoir en remplaçant h par j

• Si TCjh est négatif alors on va perdre en distance. Ca

veut dire que les clusters seront plus compacts.

• TCjh=i dist(j,h)-dist(j,i)= i Cijh

La méthode des K-Medoids: Exemple

• Soit A={1,3,4,5,8,9}, k=2 et M={1,8} ensemble des medoides

C1={1,3,4} et C2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(9,8)2=23

• Comparons 1 et 3M={3,8}C1={1,3,4,5} et C2={8,9}

E{3,8} =dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
E {3,8} - E{1,8}= -13 <0 donc le remplacement est fait.

• Comparons 3 et 4 M={4,8} C1 et C2 inchangés et

E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2= 12 3 n’est pas remplacé
par 4
• Comparons 3 et 5M={5,8} C1 et C2 inchangés et E{5,8}>E{3,8}
Clustering Hiérarchique
• Utiliser la matrice de distances comme critère de
regroupement. k n’a pas à être précisé, mais a besoin d’une
condition d’arrêt
Etape Etap Etap Etap Etap agglomerative
0 e1 e2 e3 e4 (AGNES)
a
ab
b
abcde
c
cde
d
de
e
divisive
(DIANA)
Etap Etap Etap Etap Etap
e4 e3 e2 e1 e0
AGNES (Agglomerative Nesting)

• Utilise la matrice de dissimilarité.

• Fusionne les nœuds qui ont la plus faible dissimilarité
• On peut se retrouver dans la situation où tous les nœuds sont
dans le même groupe
10
10 10

9
9 9

8
8 8

7
7 7

6
6 6

5
5 5

4
4 4

3 3 3

2 2 2

1 1 1

0 0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
DIANA (Divisive Analysis)

• L’ordre inverse de celui d’AGNES

• Il se peut que chaque objet forme à lui seul un groupe

10 10
10

9 9
9

8 8
8

7 7
7

6 6
6

5 5
5

4 4
4

3 3
3

2 2
2

1 1
1

0 0
0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Critères de fusion-éclatement
• Exemple: pour les méthodes agglomératives, C1 et C2
sont fusionnés si
• il existe o1  C1 et o2 C2 tels que dist(o1,o2)  seuil,
ou
• il n’existe pas o1  C1 et o2 C2 tels que dist(o1,o2) 
seuil, ou
• distance entre C1 et C2  seuil avec
1
dist  C , C   n1 * n2
1 2  dist(o1, o2)
o1C1 o2C2
,

et n1=|C1|.
• Ces techniques peuvent être adaptées pour les
méthodes divisives
Méthodes d’agrégation

• Lien minimum
• δ(A, B) = min{d(a, b), a∈A, b∈B}

• Lien maximum
• δ(A, B) = max{d(a, b), a∈A, b∈B}

• Distance des centres de gravité

• δ(A, B) = d(ga, gb)
Exemple
Exemple (suite)
Inerties interclasse et intraclasse
Critère d’agrégation selon l’inertie

Théorème de Huygens :
• Inertie totale = Inertie inter-classe + Inertie intra-
classe

• Au fur et àmesure que les regroupements sont

effectués, l'inertie intra-classe augmente et l'inertie
interclasse diminue, car leur somme est une
constante liée aux données analysées.

Vous aimerez peut-être aussi

Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
Clustering
Pas encore d'évaluation
Clustering
51 pages
Chap3 Clustering
Pas encore d'évaluation
Chap3 Clustering
48 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
CA-Chapitre 3
Pas encore d'évaluation
CA-Chapitre 3
29 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Chapter 3 Clustering
Pas encore d'évaluation
Chapter 3 Clustering
7 pages
Clustering
100% (1)
Clustering
114 pages
Chp3 Les Techniques de Clustering
Pas encore d'évaluation
Chp3 Les Techniques de Clustering
40 pages
Techniques de Fouilles de Données
Pas encore d'évaluation
Techniques de Fouilles de Données
110 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
10 pages
Présentation Cours CA
Pas encore d'évaluation
Présentation Cours CA
50 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Kmeans
100% (2)
Kmeans
23 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Classification Tege2
Pas encore d'évaluation
Classification Tege2
19 pages
Méthodes Dapprentissage Non Supervisées
Pas encore d'évaluation
Méthodes Dapprentissage Non Supervisées
65 pages
Chapitre - 5
Pas encore d'évaluation
Chapitre - 5
9 pages
Clustering
Pas encore d'évaluation
Clustering
32 pages
Chapitre 7. Le Clustering
Pas encore d'évaluation
Chapitre 7. Le Clustering
14 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Introduction au Data Mining et Clustering
Pas encore d'évaluation
Introduction au Data Mining et Clustering
4 pages
Introduction au Clustering en Machine Learning
Pas encore d'évaluation
Introduction au Clustering en Machine Learning
29 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Clustering Kmeans GI2
Pas encore d'évaluation
Clustering Kmeans GI2
19 pages
Techniques de Segmentation et Clustering
Pas encore d'évaluation
Techniques de Segmentation et Clustering
51 pages
1 Slides
Pas encore d'évaluation
1 Slides
41 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
63 pages
ML NonSupervise
Pas encore d'évaluation
ML NonSupervise
30 pages
Chapitre5 Clustring
Pas encore d'évaluation
Chapitre5 Clustring
59 pages
Clustering 3-End
Pas encore d'évaluation
Clustering 3-End
39 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
22 pages
Support Chapitre 2 - Part1 - IA - 1GI - IIT2025
Pas encore d'évaluation
Support Chapitre 2 - Part1 - IA - 1GI - IIT2025
35 pages
Cours Appr Non Superv Kmeans
Pas encore d'évaluation
Cours Appr Non Superv Kmeans
14 pages
Clustering K-modes pour données catégoriques
Pas encore d'évaluation
Clustering K-modes pour données catégoriques
25 pages
Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Non Supervisé
101 pages
TD3-Clustering2 (Ennoncé)
Pas encore d'évaluation
TD3-Clustering2 (Ennoncé)
1 page
Rapport Sujet5 SE 1516 Rasbery
Pas encore d'évaluation
Rapport Sujet5 SE 1516 Rasbery
14 pages
2 - Types D'apprentissage Automatique
Pas encore d'évaluation
2 - Types D'apprentissage Automatique
15 pages
Chap02.Concepts Apprentissage
Pas encore d'évaluation
Chap02.Concepts Apprentissage
64 pages
Sysmic - J. Pouiller - Formation Linux Embarqué
Pas encore d'évaluation
Sysmic - J. Pouiller - Formation Linux Embarqué
253 pages
2124373254plan de Cours Inf6243 01 Automne 2025
Pas encore d'évaluation
2124373254plan de Cours Inf6243 01 Automne 2025
4 pages
Serie 2 Ann
Pas encore d'évaluation
Serie 2 Ann
2 pages
Memoire 1
Pas encore d'évaluation
Memoire 1
101 pages
Scripts de gestion des utilisateurs et groupes
Pas encore d'évaluation
Scripts de gestion des utilisateurs et groupes
2 pages
tp1 Deepl
Pas encore d'évaluation
tp1 Deepl
5 pages
TP Apprentissage Machine
Pas encore d'évaluation
TP Apprentissage Machine
1 page
CM
Pas encore d'évaluation
CM
71 pages
Liste Pages Bleues Globale 2022
Pas encore d'évaluation
Liste Pages Bleues Globale 2022
11 pages
Protocole HDLC : Trames et Fonctionnalités
Pas encore d'évaluation
Protocole HDLC : Trames et Fonctionnalités
5 pages
Découverte des Bascule avec Proteus
Pas encore d'évaluation
Découverte des Bascule avec Proteus
10 pages
523825406729a-Cours VHDL Pascla Benoit
Pas encore d'évaluation
523825406729a-Cours VHDL Pascla Benoit
85 pages
TP1 2 Reseaux
Pas encore d'évaluation
TP1 2 Reseaux
4 pages
Exercices 802.11
Pas encore d'évaluation
Exercices 802.11
12 pages
Cours NTIC Séance 1
100% (3)
Cours NTIC Séance 1
34 pages
VHDL Instructions Concurrentes - Intressant - Cours
Pas encore d'évaluation
VHDL Instructions Concurrentes - Intressant - Cours
28 pages
VHDL Instructions Sequentielles
Pas encore d'évaluation
VHDL Instructions Sequentielles
24 pages
Exercices Logique Séquentielle Corrigés
100% (5)
Exercices Logique Séquentielle Corrigés
6 pages
TP
Pas encore d'évaluation
TP
4 pages
Techniques D'aide À Décision, Intro Et Chapitre 1
Pas encore d'évaluation
Techniques D'aide À Décision, Intro Et Chapitre 1
38 pages
Rapport Projet CNN
Pas encore d'évaluation
Rapport Projet CNN
24 pages
Types ML
Pas encore d'évaluation
Types ML
3 pages
QCM ML
Pas encore d'évaluation
QCM ML
6 pages
Cours ML
Pas encore d'évaluation
Cours ML
127 pages
Retropropagation Gradient 2018 4p
Pas encore d'évaluation
Retropropagation Gradient 2018 4p
11 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
7 pages
TD1 Correction Deep Learning
Pas encore d'évaluation
TD1 Correction Deep Learning
7 pages
?A?I?R?T?O? ?L?O?I?H?E C?R?T
Pas encore d'évaluation
?A?I?R?T?O? ?L?O?I?H?E C?R?T
21 pages
TP 11 ML
Pas encore d'évaluation
TP 11 ML
3 pages
Note 5 (M31)
Pas encore d'évaluation
Note 5 (M31)
9 pages
Ada Boost
Pas encore d'évaluation
Ada Boost
27 pages
FF5 Apprentissage Ensembliste
Pas encore d'évaluation
FF5 Apprentissage Ensembliste
33 pages
Module Sur L'introduction À L'intelligence Artificielle - Ok
Pas encore d'évaluation
Module Sur L'introduction À L'intelligence Artificielle - Ok
40 pages
ACP Hétérogènes
Pas encore d'évaluation
ACP Hétérogènes
26 pages