0% ont trouvé ce document utile (0 vote)

53 vues7 pages

Chapter 3 Clustering

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

53 vues7 pages

Chapter 3 Clustering

Transféré par

Chahrazed Djida

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Jijel Faculté des sciences exactes et d'informatique

Département d'informatique Classes Master 1 SIAD 2022/2023

________________________________________________________________________________________________

Chapitre 3 : Clustering (classification automatique)

1. Introduction

o Définition : technique visant à grouper des objets dans des classes a priori inconnues de
sorte à ce que les objets d’une même classe soit similaires et les classes ne soit pas
similaires.
o Objectifs : (1) Abstraire les objets en classes (conceptualisation) ayant les mêmes
caractéristiques. (2) utiliser les classes obtenues à des fins diverses : (i) marketing
(ciblage de groupes clients, profiling), (ii) navigation Web (personnalisation du contenu
par classe d’utilisateurs), (iii) Détection de communautés, etc.

2. Recherche de clusters

- On dispose d’un ensemble d’objets (individus, voitures, etc.) qu’on veut regrouper.
- Les objets ne sont pas classés initialement et on ne dispose pas de classes prédéfinies.
- Tous les objets sont décrits par un ensemble de caractéristiques (variables).
- Les variables sont de divers types mais ne sont pas toutes adéquates au clustering.
- Chaque objet peut être considéré comme un vecteur dans un espace multidimensionnel.
- Les objets similaires peuvent être proches géométriquement.

3. Algorithme K-means (K-moyennes)

Il existe beaucoup d’algorithmes de classification automatique, dont le plus ancien est celui des
K-means (k-moyennes) avec beaucoup de variations.

a. Principe de base : le principe de base de K-means est regrouper les objets en se

basant à leur distance par rapport à un centre (centroid). Initialement, les centres sont
choisis aléatoirement, mais ils seront mis à jour par re-calcul. Les cluster initiaux
seront affinés, voire changés. La classification finale correspondra à une stabilisation
des clusters : aucun objet ne change d’appartenance à son cluster.

b. Description de l’algorithme : Soit les N objets à classifier (pour les besoins

d’analogie géométrique, on désigne les objets comme étant des points)

● Choisir K centres aléatoires (seeds).

● Calculer la distance entre chacun des points restants et chaque seed.
● Calculer le centre de chaque cluster. La valeur de chaque caractéristique de chaque centre
est égale à la moyenne des valeurs de la caractéristique pour tous les points du cluster
correspondant.
● Réaffecter les points selon leur distance par rapport au centre de chaque cluster : de
nouveaux clusters peuvent être générés.
● Recalculer le centre C de chaque cluster
● S’arrêter lorsqu’aucun point ne change de cluster (stabilisation des clusters).

1
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

Illustration : On suppose que les objets sont décrits par deux caractéristiques X1 et X2. Les trois
figures suivantes (de Nagabhushana) montrent les premières itérations de k-means. La figure à
gauche montre le choix des seeds initiaux (cercles noirs) et la formation des premiers clusters (trois.
La figure à droite montre les centroids (symbole +). La troisième figure montre les nouveaux
clusters. Le point entouré d’un carré est le point ayant changé de cluster après le calcul des centres.

4. Exemple illustratif (ref. Kardi) : soit les quatre objets décrits par deux caractéristiques avec
les valeurs suivantes : X1(1, 1), X2(2, 1), X3(4, 3), X4(5, 4) (voir figure 1). On choisit les X1
et X2 comme seeds (étoiles) et on les désigne par C1 et C2. On calcule la distance entre
chaque point et chaque centroid. On utilise la distance euclidienne (voir plus loin). On
obtient la matrice suivante :

X1 X2 X3 X4
0 1 3,61 5 C1
1 0 2,83 4,24 C2

On remarque que les points X2, X3 et X4 sont proches à C2 et X1 à C1. On obtient deux clusters
composés de (X1) et (X2, X3, X4). Le calcul des nouveaux centres donne C’1(1,1) et C’2(11/3, 8/3).
On recalcule les nouvelles distances. On obtient le tableau suivant.

X1 X2 X3 X4
0 1 3,61 5 C’1
3,14 2,36 0,47 1,89 C’2
2
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

Selon cette matrice, on déplace X2 au cluster à gauche et on obtient les clusters de la figure 3. On
recalcule les centres (étoiles de la figure 3). On trouve les centres C’’1(1.5, 1) et C’’2(4.5, 3.5). On
calcule les distances et on obtient les distances suivantes

X1 X2 X3 X4
0,5 0,5 3,20 4,61 C’’1
4,30 3,54 0,71 0,71 C’’2

La matrice montre qu’aucun point ne change de cluster. On arrête les itérations.

Figure 1 Figure 2 Figure 3

5. Types de variables pour le clustering : les types de données pour le clustering ne sont pas
tous adéquats. On les classe par ordre croissant d’adéquation comme suit :

● Variables symboliques (couleurs, noms, etc.)

● Rangs (1, 2, 3, etc.)
● Les intervalles (degrés de températures, etc.)
● Les vraies mesures (âge, longueurs, volumes, etc.)

Les intervalles et les vraies mesures sont les plus adéquats au clustering. Les variables symboliques
et les rangs doivent être transformées pour être utilisées. Cependant, les transformations ne donnent
pas toujours des intervalles ou mesures ayant un sens et comparables.

6. Mesures de similarité : pour trouver les objets associés, on utilise différentes mesures de
similarité.
a. Distance : le calcul de distance dépend de la nature des données

● Intervalles et vraies mesures : tout d’abord, nous standardisons les données. On calcule

l’écart absolu moyen par la formule où m

représente la moyenne des valeurs. Ensuite, on divise l’écart entre chaque mesure et sa

3
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

moyenne par l’écart-type moyen.

Une fois les mesures standardisées, nous calculons les distances. Les formules sont

o Formule de Minkowski

o q = 1 : distance de Manhattan :

o q = 2 : distance euclidienne :

● Variables binaires : on élabore une table de contingence (voir exemple en cours) pour calculer
quatre valeurs, désignées par a, b, c et d. « a » désigne le nombre de cas où l’objet i possède un
1 et l’objet i possède un 1. Pour b, c et d, on cherche les respectivement le nombre des cas où
on a (1, 0), (0, 1), (0, 0).

● Une fois les valeurs de a, b, c et d trouvées, on aura deux mesures :

o Coefficient d’appariement simple :

o Coefficient de Jaccard :

Remarque : lors du codage des variables booléennes en binaire, l’assignation des valeurs 1 et 0
dépendra de la symétrie des objets.

▪ Si les objets sont symétriques (pas de valeur booléenne fréquente), on code

4
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

au hasard les deux valeurs booléennes

▪ Si les objets sont asymétriques (ex : test de virus), on code par 1 la valeur la
moins fréquente.

La distance sera calculée en utilisant les variables asymétriques.

b. Angle entre les vecteurs : ce calcul ne tient pas compte des grandeurs des mesures.
c. Nombre de caractéristiques communes : on calcul le nombre d’appariements

où m est égal au nombre de caractéristiques communes et p est le nombre total de caractéristiques.

7. Choix du nombre K : il n’existe pas de meilleurs K ou de mauvais K pour le clustering,

puisque ce nombre est fourni par l’utilisateur pour spécifier le nombre de clusters souhaités.
Cependant, les clusters obtenus peuvent être évalués. Les bons clusters seront le résultat
d’un bon choix de k et inversement.

8. Classification hiérarchique ascendante (AHC) : appelée agglomerative clustering, dans

ces méthodes, la construction des clusters se fait à partir des objets individuelles en les
regroupant selon leur similarité. Les clusters formés au départ seront petits mais au fur et à
mesures, des clusters plus grands seront formés jusqu’à aboutir au clusters qui contient tous
les objets. Le résultat de la AHC n’est pas un seul mais plusieurs niveaux de clusters
représentés par un dendrogramme (voir figure ci-dessous). Le choix du niveau dépend de
l’application souhaitée. Les étapes sont les suivantes :

▪ Création d’une matrice de similarité entre chaque pair d’objets. On utilise les distances
telles que décrites plus haut. La matrice de similarité se présente comme suit :

5
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

on considère chaque objet comme cluster.

▪ Chercher la plus petite valeur de la matrice. Les clusters seront fusionnés en un seul. On
met à jour la matrice de similarité en remplaçant les deux lignes des clusters fusionnés
par une seule ligne et en mettant à jour les distances.
▪ On répète les étapes précédentes jusqu’à l’obtention du cluster contenant tous les objets.

Mesure de distance entre clusters : hormis la première étape, les clusters obtenus ne correspondent
pas à des objets individuels ; les distances présentées précédemment ne sont pas adéquates. Pour
trouver la distance entre deux clusters, on utilise une des approches suivantes :

- La distance entre clusters est égale à la distance entre les objets les plus proches, chacun
d’un cluster (linkage simple).
- La distance entre clusters est égale à la distance entre les objets les plus éloignés, chacun
d’un cluster (linkage complet).
- la distance entre clusters est égale à la distance entre les centroids (comparaison entre
centroids).

6
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023
Université de Jijel Faculté des sciences exactes et d'informatique
Département d'informatique Classes Master 1 SIAD 2022/2023
________________________________________________________________________________________________

7
____________________________________________________________________________________________
Cours en Fouilles de données- D. Boukraâ, 2022 / 2023

Vous aimerez peut-être aussi

Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
CA-Chapitre 3
Pas encore d'évaluation
CA-Chapitre 3
29 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Clustering
100% (1)
Clustering
114 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Introduction au Clustering et Méthodes
Pas encore d'évaluation
Introduction au Clustering et Méthodes
11 pages
Chap3 Clustering
Pas encore d'évaluation
Chap3 Clustering
48 pages
Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
10 pages
Techniques de Fouilles de Données
Pas encore d'évaluation
Techniques de Fouilles de Données
110 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
Clustering
Pas encore d'évaluation
Clustering
51 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
63 pages
Polycopefda
Pas encore d'évaluation
Polycopefda
96 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Non Supervisé
101 pages
1 Slides
Pas encore d'évaluation
1 Slides
41 pages
Présentation Cours CA
Pas encore d'évaluation
Présentation Cours CA
50 pages
Méthodes Dapprentissage Non Supervisées
Pas encore d'évaluation
Méthodes Dapprentissage Non Supervisées
65 pages
DM TD4
Pas encore d'évaluation
DM TD4
2 pages
Classification Tege2
Pas encore d'évaluation
Classification Tege2
19 pages
Chap 5
Pas encore d'évaluation
Chap 5
6 pages
Chapitre5 Clustring
Pas encore d'évaluation
Chapitre5 Clustring
59 pages
ML NonSupervise
Pas encore d'évaluation
ML NonSupervise
30 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Classification non supervisée en BADS
Pas encore d'évaluation
Classification non supervisée en BADS
33 pages
Clustering
Pas encore d'évaluation
Clustering
50 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
Chapitre3 Classification
Pas encore d'évaluation
Chapitre3 Classification
33 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Introduction au Clustering en Machine Learning
Pas encore d'évaluation
Introduction au Clustering en Machine Learning
29 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
12 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Chapitre - 5
Pas encore d'évaluation
Chapitre - 5
9 pages
Méthodes de Clustering en ML
Pas encore d'évaluation
Méthodes de Clustering en ML
21 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
59 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Clustering
Pas encore d'évaluation
Clustering
32 pages
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
Pas encore d'évaluation
Algorithmie Algorithme Des K Plus Proches Voisins: 1. Présentation
10 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
48 pages
Clustering
Pas encore d'évaluation
Clustering
79 pages
Clustering 3-End
Pas encore d'évaluation
Clustering 3-End
39 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Méthodologie Des Nomophob01
Pas encore d'évaluation
Méthodologie Des Nomophob01
5 pages