Chapitre 2

Le K-means est un algorithme de clustering non supervisé qui regroupe des objets en K clusters basés sur des distances entre objets et centroïdes. Il nécessite une initialisation des centroïdes, une étape d'assignation des points aux clusters, et une mise à jour des centroïdes jusqu'à ce qu'il n'y ait plus de changements. Bien que simple et efficace, K-means est sensible aux valeurs aberrantes et suppose que les clusters sont de forme sphérique, ce qui limite son efficacité sur des données complexes.

Transféré par

Dalila Zenati

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

37 vues8 pages

Chapitre 2

Transféré par

Dalila Zenati

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Non-Hierarchical Clustering Analysis

K-Means Clustering
K-means est un algorithme de clustering non supervisé qui :
• Regroupe un ensemble de N objets en K groupes distincts.
• Utilise uniquement les caractéristiques (vecteurs d'entrée), sans étiquettes.
• Se base sur une distance (souvent Euclidienne) entre objets et centres (centroïdes).
Étapes de l’algorithme K-means
1. Initialisation :
* Choisir un nombre k de clusters.
* Initialiser les centroïdes (généralement choisis aléatoirement).
* Définir une mesure de distance (comme la distance euclidienne).
2. Étape d’assignation:
* Assigner chaque point au cluster dont le centroïde est le plus proche.
3. Étape de mise à jour :
* Recalculer les centroïdes comme la moyenne des points assignés à chaque cluster.
4. Critères d’arrêt :
* Aucun changement dans les assignations (stabilité atteinte), ou
* Un nombre maximal d’itérations est atteint.
Cet algorithme est non supervisé (pas de labels).
Sensible aux valeurs initiales, donc souvent répété plusieurs fois avec des initialisations différentes.
Exemple d’application

The Manhattan distance matrix between différents objects is given in table.

Apply K-means starting from the two clusters (centroïds, k=2)
1- initialisattion step
Cette etape consiste à choisir deux objets comme points de départ pour les centroïdes. Ici, la méthode choisie est de prendre les
deux objets les plus éloignés selon la distance de Manhattan (qui additionne les valeurs absolues des différences de
coordonnées au lieu d’utiliser la distance euclidienne).
Dans cet exemple, les deux objets sélectionnés comme les plus éloignés sont C et G.

• We calculate the distances from each object to the two clusters.

• The remaining objects are examined one by one and located in relation to the nearest cluster (in terms of minimum
Manhattan distance)
Update:
The centroïd (mean vector) is recalculated for each cluster

Stop. No new relocation les memes centroid se repetent

How Evaluating Clustering Algorithm
pour évaluer la qualité d’un regroupement dans l’algorithme K-means :
l’inertie et la distorsion.
L’inertie, aussi appelée WCSS (Within-Cluster Sum of Squares), mesure la compacité des clusters. Elle est calculée comme la
somme des distances au carré entre chaque point et le centroïde de son cluster. Plus cette somme est petite, plus les points
sont proches du centroïde, ce qui signifie que les clusters sont compacts et bien définis.
La formule donnée pour l’inertie est :

The idea behind good clustering is having a small value of inertia, and small number of clusters.
La distorsion
C’est est une autre mesure, qui correspond à la moyenne des distances au carré entre les points et leur centroïde. Elle est
calculée en divisant l’inertie par le nombre de points dans chaque cluster, puis en faisant la moyenne sur tous les clusters.
La formule donnée pour la distorsion est :

La métrique utilisée pour ces calculs est souvent la distance euclidienne.

Silhouette Score : mesure dans quelle mesure un point est bien placé dans son cluster :
Il compare :
a(i): la cohésion → distance moyenne entre le point et les autres points de son propre cluster.
b(i) : la séparation → distance moyenne entre le point et les points du cluster le plus proche (autre que le sien).
Formule du coefficient silhouette pour un point i:

interprétation :
* s(i) proche de +1: le point est bien placé dans son cluster (bonne séparation).
* s(i) proche de 0 : le point est à la frontière entre deux clusters.
* s(i) proche de -1 : le point est mal placé, il pourrait appartenir à un autre cluster.
---
Utilisation
Le score moyen de tous les points donne une idée de la qualité globale du clustering.
Il peut aider à choisir le bon K (nombre de clusters) : on teste plusieurs K et on garde celui qui donne le meilleur score moyen.
L’indice de Dunn est défini comme le rapport entre :
* la plus petite distance entre deux clusters différents (distance inter-cluster minimale),
* et la plus grande distance entre deux points d’un même cluster (diamètre intra-cluster maximal).
Mathématiquement, on note :

Plus l’indice de Dunn est grand, mieux le clustering est considéré, car cela signifie que les clusters sont bien séparés (inter-cluster
élevé) et compacts (intra-cluster faible).
Forces de l’algorithme K-Means :
Facile à implémenter : L’algorithme est simple, basé sur des opérations élémentaires (moyenne, distance).
Rapide et efficace: Il converge généralement rapidement, surtout sur de grands ensembles de données bien séparés.
Un seul paramètre à ajuster (K): Cela facilite l’expérimentation. L’impact du choix de K est facilement visible (ex. : méthode du
coude).
Faiblesses de l’algorithme K-Means :
Sensible aux valeurs aberrantes (outliers) : Un point éloigné peut fausser le calcul des centres.
Convergence vers un minimum local: Le résultat dépend de l’initialisation des centres ; il peut ne pas être optimal globalement.
Résultat instable: Des centroïdes initiaux différents peuvent conduire à des regroupements totalement différents.
Risque de boucle infinie : Si les critères d'arrêt sont mal définis (ex. : seuil de variation trop petit), l’algorithme peut ne jamais
s’arrêter.

Une des limitations importantes de K-Means est que l’algorithme suppose que les clusters sont de forme sphérique ou arrondie.
Cela signifie qu’il fonctionne bien lorsque les données sont réparties de manière circulaire autour de centres bien définis. En
revanche, pour des données ayant des formes plus complexes, allongées ou non convexes, K-Means n’arrive pas à bien
distinguer les regroupements. Ainsi, il n’est pas adapté à des structures de données dont les clusters ont une géométrie
irrégulière.

Vous aimerez peut-être aussi

K Means
Pas encore d'évaluation
K Means
34 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Kmeans
100% (2)
Kmeans
23 pages
K-Means et DBSCAN en Machine Learning
100% (2)
K-Means et DBSCAN en Machine Learning
31 pages
"K-Means : Guide pour Data Scientists"
100% (1)
"K-Means : Guide pour Data Scientists"
10 pages
Kmeans
Pas encore d'évaluation
Kmeans
40 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
63 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
25 pages
KMeans Notion de Distance Et Initialisation
Pas encore d'évaluation
KMeans Notion de Distance Et Initialisation
7 pages
Classification Non Hierarchique
Pas encore d'évaluation
Classification Non Hierarchique
14 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
Introduction à la classification automatique
Pas encore d'évaluation
Introduction à la classification automatique
19 pages
Introduction au Machine Learning et Clustering
Pas encore d'évaluation
Introduction au Machine Learning et Clustering
33 pages
Clustering
100% (1)
Clustering
114 pages
Méthodes de Clustering en Apprentissage Automatique
Pas encore d'évaluation
Méthodes de Clustering en Apprentissage Automatique
35 pages
Cours Appr Non Superv Kmeans
Pas encore d'évaluation
Cours Appr Non Superv Kmeans
14 pages
Méthodes de Clustering en ML
Pas encore d'évaluation
Méthodes de Clustering en ML
21 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
50 pages
Chapitre 7. Le Clustering
Pas encore d'évaluation
Chapitre 7. Le Clustering
14 pages
Clustering 1
Pas encore d'évaluation
Clustering 1
8 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Algorithme K-Means : Formation de Clusters
Pas encore d'évaluation
Algorithme K-Means : Formation de Clusters
15 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
7 pages
K-Mas K-Myne 250202 143544
Pas encore d'évaluation
K-Mas K-Myne 250202 143544
22 pages
Algorithme K - Means AZ
Pas encore d'évaluation
Algorithme K - Means AZ
7 pages
Méthodes de clustering en apprentissage non supervisé
Pas encore d'évaluation
Méthodes de clustering en apprentissage non supervisé
4 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
Techniques de Clustering Avancées
Pas encore d'évaluation
Techniques de Clustering Avancées
6 pages
Méthodes de Clustering et Classification
Pas encore d'évaluation
Méthodes de Clustering et Classification
107 pages
Image Mining Clustering
Pas encore d'évaluation
Image Mining Clustering
33 pages
Introduction au Clustering en Machine Learning
Pas encore d'évaluation
Introduction au Clustering en Machine Learning
29 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
59 pages
Approche de Classification À Base de K-Moyennes - V2-4
Pas encore d'évaluation
Approche de Classification À Base de K-Moyennes - V2-4
15 pages
Cfoaf
Pas encore d'évaluation
Cfoaf
10 pages
Techniques de Segmentation en Data Mining
Pas encore d'évaluation
Techniques de Segmentation en Data Mining
59 pages
Oualid Idriss Soufian
Pas encore d'évaluation
Oualid Idriss Soufian
19 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
57 pages
K-Means Et Maths
Pas encore d'évaluation
K-Means Et Maths
10 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Apprentissage Non Supervis e - Clustering: UP: Math Ematiques
Pas encore d'évaluation
Apprentissage Non Supervis e - Clustering: UP: Math Ematiques
81 pages
Chapitre 4 Apprentissage Non Supervisé ADG
Pas encore d'évaluation
Chapitre 4 Apprentissage Non Supervisé ADG
29 pages
Méthodes de segmentation en clustering
Pas encore d'évaluation
Méthodes de segmentation en clustering
18 pages
Chapitre - 5
Pas encore d'évaluation
Chapitre - 5
9 pages
Clustering par K-moyennes simplifié
Pas encore d'évaluation
Clustering par K-moyennes simplifié
13 pages
FD 7
Pas encore d'évaluation
FD 7
19 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Introduction au Clustering et Méthodes
Pas encore d'évaluation
Introduction au Clustering et Méthodes
11 pages
Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
TP K-Means
Pas encore d'évaluation
TP K-Means
13 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
48 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Classification Non Supervisée en IA
Pas encore d'évaluation
Classification Non Supervisée en IA
32 pages
Clustering des zones de prise en charge Uber
Pas encore d'évaluation
Clustering des zones de prise en charge Uber
22 pages
Rénovation du BTS Bioanalyses 2024
Pas encore d'évaluation
Rénovation du BTS Bioanalyses 2024
32 pages
Chapitre II
Pas encore d'évaluation
Chapitre II
13 pages
Introduction à la statistique et probabilités
Pas encore d'évaluation
Introduction à la statistique et probabilités
6 pages
Eva 4 Physique TC .
Pas encore d'évaluation
Eva 4 Physique TC .
3 pages
Mineralogie et Petrographie L1BCGS
Pas encore d'évaluation
Mineralogie et Petrographie L1BCGS
35 pages
Chaleur et Température : Concepts Clés
Pas encore d'évaluation
Chaleur et Température : Concepts Clés
3 pages
Classification des matériaux en 6ème
Pas encore d'évaluation
Classification des matériaux en 6ème
12 pages
Fiche 10 Equations Du Premier Degré À Une Inconnue - 2APIC
100% (1)
Fiche 10 Equations Du Premier Degré À Une Inconnue - 2APIC
11 pages
Le Gharb
100% (2)
Le Gharb
9 pages
Performance Analysis of FBMC - Formatted
Pas encore d'évaluation
Performance Analysis of FBMC - Formatted
12 pages
Maths Terminale C - 1
Pas encore d'évaluation
Maths Terminale C - 1
2 pages
Analyse fonctionnelle : définition et objectifs
Pas encore d'évaluation
Analyse fonctionnelle : définition et objectifs
10 pages
Chapitre1 AnalyseFonctionnelle
Pas encore d'évaluation
Chapitre1 AnalyseFonctionnelle
35 pages
Introduction à l'algorithme et variables
Pas encore d'évaluation
Introduction à l'algorithme et variables
3 pages
Calculs de Structure 3 Modifié
Pas encore d'évaluation
Calculs de Structure 3 Modifié
5 pages
Modélisation de La Combustion-Cours
Pas encore d'évaluation
Modélisation de La Combustion-Cours
9 pages
Cours de Probabilités I - UNDA - 2025-2026
Pas encore d'évaluation
Cours de Probabilités I - UNDA - 2025-2026
23 pages
Mécanique Du Point Chapitre 1
Pas encore d'évaluation
Mécanique Du Point Chapitre 1
60 pages
Méthode Hückel pour Systèmes Conjugués
Pas encore d'évaluation
Méthode Hückel pour Systèmes Conjugués
4 pages
TP Electronique de Puissance 1
Pas encore d'évaluation
TP Electronique de Puissance 1
23 pages
Chimie - Chap 7 - EXERCICE
Pas encore d'évaluation
Chimie - Chap 7 - EXERCICE
8 pages
Physique 1ere D Evaluation 1
Pas encore d'évaluation
Physique 1ere D Evaluation 1
2 pages
Projets techniques 2010-2011 : synthèses
Pas encore d'évaluation
Projets techniques 2010-2011 : synthèses
50 pages
TD 4 - Correction
Pas encore d'évaluation
TD 4 - Correction
5 pages
Syllabus de Statistique 2024-2025
Pas encore d'évaluation
Syllabus de Statistique 2024-2025
2 pages
Questions sur les réseaux informatiques
Pas encore d'évaluation
Questions sur les réseaux informatiques
4 pages
Fournitures1BAC SM
Pas encore d'évaluation
Fournitures1BAC SM
2 pages
Exercices n05 CP
Pas encore d'évaluation
Exercices n05 CP
14 pages
Pour Bien Te Préparer Au Master en Énergies Renouvelables Et Réseaux Intelligents
Pas encore d'évaluation
Pour Bien Te Préparer Au Master en Énergies Renouvelables Et Réseaux Intelligents
32 pages
Applications des guides d'onde
Pas encore d'évaluation
Applications des guides d'onde
68 pages