0% ont trouvé ce document utile (0 vote)

80 vues7 pages

Introduction au Clustering en Data Mining

Le clustering est une technique essentielle du data mining qui regroupe des données similaires pour découvrir des motifs cachés et améliorer la prise de décision. Deux algorithmes populaires, K-Means et le clustering hiérarchique, sont explorés, chacun ayant ses avantages et limitations. Les applications du clustering incluent la segmentation de clients, l'analyse de panier d'achat, la détection d'anomalies et la classification de documents.

Transféré par

hrvenana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

80 vues7 pages

Introduction au Clustering en Data Mining

Transféré par

hrvenana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Clustering

1. Introduction : Pourquoi le Clustering est Important dans le Data Mining

Le clustering est une pierre angulaire de l’apprentissage non supervisé (unsupervised
learning) dans le data mining. Il consiste à regrouper les données en clusters où les points
d’un même cluster sont plus similaires entre eux qu’avec ceux des autres clusters. Son
importance réside dans sa capacité à :

• Découvrir des Motifs (patterns) Cachés : Le clustering identifie des

regroupements naturels dans les données, cruciaux pour l’analyse exploratoire. Par
exemple, il peut révéler des comportements de consommateurs qui pourraient
passer inaperçus avec des méthodes traditionnelles.

• Améliorer la Prise de Décision : Par exemple, en segmentant les clients ou les

produits, le clustering permet aux entreprises de personnaliser leurs stratégies
marketing, concevoir des campagnes ciblées et optimiser l’allocation des
ressources.

• Prétraitement pour l’Apprentissage Supervisé (Supervised Learning): Le

clustering aide à identifier les valeurs aberrantes pour améliorer la qualité des
données, ce qui peut renforcer les performances des modèles supervisés.

2. Algorithmes de Clustering
Cette section explore les fondements de deux algorithmes populaires de clustering : K-
Means, Clustering Hiérarchique, et une comparaison des deux méthodes, accompagnés
de leurs implémentations en R.

2.1 Clustering K-Means

• Le K-Means partitionne les données en clusters en minimisant la somme des carrés
des distances intra-clusters (WCESS), aussi appelée somme des erreurs intra-
clusters :
𝑘

WCESS = ∑ ∑ ∥ 𝑥 − 𝜇𝑖 ∥2
𝑖=1 𝑥∈𝐶𝑖

où 𝐶𝑖 est un cluster et 𝜇𝑖 son centroïde.

• L’algorithme :
1. Initialisation des centroïdes : Commencez par sélectionner aléatoirement
𝑘 points comme centroïdes initiaux.

2. Affectation des points au centroïde le plus proche : Calculez la distance

de chaque point à tous les centroïdes et affectez chaque point au plus
proche.
3. Recalculez les centroïdes : Pour chaque cluster, calculez la moyenne de
tous les points et mettez à jour le centroïde.

4. Vérifiez la convergence : Répétez les étapes 2 et 3 jusqu’à ce que les

centroïdes se stabilisent (c.-à-d. que leurs positions ne changent plus
significativement) ou qu’un nombre maximal d’itérations soit atteint.

• Avantages et limitations :

o Simple à implémenter et efficace sur le plan computationnel.

o Sensible au placement initial des centroïdes, ce qui peut conduire à un

clustering sous-optimal.

• Implémentation en R :
# Exemple de données
data <- iris[, -5]

# Clustering K-Means
[Link](123)
kmeans_result <- kmeans(data, centers = 3)

# Visualisation des clusters

library(ggplot2)
data$Cluster <- [Link](kmeans_result$cluster)
ggplot(data, aes([Link], [Link], color = Cluster)) +
geom_point() +
labs(title = "Clustering K-Means")
2.2 Clustering Hiérarchique
Le clustering hiérarchique construit une hiérarchie de clusters et peut être mis en œuvre
selon deux approches :

• Agglomérative (Bottom-Up) : Commence avec chaque point comme un cluster

unique et fusionne les clusters les plus proches de manière itérative jusqu’à ce que
tous les points forment un seul cluster.

• Divisive (Top-Down) : Commence avec tous les points dans un seul cluster et les
divise en clusters plus petits de manière itérative jusqu’à ce que chaque point soit
un cluster unique.

Exemple de Clustering Agglomératif

• Étapes de l’algorithme :

1. Commencez avec chaque point comme son propre cluster.

2. Calculez les distances entre tous les clusters.

3. Fusionnez les deux clusters les plus proches selon les critères de liaison.
4. Répétez les étapes 2 et 3 jusqu’à ce qu’il ne reste qu’un seul cluster ou
qu’un critère d’arrêt soit atteint.

# Charger la bibliothèque nécessaire

library(cluster)

# Exemple de données
data <- mtcars

# Matrice de distance pour le clustering agglomératif

dist_matrix <- dist(data)

# Clustering agglomératif avec la méthode de Ward

hc <- hclust(dist_matrix, method = "ward.D2")

# Dendrogramme
plot(hc, main = "Dendrogramme de Clustering Hiérarchique Agglomératif", sub
= "", xlab = "")

Interprétation : Observez le dendrogramme et identifiez une hauteur pour couper l’arbre

afin de former le nombre de clusters souhaité. Chaque branche représente une fusion de
clusters, et la hauteur indique la distance entre les clusters fusionnés.
Exemple de Clustering Divisif
• Étapes de l’algorithme :

1. Commencez avec tous les points dans un seul cluster.

2. Évaluez les divisions potentielles et divisez le cluster en groupes plus petits

pour maximiser la séparation entre sous-clusters.

3. Répétez jusqu’à ce que chaque point soit un cluster unique ou qu’un critère
d’arrêt soit atteint.

# Charger la bibliothèque nécessaire

library(cluster)

# Exemple de données
data <- mtcars

# Clustering divisif
dc <- diana(data)

# Dendrogramme
plot(dc, main = "Dendrogramme de Clustering Hiérarchique Divisif", sub =
"", xlab = "")
Interprétation : Le dendrogramme divisif commence avec un cluster unique en haut et se
divise de manière itérative. Concentrez-vous sur les divisions significatives pour identifier
des clusters significatifs.

2.3 Comparaison entre K-Means et Clustering Hiérarchique

Caractéristique K-Means Clustering Hiérarchique
Type d’algorithme Basé sur des partitions Hiérarchique (agglomératif ou
divisif)
Forme des clusters Suppose des clusters Peut gérer des clusters de
sphériques de taille similaire formes arbitraires
Nombre de clusters Doit être spécifié à l’avance Pas nécessaire; le
(k) dendrogramme aide à décider
Évolutivité Efficace pour les grands Coûteux en calcul pour les
ensembles de données grands ensembles de données
Flexibilité Ne peut pas gérer des clusters Peut découvrir des clusters
imbriqués imbriqués
Résultats Affectations finales des clusters Dendrogramme et
affectations des clusters
Stabilité Dépend des centroïdes initiaux Plus déterministe

Quand Utiliser
• K-Means : Idéal pour les grands jeux de données avec des clusters bien séparés et
sphériques.

• Clustering Hiérarchique : Idéal pour les petits ensembles de données avec des
structures complexes.

3. Applications du Clustering dans les Problèmes Métier

• Segmentation de Clients : Personnaliser les stratégies marketing.

• Analyse de Panier d’Achat : Identifier les groupes de produits souvent achetés

ensemble.

• Détection d’Anomalies : Repérer les activités frauduleuses.

• Classification de Documents : Organiser de grands corpus textuels.

4. Exercice
Objectif : Appliquer les algorithmes de clustering sur un ensemble de données et
interpréter les résultats.
Tâches :
1. Effectuer un clustering K-Means avec les données de votre projet. Essayez plusieurs K,
et choisissez le K qui vous semble informatif.
2. Visualiser les regroupements avec un dendrogramme en utilisant le clustering
hiérarchique.
3. Comparer les résultats des différentes méthodes.

Vous aimerez peut-être aussi

DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
59 pages
Image Mining Clustering
Pas encore d'évaluation
Image Mining Clustering
33 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Clustering Hiérarchique : Méthodes et Applications
100% (3)
Clustering Hiérarchique : Méthodes et Applications
13 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
Clustering 1
Pas encore d'évaluation
Clustering 1
8 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
57 pages
"K-Means : Guide pour Data Scientists"
100% (1)
"K-Means : Guide pour Data Scientists"
10 pages
TP 2: Les Méthodes de Structuration Et de Classification en Apprentissage Non Supervisé
Pas encore d'évaluation
TP 2: Les Méthodes de Structuration Et de Classification en Apprentissage Non Supervisé
4 pages
Classification Non Hierarchique
Pas encore d'évaluation
Classification Non Hierarchique
14 pages
Interpretations
Pas encore d'évaluation
Interpretations
4 pages
CM4 M1 Isd 2023
Pas encore d'évaluation
CM4 M1 Isd 2023
51 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Méthodes de segmentation en clustering
Pas encore d'évaluation
Méthodes de segmentation en clustering
18 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Classification Hiérarchique et Dendrogramme
Pas encore d'évaluation
Classification Hiérarchique et Dendrogramme
17 pages
TPInfo
Pas encore d'évaluation
TPInfo
7 pages
Techniques de Clustering Avancées
Pas encore d'évaluation
Techniques de Clustering Avancées
6 pages
Classification Tege2
Pas encore d'évaluation
Classification Tege2
19 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Clustering 3-End
Pas encore d'évaluation
Clustering 3-End
39 pages
Chapitre 4 Méthodes de Classification Et Du Clustering
Pas encore d'évaluation
Chapitre 4 Méthodes de Classification Et Du Clustering
4 pages
Clustering et méthode du coude en couture
Pas encore d'évaluation
Clustering et méthode du coude en couture
20 pages
Introduction au Machine Learning et Clustering
Pas encore d'évaluation
Introduction au Machine Learning et Clustering
33 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Clustering
100% (1)
Clustering
114 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
Introduction au Clustering en Machine Learning
Pas encore d'évaluation
Introduction au Clustering en Machine Learning
29 pages
Introduction au Clustering et Méthodes
Pas encore d'évaluation
Introduction au Clustering et Méthodes
11 pages
Classification Non Supervisée en IA
Pas encore d'évaluation
Classification Non Supervisée en IA
32 pages
TP3 IngSI
100% (1)
TP3 IngSI
5 pages
Approche de Classification À Base de K-Moyennes - V2-4
Pas encore d'évaluation
Approche de Classification À Base de K-Moyennes - V2-4
15 pages
Analyse du Dendrogramme de Clustering
Pas encore d'évaluation
Analyse du Dendrogramme de Clustering
3 pages
Méthodes de Clustering en ML
Pas encore d'évaluation
Méthodes de Clustering en ML
21 pages
Chap2 Clustering
Pas encore d'évaluation
Chap2 Clustering
56 pages
Supplementaire Cluseing
Pas encore d'évaluation
Supplementaire Cluseing
7 pages
Non Supervisé Clustring
Pas encore d'évaluation
Non Supervisé Clustring
10 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Uber
Pas encore d'évaluation
Uber
22 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
TP2 AD MINDS Rihab Benhassen
Pas encore d'évaluation
TP2 AD MINDS Rihab Benhassen
8 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
25 pages
Kmeans
Pas encore d'évaluation
Kmeans
40 pages
Classification Hiérarchique Ascendante
Pas encore d'évaluation
Classification Hiérarchique Ascendante
27 pages
DM TP2
Pas encore d'évaluation
DM TP2
4 pages
Kmeans
100% (2)
Kmeans
23 pages
K-Mas K-Myne 250202 143544
Pas encore d'évaluation
K-Mas K-Myne 250202 143544
22 pages
Deep Learning Clustering
Pas encore d'évaluation
Deep Learning Clustering
14 pages
ML 1
Pas encore d'évaluation
ML 1
41 pages
Sujet N°12
Pas encore d'évaluation
Sujet N°12
1 page
Ma Partie VF
Pas encore d'évaluation
Ma Partie VF
3 pages
Cours - SIS - 0licence S5
Pas encore d'évaluation
Cours - SIS - 0licence S5
3 pages
Sujet 11
Pas encore d'évaluation
Sujet 11
4 pages
Présentation SIS 0G3
Pas encore d'évaluation
Présentation SIS 0G3
37 pages
Loi de Khi-deux et Probabilités
Pas encore d'évaluation
Loi de Khi-deux et Probabilités
2 pages
Comptabilité Nationale
Pas encore d'évaluation
Comptabilité Nationale
37 pages
Code d'importation et exportation SH8
Pas encore d'évaluation
Code d'importation et exportation SH8
25 pages
CBASE1
Pas encore d'évaluation
CBASE1
2 pages
Chanteurs et Albums: Brassens, Ferré, Brel, Juliette
Pas encore d'évaluation
Chanteurs et Albums: Brassens, Ferré, Brel, Juliette
3 pages
Liste des secrétaires comptables
Pas encore d'évaluation
Liste des secrétaires comptables
2 pages
Commerce Extérieur
Pas encore d'évaluation
Commerce Extérieur
30 pages
Exp Fil D - Attente
Pas encore d'évaluation
Exp Fil D - Attente
2 pages
Chimie Organique - MPC2 - 2014 - NITIEMA Y.S.
Pas encore d'évaluation
Chimie Organique - MPC2 - 2014 - NITIEMA Y.S.
192 pages
Classeur 1
Pas encore d'évaluation
Classeur 1
3 pages
Optimisation de la Qualité des Enquêtes
Pas encore d'évaluation
Optimisation de la Qualité des Enquêtes
9 pages
Chapitre 6
Pas encore d'évaluation
Chapitre 6
8 pages
DMO1304 - Analyse Longitudinale - Nuptialité - LPAS
Pas encore d'évaluation
DMO1304 - Analyse Longitudinale - Nuptialité - LPAS
12 pages
Modèles Logit et Probit Multivariés
Pas encore d'évaluation
Modèles Logit et Probit Multivariés
82 pages
Présentation GIGARCH
Pas encore d'évaluation
Présentation GIGARCH
36 pages
Document GIGARCH
Pas encore d'évaluation
Document GIGARCH
12 pages
Plan d'échantillonnage enquête migration 2009
Pas encore d'évaluation
Plan d'échantillonnage enquête migration 2009
12 pages
Analyse des Ménages et Habitations en Afrique
Pas encore d'évaluation
Analyse des Ménages et Habitations en Afrique
8 pages
Échantillonnage Migration Burkina 2009
Pas encore d'évaluation
Échantillonnage Migration Burkina 2009
19 pages
Fiches de Recolte de Données 1
Pas encore d'évaluation
Fiches de Recolte de Données 1
280 pages
Pésentation - UE - Histoire&Utilité de La Statistique Sociale - ECU1 - PR Kobiané-1
100% (1)
Pésentation - UE - Histoire&Utilité de La Statistique Sociale - ECU1 - PR Kobiané-1
18 pages
Silga TP
Pas encore d'évaluation
Silga TP
12 pages
Analyse Démographique : Taux Bruts et Quotients
Pas encore d'évaluation
Analyse Démographique : Taux Bruts et Quotients
27 pages
H&u SS
Pas encore d'évaluation
H&u SS
10 pages
Quiz Data Mining : Techniques et Concepts
Pas encore d'évaluation
Quiz Data Mining : Techniques et Concepts
3 pages
1 Cours Spss
Pas encore d'évaluation
1 Cours Spss
147 pages
Rapport DataMining
Pas encore d'évaluation
Rapport DataMining
31 pages
Analyse Factorielle des Correspondances (AFC)
Pas encore d'évaluation
Analyse Factorielle des Correspondances (AFC)
25 pages
Systèmes d'Informations Sanitaires en Afrique
Pas encore d'évaluation
Systèmes d'Informations Sanitaires en Afrique
74 pages
Entrepôt de Données Et Exploration de Données
Pas encore d'évaluation
Entrepôt de Données Et Exploration de Données
22 pages
Démarches Projet BI
Pas encore d'évaluation
Démarches Projet BI
22 pages
DM Cours
100% (5)
DM Cours
325 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
16 pages
Seance 5
Pas encore d'évaluation
Seance 5
63 pages
DataScience PJ
Pas encore d'évaluation
DataScience PJ
139 pages
Méthodes Ensemble
Pas encore d'évaluation
Méthodes Ensemble
7 pages
Ch. 1 Introduction Générale A La Business Intelligence (BI)
Pas encore d'évaluation
Ch. 1 Introduction Générale A La Business Intelligence (BI)
19 pages
B LOUVAIN01-Master (120) en Sciences Informatiques
Pas encore d'évaluation
B LOUVAIN01-Master (120) en Sciences Informatiques
24 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Cartier Vuitton
Pas encore d'évaluation
Cartier Vuitton
17 pages
Memoire - Matthieu Grimaud - Data Warehouse
100% (8)
Memoire - Matthieu Grimaud - Data Warehouse
59 pages
Introduction au Web Mining
Pas encore d'évaluation
Introduction au Web Mining
8 pages
Scoring
100% (2)
Scoring
27 pages
Data Management
Pas encore d'évaluation
Data Management
6 pages
Optimisation en Data Mining et RO
Pas encore d'évaluation
Optimisation en Data Mining et RO
137 pages
Data Mining : Concepts et Avantages
Pas encore d'évaluation
Data Mining : Concepts et Avantages
45 pages
Expert en Développement et IA
Pas encore d'évaluation
Expert en Développement et IA
2 pages
Sujet TP - Orange
Pas encore d'évaluation
Sujet TP - Orange
5 pages
Classification et Prédiction Avancées
Pas encore d'évaluation
Classification et Prédiction Avancées
29 pages
STATISTICA Quick Reference
Pas encore d'évaluation
STATISTICA Quick Reference
336 pages
Master Intelligence Artificielle Ingenierie
Pas encore d'évaluation
Master Intelligence Artificielle Ingenierie
50 pages
TP Data Mining avec SPSS Modeler
Pas encore d'évaluation
TP Data Mining avec SPSS Modeler
6 pages
Reseaux de Neurones Artificiels
Pas encore d'évaluation
Reseaux de Neurones Artificiels
241 pages
PFE Miage
Pas encore d'évaluation
PFE Miage
105 pages