TP 5 : Comparaison des Modèles de
Classification non supervisée (Clustering)
Objectifs :
• Découvrir les méthodes de classification non supervisée
• Comprendre et appliquer les algorithmes K-Means et DBSCAN
• Visualiser les résultats du clustering et interpréter les groupes
1. Chargement des données
Nous allons travailler sur le jeu de données "Mall Customers Dataset". Il contient des
informations sur les clients d'un centre commercial (genre, âge, revenu annuel, score de
dépenses).
• Charger le dataset Mall Customers Dataset.
• Afficher les 5 premières lignes.
• Analyser la structure du dataset.
• Vérifier les valeurs manquantes et les traiter.
• Convertir les variables catégoriques en variables numériques si nécessaire.
Questions :
1. Combien de clients sont présents dans le dataset ?
2. Quelles sont les variables quantitatives que l'on pourrait utiliser pour faire du
clustering ?
2. Clustering avec K-Means
Nous allons appliquer K-Means sur les deux variables : Annual Income et Spending Score.
C’est un algorithme qui permet de regrouper les points en k clusters.
A partir du graphe, nous choisirons un k optimal pour éviter la sous-segmentation et la
sursegmentation des groupes
Questions :
3. Quelles observations pouvez-vous faire sur la répartition des groupes ?
3. Clustering avec DBSCAN
Nous testons ensuite DBSCAN.
Questions :
4. Quelle est la différence entre K-Means et DBSCAN ?
5. Pourquoi K-Means peut-il être plus efficace pour détecter des anomalies ?
4. Autres modèles
Choisissez un troisième algorithme de clustering (ex : Agglomerative Clustering ou Birch),
appliquez-le au même jeu de données, et comparez les résultats avec ceux de K-Means et
DBSCAN.
Questions :
6. Quel algorithme produit les groupes les plus cohérents selon vous ?
7. Quels sont les avantages et inconvénients de chacun ?
5. Synthèse et Interprétation
Travail à rendre :
À la fin du TP, vous devez produire un rapport incluant :
• Une explication des étapes suivies.
• Un notebook contenant le code, les visualisations et les réponses aux questions