0% ont trouvé ce document utile (0 vote)
54 vues3 pages

TP 5

Ce document présente un TP sur la comparaison des modèles de classification non supervisée, en se concentrant sur les algorithmes K-Means et DBSCAN. Les étudiants doivent charger et analyser le dataset des clients d'un centre commercial, appliquer les algorithmes de clustering, et comparer les résultats avec un troisième algorithme. Le rapport final doit inclure une explication des étapes, du code, des visualisations et des réponses aux questions posées.

Transféré par

Wiame Naim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues3 pages

TP 5

Ce document présente un TP sur la comparaison des modèles de classification non supervisée, en se concentrant sur les algorithmes K-Means et DBSCAN. Les étudiants doivent charger et analyser le dataset des clients d'un centre commercial, appliquer les algorithmes de clustering, et comparer les résultats avec un troisième algorithme. Le rapport final doit inclure une explication des étapes, du code, des visualisations et des réponses aux questions posées.

Transféré par

Wiame Naim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 5 : Comparaison des Modèles de

Classification non supervisée (Clustering)

Objectifs :
• Découvrir les méthodes de classification non supervisée
• Comprendre et appliquer les algorithmes K-Means et DBSCAN
• Visualiser les résultats du clustering et interpréter les groupes

1. Chargement des données


Nous allons travailler sur le jeu de données "Mall Customers Dataset". Il contient des
informations sur les clients d'un centre commercial (genre, âge, revenu annuel, score de
dépenses).

• Charger le dataset Mall Customers Dataset.


• Afficher les 5 premières lignes.
• Analyser la structure du dataset.
• Vérifier les valeurs manquantes et les traiter.
• Convertir les variables catégoriques en variables numériques si nécessaire.

Questions :

1. Combien de clients sont présents dans le dataset ?


2. Quelles sont les variables quantitatives que l'on pourrait utiliser pour faire du
clustering ?
2. Clustering avec K-Means
Nous allons appliquer K-Means sur les deux variables : Annual Income et Spending Score.
C’est un algorithme qui permet de regrouper les points en k clusters.

A partir du graphe, nous choisirons un k optimal pour éviter la sous-segmentation et la


sursegmentation des groupes

Questions :

3. Quelles observations pouvez-vous faire sur la répartition des groupes ?


3. Clustering avec DBSCAN
Nous testons ensuite DBSCAN.

Questions :

4. Quelle est la différence entre K-Means et DBSCAN ?

5. Pourquoi K-Means peut-il être plus efficace pour détecter des anomalies ?

4. Autres modèles
Choisissez un troisième algorithme de clustering (ex : Agglomerative Clustering ou Birch),
appliquez-le au même jeu de données, et comparez les résultats avec ceux de K-Means et
DBSCAN.

Questions :

6. Quel algorithme produit les groupes les plus cohérents selon vous ?

7. Quels sont les avantages et inconvénients de chacun ?

5. Synthèse et Interprétation

Travail à rendre :

À la fin du TP, vous devez produire un rapport incluant :

• Une explication des étapes suivies.


• Un notebook contenant le code, les visualisations et les réponses aux questions

Vous aimerez peut-être aussi