Segmentation Client avec DBSCAN en Data Mining

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

283 vues2 pages

Segmentation Client avec DBSCAN en Data Mining

Transféré par

Marwan Housni

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Travaux pratiques N ◦ 9: Algorithme DBSCAN

Module:Data Mining
–Licence en Sciences des Données (S5)
College of Computing–Université Mohammed VI Polytechnique
Année universitaire 2024-2025
[email protected]
—————————————————————–
—————————————————————–
Objectif : Segmentation des Clients de Centre Commercial avec
l’Algorithme Density-Based Spatial Clustering of Applications with Noise

Objectif
L’objectif de ce travail pratique est de mettre en œuvre et d’analyser l’algorithme DBSCAN (Density-Based Spa-
tial Clustering of Applications with Noise) sur un jeu de données réel. L’algorithme DBSCAN est un algorithme
de clustering basé sur la densité, capable de former des groupes de données tout en détectant les anomalies
(bruit).

1. Exploration des données

1. Téléchargez le jeu de données depuis Kaggle à l’adresse suivante:
https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation.
2. Importez le fichier CSV dans votre environnement de travail Python et répondez aux questions suivantes.
3. Chargez les données à l’aide de pandas et affichez les cinq premières lignes du jeu de données.
4. Affichez des informations sur les colonnes (df.info()) et vérifiez s’il y a des valeurs manquantes.
5. Réalisez une analyse descriptive des variables numériques (df.describe()).
6. Standardiser les données numériques (Âge, Revenu annuel, Score de dépense) pour faciliter la convergence
de l’algorithme.

Partie 2 : Application de l’algorithme DBSCAN

2.1 Normalisation des données
Avant d’appliquer DBSCAN, il est souvent nécessaire de normaliser les données pour éviter que certaines variables
à grande échelle (comme le revenu annuel) n’impactent trop fortement le résultat du clustering. Utilisez la
normalisation Min-Max ou Standardisation pour cette étape.

from sklearn.preprocessing import StandardScaler

# Sélection des variables pertinentes

X = data[[’Annual Income (k$)’, ’Spending Score (1-100)’]]

# Normalisation des données

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

1|2
2.2 Application de DBSCAN
Appliquez l’algorithme DBSCAN sur les données normalisées. Commencez par choisir des valeurs pour les
paramètres eps (la distance maximale entre deux points pour les considérer comme voisins) et min_samples (le
nombre minimum de points pour former un cluster).

from sklearn.cluster import DBSCAN

# Application de DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
labels = dbscan.fit_predict(X_scaled)

# Affichage des labels attribués par DBSCAN

print(labels)

2.3 Visualisation des clusters

Une fois l’algorithme DBSCAN exécuté, visualisez les clusters obtenus. Utilisez un graphique de dispersion pour
afficher les clusters, en coloriant les points selon les labels attribués par DBSCAN. Les points marqués comme
bruit seront généralement assignés à un label -1.

import matplotlib.pyplot as plt

# Visualisation des clusters

plt.scatter(X[’Annual Income (k$)’], X[’Spending Score (1-100)’], c=labels, cmap=’viridis’)
plt.xlabel(’Income (k$)’)
plt.ylabel(’Spending Score (1-100)’)
plt.title(’Clustering des clients du centre commercial avec DBSCAN’)
plt.show()

Partie 3 : Analyse des résultats

3.1 Evaluation des clusters
Analysez les résultats obtenus. Combien de clusters ont été formés ? Quelle proportion des données a été classée
comme bruit (points ayant le label -1) ?
Discutez de l’impact des paramètres eps et min_samples sur le résultat du clustering. Que se passe-t-il si vous
modifiez ces paramètres ?

3.2 Comparaison avec d’autres algorithmes

Comparez l’algorithme DBSCAN avec d’autres méthodes de clustering, telles que KMeans. Quelle est la différence
dans les résultats obtenus par DBSCAN et KMeans, en particulier dans le cas des données bruyantes ?

Partie 4 : Conclusion
Dans cette partie, résumez les principales conclusions que vous avez tirées de l’application de DBSCAN sur ce
jeu de données. Discutez des avantages et des limitations de DBSCAN pour le clustering de données réelles.

2|2

Vous aimerez peut-être aussi

TPInfo
Pas encore d'évaluation
TPInfo
7 pages
TP 12 Dbscan
Pas encore d'évaluation
TP 12 Dbscan
5 pages
DBSCAN
Pas encore d'évaluation
DBSCAN
6 pages
TP #6 - Clustering
Pas encore d'évaluation
TP #6 - Clustering
8 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
TP K-Means
Pas encore d'évaluation
TP K-Means
13 pages
TP SVM
Pas encore d'évaluation
TP SVM
6 pages
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
Pas encore d'évaluation
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
1 page
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
TP4 Spark MLlib
Pas encore d'évaluation
TP4 Spark MLlib
7 pages
Apache Mahout : Machine Learning et Big Data
Pas encore d'évaluation
Apache Mahout : Machine Learning et Big Data
85 pages
Optimisation des Hyperparamètres en ML
Pas encore d'évaluation
Optimisation des Hyperparamètres en ML
39 pages
Comparaison ML et DL en IA
Pas encore d'évaluation
Comparaison ML et DL en IA
1 page
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Questions Reponses Text Mining
Pas encore d'évaluation
Questions Reponses Text Mining
3 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Chapitre 4 Web Sémantique
Pas encore d'évaluation
Chapitre 4 Web Sémantique
127 pages
Examia 083 C
Pas encore d'évaluation
Examia 083 C
9 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Ilovepdf Merged
Pas encore d'évaluation
Ilovepdf Merged
99 pages
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
Pas encore d'évaluation
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
18 pages
Analyse de Données et Règles d'Association
Pas encore d'évaluation
Analyse de Données et Règles d'Association
11 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Mobile Ad-Hoc Network
Pas encore d'évaluation
Mobile Ad-Hoc Network
68 pages
DataMining Part3 Classification PDF
Pas encore d'évaluation
DataMining Part3 Classification PDF
64 pages
Machine - Learning - Classification
Pas encore d'évaluation
Machine - Learning - Classification
34 pages
Cours ML2 (v13 - 10 - 2024)
Pas encore d'évaluation
Cours ML2 (v13 - 10 - 2024)
66 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
Rapport 1 Final
Pas encore d'évaluation
Rapport 1 Final
75 pages
NLP
100% (1)
NLP
4 pages
ML Seance 3
Pas encore d'évaluation
ML Seance 3
103 pages
TP3 MLP Part II Régression
Pas encore d'évaluation
TP3 MLP Part II Régression
11 pages
Chapitre 6. Apprentissage Automatique Et Réseaux de Neurones
Pas encore d'évaluation
Chapitre 6. Apprentissage Automatique Et Réseaux de Neurones
23 pages
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
16 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
TD3-Big Data
Pas encore d'évaluation
TD3-Big Data
2 pages
Chapitre 3 Apprentissage Supervisé - Classification
Pas encore d'évaluation
Chapitre 3 Apprentissage Supervisé - Classification
85 pages
Gestion Projet Big Data
Pas encore d'évaluation
Gestion Projet Big Data
28 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
TP Mnist Ia M1
Pas encore d'évaluation
TP Mnist Ia M1
75 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
Presentation Couchdb
Pas encore d'évaluation
Presentation Couchdb
19 pages
Algorithme k-NN : Concepts et Applications
Pas encore d'évaluation
Algorithme k-NN : Concepts et Applications
32 pages
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
Tpe Yarn-1
Pas encore d'évaluation
Tpe Yarn-1
11 pages
quiz-CloudComputing - 20232024-Questions Enregistrées Depuis Le Contexte Test Examen Cloud Computing.-20241224-0848
Pas encore d'évaluation
quiz-CloudComputing - 20232024-Questions Enregistrées Depuis Le Contexte Test Examen Cloud Computing.-20241224-0848
3 pages
Non Supervisé Clustring
Pas encore d'évaluation
Non Supervisé Clustring
10 pages
TP - 5 - Énoncé - Version 1
Pas encore d'évaluation
TP - 5 - Énoncé - Version 1
4 pages
Introduction au clustering DBSCAN en Python
Pas encore d'évaluation
Introduction au clustering DBSCAN en Python
13 pages
TP 01 Data Preprosessing
Pas encore d'évaluation
TP 01 Data Preprosessing
19 pages
TP5 Descente Gradient
Pas encore d'évaluation
TP5 Descente Gradient
3 pages
03-Chap2 Supervised-Learn Reg Lin Simp-2024
Pas encore d'évaluation
03-Chap2 Supervised-Learn Reg Lin Simp-2024
173 pages
Optimisation des ventes via K-means Python
Pas encore d'évaluation
Optimisation des ventes via K-means Python
2 pages
Modèles ARMA et Séries Temporelles
Pas encore d'évaluation
Modèles ARMA et Séries Temporelles
82 pages
02-Chap2 Supervised-Learn Reg Lin Simp-2024 Copie
Pas encore d'évaluation
02-Chap2 Supervised-Learn Reg Lin Simp-2024 Copie
522 pages
TP - ROC-SVM - AFD - Ipynb - Colab
Pas encore d'évaluation
TP - ROC-SVM - AFD - Ipynb - Colab
2 pages
Classification du cancer avec Random Forest
Pas encore d'évaluation
Classification du cancer avec Random Forest
4 pages
TP-03-Analyses Multivarie ües-ML
Pas encore d'évaluation
TP-03-Analyses Multivarie ües-ML
25 pages
Projets ML pour étudiants en S5
Pas encore d'évaluation
Projets ML pour étudiants en S5
3 pages
02-Chap2 Supervised-Learn Reg Lin Simp-2024
Pas encore d'évaluation
02-Chap2 Supervised-Learn Reg Lin Simp-2024
343 pages
Templette - Sup Algorithm 2025
Pas encore d'évaluation
Templette - Sup Algorithm 2025
5 pages
TP 02 Feature Selection
Pas encore d'évaluation
TP 02 Feature Selection
24 pages
Traitement Des Valeurs Aberrantes
Pas encore d'évaluation
Traitement Des Valeurs Aberrantes
17 pages
TD Supervised L Reg Lin
Pas encore d'évaluation
TD Supervised L Reg Lin
3 pages
TP 04 Afd PMC
Pas encore d'évaluation
TP 04 Afd PMC
6 pages
Slides Mécanique-Quantique CH3 4
Pas encore d'évaluation
Slides Mécanique-Quantique CH3 4
72 pages
TP Poly Regres 24 25
Pas encore d'évaluation
TP Poly Regres 24 25
3 pages
Tests Logiciels
Pas encore d'évaluation
Tests Logiciels
77 pages
UML Diagramme de Séquence: Ahmed ZELLOU
Pas encore d'évaluation
UML Diagramme de Séquence: Ahmed ZELLOU
61 pages
Mécanique-Quantique CH3 4
Pas encore d'évaluation
Mécanique-Quantique CH3 4
49 pages
3 DC
Pas encore d'évaluation
3 DC
72 pages
Programmation C++
Pas encore d'évaluation
Programmation C++
92 pages
TD3 Um6p2024
Pas encore d'évaluation
TD3 Um6p2024
2 pages
MQ Part1
Pas encore d'évaluation
MQ Part1
20 pages
FELOULI - Zineb OUBRAHAM - Abdelhakim
Pas encore d'évaluation
FELOULI - Zineb OUBRAHAM - Abdelhakim
89 pages
Partie2 MQ
Pas encore d'évaluation
Partie2 MQ
25 pages
Veille stratégique sur appels d'offres
Pas encore d'évaluation
Veille stratégique sur appels d'offres
150 pages
Optimisation des Réponses aux Appels d'Offres
Pas encore d'évaluation
Optimisation des Réponses aux Appels d'Offres
2 pages
Exam Oracle DBA1 12122023 Matin
Pas encore d'évaluation
Exam Oracle DBA1 12122023 Matin
8 pages
TP N°2 - ARP
Pas encore d'évaluation
TP N°2 - ARP
12 pages
QCM UML Diagrammes
Pas encore d'évaluation
QCM UML Diagrammes
2 pages
09.la Configuration de L'expérience Utilisateur Et Des Ressources Locales
Pas encore d'évaluation
09.la Configuration de L'expérience Utilisateur Et Des Ressources Locales
18 pages
Refonte Appli Livraison: Étude de Cas
Pas encore d'évaluation
Refonte Appli Livraison: Étude de Cas
3 pages
Covention de Stage Vide
Pas encore d'évaluation
Covention de Stage Vide
2 pages
Architecture Réseau Sécurisée Start-up
Pas encore d'évaluation
Architecture Réseau Sécurisée Start-up
2 pages
Diagrammes de séquence UML expliqués
Pas encore d'évaluation
Diagrammes de séquence UML expliqués
18 pages
Oracle Database 19c21c Administration
Pas encore d'évaluation
Oracle Database 19c21c Administration
5 pages
Manuel Du Peseur de Ceinture BCW51L0
Pas encore d'évaluation
Manuel Du Peseur de Ceinture BCW51L0
74 pages
Compte Rendu FERGANI Mohammed
Pas encore d'évaluation
Compte Rendu FERGANI Mohammed
10 pages
Memeoire de Magister: Universite Saad Dahlab de Blida
Pas encore d'évaluation
Memeoire de Magister: Universite Saad Dahlab de Blida
286 pages
VIMLE Canapé 3 Places Convertible, Av Accoudoirs Largessaxemara Bleu Noir - IKEA
Pas encore d'évaluation
VIMLE Canapé 3 Places Convertible, Av Accoudoirs Largessaxemara Bleu Noir - IKEA
1 page
Cours - Réseaux - Séances 1 Et 2
Pas encore d'évaluation
Cours - Réseaux - Séances 1 Et 2
46 pages
Les Themes en Informatiques
100% (2)
Les Themes en Informatiques
4 pages
01-Les Services réseaux-SSH
Pas encore d'évaluation
01-Les Services réseaux-SSH
19 pages
Modele Attestation de Bonne Exécution
Pas encore d'évaluation
Modele Attestation de Bonne Exécution
1 page
2nde GT - F5
Pas encore d'évaluation
2nde GT - F5
2 pages
Tp28-Configuration Du Pare-Feu
100% (1)
Tp28-Configuration Du Pare-Feu
11 pages
Snapchat : Évolution et Impact Global
Pas encore d'évaluation
Snapchat : Évolution et Impact Global
2 pages
1-Réseau Téléphonique Commute Public
Pas encore d'évaluation
1-Réseau Téléphonique Commute Public
110 pages
Travaux Pratiques Groupe 2 (Enregistrement Automatique)
Pas encore d'évaluation
Travaux Pratiques Groupe 2 (Enregistrement Automatique)
18 pages
Modules 1 Et 2 Du Programme D'études CCNA3
Pas encore d'évaluation
Modules 1 Et 2 Du Programme D'études CCNA3
19 pages
Le Routage
Pas encore d'évaluation
Le Routage
7 pages
PFE Master V2
Pas encore d'évaluation
PFE Master V2
56 pages
Ex CHM 233 (018-019)
Pas encore d'évaluation
Ex CHM 233 (018-019)
1 page
Algo Tunisie
Pas encore d'évaluation
Algo Tunisie
5 pages
Chapitre2 Intelligence Artificielle
Pas encore d'évaluation
Chapitre2 Intelligence Artificielle
21 pages
PRAVAN - TP2 - HTML - CSS (Part 1)
Pas encore d'évaluation
PRAVAN - TP2 - HTML - CSS (Part 1)
41 pages