0% ont trouvé ce document utile (0 vote)

83 vues6 pages

DBSCAN

Ce travail pratique explore l'algorithme DBSCAN pour le clustering non supervisé à travers deux études de cas : un jeu de données synthétique (make_moons) et un jeu réel (Wine Dataset). Les étapes incluent le prétraitement, l'entraînement, l'évaluation et l'interprétation des résultats, avec une attention particulière sur les paramètres clés et les bonnes pratiques. La conclusion aborde les avantages, les limites de DBSCAN et l'importance du réglage des hyperparamètres.

Transféré par

anciadola3

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

83 vues6 pages

DBSCAN

Transféré par

anciadola3

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TRAVAIL PRATIQUE DE L’INTELLIGENCE

ARTIFICIELLE

Membres du groupe :
LABULU IBAM Danny
KANGAKANGA FUNI Heritier
KAFWANKA MWANGE Eleonore
KOTATI NGOY Chris
KAYEMBE WA ILUNGA Gloire
ISHARA BYAMASU Justin
MUTOMBO NGOY Orphée
KADIYA TSHIBAMBE Cleon
LUBANZA WA KAMWINYA Ancia
KISIMBA WAMULUNGA John
MWANZA KABONGO Bonheur
TSHUMA KATULUSHI Samuel
KAWEMA KANGULUNGU Marc
SIMUKO LONDJI Bien-aimé
BAC 2 Génie informatique intélligence artificielle et innovation /ESI/UNILU

21 juillet 2025

Résumé

Ce Travail vise à maîtriser l’algorithme DBSCAN pour le clustering non super-

visé. Nous présentons d’abord les objectifs et le cadre théorique, puis deux études
pratiques : un jeu de données synthétique (make_moons) et un jeu réel (jeu « Wine »

1
de Kaggle). Chaque exemple détaille le prétraitement, l’entraînement de DBSCAN,
l’évaluation (score de silhouette) et l’interprétation des résultats. Nous concluons
sur les bonnes pratiques, limites et perspectives.

Table des matières

1 Objectifs du Travail 3

2 Introduction théorique 3

3 Analyse du code 3
3.1 3.1 Jeu synthétique : make_moons . . . . . . . . . . . . . . . . . . . . . . . 3
3.2 3.2 Jeu réel : Wine Dataset (Kaggle) . . . . . . . . . . . . . . . . . . . . . 4

4 Résultats obtenus 5
4.1 Synthétique (make_moons) . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2 Réaliste (Wine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

5 Interprétation et amélioration 5

6 Avantages et limites de DBSCAN 5

7 Conclusion pédagogique 6

Bibliographie 6

2
1 Objectifs du Travail
Ce Travail a pour but de :
— Comprendre le fonctionnement de l’algorithme DBSCAN.
— Identifier et ajuster les paramètres clés : eps et min_samples.
— Appliquer DBSCAN sur un jeu de données synthétique (make_moons) puis un jeu
réel (Wine).
— Visualiser les clusters détectés et analyser les points de bruit (outliers).
— Evaluer la qualité du clustering par le score de silhouette et optimiser les hyper-
paramètres.

2 Introduction théorique
Le clustering regroupe des données similaires sans étiquettes. DBSCAN (Density-
Based Spatial Clustering of Applications with Noise) se distingue par :
— L’absence de besoin de préciser le nombre de clusters.
— La détection automatique des outliers (bruit).
— La capacité à capturer des clusters de forme arbitraire.
Concepts clés :

Epsilon (ε) Distance maximale pour que deux points soient voisins.

min_samples Nombre minimum de voisins dans un rayon ε pour être « noyau ».

Point noyau A au moins min_samples voisins.

Point frontière Non noyau mais dans le voisinage d’un noyau.

Bruit Point isolé sans voisinage suffisant.

3 Analyse du code

3.1 3.1 Jeu synthétique : make_moons

from sklearn . datasets import make_moons

import matplotlib . pyplot as plt
X , y = make_moons ( n_samples =300 , noise =0.1)
plt . scatter ( X [: ,0] , X [: ,1])

3
plt . title ( " D o n n e s brutes : make_moons " )
plt . show ()

Application de DBSCAN :

from sklearn . cluster import DBSCAN

db = DBSCAN ( eps =0.2 , min_samples =5)
db . fit ( X )
labels = db . labels_

Extraction et visualisation des clusters :

plt . scatter ( X [: ,0] , X [: ,1] , c = labels , cmap = ’ Paired ’

)
plt . title ( " Clusters DBSCAN sur make_moons " )
plt . show ()

3.2 3.2 Jeu réel : Wine Dataset (Kaggle)

import pandas as pd
df = pd . read_csv ( " wine - clustering . csv " )
# Pr traitement
from sklearn . preprocessing import StandardScaler
scaler = StandardScaler ()
df [ df . columns ] = scaler . fit_transform ( df )
# E n t r a n e m e n t DBSCAN
db_wine = DBSCAN ( eps =2.8 , min_samples =14)
labels_wine = db_wine . fit_predict ( df )

Visualisation :

import seaborn as sns

df_plot = df . copy ()
df_plot [ " cluster " ] = labels_wine
sns . scatterplot (
data = df_plot , x = " Flavanoids " , y = " OD280 " ,
hue = " cluster " , palette = " tab10 "
)
plt . title ( " Clusters DBSCAN sur Wine Dataset " )

4
plt . show ()

4 Résultats obtenus

4.1 Synthétique (make_moons)

DBSCAN a détecté deux clusters lunaires distincts sans présupposer de forme géomé-
trique. Quelques points de bruit (−1) ont été identifiés dans les zones peu denses.

4.2 Réaliste (Wine)

La configuration ε = 2.8, min_samples=14 a produit un score de silhouette final de

≈ 0.2444. Trois à quatre groupes significatifs se sont dégagés, avec un faible pourcentage
de points classés bruit.

5 Interprétation et amélioration
— ε trop petit → trop de bruit.
— ε trop grand → fusion de clusters distincts.
— Choix optimal via k-distance plot (distance au k-ième plus proche voisin).
— min_samples règle la tolérance au bruit et la densité minimale.

6 Avantages et limites de DBSCAN

Avantages :
— Pas besoin de spécifier le nombre de clusters.
— Identifie naturellement les outliers.
— S’adapte à des formes de clusters complexes.
Limites :
— Sensible au choix de ε et min_samples.
— Densité variable d’un cluster à l’autre dégrade la détection.

5
7 Conclusion pédagogique
Ce TP a permis de :
— Visualiser l’efficacité des méthodes non supervisées.
— Comprendre la notion de densité locale en clustering.
— Mettre en œuvre DBSCAN sur deux contextes : synthétique et réel.
— Appréhender l’importance du réglage des hyperparamètres.

Bibliographie

Références
[1] M. Ester, H.-P. Kriegel, J. Sander & X. Xu, “A density-based algorithm for discovering
clusters in large spatial databases with noise,” KDD ’96, 1996.

[2] Scikit-learn : DBSCAN — [Link]

[Link]#dbscan

[3] Kaggle Wine Dataset — [Link]

wine-dataset-for-clustering

[4] A. Géron, Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow,
O’Reilly, 2019.

[5] Articles Towards Data Science sur DBSCAN, DataCamp Blog.

Vous aimerez peut-être aussi

Segmentation Client avec DBSCAN en Data Mining
Pas encore d'évaluation
Segmentation Client avec DBSCAN en Data Mining
2 pages
TP 12 Dbscan
Pas encore d'évaluation
TP 12 Dbscan
5 pages
CorrectionTD Arbre de Décision
Pas encore d'évaluation
CorrectionTD Arbre de Décision
8 pages
Algorithme de Kaprekar en 4 chiffres
100% (1)
Algorithme de Kaprekar en 4 chiffres
2 pages
TP3 MLP Part II Régression
Pas encore d'évaluation
TP3 MLP Part II Régression
11 pages
TP SVM
Pas encore d'évaluation
TP SVM
6 pages
Examen Systèmes de Recommandation M1 INSI
Pas encore d'évaluation
Examen Systèmes de Recommandation M1 INSI
3 pages
Corrigé CTRL 20 21
Pas encore d'évaluation
Corrigé CTRL 20 21
3 pages
Cours IA: Fondements et Applications
Pas encore d'évaluation
Cours IA: Fondements et Applications
3 pages
TD N°1 Apprentissage M1-IA 2022-2023 CORR
Pas encore d'évaluation
TD N°1 Apprentissage M1-IA 2022-2023 CORR
7 pages
TP 123 Azure
Pas encore d'évaluation
TP 123 Azure
5 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
TP K-Means
Pas encore d'évaluation
TP K-Means
13 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
Sujet N4 QT
Pas encore d'évaluation
Sujet N4 QT
4 pages
Chapit 1 ML L3 IRS
Pas encore d'évaluation
Chapit 1 ML L3 IRS
38 pages
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
Pas encore d'évaluation
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
18 pages
Partie 2
Pas encore d'évaluation
Partie 2
22 pages
Comparaison ML et DL en IA
Pas encore d'évaluation
Comparaison ML et DL en IA
1 page
Correction Epreuve de Architecture - Et - Maintenance - SN
Pas encore d'évaluation
Correction Epreuve de Architecture - Et - Maintenance - SN
3 pages
TP4 ML
Pas encore d'évaluation
TP4 ML
3 pages
Examen 2004
Pas encore d'évaluation
Examen 2004
2 pages
Chapitre7 TAS
Pas encore d'évaluation
Chapitre7 TAS
29 pages
TP KNN
Pas encore d'évaluation
TP KNN
3 pages
Chapitre 02
Pas encore d'évaluation
Chapitre 02
32 pages
Examen Apprentissage - Profond
Pas encore d'évaluation
Examen Apprentissage - Profond
3 pages
Optimisation des Arbres de Décision
Pas encore d'évaluation
Optimisation des Arbres de Décision
26 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
R Eseaux de Neurons Conventionnel (CCN) : Expos e
Pas encore d'évaluation
R Eseaux de Neurons Conventionnel (CCN) : Expos e
16 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
Introduction au Text Mining
Pas encore d'évaluation
Introduction au Text Mining
5 pages
TD Virtualisation00
Pas encore d'évaluation
TD Virtualisation00
4 pages
TD4-Clustering1 (Corrigé)
100% (1)
TD4-Clustering1 (Corrigé)
3 pages
Arbres - Decision 18 19
Pas encore d'évaluation
Arbres - Decision 18 19
76 pages
Cours Prolog: Programmation Logique et Listes
Pas encore d'évaluation
Cours Prolog: Programmation Logique et Listes
15 pages
ALEXNET
Pas encore d'évaluation
ALEXNET
8 pages
TD 1
Pas encore d'évaluation
TD 1
1 page
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Virtualisation Des Applications
100% (1)
Virtualisation Des Applications
5 pages
INF8111 - Exercices + Solutions
Pas encore d'évaluation
INF8111 - Exercices + Solutions
32 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
Serie 1
Pas encore d'évaluation
Serie 1
5 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Atelier sur l'installation de machines virtuelles
Pas encore d'évaluation
Atelier sur l'installation de machines virtuelles
16 pages
Chap 2
Pas encore d'évaluation
Chap 2
17 pages
Chapter 3 - DeepLearning
Pas encore d'évaluation
Chapter 3 - DeepLearning
76 pages
Méthodes Formelles vs Usuelles en Développement
Pas encore d'évaluation
Méthodes Formelles vs Usuelles en Développement
22 pages
Rapport PFE Taha Mesrati
Pas encore d'évaluation
Rapport PFE Taha Mesrati
84 pages
Chap 03 Introduction À l'IA-1
Pas encore d'évaluation
Chap 03 Introduction À l'IA-1
34 pages
Projet Fin de Module Devops 2025
Pas encore d'évaluation
Projet Fin de Module Devops 2025
6 pages
Créer un site WordPress sur Azure
Pas encore d'évaluation
Créer un site WordPress sur Azure
10 pages
Optimisation des Hyperparamètres en ML
Pas encore d'évaluation
Optimisation des Hyperparamètres en ML
39 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
16 pages
29&30 Novembre
Pas encore d'évaluation
29&30 Novembre
27 pages
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
Pas encore d'évaluation
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
26 pages
Introduction aux réseaux de neurones
Pas encore d'évaluation
Introduction aux réseaux de neurones
61 pages
Cloud Computing-CloudSim-7
Pas encore d'évaluation
Cloud Computing-CloudSim-7
17 pages
Examen ML 2023 Correction
Pas encore d'évaluation
Examen ML 2023 Correction
5 pages
Introduction au clustering DBSCAN en Python
Pas encore d'évaluation
Introduction au clustering DBSCAN en Python
13 pages
3 Cours DBSCAN
Pas encore d'évaluation
3 Cours DBSCAN
22 pages
Série3 (2022)
Pas encore d'évaluation
Série3 (2022)
2 pages
Rêves et Symboles de Sorcellerie
Pas encore d'évaluation
Rêves et Symboles de Sorcellerie
9 pages
CV Promoteur RACOJ
Pas encore d'évaluation
CV Promoteur RACOJ
10 pages
Évaluation du Répertoire Phonétique
Pas encore d'évaluation
Évaluation du Répertoire Phonétique
1 page
Formes Et Réformes Geoffrey Joris, Catherine Fallon
Pas encore d'évaluation
Formes Et Réformes Geoffrey Joris, Catherine Fallon
6 pages
Plaquette MASTER ProjTer Nancy
Pas encore d'évaluation
Plaquette MASTER ProjTer Nancy
24 pages
Collection Barbazo Corrigé Intégral
86% (22)
Collection Barbazo Corrigé Intégral
257 pages
TD02 - Réseaux de Neurones - Solution
100% (1)
TD02 - Réseaux de Neurones - Solution
8 pages
Croissance Urbaine et Dynamiques à Richard-Toll
Pas encore d'évaluation
Croissance Urbaine et Dynamiques à Richard-Toll
316 pages
LES BOURREAUX. Dans Les Balkans. La Terreur Blanche - Henry Barbusse (1926) - Палачи - Анри Барбюс
100% (2)
LES BOURREAUX. Dans Les Balkans. La Terreur Blanche - Henry Barbusse (1926) - Палачи - Анри Барбюс
280 pages
Modele Procedure Qualite ISO9001 Lecoursgratuit
Pas encore d'évaluation
Modele Procedure Qualite ISO9001 Lecoursgratuit
2 pages
Le Soir - Fouad Laroui Drame Linguistique
Pas encore d'évaluation
Le Soir - Fouad Laroui Drame Linguistique
1 page
Résolution Graphique de PL
Pas encore d'évaluation
Résolution Graphique de PL
16 pages
Correction Ex 4.5
Pas encore d'évaluation
Correction Ex 4.5
11 pages
File Guidetransfertdargent PDF
Pas encore d'évaluation
File Guidetransfertdargent PDF
136 pages
Exercices 4 Le Signe Linguistique
Pas encore d'évaluation
Exercices 4 Le Signe Linguistique
3 pages
Tableau de bord projet ICProject
Pas encore d'évaluation
Tableau de bord projet ICProject
4 pages
Choix d'un fournisseur d'email
100% (1)
Choix d'un fournisseur d'email
2 pages
La-Culture-D Entreprise Kounaidi
Pas encore d'évaluation
La-Culture-D Entreprise Kounaidi
69 pages
Communication D'acceptabilité PDF
Pas encore d'évaluation
Communication D'acceptabilité PDF
21 pages
Programme Journees Decouvertes Uco Brest Octobre 2024
Pas encore d'évaluation
Programme Journees Decouvertes Uco Brest Octobre 2024
4 pages
Régression Linéaire Simple et Tests Statistiques
Pas encore d'évaluation
Régression Linéaire Simple et Tests Statistiques
36 pages
Il Il: Sols de L'Ouest - Sols de L'Ouest
Pas encore d'évaluation
Il Il: Sols de L'Ouest - Sols de L'Ouest
98 pages
Impact de la Conteneurisation sur le Port du Havre
Pas encore d'évaluation
Impact de la Conteneurisation sur le Port du Havre
66 pages
TP1-Prise en Main
Pas encore d'évaluation
TP1-Prise en Main
4 pages
Prise de Son
Pas encore d'évaluation
Prise de Son
3 pages
Audit Social: Indicateurs et Objectifs
Pas encore d'évaluation
Audit Social: Indicateurs et Objectifs
21 pages
Guide Management Écocertification Afrique
Pas encore d'évaluation
Guide Management Écocertification Afrique
96 pages
Activité 3
Pas encore d'évaluation
Activité 3
9 pages
DEVOIR 1 Le Sport 2022
100% (5)
DEVOIR 1 Le Sport 2022
2 pages