0% ont trouvé ce document utile (0 vote)

168 vues7 pages

TPInfo

TP à propos du Kmeans

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

168 vues7 pages

TPInfo

TP à propos du Kmeans

Transféré par

mihedbahrouni982

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Travaux Pratiques

Clustering Hiérarchique et DBSCAN

Classes SPE - Institut Préparatoire aux Études

Scientifiques et Techniques (IPEST)

Encadré par :
Mohamed Amine BEN AMOR

Date : 3 décembre 2024

IPEST - Classes SPE Travaux Pratiques

Introduction
Ce cours-TP introduit deux nouveaux algorithmes de clustering et de classification
qui complètent les concepts que vous avez déjà étudiés avec K-means.

Objectifs :
— Comprendre les principes du clustering hiérarchique, une méthode basée sur la
construction de structures arborescentes (dendrogrammes).
— Découvrir DBSCAN, un algorithme de clustering basé sur la densité qui peut
identifier des clusters de forme arbitraire et détecter les points de bruit.
Ces algorithmes sont :
— Relativement simples à implémenter, ce qui les rend accessibles pour une ap-
plication pratique.
— Flexibles, car ils ne nécessitent pas toujours de spécifier un nombre de clusters à
l’avance.
— De bons candidats pour des sujets de concours en raison de leur structure
logique et de leur utilisation dans des problèmes réels.

Pourquoi sont-ils importants ? Comme K-means, ces algorithmes permettent d’ex-

traire des structures intéressantes dans les données, mais ils offrent des approches complémentaires :
— Le clustering hiérarchique aide à explorer les relations entre les clusters grâce
à une vision hiérarchique.
— DBSCAN est adapté aux ensembles de données bruyants et aux clusters de densité
variable.
Ce cours vous guidera pas à pas dans la compréhension et l’implémentation de ces algo-
rithmes, tout en renforçant vos compétences en programmation et en analyse de données.

1 Qu’est-ce que le clustering hiérarchique ?

Le clustering hiérarchique est une méthode d’analyse des données qui construit
une hiérarchie de clusters. Cette approche peut être représentée sous forme d’un dendro-
gramme, une structure en arbre illustrant les regroupements successifs.

Applications :
— Bio-informatique (classification des espèces).
— Analyse de documents (groupement de textes similaires).
— Marketing (segmentation de la clientèle).

1.1 Deux types de clustering hiérarchique

Le clustering hiérarchique se divise en deux catégories principales :
— Agglomératif : commence par des clusters individuels et les fusionne successive-
ment.
— Divisif : commence par un cluster global et divise les données en sous-clusters.

1
IPEST - Classes SPE Travaux Pratiques

1.2 Méthodes de liaison (linkage)

La méthode de liaison définit comment la distance entre deux clusters est calculée.
Voici les trois principales méthodes :
— Liaison simple (Single Linkage) : distance minimale entre deux points appar-
tenant à des clusters différents.
— Liaison complète (Complete Linkage) : distance maximale entre deux points
appartenant à des clusters différents.
— Liaison moyenne (Average Linkage) : moyenne des distances entre tous les
points des deux clusters.

1.3 Dendrogramme
Un dendrogramme est un graphique qui représente les étapes de regroupement des
clusters. Voici un exemple de dendrogramme :

Distance

A B C D E Points

Lecture :
— L’axe vertical représente les distances de regroupement.
— Plus la distance est grande, plus les clusters sont dissemblables.

1.4 Algorithme
Voici les étapes principales pour le clustering hiérarchique agglomératif :
1. Initialisez chaque point comme un cluster individuel.
2. Calculez les distances entre tous les clusters.

2
IPEST - Classes SPE Travaux Pratiques

3. Fusionnez les deux clusters les plus proches.

4. Répétez jusqu’à ce qu’il ne reste qu’un seul cluster.

Complexité : L’algorithme a une complexité en temps de O(n3 ) pour un ensemble de

n points.

1.5 Avantages et inconvénients

— Avantages :
— Pas besoin de définir le nombre de clusters à l’avance.
— Facile à interpréter grâce au dendrogramme.
— Inconvénients :
— Sensible aux valeurs aberrantes.
— Coût de calcul élevé pour des ensembles de données volumineux.

2 Qu’est-ce que DBSCAN ?

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est
un algorithme de clustering basé sur la densité. Il regroupe des points proches en fonction
d’une densité minimale et marque les points isolés comme du bruit.

2.1 Concepts clés

DBSCAN repose sur trois notions importantes :
— Éps (eps) : Rayon d’un voisinage autour d’un point.
— MinPts (min samples) : Nombre minimum de points requis pour qu’un voisinage
soit considéré comme dense.
— Types de points :
— Core Point : Point ayant au moins MinPts voisins dans un rayon eps.
— Border Point : Point situé dans le voisinage d’un Core Point, mais n’étant
pas lui-même un Core Point.
— Noise Point : Point qui n’est ni Core ni Border.

2.2 Illustration des concepts

L’illustration ci-dessous montre les différents types de points selon DBSCAN :

Border Point
Core Point Noise Point
Éps

3
IPEST - Classes SPE Travaux Pratiques

2.3 Algorithme
1. Choisir un point non visité.
2. Trouver tous les voisins dans un rayon eps.
3. Si le point est un Core Point :
— Créer un nouveau cluster et inclure ses voisins directs.
— Étendre le cluster en ajoutant les voisins des Core Points connectés.
4. Si le point n’est pas un Core Point, le marquer comme bruit ou Border Point.
5. Répéter jusqu’à ce que tous les points soient visités.

2.4 Avantages et inconvénients

— Avantages :
— Détecte les clusters de forme arbitraire.
— Identifie les points de bruit (outliers).
— Inconvénients :
— Sensible au choix des hyperparamètres (eps et MinPts).
— Performances limitées pour les grands ensembles de données.

4
IPEST - Classes SPE Travaux Pratiques

3 Le TP
3.1 Objectifs
Dans ce TP, vous allez :
— Générer des données synthétiques pour des algorithmes de clustering.
— Comprendre et implémenter le clustering hiérarchique avec la méthode de liai-
son simple.
— Appliquer l’algorithme DBSCAN pour détecter des clusters de densité variable.
— Visualiser et interpréter les résultats.

3.2 Matériel autorisé

— Utilisation des bibliothèques NumPy et Matplotlib.
— Vous ne devez pas utiliser des bibliothèques de clustering externes (comme Scikit-
learn pour les algorithmes).

3.3 Exercice 1 : Génération de données

Question 1 : Écrivez une fonction generate data qui génère des données 2D aléatoires
organisées en plusieurs clusters.
— Les données doivent être centrées autour de centres donnés, avec une dispersion
aléatoire.
— La fonction prendra en paramètres :
— n samples per cluster : Nombre de points par cluster.
— cluster centers : Liste des centres des clusters.
— cluster std : Dispersion des points autour des centres.

Question 2 : Affichez les données générées à l’aide d’un nuage de points.

5
IPEST - Classes SPE Travaux Pratiques

3.4 Exercice 2 : Clustering Hiérarchique

Question 1 : Implémentez une fonction calculate distances qui calcule la matrice
des distances carrées entre chaque paire de points.

Question 2 : Implémentez une fonction single linkage qui réalise le clustering hiérarchique
avec la méthode de liaison simple :
— Recherchez les deux clusters les plus proches à chaque étape.
— Fusionnez ces clusters en un seul.
— Gardez une trace de l’historique des fusions.

Question 3 : Implémentez une fonction plot dendrogram pour tracer le dendrogramme

basé sur l’historique des fusions.

Question 4 : Appliquez votre clustering hiérarchique sur les données générées à l’Exer-
cice 1 et visualisez les résultats.

3.5 Exercice 3 : DBSCAN

Question 1 : Implémentez une fonction get neighbors qui identifie les voisins proches
d’un point donné en fonction d’un seuil eps.

Question 2 : Implémentez l’algorithme DBSCAN en suivant ces étapes :

— Déterminez si un point est un core point, un border point, ou du bruit.
— Étendez les clusters en connectant les core points.

Question 3 : Appliquez votre algorithme DBSCAN sur les données générées à l’Exercice
1 et visualisez les résultats.

3.6 Résultats attendus

— Un dendrogramme décrivant les fusions successives des clusters.
— Une visualisation des clusters obtenus par DBSCAN, incluant les points de bruit.

3.7 Conclusion
Expliquez brièvement les différences entre le clustering hiérarchique et DBSCAN :
— Leur approche pour détecter les clusters.
— Leurs avantages et inconvénients respectifs.

Vous aimerez peut-être aussi

Segmentation Client avec DBSCAN en Data Mining
Pas encore d'évaluation
Segmentation Client avec DBSCAN en Data Mining
2 pages
TP 12 Dbscan
Pas encore d'évaluation
TP 12 Dbscan
5 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Cha4 CAH
Pas encore d'évaluation
Cha4 CAH
27 pages
Clustering et Algorithmes DBSCAN
Pas encore d'évaluation
Clustering et Algorithmes DBSCAN
36 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Classification Hiérarchique Ascendante
Pas encore d'évaluation
Classification Hiérarchique Ascendante
27 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Diagrammes de classe en UML pour projets industriels
Pas encore d'évaluation
Diagrammes de classe en UML pour projets industriels
2 pages
Chap - Analyse D'associations - Partie 01-18-19
Pas encore d'évaluation
Chap - Analyse D'associations - Partie 01-18-19
12 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
ConceptionTB Et Scoring 3BI PARTIE 1 2021-2022
Pas encore d'évaluation
ConceptionTB Et Scoring 3BI PARTIE 1 2021-2022
71 pages
Exemple 0282 Formation Diagrammes Uml
Pas encore d'évaluation
Exemple 0282 Formation Diagrammes Uml
7 pages
Rapport Community Detection
Pas encore d'évaluation
Rapport Community Detection
36 pages
DL Chapitre 2 SAD Part II Arbre de Décision
Pas encore d'évaluation
DL Chapitre 2 SAD Part II Arbre de Décision
5 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Introduction à l'IA et Machine Learning
Pas encore d'évaluation
Introduction à l'IA et Machine Learning
2 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
TP K-Means
Pas encore d'évaluation
TP K-Means
13 pages
TD01 Bi
Pas encore d'évaluation
TD01 Bi
1 page
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
Pas encore d'évaluation
Cours Bases de Données ENSAM-MEknès AHMADI 2020 2021
38 pages
Cours - Polycopié Data Mining - Brahim FAROU (Université de Guelma, 2022)
Pas encore d'évaluation
Cours - Polycopié Data Mining - Brahim FAROU (Université de Guelma, 2022)
188 pages
POO en Python : Classes et Objets
Pas encore d'évaluation
POO en Python : Classes et Objets
19 pages
Arbres de Décision et Algorithme ID3
Pas encore d'évaluation
Arbres de Décision et Algorithme ID3
17 pages
CNN (Convolutional Neural Network) : Universit e de SKIKDA 20 AOUT 1955 D Epartement de L'informatique
Pas encore d'évaluation
CNN (Convolutional Neural Network) : Universit e de SKIKDA 20 AOUT 1955 D Epartement de L'informatique
15 pages
TP7+8 - Jointures + Sous-Interrogation - Correction
Pas encore d'évaluation
TP7+8 - Jointures + Sous-Interrogation - Correction
2 pages
TP Class
Pas encore d'évaluation
TP Class
3 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Techniques de Fragmentation Informatique
Pas encore d'évaluation
Techniques de Fragmentation Informatique
40 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
1 IRAD - FD - Chap1
Pas encore d'évaluation
1 IRAD - FD - Chap1
19 pages
Requêtes SQL pour l'Atelier Base de Données
Pas encore d'évaluation
Requêtes SQL pour l'Atelier Base de Données
5 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
TP Power BI 2
Pas encore d'évaluation
TP Power BI 2
4 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
93 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Examen SID : Entrepôt de données et navigation
Pas encore d'évaluation
Examen SID : Entrepôt de données et navigation
4 pages
Gestion Disque
Pas encore d'évaluation
Gestion Disque
16 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
Ingénierie des Connaissances et Données
Pas encore d'évaluation
Ingénierie des Connaissances et Données
1 page
Algorithme k-NN : Concepts et Applications
Pas encore d'évaluation
Algorithme k-NN : Concepts et Applications
32 pages
Apache Tez Theorique
Pas encore d'évaluation
Apache Tez Theorique
3 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
Design Patterns et Exercices UML
Pas encore d'évaluation
Design Patterns et Exercices UML
3 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
TD4-Assoc Rules (Corrigé)
Pas encore d'évaluation
TD4-Assoc Rules (Corrigé)
4 pages
Chapitre 4 Web Sémantique
Pas encore d'évaluation
Chapitre 4 Web Sémantique
127 pages
9 Observateur
Pas encore d'évaluation
9 Observateur
27 pages
TD3 EtatTransitionDiagram
Pas encore d'évaluation
TD3 EtatTransitionDiagram
2 pages
Chapitre 6 - K Plus Proches Voisins (KNN)
Pas encore d'évaluation
Chapitre 6 - K Plus Proches Voisins (KNN)
30 pages
Modélisation Multidimensionnelle des EDs
Pas encore d'évaluation
Modélisation Multidimensionnelle des EDs
59 pages
CAH avec méthode de Ward expliquée
Pas encore d'évaluation
CAH avec méthode de Ward expliquée
5 pages
Clustering Hiérarchique : Méthodes et Applications
100% (3)
Clustering Hiérarchique : Méthodes et Applications
13 pages
56 Micromacro Crime City Regle
Pas encore d'évaluation
56 Micromacro Crime City Regle
4 pages
Cahier Des Charges
Pas encore d'évaluation
Cahier Des Charges
4 pages
Réalisation D'un Banc D'essai de La Chaine D'action 'Variateur de Vitesse - Moteur Asynchrone ' Commandé Par Un API Et Su - 1
Pas encore d'évaluation
Réalisation D'un Banc D'essai de La Chaine D'action 'Variateur de Vitesse - Moteur Asynchrone ' Commandé Par Un API Et Su - 1
113 pages
Sécurité des Réseaux : Algorithmes et Protocoles
Pas encore d'évaluation
Sécurité des Réseaux : Algorithmes et Protocoles
2 pages
RAM (Random Access Memory) : Les Mémoires Vives (RAM)
Pas encore d'évaluation
RAM (Random Access Memory) : Les Mémoires Vives (RAM)
8 pages
Profil d'Agent Aéroportuaire Polyvalent
Pas encore d'évaluation
Profil d'Agent Aéroportuaire Polyvalent
1 page
Memoire Gabin&Freud (1) - 1
Pas encore d'évaluation
Memoire Gabin&Freud (1) - 1
48 pages
Cours AUDIT SI v0.3
Pas encore d'évaluation
Cours AUDIT SI v0.3
258 pages
Rapport Systeme D'iformation Logistique
Pas encore d'évaluation
Rapport Systeme D'iformation Logistique
12 pages
Josaphat
Pas encore d'évaluation
Josaphat
8 pages
BUT 1 Plan D'amphi
Pas encore d'évaluation
BUT 1 Plan D'amphi
7 pages
XML 2024
Pas encore d'évaluation
XML 2024
18 pages
Tech Apple 2025 Uhq
Pas encore d'évaluation
Tech Apple 2025 Uhq
19 pages
Représentation et Codage d'Images Numériques
Pas encore d'évaluation
Représentation et Codage d'Images Numériques
28 pages
CP Logirem - Application Mobile Logirem - Décembre2021 1
Pas encore d'évaluation
CP Logirem - Application Mobile Logirem - Décembre2021 1
2 pages
Évolution Historique de l'Ordinateur
Pas encore d'évaluation
Évolution Historique de l'Ordinateur
21 pages
Chapitre3 - ASD - Les Structures Itératives
Pas encore d'évaluation
Chapitre3 - ASD - Les Structures Itératives
11 pages
Plan de test fonctionnel logiciel IUT
Pas encore d'évaluation
Plan de test fonctionnel logiciel IUT
5 pages
Numérisation et Transmission
Pas encore d'évaluation
Numérisation et Transmission
6 pages
TEI S6 Voyageur 23 24
Pas encore d'évaluation
TEI S6 Voyageur 23 24
3 pages
At 4
Pas encore d'évaluation
At 4
3 pages
Télécharger 3 Documents À Télécharger
Pas encore d'évaluation
Télécharger 3 Documents À Télécharger
1 page
Ancienne Présentation HentaiFlix
Pas encore d'évaluation
Ancienne Présentation HentaiFlix
7 pages
Mode D'emploi GW Instek GDS-1202B (Français - 17 Des Pages)
Pas encore d'évaluation
Mode D'emploi GW Instek GDS-1202B (Français - 17 Des Pages)
8 pages
03-HTML-CSS-Mise en Page Du Site
Pas encore d'évaluation
03-HTML-CSS-Mise en Page Du Site
105 pages
Distribution Touristique: Fondamentaux et Stratégies
Pas encore d'évaluation
Distribution Touristique: Fondamentaux et Stratégies
42 pages
Exposé Sur Le Chipset
0% (1)
Exposé Sur Le Chipset
11 pages
Choisir des outils d'analyse BI adaptés
Pas encore d'évaluation
Choisir des outils d'analyse BI adaptés
28 pages
Institut L'Excellence: Enseignement Superieur Et Universitaire
Pas encore d'évaluation
Institut L'Excellence: Enseignement Superieur Et Universitaire
3 pages
Gestion des SGBD et Modélisation
Pas encore d'évaluation
Gestion des SGBD et Modélisation
4 pages