Module : Analyse et fouille de données
Responsable du Cours: Yosra Jarraya Auditoire: D-LBC BI
Enseignante TP: Yosra Jarraya A-U: 2024-2025
TP3 : Méthode de clustering : K-means
K-means :
C’est un algorithme de classification non supervisé, qui permet de classifier les données en des clusters
(groupes) selon leur similarité (ressemblance).
Exercice N° 1 :
1) Importer les données du fichier « Données » dans un DataFrame
2) Appliquer la méthode K-means sur ces données et chercher les centres pour 3 clusters puis
pour 4 clusters.
Pour ce faire, importer le module ‘’sklearn’’ pour appliquer le K-means clustering et le module
‘’matplotlib’’ pour créer les graphiques.
Exercice N° 2 :
1) Importer les données du fichier « Fromage » dans un DataFrame X
2) Effectuer une étape de normalisation des données en utilisant la méthode de normalisation du
Z-score. Construire Z, la matrice centrée réduite de X.
3) Appliquer sur Z la méthode K-means de la bibliothèque sklearn pour regrouper les individus en
4 clusters. Afficher les coordonnées de chaque centroïde et l’inertie associée.
4) Afficher les étiquettes des individus en sortie.
5) Evaluer la qualité des regroupements lorsque K varie entre 2 et 10 en se basant sur la méthode
de coude (Elbow Method). Déduire K optimal.