Data Mining
COMPTE-RENDU
TP4
Realisé par :
Asma Elhadj
Olfa Medimegh
Ilef Chebil
GL4 Grp2
Annee universitaire: 2024/2025
I- Données du travail :
[Link]:
On dispose d’un jeu de données « [Link] » qui comprend 29 instances de fromage, représentées par 9
attributs (calories, sodium, calcium, lipides, retinol, folates, proteines, cholesterol et magnesium).
Code:
Matrice de distribution de données
La matrice de dispersion montre des graphiques de dispersion pour chaque
paire de variables les unes par rapport aux autres.
On peut observer comment différentes caractéristiques sont liées les unes aux
autres et identifier des schémas ou des corrélations potentielles.
Par exemple, on peut rechercher des regroupements de points, des relations
linéaires ou d'autres motifs dans les graphiques de dispersion.
II- K-Means:
Code:
Métrique Silhouette
Le score de silhouette mesure la séparation entre les clusters. Il varie de -1 à 1, où une
valeur élevée indique des clusters bien définis.
Les meilleures valeurs de K sont 3 et 5.
2 est mauvais car nous n'avons pas effectué de classification.
La distance intra-intercluster augmente lorsque les clusters sont très proches les uns des
autres, tandis qu'elle diminue lorsque les clusters sont éloignés.
Chaque fois que nous augmentons le nombre de clusters, la valeur de la silhouette peut
augmenter, mais cela ne signifie pas nécessairement que nous devons augmenter le
nombre de clusters.
Pour k=3, il peut y avoir des cas particuliers où nous avons seulement 2 classes, dans ce
cas, une validation par un expert est nécessaire pour effectuer l'analyse.
Métrique ELBOW/ Coude:
4 conflit distances : distance inter cluster devient plus importante
5 est meilleure mais il faut valider par un expert
III. Classification ascendante hiérarchique (CAH)
Code:
Remarques
Quand le dataset devient grand, l'Analyse en Composantes Principales (ACP) n'est plus
interprétable. Malgré le fait que K-means ne détecte pas les outliers, c'est l'une des méthodes
les plus utilisées. Le nettoyage pendant le prétraitement ainsi que l'utilisation de K-means ne
sont pas coûteux.
- Précision: choisir le point le plus proche du maximum, par exemple pour les domaines
médicaux ou de sécurité.
- Généralité: choisir le point le plus proche du minimum.
- Il est également possible de choisir la moyenne.
L'approche Ward minimise la variance intra-cluster (au sein d'un même cluster) et maximise la
distance inter-clusters (entre différents clusters).
La correspondance entre les groupes de la CAH et les clusters
de Kmeans
Les lignes représentent les groupes de la CAH, et les colonnes représentent les clusters
de K-Means.
Cette table montre combien d'individus appartiennent à chaque combinaison de groupe
CAH et cluster K-Means.
-------> Diana Implementation <---------
Code:
Resultat:
Explication et interprétation
Le code initialise une liste groups avec l'ensemble du jeu de données en tant que
premier groupe.
De manière itérative, il exécute l'algorithme DIANA (Divisive Analysis) :
1- Divise le groupe actuel en deux clusters en utilisant le regroupement K-Means.
2- Ajuste les indices pour la fusion des clusters en fonction de leurs tailles respectives.
3- Met à jour les informations de liaison, y compris les indices, la distance et la taille,
dans une liste appelée linkage.
4- Poursuit ce processus jusqu'à ce que tous les clusters aient une taille de 1.
Le dendrogramme représente visuellement la structure hiérarchique de
l'ensemble de données, montrant comment les échantillons sont regroupés en
clusters à différents niveaux.
Les clusters plus proches de la racine du dendrogramme représentent des
groupes plus importants, et à mesure que l'on descend, les clusters se divisent en
sous-ensembles plus petits et plus homogènes.
La distance entre les branches du dendrogramme représente la dissimilarité entre
les clusters, et le seuil de couleur aaide à identifier des groupes distincts.