0% ont trouvé ce document utile (0 vote)
46 vues10 pages

Analyse de données sur le fromage avec K-Means

Le document présente une analyse de données sur un jeu de données de fromages, comprenant 29 instances et 9 attributs. Il aborde les méthodes de K-Means et de classification ascendante hiérarchique (CAH), en utilisant des métriques telles que le score de silhouette et la méthode du coude pour évaluer la qualité des clusters. Enfin, il décrit l'implémentation de l'algorithme DIANA pour visualiser la structure hiérarchique des clusters à l'aide d'un dendrogramme.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues10 pages

Analyse de données sur le fromage avec K-Means

Le document présente une analyse de données sur un jeu de données de fromages, comprenant 29 instances et 9 attributs. Il aborde les méthodes de K-Means et de classification ascendante hiérarchique (CAH), en utilisant des métriques telles que le score de silhouette et la méthode du coude pour évaluer la qualité des clusters. Enfin, il décrit l'implémentation de l'algorithme DIANA pour visualiser la structure hiérarchique des clusters à l'aide d'un dendrogramme.

Transféré par

no one
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

COMPTE-RENDU
TP4

Realisé par :
Asma Elhadj
Olfa Medimegh
Ilef Chebil

GL4 Grp2

Annee universitaire: 2024/2025


I- Données du travail :
[Link]:
On dispose d’un jeu de données « [Link] » qui comprend 29 instances de fromage, représentées par 9
attributs (calories, sodium, calcium, lipides, retinol, folates, proteines, cholesterol et magnesium).

Code:
Matrice de distribution de données

La matrice de dispersion montre des graphiques de dispersion pour chaque


paire de variables les unes par rapport aux autres.

On peut observer comment différentes caractéristiques sont liées les unes aux
autres et identifier des schémas ou des corrélations potentielles.

Par exemple, on peut rechercher des regroupements de points, des relations


linéaires ou d'autres motifs dans les graphiques de dispersion.
II- K-Means:
Code:
Métrique Silhouette

Le score de silhouette mesure la séparation entre les clusters. Il varie de -1 à 1, où une


valeur élevée indique des clusters bien définis.

Les meilleures valeurs de K sont 3 et 5.

2 est mauvais car nous n'avons pas effectué de classification.

La distance intra-intercluster augmente lorsque les clusters sont très proches les uns des
autres, tandis qu'elle diminue lorsque les clusters sont éloignés.

Chaque fois que nous augmentons le nombre de clusters, la valeur de la silhouette peut
augmenter, mais cela ne signifie pas nécessairement que nous devons augmenter le
nombre de clusters.

Pour k=3, il peut y avoir des cas particuliers où nous avons seulement 2 classes, dans ce
cas, une validation par un expert est nécessaire pour effectuer l'analyse.
Métrique ELBOW/ Coude:

4 conflit distances : distance inter cluster devient plus importante

5 est meilleure mais il faut valider par un expert


III. Classification ascendante hiérarchique (CAH)
Code:
Remarques
Quand le dataset devient grand, l'Analyse en Composantes Principales (ACP) n'est plus
interprétable. Malgré le fait que K-means ne détecte pas les outliers, c'est l'une des méthodes
les plus utilisées. Le nettoyage pendant le prétraitement ainsi que l'utilisation de K-means ne
sont pas coûteux.

- Précision: choisir le point le plus proche du maximum, par exemple pour les domaines
médicaux ou de sécurité.
- Généralité: choisir le point le plus proche du minimum.
- Il est également possible de choisir la moyenne.

L'approche Ward minimise la variance intra-cluster (au sein d'un même cluster) et maximise la
distance inter-clusters (entre différents clusters).

La correspondance entre les groupes de la CAH et les clusters


de Kmeans

Les lignes représentent les groupes de la CAH, et les colonnes représentent les clusters
de K-Means.
Cette table montre combien d'individus appartiennent à chaque combinaison de groupe
CAH et cluster K-Means.
-------> Diana Implementation <---------
Code:
Resultat:

Explication et interprétation
Le code initialise une liste groups avec l'ensemble du jeu de données en tant que
premier groupe.
De manière itérative, il exécute l'algorithme DIANA (Divisive Analysis) :

1- Divise le groupe actuel en deux clusters en utilisant le regroupement K-Means.


2- Ajuste les indices pour la fusion des clusters en fonction de leurs tailles respectives.
3- Met à jour les informations de liaison, y compris les indices, la distance et la taille,
dans une liste appelée linkage.
4- Poursuit ce processus jusqu'à ce que tous les clusters aient une taille de 1.

Le dendrogramme représente visuellement la structure hiérarchique de


l'ensemble de données, montrant comment les échantillons sont regroupés en
clusters à différents niveaux.
Les clusters plus proches de la racine du dendrogramme représentent des
groupes plus importants, et à mesure que l'on descend, les clusters se divisent en
sous-ensembles plus petits et plus homogènes.
La distance entre les branches du dendrogramme représente la dissimilarité entre
les clusters, et le seuil de couleur aaide à identifier des groupes distincts.

Vous aimerez peut-être aussi