Analyse de données sur le fromage avec K-Means

Le document présente une analyse de données sur un jeu de données de fromages, comprenant 29 instances et 9 attributs. Il aborde les méthodes de K-Means et de classification ascendante hiérarchique (CAH), en utilisant des métriques telles que le score de silhouette et la méthode du coude pour évaluer la qualité des clusters. Enfin, il décrit l'implémentation de l'algorithme DIANA pour visualiser la structure hiérarchique des clusters à l'aide d'un dendrogramme.

Transféré par

no one

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues10 pages

Analyse de données sur le fromage avec K-Means

Transféré par

no one

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

COMPTE-RENDU
TP4

Realisé par :
Asma Elhadj
Olfa Medimegh
Ilef Chebil

GL4 Grp2

Annee universitaire: 2024/2025

I- Données du travail :
[Link]:
On dispose d’un jeu de données « [Link] » qui comprend 29 instances de fromage, représentées par 9
attributs (calories, sodium, calcium, lipides, retinol, folates, proteines, cholesterol et magnesium).

Code:
Matrice de distribution de données

La matrice de dispersion montre des graphiques de dispersion pour chaque

paire de variables les unes par rapport aux autres.

On peut observer comment différentes caractéristiques sont liées les unes aux
autres et identifier des schémas ou des corrélations potentielles.

Par exemple, on peut rechercher des regroupements de points, des relations

linéaires ou d'autres motifs dans les graphiques de dispersion.
II- K-Means:
Code:
Métrique Silhouette

Le score de silhouette mesure la séparation entre les clusters. Il varie de -1 à 1, où une

valeur élevée indique des clusters bien définis.

Les meilleures valeurs de K sont 3 et 5.

2 est mauvais car nous n'avons pas effectué de classification.

La distance intra-intercluster augmente lorsque les clusters sont très proches les uns des
autres, tandis qu'elle diminue lorsque les clusters sont éloignés.

Chaque fois que nous augmentons le nombre de clusters, la valeur de la silhouette peut
augmenter, mais cela ne signifie pas nécessairement que nous devons augmenter le
nombre de clusters.

Pour k=3, il peut y avoir des cas particuliers où nous avons seulement 2 classes, dans ce
cas, une validation par un expert est nécessaire pour effectuer l'analyse.
Métrique ELBOW/ Coude:

4 conflit distances : distance inter cluster devient plus importante

5 est meilleure mais il faut valider par un expert

III. Classification ascendante hiérarchique (CAH)
Code:
Remarques
Quand le dataset devient grand, l'Analyse en Composantes Principales (ACP) n'est plus
interprétable. Malgré le fait que K-means ne détecte pas les outliers, c'est l'une des méthodes
les plus utilisées. Le nettoyage pendant le prétraitement ainsi que l'utilisation de K-means ne
sont pas coûteux.

- Précision: choisir le point le plus proche du maximum, par exemple pour les domaines
médicaux ou de sécurité.
- Généralité: choisir le point le plus proche du minimum.
- Il est également possible de choisir la moyenne.

L'approche Ward minimise la variance intra-cluster (au sein d'un même cluster) et maximise la
distance inter-clusters (entre différents clusters).

La correspondance entre les groupes de la CAH et les clusters

de Kmeans

Les lignes représentent les groupes de la CAH, et les colonnes représentent les clusters
de K-Means.
Cette table montre combien d'individus appartiennent à chaque combinaison de groupe
CAH et cluster K-Means.
-------> Diana Implementation <---------
Code:
Resultat:

Explication et interprétation
Le code initialise une liste groups avec l'ensemble du jeu de données en tant que
premier groupe.
De manière itérative, il exécute l'algorithme DIANA (Divisive Analysis) :

1- Divise le groupe actuel en deux clusters en utilisant le regroupement K-Means.

2- Ajuste les indices pour la fusion des clusters en fonction de leurs tailles respectives.
3- Met à jour les informations de liaison, y compris les indices, la distance et la taille,
dans une liste appelée linkage.
4- Poursuit ce processus jusqu'à ce que tous les clusters aient une taille de 1.

Le dendrogramme représente visuellement la structure hiérarchique de

l'ensemble de données, montrant comment les échantillons sont regroupés en
clusters à différents niveaux.
Les clusters plus proches de la racine du dendrogramme représentent des
groupes plus importants, et à mesure que l'on descend, les clusters se divisent en
sous-ensembles plus petits et plus homogènes.
La distance entre les branches du dendrogramme représente la dissimilarité entre
les clusters, et le seuil de couleur aaide à identifier des groupes distincts.

Vous aimerez peut-être aussi

Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
Pas encore d'évaluation
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
39 pages
Chapitre 3 - App Et Classification Non Supervisé (Complet)
Pas encore d'évaluation
Chapitre 3 - App Et Classification Non Supervisé (Complet)
43 pages
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
Pas encore d'évaluation
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
43 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
21 pages
Méthodes de Clustering et Classification
Pas encore d'évaluation
Méthodes de Clustering et Classification
107 pages
Méthodes de Classification : K-means, CHA, KNN
Pas encore d'évaluation
Méthodes de Classification : K-means, CHA, KNN
10 pages
Add Cha3 Fiche
Pas encore d'évaluation
Add Cha3 Fiche
1 page
Classification hiérarchique SPSS
Pas encore d'évaluation
Classification hiérarchique SPSS
25 pages
Cours 4 - CAH
Pas encore d'évaluation
Cours 4 - CAH
63 pages
Supplementaire Cluseing
Pas encore d'évaluation
Supplementaire Cluseing
7 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
16 pages
Classification et mesures d'éloignement
100% (1)
Classification et mesures d'éloignement
63 pages
Introduction à la Classification Statistique
Pas encore d'évaluation
Introduction à la Classification Statistique
51 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
22 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Clustering en apprentissage non supervisé
Pas encore d'évaluation
Clustering en apprentissage non supervisé
56 pages
Chapitre3 CAH
Pas encore d'évaluation
Chapitre3 CAH
7 pages
Cha4 CAH
Pas encore d'évaluation
Cha4 CAH
27 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
18 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Classification ascendante hiérarchique TP1
Pas encore d'évaluation
Classification ascendante hiérarchique TP1
10 pages
TP3 IngSI
100% (1)
TP3 IngSI
5 pages
Classico
Pas encore d'évaluation
Classico
6 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15
100% (2)
Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15
37 pages
Classification Ascendante Hiérarchique
Pas encore d'évaluation
Classification Ascendante Hiérarchique
6 pages
Méthodes de Clustering et Hiérarchies
Pas encore d'évaluation
Méthodes de Clustering et Hiérarchies
11 pages
Clustering
100% (1)
Clustering
114 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Clas Hiero
Pas encore d'évaluation
Clas Hiero
6 pages
Analyse des Données Multivariées 2021
Pas encore d'évaluation
Analyse des Données Multivariées 2021
66 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Clustering de Données Fromagères
Pas encore d'évaluation
Clustering de Données Fromagères
2 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Cah Ensea
Pas encore d'évaluation
Cah Ensea
62 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Méthodes de Classification Automatique
Pas encore d'évaluation
Méthodes de Classification Automatique
50 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Exercices Datamining Master1 - Inscae
Pas encore d'évaluation
Exercices Datamining Master1 - Inscae
7 pages
Classification Automatique
Pas encore d'évaluation
Classification Automatique
10 pages
Classification non supervisée : HAC et K-means
Pas encore d'évaluation
Classification non supervisée : HAC et K-means
9 pages
Les Techniques de Data Mining (Version Etudiant)
Pas encore d'évaluation
Les Techniques de Data Mining (Version Etudiant)
32 pages
Datamining Segmentationk Meanscah 160229202831
Pas encore d'évaluation
Datamining Segmentationk Meanscah 160229202831
31 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
Cours d'Analyse des Données en Informatique
Pas encore d'évaluation
Cours d'Analyse des Données en Informatique
5 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
Stats2 Chapitre5 Classification Etud
Pas encore d'évaluation
Stats2 Chapitre5 Classification Etud
26 pages
Rapport D' Étude Acp, Acf, Acm. Clistering
Pas encore d'évaluation
Rapport D' Étude Acp, Acf, Acm. Clistering
16 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Analyse PCA et Classification Hiérarchique
Pas encore d'évaluation
Analyse PCA et Classification Hiérarchique
49 pages
Cours 5 - CAH
Pas encore d'évaluation
Cours 5 - CAH
23 pages
Modèle Booléen
Pas encore d'évaluation
Modèle Booléen
23 pages
Chap1 Sonia
Pas encore d'évaluation
Chap1 Sonia
23 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Copie de FO-PFE-27 00 Convention de Stage D'été
Pas encore d'évaluation
Copie de FO-PFE-27 00 Convention de Stage D'été
3 pages
Alternatives à HDFS et S3 en Big Data
Pas encore d'évaluation
Alternatives à HDFS et S3 en Big Data
8 pages
DS BigData 2021
Pas encore d'évaluation
DS BigData 2021
2 pages
TD 2, Management Et Leadership Ch4, Rt4, Iia4, Gl4
Pas encore d'évaluation
TD 2, Management Et Leadership Ch4, Rt4, Iia4, Gl4
1 page
Big Data et Systèmes Embarqués en 2019
Pas encore d'évaluation
Big Data et Systèmes Embarqués en 2019
3 pages
Ds 7
Pas encore d'évaluation
Ds 7
3 pages
BD 1
Pas encore d'évaluation
BD 1
17 pages
CANON Setup Manual FR
Pas encore d'évaluation
CANON Setup Manual FR
130 pages
Sujet Corrige DSCG Ue5 2017 2
Pas encore d'évaluation
Sujet Corrige DSCG Ue5 2017 2
22 pages
Interfacage 0858809001316177433
Pas encore d'évaluation
Interfacage 0858809001316177433
7 pages
Le béton: clé du développement ivoirien
Pas encore d'évaluation
Le béton: clé du développement ivoirien
10 pages
Haythem Et Khalil
Pas encore d'évaluation
Haythem Et Khalil
15 pages
Aqa Classic
Pas encore d'évaluation
Aqa Classic
4 pages
Regles Realisation Branchement Collectif
Pas encore d'évaluation
Regles Realisation Branchement Collectif
15 pages
Exercices Fonctions de Deux Variables - Résultats
Pas encore d'évaluation
Exercices Fonctions de Deux Variables - Résultats
4 pages
Securite Logiciel
Pas encore d'évaluation
Securite Logiciel
28 pages
GRH de demain : défis et innovations
Pas encore d'évaluation
GRH de demain : défis et innovations
48 pages
Redresseurs : Convertisseurs AC-DC en GE
Pas encore d'évaluation
Redresseurs : Convertisseurs AC-DC en GE
13 pages
Fonctionnement et avantages de la pompe triplex
Pas encore d'évaluation
Fonctionnement et avantages de la pompe triplex
14 pages
IHEC-Notes recapitulatives-2LSG-BusinessModel-2021
Pas encore d'évaluation
IHEC-Notes recapitulatives-2LSG-BusinessModel-2021
4 pages
Expose
Pas encore d'évaluation
Expose
6 pages
Classement UPEC des Locaux en France
Pas encore d'évaluation
Classement UPEC des Locaux en France
5 pages
Al Specifications 202405
Pas encore d'évaluation
Al Specifications 202405
1 page
Avis de Recrutement Econome
Pas encore d'évaluation
Avis de Recrutement Econome
3 pages
Corrigé SGBD 2022-1
Pas encore d'évaluation
Corrigé SGBD 2022-1
3 pages
TD COMPRESSEUR e
Pas encore d'évaluation
TD COMPRESSEUR e
8 pages
Fiche Technique Drone DJI
Pas encore d'évaluation
Fiche Technique Drone DJI
3 pages
Cloud Computing en Francais
Pas encore d'évaluation
Cloud Computing en Francais
1 page
3-Cours VPN IPSEC
100% (1)
3-Cours VPN IPSEC
94 pages
M.A.I.2 L3 INFO Ass Don
Pas encore d'évaluation
M.A.I.2 L3 INFO Ass Don
82 pages
Gestion D'un Parking de Stationnement de Véhicules: Nbplibres
Pas encore d'évaluation
Gestion D'un Parking de Stationnement de Véhicules: Nbplibres
6 pages
PlanningExamenN° 5 Semestre 6-8 INFOTEL Avril 2025 OK
Pas encore d'évaluation
PlanningExamenN° 5 Semestre 6-8 INFOTEL Avril 2025 OK
1 page
Etude de cas-SI Walmart
Pas encore d'évaluation
Etude de cas-SI Walmart
2 pages
Cps Merja
Pas encore d'évaluation
Cps Merja
98 pages
Diagrammes de Cas d'Utilisation et MCD
Pas encore d'évaluation
Diagrammes de Cas d'Utilisation et MCD
21 pages
Statistiques à Deux Variables
Pas encore d'évaluation
Statistiques à Deux Variables
5 pages
La-D781p Bottom
Pas encore d'évaluation
La-D781p Bottom
1 page