TD. Regroupement Des Données (Clustering) : Exercice 1

Le document présente des exercices sur le regroupement de données (clustering) en machine learning, incluant des techniques comme K-means et la classification hiérarchique. Il aborde également la standardisation des données et la minimisation des interactions lors de la prise de décision en entreprise. Enfin, il propose des problèmes pratiques pour illustrer ces concepts à travers des exemples concrets.

Transféré par

meziou.ferouk2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

144 vues3 pages

TD. Regroupement Des Données (Clustering) : Exercice 1

Transféré par

meziou.ferouk2

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning Dr.

Hanen Ameur

TD. Regroupement des données (Clustering)

Exercice 1
Soit les points A (2, 10) ; B (2,8) ; C (8,4) ; D (5,8) ; E (7,5) ; F (6,4) ; G (1,2) ; H (4,9)
1. Donner la répartition géométrique de ces points.
2. Quels sont les clusters qu’on peut identifier visuellement ?
3. En prenant comme centroïdes initiaux les points A B et C, appliquer l’algorithme
K-means pour regrouper les points en trois clusters (utiliser comme mesure de
similarité la distance de Manhattan).
4. Est-il possible de minimiser le nombre d’itérations par un autre choix des
centroïdes initiaux ? Justifier la réponse.
5. Regrouper les points en appliquant la classification hiérarchique ascendante et en
prenant comme linkage le linkage single et le linkage complet.
6. Tracer les dendrogrammes en python (vous pouvez utiliser ce bout de code
implémenter pour le linkage simple) :

from scipy.cluster.hierarchy import dendrogram, linkage

import matplotlib.pyplot as plt
import numpy as np
points = np.array([[2, 10], [2, 8], [8, 4], [5, 8], [7, 5], [6, 4], [1, 2], [4, 9]])
Z = linkage(points, method='single', metric='cityblock')
dendrogram(Z)
plt.title('Dendrogram CAH (Linkage Single)')
plt.xlabel('Points')
plt.ylabel('Distance de Manhattan')
plt.show()

7. Calculer l’inertie intra-classes de la classification hiérarchique, implémenter ceci

en python.
Exercice 2
Soit la liste suivante des employés avec leur ancienneté en années et salaire par unité
monétaire.

Employé E1 E2 E3 E4 E5

Ancienneté
2 3 5 6 10
(années)

Salaire (unité
2000 2100 3500 4100 10000
monétaire)

Hanen Ameur 1
1. Regrouper les individus en utilisant la classification hiérarchique ascendante et en
prenant comme mesure de similarité la distance euclidienne et comme linkage le
linkage single.
2. Donner le tableau des valeurs standardisées des variables.
NB : La standardisation consiste à transformer les données pour qu'elles aient
une moyenne de 0 et un écart type de 1 :
Formule :

3. Regrouper à nouveau les employés avec les valeurs standardisées en utilisant la

même technique en 1.
4. Comparer les résultats avant et après standardisation.
Exercice 3
Le conseil d’administration d’une entreprise a du mal à mettre d’accord ses membres sur
chaque nouveau projet d’investissement. Chaque projet possède plusieurs points de
discorde (p1 : emplacement, p2, durée, p3 : budget, p4 : nombre d’intervenants, etc.). Le
président-directeur général soumet une proposition contenant un choix par point.
Chaque membre peut être d’accord (OK) sur chaque point ou pas d’accord (NOK).
L’objectif de l’entreprise est de minimiser les interactions entre les membres (deux à deux
ou entre groupes) et d’accélérer la prise de décision. Elle met à leur disposition une fiche
sur laquelle ils peuvent mentionner leur avis sur chaque point. Sur la base de cette fiche,
on veut accélérer le processus de réunions selon le principe : plus on est d’accord sur
beaucoup de points, plus on va vite dans la réunion.
1. Reformuler le problème en un problème de clustering en identifiant les objets, les
variables, l’objectif du clustering et la mesure de similarité.
2. Quelle est la technique de clustering adéquate dans ce cas ? justifier la réponse.
3. Expliquer comment utiliser le résultat du clustering pour programmer les
réunions.
4. Illustrer par un exemple pour 05 points du projet (p1,…,p5) et 05 membres du
conseil d’administration (m1,…,m5) les itérations du clustering et l’ordre des
réunions.

Hanen Ameur 2
Hanen Ameur 3

Vous aimerez peut-être aussi

Chapitre 3
Pas encore d'évaluation
Chapitre 3
16 pages
Méthodes Dapprentissage Non Supervisées
Pas encore d'évaluation
Méthodes Dapprentissage Non Supervisées
65 pages
Datamining : Théorie, Pratique et Exercices
100% (2)
Datamining : Théorie, Pratique et Exercices
8 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
21 pages
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
Pas encore d'évaluation
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
43 pages
Chapitre 3 - App Et Classification Non Supervisé (Complet)
Pas encore d'évaluation
Chapitre 3 - App Et Classification Non Supervisé (Complet)
43 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Clustering et Analyse de Données en TD
100% (2)
Clustering et Analyse de Données en TD
1 page
TP3 IngSI
100% (1)
TP3 IngSI
5 pages
TP3 AD Rihab Benhassen MINDS
Pas encore d'évaluation
TP3 AD Rihab Benhassen MINDS
16 pages
Exercices Datamining Master1 - Inscae
Pas encore d'évaluation
Exercices Datamining Master1 - Inscae
7 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Datamining : Théorie et Pratique EFS S1
Pas encore d'évaluation
Datamining : Théorie et Pratique EFS S1
6 pages
Chap2 Clustering
Pas encore d'évaluation
Chap2 Clustering
56 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Concours Doctorat Informatique 2018-2019
100% (1)
Concours Doctorat Informatique 2018-2019
15 pages
Introduction à la Classification Statistique
Pas encore d'évaluation
Introduction à la Classification Statistique
51 pages
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
Pas encore d'évaluation
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
39 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Serie N2
Pas encore d'évaluation
Serie N2
2 pages
Classification Hiérarchique et Dendrogramme
Pas encore d'évaluation
Classification Hiérarchique et Dendrogramme
17 pages
Add Cha3 Fiche
Pas encore d'évaluation
Add Cha3 Fiche
1 page
Exam Modeles Pour Le Datamining 2015 2016 RattrapageCor
Pas encore d'évaluation
Exam Modeles Pour Le Datamining 2015 2016 RattrapageCor
5 pages
Output 5
Pas encore d'évaluation
Output 5
6 pages
Classification et mesures d'éloignement
100% (1)
Classification et mesures d'éloignement
63 pages
DM TD4
Pas encore d'évaluation
DM TD4
2 pages
INF1421-Corrige-Module6-V3 - Copie
Pas encore d'évaluation
INF1421-Corrige-Module6-V3 - Copie
4 pages
Data Mining: Exercice 1: Classification Ascendante Hiérarchique CAH (5pts) 1
100% (1)
Data Mining: Exercice 1: Classification Ascendante Hiérarchique CAH (5pts) 1
1 page
CR2 Théotime LAGUENS
Pas encore d'évaluation
CR2 Théotime LAGUENS
9 pages
Examenfda 2017
Pas encore d'évaluation
Examenfda 2017
6 pages
Méthodes de Clustering et Hiérarchies
Pas encore d'évaluation
Méthodes de Clustering et Hiérarchies
11 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Classification et Analyse de Données M1
Pas encore d'évaluation
Classification et Analyse de Données M1
9 pages
Divisif Python
Pas encore d'évaluation
Divisif Python
4 pages
Analyse de données pour étudiants
100% (2)
Analyse de données pour étudiants
10 pages
Cours 601
Pas encore d'évaluation
Cours 601
22 pages
Examen4GL I Correction
Pas encore d'évaluation
Examen4GL I Correction
1 page
Output 14
50% (2)
Output 14
5 pages
Algorithmes de Classification : K-Means et CAH
Pas encore d'évaluation
Algorithmes de Classification : K-Means et CAH
9 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
10 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
7 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Les Techniques de Data Mining (Version Etudiant)
Pas encore d'évaluation
Les Techniques de Data Mining (Version Etudiant)
32 pages
Chapitre 4 Méthodes de Classification Et Du Clustering
Pas encore d'évaluation
Chapitre 4 Méthodes de Classification Et Du Clustering
4 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Chapitre3 CAH
Pas encore d'évaluation
Chapitre3 CAH
7 pages
Examen Final
Pas encore d'évaluation
Examen Final
3 pages
TP1 Cah
Pas encore d'évaluation
TP1 Cah
10 pages
Clustering Hiérarchique : Méthodes et Résultats
Pas encore d'évaluation
Clustering Hiérarchique : Méthodes et Résultats
18 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Solution Exercice 03 Et 4 - Clustering
Pas encore d'évaluation
Solution Exercice 03 Et 4 - Clustering
4 pages
Correction - Examen AD 2021
Pas encore d'évaluation
Correction - Examen AD 2021
5 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Cours 601
Pas encore d'évaluation
Cours 601
18 pages
ApplicationsREparties GLSI3
Pas encore d'évaluation
ApplicationsREparties GLSI3
12 pages
Cours Blockchain
Pas encore d'évaluation
Cours Blockchain
20 pages
Sécurité Informatique Attaque Injection SQL
Pas encore d'évaluation
Sécurité Informatique Attaque Injection SQL
9 pages
Fouska
Pas encore d'évaluation
Fouska
1 page
Mémo S1 - S'adapter Aux Changements
Pas encore d'évaluation
Mémo S1 - S'adapter Aux Changements
3 pages
Gnassou 27
Pas encore d'évaluation
Gnassou 27
74 pages
Faq Pif Fip Warriors France Avril 2023
Pas encore d'évaluation
Faq Pif Fip Warriors France Avril 2023
49 pages
Validité et fiabilité des tests de langue
Pas encore d'évaluation
Validité et fiabilité des tests de langue
12 pages
1 Ere D
Pas encore d'évaluation
1 Ere D
2 pages
MBIA
Pas encore d'évaluation
MBIA
3 pages
Exam ASD Juin 2018 Corrigé
Pas encore d'évaluation
Exam ASD Juin 2018 Corrigé
6 pages
Facteurs Influençant La Stabilité Des Talus
Pas encore d'évaluation
Facteurs Influençant La Stabilité Des Talus
2 pages
Plan d'Europe-CR64 (1) - 241125 - 215536 - 241125 - 220406
Pas encore d'évaluation
Plan d'Europe-CR64 (1) - 241125 - 215536 - 241125 - 220406
6 pages
TP19 Capteur US Et Statistiques
Pas encore d'évaluation
TP19 Capteur US Et Statistiques
8 pages
Traité Du DEVOIR
Pas encore d'évaluation
Traité Du DEVOIR
2 pages
3-Jonction Neuromusculaire
Pas encore d'évaluation
3-Jonction Neuromusculaire
33 pages
R IV 1 Confortement Des Structures en Bois Lamellé Collé FR v01
100% (1)
R IV 1 Confortement Des Structures en Bois Lamellé Collé FR v01
8 pages
Raport
Pas encore d'évaluation
Raport
25 pages
Cours 1 Mouvement de Chute Verticale D'un Solide
Pas encore d'évaluation
Cours 1 Mouvement de Chute Verticale D'un Solide
4 pages
La Justice Constitutionnelle en RDC
Pas encore d'évaluation
La Justice Constitutionnelle en RDC
50 pages
Leadership Infirmier Et Collaboration
Pas encore d'évaluation
Leadership Infirmier Et Collaboration
3 pages
Le Premier Conflit Et L'origine Des Peuples
Pas encore d'évaluation
Le Premier Conflit Et L'origine Des Peuples
2 pages
U-STO - Parameter - Manual - V1.03 - Eng (FR)
Pas encore d'évaluation
U-STO - Parameter - Manual - V1.03 - Eng (FR)
39 pages
Quadrilatère Fiche1
Pas encore d'évaluation
Quadrilatère Fiche1
2 pages
Poolmanager Chlore
Pas encore d'évaluation
Poolmanager Chlore
64 pages
Programme Masterclass - Recherche Scientifique 2nd Edition
Pas encore d'évaluation
Programme Masterclass - Recherche Scientifique 2nd Edition
8 pages
TP Systèmes Temps Réel M2
Pas encore d'évaluation
TP Systèmes Temps Réel M2
12 pages
Construire une séquence vocabulaire CM2
Pas encore d'évaluation
Construire une séquence vocabulaire CM2
2 pages
(C6) Le Foie
Pas encore d'évaluation
(C6) Le Foie
10 pages
Cap 2 Retirer Des Informations D Une Observation
Pas encore d'évaluation
Cap 2 Retirer Des Informations D Une Observation
5 pages
QCM Dossier Financier
Pas encore d'évaluation
QCM Dossier Financier
3 pages
ECC Notice Concours Sur Licence Maroc 2023
Pas encore d'évaluation
ECC Notice Concours Sur Licence Maroc 2023
3 pages
Campagne Loup Solitaire Partie 4
Pas encore d'évaluation
Campagne Loup Solitaire Partie 4
14 pages
Didactique Du Fran Ais Inzegane 2017
Pas encore d'évaluation
Didactique Du Fran Ais Inzegane 2017
82 pages