Master2 Informatique : Intelligence Artificielle (IA)
Module : Fouille de données (FD) Année universitaire : 2021/2022
SERIE TD N°4
Questions de cours :
1. A quoi consiste le classement ?
2. Donner trois méthodes courantes du classement.
3. Quelle est la différence entre la méthode Kppv et celle du centroïde ?
4. A quoi consiste le clustering ?
5. Donner les plus importantes approches du clustering.
6. Quelle est la différence entre la méthode des K-means et celle des K-medoids ?
Exercice
Soit les données suivantes :
X1 X2 Y
7 7 Bad
7 4 Bad
3 4 Good
1 4 Good
Utiliser la méthode Kppv pour classer le nouveau élément : X1=3 et X2=7
(Prendre K=3 et utiliser la distance euclidienne).
Exercice
Standardiser les données suivantes en se basant sur l’écart absolu moyen et la mesure
standardisée (z-score).
taille poids
1 1,60 50
2 1,80 70
3 1,80 80
4 1,60 60
Calculer la distance euclidienne entre 1 et 2 basée sur :
a) Les données initiales.
b) Les données standardisées.
Exercice
En utilisant le principe de la distance entre Variables binaires et en prenant en
considération que l’attribut sexe est symétrique et que les autres attributs sont
asymétriques, déterminer les deux personnes les plus similaires (la distance n’est
mesurée que sur la base des attributs asymétriques)
Exercice
Considérons un ensemble de 8 points : A(1 , 3 ) ; B(2 , 2) ; C(2 , 3); D(2 , 4); E(4 , 2) ;
F(5 , 2) ; G(6 , 2) ; H(7 , 3) de l’espace euclidien de dimension 2. On choisit k=2,
c'est-à-dire on cherche à constituer deux groupes dans cet ensemble de 8 points. On
choisit les 2 centres initiaux, B et D. Appliquer l’algorithme des K-moyennes sur cet
exemple.
Exercice
On considère les données {a, b, c, d, e} avec la matrice de distance suivante :
a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
d 0 0.5
e 0
Appliquer l'algorithme de classification hiérarchique ascendante et construire le
dendrogramme avec la méthode du lien simple.