TD Apprentissage
Exercice 1 :
Supposons que l’on a un problème de classification qui consiste à déterminer la
classe d’appartenance de chacune des instances. Le domaine de valeurs des
classes possibles est : {1, 2, 3}.
Instance A1 A2 A3 A4 A5 Classe
X1 3 5 4 6 1 1
X2 4 6 10 3 2 2
X3 8 3 4 2 6 3
X4 2 1 4 3 6 3
X5 2 5 1 4 8 2
Selon la base de connaissance précédente, déterminez la classe de l’instance X6,
dont les valeurs pour les attributs A1 à A5 sont < 3, 12, 4, 7, 8 >, à l’aide de
l’algorithme des k-voisins les plus proches. Montrez tous les calculs et précisez
la distance utilisée.
Exercice 2 :
Pour faire des diagnostiques A, B ou C, des médecins se basent sur une analyse
morphologique des cellules bactériennes prélevées dans le sang de leurs
patients. Après avoir observé les douze échantillons suivants :
Numéro Maladie Nbr noyaux Nbr flagelles Coloration Paroi
1 A 1 1 Pâle Fine
2 A 2 1 Pâle Fine
3 A 1 1 Pâle Épaisse
4 A 1 1 Foncée Fine
5 A 1 1 Foncée Épaisse
6 B 2 2 Pâle Fine
7 B 2 2 Foncée Fine
8 B 2 2 Foncée Épaisse
9 C 2 1 Foncée Fine
10 C 2 1 Foncée Épaisse
11 C 1 2 Pâle Fine
12 C 1 2 Pâle Épaisse
Ils aimeraient construire l’arbre de décision le plus simple possible pour classer
leurs instances.
Montrez comment cet arbre peut être construit en appliquant l’algorithme
CART. Donnez uniquement les 2 premiers nœuds de cet arbre en indiquant tous
vos calculs.
On rappelle que la fonction de Gini est donnée par :
Exercice 3 :
On veut classifier en 3 groupes les 8 données qui figurent dans la matrice des
données ci-dessous à gauche. Une partie de la matrice de distances est
reproduite ci-dessous à droite.
On utilise l’algorithme
k-means initialisé sur les points A, C et D.
1. Donner les trois centres après la première itération.
2. Donner les trois groupes résultant de la classification (Représenter
graphiquement les données afin d’éviter les calculs).
Exercice 4 :
Il s’agit de déterminer les ressemblances entre seize (16) consonnes, telles
qu’elles sont perçues par l’oreille, ceci sans faire intervenir des connaissances
sur la similarité de leur forme, sur leur spectre de fréquence, etc.
Les données sont rassemblées au cours de séances d’expérimentation, où un
individu prononce une consonne, au hasard, dans un environnement vocalique
et le son émis est dégradé de différentes manières : en lui superposant un bruit,
en le faisant passer à travers un filtre de fréquence, etc. Des auditeurs notent le
son qu’ils perçoivent et confondent certaines consonnes.
Le tableau suivant donne la matrice de confusion des consonnes où chaque
nombre indique la fréquence avec laquelle une consonne a été prise pour une
autre. Ce nombre est appelé indice de confusion. Lorsque deux consonnes sont
proches, l’indice de confusion est élevé.
p
t 22
k 43 24
f 10 5 7
s 5 5 6 6
b 2 1 1 4 2
d 2 2 2 2 3 5
g 1 1 3 1 3 6 34
v 1 2 2 3 2 21 5 5
z 2 2 2 1 3 5 10 13 8
m 2 2 2 1 1 3 2 3 3 1
n 1 1 2 1 1 2 3 3 2 1 15
p t k f s b d g v z m
On voit, par exemple, que les consonnes b et d sont confondues dans 5% des
cas, et que b et v sont confondues dans 21% des cas.
On désire faire une classification par regroupement hiérarchique de consonnes
en reconnaissance de la parole.
1. Donner le dendrogramme correspondant aux données du tableau.
Préciser les calculs et les tableaux intermédiaires.
2. Sachant qu’on distingue 3 catégories de consonnes :
◦ Nasales : par exemple n
◦ Sourdes : par exemple s
◦ Sonores : par exemple d
Indiquer sur le dendrogramme à quel niveau on arrête le regroupement
et donner les consonnes appartenant à chaque une des 3 catégories.