Corrigé de TD2
Exercice 1 : Interprétation ACP
Un échantillon contient 14 élèves d'une classe de lycée, chacun d'eux étant caractérisé par
sa note obtenue aux examens dans des matières telles que : philosophie, physique,
mathématiques, français, etc. Ils sont notés sur une échelle de 0 à 20, 20 étant la meilleure
note.
Après avoir calculé l'ACP, voici le cercle des corrélations ainsi que la projection des individus
sur le premier plan factoriel.
Seules 4 matières sont représentées sur le cercle. Par souci de simplicité, les matières non
représentées ne sont ni des matières littéraires ni des matières scientifiques.
Questions
1. Que représente l’axe F1 et l’axe F2 ?
Réponse
L'axe F1 mesure la performance dans les matières littéraires et F2 la performance dans
les matières scientifiques : les projections de Français et Philosophie sur F1 sont
grandes mais petites sur F2 ; c'est l'inverse pour Mathématiques et Physique.
2. En se basant sur les deux graphiques, cochez les propositions correctes
a. Marta est parmi les meilleurs élèves dans les matières scientifiques.
b. Marta est parmi les moins bons élèves dans les matières scientifiques.
c. Marta est parmi les moins bons élèves dans les matières littéraires.
d. Marta est parmi les meilleurs élèves dans les matières littéraires.
e. Max est parmi les meilleurs élèves dans les matières scientifiques.
f. Max est parmi les moins bons élèves dans les matières scientifiques.
g. Max est parmi les meilleurs élèves dans les matières littéraires.
h. Max est parmi les moins bons élèves dans les matières littéraires.
i. Malika est parmi les meilleurs élèves dans les 4 matières à la fois.
Réponse
Les réponses correctes sont :
Marta est parmi les meilleurs élèves dans les matières scientifiques. (a)
Marta est parmi les moins bons élèves dans les matières littéraires. (b)
Max est parmi les moins bons élèves dans les matières scientifiques. (f)
Max est parmi les meilleurs élèves dans les matières littéraires. (g)
Malika est parmi les meilleurs élèves dans les 4 matières à la fois. (i)
Exercice 2 : Interprétation ACP
Soit à interpréter les deux graphes suivants:
Questions
1. Quelles sont les variables les plus corrélées à F1 et les variables les plus corrélées à
F2 ? Que représentent alors F1 et F2 ?
Réponse
Les variables les plus corrélées à F1 sont :
la durée ;
le nombre de chapitres (nbChapitres) ;
le nombre d’évaluations du cours (nbEvaluations).
Elles sont corrélées positivement à F1, mais on a aussi la variable progression qui est
corrélée négativement à F1. Ce qui est intéressant ici, c’est d’interpréter l’axe F1. Ici,
il se trouve que toutes ces variables ont une notion qui les unit qui est la longueur du
cours.
Explications :
Intuitivement, on comprend que PLUS un cours est long, moins on le finit rapidement,
ou moins on a de chances de le finir, d’où la corrélation négative avec la variable
Progression.
Les variables plus corrélées à F2 sont :
la difficulté (avec une corrélation négative) ;
la moyenne de classe ;
la proportion de quiz par rapport au nombre total d’évaluations.
On peut donc interpréter F2 comme la facilité du cours.
Explications :
C’est évident pour la variable difficulté, qui lui est anti-corrélée. C’est également
compréhensible pour la variable moyenne de classe : plus un cours est facile,
meilleures seront les notes des étudiants.
Pour le ratio quiz/évaluation : plus la proportion de quiz est importante, plus simple
est le cours !
2. Que peut-on déduire concernant la longueur et la difficulté de 4 cours représentés dans
le graphe d’individus ?
Réponse
Intitulé du cours Interprétation
Développez votre site web avec le Cours Long
framework Symfony
Découvrez les librairies Python pour la Un cours court
Data Science
Explorez vos données avec des Un cours difficile
algorithmes non supervisés
Apprenez à programmer en Python Cours long et difficile
Exercice 3 : Regroupement hiérarchique
Soit un ensemble de formes représentées par les points suivants dans un repère euclidien :
A(1,1), B(1,2), C(3,4), D(6,3), E(6,5)
Appliquer l’algorithme du regroupement hiérarchique en utilisant d’abord le saut minimal
(simple link), ensuite le diamètre maximal (complete link) comme distance entre les groupes.
Réponse
Méthode de Simple Link
Itération1
A(1,1) B(1,2) C(3,4) D(6,3) E(6,5)
A(1,1) 0
B(1,2) √1 = 1 0
C(3,4) √13 √8 0
D(6,3) √29 √26 √10 0
E(6,5) √41 √34 √10 √4 = 2 0
On regroupe A et B (la distance la plus faible =1)
Itération2
(A, B) C D E
(A, B) 0
C √8 0
D √26 √10 0
E √34 √10 √4 = 2 0
d((A,B), C) = min (d(A,C), d(B,C))
=min(√13 , √8 )
= √8
d((A,B), D) = min (d(A,D), d(B,D))
=min(√29 , √26 )
= √26
d((A,B), E) = min (d(A,E), d(B,E))
=min(√41 , √34 )
= √34
On regroupe D et E (la distance la plus faible =2)
Itération 3
(A, B) C (D, E)
(A, B) 0
C √8 0
(D, E) √26 √10 0
d((D,E), C) = min (d(D,C), d(E,C))
=min(√10 , √10 )
= √10
d((D,E), (A,B)) = min (d(D, (A,B)), d(E, (A,B)))
=min(√26 , √34 )
= √26
On regroupe (A, B) et C (la distance la plus faible =√𝟖 )
Itération 4
((A, B), C) (D, E)
((A, B),C) 0
(D, E) √10 0
d (((A,B), C), (D,E)) = min (d( (A,B), (D,E)), d(C, (D,E))
=min(√26 , √10 )
= √10
On regroupe ((A, B) ,C) et (D,E) (la distance la plus faible =√𝟖 )
Résultat final
Méthode de Complete Link
Itération1
A(1,1) B(1,2) C(3,4) D(6,3) E(6,5)
A(1,1) 0
B(1,2) √1 = 1 0
C(3,4) √13 √8 0
D(6,3) √29 √26 √10 0
E(6,5) √41 √34 √10 √4 = 2 0
On regroupe A et B (la distance la plus faible =1)
Itération2
(A, B) C D E
(A, B) 0
C √13 0
D √29 √10 0
E √41 √10 √4 = 2 0
d((A,B), C) = max (d(A,C), d(B,C))
=max(√13 , √8 )
= √13
d((A,B), D) = max (d(A,D), d(B,D))
=max(√29 , √26 )
= √29
d((A,B), E) = max (d(A,E), d(B,E))
=max(√41 , √34 )
= √41
On regroupe D et E (la distance la plus faible =2)
Itération 3
(A, B) C (D, E)
(A, B) 0
C √13 0
(D, E) √34 √10 0
d((D,E), C) = max (d(D,C), d(E,C))
=max(√10 , √10 )
= √10
d((D,E), (A,B)) = max (d(D, (A,B)), d(E, (A,B)))
=max(√26 , √34 )
= √34
On regroupe (D, E) et C (la distance la plus faible =√𝟏𝟎 )
Itération 4
(A, B) ((D, E), C)
(A, B) 0
((D, E), C) √10 0
d ((A,B), ( (D,E),C)) = max (d( (A,B), (D,E)), d( (A,B), C)
=max(√34 , √13 ) = √34
On regroupe ((A, B) et ((D,E), C) (la distance la plus faible =√𝟑𝟒 )
Résultat final
Exercice 4 : Algorithme K-Means
Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 17, 20 }. On veut répartir les
données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi : d(a , b) = |a - b|
Travail à faire :
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement :
8, 10 et 11. Montrez toutes les étapes de calcul.
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez
Réponse
1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement :
8, 10 et 11. Montrez toutes les étapes de calcul.
Iteration1
U1 =8 U2= 10 U3=11 Affecté A
2 6 8 9 G1
5 3 5 6 G1
8 0 2 3 G1
10 2 0 1 G2
11 3 1 0 G3
17 9 7 6 G3
20 12 10 9 G3
G1 ={2,5, 8}
G2 = {10}
G3 = {11,17,20}
Iteration2
On calcule les 3 centres
U1 = (2+5+8)/3 = 5
U2 =10
U3 = (11 + 17 +20)/3 = 16
U1 =5 U2= 10 U3=16 Affecté A
2 3 8 14 G1
5 0 5 11 G1
8 3 2 8 G2
10 5 0 6 G2
11 6 1 5 G2
17 12 7 1 G3
20 15 10 4 G3
G1 ={2,5}
G2 = {8,10, 11}
G3 = {17,20}
Iteration3
On calcule les 3 centres
U1 = (2+5)/2 = 2,5
U2 =(8 +10 + 11)/3 = 9,66
U3 = (17 +20)/2 = 18,5
U1 =2.5 U2= 9.66 U3=18.5 Affecté A
2 0.5 7.66 16.5 G1
5 2.5 4.66 13.5 G1
8 5.5 1.66 10.5 G2
10 7.5 0.33 8.5 G2
11 8.5 1.33 7.5 G2
17 14.5 7.33 1.5 G3
20 17.5 10.33 1.5 G3
Pas de changement dans l’affectation aux groupes, on arrête les itérations avec la dernière
configuration
2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.
3 itérations ont été nécessaires pour avoir le résultat final.
3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez
Oui si on choisit correctement les centres initiaux (exemple 1 au début, 1 au milieu et 1 à la
fin).
Exemple : Si on choisit, U1= 2 , U2= 10, U3 = 20
Itération 1
U1 =2 U2= 10 U3=20 Affecté A
2 0 8 18 G1
5 3 5 15 G1
8 6 2 12 G2
10 8 0 10 G2
11 9 1 9 G2
17 15 7 3 G3
20 18 10 0 G3
G1 ={2,5}
G2 = {8,10, 11}
G3 = {17,20}
Iteration2
U1 = (2+5)/2 = 2,5
U2 =(8 +10 + 11)/3 = 9,66
U3 = (17 +20)/2 = 18,5
U1 =2.5 U2= 9.66 U3=18.5 Affecté A
2 0.5 7.66 16.5 G1
5 2.5 4.66 13.5 G1
8 5.5 1.66 10.5 G2
10 7.5 0.33 8.5 G2
11 8.5 1.33 7.5 G2
17 14.5 7.33 1.5 G3
20 17.5 10.33 1.5 G3
Pas de changement dans l’affectation aux groupes, on arrête les itérations avec la dernière
configuration
Donc 2 itérations ont été suffisantes pour aboutir au même résultat, on peut conclure que le
résultat de la classification et le nombre des itérations dépendent du choix initial des
centres.