0% ont trouvé ce document utile (0 vote)
86 vues13 pages

Interprétation ACP et K-Means en TD2

Le document présente des exercices sur l'analyse en composantes principales (ACP), le regroupement hiérarchique et l'algorithme K-Means. Les élèves sont évalués sur leur performance dans différentes matières, et les résultats des analyses sont interprétés pour déterminer les corrélations et les regroupements. Les exercices incluent des calculs détaillés et des interprétations des résultats obtenus à partir des données fournies.

Transféré par

Imene Ben Salem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
86 vues13 pages

Interprétation ACP et K-Means en TD2

Le document présente des exercices sur l'analyse en composantes principales (ACP), le regroupement hiérarchique et l'algorithme K-Means. Les élèves sont évalués sur leur performance dans différentes matières, et les résultats des analyses sont interprétés pour déterminer les corrélations et les regroupements. Les exercices incluent des calculs détaillés et des interprétations des résultats obtenus à partir des données fournies.

Transféré par

Imene Ben Salem
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Corrigé de TD2

Exercice 1 : Interprétation ACP


Un échantillon contient 14 élèves d'une classe de lycée, chacun d'eux étant caractérisé par
sa note obtenue aux examens dans des matières telles que : philosophie, physique,
mathématiques, français, etc. Ils sont notés sur une échelle de 0 à 20, 20 étant la meilleure
note.

Après avoir calculé l'ACP, voici le cercle des corrélations ainsi que la projection des individus
sur le premier plan factoriel.

Seules 4 matières sont représentées sur le cercle. Par souci de simplicité, les matières non
représentées ne sont ni des matières littéraires ni des matières scientifiques.

Questions

1. Que représente l’axe F1 et l’axe F2 ?


Réponse
L'axe F1 mesure la performance dans les matières littéraires et F2 la performance dans
les matières scientifiques : les projections de Français et Philosophie sur F1 sont
grandes mais petites sur F2 ; c'est l'inverse pour Mathématiques et Physique.
2. En se basant sur les deux graphiques, cochez les propositions correctes
a. Marta est parmi les meilleurs élèves dans les matières scientifiques.
b. Marta est parmi les moins bons élèves dans les matières scientifiques.
c. Marta est parmi les moins bons élèves dans les matières littéraires.
d. Marta est parmi les meilleurs élèves dans les matières littéraires.
e. Max est parmi les meilleurs élèves dans les matières scientifiques.
f. Max est parmi les moins bons élèves dans les matières scientifiques.
g. Max est parmi les meilleurs élèves dans les matières littéraires.
h. Max est parmi les moins bons élèves dans les matières littéraires.
i. Malika est parmi les meilleurs élèves dans les 4 matières à la fois.

Réponse

Les réponses correctes sont :

 Marta est parmi les meilleurs élèves dans les matières scientifiques. (a)
 Marta est parmi les moins bons élèves dans les matières littéraires. (b)
 Max est parmi les moins bons élèves dans les matières scientifiques. (f)
 Max est parmi les meilleurs élèves dans les matières littéraires. (g)
 Malika est parmi les meilleurs élèves dans les 4 matières à la fois. (i)

Exercice 2 : Interprétation ACP


Soit à interpréter les deux graphes suivants:
Questions
1. Quelles sont les variables les plus corrélées à F1 et les variables les plus corrélées à
F2 ? Que représentent alors F1 et F2 ?
Réponse
Les variables les plus corrélées à F1 sont :
 la durée ;
 le nombre de chapitres (nbChapitres) ;
 le nombre d’évaluations du cours (nbEvaluations).
Elles sont corrélées positivement à F1, mais on a aussi la variable progression qui est
corrélée négativement à F1. Ce qui est intéressant ici, c’est d’interpréter l’axe F1. Ici,
il se trouve que toutes ces variables ont une notion qui les unit qui est la longueur du
cours.

Explications :
Intuitivement, on comprend que PLUS un cours est long, moins on le finit rapidement,
ou moins on a de chances de le finir, d’où la corrélation négative avec la variable
Progression.
Les variables plus corrélées à F2 sont :
 la difficulté (avec une corrélation négative) ;
 la moyenne de classe ;
 la proportion de quiz par rapport au nombre total d’évaluations.
On peut donc interpréter F2 comme la facilité du cours.

Explications :
C’est évident pour la variable difficulté, qui lui est anti-corrélée. C’est également
compréhensible pour la variable moyenne de classe : plus un cours est facile,
meilleures seront les notes des étudiants.
Pour le ratio quiz/évaluation : plus la proportion de quiz est importante, plus simple
est le cours !
2. Que peut-on déduire concernant la longueur et la difficulté de 4 cours représentés dans
le graphe d’individus ?
Réponse
Intitulé du cours Interprétation
Développez votre site web avec le Cours Long
framework Symfony
Découvrez les librairies Python pour la Un cours court
Data Science
Explorez vos données avec des Un cours difficile
algorithmes non supervisés
Apprenez à programmer en Python Cours long et difficile

Exercice 3 : Regroupement hiérarchique

Soit un ensemble de formes représentées par les points suivants dans un repère euclidien :
A(1,1), B(1,2), C(3,4), D(6,3), E(6,5)

Appliquer l’algorithme du regroupement hiérarchique en utilisant d’abord le saut minimal


(simple link), ensuite le diamètre maximal (complete link) comme distance entre les groupes.

Réponse

Méthode de Simple Link


Itération1
A(1,1) B(1,2) C(3,4) D(6,3) E(6,5)

A(1,1) 0

B(1,2) √1 = 1 0

C(3,4) √13 √8 0

D(6,3) √29 √26 √10 0

E(6,5) √41 √34 √10 √4 = 2 0

On regroupe A et B (la distance la plus faible =1)

Itération2

(A, B) C D E

(A, B) 0

C √8 0

D √26 √10 0

E √34 √10 √4 = 2 0
d((A,B), C) = min (d(A,C), d(B,C))

=min(√13 , √8 )

= √8

d((A,B), D) = min (d(A,D), d(B,D))

=min(√29 , √26 )

= √26

d((A,B), E) = min (d(A,E), d(B,E))

=min(√41 , √34 )

= √34

On regroupe D et E (la distance la plus faible =2)

Itération 3

(A, B) C (D, E)

(A, B) 0

C √8 0

(D, E) √26 √10 0

d((D,E), C) = min (d(D,C), d(E,C))

=min(√10 , √10 )

= √10

d((D,E), (A,B)) = min (d(D, (A,B)), d(E, (A,B)))

=min(√26 , √34 )

= √26
On regroupe (A, B) et C (la distance la plus faible =√𝟖 )

Itération 4

((A, B), C) (D, E)

((A, B),C) 0

(D, E) √10 0

d (((A,B), C), (D,E)) = min (d( (A,B), (D,E)), d(C, (D,E))

=min(√26 , √10 )

= √10

On regroupe ((A, B) ,C) et (D,E) (la distance la plus faible =√𝟖 )

Résultat final
Méthode de Complete Link
Itération1
A(1,1) B(1,2) C(3,4) D(6,3) E(6,5)

A(1,1) 0

B(1,2) √1 = 1 0

C(3,4) √13 √8 0

D(6,3) √29 √26 √10 0

E(6,5) √41 √34 √10 √4 = 2 0

On regroupe A et B (la distance la plus faible =1)

Itération2

(A, B) C D E

(A, B) 0

C √13 0

D √29 √10 0

E √41 √10 √4 = 2 0

d((A,B), C) = max (d(A,C), d(B,C))

=max(√13 , √8 )

= √13

d((A,B), D) = max (d(A,D), d(B,D))

=max(√29 , √26 )

= √29

d((A,B), E) = max (d(A,E), d(B,E))


=max(√41 , √34 )

= √41

On regroupe D et E (la distance la plus faible =2)

Itération 3

(A, B) C (D, E)

(A, B) 0

C √13 0

(D, E) √34 √10 0

d((D,E), C) = max (d(D,C), d(E,C))

=max(√10 , √10 )

= √10

d((D,E), (A,B)) = max (d(D, (A,B)), d(E, (A,B)))

=max(√26 , √34 )

= √34

On regroupe (D, E) et C (la distance la plus faible =√𝟏𝟎 )

Itération 4

(A, B) ((D, E), C)

(A, B) 0

((D, E), C) √10 0

d ((A,B), ( (D,E),C)) = max (d( (A,B), (D,E)), d( (A,B), C)

=max(√34 , √13 ) = √34


On regroupe ((A, B) et ((D,E), C) (la distance la plus faible =√𝟑𝟒 )

Résultat final

Exercice 4 : Algorithme K-Means

Soit l'ensemble D des entiers suivants : D= { 2, 5, 8, 10, 11, 17, 20 }. On veut répartir les
données de D en trois (3) clusters, en utilisant l'algorithme Kmeans. La distance d entre deux
nombres a et b est calculée ainsi : d(a , b) = |a - b|

Travail à faire :

1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement :


8, 10 et 11. Montrez toutes les étapes de calcul.

2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.

3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez


Réponse

1/ Appliquez Kmeans en choisissant comme centres initiaux des 3 clusters respectivement :


8, 10 et 11. Montrez toutes les étapes de calcul.

Iteration1

U1 =8 U2= 10 U3=11 Affecté A


2 6 8 9 G1
5 3 5 6 G1
8 0 2 3 G1
10 2 0 1 G2
11 3 1 0 G3
17 9 7 6 G3
20 12 10 9 G3
G1 ={2,5, 8}

G2 = {10}

G3 = {11,17,20}
Iteration2

On calcule les 3 centres

U1 = (2+5+8)/3 = 5

U2 =10

U3 = (11 + 17 +20)/3 = 16

U1 =5 U2= 10 U3=16 Affecté A


2 3 8 14 G1
5 0 5 11 G1
8 3 2 8 G2
10 5 0 6 G2
11 6 1 5 G2
17 12 7 1 G3
20 15 10 4 G3
G1 ={2,5}

G2 = {8,10, 11}

G3 = {17,20}
Iteration3

On calcule les 3 centres

U1 = (2+5)/2 = 2,5

U2 =(8 +10 + 11)/3 = 9,66

U3 = (17 +20)/2 = 18,5

U1 =2.5 U2= 9.66 U3=18.5 Affecté A


2 0.5 7.66 16.5 G1
5 2.5 4.66 13.5 G1
8 5.5 1.66 10.5 G2
10 7.5 0.33 8.5 G2
11 8.5 1.33 7.5 G2
17 14.5 7.33 1.5 G3
20 17.5 10.33 1.5 G3

Pas de changement dans l’affectation aux groupes, on arrête les itérations avec la dernière
configuration

2/ Donnez le résultat final et précisez le nombre d'itérations qui ont été nécessaires.

3 itérations ont été nécessaires pour avoir le résultat final.


3/ Peut-on avoir un nombre d'itérations inférieur pour ce problème ? Discutez

Oui si on choisit correctement les centres initiaux (exemple 1 au début, 1 au milieu et 1 à la


fin).

Exemple : Si on choisit, U1= 2 , U2= 10, U3 = 20

Itération 1

U1 =2 U2= 10 U3=20 Affecté A


2 0 8 18 G1
5 3 5 15 G1
8 6 2 12 G2
10 8 0 10 G2
11 9 1 9 G2
17 15 7 3 G3
20 18 10 0 G3
G1 ={2,5}

G2 = {8,10, 11}

G3 = {17,20}
Iteration2

U1 = (2+5)/2 = 2,5

U2 =(8 +10 + 11)/3 = 9,66

U3 = (17 +20)/2 = 18,5

U1 =2.5 U2= 9.66 U3=18.5 Affecté A


2 0.5 7.66 16.5 G1
5 2.5 4.66 13.5 G1
8 5.5 1.66 10.5 G2
10 7.5 0.33 8.5 G2
11 8.5 1.33 7.5 G2
17 14.5 7.33 1.5 G3
20 17.5 10.33 1.5 G3

Pas de changement dans l’affectation aux groupes, on arrête les itérations avec la dernière
configuration
Donc 2 itérations ont été suffisantes pour aboutir au même résultat, on peut conclure que le
résultat de la classification et le nombre des itérations dépendent du choix initial des
centres.

Vous aimerez peut-être aussi