0% ont trouvé ce document utile (0 vote)
31 vues67 pages

ACP : Slides de Cours 2023-2024

Les slides de cours portent sur l'Analyse en Composantes Principales (ACP) pour la première année SN à l'Université de Toulouse. Elles incluent des tableaux de données, des problèmes d'analyse, des méthodes de visualisation, et des étapes d'optimisation pour déterminer les axes principaux. Des références bibliographiques et des vidéos sont fournies pour approfondir le sujet.

Transféré par

besavaw740
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues67 pages

ACP : Slides de Cours 2023-2024

Les slides de cours portent sur l'Analyse en Composantes Principales (ACP) pour la première année SN à l'Université de Toulouse. Elles incluent des tableaux de données, des problèmes d'analyse, des méthodes de visualisation, et des étapes d'optimisation pour déterminer les axes principaux. Des références bibliographiques et des vidéos sont fournies pour approfondir le sujet.

Transféré par

besavaw740
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Slides de cours 1SN - 2023-2024

Analyse en Composantes Principales


Slides 1ère année SN

Jean-Yves Tourneret(1) et Axel Carlier(1)

(1) Université de Toulouse, ENSEEIHT-IRIT


[email protected], http://perso.tesa.prd.fr/jyt/, [email protected]

Année 2024 − 2025

1/ 67
Slides de cours 1SN - 2023-2024

Bibliographie

Quelques références
I Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris,
1998.
I Gilbert Saporta, Probabilité, Analyse des Données et Statistique, Technip,
Paris, 2nd edition, 2006.
I Ian Jolliffe, Principal Component Analysis, Springer-Verlag, New-York, 2nd
edition, 2002.
I Vidéo François Husson,
https://www.youtube.com/watch?v=8qw0bNfK4H0

2/ 67
Slides de cours 1SN - 2023-2024

Tableau de données #1

Poids, tailles, âges et notes (p = 4 variables) de n = 10 individus

Poids Taille Age Note Poids Taille Age Note


x1 45 1.50 13 14 x6 60 1.70 14 7
x2 50 1.60 13 16 x7 70 1.60 14 8
x3 50 1.65 13 15 x8 65 1.60 13 13
x4 60 1.70 15 9 x9 60 1.55 15 17
x5 60 1.70 14 10 x10 65 1.70 14 11

Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris, 1998.

3/ 67
Slides de cours 1SN - 2023-2024

Tableau de données #2

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

4/ 67
Slides de cours 1SN - 2023-2024

Problèmes

I Représentation et visualisation des données sous la forme de graphiques


simples
I Étude des individus
I Certains individus se ressemblent-ils ?
I Peut-on faire un bilan des ressemblances ?
I Comment construire des groupes d’individus ?
I Étude des variables
I Certaines variables se ressemblent-elles ?
I Certains variables sont-elles liées ?
I Quelles variables sont responsables des groupes d’individus ?

5/ 67
Slides de cours 1SN - 2023-2024

Plan du cours

Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice

6/ 67
Slides de cours 1SN - 2023-2024

Comment visualiser les données ?

Outils existants
I en 1D : représentation axiale
I en 2D : nuage de points
I en 3D : plus difficile mais possibilité de tourner autour du nuage de points
(visualisation.m)
I en dimension supérieure ?

7/ 67
Slides de cours 1SN - 2023-2024

Évolution de l’espérance de vie et du revenu en fonction du temps

Société Gapminder, https://www.gapminder.org


8/ 67
Slides de cours 1SN - 2023-2024

Tableau de données #2

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

9/ 67
Slides de cours 1SN - 2023-2024

Araignées

10/ 67
Slides de cours 1SN - 2023-2024

Joueurs de foot

11/ 67
Slides de cours 1SN - 2023-2024

Quelle est la meilleure projection?

12/ 67
Slides de cours 1SN - 2023-2024

Quelle est la meilleure projection?

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

13/ 67
Slides de cours 1SN - 2023-2024

Quelle est la meilleure projection?

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0


14/ 67
Slides de cours 1SN - 2023-2024

Projections 2D du globe

Projections de Mercator (conservation des angles) et de Arno Peters


(conservation des aires)

15/ 67
Slides de cours 1SN - 2023-2024

Plan du cours

Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice

16/ 67
Slides de cours 1SN - 2023-2024

Tableau de données #1

Poids, tailles, âges et notes de 10 individus

Poids Taille Age Note Poids Taille Age Note


x1 45 1.50 13 14 x6 60 1.70 14 7
x2 50 1.60 13 16 x7 70 1.60 14 8
x3 50 1.65 13 15 x8 65 1.60 13 13
x4 60 1.70 15 9 x9 60 1.55 15 17
x5 60 1.70 14 10 x10 65 1.70 14 11

Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris, 1998.

17/ 67
Slides de cours 1SN - 2023-2024

ACP des individus


Première étape : définition d’une norme
kxk2M = hx, xiM = xT M x
M matrice symétrique définie positive de taille p × p
I M = Ip
p
X
d2 (x, y) = [x (j) − y (j)]2
j=1
 
1 1
I M = diag σ12 , ..., σ 2
p

p
X
[x∗ (j) − y ∗ (j)]
2
d2 (x, y) =
j=1

x(j)−m(j)
où x∗ (j) = σ(j)
(données centrées réduites).

Dans la suite, on centre toujours les données (ne change pas la forme du nuage de points) et on
réduit parfois les données, ce qui revient à choisir M = Ip après normalisation.
18/ 67
Slides de cours 1SN - 2023-2024

Quand faut-il centrer et réduire les données ?

Centrer
Il faut toujours centrer les données
I Ca ne change pas la forme du nuage de points
I Le nuage est translaté autour de sa valeur moyenne

Réduire
I Indispensable si les unités de mesure des variables sont différentes
I Optionnel si les unités de mesure des variables sont les mêmes

19/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

On cherche un espace de dimension q qui résume au mieux les données.

Deuxième étape : optimisation


n n
1X 1X
Minimiser Iq = kxi − yi k2 ⇔ Maximiser Jq = kyi k2
n i=1 n i=1
où yi est la projection de xi dans l’espace de dimension q recherché.

Propriété
P:n les solutions sont emboitées d’où J(u) = uT Σu, où u ∈ Rp et
1 T
Σ = n i=1 xi xi est la matrice de covariance des vecteurs x1 , ..., xn .

I Détermination des axes principaux


Optimisation du Lagrangien

L(u) = uT Σ u − λ(uT u − 1)

20/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

Inertie et composantes principales


I Nombre d’axes principaux
Σ de taille p × p inversible =⇒ p axes principaux
I Choix du nombre de vecteurs
n
" Pq #
1X 2 j=1 λj
Iq = kxi k 1 − Pp
n i=1 j=1 λj

I Inertie

λ
Pp j
j=1 λj
est l’inertie du jème axe.
I Composantes principales
Les q nouvelles variables sont appelées composantes principales.

21/ 67
Slides de cours 1SN - 2023-2024

Optimisation sous contraintes égalités


Problème P
min f (x) s.c. gk (x) = 0, ∀k = 1, ..., l (s.c. = sous les contraintes).
x∈Rn

Conditions de Kuhn et Tucker


Si les fonctions f, g1 , ..., gl sont différentiables dans un voisinage de la solution x∗ et si la matrice
G∗ = [∇g1 (x∗ ), ..., ∇gl (x∗ ), ] est de rang maximal, des conditions nécessaires d’optimalité sont
∂L ∂L
= 0, ∀i = 1, ..., n et = 0, ∀k = 1, ..., l
∂xi ∂λk
où
l
X
L(x, λ) = f (x) − λk gk (x)
k=1
est le Lagrangien du problème P. Il suffit donc de résoudre ce système de n + l équations à n + l
inconnues pour déterminer les solutions potentielles du problème P.

Remarques
Rq 1 : Pour une seule contrainte g(x) = 0 (l = 1), G∗ est de rang 1 si et ssi ∇g(x∗ ) 6= 0.
Rq 2 : Les multiplicateurs de Lagrange λk peuvent être positifs ou négatifs
Rq 3 : Le résultat s’applique aussi à un problème de maximisation sous contraintes égalités
22/ 67
Slides de cours 1SN - 2023-2024

Minimisation sous contraintes inégalités

Problème P
min f (x) s.c. gk (x) ≥ 0, ∀k = 1, ..., l
x∈Rn
s.c. = sous les contraintes.

Conditions de Kuhn et Tucker


Conditions nécessaires d’optimalité
∂L ∂L
= 0, ∀i = 1, ..., n et = 0, ∀k = 1, ..., l
∂xi ∂λk
où
l
X
L(x, λ) = f (x) − λk gk (x), λk ≥ 0
k=1
est le Lagrangien du problème P.

23/ 67
Slides de cours 1SN - 2023-2024

Maximisation sous contraintes inégalités

Problème P
max f (x) s.c. gk (x) ≥ 0, ∀k = 1, ..., l
x∈Rn
s.c. = sous les contraintes.

Conditions de Kuhn et Tucker


Conditions nécessaires d’optimalité
∂L ∂L
= 0, ∀i = 1, ..., n et = 0, ∀k = 1, ..., l
∂xi ∂λk
où
l
X
L(x, λ) = f (x) + λk gk (x), λk ≥ 0
k=1
est le Lagrangien du problème P.

24/ 67
Slides de cours 1SN - 2023-2024

Exemple 1

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

25/ 67
Slides de cours 1SN - 2023-2024

ACP des individus (centrés et réduits)


Représentation 2D

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0


26/ 67
Slides de cours 1SN - 2023-2024

Cercle des corrélations


Définition

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

27/ 67
Slides de cours 1SN - 2023-2024

Cercle des corrélations


Exemple

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

28/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

Inerties des axes

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

29/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

Variables supplémentaires qualitatives liées à la région : NE, NO, SE, SO

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

30/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

Contribution de l’individu #i à la construction de l’axe s


F2 F2
Pn is 2 = is
F
i=1 is nλ s
Pn 2 Pn T 1 Pn
= i=1 (xi us ) = nus n i=1 xTi xi us = nuTs Σus = nλs
T 2

car i=1 Fis

Qualité de représentation de l’individu #i sur l’axe s


2
Fis
cos2 (θis ) =
kxi k2

31/ 67
Slides de cours 1SN - 2023-2024

Plan du cours

Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice

32/ 67
Slides de cours 1SN - 2023-2024

ACP des variables

I ACP Normée
xi (j) − m (j)
vj0 (i) = √
nσ (j)
On a donc
x1 (j)−m(j)
 

σ(j) n
..
vj0 =   avec kvj0 k = 1.
 
 . 
xn (j)−m(j)

σ(j) n

I Axes principaux
Si u est un vecteur propre unitaire de Σ = n1 X T X avec la valeur propre
Xu
λ, alors v = √ nλ
est un vecteur propre unitaire de n1 XX T .
En effet 1
n
XX T Xu = X(λu) et kXuk2 = uT X T Xu = nλuT u = nλ.
I Nombre d’axes principaux
Matrice de covariance de taille N × N avec p axes principaux (p valeurs
propres > 0 (non nulles))

33/ 67
Slides de cours 1SN - 2023-2024

ACP des variables

Cosinus entre deux projections


hvk0 , vj0 i
cos(vk0 , vj0 ) = = rjk
kvk0 kkvj0 k
où rjk est le coefficient de corrélation entre les variables vk0 et vj0 . Donc
I Si l’angle entre les projections vk0 et vj0 est proche de 0, on a
cos(vk0 , vj0 ) = 1 et donc les variables k et j sont très liées (positivement
corrélées)
I Si l’angle entre les projections vk0 et vj0 est proche de π2 , on a
cos(vk0 , vj0 ) = 0 et donc les variables k et j sont peu liées (décorrélées)
I Si l’angle entre les projections vk0 et vj0 est proche de π, on a
cos(vk0 , vj0 ) = −1 et donc les variables k et j sont très liées (négativement
corrélées)

34/ 67
Slides de cours 1SN - 2023-2024

ACP des variables


Contribution de la variable vk à la construction de l’axe as
r2 (vk , as )
Pp 2
k=1 r (vk , as )

Si φk est le vecteur contenant les corrélations entre les variables v1 , ..., vp et le


kème axe principal, alors on a
 
r(v1 , ak )
r(v2 , ak ) p
φk =   = λ k uk ,
 
..
 . 
r(vp , ak )

où uk est le vecteur propre de Σ avec la valeur propre λk .

Qualité de représentation de la variable vk sur l’axe as


0 r2 (vk , as ) λs u2sk
cos2 (θks )= = .
kvk k2 kvk k2

35/ 67
Slides de cours 1SN - 2023-2024

Projections des variables sur les axes de l’ACP


Énoncé

Si φk est le vecteur contenant les corrélations entre les variables v1 , ..., vp (normalisée par n)
et les p axes principaux, alors on a
 
r(v1 , ak )
 .  p
φk =  .  = λk uk ,
 . 
r(vp , ak )
où uk est le vecteur propre de Σ avec la valeur propre λk .

Preuve
Si a est un vecteur propre de 1 XX T (matrice de l’ACP des variables) avec la valeur propre λ, alors 1 XX T a = λa, donc
  n n
XT 1 XX T a = λX T a, donc X T a est un vecteur propre de 1 X T X avec la valeur propre λ. Comme
n  n
T

kX T ak2 = aT XX T a = λn, le vecteur u = √1 X√ a est un vecteur propre unitaire de 1 X T X avec la valeur
λ n n
propre λ. Donc
 T 
v1 a
 √n  
r(v1 , a)

   
XT √
 
 .  
.

a =  .  =  
.  =

λu


 . 
 
n  . 
 T 
v a r(vp , a)
√p
n

36/ 67
Slides de cours 1SN - 2023-2024

ACP des variables


ACP des variables = cercle des corrélations

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0


37/ 67
Slides de cours 1SN - 2023-2024

Qualité de la projection

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

38/ 67
Slides de cours 1SN - 2023-2024

ACP des variables

Variables supplémentaires quantitatives : latitude, longitude, température


moyenne, amplitude thermique

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

39/ 67
Slides de cours 1SN - 2023-2024

Vidéo François Husson, https://www.youtube.com/watch?v=8qw0bNfK4H0

40/ 67
Slides de cours 1SN - 2023-2024

Plan du cours

Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice

41/ 67
Slides de cours 1SN - 2023-2024

Exemple 2

Poids, taille, âge et note de 10 individus

Poids Taille Age Note Poids Taille Age Note


x1 45 1.50 13 14 x6 60 1.70 14 7
x2 50 1.60 13 16 x7 70 1.60 14 8
x3 50 1.65 13 15 x8 65 1.60 13 13
x4 60 1.70 15 9 x9 60 1.55 15 17
x5 60 1.70 14 10 x10 65 1.70 14 11

42/ 67
Slides de cours 1SN - 2023-2024

ACP des individus

Analyse en Composantes Principales : ACP des individus


3

4 7

0 1
10 8
5 2

6 3
−1

−2

−3
−3 −2 −1 0 1 2 3

43/ 67
Slides de cours 1SN - 2023-2024

ACP des variables

Analyse en Composantes Principales : ACP des variables (normée)


1.5
axe 2

âge
0.5
note
poids

axe 1
0

taille
−0.5

−1

−1.5
−1.5 −1 −0.5 0 0.5 1 1.5

44/ 67
Slides de cours 1SN - 2023-2024

ACP simultanée

Représentation simultanée
3

9
âge
2

note
1
poids

4 7

0 1
10 8
5 2

6 3
−1

taille

−2 axe 1 : −0.52117 −0.49639 −0.42948 0.54546

axe 2 : 0.2746 −0.50542 0.72706 0.37488

−3
−3 −2 −1 0 1 2 3

45/ 67
Slides de cours 1SN - 2023-2024

Application à l’altimétrie

46/ 67
Slides de cours 1SN - 2023-2024

Classification

I Classe ω1 : océans
I Classe ω2 : déserts (Algérie, Lybie, Afrique du Sud)
I Classe ω3 : eaux et forêts (Amazonie, Canada, Congo, Russie)
I Classe ω4 : glaces (glace continentale arctique, glace continentale
Groenland, glace mer antarctique, glace mer arctique)

47/ 67
Slides de cours 1SN - 2023-2024

Exemples de formes d’onde


120

100
15
80

EauForet
Désert

60 10

40
5
20

0 0
20 40 60 80 100 20 40 60 80 100

30 25

25
20
20
Ocean
15
Glace

15
10
10

5 5

0 0
20 40 60 80 100 20 40 60 80 100

48/ 67
Slides de cours 1SN - 2023-2024

ACP des individus


Ocean Desert

300 300
200 200
100 100
0 0
−100 −100
−200 −200
−300 −300
−400 −400
−600 −400 −200 0 −600 −400 −200 0

EauxForet Glace

300 300
200 200
100 100
0 0
−100 −100
−200 −200
−300 −300
−400 −400
−600 −400 −200 0 −600 −400 −200 0
49/ 67
Slides de cours 1SN - 2023-2024

Modèle de Brown

50/ 67
Slides de cours 1SN - 2023-2024

ACP des individus après extraction de paramètres


5
Ocean
Desert
4 EauForets
Glace

−1

−2

−3
−6 −4 −2 0 2 4 6

51/ 67
Slides de cours 1SN - 2023-2024

Plan du cours

Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice

52/ 67
Slides de cours 1SN - 2023-2024

Exercice 1 (inspiré d’un TD de l’université Paris Dauphine)

8 individus et 3 variables

v1 v2 v3
x1 3 3 3
x2 4 4 1
x3 1 1 7
x4 2 2 5
x5 1 5 3
x6 0 4 5
x7 3 3 3
x8 2 2 5

53/ 67
Slides de cours 1SN - 2023-2024

Exercice 1

Questions
I Déterminer le tableau centré Y associé à X.
I Déterminer la matrice de covariance de Y notée Σ.
I Déterminer les valeurs propres de la matrice Σ et les inerties associées. Combien d’axes
proposez vous de garder pour l’ACP ? Déterminer les vecteurs propres associés à ces axes en
s’assurant que la première composante de ces vecteurs est négative.
I ACP des individus
On donne le tableau suivant
I x1 x2 x3 x4 x5 x6 x7 x8
CP1 −1.225 1.225 −1.225 1.225 −1.225 1.225
CP2 −0.7071 −0.7071 −0.7071 −0.7071 2.1213 2.1213 −0.7071 −0.7071
CT1 4.167 4.167 4.167 4.167 4.167 4.167
C21 0.75 0.75 0.25 0.25 0.75 0.75

où I = “Individus”, CPi = “Projection de l’individu sur sur l’axe i”, CT1 =“Contribution
sur l’axe 1” et C21 = “Cosinus carré de la représentation sur l’axe 1”.
I Compléter les données manquantes de ce tableau
I Représenter l’ACP de ces 8 individus.
I Quels individus sont les mieux représentés sur l’axe 1 ?

54/ 67
Slides de cours 1SN - 2023-2024

Exercice 1

Questions (suite)
I ACP des variables

I Déterminer les deux premiers axes factoriels de l’ACP des variables (avec les
données centrées non réduites). Déterminer ensuite les projections de la
première variable sur ces deux axes factoriels.
I Calculer la la contribution de la variable v1 à l’inertie de l’axe 1 (noté a1 ).
I Calculer la qualité de représentation de la variable v2 sur l’axe 2 (noté a2 ).
I L’ACP des variables de ce tableau de données centrées réduites est
représenté sur la figure ci-dessous. Pourquoi les projections des trois
variables sont-elles toutes situées sur le cercle unité ? Interpréter la
signification des deux axes principaux.

55/ 67
Slides de cours 1SN - 2023-2024

ACP des variables

56/ 67
Slides de cours 1SN - 2023-2024

Exercice 1

Réponses
I Les moyennes des variables sont v̄1 = 2, v̄2 = 3 et v̄3 = 4. Le tableau centré est donc

v1 v2 v3
y1 1 0 −1
y2 2 1 −3
y3 −1 −2 3
y4 0 −1 1
y5 −1 2 −1
y6 −2 1 1
y7 1 0 −1
y8 0 −1 1

I La matrice de covariance de Y est Σ = 1 Y T Y . Des calculs élémentaires permettent d’obtenir


8

 3
−3

0 
1 0 −1

 2 2
3  3 0
Σ =  0 3 3
−  =  0 1 −1

 = Σ
 
 2 2 2

2
−3 −3 3 −1 −1 2
2 2

I On préfère calculer les valeurs propres de Σ0 et les multiplier par 3 pour avoir celles de Σ. On doit alors résoudre
2

1−λ 0 −1
0 1−λ −1 = 0 ⇔ (1 − λ)λ(λ − 3) = 0.
−1 −1 1−λ

57/ 67
Slides de cours 1SN - 2023-2024

Exercice 1
I Les valeurs propres de Σ sont donc µ1 = 9/2, µ2 = 3/2 et µ3 = 0. Les inerties associées sont 3/4, 1/4 et 0. On fera
donc une ACP avec les deux axes associés aux valeurs propres non triviales µ1 = 9/2 et µ2 = 3/2 qui contiennent 100%
de l’information. Des calculs simples permettent d’obtenir les trois vecteurs propres

 √   √   √ 
−1/√6 −1/ −1/√3
√ 2
u1 = −1/ 6 , u2 =  1/ 2  , u3 = −1/ 3 .
√ √
2/ 6 0 −1/ 3

I Les composantes principales sont les projections des individus sur les vecteurs propres de l’ACP. Pour les vecteurs u2 et u3 , on a

   √     √ 
2 −1/√ 2 1 −1 −1/
√ 2 1
T T
y2 u2 =  1  .  1/ 2  = − √ ≈ −0.7071, y3 u2 = −2 .  1/ 2  = − √ ≈ −0.7071
−3 0 2 3 0 2

   √     √ 
2 −1/√6 −9 −1 −1/√6 9
T T
y2 u1 =  1  . −1/ 6 = √ ≈ −3.674, y3 u1 = −2 . −1/ 6 = √ ≈ 3.674
√ √
−3 2/ 6 6 3 2/ 6 6

Par ailleurs
F2 2
F21 (3.674)2
CT1 (2) = P 21 = = = CT1 (3) ≈ 37.5%
n F2 nµ1 8× 9
i=1 i1 2
et  2
T u )2 − √9
2 2 (y2 1 6 27
C1 (2) = C1 (3) = = = ≈ 0.964
ky2 k2 14 28

Les individus x2 et x3 sont donc les mieux représentés sur l’axe 1.

58/ 67
Slides de cours 1SN - 2023-2024

Exercice 1

I L’ACP des 8 individus xi est représentée ci-dessous

59/ 67
Slides de cours 1SN - 2023-2024

Exercice 1
I D’après le cours, les vecteurs propres ai de l’ACP des variables peuvent s’obtenir à partir des vecteur propres ui de l’ACP des
Yu
individus à l’aide de la relation ai = √ i . En pratique, il suffit de calculer les vecteurs Y ui et de les normaliser. On
nµi
obtient alors (en s’assurant que la première composante est négative)

−1 −1
−3 −1
 3  −1
   
1  1 
 1 −1
 
a1 = √   et a2 = √
−1  3 
 
2 6 
  2 6
 1   3 
  
−1 −1
1 −1

I Les projections de toutes les variables (normalisées par √n mais pas réduites) sur l’axe factoriel k sont définies par
 
r(v1 , ak )

φk = r(v2 , ak ) = µk uk
r(vp , ak )


Les projections de la première variable (normalisée par n mais pas réduite) sur les deux axes factoriels sont donc

s s  √ √ !
√ √ 9 −1 3 −1 3 3
( µ1 u11 , µ2 u21 ) =  × √ , × √  = − ,− ≈ (−0.87, −0.87).
2 6 2 2 2 2

On remarquera que la calcul direct du produit scalaire entre v1 et a1 est


√ T √
(v1 / 8) a1 = √1 [(1)(−1) + (2)(−3) + ... + (0)(1)] = − 3 , ce qui est cohérent.
2 6×8 2

60/ 67
Slides de cours 1SN - 2023-2024

Exercice 1

I La contribution de la variable v1 à l’inertie de l’axe 1 est définie par

r 2 (v1 , a1 ) µ1 u2
11 2 1
Pp = = u11 = .
r 2 (vk , a1 ) µ1 ku1 k2 6
k=1

I La qualité de représentation de la variable v2 sur l’axe a2 est

r 2 (v2 , a2 ) µ2 u2 3 1
2
cos (θ) = = 22 = 2 × 2 = 1 .
kv2 k2 1 × 12 3 2
8 2

où on a pris soin de normaliser la variable v2 de manière à ce qu’elle soit sur l’hypersphère

 0 
 1 
−2
 
1 −1

v2 = √ 
2 

8 
 1 
 
 0 
−1

I Les projections des trois variables sont situées sur le cercle unité car la troisième valeur propre est nulle. Le plan constitué des
deux premiers axes principaux contient 100% de l’information. Le premier axe principal oppose la variable v3 aux deux autres
variables v1 et v2 . Le second axe principal oppose les variables v1 et v2 .

61/ 67
Slides de cours 1SN - 2023-2024

Que faut-il savoir ?

ACP des individus


I Déterminer les axes principaux et projeter les individus sur ces axes
principaux
I Déterminer le pouvoir de représentation (l’inertie) de chaque axe
I Représenter des individus supplémentaires
I Analyser la qualité de représentation et la contribution de chaque individu
2
Fis
Qualité de représentation de l’individu i sur l’axe s :
nλs
et
2
Fis
Contribution de individu i sur l’axe s :
kxi k2

62/ 67
Slides de cours 1SN - 2023-2024

Que faut-il savoir ?


ACP des variables
I Déterminer les axes principaux et projeter les variables sur ces axes
principaux
Xuk
kXuk k
et  
r(v1 , ak )
..  p
φk =   = λk uk

.
r(vp , ak )
I Représenter des variables supplémentaires
I Analyser la qualité de représentation et la contribution de chaque variable

r2 (vk , as )
Qualité de représentation de la variable k sur l’axe s : Pp 2
k=1 r (vk , as )

0 λs u2sk
Contribution de la variable k sur l’axe s : cos2 (θks )=
kvk k2
63/ 67
Slides de cours 1SN - 2023-2024

Pour aller plus loin


ACP à noyaux (Kernel PCA)
Plongement dans un nouvel espace de représentation à l’aide d’une application
non-linéaire
Φ : X −→ F
x 7−→ Φ(x)
On applique l’une des méthodes précédentes aux données transformées Φ(xi ).

X F
phi
kacp

kernel acp

I Bernhard Schölkopf, Alex Smola and Klaus Robert Müller, Nonlinear


Component Analysis as a Kernel Eigenvalue Problem, Neural computation,
vol. 10, no. 5, pp. 1299-1319, 1998.

64/ 67
Slides de cours 1SN - 2023-2024

t-SNE : une autre méthode de réduction de dimension

t-distributed stochastic neighbor embedding (t-SNE)


I Construction d’une loi de probabilité P1 pour les vecteurs (de grande
dimension) d’une base de données, de manière à ce que les objets
similaires aient une forte probabilité.
I Recherche d’une loi de probabilité P2 pour les projections de ces vecteurs
dans un espace de dimension réduite de manière à ce que P1 et P2 soient
proches.

I Laurens van der Maaten and Geoffrey Hinton, Vizualizing Data using
t-SNE, Journal of Machine Learning Research, vol. 9, pp. 2579-2605,
2008.

65/ 67
Slides de cours 1SN - 2023-2024

MNIST Dataset

66/ 67
Slides de cours 1SN - 2023-2024

tSNE of MNIST Dataset

67/ 67

Vous aimerez peut-être aussi