ACP : Slides de Cours 2023-2024
ACP : Slides de Cours 2023-2024
1/ 67
Slides de cours 1SN - 2023-2024
Bibliographie
Quelques références
I Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris,
1998.
I Gilbert Saporta, Probabilité, Analyse des Données et Statistique, Technip,
Paris, 2nd edition, 2006.
I Ian Jolliffe, Principal Component Analysis, Springer-Verlag, New-York, 2nd
edition, 2002.
I Vidéo François Husson,
https://www.youtube.com/watch?v=8qw0bNfK4H0
2/ 67
Slides de cours 1SN - 2023-2024
Tableau de données #1
Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris, 1998.
3/ 67
Slides de cours 1SN - 2023-2024
Tableau de données #2
4/ 67
Slides de cours 1SN - 2023-2024
Problèmes
5/ 67
Slides de cours 1SN - 2023-2024
Plan du cours
Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice
6/ 67
Slides de cours 1SN - 2023-2024
Outils existants
I en 1D : représentation axiale
I en 2D : nuage de points
I en 3D : plus difficile mais possibilité de tourner autour du nuage de points
(visualisation.m)
I en dimension supérieure ?
7/ 67
Slides de cours 1SN - 2023-2024
Tableau de données #2
9/ 67
Slides de cours 1SN - 2023-2024
Araignées
10/ 67
Slides de cours 1SN - 2023-2024
Joueurs de foot
11/ 67
Slides de cours 1SN - 2023-2024
12/ 67
Slides de cours 1SN - 2023-2024
13/ 67
Slides de cours 1SN - 2023-2024
Projections 2D du globe
15/ 67
Slides de cours 1SN - 2023-2024
Plan du cours
Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice
16/ 67
Slides de cours 1SN - 2023-2024
Tableau de données #1
Thierry Foucart, L’analyse des Données - Mode d’emploi, Eyrolles, Paris, 1998.
17/ 67
Slides de cours 1SN - 2023-2024
p
X
[x∗ (j) − y ∗ (j)]
2
d2 (x, y) =
j=1
x(j)−m(j)
où x∗ (j) = σ(j)
(données centrées réduites).
Dans la suite, on centre toujours les données (ne change pas la forme du nuage de points) et on
réduit parfois les données, ce qui revient à choisir M = Ip après normalisation.
18/ 67
Slides de cours 1SN - 2023-2024
Centrer
Il faut toujours centrer les données
I Ca ne change pas la forme du nuage de points
I Le nuage est translaté autour de sa valeur moyenne
Réduire
I Indispensable si les unités de mesure des variables sont différentes
I Optionnel si les unités de mesure des variables sont les mêmes
19/ 67
Slides de cours 1SN - 2023-2024
Propriété
P:n les solutions sont emboitées d’où J(u) = uT Σu, où u ∈ Rp et
1 T
Σ = n i=1 xi xi est la matrice de covariance des vecteurs x1 , ..., xn .
L(u) = uT Σ u − λ(uT u − 1)
20/ 67
Slides de cours 1SN - 2023-2024
I Inertie
λ
Pp j
j=1 λj
est l’inertie du jème axe.
I Composantes principales
Les q nouvelles variables sont appelées composantes principales.
21/ 67
Slides de cours 1SN - 2023-2024
Remarques
Rq 1 : Pour une seule contrainte g(x) = 0 (l = 1), G∗ est de rang 1 si et ssi ∇g(x∗ ) 6= 0.
Rq 2 : Les multiplicateurs de Lagrange λk peuvent être positifs ou négatifs
Rq 3 : Le résultat s’applique aussi à un problème de maximisation sous contraintes égalités
22/ 67
Slides de cours 1SN - 2023-2024
Problème P
min f (x) s.c. gk (x) ≥ 0, ∀k = 1, ..., l
x∈Rn
s.c. = sous les contraintes.
23/ 67
Slides de cours 1SN - 2023-2024
Problème P
max f (x) s.c. gk (x) ≥ 0, ∀k = 1, ..., l
x∈Rn
s.c. = sous les contraintes.
24/ 67
Slides de cours 1SN - 2023-2024
Exemple 1
25/ 67
Slides de cours 1SN - 2023-2024
27/ 67
Slides de cours 1SN - 2023-2024
28/ 67
Slides de cours 1SN - 2023-2024
29/ 67
Slides de cours 1SN - 2023-2024
30/ 67
Slides de cours 1SN - 2023-2024
31/ 67
Slides de cours 1SN - 2023-2024
Plan du cours
Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice
32/ 67
Slides de cours 1SN - 2023-2024
I ACP Normée
xi (j) − m (j)
vj0 (i) = √
nσ (j)
On a donc
x1 (j)−m(j)
√
σ(j) n
..
vj0 = avec kvj0 k = 1.
.
xn (j)−m(j)
√
σ(j) n
I Axes principaux
Si u est un vecteur propre unitaire de Σ = n1 X T X avec la valeur propre
Xu
λ, alors v = √ nλ
est un vecteur propre unitaire de n1 XX T .
En effet 1
n
XX T Xu = X(λu) et kXuk2 = uT X T Xu = nλuT u = nλ.
I Nombre d’axes principaux
Matrice de covariance de taille N × N avec p axes principaux (p valeurs
propres > 0 (non nulles))
33/ 67
Slides de cours 1SN - 2023-2024
34/ 67
Slides de cours 1SN - 2023-2024
35/ 67
Slides de cours 1SN - 2023-2024
Preuve
Si a est un vecteur propre de 1 XX T (matrice de l’ACP des variables) avec la valeur propre λ, alors 1 XX T a = λa, donc
n n
XT 1 XX T a = λX T a, donc X T a est un vecteur propre de 1 X T X avec la valeur propre λ. Comme
n n
T
kX T ak2 = aT XX T a = λn, le vecteur u = √1 X√ a est un vecteur propre unitaire de 1 X T X avec la valeur
λ n n
propre λ. Donc
T
v1 a
√n
r(v1 , a)
XT √
.
.
a = . =
. =
λu
√
.
n .
T
v a r(vp , a)
√p
n
36/ 67
Slides de cours 1SN - 2023-2024
Qualité de la projection
38/ 67
Slides de cours 1SN - 2023-2024
39/ 67
Slides de cours 1SN - 2023-2024
40/ 67
Slides de cours 1SN - 2023-2024
Plan du cours
Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice
41/ 67
Slides de cours 1SN - 2023-2024
Exemple 2
42/ 67
Slides de cours 1SN - 2023-2024
4 7
0 1
10 8
5 2
6 3
−1
−2
−3
−3 −2 −1 0 1 2 3
43/ 67
Slides de cours 1SN - 2023-2024
âge
0.5
note
poids
axe 1
0
taille
−0.5
−1
−1.5
−1.5 −1 −0.5 0 0.5 1 1.5
44/ 67
Slides de cours 1SN - 2023-2024
ACP simultanée
Représentation simultanée
3
9
âge
2
note
1
poids
4 7
0 1
10 8
5 2
6 3
−1
taille
−3
−3 −2 −1 0 1 2 3
45/ 67
Slides de cours 1SN - 2023-2024
Application à l’altimétrie
46/ 67
Slides de cours 1SN - 2023-2024
Classification
I Classe ω1 : océans
I Classe ω2 : déserts (Algérie, Lybie, Afrique du Sud)
I Classe ω3 : eaux et forêts (Amazonie, Canada, Congo, Russie)
I Classe ω4 : glaces (glace continentale arctique, glace continentale
Groenland, glace mer antarctique, glace mer arctique)
47/ 67
Slides de cours 1SN - 2023-2024
100
15
80
EauForet
Désert
60 10
40
5
20
0 0
20 40 60 80 100 20 40 60 80 100
30 25
25
20
20
Ocean
15
Glace
15
10
10
5 5
0 0
20 40 60 80 100 20 40 60 80 100
48/ 67
Slides de cours 1SN - 2023-2024
300 300
200 200
100 100
0 0
−100 −100
−200 −200
−300 −300
−400 −400
−600 −400 −200 0 −600 −400 −200 0
EauxForet Glace
300 300
200 200
100 100
0 0
−100 −100
−200 −200
−300 −300
−400 −400
−600 −400 −200 0 −600 −400 −200 0
49/ 67
Slides de cours 1SN - 2023-2024
Modèle de Brown
50/ 67
Slides de cours 1SN - 2023-2024
−1
−2
−3
−6 −4 −2 0 2 4 6
51/ 67
Slides de cours 1SN - 2023-2024
Plan du cours
Résumé
I Visualisation des données
I ACP des individus
I ACP des variables
I Exemples
I Exercice
52/ 67
Slides de cours 1SN - 2023-2024
8 individus et 3 variables
v1 v2 v3
x1 3 3 3
x2 4 4 1
x3 1 1 7
x4 2 2 5
x5 1 5 3
x6 0 4 5
x7 3 3 3
x8 2 2 5
53/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
Questions
I Déterminer le tableau centré Y associé à X.
I Déterminer la matrice de covariance de Y notée Σ.
I Déterminer les valeurs propres de la matrice Σ et les inerties associées. Combien d’axes
proposez vous de garder pour l’ACP ? Déterminer les vecteurs propres associés à ces axes en
s’assurant que la première composante de ces vecteurs est négative.
I ACP des individus
On donne le tableau suivant
I x1 x2 x3 x4 x5 x6 x7 x8
CP1 −1.225 1.225 −1.225 1.225 −1.225 1.225
CP2 −0.7071 −0.7071 −0.7071 −0.7071 2.1213 2.1213 −0.7071 −0.7071
CT1 4.167 4.167 4.167 4.167 4.167 4.167
C21 0.75 0.75 0.25 0.25 0.75 0.75
où I = “Individus”, CPi = “Projection de l’individu sur sur l’axe i”, CT1 =“Contribution
sur l’axe 1” et C21 = “Cosinus carré de la représentation sur l’axe 1”.
I Compléter les données manquantes de ce tableau
I Représenter l’ACP de ces 8 individus.
I Quels individus sont les mieux représentés sur l’axe 1 ?
54/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
Questions (suite)
I ACP des variables
I Déterminer les deux premiers axes factoriels de l’ACP des variables (avec les
données centrées non réduites). Déterminer ensuite les projections de la
première variable sur ces deux axes factoriels.
I Calculer la la contribution de la variable v1 à l’inertie de l’axe 1 (noté a1 ).
I Calculer la qualité de représentation de la variable v2 sur l’axe 2 (noté a2 ).
I L’ACP des variables de ce tableau de données centrées réduites est
représenté sur la figure ci-dessous. Pourquoi les projections des trois
variables sont-elles toutes situées sur le cercle unité ? Interpréter la
signification des deux axes principaux.
55/ 67
Slides de cours 1SN - 2023-2024
56/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
Réponses
I Les moyennes des variables sont v̄1 = 2, v̄2 = 3 et v̄3 = 4. Le tableau centré est donc
v1 v2 v3
y1 1 0 −1
y2 2 1 −3
y3 −1 −2 3
y4 0 −1 1
y5 −1 2 −1
y6 −2 1 1
y7 1 0 −1
y8 0 −1 1
3
−3
0
1 0 −1
2 2
3 3 0
Σ = 0 3 3
− = 0 1 −1
= Σ
2 2 2
2
−3 −3 3 −1 −1 2
2 2
I On préfère calculer les valeurs propres de Σ0 et les multiplier par 3 pour avoir celles de Σ. On doit alors résoudre
2
1−λ 0 −1
0 1−λ −1 = 0 ⇔ (1 − λ)λ(λ − 3) = 0.
−1 −1 1−λ
57/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
I Les valeurs propres de Σ sont donc µ1 = 9/2, µ2 = 3/2 et µ3 = 0. Les inerties associées sont 3/4, 1/4 et 0. On fera
donc une ACP avec les deux axes associés aux valeurs propres non triviales µ1 = 9/2 et µ2 = 3/2 qui contiennent 100%
de l’information. Des calculs simples permettent d’obtenir les trois vecteurs propres
√ √ √
−1/√6 −1/ −1/√3
√ 2
u1 = −1/ 6 , u2 = 1/ 2 , u3 = −1/ 3 .
√ √
2/ 6 0 −1/ 3
I Les composantes principales sont les projections des individus sur les vecteurs propres de l’ACP. Pour les vecteurs u2 et u3 , on a
√ √
2 −1/√ 2 1 −1 −1/
√ 2 1
T T
y2 u2 = 1 . 1/ 2 = − √ ≈ −0.7071, y3 u2 = −2 . 1/ 2 = − √ ≈ −0.7071
−3 0 2 3 0 2
√ √
2 −1/√6 −9 −1 −1/√6 9
T T
y2 u1 = 1 . −1/ 6 = √ ≈ −3.674, y3 u1 = −2 . −1/ 6 = √ ≈ 3.674
√ √
−3 2/ 6 6 3 2/ 6 6
Par ailleurs
F2 2
F21 (3.674)2
CT1 (2) = P 21 = = = CT1 (3) ≈ 37.5%
n F2 nµ1 8× 9
i=1 i1 2
et 2
T u )2 − √9
2 2 (y2 1 6 27
C1 (2) = C1 (3) = = = ≈ 0.964
ky2 k2 14 28
58/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
59/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
I D’après le cours, les vecteurs propres ai de l’ACP des variables peuvent s’obtenir à partir des vecteur propres ui de l’ACP des
Yu
individus à l’aide de la relation ai = √ i . En pratique, il suffit de calculer les vecteurs Y ui et de les normaliser. On
nµi
obtient alors (en s’assurant que la première composante est négative)
−1 −1
−3 −1
3 −1
1 1
1 −1
a1 = √ et a2 = √
−1 3
2 6
2 6
1 3
−1 −1
1 −1
I Les projections de toutes les variables (normalisées par √n mais pas réduites) sur l’axe factoriel k sont définies par
r(v1 , ak )
√
φk = r(v2 , ak ) = µk uk
r(vp , ak )
√
Les projections de la première variable (normalisée par n mais pas réduite) sur les deux axes factoriels sont donc
s s √ √ !
√ √ 9 −1 3 −1 3 3
( µ1 u11 , µ2 u21 ) = × √ , × √ = − ,− ≈ (−0.87, −0.87).
2 6 2 2 2 2
60/ 67
Slides de cours 1SN - 2023-2024
Exercice 1
r 2 (v1 , a1 ) µ1 u2
11 2 1
Pp = = u11 = .
r 2 (vk , a1 ) µ1 ku1 k2 6
k=1
r 2 (v2 , a2 ) µ2 u2 3 1
2
cos (θ) = = 22 = 2 × 2 = 1 .
kv2 k2 1 × 12 3 2
8 2
où on a pris soin de normaliser la variable v2 de manière à ce qu’elle soit sur l’hypersphère
0
1
−2
1 −1
v2 = √
2
8
1
0
−1
I Les projections des trois variables sont situées sur le cercle unité car la troisième valeur propre est nulle. Le plan constitué des
deux premiers axes principaux contient 100% de l’information. Le premier axe principal oppose la variable v3 aux deux autres
variables v1 et v2 . Le second axe principal oppose les variables v1 et v2 .
61/ 67
Slides de cours 1SN - 2023-2024
62/ 67
Slides de cours 1SN - 2023-2024
r2 (vk , as )
Qualité de représentation de la variable k sur l’axe s : Pp 2
k=1 r (vk , as )
0 λs u2sk
Contribution de la variable k sur l’axe s : cos2 (θks )=
kvk k2
63/ 67
Slides de cours 1SN - 2023-2024
X F
phi
kacp
kernel acp
64/ 67
Slides de cours 1SN - 2023-2024
I Laurens van der Maaten and Geoffrey Hinton, Vizualizing Data using
t-SNE, Journal of Machine Learning Research, vol. 9, pp. 2579-2605,
2008.
65/ 67
Slides de cours 1SN - 2023-2024
MNIST Dataset
66/ 67
Slides de cours 1SN - 2023-2024
67/ 67