13/04/2020
Institut International de Technologie
Analyse des Données
Chapitre II: Analyse en Composantes
Principales (ACP)
Mme. Diala DHOUIB
Introduction
L’ACP est la plus ancienne des méthodes descriptives
multidimensionnelles appelées méthodes factorielles. D’ailleurs,
elle est souvent considérée comme la méthode de base.
Ces méthodes, apparues au début des
années 30, ont été surtout
développées en France dans les
années 60, notamment par Jean-Paul
Benzécri qui s’est beaucoup basé sur
les aspects géométriques et les
représentations graphiques.
Etant donné qu’il s’agit de méthodes descriptives, l’objectif est de
concevoir un modèle géométrique plutôt que probabiliste.
2
1
13/04/2020
Introduction
Contexte
Nombre important de variables et d’individus.
Des variables pas nécessairement de même nature.
Objectifs
Chercher à représenter graphiquement les relations entre individus
par l’évaluation de leurs ressemblances ainsi que les relations entre
variables par l’évaluation de leurs liaisons (identifier des groupes ).
Réduction des données
Difficulté de l’être humain de voir dans des espaces de dimension très
importantes,
Facilité pour des espaces de dimension très réduites (1 et 2 voire trois).
Introduction
Lorsqu’on projette les données sur un plan, on obtient un
graphique déformé de la réalité.
Le rôle de l’ACP est de trouver des espaces de dimensions plus
petites minimisant ces déformations.
Quelle est l’image qui restitue au mieux la forme de mon
nuage dans l’espace global?
4
2
13/04/2020
Introduction
Lorsqu’on projette les données sur un plan, on obtient un
graphique déformé de la réalité.
Le rôle de l’ACP est de trouver des espaces de dimensions plus
petites minimisant ces déformations.
Comment trouver la meilleure
image approchée du nuage?
Trouver l’axe qui
déforme le moins
possible l’image.
Trouver le meilleur plan.
On peut chercher un troisième axe, etc.
5
Introduction
L’ACP consiste à projeter le nuage des individus de dimensions p
sur un sous espace de dimension k<p de telle sorte qu’on déforme
le moins possible le nuage initial en projection.
En pratique, les mesures des variables révèlent une différence
d’échelle ou de grandeur. Il faut donc normaliser ces variables afin
de les rendre comparables. En général, on standardise les variables
en les rendant centrées et réduites:
Centrer les données ne modifie pas la forme du nuage.
Réduire les données est indispensable si les unités de mesure sont
différentes d’une variable à l’autre.
3
13/04/2020
Introduction
L’ACP vise à fournir une image simplifiée du nuage la plus fidèle
possible.
Trouver le sous espace qui résume le mieux les
données.
Quelle est la proposition qui restitue aux mieux le nuage
dans son ensemble?
7
Introduction
Dans la troisième proposition, les points sont bien séparés. On a
bien l’impression de mieux voir les distances entre individus.
Séparer les points revient à augmenter la dispersion
(la variabilité) des points.
Qualité d’une image:
Restitue fidèlement la forme générale du nuage.
Meilleure représentation de la diversité.
Ne perturbe pas les distances entre les individus.
Comment quantifier la qualité d’une image?
Notion de dispersion ou Inertie.
8
4
13/04/2020
Introduction
L’ACP suit quatre étapes à savoir:
1. Analyse de l’inertie
2. Détermination des axes factoriels
3. Recherche du meilleur sous espace Fk de dimension k<p
4. Interprétation du nuage des points projetés
Chacune de ces quatre étapes fera l’objet d’une section.
Plan
Section 1. Analyse de l’inertie
Section 2. Détermination des axes factoriels
Section 3. Recherche du meilleur sous espace Fk
de dimension k<p.
Section 4. Interprétation du nuage des points
projetés
10
5
13/04/2020
Section 1. Analyse de l’inertie
1.1. Théorème de Pythagore
1.2. Inertie par rapport à une droite
11
1.1. Théorème de Pythagore
Supposons qu’on travaille avec g1 0
des données centrées réduites alors
g2 0
le centre de gravité g du nuage g =o= =
⋮ ⋮
des individus est confondu avec l’origine.
g p 0
Considérons la droite ∆u1 qui doit passer obligatoirement par l’origine
g = o. Si pi = 1/n ∀ i = 1,…,n alors:
n n n
1 2 1 2 1
∑
i=1 n
d ( xi , o) = ∑
i=1 n
d ( x i , hi ) + ∑ n d ( h , o)
i=1
2
i
Inertie totale du nuage Inertie résiduelle Inertie expliquée
Ig = Io(constante) (à minimiser) (à maximiser)
12
6
13/04/2020
Section 1. Analyse de l’inertie
1.1. Théorème de Pythagore
1.2. Inertie par rapport à une droite
13
1.2. Inertie par rapport à une droite
xi u 1 est le vecteur directeur de la droite ∆u1
u1 ∈ ℝ p
∆u
C i1 est la projection orthogonale du
1
1
C i ième individu sur la droite ∆ u 1
g=0
Par définition, C i1 = M ( x i ; u 1 ) = x i' M u 1
xn
xi
La projection de tous les individus
x2
sera donnée par le vecteur:
x1
Cn1
∆u
1 C 1 = X M u1 ∈ ℝ n
Ci1
C21
C11
C1 est le vecteur qui donne les composantes des n
g=0
individus sur la droite ∆u . 1 14
7
13/04/2020
3.1. Inertie par rapport à une droite
L’inertie par rapport à une droite est égale à la somme pondérée des
coordonnées des projections des points du nuage sur cette droite.
n 2
I ∆
u1
= ∑
i=1
pi (C )1
i
n 2
I ∆
u1
= ∑
i =1
pi (C )1
i = C 1′ D C 1 = ( X M u ) 'D ( X M u )
1 1
= u 1 'M X ' D X M u 1 = u 1′ M V M u 1
V
I ∆
= u 1′ M V M u 1
u1
La dispersion du nuage projeté dépend du choix de son vecteur directeur u1 .
On a intérêt à avoir la dispersion la plus grande autour de la droite. 15
Plan
Section 1. Analyse de l’inertie
Section 2. Détermination des axes factoriels
Section 3. Recherche du meilleur sous espace Fk
de dimension k<p.
Section 4. Interprétation du nuage des points
projetés
16
8
13/04/2020
Section 2. Détermination des axes factoriels
2.1. Détermination du premier axe factoriel
2.2. Détermination de la deuxième droite
2.3. Propriétés des composantes principales
17
2.1. Détermination du premier axe factoriel
Pour que la projection du nuage sur le premier axe factoriel puisse
déformer le moins possible l’ensemble des distances entre les points
du nuage, on montre que cet axe doit être défini en recherchant le
vecteur u1 (de norme unitaire) qui engendre la droite, passant par le
centre de gravité du nuage, sur laquelle l’inertie expliquée des points
du nuage est maximale. Le premier axe factoriel correspond à la
principale direction d’allongement du nuage.
Chercher ∆ u revient à trouver son vecteur directeur u1 tel que:
1
I ∆
= u 1′ M V M u 1 soit maximum avec la contrainte normée:
u1
u1 M
= u1′ M u1 = 1
18
18
9
13/04/2020
2.1. Détermination du premier axe factoriel
La méthode des multiplicateurs de Lagrange peut être utilisée:
M ax I = u 1′ M V M u 1 Solution
∆
u1
S /c V M u1 = λ1 u1
u 1′ M u 1 = 1
u1 est le vecteur propre associé à la plus grande valeur propre λ1de la
matrice VM.
I ∆
= u 1′ M V M u 1 = u 1′ M λ 1 u 1 = λ 1 u 1′ M u 1 = λ 1
u1
λ1 u 1 1
I ∆
= λ1
u1
19
2.1. Détermination du premier axe factoriel
Le choix du 1er axe factoriel renvoie à un travail de diagonalisation
de la matrice VM.
Une fois la matrice VM est diagonalisée, on prend la plus grande
valeur propre λ1 . Cette valeur propre est l’inertie expliquée par
le premier axe ∆ u1 .
On cherche u1 qui vérifie: VMu1 = λ1 u1
Le vecteur u1 de VM associé à la plus grande valeur propre λ1
engendre une 1ère droite appelée 1er axe principal.
ère
C 1 = X M u1 ∈ℝ n est appelé 1 composante principale . Ce
vecteur donne la projection de tous les individus sur le 1er axe
principal ∆ u .
1
1
C est une combinaison linéaire des p variables initiales.
i
20
10
13/04/2020
Section 2. Détermination des axes factoriels
2.1. Détermination du premier axe factoriel
2.2. Détermination de la deuxième droite
2.3. Propriétés des composantes principales
21
2.2. Détermination de la deuxième droite
On recherche ensuite un deuxième axe orthogonal au premier:
M ax I ∆
= u 2′ M V M u 2
u2
S /c
u 2′ M u 2 = 1
u 1′ M u 2 = 0
La 2ème contrainte exprime que le 2ème axe doit être orthogonal au
premier et donc que le produit scalaire des deux vecteurs
directeurs est nul.
22
11
13/04/2020
2.2. Détermination de la deuxième droite
En appliquant la méthode des multiplicateurs de Lagrange, cette fois
avec deux contraintes, on trouve que u2 est le vecteur propre de la
matrice variance covariance VM correspondant à la deuxième plus
grande valeur propre.
I ∆
= u 2′ M V M u 2 = λ 2
u2
λ2 u2
La valeur propre λ 2 est la deuxième plus grande valeur propre
de la matrice variance-covariance. Cette valeur propre est égale à
l’inertie expliquée par le deuxième axe ∆ u . 2
23
Section 2. Détermination des axes factoriels
2.1. Détermination du premier axe factoriel
2.2. Détermination de la deuxième droite
2.3. Propriétés des composantes principales
24
12
13/04/2020
2.3. Propriétés des composantes principales
On peut rechercher de nouveaux axes en suivant la même procédure.
Les nouveaux axes sont tous des vecteurs propres de VM
correspondants aux valeurs propres ordonnées. La matrice VM étant
une matrice symétrique réelle, elles possède p vecteurs propres réels,
formant une base orthogonale de . ℝp
∆1 ⊥ ∆ 2 ⊥ .........∆ p
u1 ⊥ u2 ⊥ ..........u p
λ ≥ λ ≥ ........ ≥ λ
1 2 P
Ces nouveaux axes appelés composantes principales possèdent
certaines propriétés à savoir:
25
2.3. Propriétés des composantes principales
Propriété 1
Si les variables sont centrées alors les composantes principales le sont
aussi puisqu’elles sont des combinaisons linéaires de ces variables.
Propriété 2
( )
Var C k = λk
Propriété 3
Les composantes principales sont non corrélées entre elles.
( '
Cov C k , C k = 0 )
26
13
13/04/2020
Plan
Section 1. Analyse de l’inertie
Section 2. Détermination des axes factoriels
Section 3. Recherche du meilleur sous espace Fk
de dimension k<p.
Section 4. Interprétation du nuage des points
projetés
27
Section 3. Recherche du meilleur sous espace
principal Fk de dimension k<p
Le but de l’ACP étant d’obtenir une représentation des individus
dans un espace de dimension plus faible que p, la question qui se
pose est d’apprécier la perte d’information subie et de savoir
combien de facteurs à retenir.
Le pourcentage d’information récupérée ou recueillie par un sous
espace Fk est donnée par la formule suivante:
λ1 + λ2 + ... + λk λ1 + λ2 + ... + λk
Wk = = <1
Tr (VM ) p
Wk est le pourcentage d’inertie totale expliquée par le sous
espace Fk .
Wk mesure la qualité globale de la représentation dans le sous
espace Fk.
28
14
13/04/2020
Section 3. Recherche du meilleur sous espace
principal Fk de dimension k<p
Reprenons l’exemple du 1er chapitre.
Matrice de corrélation VM
Math Phys Fran Angl Musique
Math 1 0,9825 0,2267 0,4905 0,0112
Phys 0,9825 1 0,3967 0,6340 0,0063
Fran 0,2267 0,3967 1 0,9561 0,0380
Angl 0,4905 0,6340 0,9561 1 0,0886
Musique 0,0112 0,0063 0,0380 0,0886 1
29
Section 3. Recherche du meilleur sous espace
principal Fk de dimension k<p
Après diagonalisation de la matrice VM on obtient:
p Val. Propre % Total variance Cumul Val. % Cumul (Wp)
(λp) (wp) propre
1 2,8618 57,24 2,8618 57,24
2 1,1507 23,01 4,0125 80,25
3 0,9831 19,66 4,9956 99,91
4 0,0039 0,08 4,9995 99,99
5 0,0004 0,01 5 100,00
Wk tend vers 1 signifie que la qualité de projection globale est bonne.
Wk tend vers 0 signifie que la qualité de projection globale est
mauvaise. Dans ce cas, il faut augmenter la dimension de sous espace Fk.
Combien d’axes va-t-on retenir? 30
15
13/04/2020
Section 3. Recherche du meilleur sous espace
principal Fk de dimension k<p
Critères de choix des axes principaux
a) Pourcentage d’inertie souhaité
(A priori), on retient les axes dont le pourcentage d’inertie
expliqué (Wk) est grand.
Cumul
Dans la plupart des cas, on se
%
57,24 contente d’un plan ou d’un sous espace
de dimension 3 ou à la limite 4.
80,25
Retenir les
99,91 trois Pour k=3 par exemple, on regardera
premiers successivement les graphiques donnés
99,99 par les plans (∆u1; ∆u2); (∆u1; ∆u3) et
axes
100,00 (∆u2; ∆u3). 31
Section 3. Recherche du meilleur sous espace
principal Fk de dimension k<p
b) Critère de Kaiser
On ne retient que les axes associés aux valeurs propres
supérieures à 1 (diviser l’inertie totale par le nombre de variables
initiales).
Val. propre
1 2,8618 Retenir les deux
premières valeurs
2 1,1507
propres.
3 0,9831
4 0,0039
5 0,0004
32
16
13/04/2020
Plan
Section 1. Analyse de l’inertie
Section 2. Détermination des axes factoriels
Section 3. Recherche du meilleur sous espace Fk
de dimension k<p.
Section 4. Interprétation du nuage des points
projetés
33
Section 4. Interprétation du nuage des points
projetés
Pour mener à bien l’interprétation du nuage des points
projetés, certains critères peuvent être définis à savoir:
Contribution Relative Contribution Absolue
Elle permet d’évaluer la Elle permet de mesurer la
qualité de représentation contribution d’un point x
d’un point projeté x. dans la formation d’un axe.
2 2 2
C TR ( x,α ) =
(C )α
x (C ) α
x ( )
p Cxα
= CTA ( x, α ) =
d 2 ( x, o ) x
2
λα
M
0 < CTA ( x, α ) < 1
34
17
13/04/2020
Section 4. Interprétation du nuage des points
projetés
4.1. Interprétation du nuage des points individus
4.2. Interprétation du nuage des points variables
35
4.1. Interprétation du nuage des points
individus
a. Contributions relatives des individus
Un pourcentage élevé d’inertie totale expliquée par un plan ou un
sous espace signifie que la représentation globale est de bonne qualité.
Toutefois, il se peut que certains points x soient mal projetés. En effet,
il se peut que deux points éloignés dans l’espace initial se projettent en
deux points proches dans le nouveau plan, ce qui peut mener à une
fausse interprétation.
Pour éviter ce risque, on peut calculer la qualité de représentation
de chaque individu. Le ratio que l’on calcule généralement pour
faciliter l’analyse des résultats de l’ACP est nommée:
Contribution Relative (CTR).
36
18
13/04/2020
4.1. Interprétation du nuage des points
individus
La CTR permet d’évaluer la qualité de représentation d’un point
individu fournie par sa projection sur l’axe factoriel.
2 2
C T R (i , α ) =
(C )α
i
=
(C ) α
i
d 2 (i , o ) xi
2
La qualité de représentation est d’autant plus grande que la CTR est
proche de 1.
Les individus éloignés de l’origine ont tendance à être bien projetés.
A l’inverse, les individus projetés autour de l’origine peuvent avoir
une mauvaise qualité de projection. 37
4.1. Interprétation du nuage des points
individus
b. Contributions absolues des individus
La contribution d’un individu à la formation d’un axe factoriel est dite
contribution absolue (CTA) et définie par la relation:
2
CTA ( i, α ) =
( )
pi Ciα
/ 0 < CTA ( i, α ) < 1
λα
CTA(i, α) permet de classer les points xi selon le rôle plus ou moins
grand qu’ils ont joué dans la détermination de ∆ u . α
Les individus les plus importants sur un axe ∆ u (les plus actifs) sont
α
ceux ayant des CTA(i, α) les plus élevées.
Les individus les plus actifs sont ceux les plus éloignés de l’origine sur ∆ u α
38
19
13/04/2020
4.1. Interprétation du nuage des points
individus
Remarques
La proximité dans l’espace entre deux individus bien représentés
(CTR élevée) traduit la ressemblance réelle de ces deux individus
du point de vue des valeurs prises par les variables (Lorsque la
qualité de représentation de deux individus est bonne, leur
proximité observée retrace leur proximité réelle dans l’espace).
La lecture directe des proximités sur le graphique peut donc
s’avérer erronée (pas d’interprétation des proximités entre
individus mal représentés).
On peut avoir des individus qui ont des CTA importantes mais des
CTR faibles.
39
Section 4. Interprétation du nuage des points
projetés
4.1. Interprétation du nuage des points individus
4.2. Interprétation du nuage des points variables
40
20
13/04/2020
4.2. Interprétation du nuage des points variables
a. Contributions relatives des variables
On évalue la qualité de la représentation des points variables au vu
de leur projection sur les plans factoriels.
A chaque point-variable, on associe un point dont la coordonnée sur
un axe factoriel est une mesure de la corrélation entre cette
variable et le facteur.
C αj = corr ( x j , C α )
41
4.2. Interprétation du nuage des points variables
a. Contributions relatives des variables
Dans l'espace de dimension p, la distance des points-variables à
l'origine est égale à 1: 2 j
x = 1
M
Donc par projection sur un plan factoriel, les points-variables
s'inscrivent dans un cercle de rayon 1 appelé le cercle des
corrélations et sont d'autant plus proches du bord du cercle que le
point variable est bien représenté par le plan factoriel, c'est-à-dire que
la variable est bien corrélée avec les deux facteurs constituant ce plan.
2
C TR ( j,α ) =
(C ) α
j
=
corr 2 ( x j , C α )
= corr 2 ( x j , C α )
d2 ( j, o ) x j 2
M
42
21
13/04/2020
4.2. Interprétation du nuage des points variables
b. Contributions absolues des variables
CTA ( j , α ) =
( )
p j C αj
=
(
corr 2 C α , x j )
λα λα
0 < CTA ( j , α ) < 1
( )
− 1 < C o rr C k , x j < 1 permet d’avoir une idée sur le sens apporté par ∆ u k
On s’intéresse aux corrélations les plus fortes positivement et
négativement.
43
4.2. Interprétation du nuage des points variables
Remarques
La proximité entre deux variables sur un axe donne, si les deux
variables sont bien représentées sur l’axe ( proches de l’axe et du
bord du cercle) , une approximation de leur corrélation.
Deux variables proches sont corrélées positivement.
Deux variables qui s’opposent sont corrélées négativement.
Deux variables orthogonales sont non corrélées.
44
22
13/04/2020
4.2. Interprétation du nuage des points variables
Tableau de corrélation entre les
variables
Fact. 1 Fact. 2
Math 0,8059 0,5714
Phys 0,8970 0,4308
Fran 0,7581 -0,6110
Angl 0,9103 -0,3975
Musique 0,0667 -0,3275
45
4.2. Interprétation du nuage des points variables
Pour représenter une variable, on utilise son coefficient de
corrélation avec l’ axe 1 et son coefficient de corrélation avec l’axe 2.
Math Math
Phys
Sciences Phys
Sciences
Axe 2
Axe 1
Musique Musique
Latin
Angl Latin
Angl
Fran¨ais Fran¨ais
46
23