0% ont trouvé ce document utile (0 vote)
22 vues122 pages

Diapoo 2

L'analyse en composantes principales (ACP) est une méthode statistique utilisée pour explorer la structure des données en réduisant la dimensionnalité tout en préservant l'information essentielle. Elle permet de résumer un tableau d'individus et de variables à l'aide de composantes principales, facilitant ainsi l'interprétation et la visualisation des relations entre les variables. Le document présente également des concepts clés tels que la décomposition en valeurs singulières et l'utilisation du logiciel R pour réaliser des ACP.

Transféré par

ndionemoussa88
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues122 pages

Diapoo 2

L'analyse en composantes principales (ACP) est une méthode statistique utilisée pour explorer la structure des données en réduisant la dimensionnalité tout en préservant l'information essentielle. Elle permet de résumer un tableau d'individus et de variables à l'aide de composantes principales, facilitant ainsi l'interprétation et la visualisation des relations entre les variables. Le document présente également des concepts clés tels que la décomposition en valeurs singulières et l'utilisation du logiciel R pour réaliser des ACP.

Transféré par

ndionemoussa88
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse en composantes principales.

Fatou Néné DIOP


Université de Thiès, UFR SES

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 1 / 121
1 Analyse en composantes principales
Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP

2 Décomposition en Valeurs Singulières (DVS) et ACP

3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 2 / 121
Analyse en composantes principales
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 3 / 121
Analyse en composantes principales Introduction
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 4 / 121
Analyse en composantes principales Introduction
Objectifs

L’étude d’une population de taille n passe le plus souvent par le recueil d’un
nombre élevé p de données quantitatives par élément observé.
L’analyse en composantes principales (ACP) introduite en 1901 par K.
Pearson et développé par H. Hotelling en 1933, est une méthode très
puissante pour explorer la structure de telles données.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 5 / 121
Analyse en composantes principales Introduction
Objectifs

L’analyse en composantes principales (ACP) est une méthode d’analyse de


données ancienne et très utilisée, très connue en statistique et dans les
sciences expérimentales et, malheureusement, à peu près inconnue des
étudiants en informatique !
Les techniques classiques ne permettent que l’étude de la liaison entre deux
variables : corrélation, régression et nuage de points par exemple.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 6 / 121
Analyse en composantes principales Introduction
Objectifs

En d’autres termes l’ACP permet :


de résumer un tableau individus × variables à l’aide d’un petit nombre
de facteurs (appelés composantes principales) ;
qui sont de nouvelles variables, non corrélées et qui permettent ainsi de
synthétiser l’information.
d’interpréter ces composantes principales ;
de représenter dans un plan les individus afin de déterminer les
individus proches ou éloignés, les regrouper en classe homogène, ... On
parle de typologie des individus.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 7 / 121
Analyse en composantes principales Introduction
Objectifs

de visualiser les liaisons entre variables (cercle des corrélations), définir


les variables qui vont dans le même sens, dans un sens opposé,
indépendantes ...

Ainsi, au lieu d’analyser le tableau à travers p variables, on se limitera à


l’étude de quelques variables synthétiques, les composantes principales.
La difficulté sera de donner un sens à ces variables et de proposer une
analyse des résultats.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 8 / 121
Analyse en composantes principales Introduction
Les données

On dispose d’un tableau :



X 1
... Xj ... Xp 
 
individu 1 j p
 1

 x . . . x1 . . . x1 
.. .. ..
 1 
X= . . .
 

individu i . . . xij . . . xip
 
 xi1 
.. .. ..
 
. . .
 
 
individu n xn1 . . . xnj . . . xnp

à n lignes et p colonnes, représentant les valeurs prises par p variables


numériques, dites aussi quantitatives,

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 9 / 121
Analyse en composantes principales Introduction
Les données

X ,X
1
, . . . , Xj , . . . , Xp sur une
2
population E composée de n individus
E = {1, 2, . . . , i , . . . , n} munis respectivement des poids
n
{p1 , . . . , pi , . . . , pn }. Les poids pi >0 et on a : pi = 1.
X

i =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 10 / 121
Analyse en composantes principales Introduction
Exemples

Exemples
Echantillon de billets de banque, avec pour chacun différentes
caractéristiques (longueur, largeur, diagonale ...)
Echantillon de performances de sportifs à différentes épreuves
Echantillon de notes d’étudiants à différents examens

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 11 / 121
Analyse en composantes principales Introduction
Les données

Les poids pi sont éventuellement différents d’un individu à l’autre


(échantillons redressés ; données regroupées,...), ils mesurent ainsi
l’importance que lon veut accorder aux individus dans l’analyse ; ils sont
généralement égaux à 1/n.
On associe à chaque individu i le vecteur ei à p composantes :
ei
h i
= xi1 , . . . , xij , . . . , xip .

Le tableau s’écrit aussi sous la forme :


e
 
1

X= X Xp ..
.
 1

··· = .
 

en

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 12 / 121
Analyse en composantes principales Introduction
Les données

On définit le nuage de points dans Rp , par


ei , pi tels que e′i ∈ Rp , i = 1, . . . , p

N(Ω) = .

Les poids pi sont regroupés dans une matrice diagonale D de taille n :


0
 
p1
p2
D=
 
... .


 
0 pn

Dans le cas d’un tirage équiprobable pi = 1


n donc D = n In .
1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 13 / 121
Analyse en composantes principales Introduction
Point moyen

Soit G le centre de gravité du nuage (vecteur des moyennes arithmétiques)


ou point moyen.
G′ = X¯ , X¯ , . . . , X¯p ,
 
1 2

n
où X̄j est la moyenne de la variable Xj avec X̄j = pi xij .
X

i =1
n
G= p i ei .
X

i =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 14 / 121
Analyse en composantes principales Introduction
Tableau centré
Le tableau Xc tel que yij = xij − X̄j est le tableau centré associé à X.
Définition
Les coordonnées du nuage de points avec comme nouvelle origine du point
moyen G sont donnés par le tableau centré Xc .
x11 − X¯1 . . . x1j − X̄j . . . x1p − X¯p
 
 .. .. ..
 . . .


Xc =  xi − X . . . xij − X̄j
¯ . . . xi − X 
p ¯
 
 1 1 p
 .. .. ..

 . . .


xn1 − X¯1 . . . xnj − X̄j . . . xn − X¯p
p

Xc = X − 1n G′ = In − 1n 1′n D X, G = X′ D1n = hX, 1n i



D .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 15 / 121
Analyse en composantes principales Introduction
Tableau centré réduit

Définition
Le tableau des données centrées et réduites Xcr s’écrit :
z11 . . . z1j . . . z1p
 
 .. .. ..
 . . .


Xcr =  zi . . . zij . . . zip
 
 1 
 .. .. ..

 . . .


zn1 . . . znj . . . znp ,
avec
xij − X̄j
n 2
et pi xij − X̄j .

zij =
X
, sj2 =
sj
i =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 16 / 121
Analyse en composantes principales Introduction
Les données

Notons D /s la matrice diagonale des inverses des écarts-types :


1

 1
s1 0 
1
s2
D /s
 
= ...
 
1 
 
0 1
sp

et D /s 2 la matrice diagonale des inverses des variances. Le tableau centré


1

réduit Xcr est tel que : Xcr = Xc D /s . 1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 17 / 121
Analyse en composantes principales Introduction
Matrice de variance-covariance
Définition
C’est la matrice carrée de dimension p
 
s12 s12 . . . s1p
 s21 s 2 s2p 
V=

2
... ,

 . . 
sp 1 sp2
n
où Xj , Xh pi xij − X̄j xih − X¯h .
  X   
sjh = cov =
i =1

est la covariance des variables X et Xh . j

Formule marticielle
1
V = X′ DX − GG′ = X′c Xc = X′c DXc
n
F. N. DIOP (Université de Thiès, UFR SES Analyse
) en composantes principales 18 / 121
Analyse en composantes principales Introduction
Matrice de corrélation

Définition
C’est la matrice carrée de dimension p
1
 
r12 . . . r1p
 . 1 . 
R=
 ... . 

,
 . 
rp1 1
Xj , Xh n
xij − X̄j xih − X¯h
 ! !
cov
et
X
rjh = p = pi .
Var (Xj ) Var (Xh )
p
sj sh
i =1

est le coefficient de corrélation linéaire (mesure de liaison entre les


variables).

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 19 / 121
Analyse en composantes principales Introduction
Matrice de corrélation

La matrice R résume donc la structure des dépendances linéaires entre les p


variables prise 2 à 2.
Forme matricielle
1
R = X′cr Xcr = X′cr DXcr
n

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 20 / 121
Analyse en composantes principales Introduction
Les données

Plusieurs types d’ACP peuvent être effectués en fonction du tableau de


données qui est résumé :
L’ACP sur matrice des variances-covariances utilise le tableau
centré Xc ; dans cette ACP c’est la matrice des covariances empiriques
V qui est diagonalisée.
L’ACP sur matrice des corrélations utilise le tableau centré réduit
Xcr ; dans cette ACP c’est la matrice des corrélations empiriques R qui
est diagonalisée.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 21 / 121
Analyse en composantes principales Introduction
Les données

Remarque
L’ACP sur matrice des covariances concerne plutôt des tableaux dont les
colonnes sont des mesures de même nature (on dit que les variables Xj sont
homogènes) : avec des variations comparables (c’est-à-dire même
signification, même unité de mesure, même ordre de grandeur...).

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 22 / 121
Analyse en composantes principales Nuage de points des individus et des variables
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 23 / 121
Analyse en composantes principales Nuage de points des individus et des variables
Objectifs pour les individus : visualiser, classer, décrire

L’ensemble des points ei représentant les individus ei dans Rp constituent


un nuage de points où deux points sont d’autant plus proches que leurs p
coordonnées sont proches, donc ressemblants du point de vue des variables
X , . . . , Xp .
1

Du fait qu’on ne peut pas visualiser ces distances dès que p dépasse 3, on
projette le nuage des individus sur un petit nombre d’axes orthogonaux, de
manière à déformer le moins possible les distances entre individus, ou ce qui
revient au même à obtenir un nuage le plus dispersé possible.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 24 / 121
Analyse en composantes principales Nuage de points des individus et des variables
Objectifs pour les individus : visualiser, classer, décrire

Distance entre individus


On définit la distance entre deux individus ei et ei ′ par la forme
quadratique :
2
dM (ei , ei ′ ) = hei − ei ′ , ei − ei ′ iM = (ei − ei ′ )′ M(ei − ei ′ ),

où M est une matrice symétrique de taille p définie positive.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 25 / 121
Analyse en composantes principales Nuage de points des individus et des variables
Objectifs pour les variables : résumer, visualiser, décrire

1 La matrice diagonale des poids D est utilisée comme métrique pour


étudier la proximité des variables entre elles.
cov (Xj , Xj ) = ni= pi xij xij = (Xj )′ DXj = hXj , Xj i .
′ P ′ ′ ′
1 D

2 La norme « longueur » d’une variable est égale à son écart-type :


n
Var (X ) = pi (xij ) = kX j kD = d (O, Xj ).
X
j 2 2 2
D

i =1
3 Le cosinus de l’angle entre des variables est égal à leur coefficient de
corrélation linéaire :
hXj , Xj iD

rjj ′ = corr (Xj , Xj ) =



= cos(θjj ′ ).
kXj kD kXj ′ kD

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 26 / 121
Analyse en composantes principales Nuage de points des individus et des variables
Objectifs pour les variables : résumer, visualiser, décrire

Dans l’espace des individus on s’intéresse aux distances entre points alors
que dans l’espace des variables on s’intéresse plutôt aux angles en raison de
la propriété ci-dessus.
dD2 (Xj , Xj ) = hXj − Xj , Xj − Xj iD
′ ′ ′

= Var (Xj ) + Var (Xj ) − 2cov (Xj , Xj ).


′ ′

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 27 / 121
Analyse en composantes principales Inertie ou variance
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 28 / 121
Analyse en composantes principales Inertie ou variance
Inertie par rapport à un point

Définition
L’inertie du nuage N(Ω) par rapport à un point a ∈ Rp est :
n n
pi (ei − a)′ M(ei − a) = pi hei − a, ei − aiM .
X X
Ia =
i =1 i =1

Ia est une mesure de dispersion du nuage N(Ω) autour de a.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 29 / 121
Analyse en composantes principales Inertie ou variance
Inertie

L’inertie est une notion fondamentale en ACP, puisqu’elle est une mesure de
la dispersion totale du nuage de points autour de son centre de gravité G.
Définition
L’inertie totale du nuage de points N(Ω) autour de son centre de gravité
est : n
pi kei − Gk .
X
2
I = G M

i =1

On montre la relation suivante (théorème de Huygens) :


Ia = IG + hG − a, G − aiM .

La dispersion de N(Ω) autour du point a est donc minimum lorsque a = G.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 30 / 121
Analyse en composantes principales Inertie ou variance
Inertie totale

L’inertie totale I est la moitié de la moyenne des carrés des distances entre
G

les individus n X n
2I = pi pi ′ kei − ei ′ k .
X
2
G M

i =1 j=1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 31 / 121
Analyse en composantes principales Inertie ou variance
Inertie totale

Preuve
n X
n
pi pi ′ kei − ei ′ k2M
X

i =1 i ′ =1
n X
n
pi pi ′ kei k2M − 2e′i ei ′ + kei ′ k2M
X 
=
i =1 i ′ =1
n n n n
! ! ! !
pi kei kM −2 e p i ′ ei ′
X X X X
= pi ′ 2
pi ′i +
i ′ =1 i =1 i =1 i ′ =1
n n
! !
pi ′ kei ′ k2M = IG − 0 + IG .
X X
+ pi
i =1 i ′ =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 32 / 121
Analyse en composantes principales Inertie ou variance
Inertie totale

Inertie totale
L’inertie totale est la trace de la matrice MV ou VM :
I G = Trace(MV) = Trace(VM),

la trace d’une matrice étant la somme de ses éléments diagonaux.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 33 / 121
Analyse en composantes principales Inertie ou variance
Objectifs pour les individus : visualiser, classer, décrire

Métriques particulières
Les métriques les plus couramment utilisées en ACP sont :
Métrique usuelle : M = Ip correspond au produit scalaire usuel
p
I = Trace(V) =
X
G sj2 .
j=1

Métrique réduite : M = D /s 2 c’est la plus courante


1

I G = Trace(MV) = Trace(D1/s 2 V) = Trace(D1/s VD1/s )


= Trace(R) = p.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 34 / 121
Analyse en composantes principales Inertie ou variance
Objectifs pour les individus : visualiser, classer, décrire

Remarque
Problèmes liés à la métrique I p

La distance entre individus dépend de l’unité de mesure.


La distance privilégie les variables les plus dispersées.
La métrique D /s 2 est la plus utilisée puisqu’elle donne à chaque
1

caractère la même importance quelle que soit sa dispersion, et les


xij
nombres sont sans dimension, ce qui est très utile lorsque les
sj
variables ne s’expriment pas avec les mêmes unités.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 35 / 121
Analyse en composantes principales Inertie ou variance
Projections sur un sous-espace

On va chercher un sous-espace de l’espace initial tel que :


n
pi kei − fi k2M .
X

i =1

soit minimal. Or d’après le théorème de Pythagore, minimiser l’expression


ci-dessus, revient à maximiser
n
pi kfi − Gk2M ,
X

i =1

n n n
car on a : pi kei − GkM = pi kei − fi kM + pi kfi − Gk2M .
X X X
2 2

i =1 i =1 i =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 36 / 121
Analyse en composantes principales Inertie ou variance
Projections sur un sous-espace

Il est donc clair ici que trouver les valeurs de fi les plus proches de celles de
ei dans un nouvel espace, revient à maximiser la dispersion (ou inertie
totale) des fi .
L’inertie totale est définie comme la somme des distances de chaque
individu au centre de gravité G. Dans l’espace initial, on a donc :
n
pi kei − Gk2M .
X
IG =
i =1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 37 / 121
Analyse en composantes principales Inertie ou variance
Projections sur un sous-espace

Définition
L’inertie du nuage N(Ω) par rapport à l’espace Ek s’écrit :
n

I p d (e , E
X
2
E k = i M i k ).
i=1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 38 / 121
Analyse en composantes principales Inertie ou variance
Définitions

Soit F un hyperplan de Rp passant par l’origine O et F ⊥ le supplémentaire


M-orthogonal de F. ei est un élément du nuage s’écrit de manière unique
sous la forme u + v avec u ∈ F et v ∈ F ⊥ (c’est-à-dire hu, vi = 0). On M
n
définit l’inertie du nuage par rapport à F par : IF pi kvk2M ;
X
=
i =1
n
kvk représente la distance entre ei et F . On a aussi : pi kuk2M , et
X
IF⊥ =
i =1
n
comme kei k = kuk2M + kvk2M et que I pi kei k2M , on en déduit :
X
2
M G =
i =1
IG = IF + IF⊥ .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 39 / 121
Analyse en composantes principales Éléments principaux
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 40 / 121
Analyse en composantes principales Éléments principaux
Recherche des axes principaux dans Rp : Méthode

L’objectif de l’ACP est de trouver le sous-espace affine Ek de dimension k


(k < p souvent k = 2) tel que IEk soit minimum, c’est-à-dire, tel que
l’inertie IEk⊥ soit maximale.
On procède de la manière suivante :
Nous devons chercher l’axe ∆u passant par O de vecteur unitaire u
maximisant l’inertie I∆⊥u ; ∆⊥u étant l’hyperplan de Rp M-orthogonal à ∆u .
L’inertie totale de N(Ω) par rapport à l’origine se décompose ainsi :
IG = I∆u + I∆u ⊥ .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 41 / 121
Analyse en composantes principales Éléments principaux
Recherche des axes principaux dans Rp

Soit P∆u (ei ) et P∆u ⊥ (ei ) les projections M-orthogonales de e sur ∆u et i

∆u ⊥ .
n
La quantité I∆u = pi kP∆u ⊥ (ei )k2 est l’inertie résiduelle de N(Ω) autour
X

i =1
de ∆u dont on cherche le minimum.
De même, la quantité
n
pi kP∆u (ei )k2
X
I∆u⊥ =
i =1

est l’inertie expliquée par ∆u dont on cherche le maximum.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 42 / 121
Analyse en composantes principales Éléments principaux
Recherche du premier axe principal

On peut trouver ∆u en minimisant I∆u ou en maximisant I∆u ⊥ puisque

I∆u + I∆u ⊥ est une constante.


Soit V la matrice d’inertie (ou de variances-covariances) de N(Ω). On peut
montrer que : I∆u⊥ = u ′ MVMu . Il s’agit de trouver u tel que I∆u⊥ soit
maximum sous la contrainte kukM = 1.
La méthode des multiplicateurs de Lagrange donne comme solution un
vecteur u tel que :
∂  ′
u MVMu − λ u ′ Mu − 1 = 0

∂u
c’est-à-dire : MVMu − λMu = 0 soit, M étant inversible, VMu − λu = 0.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 43 / 121
Analyse en composantes principales Éléments principaux
Recherche du premier axe principal

Donc u est vecteur propre de VM correspondant à la plus grande valeur


propre λ puisqu’on cherche à maximiser I∆u ⊥ .
1

On note u ce vecteur propre, vecteur unitaire de ∆u ⊥ .


1 1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 44 / 121
Analyse en composantes principales Éléments principaux
Recherche des autres axes principaux

Nous devons ensuite trouver le deuxième axe ∆u , M-orthogonal à ∆u et 2 1

tel que l’inertie I∆u2 soit minimum ; et on amené à résoudre le système :


maximum de u ′ MVMu

avec hu, u1 iM = 0


et kukM = 1.

La méthode des multiplicateurs de Lagrange donne comme solution un


vecteur u tel que : ∂u∂ [u ′ MVMu − λ (u ′ Mu − 1) − µu ′ Mu ] = 0, 1

c’est-à-dire : 2MVMu − 2λMu − µMu = 0. 1

En multipliant par u ′ , on obtient µ = 0 puisque u ′ MV = λ u ′ et que


1 1 1 1

u ′ Mu = 0. Il reste donc VMu = λu .


1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 45 / 121
Analyse en composantes principales Éléments principaux
Recherche des autres axes principaux

u , vecteur unitaire de ∆u , est donc le vecteur propre de VM ,


2 2

M-orthogonal à u , associé à la deuxième plus grande valeur propre λ . (On


1 2

suppose que V a des valeurs propres distinctes).


D’une manière générale, on peut montrer que l’hyperplan F de Rp , de
dimension q (q ≤ p ) tel que IF soit minimum, possède une base
M-orthonormée constituée par les q vecteurs propres associés aux q plus
grandes valeurs propres de VM .
On convient d’appeler premier plan principal le sous-espace engendré par les
deux premiers axes principaux (∆u ⊕ ∆u ). 1 2

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 46 / 121
Analyse en composantes principales Résultats : axes principaux
Résultats : axes principaux

Définition
Dans l’ACP sur matrice des covariances, c’est la matrice des
variances-covariances empiriques du tableau de données qui est diagonalisé,
et les vecteurs propres de la matrice VM donnent les coordonnées des axes
principaux ou axes factoriels.
Soient ∆u , . . . , ∆ul , . . . , ∆uq les q premiers axes principaux de vecteurs
1

unitaires u , . . . , ul , . . . , uq .
1

On appelle pourcentage d’inertie expliquée par ∆ul la quantité


I∆ul ⊥ λl
= .
IG Trace(VM)

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 47 / 121
Analyse en composantes principales Résultats : axes principaux
Résultats : axes principaux

Remarque
Si r est le rang de la matrice X , alors r ≤ min(p, n − 1) et on montre que :
λ , . . . , λr > 0 et λr + , . . . , λp = 0, donc I∆ui ⊥ pour tout i > r .
1 1

Le nuage N(Ω) est alors exactement dans le sous-espace vectoriel


Er = ∆ur engendré par les r premiers axes factoriels.

Définition
Le pourcentage d’inertie expliquée par les q premières composantes
principales
λ1 + · · · + λq
λ1 + · · · + λr

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 48 / 121
Analyse en composantes principales Résultats : axes principaux
Facteurs principaux

Le problème de l’ACP est posé par les statisticiens de la manière suivante.


Dans une première étape, on désire trouver une nouvelle variable : A 1

élément de (Rp )∗ (dual de l’espace des individus) qui définit une


combinaison linéaire des variables descriptives X , . . . , Xp : 1

p
A aj1 Xj ∈ (Rp )∗
X
1
=
j=1

telle que la variance de A soit maximale.


1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 49 / 121
Analyse en composantes principales Résultats : axes principaux
Facteurs principaux

On cherche ensuite p
A aj2 Xj ∈ (Rp )∗ ,
X
2
=
j=1

A M− -orthonormale et non corrélée à A et telle que la variance de A


2 1 1 2

soit maximale et ainsi de suite.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 50 / 121
Analyse en composantes principales Résultats : axes principaux
Facteurs principaux

On considère la matrice des données X, et V la matrice de


variances-covariances associée (qui est symétrique par définition). Soient
Aj = Muj , j ∈ {1, . . . , q}

les q vecteurs de (Rp )∗ associés à u , . . . , uq par l’isomorphisme de Rp sur


1

(Rp )∗ défini à l’aide de la matrice M.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 51 / 121
Analyse en composantes principales Résultats : axes principaux
Facteurs principaux

Théorème
Les nouvelles variables A , . . . , Aq appelées facteurs principaux possédent
1

les propriétés suivantes :


1 Les facteurs principaux sont M− -orthonormés c’est-à-dire :
1

1 si

j =h
hAj , Ah iM−1 = ∀1 ≤ j, h ≤ q


0 sinon
2 Les facteurs principaux sont les vecteurs propres de la matrice MV
associés aux valeurs propres λ ≥ · · · ≥ λq .1

3 Var A = λ et cov(A , A ) = 0 si j 6= h.
 j j h
j

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 52 / 121
Analyse en composantes principales Résultats : axes principaux
Facteurs principaux

Remarque
La projection de e sur l’axe principal ´u (de vecteur unitaire uj ) est
i j

donnée par c = he , u i = u′ Me qui s’écrit aussi sous la forme c = A ′ · e


j
i i j M j i
j
i
j
i

puisque A = Mu .
j
j

Autrement dit, la valeur de la projection de ei sur ∆uj est égale à la valeur


prise par la forme linéaire (facteur principal) Aj appliquée au vecteur
observation ei ∈ Rp .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 53 / 121
Analyse en composantes principales Résultats : axes principaux
Composantes principales
Considérons dans Rn les vecteurs C , . . . , Cq tels que
1
:
i′
Cj
h
= c1j , . . . , cij , . . . , cnj ∈ Rn

où cij = hei , uj iM = uj′ Mei est la valeur de la projection de ei sur ∆uj . On


déduit des p relations c = A ′ · e la relation :
j
i
j
i

C j
= XAj ∀j ∈ 1, . . . , q.

Définition
La variable C (élément de R ) définie par le facteur principal Aj est appelée
j n

la j -ème composante principale.


Cj est le vecteur renfermant les coordonnées des projections M-orthogonales
des individus sur l’axe défini par uj avec uj unitaire.
F. N. DIOP (Université de Thiès, UFR SES Analyse
) en composantes principales 54 / 121
Analyse en composantes principales Résultats : axes principaux
Composantes principales

Théorème
Les composantes principales ont les propriétés suivantes :
1 Les composantes principales sont les vecteurs propres de la matrice
(XMX′ ) D associés aux valeurs propres λ ≥ · · · ≥ λ (identiques aux
1 q

valeurs propres de VM ).
2 La variance d’une composante principale Cj est égale à la valeur propre
λj :
Var(C ) = λ . j
j

3 Les composantes principales sont D-orthogonaux entre eux.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 55 / 121
Analyse en composantes principales Synthèse des résultats
Synthèse des résultats

Facteurs principaux A j
MVAj = λj Aj M −1 -orthonormés

Axes principaux u j VMuj = λj uj M -orthonormés

Composantes
principales C j
XMX ′ D Cj = λj Cj D-orthogonales
Cj = XAj Aj = Muj
En pratique, on calcule les Aj par diagonalisation de la matrice MV, puis on
obtient les Cj = XAj , les axes principaux u n’ayant pas d’ntérêt pratique.
j

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 56 / 121
Analyse en composantes principales Synthèse des résultats
Combien de composantes devons-nous extraire ?

Les critères utilisés pour décider combien de composantes extraire sont :


(1) le critère des valeurs propres ;
(2) le critère de proportions de variance expliquée ;
(3) Le critère de la communalité minimum et
(4) le critère du graphique du coude ou graphique des éboulis.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 57 / 121
Analyse en composantes principales Synthèse des résultats
Le critère des valeurs propres

La somme des valeurs propres est le nombre de variables entré dans l’ACP.
Une valeur propre de 1 signifierait alors que la composante expliqurait
presque qu’une seule variable fait la variabilité. La raison pour utiliser le
critère de valeur propre est que chaque composante devrait expliquer au
moins la valeur de variabilité d’une variable, et donc le critère de valeur
propre signifie que seuls les composantes avec des valeurs propres
supérieures à 1 doivent être retenues.
Remarque
S’il y a moins de vingt variables, le critère de valeur propre aurait tendance
à recommander d’extraire trop peu de composantes, alors que s’il y a plus
de cinquante variables, ce critère pourrait recommander d’en extraire trop.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 58 / 121
Analyse en composantes principales Synthèse des résultats
Le critère de proportions de variance expliquée

L’analyste spécifie d’abord combien de la variabilité totale il aimerait que la


composante principale pèse. Ensuite il sélectionne simplement les
composantes une par une jusqu’à ce que la variabilité expliquée soit
atteinte. Une fois encore, comme avec le critère de valeurs propres, à partir
de quelle proportion cela est-il suffisant ? La réponse dépend en partie du
domaine étudiée. Les chercheurs en sciences sociales peuvent être satisfaits
si leurs composantes principales expliquent 60% de la variabilité, puisque les
facteurs sur des réponses humaines sont si imprévisibles, alors que les
chercheurs en science naturelle peuvent espérer que leurs composantes
expliquent 90 ou 95% de la variabilité, puisque leurs mesures sont
intrinsèquement moins variables.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 59 / 121
Analyse en composantes principales Synthèse des résultats
La communalité

L’ACP n’extrait pas toute la variance des variables, mais uniquement une
proportion de la variance qui est partagée par plusieurs variables.
Définition
La communalité représente la proportion de variance d’une variable
particulière qui est partagée par les autres variables. La communalité
représente l’importance globale de chaque variable dans l’ACP dans son
ensemble.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 60 / 121
Analyse en composantes principales Synthèse des résultats
Le critère de la communalité minimum

Les valeurs de communalité sont calculées comme la somme des poids des
composantes au carré pour une variable donnée.
Supposons qu’il soit nécessaire de garder un certain ensemble de variables
dans l’analyse. Ensuite, suffisamment de composantes doivent être extraites
pour que les communalités de chacune de ces variables excèdent un certain
seuil (par exemple 50%). Ainsi, nous sommes finalement prêts à décider
combien de composantes retenir.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 61 / 121
Analyse en composantes principales Synthèse des résultats
Le critère du graphique du coude

Un graphique du coude est un nuage de points des valeurs propres en


regard du nombre de composants. Les graphiques du coude sont utiles pour
trouver une frontière supérieure (maximum) pour le nombre de
composantes qui doivrent être retenues. Ce critère dit que le nombre
maximum de composantes qui doit être extrait se situe juste avant le
moment où le premier point commence à se réduire à une ligne horizontale.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 62 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 63 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Interprétation des axes : Étude des corrélations

En pratique, on utilise souvent les données centrées et réduites.


Ainsi,
La matrice des données est la matrice X . cr

La matrice de variances-covariances est la matrice des


corrélations R définie précédemment.
λ ≥ · · · ≥ λ sont les valeurs propres de la matrice des corrélations R.
1 q

On peut proposer une interprétation des axes en faisant l’étude des


corrélations entre les variables initiales Zj et les composantes
principales Cj .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 64 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Interprétation des axes : Étude des corrélations

On a :
corr(X , C
j h
) = corr(Z , C
j h
)
cov (Zj , Ch )
A.
p
j
= = λh
Var (Zj ) Var (Ch )
p p

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 65 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Interprétation des axes principaux : Cercle des corrélations

Ces calculs s’effectuent pour chaque composante principale. Pour un couple


de composantes principales C et C par exemple on synthétise usuellement
1 2

les corrélations sur une figure appelée « cercle des corrélations » où


chaque variable Xj est repérée par un point d’abscisse corr(X , C ) et j 1

d’ordonnée corr(X , C ). j 2

Si la première composante principale C est très corrélée avec une variable


1

Xj , alors les individus qui sont très prononcés sur l’axe 1 (grandes
coordonnées) sont caractérisés par une valeur fortement supérieure à la
moyenne pour la variable Xj .

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 66 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Interprétation des axes principaux : Contribution à l’axe

Les contributions de chaque individu à l’inertie de leur nuage sont :


2
p = c
P  k j
i j 1 i
Pk
j =1 λj
De plus, pour faciliter l’interprétation des axes principaux, on
introduit la notion de contribution à l’axe. On définit lacontribution 2
p c i
j

de l’individu i à la composante Cj par le quotient : où cij est


i

λ j

la i -ème coordonnée de la composante principale Cj .


Par la formulation initiale de l’ACP (minimisation de l’inertie), un axe peut
être assimilé à une droite de régression dans l’espace de départ, et donc
comme passant « au plus près »de l’ensemble des points du nuage.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 67 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Interprétation des axes principaux : Contribution à l’axe

Mais tous les points du nuage ne sont pas pour autant proches de l’axe. La
contribution est un indicateur de cette proximité à l’axe.
Ainsi, les individus ayant une bonne contribution (valeur numérique élevée)
sont ceux qui sont le plus proche de l’axe et donc ceux qui attirent l’axe
vers eux, qui favorisent la détermination de l’axe.
Et par conséquent, c’est grâce à ces individus que l’on va pouvoir chercher
à donner un sens à l’axe.
Il faut bien voir que, dans la plupart des cas, ce sont eux qui donnent une
forme particulièrement allongée au nuage suivant la direction de l’axe. Un
bon moyen de caractériser l’axe rapidement est donc de classer les individus
par ordre décroissant de contribution.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 68 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Qualité de la représentation : cos2

Il faut aussi s’assurer que la représentation des individus sur les


plans principaux est de bonne qualité.
Pour un individu ei , on mesure cette qualité à l’aide du cosinus de
l’angle formé par le plan principal et le vecteur défini par l’individu ei .
L’indicateur utilisé par les logiciels est alors couramment noté cos . 2

Idéalement, lorsqu’un individu est sur le plan factoriel, l’angle défini est
alors nul, ce qui entraîne une cos égal à 1. 2

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 69 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Qualité de la représentation : cos2

Au contraire, un individu orthogonal à chacun des axes du plan factoriel


aura un cos nul. 2

Tous les individus occupant des positions intermédiaires entre ces deux
extrémités auront un cos compris entre 0 et 1, d’autant plus proche de 1
2

que l’individu est bien représenté par sa projection sur le plan.


L’indicateur cos est principalement utilisé lorsqu’on veut interpréter les
2

points centraux.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 70 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Qualité de la représentation : cos2

De la même façon que pour les individus, seules les variables les mieux
projetées (grande valeur du cos entre la variable et sa projection) peuvent
2

être interprétées.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 71 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Variables supplémentaires ou illustratives

Enfin, dans certains cas, on peut gagner en richesse en utilisant des


variables ou des individus en tant qu’objets supplémentaires.
Les objets supplémentaires ne sont pas intégrés au tableau de données
lors du calcul, mais peuvent être visualisés en même temps que les
objets actifs lors de la représentation finale.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 72 / 121
Analyse en composantes principales Interprétation des résultats d’une ACP
Variables supplémentaires ou illustratives

Cette représentation simultanée permet de juger leurs liens éventuels avec


les variables de base.
Lorsqu’un nombre restreint d’individus contribuent fortement à un axe (et
donc suffisent à le déterminer à eux seuls), il peut être intéressant de
relancer une analyse en les mettant en individus illustratifs, de telle sorte
qu’ils n’influencent pas les résultats.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 73 / 121
Décomposition en Valeurs Singulières (DVS) et ACP
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 74 / 121
Décomposition en Valeurs Singulières (DVS) et ACP
DVS et ACP

Il s’agit, cette fois, de construire la décomposition d’une matrice X(n × p)


rectangulaire relativement à deux matrices symétriques et positives
D(n × n) et M(p × p).

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 75 / 121
Décomposition en Valeurs Singulières (DVS) et ACP
DVS et ACP

Theorem
Une matrice X(n × p) de rang r peut s’écrire :
r p
X = UΛ / V ′ = λk uk vk′ ;
X
1 2

k=1

U(n × r ) contient les vecteurs propres D-orthonormés (U′ DU = I ) de la r

matrice D-symétrique positive XMX′ D associés aux r valeurs propres non


nulles λk rangées par ordre décroissant dans la matrice diagonale Λ(r × r ) ;
V(p × r ) contient les vecteurs propres M-orthonormés (V′ MV = I ) de la r

matrice M-symétrique positive XDX′ M associés aux mêmes valeurs propres.


De plus
U = XMV Λ− / et V = X ′ DUΛ− / .
1 2 1 2

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 76 / 121
ACP avec le logiciel R
Plan

1 Analyse en composantes principales


Introduction
Nuage de points des individus et des variables
Inertie ou variance
Éléments principaux
Axes principaux
Facteurs principaux
Composantes principales
Interprétation des résultats d’une ACP
2 Décomposition en Valeurs Singulières (DVS) et ACP
3 ACP avec le logiciel R

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 77 / 121
ACP avec le logiciel R
Etapes d’une ACP

1 Importer le jeu de données


2 Choisir les variables et les individus actifs
3 Standardiser ou non les variables
4 Choisir le nombre d’axes
5 Analyser les résultats
6 Décrire les principales dimensions de variabilité
7 Retour aux données brutes

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 78 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple d’ACP avec princomp()

Dans la suite, en guise d’exemple, on utilisera les données de la table 1. Il


décrit 10 élèves par certaines caractéristiques physiques et leur note
moyenne annuelle 4.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 79 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple d’ACP avec princomp()

Table 1 Jeu de données utilisé pour illustrer l’ACP.


Individu Poids Taille Âge Note
1 45 1,5 13 14
2 50 1,6 13 16
3 50 1,65 13 15
4 60 1,75 15 9
5 60 1,7 14 10
6 60 1,7 14 7
7 70 1,6 14 8
8 65 1,6 13 13
9 60 1,55 15 17
10 65 1,7 14 11

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 80 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple : Distance entre les individus

Abordant un problème de géométrie, il nous faut commencer par définir une


notion de distance entre deux individus. S’inspirant de la géométrie
euclidienne, on pourrait écrire :
p
X
d 2 (ei , ej ) = (xik − xjk )2
k=1

Considérons les individus e , e et e . On a : d (e , e ) = 2, d (e , e ) = 5,


4 5 6
2
4 5
2
4 6

d (e , e ) = 9. Si l’on exprime maintenant les tailles en centimètres, les


2
5 6

distances deviennent : d (e , e ) = 27, d (e , e ) = 30, d (e , e ) = 9.


2
4 5
2
4 6
2
5 6

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 81 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple : Distance entre les individus

On constate que selon l’unité utilisée, l’individu 6 est plus proche du 4e ou


du 5e !
Pour éviter ce problème de dépendance par rapport aux unités utilisées, il
suffit d’utiliser des variables centrées réduites. Dans ce cas, on obtient
d (e , e ) = 2, 3, d (e , e ) = 2, 6, d (e , e ) = 0, 8 quelles que soient les
2
4 5
2
4 6
2
5 6

unités utilisées. Dans la suite, on considère que les données sont centrées et
réduites.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 82 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple

Si les données sont stockées dans un fichier texte [Link], on peut


les lire au moyen de la commande suivante :
> X <- [Link]("chemin/[Link]")

Les options de cette commande de lecture des données sont explicitées dans
l’aide en ligne auquel on peut accéder par help([Link]).

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 83 / 121
ACP avec le logiciel R Les données et leur saisie
Exemple

new=[Link]("chemin/[Link]",
sep=";",dec=",",header=TRUE,[Link]=1)
new

cor(new,new)
Poids Taille Age Note
Poids 1.0000000 0.3665158 0.4854043 -0.5678917
Taille 0.3665158 1.0000000 0.3955146 -0.6287373
Age 0.4854043 0.3955146 1.0000000 -0.3223292
Note -0.5678917 -0.6287373 -0.3223292 1.0000000

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 84 / 121
ACP avec le logiciel R Les données et leur saisie
La fonction princomp()

Il existe trois façons d’effectuer des ACP dans R : princomp (), prcomp ()
et pca () dans la bibliothèque labdsv. La fonction princomp () retourne un
“objet princomp” qui contient la racine carrée des valeurs propres (“sdev”),
les vecteurs propres (“loadings ”), les moyennes pour chaque variable
(“centrée”) et les notes («scores»), ainsi que d’autres choses. Taper
summary (princomp) renvoie le pourcentage de la variation expliquée.
La commande princomp(), équivalent à princomp(X, cor=FALSE),
réalise l’ACP centrée ; l’ACP centrée réduite s’obtient par la commande
suivante où le paramètre cor de la fonction princomp() à la valeur TRUE.
Les résultats de l’ACP sont stockés dans la variable de type list (liste) que
nous avons arbitrairement nommée b. Affichons b.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 85 / 121
ACP avec le logiciel R Les données et leur saisie
La fonction princomp()
Standard deviations : est le vecteur des écart-types sur chacun des axes
principaux ;
> b <- princomp(X,cor=TRUE)
> b
Call:
princomp(x = X, cor = TRUE)

Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.5462532 0.8662052 0.7644646 0.5238164

4 variables and 10 observations.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 86 / 121
ACP avec le logiciel R Les données et leur saisie
La fonction princomp()

La commande précédente a permis d’afficher une partie des résultats de


l’ACP, à savoir les racines carrées des valeurs principales qui sont aussi les
écarts-types (Standard deviations) des composantes principales, ainsi que
le nombre de variables, ici 4, et le nombre d’individus, ici 10.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 87 / 121
ACP avec le logiciel R Les données et leur saisie
La fonction princomp()

Les proportions de variance expliquée par chacun des axes sont obtenues
par la commande suivante.
> summary(b)
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard
deviation 1.5462532 0.8662052 0.7644646 0.52381643

Proportion
of Variance 0.5977247 0.1875779 0.1461015 0.06859591
Cumulative
Proportion 0.5977247 0.7853026 0.9314041 1.00000000

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 88 / 121
ACP avec le logiciel R Les données et leur saisie
La fonction princomp()

De plus, la variable liste b comporte 6 éléments numérotés de 1 à 6


auxquels on peut accéder par b[[1]] à b[[6]] respectivement.
Ainsi, les racines carrées des valeurs principales sont aussi disponibles dans
le premier élément b[[1]] de la liste b :
> b1<-b[[1]]
> b1
Comp.1 Comp.2 Comp.3 Comp.4
1.5462532 0.8662052 0.7644646 0.5238164

> barplot(b1^2)

Examinons en quoi consistent les autres résultats avant de proposer des


compléments à cette commande.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 89 / 121
ACP avec le logiciel R Les données et leur saisie
Les facteurs principaux
Loadings : est la matrice de rotation, autrement dit, une matrice dont
chacune des colonnes est un vecteur propre de l’ACP ;
> b2<-b[[2]]
> b2
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Poids -0.508 0.307 -0.659 0.462
Taille -0.504 -0.465 0.525 0.504
Age -0.445 0.706 0.471 -0.285
Note 0.538 0.438 0.259 0.672

Comp.1 Comp.2 Comp.3 Comp.4


SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 90 / 121
ACP avec le logiciel R Les données et leur saisie
Les facteurs principaux

Comp.1 Comp.2 Comp.3 Comp.4


SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00

La première partie de l’affichage, nommée Loadings, dont les colonnes sont


les facteurs principaux, à savoir les vecteurs propres normés de la matrice de
corrélation (ou de covariance si l’ACP est non réduite).
La deuxième partie de l’affichage peut être ignorée.
Pour une manipulation plus propre, on isole les 4 (ce nombre correspond au
nombre de variables) premières lignes de b[[2]] comme suit.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 91 / 121
ACP avec le logiciel R Les données et leur saisie
> b2<-b2[1:ncol(X),]
> b2
Comp.1 Comp.2 Comp.3 Comp.4
Poids -0.5079730 0.3065293 -0.6593007 0.4618721
Taille -0.5038351 -0.4647035 0.5253477 0.5041931
Age -0.4453032 0.7057876 0.4712381 -0.2854882
Note 0.5383481 0.4381258 0.2593591 0.6715355

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 92 / 121
ACP avec le logiciel R Les données et leur saisie
Les facteurs principaux

On rappelle que la k-ième colonne multipliée par la racine carrée de la


k-ième valeur principale correspond aux coordonnées des variables sur l’axe
engendré par la k-ième composante principale.
Dans le cas de l’ACP centrée réduite, ces coordonnées sont égales aux
corrélations entre les variables et la composante principale.
Ces coordonnées servent à visualiser les variables sur les plans principaux.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 92 / 121
ACP avec le logiciel R Les données et leur saisie
Les moyennes des variables

> b3<-b[[3]]
> b3
Poids Taille Age Note
58.500 1.635 13.800 12.000

Ce sont les moyennes des variables. Elles servent à calculer la matrice des
données centrées. Rappelons que sous R, la fonction t() désigne la
transposée.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 93 / 121
ACP avec le logiciel R Les données et leur saisie
Les moyennes des variables

> Xc<-t(t(X)-b3)
> Xc
Poids Taille Age Note
1 -13.5 -0.135 -0.8 2
2 -8.5 -0.035 -0.8 4
3 -8.5 0.015 -0.8 3
4 1.5 0.115 1.2 -3
5 1.5 0.065 0.2 -2
6 1.5 0.065 0.2 -5
7 11.5 -0.035 0.2 -4
8 6.5 -0.035 -0.8 1
9 1.5 -0.085 1.2 5
10 6.5 0.065 0.2 -1

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 94 / 121
ACP avec le logiciel R Les données et leur saisie
Les moyennes des variables

On peut bien entendu calculer les moyennes plus directement par la


commande dédiée à cette opération : mean(X ).
On fera attention au fait que la fonction mean() appliquée à une matrice
donne la moyenne de tous les nombres de la matrice, alors qu’appliquée à la
transformée de la matrice en [Link] donne le vecteur des moyennes
des colonnes.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 95 / 121
ACP avec le logiciel R Les données et leur saisie
Les écarts-types des variables (si cor=TRUE)

Selon que l’ACP est réduite ou non, le quatrième élément b[[4]] de la liste b
prend une valeur différente. Dans le cas de l’ACP réduite (cor=TRUE), le
vecteur b[[4]] contient les écarts-types des variables.
> b4<-b[[4]]
> b4
Poids Taille Age Note
7.43303437 0.07433034 0.74833148 3.31662479

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 96 / 121
ACP avec le logiciel R Les données et leur saisie
Les écarts-types des variables (si cor=TRUE)
Les écarts-types servent à calculer la matrice des données centrées réduites.
> Xcr<-t(t(Xc)/b4)
> Xcr
Poids Taille Age Note
1 -1.8162165 -1.8162165 -1.0690450 0.6030227
2 -1.1435437 -0.4708710 -1.0690450 1.2060454
3 -1.1435437 0.2018018 -1.0690450 0.9045340
4 0.2018018 1.5471474 1.6035675 -0.9045340
5 0.2018018 0.8744746 0.2672612 -0.6030227
6 0.2018018 0.8744746 0.2672612 -1.5075567
7 1.5471474 -0.4708710 0.2672612 -1.2060454
8 0.8744746 -0.4708710 -1.0690450 0.3015113
9 0.2018018 -1.1435437 1.6035675 1.5075567
10 0.8744746 0.8744746 0.2672612 -0.3015113

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 97 / 121
ACP avec le logiciel R Les données et leur saisie
Le nombre d’individus

> b5<-b[[5]]
> b5
[1] 10

C’est le nombre de lignes du tableau des données.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 98 / 121
ACP avec le logiciel R Les données et leur saisie
Les composantes principales

> b6<-b[[6]]
> b6
Comp.1 Comp.2 Comp.3 Comp.4
1 2.6383478 -0.20304035 -0.10408766 -1.04443266
2 1.9434521 -0.35783346 0.31559230 0.34952125
3 1.4422179 -0.80252677 0.59077968 0.48620265
4 -2.0830449 0.07837172 1.20080516 -0.19195868
5 -0.9867493 -0.42008337 0.29589940 0.05285961
6 -1.4737035 -0.81638306 0.06130029 -0.55456712
7 -1.3169524 0.35329157 -1.45426142 -0.40902793
8 0.4313990 -0.13555130 -1.24948767 0.67416087
9 0.5711642 2.38554456 0.41285443 0.07121803
10 -1.1661308 -0.08178953 -0.06939452 0.56602398

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 99 / 121
ACP avec le logiciel R Les données et leur saisie
Les composantes principales

On rappelle que les composantes principales sont des combinaisons linéaires


des variables centrées réduites : vérifier qu’on les obtient aussi par la
commande Xcr % ∗ %b2.
De plus leurs moyennes sont nulles, leurs variances sont égales aux valeurs
principales et leurs corrélations deux à deux sont nulles.
Les composantes principales sont constituées des coordonnées des individus
sur les axes principaux et servent à visualiser les individus sur les plans
principaux.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 100 / 121
ACP avec le logiciel R Les données et leur saisie
Le biplot

La fonction biplot fournit la représentation simultanée des variables et des


individus sur le premier plan principal. il est affiché par la commande
suivante. Le graphe représenté sur la figure suivante est obtenue par
l’instruction suivante (la fonction abline ajoute des axes) :
> biplot(b)
> abline(h=0,v=0,col="gray")

L’instruction suivante permet d’obtenir la projection sur les axes 2 et 3 :


> biplot(b,choices=c(2,3))

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 101 / 121
ACP avec le logiciel R Les données et leur saisie
Le biplot

−2 −1 0 1 2 3 4

0.8

4
0.6

3
0.4

2
Age

Note
Comp.2

0.2

1
Poids
7

4
0.0

0
8 10
1
2 5
−0.2

−1
Taille
3 6
−0.4

−2
−0.4 −0.2 0.0 0.2 0.4 0.6 0.8

Comp.1

Figure – Projection sur les deux premières composantes.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 102 / 121
ACP avec le logiciel R Les données et leur saisie
Le biplot

On peut aussi procéder à toutes les représentations graphiques de l’ACP :


représentation des variables ou des individus sur les axes souhaités. On
décrira à la fin de la section suivante les commandes qui permettent de les
réaliser.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 103 / 121
ACP avec le logiciel R Les données et leur saisie
Compléter les résultats de la fonction princomp()

Ainsi, en plus des représentations graphiques complémentaires au biplot, il


reste à calculer :
les coordonnées, les contributions et les qualités de représentation des
variables,
les contributions et les qualités de représentation des individus.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 104 / 121
ACP avec le logiciel R Les données et leur saisie
Coordonnées, contributions et qualités de représentation des
variables

On les calcule pour les K premiers axes ; dans ce qui suit, K est fixé à 2.
> K<-2
> coorvariables<-t(t(b2[,1:K])*b1[1:K])
> coorvariables
Comp.1 Comp.2
Poids -0.7854549 0.2655173
Taille -0.7790566 -0.4025286
Age -0.6885515 0.6113569
Note 0.8324225 0.3795068

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 105 / 121
ACP avec le logiciel R Les données et leur saisie
Contributions et qualités de représentation des individus

> contvariables<-t(t(coorvariables^2)/b1[1:K]^2)
# (si cor=TRUE)
> contvariables
Comp.1 Comp.2
Poids 0.2580366 0.09396024
Taille 0.2538498 0.21594937
Age 0.1982949 0.49813619
Note 0.2898187 0.19195421

Les coordonnées des individus sont données par les composantes principales,
c’est-à-dire la matrice b6. On calcule les contributions et qualités de
représentation pour les K premiers axes.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 106 / 121
ACP avec le logiciel R Les données et leur saisie
Contributions et qualités de représentation des individus

> contindividus<-t(t(b6[,1:K]^2/b5)/b1[1:K]^2)
#si cor=TRUE
> contindividus
Comp.1 Comp.2
1 0.291140689 0.0054944366
2 0.157974311 0.0170655513
3 0.086996252 0.0858375857
4 0.181483053 0.0008186102
5 0.040724189 0.0235195723
6 0.090836214 0.0888272884
7 0.072540233 0.0166350835
8 0.007783897 0.0024488706
9 0.013644596 0.7584614348
10 0.056876566 0.0008915667

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 107 / 121
ACP avec le logiciel R Les données et leur saisie
Contributions et qualités de représentation des individus

> qualindividus<-b6[,1:K]^2/rowSums(Xcr^2)
> qualindividus
Comp.1 Comp.2
1 0.85896712 0.005087181
2 0.91523525 0.031027512
3 0.62849993 0.194608831
4 0.74503375 0.001054623
5 0.78490790 0.142257783
6 0.68955164 0.211609196
7 0.41879097 0.030138644

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 108 / 121
ACP avec le logiciel R Les données et leur saisie
Représentation des individus et des variables

On a vu ci-dessus que la fonction biplot() donne la représentation


simultanée des individus sur le premier plan principal. on procède ci-après à
la représentation des individus puis celle des variables sur des plans séparés.
Dans l’exemple suivant, le premier axe principal (k 1 = 1) détermine l’axe
horizontal et le deuxième axe principal (k = 2) détermine l’axe vertical.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 109 / 121
ACP avec le logiciel R Les données et leur saisie
Représentation des individus et des variables

> k1<-1
> k2<-2

> #individus
> abscisses<-b6[,k1]
> ordonnees<-b6[,k2]
> plot(abscisses,ordonnees,type="n")
> text(abscisses,ordonnees,rownames(X))
> abline(h=0,lty=2)

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 110 / 121
ACP avec le logiciel R Les données et leur saisie
Représentation des individus et des variables

> #variables
> abscisses<-coorvariables[,k1]
> ordonnees<-coorvariables[,k2]
> plot(abscisses,ordonnees,xlim=c(-1,1),ylim=c(-1,1),
type="n")
> arrows(0,0,abscisses,ordonnees,length=0.07)
> text(asbcisses,ordonnees,colnames(X))

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 111 / 121
ACP avec le logiciel R Les données et leur saisie
Le biplot

Variables factor map (PCA)

1.0
Age
0.5

Note
Poids
Dim 2 (18.76%)

0.0

Taille
−0.5
−1.0

−1.0 −0.5 0.0 0.5 1.0

Dim 1 (59.77%)

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 112 / 121
ACP avec le logiciel R Les données et leur saisie
Interpretations
On note que :
les 4 caractères sont fortement corrélés (en valeur absolue) avec le
premier axe principal ;
le caractère Note est corrélé négativement avec les trois autres
caractères ;
le groupe 1, 2 et 3 comprend donc des élèves moins développés
physiquement (plus jeunes, plus légers, plus petits) que la moyenne
mais qui ont de bonnes notes ;
le groupe 4, 5, 6, 7 et 10 regroupent des élèves plus développés que la
moyenne mais qui ont une note faible ;
8 et 9 contredisent ces deux tendances générales ;
en particulier, 9 a une très bonne note en dépit de ses caractéristiques
physiques.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 113 / 121
ACP avec le logiciel R Les données et leur saisie
Carte des individus dans le premier plan factoriel (78,52% de
l’inertie)

2.5
9

2.0
1.5
1.0
ordonnees

0.5

4
0.0

8 10
1
2
5
−0.5

3 6

−2 −1 0 1 2

abcisses

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 114 / 121
ACP avec le logiciel R Les données et leur saisie
Interprétations

On repère deux regroupements, l’un de 3 individus, l’autre de 5 ; les deux


autres individus sont isolés. Il faut avoir à l’esprit que la distance entre les
points est plus fidèlement conservée, entre l’espace initial et le plan
principal, pour des points éloignés des axes.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 115 / 121
ACP avec le logiciel R Les données et leur saisie
Le package FactoMineR
Le package FactoMineR est une bibliothèque très complète d’outils relatifs
à l’analyse de données. Elle implémente de nombreuses techniques d’analyse
et de classification. Le package founit neuf fonctions
PCA : Analyse en composantes principales
CA : Analyse factorielle des correspondances
MCA : Analyse des correspondances multiples
MFA : analyse factorielle multiple
HMFA : Analyse factorielle multiple hiérarchique
HCPC : Classification hiérarchque sur composantes principales
GPA : Analyse procrustéenne généralisée
DMFA : Analyse factorielle multiple duale
AFDM : Analyse factorielle de données mixtes

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 116 / 121
ACP avec le logiciel R Les données et leur saisie
Le package FactoMineR

La fonction PCA effeectue une ACP


library(FactoMineR)
pca<-PCA(new)
#Graphe des projections sur les axes 2 et 3 dans l’espace des i
#et dans l’espace des variables (a droite)
plot(pca,choix="ind",title="Individus",axes=c(2,3))
plot(pca,choix="var",title="Variabless",axes=c(2,3))

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 117 / 121
ACP avec le logiciel R Les données et leur saisie
Classification hiérarchque

La fonction HCPC permet d’effectuer des classifications hiérarchiques (voir


chapitre suivant) sur les composantes principales. Par exemple :
hcpc <- HCPC(pca, [Link]=-1)

L’argument [Link] est ici fixé à −1 pour laisser la fonction déterminer elle
même où couper l’arbre hiérarchique.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 118 / 121
ACP avec le logiciel R Les données et leur saisie
Classification hiérarchque

La fonction générique plot appliquée à un objet de la classe HCPC peut


produire quatre types de graphiques différents. L’argument optionnel choice
peut prendre les valeurs “map” pour les projections usuelles du nuage de
points, “tree” pour obtenir un dendrogramme, “bar” pour obtenir un
diagramme en bâtons des inerties des composantes et “[Link]” pour
obtenir une représentation spatiale du dendrogramme.
plot(hcpc,choice="[Link]",
title="Classification hiérarchique")

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 119 / 121
ACP avec le logiciel R Les données et leur saisie
Classification hiérarchque

Classification hiérarchique

cluster 1
cluster 2
cluster 3
cluster 4

2.0
1.5

Dim 2 (18.76%)
height

2.5
1.0

9 2.0
1.5
1.0
0.5

0.5
7 0.0
4
8 10
1
2
−0.5
5
0.0

3 6 −1.0
−3 −2 −1 0 1 2 3

Dim 1 (59.77%)

Figure – Graphique 3D d’un dendrogramme sur des composantes principales.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 120 / 121
ACP avec le logiciel R Les données et leur saisie
Interprétation

Pour interpréter les composantes principales (ou les axes factoriels) est de
les relier aux variables initiales, en utilisant les corrélations précédemment
introduites. Généralement, pour un couple de composantes principales C 1

et C , on représente les corrélations dans une figure appelée cercle de


2

corrélation, où chaque variable Z j est représentée par un point de


coordonnées (r (C , Z j ), r (C , Z j )).
1 2

Une fois les composantes principales interprétées, on représente les individus


dans les plans factoriels formés en croisant deux à deux les axes factoriels
retenus. Chaque représentation est interprétée en essayant de repérer des
groupes d’individus et en donnant à ces groupes une signification en
fonction de leur place dans les plans factoriels.

F. N. DIOP (Université de Thiès, UFR SES Analyse


) en composantes principales 121 / 121

Vous aimerez peut-être aussi