Analyse en composantes principales
Dr. KANGA
9 janvier 2025
Introduction
L’analyse des données désigne les analyses statistiques
descriptives multidimensionnelles. Elle permet en général de
réduire l’espace multidimensionnel (où l’information n’est pas
lisible) en un espace à deux ou trois dimensions (où
l’information est lisible), de telle sorte que l’espace réduit
résume une grande partie de l’information contenue dans
l’espace multidimensionnel d’origine.
L’analyse des données rassemble :
les analyses factorielles : ces méthodes tirent leur nom des
axes de l’espace réduit, nommés axes principaux, mais
aussi facteurs.
les méthodes de classification automatique : algorithmes
permettant d’effectuer des classifications
Dr. KANGA Analyse en composantes principales
Domaine d’application de d’analyse de données
Elle permet l’analyse d’enquêtes (sondages où de
nombreuses données qualitatives doivent être prises en
compte)
Tout domaine scientifique qui doit gérer de grande quantité
de données de type varié (gestion, économie, etc) ainsi que
tout domaine industriel (assurance, banque, téléphonie,
etc) ont recours à ces approches.
Dr. KANGA Analyse en composantes principales
De manière générale, le terme "analyse factorielle" est
souvent employé autant pour l’analyse en composantes
principales (ACP) et l’analyse factorielle des
correspondances (AFC et ACFM).
L’analyse factorielle (pure ou en composantes principales)
est une réduction d’une matrice de données à quelques
groupes à l’aide de nouvelles variables appelées
"composantes", "facteurs" ou "axes factoriels"
L’ACP met en évidence des composantes tenant compte de la
variance totale de toutes les variables à l’étude.
Dr. KANGA Analyse en composantes principales
Présentation des données multivariées
Dans une analyse à composante principale, les données sont
sous la forme d’un tableau à n lignes et p colonnes que l’on
pourra stocker dans une matrice X d’ordre n × p.
Chacune des lignes désigne un individu i sur le quel on
observe p variables (x1i , . . . , xpi ).
De même chaque colonne (xj1 , . . . , xjn ) représente la
variables j pour n individus.
Dr. KANGA Analyse en composantes principales
Données multivariées : tableau des données brutes
x1 ... ... xj ... ... xp
x1 x1,1 ... ... x1,j ... ... x1,p
x2 x2,1 ... ... x2,j ... ... x2,p
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
xn xn,1 ... ... xn,j ... ... xn,p
Dr. KANGA Analyse en composantes principales
Figure – Exemple de tableau brute de données.
Dr. KANGA Analyse en composantes principales
Nuages de points
On appelle nuage de points la représentation graphique des
coordonnées des n individus xi dans le repère de Rp dont les
axes sont les p variables du tableau de données.
Le nuage de points est la première étape de l’exploration
des données.
Il permet de visualiser les liens entre les variables ou les
ressemblances/dissemblances entre individus.
Les n individus forment ainsi un nuage de points dans le
sous-espace de Rp défini par les variables.
Dr. KANGA Analyse en composantes principales
Point moyen du nuage des individus
Le vecteur g des moyennes de chacune des p-variables définit le
point moyen du nuages des individu.
g = (x1 , . . . , xp )T
uT désigne la transposée du vecteur u.
Le centre de gravité G du nuage de points caractérise la
position globale du nuage d’individus dans le repère défini par
les variables.
Dr. KANGA Analyse en composantes principales
Le centrage des données permet de ramener toutes les colonnes
de X à la même origine O. On notera Xc cette nouvelle matrice
. . . . . . xp1 − xp
x11 − x1
1
x2 − x2 . . . . . . xp2 − xp
Xc = .. .. .. ..
. . . .
x1n − x1 . . . . . . xpn − xp
Proposition
Xc = X − 1g T
1
1
avec 1 =
..
.
1
Dr. KANGA Analyse en composantes principales
Matrice de variance covariance
On appelle matrice de variance la matrice symétrique V
contenant les variances s2j sur la diagonale et les covariances vkl
en dehors de la diagonale (ligne k colonne l pour vkl ). Cette
matrice s’écrit
1 T 1
V = X X − gg T = XcT Xc
n n
De même, on définit le coefficient de corrélation linéaire entre
les variables k et l par rkl = svkklsl .
En divisant chaque colonne j de Xc par l’écart-type sj , on
obtient la matrice Z qui est la matrice des données centrées
réduites.
Z = (X − 1g T )D1/s
1 1
où D1/s est une matrice diagonale contenant s1 , . . . , sp .
Dr. KANGA Analyse en composantes principales
Nous définissons la matrice R par
R = D1/s V D1/s .
R désigne la matrice des corrélations linéaires entre les p
variables prises deux à deux.
rk,l désigne le niveau de corrélation linéaire entre les
variables xl et xk .
Plus il est proche de 1 plus les variables sont corrélées
positivement.
Plus il est proche de -1, plus elles sont corrélées
négativement.
rk,l nul indique l’absence de corrélation linéaire entre les
variables xl et xk .
Dr. KANGA Analyse en composantes principales
Inertie ou dispersion du nuage de points
Définition
On appelle inertie totale ou dispersion du nuage de points, la
trace de la matrice V.
IG = T race(V )
IG représente la variance totale des données et mesure la
dispersion du nuage de points autour de G.
Plus IG est grande plus les points seront dispersés autour
de G
Dr. KANGA Analyse en composantes principales
Exemple
On considère la matrice de type de (3,2) suivante
4 5
X = 6 7 (1)
8 0
1 Soient X1 et X2 les vecteurs colonnes de X. Centrer et
réduire les variables X1 et X2 .
2 Déterminer la matrice V de variance-covariance et la
matrice R des corrélations.
3 Déterminer l’inertie totale.
4 Diagonaliser la matrice V .
Dr. KANGA Analyse en composantes principales
L’analyse en composantes principales est une des premières
analyses factorielles. On dispose d’un tableau de données
multivariées composé de variables quantitatives X continues,
homogènes (même système d’unités) ou non et à priori corrélées
entre elles.
Le problème qui se pose est que toutes les données ne sont pas
toutes visibles en représentation graphique, lorsque la
dimension de l’espaces des données est supérieure à 3.
Dr. KANGA Analyse en composantes principales
Solution : Condenser l’information du tableau de manière à
retirer les relations vraiment caractéristiques (proximités entre
variables et individus), mais en minimisant la perte
d’information.
Pour cela on détermine un sous-espace de dimension q ≤ p (q
nouveaux axes) et ensuite on projette le nuage de points sur les
nouveaux axes, pour obtenir une image moins déformée du
nuage de points.
Dr. KANGA Analyse en composantes principales
Construction d’un espace factorielle
On effectue un changement de repère, passant du repère
défini par les p variables à un repère de dimension q qui
donne l’image la moins déformée possible du nuage de
points.
Il sera défini par q nouveaux axes, appelés axes factoriels.
Ensuite on garde seulement les q ′ premiers axes du nouveau
repère, ce qui nous donnera l’espace factoriel de dimension
q′.
Il permet de récupérer les liens les plus significatifs
contenus dans le tableau.
Dr. KANGA Analyse en composantes principales
Le premier axe noté ∆1 de l’espace factoriel est celui qui
déforme le moins le nuage de points en projection.
Ensuite, on cherche un second axe ∆2 , sur lequel le nuage
se déforme le moins en projection, après le premier axe,
tout en étant orthogonal au premier
On réitère le processus jusqu’à l’obtention de q axes.
Dr. KANGA Analyse en composantes principales
Construire un axe avec moins de déformations
Il faut que l’axe sur lequel on projette explique une part
maximale de l’inertie totale du nuage de points, c’est à dire
permette la dispersion maximale du nuage de points.
Le second axe sera celui qui, après le premier est tel que le
nuage projeté est d’inertie maximale, tout en étant
orthogonal au premier
...
Dr. KANGA Analyse en composantes principales
Chaque axe factoriel ∆j de vecteur directeur uj , représente
une nouvelle variable vj de dimension n′ .
Cette nouvelle variable est appelé composante principale,
et est obtenue par combinaison linéaire des variables de
départ.
Les composantes principales sont construites de manière à
restituer la majeure partie de l’information.
Elles déforment le moins possible l’information.
Dr. KANGA Analyse en composantes principales
L’ACP, comment ça marche ?
Choix du tableau X : données centrées ou centrée-réduite ?
Construction de l’espace factoriel du nuage de points
associées aux tableau de donnée.
Interprétation des résultats :
Choix du nombres d’axes
Construction des nuages des points sur ces axes
et étude des proximités entre les variables
Synthèse des résultats.
Dr. KANGA Analyse en composantes principales
Choix du tableau de données : Commencer par centrer et
réduire X.
: Recherche du premier axe factoriel : Il passe par le centre
de gravité G, (point moyen).
Déterminer le vecteur directeur a1 . a1 est un vecteur normé
tel que le nuage de points projetés sur l’axe de vecteur
directeur a1 est d’inertie maximale.
Dr. KANGA Analyse en composantes principales
Définition
On appelle part de l’inertie totale du nuage de point expliqué
par l’axe ∆1 la quantité
I∆∗1 = aT1 V a1 .
I∆∗1 représente l’inertie totale du nuage de points lorsque
celui-ci est projeté sur ∆1 .
Propriétés
L’inertie totale du nuage de points lorsque celui-ci est projeté
sur le sous-espace supplémentaire orthogonal à ∆1 est notée I∆1
et vérifie la relation :
IG = I∆1 + I∆∗1 .
Dr. KANGA Analyse en composantes principales
Définition
I∆1 s’appelle part de l’inertie du nuage de point non mesuré
(non expliqué) par ∆1 .
Ainsi le problème de détermination de l’axe ∆1 devient un
problème d’optimisation qui se présente comme suit
max aT1 V a1
sc : aT1 a1 = 1
Dr. KANGA Analyse en composantes principales
Solution
a1 = u1 est une solution au problème où u1 est un vecteur
propre unitaire de V associé à la plus grande valeur propre λ1 .
V u1 = λ1 u1
Propriété des axes
I∆∗1 = uT1 V u1 = λ1 uT1 u1 = λ1
Le premier axe factoriel ∆1 restitue l’information égale à λ1 .
Dr. KANGA Analyse en composantes principales
Définition
Le vecteur des coordonnées de n points du nuages sur le
premier axe est
y1 = Xc u1
C’est le vecteur des valeurs prise par la première composante
principale sur les n individus.
Propriété
La première composante principale est centrée : y 1 = 0. Sa
variance empirique vaut :
n
1X
s2y1 = y 2 = uT1 V u1 = λ1
n i=1 i1
Dr. KANGA Analyse en composantes principales
Le deuxième axe factoriel ∆2 a pour vecteur le directeur le
vecteur propre u2 associé à la deuxième plus grande valeur
propre λ2 de V , orthogonale au premier axe.
et ainsi de suite, jusqu’au p-ième axe.
le j-ème axe factoriel restitue l’information égale à λj .
La j-ème composante principale est donnée par
yj = Xc uj
yj est centré et sa variance empirique
n
1X
s2j = y 2 = uTj V uj = λj .
n i=1 ij
Dr. KANGA Analyse en composantes principales
Elle est non corrélée avec les autres composantes principales
n
1X
s yj yl = yij yil = 0 si j ̸= l
n i=1
Coordonnées des individus sur les axes (scores) :
yij = xci1 u1j + . . . + xcip upj
les corrélations entre les variables du tableau initial et les
composantes : coordonnées des variables sur les axes
s
λk
r̃j,k = Corr(xji , yk ) = ukj
sjj
√
Dans le cas des ACP normé, on a Corr(xj , yk ) = ukj λk
Dr. KANGA Analyse en composantes principales
Interprétation des axes
Si les variables sont toutes du même coté de l’axe. (i.e. elles
contribuent toutes dans le même sens à la formation de
l’axe), on parle d’effet de taille.
S’il y a deux groupes de variables opposées : celles qui
contribuent positivement à l’axe, celles qui contribuent
négativement, on parle d’effet de forme.
Dr. KANGA Analyse en composantes principales
Pour chaque axe retenu, il faut répondre aux questions
suivantes :
Quels sont les individus qui participent le plus à la formation de
l’axe ? Il s’agit des points dont la contribution est supérieure à la
contribution moyenne qui permettent de donner un sens à l’axe.
Contribution relative de l’individu xi à l’inertie de l’axe ∆k
2
yik
c.r(xi /∆k ) = ,
nλk
n
X
c.r(xi /∆k ) = 1
i=1
En ACP normé, on retient pour l’interprétation
√ les individus
tels que c.r(xi /∆k ) > 1/n i.e |yik | > λk . Le sens de la
contribution dépend du signe de yik .
Dr. KANGA Analyse en composantes principales
Quelles sont les variables qui participent le plus à la
formation de l’axe ?
Il s’agit des variables dont la contribution est supérieure à la
contribution moyenne qui permettent de donner un sens à l’axe
Contribution relative de la variable xj à l’inertie de l’axe ∆k
2
r̃ik
c.r(xj /∆k ) = ,
λk
n
X
c.r(xj /∆k ) = 1
i=1
En ACP normé, on retient pour l’interprétation les variables
√
tels que c.r(xj /∆k ) > 1/p i.e |ujk | > 1/ p. Le sens de la
contribution dépend du signe de ujk .
Ces variables sont celles qui sont proches au bord du cercle de
corrélation
Dr. KANGA Analyse en composantes principales
Figure – Cercle de corrélation
Dr. KANGA Analyse en composantes principales
Le premier axe factoriel présente un effet de taille car
toutes les variables sont situées sur la partie positive de
l’axe.
Il isole le poids, la longueur et la largeur
Dr. KANGA Analyse en composantes principales
Etude de la proximité des points
Une variable est bien représentée sur un axe ou un plan
factoriel si elle est proche de sa projection sur l’axe ou le
plan.
S’il est éloigné, on dit qu’il est mal représenté.
On analyse le cosinus de l’angle formé entre le point et sa
projection sur l’axe
cos2 (θ) = r̃j,k
2
/∥xj ∥2
Une variable est mieux représentée sur un axe si elle est proche
du bord du cercle des corrélations et mal représentée si elle est
proche du centre du cercle des corrélations.
Dr. KANGA Analyse en composantes principales
Interprétation de la proximité des variables
Proximité des variables
Deux variables proches (angle proche de 0 ou cosinus
proche de 1) sont fortement corrélées positivement.
Deux variables qui s’opposent (angle proche de π ou cosinus
proche de -1) sont fortement corrélées négativement.
Deux variables orthogonales (angle proche de ±π/2 ou
cosinus proche de 0) sont non corrélées.
Dr. KANGA Analyse en composantes principales
Choix du nombres d’axes
Deux critères empiriques pour sélectionner le nombre d’axes :
Critère du coude : quand on observe un décrochement
(coude) suivi d’une décroissance régulière des valeurs
propres, on sélectionne les axes avant le décrochement.
Critère de Kaiser : on ne retient que les axes dont l’inertie
est supérieure à l’inertie moyenne 1/p.
Kaiser en ACP normée : on ne retient un axe que si sa
valeur propre est supérieure à 1 car l’inertie est de p dans
ce cadre.
Dr. KANGA Analyse en composantes principales
Exercice
Énoncé
Réaliser l’ACP de la matrice suivante, à partir de sa matrice de
dispersion (données centrées mais non réduites).
2 2
6 2
(2)
6 4
10 4
Solution
Dr. KANGA Analyse en composantes principales
Mise en oeuvre sous R
FactoMinerR (Husson et al. 2017) pour l’ACP.
factoextra (Kassambara et Mundt 2017) pour extraire,
visualiser et interpréter les résultats.
Dr. KANGA Analyse en composantes principales
S Dabo-Niang.
Cours d’ analyse de données IMSP-Benin
Note de Cours , pages :1–60.
G. Saporta
Analyse de données
Livre .
—
Analyse en Composante Principales
Note de Cours
Dr. KANGA Analyse en composantes principales