0% ont trouvé ce document utile (0 vote)
55 vues39 pages

Analyse en Composantes Principales: Dr. Kanga

L'analyse en composantes principales (ACP) est une méthode statistique utilisée pour réduire la dimensionnalité des données multivariées tout en préservant l'information essentielle. Elle permet de transformer un ensemble de variables corrélées en un plus petit nombre de variables non corrélées appelées composantes principales, facilitant ainsi l'interprétation des données. L'ACP est largement appliquée dans divers domaines scientifiques et industriels pour analyser des données complexes et volumineuses.

Transféré par

divinebanon1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues39 pages

Analyse en Composantes Principales: Dr. Kanga

L'analyse en composantes principales (ACP) est une méthode statistique utilisée pour réduire la dimensionnalité des données multivariées tout en préservant l'information essentielle. Elle permet de transformer un ensemble de variables corrélées en un plus petit nombre de variables non corrélées appelées composantes principales, facilitant ainsi l'interprétation des données. L'ACP est largement appliquée dans divers domaines scientifiques et industriels pour analyser des données complexes et volumineuses.

Transféré par

divinebanon1
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse en composantes principales

Dr. KANGA

9 janvier 2025
Introduction

L’analyse des données désigne les analyses statistiques


descriptives multidimensionnelles. Elle permet en général de
réduire l’espace multidimensionnel (où l’information n’est pas
lisible) en un espace à deux ou trois dimensions (où
l’information est lisible), de telle sorte que l’espace réduit
résume une grande partie de l’information contenue dans
l’espace multidimensionnel d’origine.
L’analyse des données rassemble :
les analyses factorielles : ces méthodes tirent leur nom des
axes de l’espace réduit, nommés axes principaux, mais
aussi facteurs.
les méthodes de classification automatique : algorithmes
permettant d’effectuer des classifications

Dr. KANGA Analyse en composantes principales


Domaine d’application de d’analyse de données

Elle permet l’analyse d’enquêtes (sondages où de


nombreuses données qualitatives doivent être prises en
compte)
Tout domaine scientifique qui doit gérer de grande quantité
de données de type varié (gestion, économie, etc) ainsi que
tout domaine industriel (assurance, banque, téléphonie,
etc) ont recours à ces approches.

Dr. KANGA Analyse en composantes principales


De manière générale, le terme "analyse factorielle" est
souvent employé autant pour l’analyse en composantes
principales (ACP) et l’analyse factorielle des
correspondances (AFC et ACFM).
L’analyse factorielle (pure ou en composantes principales)
est une réduction d’une matrice de données à quelques
groupes à l’aide de nouvelles variables appelées
"composantes", "facteurs" ou "axes factoriels"
L’ACP met en évidence des composantes tenant compte de la
variance totale de toutes les variables à l’étude.

Dr. KANGA Analyse en composantes principales


Présentation des données multivariées

Dans une analyse à composante principale, les données sont


sous la forme d’un tableau à n lignes et p colonnes que l’on
pourra stocker dans une matrice X d’ordre n × p.
Chacune des lignes désigne un individu i sur le quel on
observe p variables (x1i , . . . , xpi ).
De même chaque colonne (xj1 , . . . , xjn ) représente la
variables j pour n individus.

Dr. KANGA Analyse en composantes principales


Données multivariées : tableau des données brutes

x1 ... ... xj ... ... xp


x1 x1,1 ... ... x1,j ... ... x1,p
x2 x2,1 ... ... x2,j ... ... x2,p
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
xn xn,1 ... ... xn,j ... ... xn,p

Dr. KANGA Analyse en composantes principales


Figure – Exemple de tableau brute de données.
Dr. KANGA Analyse en composantes principales
Nuages de points
On appelle nuage de points la représentation graphique des
coordonnées des n individus xi dans le repère de Rp dont les
axes sont les p variables du tableau de données.

Le nuage de points est la première étape de l’exploration


des données.
Il permet de visualiser les liens entre les variables ou les
ressemblances/dissemblances entre individus.
Les n individus forment ainsi un nuage de points dans le
sous-espace de Rp défini par les variables.

Dr. KANGA Analyse en composantes principales


Point moyen du nuage des individus
Le vecteur g des moyennes de chacune des p-variables définit le
point moyen du nuages des individu.

g = (x1 , . . . , xp )T

uT désigne la transposée du vecteur u.


Le centre de gravité G du nuage de points caractérise la
position globale du nuage d’individus dans le repère défini par
les variables.

Dr. KANGA Analyse en composantes principales


Le centrage des données permet de ramener toutes les colonnes
de X à la même origine O. On notera Xc cette nouvelle matrice

. . . . . . xp1 − xp
 
x11 − x1
 1
 x2 − x2 . . . . . . xp2 − xp 

Xc =  .. .. .. .. 
. . . .
 
 
x1n − x1 . . . . . . xpn − xp

Proposition

Xc = X − 1g T
 
1
1
 
avec 1 = 
 .. 

.
1

Dr. KANGA Analyse en composantes principales


Matrice de variance covariance

On appelle matrice de variance la matrice symétrique V


contenant les variances s2j sur la diagonale et les covariances vkl
en dehors de la diagonale (ligne k colonne l pour vkl ). Cette
matrice s’écrit
1 T 1
V = X X − gg T = XcT Xc
n n
De même, on définit le coefficient de corrélation linéaire entre
les variables k et l par rkl = svkklsl .
En divisant chaque colonne j de Xc par l’écart-type sj , on
obtient la matrice Z qui est la matrice des données centrées
réduites.
Z = (X − 1g T )D1/s
1 1
où D1/s est une matrice diagonale contenant s1 , . . . , sp .

Dr. KANGA Analyse en composantes principales


Nous définissons la matrice R par

R = D1/s V D1/s .

R désigne la matrice des corrélations linéaires entre les p


variables prises deux à deux.
rk,l désigne le niveau de corrélation linéaire entre les
variables xl et xk .
Plus il est proche de 1 plus les variables sont corrélées
positivement.
Plus il est proche de -1, plus elles sont corrélées
négativement.
rk,l nul indique l’absence de corrélation linéaire entre les
variables xl et xk .

Dr. KANGA Analyse en composantes principales


Inertie ou dispersion du nuage de points

Définition
On appelle inertie totale ou dispersion du nuage de points, la
trace de la matrice V.

IG = T race(V )

IG représente la variance totale des données et mesure la


dispersion du nuage de points autour de G.
Plus IG est grande plus les points seront dispersés autour
de G

Dr. KANGA Analyse en composantes principales


Exemple
On considère la matrice de type de (3,2) suivante
 
4 5
X = 6 7  (1)
 
8 0

1 Soient X1 et X2 les vecteurs colonnes de X. Centrer et


réduire les variables X1 et X2 .
2 Déterminer la matrice V de variance-covariance et la
matrice R des corrélations.
3 Déterminer l’inertie totale.
4 Diagonaliser la matrice V .

Dr. KANGA Analyse en composantes principales


L’analyse en composantes principales est une des premières
analyses factorielles. On dispose d’un tableau de données
multivariées composé de variables quantitatives X continues,
homogènes (même système d’unités) ou non et à priori corrélées
entre elles.
Le problème qui se pose est que toutes les données ne sont pas
toutes visibles en représentation graphique, lorsque la
dimension de l’espaces des données est supérieure à 3.

Dr. KANGA Analyse en composantes principales


Solution : Condenser l’information du tableau de manière à
retirer les relations vraiment caractéristiques (proximités entre
variables et individus), mais en minimisant la perte
d’information.
Pour cela on détermine un sous-espace de dimension q ≤ p (q
nouveaux axes) et ensuite on projette le nuage de points sur les
nouveaux axes, pour obtenir une image moins déformée du
nuage de points.

Dr. KANGA Analyse en composantes principales


Construction d’un espace factorielle

On effectue un changement de repère, passant du repère


défini par les p variables à un repère de dimension q qui
donne l’image la moins déformée possible du nuage de
points.
Il sera défini par q nouveaux axes, appelés axes factoriels.
Ensuite on garde seulement les q ′ premiers axes du nouveau
repère, ce qui nous donnera l’espace factoriel de dimension
q′.
Il permet de récupérer les liens les plus significatifs
contenus dans le tableau.

Dr. KANGA Analyse en composantes principales


Le premier axe noté ∆1 de l’espace factoriel est celui qui
déforme le moins le nuage de points en projection.
Ensuite, on cherche un second axe ∆2 , sur lequel le nuage
se déforme le moins en projection, après le premier axe,
tout en étant orthogonal au premier
On réitère le processus jusqu’à l’obtention de q axes.

Dr. KANGA Analyse en composantes principales


Construire un axe avec moins de déformations

Il faut que l’axe sur lequel on projette explique une part


maximale de l’inertie totale du nuage de points, c’est à dire
permette la dispersion maximale du nuage de points.
Le second axe sera celui qui, après le premier est tel que le
nuage projeté est d’inertie maximale, tout en étant
orthogonal au premier
...

Dr. KANGA Analyse en composantes principales


Chaque axe factoriel ∆j de vecteur directeur uj , représente
une nouvelle variable vj de dimension n′ .
Cette nouvelle variable est appelé composante principale,
et est obtenue par combinaison linéaire des variables de
départ.
Les composantes principales sont construites de manière à
restituer la majeure partie de l’information.
Elles déforment le moins possible l’information.

Dr. KANGA Analyse en composantes principales


L’ACP, comment ça marche ?

Choix du tableau X : données centrées ou centrée-réduite ?


Construction de l’espace factoriel du nuage de points
associées aux tableau de donnée.
Interprétation des résultats :
Choix du nombres d’axes
Construction des nuages des points sur ces axes
et étude des proximités entre les variables
Synthèse des résultats.

Dr. KANGA Analyse en composantes principales


Choix du tableau de données : Commencer par centrer et
réduire X.
: Recherche du premier axe factoriel : Il passe par le centre
de gravité G, (point moyen).
Déterminer le vecteur directeur a1 . a1 est un vecteur normé
tel que le nuage de points projetés sur l’axe de vecteur
directeur a1 est d’inertie maximale.

Dr. KANGA Analyse en composantes principales


Définition
On appelle part de l’inertie totale du nuage de point expliqué
par l’axe ∆1 la quantité

I∆∗1 = aT1 V a1 .

I∆∗1 représente l’inertie totale du nuage de points lorsque


celui-ci est projeté sur ∆1 .

Propriétés
L’inertie totale du nuage de points lorsque celui-ci est projeté
sur le sous-espace supplémentaire orthogonal à ∆1 est notée I∆1
et vérifie la relation :

IG = I∆1 + I∆∗1 .

Dr. KANGA Analyse en composantes principales


Définition
I∆1 s’appelle part de l’inertie du nuage de point non mesuré
(non expliqué) par ∆1 .
Ainsi le problème de détermination de l’axe ∆1 devient un
problème d’optimisation qui se présente comme suit

max aT1 V a1
sc : aT1 a1 = 1

Dr. KANGA Analyse en composantes principales


Solution
a1 = u1 est une solution au problème où u1 est un vecteur
propre unitaire de V associé à la plus grande valeur propre λ1 .

V u1 = λ1 u1

Propriété des axes

I∆∗1 = uT1 V u1 = λ1 uT1 u1 = λ1


Le premier axe factoriel ∆1 restitue l’information égale à λ1 .

Dr. KANGA Analyse en composantes principales


Définition
Le vecteur des coordonnées de n points du nuages sur le
premier axe est
y1 = Xc u1
C’est le vecteur des valeurs prise par la première composante
principale sur les n individus.

Propriété
La première composante principale est centrée : y 1 = 0. Sa
variance empirique vaut :
n
1X
s2y1 = y 2 = uT1 V u1 = λ1
n i=1 i1

Dr. KANGA Analyse en composantes principales


Le deuxième axe factoriel ∆2 a pour vecteur le directeur le
vecteur propre u2 associé à la deuxième plus grande valeur
propre λ2 de V , orthogonale au premier axe.
et ainsi de suite, jusqu’au p-ième axe.
le j-ème axe factoriel restitue l’information égale à λj .
La j-ème composante principale est donnée par

yj = Xc uj

yj est centré et sa variance empirique


n
1X
s2j = y 2 = uTj V uj = λj .
n i=1 ij

Dr. KANGA Analyse en composantes principales


Elle est non corrélée avec les autres composantes principales
n
1X
s yj yl = yij yil = 0 si j ̸= l
n i=1

Coordonnées des individus sur les axes (scores) :

yij = xci1 u1j + . . . + xcip upj

les corrélations entre les variables du tableau initial et les


composantes : coordonnées des variables sur les axes
s
λk
r̃j,k = Corr(xji , yk ) = ukj
sjj

Dans le cas des ACP normé, on a Corr(xj , yk ) = ukj λk

Dr. KANGA Analyse en composantes principales


Interprétation des axes

Si les variables sont toutes du même coté de l’axe. (i.e. elles


contribuent toutes dans le même sens à la formation de
l’axe), on parle d’effet de taille.
S’il y a deux groupes de variables opposées : celles qui
contribuent positivement à l’axe, celles qui contribuent
négativement, on parle d’effet de forme.

Dr. KANGA Analyse en composantes principales


Pour chaque axe retenu, il faut répondre aux questions
suivantes :
Quels sont les individus qui participent le plus à la formation de
l’axe ? Il s’agit des points dont la contribution est supérieure à la
contribution moyenne qui permettent de donner un sens à l’axe.
Contribution relative de l’individu xi à l’inertie de l’axe ∆k

2
yik
c.r(xi /∆k ) = ,
nλk
n
X
c.r(xi /∆k ) = 1
i=1

En ACP normé, on retient pour l’interprétation


√ les individus
tels que c.r(xi /∆k ) > 1/n i.e |yik | > λk . Le sens de la
contribution dépend du signe de yik .

Dr. KANGA Analyse en composantes principales


Quelles sont les variables qui participent le plus à la
formation de l’axe ?
Il s’agit des variables dont la contribution est supérieure à la
contribution moyenne qui permettent de donner un sens à l’axe
Contribution relative de la variable xj à l’inertie de l’axe ∆k

2
r̃ik
c.r(xj /∆k ) = ,
λk
n
X
c.r(xj /∆k ) = 1
i=1

En ACP normé, on retient pour l’interprétation les variables



tels que c.r(xj /∆k ) > 1/p i.e |ujk | > 1/ p. Le sens de la
contribution dépend du signe de ujk .
Ces variables sont celles qui sont proches au bord du cercle de
corrélation
Dr. KANGA Analyse en composantes principales
Figure – Cercle de corrélation
Dr. KANGA Analyse en composantes principales
Le premier axe factoriel présente un effet de taille car
toutes les variables sont situées sur la partie positive de
l’axe.
Il isole le poids, la longueur et la largeur

Dr. KANGA Analyse en composantes principales


Etude de la proximité des points

Une variable est bien représentée sur un axe ou un plan


factoriel si elle est proche de sa projection sur l’axe ou le
plan.
S’il est éloigné, on dit qu’il est mal représenté.
On analyse le cosinus de l’angle formé entre le point et sa
projection sur l’axe

cos2 (θ) = r̃j,k


2
/∥xj ∥2

Une variable est mieux représentée sur un axe si elle est proche
du bord du cercle des corrélations et mal représentée si elle est
proche du centre du cercle des corrélations.

Dr. KANGA Analyse en composantes principales


Interprétation de la proximité des variables

Proximité des variables


Deux variables proches (angle proche de 0 ou cosinus
proche de 1) sont fortement corrélées positivement.
Deux variables qui s’opposent (angle proche de π ou cosinus
proche de -1) sont fortement corrélées négativement.
Deux variables orthogonales (angle proche de ±π/2 ou
cosinus proche de 0) sont non corrélées.

Dr. KANGA Analyse en composantes principales


Choix du nombres d’axes

Deux critères empiriques pour sélectionner le nombre d’axes :


Critère du coude : quand on observe un décrochement
(coude) suivi d’une décroissance régulière des valeurs
propres, on sélectionne les axes avant le décrochement.
Critère de Kaiser : on ne retient que les axes dont l’inertie
est supérieure à l’inertie moyenne 1/p.
Kaiser en ACP normée : on ne retient un axe que si sa
valeur propre est supérieure à 1 car l’inertie est de p dans
ce cadre.

Dr. KANGA Analyse en composantes principales


Exercice

Énoncé
Réaliser l’ACP de la matrice suivante, à partir de sa matrice de
dispersion (données centrées mais non réduites).
 
2 2
6 2
(2)
 
6 4
 

10 4
Solution

Dr. KANGA Analyse en composantes principales


Mise en oeuvre sous R

FactoMinerR (Husson et al. 2017) pour l’ACP.


factoextra (Kassambara et Mundt 2017) pour extraire,
visualiser et interpréter les résultats.

Dr. KANGA Analyse en composantes principales


S Dabo-Niang.
Cours d’ analyse de données IMSP-Benin
Note de Cours , pages :1–60.
G. Saporta
Analyse de données
Livre .

Analyse en Composante Principales
Note de Cours

Dr. KANGA Analyse en composantes principales

Vous aimerez peut-être aussi