M2 Statistique-Probabilités - IMSP-Bénin 2021/2022
Analyse de données
1 ACP en résumé
Les données
On observe p variables quantitatives sur n individus, soit un tableau individus-variables
X à n lignes et p colonnes.
— Une variable est identifiée à la j−ìeme colonne de X, c’est-à-dire la liste des n
valeurs qu’elle prend sur les n individus
— On note xij la valeur de la variable numéro j observée sur l’observation (l’individu)
xi .
Matrice de poids
Soit D la matrice diagonale des poids
p1 0
D=
..
.
0 pn n,n
Dans le cas usuel où tous les individus ont le même poids, D = n1 In , avec In la matrice
identité n × n.
Centre de gravité
Le centre de gravité g du nuage de points caractérise la position globale du nuage d’indi-
vidus dans le repère défini par les variables.
n
X
> p
1 2 j
g = x̄ , x̄ , . . . , x̄ , . . . , x̄p = x̄ ∈ R , avec x̄j = pi xij .
i=1
G est le vecteur des moyennes arithmétiques.
g = X > D1n ,
où
1n = (1, · · · , 1)> ∈ Rn .
Matrices de variance-covarinace, corrélation
La matrice centrée est
Xc = X − In g >
= In − 1n 1>
nD X
1
n
La matrice de variance de X est S = X > DX − gg > = p i xi x> > >
P
i − gg = Xc DXc . La
i=1
matrice des données centrées et réduites est alors
!
xij − xj
Xcr = Xc D1/s = √
sjj
n,p
avec D1/s la matrice diagonale des inverses des écarts-types
√
1/ s11 , 0
D1/s =
..
.
√
0 1/ snn , n,n
La matrice des corrélations est
>
R = D1/s SD1/s = Xcr DXcr
D1/s2 la matrice diagonale des inverses des variances.
1.1 Les individus
La distance entre deux individus xi et xj est la forme quadratique :
d2 (xi , xj ) = (xi − xj )> M (xi − xj )
avec M (métrique) une matrice p × p symétrique définie positive.
Inertie totale du nuage de points
On appelle inertie totale ou dispersion du nuage de points, la moyenne pondérée des carrés
des distances des points au centre de gravité g :
n
X n
X n
X
2 >
Ig = pi d (xi , g) = pi (xi − g) M (xi − g) = pi kxi − gk2 .
i=1 i=1 i=1
Ig = T r(M S) = T r(SM ).
— Si M = Ip , Ig est la somme des variances des variables
— Si M = D1/s2
Ig = T r(D1/s2 S) = p,
p est le nombre de variables.
1.2 Les variables
La métrique permettant de mesurer la distance entre deux variables est la matrice
symétrique définie positive des poids D.
— Le produit scalaire associé est < ξk , ξj >= ξk> Dξj = ni=1 pi xik xij est la co-variance
P
skj si les variables sont centrées
— Le coefficient de corrélation linéaire entre deux variables ξk et ξj est l’angle θkj
entre les deux variables (centrées ) :
< ξk , ξj > skj
θkj = rkj = =√ √
kξk kkξj k skk sjj
2
1.3 Construction de l’espace factoriel
Le sous-espace portant l’inertie maximale du nuage de points (de dimension q) est
engendré par les q vecteurs propres de SM associées aux q plus grandes valeurs propres.
Axes, facteurs, composantes
— On appelle axes principaux uj , j = 1, ..., p, les p vecteurs propres de SM , de norme
1 par rapport à M .
— Aux axes principaux uj , on associe les facteurs principaux vj = M uj .
— Les composantes principales sont cj ∈ Rn , j = 1, ..., p sont les coordonnées des
projections M −orthogonales des individus sur les axes principaux vj unitaires :
cj = Xvj
— n
X
V ar(cj ) = λj = pi c2ij .
i=1
1.3.1 ACP usuelles
— Le choix M = Ip revient à diagonaliser la matrice S et à trouver ses valeurs
propres λ1 > λ1 > ... > λp et vecteurs propres unitaires associés. Dans ce cas, axes
et facteurs principaux sont confondus.
— Le choix le plus usuel est M = D1/s2 qui revient à travailler avec les données cen-
trées et réduites (ACP normée) Z = Xcr avec M = Ip , donc il suffit de diagonaliser
la matrice des corrélations R.
Dans ce cas, les facteurs ou axes principaux sont les vecteurs propres unitaires de
R. Les composantes sont cj = Zvj
— On privilégie l’ACP normée.
3
Corrélations variables facteurs, contributions, qualités de représentation
d’une ACP normée
La corrélation entre la composante principale ck et la variable ξj est
(ξj )> Dck
k
Cov ck , ξj
Cor c , ξj = √ = √ .
λk λk
√
En particulier Cor ck , ξj = λk ukj , où ukj est la j-ième coordonnée du k-ième vecteur
propre de R en ACP normée.
La contribution relative de la variable ξj à l’inertie de l’axe ∆k est
2 p
Cor ck , ξj k 2
X
c.r(ξj /∆k ) = = (uj ) ; c.r(ξj /∆k ) = 1.
λk j=1
En ACP normée, on retient pour l’interprétation les variables telles que
√
c.r(ξj /∆k ) > 1/p i.e |ukj | > 1/ p.
La qualité de représentation d’une variable est le cosinus carré de l’angle formé entre le
point et sa projection sur l’axe :
2
Cor ck , ξj /kξj k2 .
En ACP normée −→ kξj k2 = 1.
La contribution de l’individu xi à la création de l’axe ∆k est (en %)
c2ik
c.r(xi /∆k ) = pi
λk
On a ni=1 c.r(xi /∆k ) = 1.
P
On dira qu’un individu contribue de façon importante à la création de l’axe k si
c2 p
c.r(xi /∆k ) = pi ik ≥ api ou |cik | ≥ aλk
λk
On prendra a = 1, 2, 3 etc. (en particulier a = 1), valeur que l’on gardera pour tous les
axes.
En ACP normée, si tous les individus ont le même poids pi = 1/n, on retient (si a = 1)
c2 √
pour l’interprétation les individus tels que c.r(xi /∆k ) = nλikk > 1/n i.e |cik | > λk .
Considérons un individu xi (dans Rp ) avec zi sa version centrée ou réduite (selon que
l’ACP soit normée ou pas) et un axe ∆k , la qualité de représentation de l’individu sur ∆k
est 2
k 2 zi> uk
cos(zi , u ) = .
kzi k2
ObservonsP que zi> uk = cik la i-ième coordonnée de la k-ième composante principale. On
a kzi k2 = pj=1 (cij )2 , donc
(cik )2
cos(zi , uk )2 = Pp 2
j=1 (cij )
4
1.4 Interprétation
Il faut suivre les étapes suivantes :
— Choix du tableau de données X : données centrées ou centrées-réduites (on donne
à chaque variable la même importance, ce qui est important quand les variables ne
sont pas de mêmes unités)
— Construction de l’espace factoriel du nuage de points associé au tableau de données.
— Interprétation des résultats :
— choix du nombre d’axes q à retenir,
Cette détermination est basée sur l’examen des trois indicateurs suivants :
— le pourcentage d’inertie cumulée qui doit être le plus grand possible. Le com-
plément à 100 % de ce pourcentage représente la mesure de la déformation
globale du nuage des individus en projection dans le sous espace considéré ;
— les inerties projetées supérieures à la moyenne (1 pour l’ACP normée). On
rappelle que la somme des inerties vaut en ACP normée p, le nombre de
variables actives du tableau ;
— la technique graphique du coude : l’examen de la décroissance des inerties
projetées
— construction des nuages de points projetés sur ces axes, et calcul des corrélation
des variables avec les axes retenus, des contributions et corrélations des variables
et des individus sur ces axes
— étude des proximités entre les individus et entre les variables et interprétation
des axes principaux
— L’ interprétation est basée sur
— la détermination des variables expliquant chacun des axes est réalisée en
examinant leurs coordonnées (table des vecteurs propres si l’ACP est nor-
mée) ou contributions. Une coordonnée sur un axe représente le coefficient
de corrélation entre la variable concernée et la composante principale qui
dirige l’axe.
D’autre part, en considérant un plan factoriel, les variables bien représentées
dans ce plan sont determinées par leur proximité du cercle de centre O et
de rayon 1, appelée "cercle des corrélation". Plus une variable se positionne
près du cercle, meilleure est sa représentation dans le plan.
— la détermination des individus ayant le plus participé à la construc-
tion d’un axe donné.
Un axe factoriel représente, pour le nuage des individus, une direction d’al-
longement du nuage, créée par un groupe d’individus s’opposant au reste du
nuage. La détermination des individus ayant le plus participé à la construc-
tion de l’axe peut se faire par l’examen des contributions. Lorsque les indi-
vidus ont le même poids, cette recherche revient à déterminer ceux ayant
les abscisses en valeurs absolues sur l’axe les plus importantes.
— l’examen de la qualité de représentation qui indique pour chaque
individu sa qualité de représentation sur chaque axe
— Synthèse des résultats.