Analyse de données – Partie I : Analyse en Composantes Principales
Introduction et ACP
Angelina Roche
Executive Master Statistique et Big Data
Analyse de données – Partie I : Analyse en Composantes Principales
Plan du chapitre
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données
Plan
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données
Objectifs du cours
I Apprendre à extraire de l’information provenant de tableaux de données :
I quantitatives (numériques) : ACP (Analyse en Composantes Principales),
I qualitatives (données issues de questionnaires, données textuelles,...) : AFC (Analyse
Factorielle des Correspondances), ACM (Analyse des Correspondances Multiples).
I Réduire la dimension des données comme première étape pour d’autres méthodes
statistique (détection d’outliers, classification,...).
I Représenter graphiquement des données de grande dimension ou qualitatives.
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données
Déroulement du cours
I 3 séances de 3h de cours et TP sous R.
I Plan du cours :
1. Analyse en Composantes Principales (ACP).
2. Analyse Factorielle des Correspondances (AFC).
3. Suivant le temps :
3.1 Analyse Factorielle des Correspondances Multiples (AFCM),
3.2 ACP sur données mixtes
3.3 classification sur composantes principales
3.4 classification ascendante hiérarchique (CAH)
3.5 ACP parcimonieuse
Si vous avez une préférence entre ces différents thèmes n’hésitez pas à me le faire
savoir.
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données
Validation du cours
I Deux mini-projets :
Projet 1 (P1) : à rendre avant le mardi 28 mars, application directe du cours
d’aujourd’hui.
Projet 2 (P2) : à rendre avant le vendredi 5 mai.
I Note finale = (P1+2*P2)/3.
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données
Quelques références
I Page web de François Husson : http://math.agrocampus-ouest.fr/
infoglueDeliverLive/membres/Francois.Husson/enseignement incluant des
vidéos et des références bibliographiques.
I Lebart, L., Morineau, A. et Piron, M. (2002). Statistique exploratoire
multidimensionnelle, Dunod.
I Escofier, B. et Pagès ; J. (1998). Analyses factorielles simples et multiples, Dunod.
I Saporta, G. (1990). Probabilités, Analyse de Données et Statistique, Technip,
Paris.
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Plan
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Notations
I L’objectif est de décrire la distribution de plusieurs variables numériques observées
sur les mêmes individus.
I Nous notons :
I xij l’observation de la j-ème variable sur l’individu i,
I p nombre de variables
I n nombre d’individus.
I Les données sont donc représentées sous la forme d’une matrice à n lignes et p
colonnes
x1 . . . x1p
1
X = ... . . . ... .
xn1 . . . xnp
I Ici, p est grand voire très grand.
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Exemple de données
Consommation de protéines en Europe : pour chacun des pays, relevé de la consommation
moyenne journalière des 9 types de protéines.
Les individus (en ligne) sont les pays de l’union européenne et les variables sont la
consommation journalière (en colonne) des 9 types de protéines.
XXX Prot.
viandr viandb oeuf lait poisson céréale féculent ...
Pays XXX
Bulgaria 7,8 6,0 1,6 8,3 1,2 56,7 1,1 ...
Yugoslavia 4,4 5,0 1,2 9,5 0,6 55,9 3,0 ...
Romania 6,2 6,3 1,5 11,1 1,0 49,6 3,1 ...
Germany 11,4 12,5 4,1 18,8 3,4 18,6 5,2 ...
France 18,0 9,9 3,3 19,5 5,7 28,1 4,8 ...
Norway 9,4 4,7 2,7 23,3 9,7 23,0 4,6 ...
Greece 10,2 3,0 2,8 17,6 5,9 41,7 2,2 ...
... ... ... ... ... ... ... ... ...
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Centrer, réduire, standardiser
I Centrer, c’est enlever la valeur de la moyenne de la variable :
n
1X j
xij ← xij j
− x̄ où x̄ = j
xi .
n
i=1
I Réduire, c’est diviser par l’écart-type de la variable :
n
1X j
xij ← xij /σj où σj2 = (xi − x̄ j )2 .
n
i=1
I Standardiser, c’est centrer et réduire :
xij − x̄ j
xij ← .
σj
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Quand faut-il standardiser ou réduire les données ?
I Indispensable lorsque les variables ne sont pas exprimées dans la même unité.
I Généralement conseillé : permet d’accorder la même importance à chaque variable.
I Grande influence sur le résultat de l’étude.
I Mise en pratique : fonction scale() de R.
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données
Pondération des individus
I Il peut être utile de pondérer les individus.
I On associe à chaque individu i un point pi tel que
n
X
pi ≥ 0 pour tout i et pi = 1.
i=1
I Habituellement (c’est-à-dire sans pondération), pi = 1/n.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Plan
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Nuage des individus
I Individu : xi = (xi1 , ..., xip ).
I Nuage des individus NI ⊂ Rp .
I ACP normée : les données sont standardisées,
xip − x̄ p
1
xi − x̄ 1
NI = , ..., , i = 1, ..., n
σ1 σp
I ACP non normée : les données sont juste centrées
NI = xi1 − x̄ 1 , ..., xip − x̄ p , i = 1, ..., n
I Objectif : fournir une représentation simplifiée de NI la plus fidèle possible.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Meilleure représentation plane d’un nuage de points NI
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Meilleure représentation plane d’un nuage de points NI
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Meilleure représentation d’un nuage de points NI
I Inertie totale (= variance empirique) du nuage de point NI :
n
1X
I = kxi − x̄k2 ,
n
i=1
avec x̄ = (x̄ 1 , ..., x̄ p ).
I Représente la quantité d’information apportée par le tableau de données.
I Version pondérée :
n
X
I = pi kxi − x̄k2 .
i=1
1 Pn j
avec x̄ = (x̄ 1 , ..., x̄ p ) où x̄ j = n i=1 pi xi .
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Meilleure représentation d’un nuage de points NI
I Inertie de la projection sur un sous-espace E où les données sont projetées (=
variance expliquée) :
n
1X
IE = kpE (xi ) − x̄k2 ,
n
i=1
où pE (xi ) est la projection orthogonale du point xi sur le sous-espace E .
I Nous cherchons le sous-espace EK de Rn de dimension K d’inertie maximale.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Matrice de variance-covariance et matrice de corrélation
I La matrice de variance-covariance associée à X est la matrice
σ12 Cov(x 1 , x 2 ) . . . Cov(x 1 , x p )
.. ..
Cov(x 1 , x 2 )
. .
V =
.. .. ..
,
.
. .
Cov(x 1 , x p ) ... ... σp2
0 j 0 0
− x̄ j )(xij − x̄ j ).
1 Pn
où Cov(x j , x j ) = n i=1 (xi
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Matrice de variance-covariance et matrice de corrélation
I La matrice de corrélation associée à X est la matrice
Cov(x 1 ,x 2 ) Cov(x 1 ,x p )
1 σ1 σ2 . . . σ1 σp
Cov(x 1 ,x 2 )
.. ..
σ1 σ2 . .
C = .
.. .. ..
. . .
Cov(x 1 ,x p )
σ1 σp ... ... 1
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
ACP et vecteurs propres
I Soient v 1 , ..., v p les vecteurs propres de la matrice de corrélation C et λ1 , ..., λp les
valeurs propres associées comptées avec multiplicité et numérotées telles que :
λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0.
I En ACP normée, l’espace EK de dimension K d’inertie maximale est
n o
EK = Vect v 1 , ..., v K .
I En ACP non normée, nous considérons les éléments propres de la matrice de
variance-covariance V .
Mise en pratique 1 : premiers pas dans l’ACP.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Variance expliquée et valeurs propres
I λj : inertie du nuage de points NI projetée sur l’axe j = variance expliquée par le
j-ème axe.
I IEK = λ1 + ... + λK : inertie du nuage de points NI projetée sur l’espace EK =
variance expliquée par les K premiers axes de l’ACP.
I I = λ1 + ... + λp : inertie totale.
I Proportion d’inertie expliquée par les K premiers axes :
IEK
.
I
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension
Choix du nombre d’axes
I Critère du coude : existence d’un coude dans le tracé de j 7→ λj (ébouli des valeurs
propres) ,→ on garde les axes avant le coude.
I Critère empirique : on garde les axes que l’on sait interpréter.
I Autre critère (très) répandu lorsque l’on souhaite réduire la dimension avant
d’utiliser une autre méthode : K le plus grand entier tel que IEK /I ≥ s (souvent
s = 80% ou s = 90%).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Plan
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Projection du nuage des individus
I Les axes de l’ACP v1 , ..., vK sont des éléments de Rp
I k-ème axe de l’ACP :
vk1
vk = ... .
vkp
Pp j j
I sik = x̃i vk = j=1 x̃i vk : coordonnée du i-ème individu par rapport à l’axe k, où
x̃ij = (xij − x̄ j )/σj (ACP normée) ou x̃ij = xij − x̄ j (ACP non normée).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Illustration données Mise en pratique 1
Figure – À droite : représentation du nuage NI (tracé des points (x̃i1 , x̃i2 , x̃i3 ), i = 1, ..., n). À
gauche : représentation du nuage projeté sur le premier plan (tracé des points (si1 , si2 ),
i = 1, ..., n).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Composantes principales
I s k = (s1k , ..., snk ) : composante principale ,→ assimilable à une variable.
n n n
!
X X X
sik = x̃i vk = x̃i vk = 0
i=1 i=1 i=1
| {z }
=0
⇒ les composantes principales sont centrées.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Composantes principales (II)
I Soient
s1p v1p x̃1p
1 1 1
s1 ... v1 ... x̃1 ...
..
S =. .. .. , P = .. .. .. , X̃ = .. .. .. .
. . . . . . . .
sn1 ... snp vp1 ... vpp x̃n1 ... x̃np
I Par définition : S = X̃ P, d’où
S t S = P t X̃ t X̃ P = P t CP = diag(λ1 , ..., λp ).
Pn k 2
Pn j k
⇒ λk = i=1 (si ) , i=1 si si = 0 si j 6= k.
I La variance de la k-ème composante est égale à λk .
I Les composantes principales sont décorrelées.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Représentation des variables
I Corrélation de la variable x̃ j par rapport à la k-ème composante principale s k :
n n
1 X j sik 2 k
X
cor(x̃ j , s k ) = x̃i où σ (s ) = (sik )2 = λk .
n σ(s k )
i=1 i=1
I Rappels :
I −1 ≤ cor(x̃ j , s k ) ≤ 1,
I Plus |cor(x̃ j , s k )| proche de 1, plus on considèrera que la variable j est liée à l’axe k.
I cor(x̃ j , s k ) < 0 : corrélation négative,
I cor(x̃ j , s k ) > 0 : corrélation positive.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Cercles des corrélations
Variables factor map (PCA)
1.0
Height
0.5
Dim 2 (15.23%)
0.0
Wr.Hnd
NW.Hnd
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (83.62%)
Figure – Représentation des corrélations sous la forme d’un cercle. Chaque flèche pointe sur le point
de coordonnées (cor(x̃ j , s 1 ), cor(x̃ j , s 2 )), j = 1, ..., p.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus
Cas de l’ACP non normée
I Dans une ACP non normée : on représente les covariances des variables par rapport
aux axes et non les corrélations.
I Elles n’apparaissent donc plus sur un cercle.
Variables factor map (PCA)
6
4
Dim 2 (3.94%)
2
NW.Hnd
NW.Hnd
Wr.Hnd
Wr.Hnd
0
Height
Height
−2
−4
0 2 4 6 8 10 12
Dim 1 (95.93%)
Mise en pratique 2 : données températures/données protéines
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation
Plan
Introduction au cours d’analyse de données
Tableaux de données
Réduction de la dimension
Étude des variables et des individus
Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation
Variables supplémentaires
I Utilité : variables construites à partir d’autres variables mais pouvant aider à
l’interprétation ou variables quantitatives supplémentaires.
I Variables quantitatives : ajout sur le cercle des corrélations.
I Variables qualitatives : ajout dans le nuage des individus (coloration des individus
en fonction des modalités par exemple).
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation
Individus supplémentaires
I Utilité : individus ayant une contribution trop importante, ou dont on doute de la
fiabilité, nouvelle étude,....
I Ajout dans le nuage des individus.
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation
Contribution d’un individu à l’inertie d’un axe
I Rappel :
n
X
λk = (ski )2 .
i=1
I Contribution de l’individu i à l’inertie de l’axe k :
(ski )2
ctr(i, k) = .
λk
I Lorsque les individus ne sont pas anonymes, ceux ayant une contribution
importante (par exemple > 1/n) peuvent aider à l’interprétation des axes.
I Attention aux individus ayant une contribution trop importante (> 25%).
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation
Qualité de représentation d’un individu
I Nous avons : dist(0, x̃i )2 = pj=1 (sij )2 .
P
I Qualité de représentation de l’individu i sur l’axe j :
(sij )2
Q(i, j) = .
dist(0, x̃i )2
I On appelle parfois cet indice cosinus carré.