0% ont trouvé ce document utile (0 vote)
35 vues37 pages

Introduction à l'Analyse en Composantes Principales

Transféré par

metouwilfried79
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues37 pages

Introduction à l'Analyse en Composantes Principales

Transféré par

metouwilfried79
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse de données – Partie I : Analyse en Composantes Principales

Introduction et ACP

Angelina Roche

Executive Master Statistique et Big Data


Analyse de données – Partie I : Analyse en Composantes Principales

Plan du chapitre

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données

Plan

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données

Objectifs du cours

I Apprendre à extraire de l’information provenant de tableaux de données :


I quantitatives (numériques) : ACP (Analyse en Composantes Principales),
I qualitatives (données issues de questionnaires, données textuelles,...) : AFC (Analyse
Factorielle des Correspondances), ACM (Analyse des Correspondances Multiples).

I Réduire la dimension des données comme première étape pour d’autres méthodes
statistique (détection d’outliers, classification,...).

I Représenter graphiquement des données de grande dimension ou qualitatives.


Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données

Déroulement du cours
I 3 séances de 3h de cours et TP sous R.

I Plan du cours :
1. Analyse en Composantes Principales (ACP).
2. Analyse Factorielle des Correspondances (AFC).
3. Suivant le temps :
3.1 Analyse Factorielle des Correspondances Multiples (AFCM),
3.2 ACP sur données mixtes
3.3 classification sur composantes principales
3.4 classification ascendante hiérarchique (CAH)
3.5 ACP parcimonieuse
Si vous avez une préférence entre ces différents thèmes n’hésitez pas à me le faire
savoir.
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données

Validation du cours

I Deux mini-projets :
Projet 1 (P1) : à rendre avant le mardi 28 mars, application directe du cours
d’aujourd’hui.
Projet 2 (P2) : à rendre avant le vendredi 5 mai.
I Note finale = (P1+2*P2)/3.
Analyse de données – Partie I : Analyse en Composantes Principales
Introduction au cours d’analyse de données

Quelques références

I Page web de François Husson : http://math.agrocampus-ouest.fr/


infoglueDeliverLive/membres/Francois.Husson/enseignement incluant des
vidéos et des références bibliographiques.
I Lebart, L., Morineau, A. et Piron, M. (2002). Statistique exploratoire
multidimensionnelle, Dunod.
I Escofier, B. et Pagès ; J. (1998). Analyses factorielles simples et multiples, Dunod.
I Saporta, G. (1990). Probabilités, Analyse de Données et Statistique, Technip,
Paris.
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Plan

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Notations
I L’objectif est de décrire la distribution de plusieurs variables numériques observées
sur les mêmes individus.
I Nous notons :
I xij l’observation de la j-ème variable sur l’individu i,
I p nombre de variables
I n nombre d’individus.

I Les données sont donc représentées sous la forme d’une matrice à n lignes et p
colonnes
x1 . . . x1p
 1 

X =  ... . . . ...  .
 

xn1 . . . xnp
I Ici, p est grand voire très grand.
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Exemple de données

Consommation de protéines en Europe : pour chacun des pays, relevé de la consommation


moyenne journalière des 9 types de protéines.
Les individus (en ligne) sont les pays de l’union européenne et les variables sont la
consommation journalière (en colonne) des 9 types de protéines.
XXX Prot.
viandr viandb oeuf lait poisson céréale féculent ...
Pays XXX
Bulgaria 7,8 6,0 1,6 8,3 1,2 56,7 1,1 ...
Yugoslavia 4,4 5,0 1,2 9,5 0,6 55,9 3,0 ...
Romania 6,2 6,3 1,5 11,1 1,0 49,6 3,1 ...
Germany 11,4 12,5 4,1 18,8 3,4 18,6 5,2 ...
France 18,0 9,9 3,3 19,5 5,7 28,1 4,8 ...
Norway 9,4 4,7 2,7 23,3 9,7 23,0 4,6 ...
Greece 10,2 3,0 2,8 17,6 5,9 41,7 2,2 ...
... ... ... ... ... ... ... ... ...
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Centrer, réduire, standardiser


I Centrer, c’est enlever la valeur de la moyenne de la variable :
n
1X j
xij ← xij j
− x̄ où x̄ = j
xi .
n
i=1

I Réduire, c’est diviser par l’écart-type de la variable :


n
1X j
xij ← xij /σj où σj2 = (xi − x̄ j )2 .
n
i=1

I Standardiser, c’est centrer et réduire :


xij − x̄ j
xij ← .
σj
Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Quand faut-il standardiser ou réduire les données ?

I Indispensable lorsque les variables ne sont pas exprimées dans la même unité.

I Généralement conseillé : permet d’accorder la même importance à chaque variable.

I Grande influence sur le résultat de l’étude.

I Mise en pratique : fonction scale() de R.


Analyse de données – Partie I : Analyse en Composantes Principales
Tableaux de données

Pondération des individus

I Il peut être utile de pondérer les individus.

I On associe à chaque individu i un point pi tel que


n
X
pi ≥ 0 pour tout i et pi = 1.
i=1

I Habituellement (c’est-à-dire sans pondération), pi = 1/n.


Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Plan

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Nuage des individus


I Individu : xi = (xi1 , ..., xip ).
I Nuage des individus NI ⊂ Rp .
I ACP normée : les données sont standardisées,

xip − x̄ p
 1
xi − x̄ 1
 
NI = , ..., , i = 1, ..., n
σ1 σp

I ACP non normée : les données sont juste centrées

NI = xi1 − x̄ 1 , ..., xip − x̄ p , i = 1, ..., n


 

I Objectif : fournir une représentation simplifiée de NI la plus fidèle possible.


Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Meilleure représentation plane d’un nuage de points NI


Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Meilleure représentation plane d’un nuage de points NI


Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Meilleure représentation d’un nuage de points NI


I Inertie totale (= variance empirique) du nuage de point NI :
n
1X
I = kxi − x̄k2 ,
n
i=1

avec x̄ = (x̄ 1 , ..., x̄ p ).


I Représente la quantité d’information apportée par le tableau de données.
I Version pondérée :
n
X
I = pi kxi − x̄k2 .
i=1
1 Pn j
avec x̄ = (x̄ 1 , ..., x̄ p ) où x̄ j = n i=1 pi xi .
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Meilleure représentation d’un nuage de points NI

I Inertie de la projection sur un sous-espace E où les données sont projetées (=


variance expliquée) :
n
1X
IE = kpE (xi ) − x̄k2 ,
n
i=1

où pE (xi ) est la projection orthogonale du point xi sur le sous-espace E .


I Nous cherchons le sous-espace EK de Rn de dimension K d’inertie maximale.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Matrice de variance-covariance et matrice de corrélation

I La matrice de variance-covariance associée à X est la matrice


 
σ12 Cov(x 1 , x 2 ) . . . Cov(x 1 , x p )
.. ..
Cov(x 1 , x 2 )
 
. . 
V = 
.. .. ..
,
.

 . . 
Cov(x 1 , x p ) ... ... σp2
0 j 0 0
− x̄ j )(xij − x̄ j ).
1 Pn
où Cov(x j , x j ) = n i=1 (xi
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Matrice de variance-covariance et matrice de corrélation

I La matrice de corrélation associée à X est la matrice


Cov(x 1 ,x 2 ) Cov(x 1 ,x p )
 
1 σ1 σ2 . . . σ1 σp
 Cov(x 1 ,x 2 )
 .. .. 
 σ1 σ2 . . 
C = .

.. .. ..

 . . . 

Cov(x 1 ,x p )
σ1 σp ... ... 1
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

ACP et vecteurs propres


I Soient v 1 , ..., v p les vecteurs propres de la matrice de corrélation C et λ1 , ..., λp les
valeurs propres associées comptées avec multiplicité et numérotées telles que :

λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0.

I En ACP normée, l’espace EK de dimension K d’inertie maximale est


n o
EK = Vect v 1 , ..., v K .

I En ACP non normée, nous considérons les éléments propres de la matrice de


variance-covariance V .
Mise en pratique 1 : premiers pas dans l’ACP.
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Variance expliquée et valeurs propres


I λj : inertie du nuage de points NI projetée sur l’axe j = variance expliquée par le
j-ème axe.

I IEK = λ1 + ... + λK : inertie du nuage de points NI projetée sur l’espace EK =


variance expliquée par les K premiers axes de l’ACP.

I I = λ1 + ... + λp : inertie totale.

I Proportion d’inertie expliquée par les K premiers axes :

IEK
.
I
Analyse de données – Partie I : Analyse en Composantes Principales
Réduction de la dimension

Choix du nombre d’axes

I Critère du coude : existence d’un coude dans le tracé de j 7→ λj (ébouli des valeurs
propres) ,→ on garde les axes avant le coude.

I Critère empirique : on garde les axes que l’on sait interpréter.

I Autre critère (très) répandu lorsque l’on souhaite réduire la dimension avant
d’utiliser une autre méthode : K le plus grand entier tel que IEK /I ≥ s (souvent
s = 80% ou s = 90%).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Plan

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Projection du nuage des individus

I Les axes de l’ACP v1 , ..., vK sont des éléments de Rp

I k-ème axe de l’ACP :


vk1
 

vk =  ...  .
 

vkp
Pp j j
I sik = x̃i vk = j=1 x̃i vk : coordonnée du i-ème individu par rapport à l’axe k, où
x̃ij = (xij − x̄ j )/σj (ACP normée) ou x̃ij = xij − x̄ j (ACP non normée).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Illustration données Mise en pratique 1

Figure – À droite : représentation du nuage NI (tracé des points (x̃i1 , x̃i2 , x̃i3 ), i = 1, ..., n). À
gauche : représentation du nuage projeté sur le premier plan (tracé des points (si1 , si2 ),
i = 1, ..., n).
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Composantes principales

I s k = (s1k , ..., snk ) : composante principale ,→ assimilable à une variable.

n n n
!
X X X
sik = x̃i vk = x̃i vk = 0
i=1 i=1 i=1
| {z }
=0

⇒ les composantes principales sont centrées.


Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Composantes principales (II)


I Soient
s1p v1p x̃1p
 1   1   1 
s1 ... v1 ... x̃1 ...
 ..
S =. .. ..  , P =  .. .. ..  , X̃ =  .. .. ..  .
. . . . . . . .
sn1 ... snp vp1 ... vpp x̃n1 ... x̃np

I Par définition : S = X̃ P, d’où

S t S = P t X̃ t X̃ P = P t CP = diag(λ1 , ..., λp ).

Pn k 2
Pn j k
⇒ λk = i=1 (si ) , i=1 si si = 0 si j 6= k.
I La variance de la k-ème composante est égale à λk .
I Les composantes principales sont décorrelées.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Représentation des variables

I Corrélation de la variable x̃ j par rapport à la k-ème composante principale s k :


n n
1 X j sik 2 k
X
cor(x̃ j , s k ) = x̃i où σ (s ) = (sik )2 = λk .
n σ(s k )
i=1 i=1

I Rappels :
I −1 ≤ cor(x̃ j , s k ) ≤ 1,
I Plus |cor(x̃ j , s k )| proche de 1, plus on considèrera que la variable j est liée à l’axe k.
I cor(x̃ j , s k ) < 0 : corrélation négative,
I cor(x̃ j , s k ) > 0 : corrélation positive.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Cercles des corrélations


Variables factor map (PCA)

1.0
Height

0.5
Dim 2 (15.23%)

0.0
Wr.Hnd
NW.Hnd

−0.5
−1.0

−1.0 −0.5 0.0 0.5 1.0

Dim 1 (83.62%)

Figure – Représentation des corrélations sous la forme d’un cercle. Chaque flèche pointe sur le point
de coordonnées (cor(x̃ j , s 1 ), cor(x̃ j , s 2 )), j = 1, ..., p.
Analyse de données – Partie I : Analyse en Composantes Principales
Étude des variables et des individus

Cas de l’ACP non normée


I Dans une ACP non normée : on représente les covariances des variables par rapport
aux axes et non les corrélations.
I Elles n’apparaissent donc plus sur un cercle.

Variables factor map (PCA)

6
4
Dim 2 (3.94%)

2
NW.Hnd
NW.Hnd
Wr.Hnd
Wr.Hnd

0
Height
Height

−2
−4

0 2 4 6 8 10 12

Dim 1 (95.93%)

Mise en pratique 2 : données températures/données protéines


Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation

Plan

Introduction au cours d’analyse de données

Tableaux de données

Réduction de la dimension

Étude des variables et des individus

Aide à l’interprétation
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation

Variables supplémentaires

I Utilité : variables construites à partir d’autres variables mais pouvant aider à


l’interprétation ou variables quantitatives supplémentaires.

I Variables quantitatives : ajout sur le cercle des corrélations.

I Variables qualitatives : ajout dans le nuage des individus (coloration des individus
en fonction des modalités par exemple).
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation

Individus supplémentaires

I Utilité : individus ayant une contribution trop importante, ou dont on doute de la


fiabilité, nouvelle étude,....

I Ajout dans le nuage des individus.


Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation

Contribution d’un individu à l’inertie d’un axe


I Rappel :
n
X
λk = (ski )2 .
i=1

I Contribution de l’individu i à l’inertie de l’axe k :

(ski )2
ctr(i, k) = .
λk

I Lorsque les individus ne sont pas anonymes, ceux ayant une contribution
importante (par exemple > 1/n) peuvent aider à l’interprétation des axes.
I Attention aux individus ayant une contribution trop importante (> 25%).
Analyse de données – Partie I : Analyse en Composantes Principales
Aide à l’interprétation

Qualité de représentation d’un individu

I Nous avons : dist(0, x̃i )2 = pj=1 (sij )2 .


P

I Qualité de représentation de l’individu i sur l’axe j :

(sij )2
Q(i, j) = .
dist(0, x̃i )2

I On appelle parfois cet indice cosinus carré.

Vous aimerez peut-être aussi