Analyse en Composantes
Principales
(ACP)
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
Sommaire
Principe de lACP
Structure du tableau de donnes
LACP en Pratique
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
LAnalyse en Composantes Principales (ACP) est une mthode
statistique essentiellement descriptive qui peut tre utilise pour savoir :
comment se structurent les variables : quelles sont celles qui sont
corrles ? Quelles sont celles qui ne le sont pas ? Quelles sont celles
qui vont dans le mme sens ? Quelles sont celles qui sopposent ?
et/ou comment se rpartissent les individus : quels sont ceux qui se
ressemblent ? Quels sont ceux qui sont dissemblables ?
Il sagit donc de construire une certaine typologie, partition des
individus, construire des groupes dindividus qui soient homognes
de point de vue lensemble des variables
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
LACP sintresse des tableaux de donnes rectangulaires avec des
individus en lignes et des variables quantitatives en colonnes.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
Principe de lACP
Le tableau de donnes correspond une reprsentation des
individus dans un espace K dimensions.
Etant donn quil est impossible de se reprsenter visuellement
le nuage de points des individus dans un tel espace, le but de
lACP est de trouver des espaces de visualisation de dimensions
plus petites , savoir des droites (dimension 1) ou encore
des plans (dimension 2), tout en conservant le maximum
dinformation.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
Principe de lACP
Autrement dit, on cherche dfinir des nouvelles variables
combinaisons linaires des k variables initiales qui feront
perdre le moins dinformation possible : ce sont les
composantes principales Ck ou encore axes principaux
( ces sont des droites)
NB: les variables initiales sont corrles alors que les
nouvelles variables sont non corrles.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
Principe de lACP
Comment obtenir les composantes principales:
-On centre et on rduit les donnes (Matrice X) puis en passe la
diagonalisation de la matrice de variances-covariances
-La solution: k valeurs propres et k vecteurs propres qui font les
directions des axes principaux
-les composantes principales scrit donc:
C=(C1, C2,.., Ck)= U*X avec U=(u1, u2,,uk) les vecteurs propres
et X cest la matrice des donnes
-On obtient K vecteurs propres et donc K axes principaux
-Le premier axe est celui associ la plus grande valeur
propre .
-Le deuxime axe est celui associ la deuxime valeur
propre .
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
-La variance dune composante principale (inertie) est
gale la valeur propre porte par laxe principal qui lui est
associ.
-1re composante c1 variance : 1
-2me composante c2 variance : 2
-3me composante c3 variance : 3
Etc
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14-15 fvrier 2008
La premire composante principale doit
"capturer" le maximum dinertie du
tableau des donnes.
La deuxime composante principale est
un complment, une correction de la
premire.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
10
14-15 fvrier 2008
Examen pralable linterprtation des rsultats
Combient daxe retenir ??
Diffrentes procdures nous permettent de dterminer le nombre daxe
retenir pour notre ACP, en effet Trois rgles sont applicables :
1- la rgle de Kaiser qui veut quon ne retienne que les facteurs aux valeurs
propres suprieures 1.
2- on choisit le nombre daxe en fonction de la restitution dinformation
que lon souhaite. Par exemple, on veut que le modle restitue au moins
80% de linformation
3- Le critre du coude : On observe le graphique des valeurs propres et on
ne retient que les valeurs qui se trouvent gauche du point
dinflexion (coupure brusque).
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
11
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
12
14-15 fvrier 2008
Interprtation des rsultats de lanalyse:
-Cest la phase la plus dlicate de lanalyse. On
donne un sens un axe grce une recherche
lexicale (ou recherche de mots) partir des
coordonnes des variables et des individus.
-Il sagit de chercher quelles variables sont
corrles avec laxe 1, laxe 2.
-Aprs avoir donner un sens aux axes, on terminera
par caractriser les individus avec les variables
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
13
14-15 fvrier 2008
En commence par tudier les variables
puis on passe ltude des individus
Linterprtation est base sur les variables
et les individus et variables bien
reprsentes
On doit alors examiner la qualit de
reprsentation des variables et des
individus et leurs contributions pour la
formation des axes
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
14
14-15 fvrier 2008
LACP en Pratique
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
15
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
16
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
17
14-15 fvrier 2008
la qualit de reprsentation dune variable est
gale la coordonne au carre (donne par
le logiciel avec lequel en travaille)
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
18
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
19
14-15 fvrier 2008
En pratique: on obtient comme sorties:
-Les valeurs propres et les vecteurs propres
(composantes principales)
-La matrice de corrlation des variables initiales
-Linertie explique par les axes principaux
-Les cordonnes des variables (corrlation avec les
axes)
-Les cordonnes des individus et leurs qualits de
reprsentation
-Le mapping des variables
-Le mapping des individus
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
20
14-15 fvrier 2008
Exemple dune ACP:
Tableau des donnes:
On tudie les consommations annuelles en 1972, exprimes en francs, de 8 denres
alimentaires (les variables), les individus tant 8 catgories socio-professionnelles.
Les donnes sont des moyennes par CSP :
PAO
PAA
VIO
VIA
POT
LEC
RAI
PLP
AGRI
167
163
23
41
SAAG
162
141
12
40
12
15
PRIN
119
69
56
39
13
41
CSUP
87
11
63
111
27
18
39
CMOY
103
68
77
32
11
30
EMPL
111
72
66
34
10
28
OUVR
130
76
52
43
16
INAC
138
117
74
53
12
20
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
21
14-15 fvrier 2008
Les individus: catgories sociales
AGRI = Exploitants agricoles
SAAG= Salaris agricoles
PRIN = Professions indpendantes
CSUP = Cadres suprieurs
CMOY= Cadres moyens
EMPL= Employs
OUVR = Ouvriers
INAC = Inactifs
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
les Variables : 8 (quantitatives)
PAO = Pain ordinaire
PAA = Autre pain
VIO = Vin ordinaire
VIA=Autre vin
POT= Pommes de terre
LEC=Lgumes secs
RAI=Raisin de tables
PLP= Plats prpars
22
14-15 fvrier 2008
Le programme SAS permettant dobtenir les sorties ci-dessous est en Annexe.
The PRINCOMP Procedure
Observations
8
Variables
8
Correlation Matrix
PAO
PAO 1.0000
PAA -.7737
VIO 0.9262
VIA -.9058
POT 0.6564
LEC 0.8886
RAI -.8334
PLP -.8558
PAA
VIO
-.7737 0.9262
1.0000 -.6040
-.6040 1.0000
0.9044 -.7502
-.3329 0.5171
-.6734 0.7917
0.9588 -.6690
0.7712 -.8280
VIA
POT
-.9058 0.6564
0.9044 -.3329
-.7502 0.5171
1.0000 -.4186
-.4186 1.0000
-.8386 0.6029
0.9239 -.4099
0.7198 -.5540
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
23
LEC
RAI
0.8886
-.6734
0.7917
-.8386
0.6029
1.0000
-.8245
-.7509
-.8334
0.9588
-.6690
0.9239
-.4099
-.8245
1.0000
0.8344
PLP
-.8558
0.7712
-.8280
0.7198
-.5540
-.7509
0.8344
1.0000
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
24
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
25
14-15 fvrier 2008
INTERPRETATION
1.
Choix du nombre daxes retenir
. Le critre de Kaiser nous conduit slectionner un seul axe (valeur
propre > 1), qui retient 77% de linertie totale. Laxe 2 retient tout de
mme 11% de linertie, ce qui nest pas ngligeable, et qui conduit un
taux dinertie explique de 89%, ce qui est un trs bon rsultat. Il peut
tre donc intressant de ltudier.
. Le critre du coude ainsi que celui du Scree-test nous conduisent
retenir les deux premiers axes
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
26
14-15 fvrier 2008
2. Graphes sur le plan factoriel (1,2)
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
27
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
28
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
29
14-15 fvrier 2008
PAO
LEC
(VIO)
RAI
VIA
PLP
(PAA)
On classe les variables selon leurs sens de contribution. PAA et
VIO sont trs proches de la contribution moyenne, on les intgrera
donc dans linterprtation de laxe si elles vont dans le sens de
linterprtation que lon peut en faire.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
30
14-15 fvrier 2008
Laxe 1 oppose les individus consommant du pain ordinaire, des
lgumes secs (et ventuellement du vin ordinaire) ceux qui
consomment du raisin, du vin (ventuellement du pain) plus
sophistiqu et des plats prpars.
Laxe 1, et donc la premire composante principale, mesure la
rpartition entre aliments ordinaires et aliments plus
recherchs.
Toutes les variables sont bien reprsentes sur laxe : la qualit de
reprsentation est gale la coordonne au carr ; ainsi, la qualit de
reprsentation de la variable PAO est gale (-0,97)=0,94 ;
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
31
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
32
14-15 fvrier 2008
Le premier axe met donc en opposition quant leurs habitudes
alimentaires les agriculteurs et les cadres suprieurs.
AGRI
SAAG
CSUP
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
33
14-15 fvrier 2008
Touts les individus sont bien reprsentes sur laxe 1 sauf les catgories
EMPL, OUVR et INAC
Conclusion: Laxe 1 reflte donc lopposition qui existe entre les
catgories socio-professionnelles dans leur alimentation, opposant les
agriculteurs modestes qui consomment des produits basiques aux
catgories CSUP qui consomment des produits plus recherchs.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
34
14-15 fvrier 2008
Axe 2: Variables
De mme, on compare les valeurs de la colonne Prin2 35%, le signe
donnant le sens de contribution. On obtient :
Laxe 2 est dfini par les variables POT et PAA.
POT
PAA
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
35
14-15 fvrier 2008
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
36
14-15 fvrier 2008
INAC
Le deuxime axe est caractristique des inactifs
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
37
14-15 fvrier 2008
Conclusion:
Laxe 2 reflte donc la particularit des inactifs quant leur alimentation,
fortement compose de pommes de terre (un retour aux donnes
dorigine vient confirmer cette conclusion).
Synthse:
C1=rpartition entre aliments ordinaires et aliments plus recherchs
C2=rpartition de la consommation de pommes de terre
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
38
14-15 fvrier 2008
Interprtation des rsultats
5 Interprtation des individus
Lexamen des coordonnes et la reprsentation graphique des individus
permet de rpondre :
Comment se rpartissent les individus ? Quels sont ceux qui se ressemblent
et en quoi ?
Il sagit de sintresser la proximit ou lloignement entre les individus.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
39
14-15 fvrier 2008
Conseils supplmentaires
-LACP ne peut pas traiter des tableaux comportant des donnes
manquantes. Lorsque lon a des donnes manquantes, on doit supprimer
lignes (individus) et/ou colonnes (variables) afin dobtenir un tableau complet.
-LACP ne peut pas traiter des variables qualitatives mais uniquement des
variables quantitatives. Il y a toutefois une astuce qui consiste intgrer un
codage des variables qualitatives dans les identifiants des individus.
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
40
14-15 fvrier 2008
ET BON COURAGE !!!
J-C Raynal - EHESS La cartographie multivarie avec le logiciel Philcarto.
41
14-15 fvrier 2008