L’Analyse en Composantes
Principales : A.C.P.
ADD R.JAHIDI 11/11/2020
1
L'analyse en composantes principales (ACP ) est
une méthode de la famille de l'analyse des données et
plus généralement de la statistique multivariée, qui
consiste à transformer des variables liées entre elles
(dites « corrélées » en statistique) en nouvelles
variables décorrélées les unes des autres.
Technique d'analyse statistique, principalement
descriptive, consistant à représenter sous forme
graphique le plus d'informations possibles contenues
dans un tableau. Elle permet ainsi de visualiser un
espace à p dimensions à l'aide d'espaces de
dimensions plus petites.
L’ACP, permet de construire des variables
artificielles ( car non mesurées mais
calculées à partir des données) qui
"expliquent " l'ensemble des variables
statistiques prises en compte.
On obtient ainsi un ensemble de nouvelles
variables, en plus petit nombre que les
variables initiales. Chacune de ces variables
initiales est liée à l'ensemble des variables
artificielles retenues.
R.JAHIDI 11/11/2020 3
Enfin, ces variables statistiques artificielles
peuvent être interprétées (subjectivement),
ce qui peut amener à mettre en évidence
des phénomènes "latents", cachés dans les
données initiales.
Des aides à l'interprétation doivent donc
être définies de manière à valider
proprement ces interprétations.
R.JAHIDI 11/11/2020 4
Au niveau des individus l'ACP fournit une
méthode de représentation d'une population
afin :
- de repérer des groupes d'individus,
homogènes vis à vis de l'ensemble des
caractères.
- de révéler des différences entre individus ou
groupes d'individus, relativement à
l'ensemble des caractères.
- de réduire l'information qui permet de
décrire la position d'un individu dans
l'ensemble de la population.
- de mettre en évidence des individus au
comportement atypique.
R.JAHIDI 11/11/2020 5
Visualisation des données
F2(i) i
*
X1 … Xp F1 F2 0 F1(i)
1
Le plan factoriel
i x1i … xpi F1i F2i …
Cor(Xj,F2) Xj
n
0 Cor(Xj,F1)
Facteurs centrés-réduits
Tableau
résumant les données
des données
La carte des variables
ADD R.JAHIDI 11/11/2020 6
Tableau des données
Variables Quantitatives
X1 X2 X3 ... Xp
O1
O2
Objets
ou O3
Individus ..
.
On
ADD R.JAHIDI 11/11/2020 7
sold ndec mdec nbpr nemp memp vadd depo retr
2305 7 2,3 0 1 8,5 -2 3,1 0,7
15259 0 0 3 1 25 9 500 0
1236 10 5,4 1 0 0 3 6 2
8241 1 0,1 6 4 210 4 32 36
6210 2 0,3 5 3 113 3 150 80,5
6871 1 3 6 4 200 3 125 98
1580 9 6,1 2 1 8 2 6,5 5,5
9630 1 4 5 3 111 4 225,2 110,5
4230 3 2,7 2 0 0 1 5,1 20
3620 5 9,8 1 1 81 -3 7,2 3,1
10258 0 0 6 4 310 5 251,7 253,7
23698 1 2,9 2 0 0 12 523,2 2
3698 0 0 1 1 5 -2 1,5 3,2
231 12 8,9 1 0 0 -1 0,5 0,1
501 0 0 1 1 0 -3 10,2 10,1
3693 0 0 2 0 0 2 1,2 21,5
963 1 0,9 1 0 8,5 -1 105,1 5,1
15802 0 0 2 0 250,7 10 610,6 0,1
502 6 3 2 2 0 1 61,2 0,8
7896 1 6 6 3 0 3 187,5 98,1
23698 0 0 3 0 155 12 916,2 8,1
27896 1 2,3 3 0 15 15 523,2 0
5687 1 3,6 5 3 25 3 261 110
1269 0 0 1 2 0 -1 51,3 5,1
3687 3 0,6 2 1 0 -2 0,1 52
9631 0 0 2 0 111,1 9 655,7 0
75632 0 0 3 0 125,1 13 889,3 0
ADD R.JAHIDI 5523 1 1,2 5 4 0 11/11/2020 5 110,28 110,5
6984 2 0,3 4 4 30 3 130,5 85,1
85214 0 0 3 0 0 9 632,7 1
Evaluation de la qualité des
données
Les données sont-elles appropriées
pour une analyse en composantes
principales?
Quelques règles empiriques ...
ADD R.JAHIDI 11/11/2020 9
Examen de la matrice de corrélations
Plus les variables présentent de fortes
corrélations plus elles peuvent être regroupées
en dimensions homogènes. Dans le cas
contraire, les variables sont hétérogènes.
ADD R.JAHIDI 11/11/2020 10
Matrice de corrélation
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
Corrélation
SOLD1,000 -,331 -,277 ,111 -,290 ,109 ,652 ,729 -,163
NDEC-,331 1,000 ,722 -,393 -,179 -,319 -,395 -,467 -,241
MDEC-,277 ,722 1,000 -,123 -,048 -,241 -,306 -,357 -,063
NBPR ,111 -,393 -,123 1,000 ,775 ,503 ,297 ,140 ,766
NEMP-,290 -,179 -,048 ,775 1,000 ,333 -,211 -,331 ,774
MEMP ,109 -,319 -,241 ,503 ,333 1,000 ,323 ,344 ,457
VADD ,652 -,395 -,306 ,297 -,211 ,323 1,000 ,890 -,055
DEPO ,729 -,467 -,357 ,140 -,331 ,344 ,890 1,000 -,140
RETR-,163 -,241 -,063 ,766 ,774 ,457 -,055 -,140 1,000
ADD R.JAHIDI 11/11/2020 11
La Mesure de précision de l’échantillonnage de
Kaiser-Meyer-Olkin (KMO)
Cette mesure donne un aperçu global de la qualité des
corrélations entre variables.
L’indice KMO varie entre 0 et 1 et donne une information
complémentaire à l’examen de la matrice de corrélation.
Son interprétation va comme suit :
0,80 et plus Excellent
0,70 et plus Bien
0,60 et plus Médiocre
0,50 et plus Misérable
Moins de 0,50 Inacceptable
ADD R.JAHIDI 11/11/2020 12
Le test de sphéricité de Barlett
On teste ici les hypothèses :
H0 : indépendance entre les variables vs
H1: association entre les variables
Le test doit être significatif (p<0.10, p<0.05, p<0.01,
p<0.001) pour exprimer le fait que les variables sont
corrélées entre elles.
ADD R.JAHIDI 11/11/2020 13
Indice KMO et test de Bartlett
Mesure de précision de l'échantillonnage de
Kaiser-Meyer-Olkin. ,645
Test de sphéricité de Khi-deux approché 185,606
Bartlett ddl 36
Signification ,000
ADD R.JAHIDI 11/11/2020 14