100% ont trouvé ce document utile (1 vote)
1K vues50 pages

Analyse ACP des Données Climatiques

L'analyse présente les étapes d'une analyse en composantes principales (ACP) réalisée sur des données météorologiques de plusieurs villes. L'objectif est de synthétiser l'information contenue dans les données sur un nombre réduit de variables et de représenter graphiquement les résultats. Les étapes incluent le calcul des moyennes et écarts-types, la matrice de corrélation, la décomposition en valeurs et vecteurs propres, et la représentation graphique dans le plan principal.

Transféré par

DRISS ATKOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
1K vues50 pages

Analyse ACP des Données Climatiques

L'analyse présente les étapes d'une analyse en composantes principales (ACP) réalisée sur des données météorologiques de plusieurs villes. L'objectif est de synthétiser l'information contenue dans les données sur un nombre réduit de variables et de représenter graphiquement les résultats. Les étapes incluent le calcul des moyennes et écarts-types, la matrice de corrélation, la décomposition en valeurs et vecteurs propres, et la représentation graphique dans le plan principal.

Transféré par

DRISS ATKOU
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse en Composantes

Principales
ACP avec Python
J. DABOUNOU - FST DE SETTAT
UNIVERSITE HASSAN Ier
Mars 2020
Exercice 1 : Le tableau suivant présente pour différentes villes, les précipitations p (en cm), les
températures maximale tmax et minimale tmin (en˚C), mesurées en 2012:
p tmax tmin
a. Calculez les moyennes et les écart-types de p, tmax et tmin. Ajaccio 12,04 23,7 5,9
Donnez la matrice X des données centrées réduites. Brest 17,18 15,5 -1,8
Dunkerque 11,83 13,1 2,8
b. Calculez la matrice des corrélations Σ. Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
c. Déterminer, éventuellement en utilisant un logiciel, Toulouse 3,87 20,3 -0,9

les matrices D et P telles que Σ = PDPt, avec P matrice orthogonale et D matrice diagonale.
d. Quelles sont les valeurs et vecteurs propres de Σ ?
e. Montrer que la matrice P est inversible et P−1 = Pt.
f. Calculer la matrice des composantes principales C et représenter les villes dans le plan principal.
g. Interpréter la position des villes dans le plan principal et commenter.
h. Calculer les corrélations linéaires entre les variables initiales et les deux premières composantes
principales.
i. Réaliser un tableau qui synthétise la qualité de représentation et la contribution des individus aux
axes factoriels et leur contribution à l’inertie totale ainsi que la qualité de représentation des
variables aux axes factoriels.
j. Représenter les résultats sur le cercle des corrélations.
k. Factoriser la matrice de données.
J. DABOUNOU - FST DE SETTAT ACP001 - 1
Calculez les moyennes et les écart-
types de p, tmax et tmin.
Donnez la matrice X des données
centrées réduites

J. DABOUNOU - FST DE SETTAT ACP001 - 2


Objectifs de l’ACP
L’Analyse en Composantes Principales (ACP) utilise une transformation linéaire
implicite pour :
– Supprimer les corrélations entre les variables
– Synthétiser l’information sur un nombre réduit de variables
– Permettre une représentation graphique des informations

Données à analyser :

On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable


Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par :
Pour l’exercice, les données avec moyennes et
V1 V2 … VJ écart-types sont :
X1 x11 x12 x1J p tmax tmin
Ajaccio 12,04 23,7 5,9
X2 x21 x22 x2J
Brest 17,18 15,5 -1,8
⁞ Dunkerque 11,83 13,1 2,8
XI xI1 xI2 xIJ Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
Toulouse 3,87 20,30 -0,90
Moyenne 11,36 17,87 1,80
Ecart-type 4,98 4,04 3,76
J. DABOUNOU - FST DE SETTAT ACP001 - 3
Données centrées réduites
Les données peuvent être présentées tout simplement par :
x11 x12 … x1J
x21 x22 x2J
X=
⁞ ⁞ ⁞
xI1 xI2 xIJ

Les lignes représentent les individus et les colonnes les variables.


Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée réduite.
On obtient alors :
x11 − x1 x11 − x2 x1J − xJ Pour simplifier on continue à noter X
σ1 σ2 σJ pour désigner Xcr .
x21 − x1 x11 − x2 x2J − xJ
Xcr = Ainsi, on pose Xcr = (xij)i=1,I; j=1,J.
σ1 σ2 σJ
⋮ ⋱
x11 − x1 x11 − x2 xIJ − xJ
σ1 σ2 σJ

J. DABOUNOU - FST DE SETTAT ACP001 - 4


Données à analyser

p tmax tmin
Ajaccio 12,04 23,7 5,9
Brest 17,18 15,5 -1,8
Dunkerque 11,83 13,1 2,8
Nancy 6,23 13,5 -2,4
Nice 16,99 21,1 7,2
Toulouse 3,87 20,30 -0,90
Moyenne 11,36 17,87 1,80
Ecart-type 4,98 4,04 3,76

On en déduit la matrice centrée : Et centrée réduite :

p tmax tmin p tmax tmin


Ajaccio 0,68 5,83 4,10 Ajaccio 0,14 1,44 1,09
Brest 5,82 -2,37 -3,60 Brest 1,17 -0,59 -0,96
Dunkerque 0,47 -4,77 1,00 Dunkerque 0,10 -1,18 0,27
Nancy -5,13 -4,37 -4,20 Nancy -1,03 -1,08 -1,12
Nice 5,63 3,23 5,40 Nice 1,13 0,80 1,44
Toulouse -7,49 2,43 -2,70 Toulouse -1,50 0,60 -0,72
Moyenne 0,00 0,00 0,00 Moyenne 0,00 0,00 0,00
Ecart-type 4,98 4,04 3,76 Ecart-type 4,98 4,04 3,76

J. DABOUNOU - FST DE SETTAT ACP001 - 5


Calculez la matrice des corrélations
Σ

J. DABOUNOU - FST DE SETTAT ACP001 - 6


Matrice de corrélation
Matrice de corrélation :

1 Corr(𝐕1 , 𝐕2 ) ⋯ Corr(𝐕1 , 𝐕J )
1 t Corr(𝐕2 , 𝐕1 ) ⋱
Corr 𝐗 = 𝐗 .𝐗 =
I ⋮ ⋱ ⋮
Corr(𝐕J , 𝐕1 ) ⋯ 1

où X est centrée réduite. Cette matrice est symétrique.

Les composantes que donne l’ACP dépendent des unités de mesure. On doit souvent
opter pour une solution selon la situation spécifique du problème. On peut par
exemple :

- Centrer-réduire les données et donc utiliser la matrice des coefficients de corrélation

- Normaliser les données en divisant par la moyenne

- Choisir des unités convenables pour avoir des valeurs comparables.

J. DABOUNOU - FST DE SETTAT ACP001 - 7


Matrice de corrélation
On a

Σ étant ici égale à la matrice des corrélations. Le graphique suivant illustre cette
matrice.

J. DABOUNOU - FST DE SETTAT ACP001 - 8


Matrice de corrélation
Σ exprime la liaison entre les variables. L’écart entre Σ et une matrice diagonale
mesure la dépendance entre les variables, donc la redondance entre celles-ci.

Un des objectifs de l’ACP est de déterminer une nouvelle base orthogonale et une
nouvelle matrice Y avec de nouvelles composantes pour lesquelles ΣY = Yt Y est
diagonale.

On considère la représentation X= [X1, …, XJ], à l’aide des variables initiales (vecteurs


colonnes), l’ACP cherche à trouver une représentation Y=[Y1, …,YJ], transformation
linéaire de X, telles que les variables Yj soient décorrélées. Ainsi, Y=PX et ΣY = Pt Σ P =
D.

Les vecteurs propres de Σ forment la matrice de passage P et les valeurs propres sont
les covariances des nouvelles variables Yj.

J. DABOUNOU - FST DE SETTAT ACP001 - 9


Déterminer, éventuellement en
utilisant un logiciel,
les matrices D et P telles que Σ =
PDPt, avec P matrice orthogonale
et D matrice diagonale

J. DABOUNOU - FST DE SETTAT ACP001 - 10


Valeurs et vecteurs propres en ACP
On utilise souvent un logiciel qui nous donne les matrices D et P telles que Σ = PDPt,

1.83 0 0 0.46 0.79 0.41


0 0.92 0 0.56 -0.61 0.56
D= P=
0 0 0.25 0.69 -0.03 -0.72

On peut donc aussi écrire : Pt Σ P = D.

D est la matrice diagonale composée des valeurs propres de Σ. Les colonnes de P


représentent les vecteurs propres de Σ. Il s’agit de la décomposition spectrale de la
matrice de corrélation.

Σ étant symétrique et semi-définie positive, elle possède cette décomposition.

J. DABOUNOU - FST DE SETTAT ACP001 - 11


Quelles sont les valeurs et vecteurs
propres de Σ ?
Montrer que la matrice P est
inversible et P−1 = Pt.

J. DABOUNOU - FST DE SETTAT ACP001 - 12


Valeurs et vecteurs propres en ACP
Les valeurs propres de Σ constituent la diagonale de la matrices D et les vecteurs
propres unitaires constituent les colonnes de la matrice P.

Comme Σ est symétrique et semi-définie positive, les valeurs propres sont toutes
positives ou nulles et les vecteurs propres sont deux à deux orthogonaux.

Le plus souvent, les logiciels donnent les valeurs propres classées en ordre
décroissant.

Soient donc les valeurs propres : 1 = 1.83 ; 2 = 0.92 ; 3 = 0.25 et les vecteurs
propres :
0.46 0.79 0.41
u1 = 0.56 ; u2 = −0.61 ; u3 = 0.56
0.69 −0.03 −0.72
On en déduit que le rang de Σ est égal à 3. Σ est donc inversible.

Il est en de même de P. P est en fait une matrice orthogonale et P-1 = Pt.

J. DABOUNOU - FST DE SETTAT ACP001 - 13


Evolution des valeurs propres
On a 1 > 2 > 3 > 0. Le tableau suivant présente l’inertie expliquée par chacun des
axes principaux et l’inertie cumulée.

Valeur propre % expliqué % cumulé


1 1.83 61.17% 61.17%
2 0.92 30.51% 91.68%
3 0.25 8.32% 100.00%
Inertie totale 3.00

On affiche une courbe qui visualise l’évolution des valeurs propres.

J. DABOUNOU - FST DE SETTAT ACP001 - 14


Calculer la matrice des
composantes principales C et
représenter les villes dans le plan
principal

J. DABOUNOU - FST DE SETTAT ACP001 - 15


Les individus dans l’espace des variables
On projette les I=6 vecteurs lignes représentant les individus dans l’espace R3. Le
graphique ci-dessous permet de l’illustrer :
R3
Mi
M1
M2
M3
M4 O
M5
M6

L’ACP consiste à trouver les directions de variance maximale dans ces données afin de
les projeter sur un sous-espace dimensionnel plus petit tout en conservant l’essentiel
des informations.

NB. J’utilise quelquefois Xi au lieu de Mi pour désigner un point de coordonnées la ligne i de la


matrice X.

J. DABOUNOU - FST DE SETTAT ACP001 - 16


Projection des données sur un axe
On voit que la première composante principale capture le maximum d’inertie du
nuage de données. Il reste un résidu non expliqué par cette première composante ce
qui justifie le calcul de la deuxième composante principale.

u1 définit le premier axe principal dans R3. Puisque X est centrée, l’origine O des axes
de R3 passe par le centre de gravité des 6 points Mi définis par les lignes de la matrice
X.

La projection du point Mi sur cet axe, notée Hi1 est donnée par OHi1 = <OMi , u1> où
OMi est le vecteur défini par la ième ligne de la matrice X.
R3 D1
Ainsi, OH11, OH12, OH13, OH14, OH15, OH16 déterminent
la projection des 6 points M1,…, M6 sur le premier axe Mi
principal et on a :
u1 H1i
O
OH21i = <Xu1 , Xu1 > = ut1 Xt Xu1 = 6 1
i=1,6

J. DABOUNOU - FST DE SETTAT ACP001 - 17


Deuxième axe principal de l’ACP
L’axe défini par u1 récupère le plus possible de variance pour un axe. L’axe D2 défini par

u2, récupère le maximum de variance non récupérée par u1.

Le vecteur propre unitaire u2 est orthogonal au vecteur unitaire u1.

R3
D1
D2
Mi
u2
u1H1i
O

Le vecteur propre unitaire u3 est orthogonal à chacun des vecteurs u1 et u2.

J. DABOUNOU - FST DE SETTAT ACP001 - 18


Composantes Principales
R3
D1
Les composantes principales F1, F2, F3 sont données par : D2
Mi
F1 = X u1, F2 = X u2 et F3 = X u3. u2
La matrice X peut être remplacée, dans la base orthonormée u1H1i
O
(u1, u2, u3) par la matrice de composantes principales

C = [ F1 F2 … Fr ]

Ce qui permet dans les cas concrets de réduire la dimension


des données puisqu’en général, le rang(XtX)  J sans perte u1 D1
d’information (Inertie globale). O H1i
u2 D2
En effet:
O H2i
trace(XtX) = I.(1 + 2 +…+ r)= u1t XtX u1 + u2t XtX u2 + u3t XtX u3

= F1t F1 + F2t F2 + F3t F3 = trace(Ct C) u3 D3


O
H3i
J. DABOUNOU - FST DE SETTAT ACP001 - 19
Composantes Principales

Les composantes principales F1, F2, F3 sont alors :

F1 F2 F3
Ajaccio 1.63 -0.81 0.07 Pour k=1,2,3 :
Brest -0.45 1.31 0.84
Dunkerque -0.43 0.79 -0.81 F2ki = 6 k
Nancy -1.85 -0.12 -0.21 i=1,6
Nice 1.96 0.37 -0.13
Toulouse -0.85 -1.54 0.24
k 1.83 0.92 0.25

et la matrice des composantes principales C :


1,63 -0,81 0,07
-0,45 1,31 0,84
C= -0,43 0,79 -0,81
-1,85 -0,12 -0,21
1,96 0,37 -0,13
-0,85 -1,54 0,24

J. DABOUNOU - FST DE SETTAT ACP001 - 20


Le plan factoriel
Le plan défini par le couple de vecteurs propres (u1. u2) est appelé plan factoriel.

Il s’agit du plan :

- qui est globalement le plus proche des points représentant les individus

- sur lequel ces points se déforment le moins possible par projection

- qui explique le mieux possible l’inertie projetée

- tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre
plan) la disposition des individus dans l’espace RJ.

D’ailleurs ces quatre conditions sont équivalentes.


1  2
Cette visualisation est d’autant plus fidèle au nuage de points que le taux
 1   2  ...   r
est proche de 1. r étant le rang de Σ. Dans l’exercice r=3.

J. DABOUNOU - FST DE SETTAT ACP001 - 21


Projection sur le plan factoriel
La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un graphique qui
capture le maximum d’information possible (à visualiser sur un plan) à partir de données de
départ.

M1 Mi

M3 M2

J. DABOUNOU - FST DE SETTAT ACP001 - 22


Projection sur le plan factoriel
La projection des points sur le plan factoriel défini par (u1, u2) permet d’obtenir un
graphique qui capture le maximum d’information possible (à visualiser sur un plan) à
partir des données de départ.

L’inertie expliquée par le plan


factoriel est donnée par
(61.17 + 30.51)% soit 91.68 %.

F2(30.51%)

F1(61.17%)

J. DABOUNOU - FST DE SETTAT ACP001 - 23


Interpréter la position des villes
dans le plan principal et
commenter

J. DABOUNOU - FST DE SETTAT ACP001 - 24


Interpréter le plan factoriel
Nous revenons aux données pour essayer de comprendre la variabilité selon les axes.
1er axe:
- Nancy à l’extrémité gauche
- Nice, Ajaccio à l’extrémité droite
p tmax tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 3.87 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76

En observant les données, on voit que le 1er axe évolue globalement dans le sens
croissant de tmin. Les villes qui ont les tmin les plus basses se trouvent à gauche, ceux
qui ont des tmin élevées se trouvent à droite.
J. DABOUNOU - FST DE SETTAT ACP001 - 25
Interpréter le plan factoriel
2ème axe:
- Toulouse, ensuite Ajaccio en bas
de l’axe
- Brest ensuite Dunkerque en haut
de l’axe
p tmax tmin
Ajaccio 12.04 23.7 5.9
Brest 17.18 15.5 -1.8
Dunkerque 11.83 13.1 2.8
Nancy 6.23 13.5 -2.4
Nice 16.99 21.1 7.2
Toulouse 3.87 20.30 -0.90
Moyenne 11.36 17.87 1.80
Ecart-type 4.98 4.04 3.76

En observant les données, on voit que le 2ème axe évolue globalement dans le sens
croissant de p et, relativement, dans le sens décroissant des tmax.

J. DABOUNOU - FST DE SETTAT ACP001 - 26


Calculer les corrélations linéaires
entre les variables initiales et les
deux premières composantes
principales.

J. DABOUNOU - FST DE SETTAT ACP001 - 27


Interpréter le plan factoriel
Pour vérifier nos conclusions, nous allons calculer les coefficients de corrélation entre
les variables et les composantes principales F1 et F2 (et facultativement F3).

F1 F2 F3
p 0.62 0.76 0.21
tmax 0.76 -0.59 0.28
tmin 0.93 -0.03 -0.36

On constate alors que F1 est corrélée à toutes les variables, mais très particulièrement
à tmin. F2 est corrélée à p et inversement corrélé à tmax. Nous allons visualiser ces
corrélations sur le plan factoriel.
J. DABOUNOU - FST DE SETTAT ACP001 - 28
Interpréter le plan factoriel
La projection des variables sur le plan factoriel permet de visualiser de façon plus
claire les corrélations que nous avons, d’une certaine manière, constaté en revenant
aux données.

J. DABOUNOU - FST DE SETTAT ACP001 - 29


Réaliser un tableau qui synthétise
la qualité de représentation et la
contribution des individus aux axes
factoriels et leur contribution à
l’inertie totale ainsi que la qualité
de représentation des variables aux
axes factoriels
J. DABOUNOU - FST DE SETTAT ACP001 - 30
Qualité de représentation
Dans le cas des données centrées réduites, la longueur des vecteurs représentant les variables
caractérise la qualité de représentation de celles-ci. Une variable dont le vecteur est proche du
périmètre du cercle de corrélation (donc de norme 1) est bien représentée. En effet, cela veut
dire que la variable et le vecteur qui la représente sont très voisins, donc que la variable est
proche du plan de projection.
Pour les individus, la projection est de bonne qualité lorsque le cosinus carré de l’angle entre le
vecteur OMi et le vecteur qui lui correspond par projection sur le plan factoriel est proche de 1.
On voit sur la figure ci-après que l’individu M5 est bien projeté sur le plan factoriel. cos2(5)1,
autrement dit, M5 est proche du plan factoriel. Par contre l’individu M4 est mal représenté sur le
plan factoriel. En effet cos2(4)<<1, autrement dit, M4 est trop loin du plan factoriel.
M4

M1

M5
c O4
c2,52,4 O5
4 5

O c1,4 c1,5

M3
M2
J. DABOUNOU - FST DE SETTAT ACP001 - 31
Qualité de représentation
Nous avons :
OO24
cos2(4)=
OM24
(u1 , u2) constitue une base orthonormée du plan factoriel. Donc on a :
OO24 = c1,4
2 2
+ c2,4
et ainsi :
2 2
2
c1,4 + c2,4
cos (4)=
OM24
De façon générale, la qualité de la projection de l’individu i sur le plan factoriel est caractérisée
par :
2 2
2
c1,i + c2,i
cos (i)=
OM2i
où c1,i et c2,i sont les ièmes composantes principales respectivement sur le premier et le
deuxième axe principal.
L’interprétation des individus à partir du plan factoriel ne peut être valide que pour ceux
possèdent un cosinus carré proche de 1.

J. DABOUNOU - FST DE SETTAT ACP001 - 32


Qualité de représentation
La qualité de représentation d’un individu peut aussi être définie par rapport à un seul axe. Par
exemple, celle de l’individu M4 par rapport au premier axe principal est donnée par :
2 M4
c1,4
Qlt(M4 , F1) = cos2(14)=
OM24 M1
où 14 est l’angle entre OM4 et u1.
M5
c O4
c2,52,4 4 O5
5
14
O c1,4 c1,5

M3
M2

On définit de la même manière la qualité de représentation de Mi par rapport à un axe principal


Fk par :
2
ck,i
Qlt(Mi , Fk) = cos2(ki)=
OM2i
où ki est l’angle entre OMi et le vecteur propre uk.

J. DABOUNOU - FST DE SETTAT ACP001 - 33


Qualité de représentation
On retrouve ainsi la qualité de représentation d’un individu dans le plan factoriel qui est :
2 2 X4
c1,i + c1,i
cos2(4)= = Qlt(Xi , F1)+Qlt(Xi , F2)
OX2i X1

X5
c O4
c2,52,4 O5
14
4
O c1,4 5 c1,5

X3
X2

On définit aussi la qualité de représentation d’un individu dans un sous-espace (uk)kK, K{1,2,…
r} où r désigne le nombre de valeurs propres non nulles. On a ainsi :
2
c
kK k,i
cos2(K)= = Qlt(Xi , Fk)
OX2i
kK
En particulier, si K={1,2,… r} alors
2
c
kK k,i
cos2( K)= = Qlt(Xi , Fk) = 1
OX2i
kK
J. DABOUNOU - FST DE SETTAT ACP001 - 34
Contribution
Maintenant, nous allons analyser la contribution des individus à la construction d’un axe factoriel.
Considérons, pour commencer, le premier axe factoriel. Il est caractérisé par le fait de représenter
l’inertie 1, qui est valeur propre de XtX. Et on a :
I
1 = 2
c1,i
i=1
2
A noter que c1,i représente l’inertie de l’individu Xi expliquée par le premier axe principal. Il est
ainsi naturel de définir la contribution de l’individu i au premier axe principal par le rapport :
2
c1,i
Contrib(Xi , F1) =
1

Il est facile de voir que :


I
Contrib(Xi , F1) = 1
i=1
En effet, cela veut dire que la variable et le vecteur qui la représente sont très voisins, donc que la
variable est proche du plan de projection.

J. DABOUNOU - FST DE SETTAT ACP001 - 35


Qualité et contribution
On reprenant notre exemple, on a le tableau et graphiques suivants :
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187

J. DABOUNOU - FST DE SETTAT ACP001 - 36


Qualité et contribution (Exemple)
Les individus qui sont le plus loin de l’origine à droite ou à gauche sont ceux qui contribuent le
plus à F1. De même, ceux qui sont les plus éloignés de l’origine en haut ou en bas sont ceux qui
contribuent le plus à F2.
Qlt(Mi,F1) Qlt(Mi,F2) Qlt(Xi,{F1,F2}) Contrib(Mi,F1) Contrib(Mi,F2) Contrib(Mi,{F1,F2})
Ajaccio 0,802 0,197 0,998 0,240 0,118 0,199
Brest 0,078 0,653 0,731 0,019 0,312 0,116
Dunkerque 0,128 0,423 0,552 0,017 0,113 0,049
Nancy 0,982 0,004 0,987 0,311 0,003 0,208
Nice 0,962 0,034 0,996 0,348 0,024 0,240
Toulouse 0,228 0,753 0,981 0,065 0,430 0,187

J. DABOUNOU - FST DE SETTAT ACP001 - 37


Représenter les résultats sur le
cercle des corrélations

J. DABOUNOU - FST DE SETTAT ACP001 - 38


Composantes principales et variables
Nous rappelons que l’un des objectifs de l’ACP était de trouver des variables synthétiques à
utiliser à la place des variables déjà existantes.

D’un autre côté, F1 est constituée des coordonnées de la projection du nuage de points
représentant les individus sur le premier axe principal.

Donc F1 = X . u1.

où X =

Posons aussi u1 = (u1,1, u1,2, … , u1,J) ou les u1,j sont des nombres réels.
On rappelle que l’on suppose X centrée réduite. Sinon on commence par la rendre ainsi. On peut
écrire : X = (V1 , V2 , … , VJ), où les Vj sont des vecteurs colonnes représentant les variables.
Ce qui donne : F1 = X . u1 = u1,1 V1 + u1,2 V2 + … + u1,J VJ.
De la même manière : F2 = X . u2 = u2,1 V1 + u2,2 V2 + … + u2,J VJ.
Ce qui permet d’écrire les composantes principales F1 et F2 en fonction des variables de départ.
Cela nous montre comment se combinent les variables initiales dans des variables latentes qui
nous renseignent mieux sur la variabilité entre les individus.
J. DABOUNOU - FST DE SETTAT ACP001 - 39
Composantes principales et variables
Dans le cas de notre exemple, on obtient :
Ce qui donne : F1 = X . u1 = 0.73 p + 0.40 tmax + 0.56 tmin
et : F2 = X . u2 = 0.62 p - 0.73 tmax - 0.29 tmin.
Ces expressions réaffirment les liaisons que nous avons déjà constatées entre les variables et les
composantes principales.
Comme sur le plan factoriel, on voit que toutes les variables ont le même signe de corrélation (ici
positif) avec F1. On dit concernant F1 qu’il s’agit d’un facteur taille.
F2 est positivement corrélé à p et négativement corrélé à tmin avec des coefficients importants et
négativement corrélé à tmin avec des coefficients plus faibles.
Il nous renseigne essentiellement sur l’écart pour une ville entre
les précipitations et la température maximale. Il s’agit d’un
facteur de forme.
Cela nous permet d’obtenir les facteurs latents qui permettent
de mieux analyser la variabilité entre les résultats obtenus pour
chaque ville.

J. DABOUNOU - FST DE SETTAT ACP001 - 40


Analyse des variables
Comme pour les individus, on projette les
variables dans l’espace RI. Toutes les variables RI
sont représentées par des flèches qui se
terminent sur une hypersphère de rayon 1 L2 Vk
puisque les variables sont centrées réduites. Vj
N2k
On cherche par la suite les axes qui préservent N2j L1
le maximum d’inertie projetée. v2
N1j
Donc choisir v1 unitaire qui maximise Jj=1 ON1j2 v1N1k
revient à trouver v1 unitaire qui maximise O
(Xtv1)t.(Xtv1) = v1t XXtv1 avec v1t.v1 =1. On trouve
alors, comme pour les individus que :
1
XXt v1 =  v1. Donc on a :
I

1
• v1 vecteur propre de XXt associé à une valeur propre 
I
1
•  étant la plus grande des valeurs propres de XXt .
I

J. DABOUNOU - FST DE SETTAT ACP001 - 41


Analyse des variables
Les variables étant centrées et réduites, donc représentées par des vecteurs unitaires, la
projection de Vj sur l’axe défini par v1 est égale au produit scalaire < Vj , v1 > qui est égal au
cosinus de l’angle 1j entre les deux vecteurs Vj et v1, et donc au coefficient de corrélation entre Vj
et v1. Ainsi : I R
J J J
ON12j = cos(1j )2 = corr(Vj , v1 )2 L2 Vk
j=1 j=1 j=1
N2k Vj
Ce qui montre que v1 est le vecteur unitaire le
mieux corrélé globalement à l’ensemble des
N2j L1
v2 1j
variables. N
v1N1k 1j
Comme pour les individus, on a un autre axe L2
O
défini par v2, vecteur unitaire orthogonal à v1,
qui récupère le maximum d’inertie non
récupérée par v1.
1
v2 est lui aussi un vecteur propre de XXt
I
associé à la valeur propre 2 qui est la deuxième
plus grande valeur propre après 1.

J. DABOUNOU - FST DE SETTAT ACP001 - 42


Axes de l’ACP
La matrice XXt est symétrique semi-définie positive. Elle est donc diagonalisable et possède r
valeurs propres non nulles, toutes strictement positives. r étant le rang de XXt.
1
Par ailleurs, l’inertie totale des variables (dispersion des points) est égale à trace(XXt).
I

1
Donc : trace(XXt) = 1 + 2 + … + r
I

où 1, 2, …, r >0 sont les valeurs propres non nulles de XXt.

Les vecteurs propres unitaires associés v1, v2, …, vr sont deux à deux orthogonaux.
1 1 1
On a XXt v1 = 1 v1. Donc Xt XXt v1 = Xt 1 v1. Ce qui s’écrit : XtX (Xt v1) = 1 (Xt v1).
I I I

1
Donc Xt v1 est vecteur propre de XtX et 1 la valeur propre associée.
I

1 1
En développant un peu, on voit que les valeurs propres de XtX et de XXt sont égales:
I I

Pour k=1,r on a k = k.

J. DABOUNOU - FST DE SETTAT ACP001 - 43


Factorisation et reconstruction des données
Nous avons F1 = X u1. On pose de même G1 = Xt v1, coordonnées des projections des variables
sur l’axe principal dans l’espace RI.
On a : u1t Xt X u1 = v1t X Xt v1 = I.1. On en déduit : F1 = G1 = 𝐈 1
On a aussi : F1 = X u1 et v1 sont des vecteurs propres de XXt associés à 1 donc on peut écrire :
F1 = X u1= 1 v1.
On montre d’ailleurs que pour k=1,r on peut écrire Fk =X uk= k vk et Gk =Xt vk= k uk.
Par ailleurs, à partir de X uk= 1 vk, , k=1,r on obtient la relation :
r r
X. uk utk = k vk utk
k=1 k=1
Comme les vecteurs propres uk, k=1,r sont orthogonaux et de norme 1, on peut écrire :
r
X = k vk utk
k=1
Cette expression de X, matrice des données initiales, permet de réduire le nombre de variables
de I.J à r.(I+J) sans perte d’information ou à s.(I+J) avec perte négligeable d’information où s est
le nombre de valeurs propres retenues.

J. DABOUNOU - FST DE SETTAT ACP001 - 44


Calcul des composantes principales
On a
0.55 -0.29 -0.23 -0.49 0.48 -0.02
-0.29 0.44 0.09 0.08 -0.09 -0.24
1 -0.23 0.09 0.25 0.15 -0.08 -0.17
XXt =
I -0.49 0.08 0.15 0.58 -0.61 0.28
0.48 -0.09 -0.08 -0.61 0.66 -0.38
-0.02 -0.24 -0.17 0.28 -0.38 0.52
1
On utilise un logiciel pour calculer les valeurs et vecteurs propres de I XXt. On obtient :
v1 v2 v3 v4 v5 v6
1 = 1 = 1.83
2 = 2 = 0.92 0.49 -0.34 0.06 0.71 0.00 0.37
3 = 3 = 0.25 -0.14 0.56 0.69 0.34 0.29 -0.05
4 = 4 = 0.00 et -0.13 0.34 -0.66 0.26 0.59 0.10
5 = 5 = 0.00 -0.56 -0.05 -0.17 0.56 -0.47 -0.35
6 = 6 = 0.00 0.59 0.16 -0.11 0.09 0.01 -0.78
-0.25 -0.66 0.20 0.02 0.59 -0.34

Les composantes principales sont calculées d’après la relation: Gk = Xt vk. On obtient :


G1 G2 G3 G4 G5 G6
1.52 1.86 0.50 0.00 0.00 0.00
1.87 -1.43 0.68 0.00 0.00 0.00
2.28 -0.06 -0.89 0.00 0.00 0.00
J. DABOUNOU - FST DE SETTAT ACP001 - 45
Cercle des corrélations
Les données de la diapositive précédente permettent de créer le cercle des corrélations.
Les variables normalisées sont représentées sur le graphique de la même manière que sur le plan
factoriel. Cela confirme le caractère dual des deux représentations. Par exemple, les coordonnées
1
de p dans le plan factoriel sont : (𝐆11, 𝐆12)=(0.62 , 0.76 )
I
1
Pour tmax, elles sont : (𝐆21, 𝐆22)=(0.76 , -0.58 )
I
1
Pour tmin, elles sont : (𝐆31, 𝐆32)=(0.93, -0.03 )
I
Dans le présent exemple, I=6.

J. DABOUNOU - FST DE SETTAT ACP001 - 46


Factoriser la matrice de données

J. DABOUNOU - FST DE SETTAT ACP001 - 47


Factorisation et reconstruction des données
Nous allons maintenant reconstruire une approximation de rang 2 de X en utilisant les vecteurs
propres u1, u2 et v1, v2 selon la formule : X  Xappr = I ( 1 v1 u1t + 2 v2 ut2 )

0.49 0.46 0.56 0.69 -0.34 0.79 -0.61 -0.03


-0.14 0.56
𝐗  Xappr = 61 -0.13 + 62 0.34
-0.56 -0.05
0.59 0.16
-0.25 -0.66

Le calcul donne :
0.04 0.57 0.47 0.14 1.44 1.09
0.34 -0.43 -0.14 1.17 -0.59 -0.96
0.17 -0.30 -0.13 0.10 -1.18 0.27
𝐗=  Xappr =
-0.39 -0.39 -0.52 -1.03 -1.08 -1.12
0.48 0.36 0.55 1.13 0.80 1.44
-0.65 0.19 -0.22 -1.50 0.60 -0.72

Xappr est une approximation de X en terme d’inertie expliquée et d’axes principaux.

J. DABOUNOU - FST DE SETTAT ACP001 - 48


Factorisation et reconstruction des données
On montre que l’on a : X = I ( 1 v1 u1t + 2 v2 ut2 + 3 v3 ut3 )

0.49 0.46 0.56 0.69 -0.34 0.79 -0.61 -0.03 0.06 0.41 0.56 -0.72
-0.14 0.56 0.69
1
𝐗 = 1 -0.13 + 2 0.34 + 3 -0.66
6 -0.56 -0.05 -0.17
0.59 0.16 -0.11
-0.25 -0.66 0.20

Cette factorisation permet de retrouver la décomposition en valeurs singulières (SVD) de X : X = VΣUt


0.49 -0.34 0.06 61 0 0 0.46 0.56 0.69
-0.14 0.56 0.69
𝐗 = -0.13 0.34 -0.66 0 62 0 0.79 -0.61 -0.03

-0.56 -0.05 -0.17 0 0 63 0.41 0.56 -0.72


0.59 0.16 -0.11
-0.25 -0.66 0.20

J. DABOUNOU - FST DE SETTAT ACP001 - 49

Vous aimerez peut-être aussi