Chapitre I
Analyse en composantes
principales ”ACP”
Cours 3
Lamia JAAFAR Belaid Analyse 2
Synthèse de l’étude du nuage NI
Une base orthonormée du sous-espace vectoriel de dimension
S, qui s’ajuste au mieux au nuage NI dans RK , est formée par
les S vecteurs propres u1 , .., uS correspondants aux S plus
grandes valeurs propres λ1 , .., λS , de la matrice X t X .
Les axes obtenus sont les facteurs principaux (axes principaux,
axes d’inertie) et à chaque axe s est associée une variable
appelée composante principale, formée par les cordonnées
des projections des individus sur l’axe s.
S est au plus égal au rang de X t X et si s = Rg(X t X ) = K alors
la reconstruction est exacte.
X t X n’est autre que la matrice de corrélation!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : application
On cherche à faire une ACP au tableau des données
pluviométriques centrées et réduites, enregistrées sur 30
ans de 9 villes Tunisiennes Lien tableau de données !
Une ville est caractérisée par un profil de pluviométrie
mensuelle =⇒ on cherche à étudier la variabilité entre les
profils =⇒ on s’intéresse aux ressemblances/différences
entre vecteurs, ∀ mois de l’année!
Données: nuage de 9 points dans R12 =⇒ on cherche un
plan sur lequel les villes sont projetées qui approxime au
mieux la forme du nuage de points initial!
Ces étapes se généralisent à n’importe quel tableau de
données.
TP =⇒ Visualisation des profils de pluviométrie =⇒
discussion des premières constatations!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : analyse
Synthèse
Formation de groupes de villes par rapport à l’axe
principal, en particulier Tabarka et Tozeur sont
diamétralement opposée.
Les profils de Sfax/Monastir sont proches ”relativement” en
comparaison avec ceux de Sfax/Tabarka
Si on considère une seule dimension ⇒ nuage applati ⇒
représentation axiale!
La dimension 2 permet de voir une certaine opposition
avec d’autres villes: Kairouan/Bizerte ou encore
Kairouan/Jerba!
On veut une machinerie automatique analysant ces faits!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : analyse
Soit le taux pluviométrique en Janvier de
Tozeur-Monastir-Tunis-Tabarka ⇒ en évoluant tout au long
de l’axe 1, ce taux augmente =⇒ on récupère les
coordonnées F1 (facteurs)!
On calcule le coeff de corrélation entre le vecteur ”Janvier”
et F1 ⇒ r (Janvier , F1 ) = 0.94 ⇒ ces deux vecteurs sont
très corrélés!
On calcule r (k, F1 ) pour toutes les autres variables k! ⇒
toutes les variables sont corrélées à F1 !
On récupère de même F2
(Visualisation des facteurs F1 et F2 ) et on calcule r (k, F2 ),
pour toutes les variables k ⇒ on construit le cercle des
corréralions! Visualisation du cercle des corrélations
comme aide à l’interprétation =⇒ discussion des
premières constatations!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : analyse
Toutes les variables sont corrélées positivement à F1 ! ⇒
leur taux de pluviométrie augmente avec le facteur F1 ∀ le
mois de l’année ⇒ Tabarka a un taux élevé pendant toute
l’année contrairement à Tozeur ⇒ la répartition donne à
droite de l’axe F1 des villes plutôt pluvieuses et à gauche
des villes plutôt non pluvieuses (moyennement!)
Certaines variables sont corrélées positivement à F2
d’autres négativement!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : analyse
Pour les variables corrélées positivement, plus on avance
dans F2 plus le taux de pluviométrie augmente pour ces
mois! et inversement ⇒ Kairouan est plutôt pluvieuse en
juillet, août et Jerba pas pluvieuse!
Pour les variables corrélées négativement, plus on avance
dans F2 plus le taux de pluviométrie diminue pour ces
mois! et inversement ⇒ Kairouan est ”relativement” non
pluvieuse en novembre, décembre, janvier, février! par
contre Bizerte, Tabarka sont plutôt à tendance pluvieuses
notons que les coeff de corrélation ne sont pas assez
grands!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI : synthèse et interprétation: indicateurs synthétiques
Existence de groupes de villes où le taux pluviométrique
est grand et d’autres où ce taux est faible ⇒ groupes à
forte moyenne et d’autres à faible moyenne ⇒ on calcule
la moyenne de chaque ville sur l’année ⇒ le coeff de
corrélation entre F1 et la moyenne est 0, 99! ⇒ l’axe 1 est
une bonne moyenne de pluviométrie annuelle!
Existence de villes diamétralement opposées % l’axe F2 :
Kairouan a un taux important en juillet/août et supérieur à
la moyenne en juin/septembre (saison été) et faible en
janvier/décembre (saison hiver)! contrairement à Sfax ou
Jerba! ⇒ on calcule le pourcentage des précipitations en
été ⇒ le coeff de corrélation entre F2 et le vecteur taux de
pluie en été est de 92%! F1 et F2 : variables/indicateurs
synthétiques⇒ Représentation du nuage par F1 , F2 !
Lamia JAAFAR Belaid Analyse 2
En pratique, il est important de retenir que:
Le retour aux données est indispensable pour la validation
des résultats!
La richesse de l’interprétation peut par ailleurs reposer sur
la connaissance et la maı̂trise des données!
Lamia JAAFAR Belaid Analyse 2
ACP
Ajustement du nuage des variables NK
But: étudier les liaisons possibles entre les variables!
Un point Mk du nuage est dans l’espace RI , pour chaque
variable k, k ∈ RK ⇒ ajustement du nuage de points par la
recherche d’axes d’inertie maximum!
Lamia JAAFAR Belaid Analyse 2
ACP
Ajustement du nuage des variables: application
Soit le nuage des variables Nk : Voir Figure! L’angle θkl
formalise la liaison entre les points Mk , Ml .
Comme les variables sont centrées donc r (k, l) = cos θkl .
En particulier r = 0 ⇔ variables ”orthogonales” et r = 1 ⇔
variables ”colinéaires”!
Les variables étant réduites donc toutes les variables sont
situées sur l’hypersphère centrée en 0!
Les liaisons entre variables vont être automatiquement
détectées par le graphique de l’image approchée obtenue
par la technique d’ajustement!
Le critère de maximisation
P P fait
Pdonc intervenir
(OH s )2 = cos2θ = r 2 (k, v )!
k k k ks k s
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des variables NK : étude
Stratégie: il suffit de considérer X t au lieu de X ⇒ l’inertie le
long de la droite d’ajustement Dvs est vst XX t vs . Donc, l’axe
factoriel est déterminé par vs tel que:
vst XX t vs est maximal,
vst vs = 1 (contrainte de normalité),
vst vq = 0, ∀q = 1, .., s − 1 (contrainte d’orthogonalité).
Le sous espace d’ajustement est donc donné par la Proposition
5.
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des variables NK : étude
Proposition 5
Le sous espace vectoriel s’ajustant au mieux au nuage des
variables, est engendré par les vecteurs propres v1 , .., vS
associés aux s plus grandes valeurs propres µ1 , .., µS de la
matrice XX t .
Les v1 , .., vs sont les axes factoriel relatifs au nuage NK et
les composantes des variables k sur ces axes sont les
composantes factorielles.
Pour le rang s, on a: λs = ust X t Xus et µs = vst XX t vs .
S est au plus égal à Rg(XX t ) = Rg(X t X ).
Application: La représentation graphique de ce problème
d’optimisation fournit le même graphique que précédemment!!!
Voir Figure! ⇒ Discussion!
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des variables NK : étude
Proposition 5
Le sous espace vectoriel s’ajustant au mieux au nuage des
variables, est engendré par les vecteurs propres v1 , .., vS
associés aux s plus grandes valeurs propres µ1 , .., µS de la
matrice XX t .
Les v1 , .., vs sont les axes factoriel relatifs au nuage NK et
les composantes des variables k sur ces axes sont les
composantes factorielles.
Pour le rang s, on a: λs = ust X t Xus et µs = vst XX t vs .
S est au plus égal à Rg(XX t ) = Rg(X t X ).
Application: La représentation graphique de ce problème
d’optimisation fournit le même graphique que précédemment!!!
Voir Figure! ⇒ Discussion!
Lamia JAAFAR Belaid Analyse 2