Cours de l'ACP
Cours de l'ACP
composantes
principales
Introduction …………………………………………………………………………… …4
Récapitulatif …………………………………………………………………………..….13
De la théorie à la pratique……………………………………………………………...….21
L9ACP en pratique…………………………………………………………………….…..21
Exemple 1…………………………………………………………………………………24
Exemple 2 ….......................................................................................................................35
I- Définition et objectifs…………………………………………………………..…...45
Calcul de Box………………………………………………………………………..…49
2
A- L9Analyse en Composantes Principales
traitement des données quantitatives multidimensionnelles qui poursuit les deux objectifs
suivants :
Pourquoi ?
La difficulté vient de ce que les individus étudiés ne sont plus représentés dans un plan ou
bien dans un espace à 3 dimension, mais dans un espace de dimension plus importante,
possible la réalité, il s9agit donc d9obtenir le résumé le plus pertinent possible des données
initiales, afin de représenter les données sur des graphique pour atteindre une finalité
5
Les principes théoriques de L9ACP :
Les données sont les mesures effectuées sur n unités { u1 , u 2 ,.............u n }. Les p variables
quantitatives qui représentent ces mesures sont v1 , v2 ,.............,v p , d9où l9écriture matricielle
v1 v2 ... v j ... v p
u1 ù x11 x12 ... x1 j ... x1 p ù
u2 úx x22 ... x2 j ... x2 p úú
ú 21
ý ú ý ý ... ý ý ý ú
X ú ú
ui ú xi1 xi 2 ... xij ... xip ú
ý ú ý ý ... ý ý ý ú
ú ú
up ûú xn1 xn 2 ... xnj ... xnp ûú
La ligne i décrit la valeur prise par l9individu u i pour p valeurs, alors que la colonne j décrit la
Le problème à traiter
On cherche à extraire l9information pertinente contenue dans le tableau des données. Pour
Comment ?
6
Les supports théoriques :
Telles que
individus.
La variance de C 2 doit être, à son tour, la plus grande possible. Ainsi, cette deuxième
première.
p ème ), les parts d9informations expliquées par chacune d9elles devenant de plus en plus
faibles.
quantitatives initiales, toutes plus ou moins corrélées entre elles, en p nouvelles variables
7
Remarque :
Les données sont soit considérées en tant qu'individus décrits par leurs p variables, soit en tant
que variables décrites par les n individus, d9où l9importance de la considération des deux
nuages de points. Nous obtenons ainsi n points dans l9espace R , espace des variables et p
p
Mais le problème est de visualiser la forme des nuages, pour ce faire l'idée est d'étudier les
projections sur des droites, des plans ou plus généralement sur des sous espace de dimension
réduite s < p. Il faut donc chercher le sous-espace qui ajuste au mieux le nuage de points i.e.
Nous allons donc chercher à ajuster au mieux le nuage des individus dans l'espace des
L'objectif est de fournir des images approchées du nuage des individus - que nous noterons Ni
dimension s < p.
a) Dans un premier temps, cherchons un sous-espace vectoriel à une dimension, i.e. une
droite d1 passant par l9origine, qui ajuste au mieux le nuage des individus Ni. Nous
considérons donc le cas où s= 1. La projection sur la droite d1 qui ajuste au mieux le nuage Ni
8
donne la dispersion ou inertie maximale le long de la droite d1. (La notion de variance se
généralise en inertie).
À la recherche de d1 :
minimiser les distances des points du nuage Ni à la droite d1, c9est -à-dire que
t t
maximiser une forme quadratique définie par u1 X Xu1
Le problème revient donc à trouver qui maximise cette forme quadratique avec la
Le sous-espace à deux dimensions est donc caractérisé par l9axe d1 et l9axe d2 défini par le
9
Par récurrence, le sous-espace à s dimensions s9ajustant au mieux au nuage Ni contient les
ü
ÿu s X Xu s est maximal
t t
vérifiant : ý t
ÿ
þu s u s 1
mieux au nuage Ni dans l9espace des variables, est constituée par les s vecteurs propres
t
u1 , u 2 ,.............,u s correspondant aux s plus grandes valeurs propres de la matrice X X .
Définition : les s vecteur ainsi obtenu déterminent des axes qui s9appellent les axes factoriels
De la même façon que pour le nuage des individus Ni, nous cherchons une image du nuage
des variables - que nous noterons Nv dans l9espace des individus. L9approche est identique à
t
celle du nuage des individus, il suffit simplement de considérer la matrice XX au lieu de
X t X . Ainsi comme dans le premier cas, l9axe factoriel (ou axe d9inertie) est déterminé par v s
vérifiant :
10
üvst XX t vs est maximal
ÿ t
ývs vs 1 (contraint e de normalité)
ÿ t
þvs vq 0 pour tout q 1, 2, û, s 1 (orthogonalité )
Le sous-espace d9ajustement est obtenu de la même manière que dans le cas des individus, par
la proposition suivante :
mieux au nuage Nv dans l9espace des individus est constituée par les s vecteurs propres
principales, c9est celles qui résument donc l'ensemble des variables initiales du tableau X.
Remarque :
entre les ajustements dans les deux espaces, ces relations montrent que les deux nuages
Mais après avoir visualiser les données brutes dans des espaces de dimension réduite par
Bien entendue, il est possible de reconstruire de manière exacte le tableau de données X par
vecteur propre de norme 1 de la matrice X9X, correspondant à la sème valeur propre, et est
le sème vecteur propre de norme 1 de la matrice XX9 correspondant à la même valeur propre,
nous avons :
11
p
X õ λi vi u iT
i 1
S9ajuster au mieux signifie donc reconstituer au mieux les positions des points des nuages par
Problème :
La difficulté majeur réside dans le choix de s, c9est-à-dire à partir de quelle valeur a-t-on une
õ i
ô i 1
p
õ
i 1
i
Ce coefficient est appelé taux d9inertie ou pourcentage de la variance relatif aux s premiers
facteurs.
Un repère formé par les s premiers axes factoriels permet de reconstituer les positions de
départ avec une bonne précision, si la somme des s valeurs propres associées représente une
Nous obtenons ainsi une reconstruction approchée du tableau X en se limitant aux s premiers
axes factoriels.
12
Récapitulatif
Etant donnée un tableau de données de taille (p, q) que l9on représente par une matrice X.
Il est souhaitable de centrer et réduire les variables i.e. normer la matrice X en colonne, soit Z
A partir de cette matrice, on définit la matrice R des corrélations entre les q variables prises
deux à deux :
1 T
R Z Z
p
On extrait les valeurs propres les plus grandes de la matrice R des corrélations.
Les valeurs propres représentent les variances des individus sur les axes correspondants.
13
En pratique, on arrête l9extraction des valeurs propres lorsque la somme des s valeurs propres
d9inertie).
On détermine les vecteurs propres associés aux valeurs propres, ce sont les axes factoriels.
Les vecteurs propres permettent le calcul des composantes principales, et donc le calcul des
coordonnées des variables et des individus sur les nouveaux axes principaux.
a- Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés aux
valeurs propres supérieurs à 1, c9est-à-dire dont la variance est supérieure à celle des variables
d9origine.
• Et plus généralement, on ne garde que les valeurs propres supérieures à leur moyenne.
b- Éboulis des valeurs propres : on cherche un «coude », une cassure dans le graphe des
On cherche à calculer les coordonnées des individus sur les nouveaux axes, les vecteurs
variables dans le repère des composantes principales. Ces nouvelles coordonnées sont
obtenues en multipliant la matrice des données centrées réduites Z avec la matrice des
vecteurs propres P
14
6) Nouvelles coordonnées des variables
Pour calculer les nouvelles coordonnées des variables, il faut multiplier chaque vecteur propre
7) On projet les points de nuage sur le plan ou l9espace formé par les premiers axes factoriels
Cette projection entraîne une déformation du nuage de points, d9où l9importance d9étudier
Pour connaître la qualité de représentation d9un individu, on postule les règles énoncées
Le nuage des individus dans l9espace des variables est formé de p points.
Les points représentés dans l9espace factoriel définie par les premiers axes sont les projections
des individus.
Une proximité entre les projections de deux points individus s9interprète comme un
On représente les q points variables sur le même graphique, les coordonnées des points
Le coefficient de corrélation entre une variable u et un axe F étant le cosinus de l9angle formé
par u et F.
15
Une proximité entre deux points variables signifie que les deux variables correspondantes
sont corrélées, la corrélation est encore plus significative lorsque les points représentatifs de
Une proximité entre un point variable et un point individu signifie que la variable joue un rôle
ö3 4ö
÷ ÷
÷7 2÷
Faire une ACP normée de la matrice X ÷
5 6÷
÷ ÷
÷5 4 ÷ø
ø
ö 3ö ö 4ö
÷ ÷ ÷ ÷
÷ 7÷ ÷ 2÷
Pour se faire posons : C1 ÷ et C2 ÷
5÷ 6÷
÷ ÷ ÷ ÷
÷ 5 ÷ø ÷ 4 ÷ø
ø ø
1 4
Calculons la moyenne de chaque colonne : x j õ xij
4 i 1
ö 2 0ö
÷ ÷
÷ 2 2÷
On obtient alors x1 5 et x 2 4 la matrice centrée est alors : X ÷
0 2÷
÷ ÷
÷ 0 0 ÷ø
ø
16
1 4 1
Calculons la variance de chaque colonne : on a var(C j ) õ
4 i 1
( xij x j ) 2 C j
4
ó (C1 )
1
4
C1
1
4
(2) 2 2 2 0 2 0 2 2
1
De la même façon on obtient ó (C 2 ) C2 2
4
ö 2 0 ö
÷ ÷
÷ 2 2÷
Ainsi on obtient la matrice centrée réduite Z ÷ ÷
÷ 0 2÷
÷ 0 0 ÷ø
ø
1 t
La matrice des corrélations R s9obtient par la formule suivant : R Z Z
4
ö 1ö
÷ 1 ÷
÷ 2÷
D9où R÷ ÷
÷ 1 ÷
÷ 1÷
ø 2 ø
1
1 x 3 1
L9équation caractéristique es donnée par : det( R xI 2 ) 2 ( x )( x )
1 2 2
1 x
2
3 1
Les deux valeurs propres sont alors 1 et 2 (on les classe de plus grande au plus
2 2
petite)
3 üö x ö ö xö 3 ö x öü
E1 E 3 ker( R I 2 ) ý÷÷ ÷÷ IR 2 tq R ÷÷ ÷÷ ÷ ÷ý
2
2 þø y ø ø yø 2 ÷ø y ÷øþ
ö xö
Soit u ÷÷ ÷÷ IR 2 on a :
ø yø
17
ùö 1ö 0 öù ö x ö ö 0 ö
3 ú÷ 1 ÷ 3 ö÷ 1 ÷ú ÷ ÷ ÷ ÷
u ker( R I 2 ) ú÷ 2÷
1 ÷ ÷ú ÷ ÷ ÷ ÷
2 ú÷÷ 1 ÷÷ 2 ÷ 0
úûø 2 ø 1 ÷øúú ÷ø y ÷ø ÷ø 0 ÷ø
ø û
1 ö1 1öö x ö ö 0 ö
÷÷ ÷÷ ÷ ÷ ÷
2 ø1 1÷ø÷ø y ÷ø ÷ø 0 ÷ø
y x
üö x ö üÿ ö 1ö
Donc E 3 ý÷÷ ÷÷ IR 2 tq y xý ÷÷ ÷÷
2 þø y ø ÿþ ø 1ø
ö 2ö
÷ ÷
÷ 2 ÷
÷ ÷
÷ ÷
Un vecteur unitaire de ce sous espace est ÷ 2÷
÷ ÷
ø 2 ø
üÿö1öü
De façon similaire on obtient : E 1 vect ý÷÷ ÷÷ý
2 ÿþø1øþ
ö 2ö
÷ ÷
÷ 2 ÷
÷ ÷
÷ ÷
Un vecteur unitaire de ce sous espace est ÷ 2÷
÷ ÷
ø 2 ø
ö 2ö ö 2ö
÷ ÷ ÷ ÷
÷ 2 ÷ ÷ 2 ÷
Les deux vecteurs ÷ ÷ et ÷ ÷ sont les composantes principales, elles forment alors le
÷ ÷ ÷ ÷
÷ 2÷ ÷ 2÷
÷ ÷ ÷ ÷
ø 2 ø ø 2 ø
S9obtiennent en multipliant la matrice des données centrées réduites par la matrice des
S9obtiennent en multipliant chaque vecteur propre par la racine carrée de la valeur propre
associée
ö 3ö
ö 2ö ÷ ÷
÷ ÷ ÷ 2 ÷
ö xö 3÷ 2 ÷÷
Les nouvelles coordonnées de la première variable sont ÷÷ ÷÷ ÷
ø yø 2÷ 2÷ ÷ ÷
÷ ÷ 3÷
ø 2 ø ÷÷ ÷
ø 2 ø
ö 2 ö ö1ö
÷ ÷ ÷ ÷
ö xö ÷ 2 ÷ ÷2÷
1÷ ÷÷ ÷
Les nouvelles coordonnées de la deuxième variable sont ÷÷ ÷÷
ø yø 2÷ ÷ ÷ ÷
÷ 2 ÷ ÷1÷
÷ ÷
ø 2 ø ø2ø
Toutes ces coordonnées nous permettront de représenter les résultats graphiquement, de les
cik2
Se calcule par : qlt axe k (individu i ) cos2 ( ik ) p
õc
j 1
2
ij
principales et les cij sont les nouvelles coordonnées des individus dans les composantes
principales
19
les abscisses les ordonnées
ö 1 1 ö
÷ ÷
÷ 2 0÷
M nouvellescoordonnées ÷
1 1÷
÷ ÷
des individus
÷ 0 0 ÷ø
ø
Donc
c112 (1) 2 1
qlt axe 1 (individu 1) cos2 ( 11 )
2
(1) (1)
2 2
2
õc j 1
2
1j
2
c32 12 1
qlt axe2 (individu 3) cos2 ( 32 )
2
(1) 1
2 2
2
õc
j 1
2
3j
cik2
La contribution d9un individu i à la formation d9un axe k est donnée par : CTRk (i)
nk
(1) 2 1 (1) 2 1
CTR1 (1) CTR2 (1)
3 6 1 2
4 4
2 2
22 2 02
CTR1 (2) CTR2 (2) 0
3 3 3
4 4
2 2
(1) 2 1 12 1
CTR1 (3) CTR2 (3)
3 6 1 2
4 4
2 2
02 02
CTR1 (4) 0 CTR2 (4) 0
3 3
4 4
2 2
20
Problème :
en réalité les études expérimentales recensent des données de grandes taille qu9on ne peut pas
les traiter manuellement, il9 est dur d9effectuer à la main le calcul des valeurs propres d9une
De la théorie à la pratique :
L9ACP en pratique
En pratique pour réaliser une ACP on suit une démarche en plusieurs étapes :
- Données manquantes : L9ACP ne sait pas traiter les données manquantes. Certains
logiciels proposent de supprimer les individus possédant des données manquantes, alors que
21
Pour répondre à cette question, il faut consulter le tableau des valeurs propres qui accompagne
Il est important que les valeurs propres des axes retenus restituent une bonne proportion de la
variance.
Les graphiques de L9ACP sont les projections des variables et des individus sur un plan
factoriel déterminé. On commencera par interpréter le premier plan factoriel (celui formé par
les facteurs C 1 et C 2 ) car c9est celui qui concentre la plus grande partie de l9information du
nuage.
Sur un plan factoriel, on n9interprète que les variables et les individus qui sont bien
représentés. Pour les individus, on utilisera les contributions absolues et relatives alors que
pour les variables, on n9interprètera que celles qui sont proches du cercle de corrélation.
Deux graphiques sont données par les logiciels : celui des variables et celui des individus
Ce graphique se distingue par la présence d9un cercle de corrélation. On interprète deux types
de positions :
1-Les positions des variables par rapport aux axes afin de déterminer quelles sont les variables
2-Les positions des variables les unes par rapport aux autres. Le coefficient de corrélation
entre deux variables étant le cosinus de l9angle formé par les vecteurs correspondants on en
déduit que :
22
- deux variables qui sont proches ou confondus sont corrélées positivement (coefficient de
- deux variables positionnées à angle droit (angle de ) ne sont pas du tout corrélées
2
L9ACP est réalisé sur un tableau comportant beaucoup d9individus. Dans ce cas, on ne pourra
pas interpréter les positions relatives de tous les individus car le nuage sera tellement dense.
pour éventuellement le supprimer et effectuer un nouveau passage sans cet individu. Dans ce
cas, on a souvent recours à une méthode classification automatique afin de regrouper les
individus qui sont proches les uns des autres et ainsi de constituer des type d9individus ayant
un comportement similaire.
Sous réserve d9une bonne représentation, la proximité de deux individus sur un plan factoriel
est synonyme d9individus ayant un comportement similaire. Si deux individus ont exactement
les mêmes valeurs aux différentes variables, ils seront superposés sur les différents plans
factoriels. De même, des individus ou des groupes d9individus s9opposant par rapport à un axe
factoriel, s9opposeront par rapport aux variables qui font cet axe.
23
Exemples pratiques :
Exemple 1 :
Dans cet exemple on va traiter les notes de 15 étudiants d9une classe en tronc commun en
Ces données sont toutes quantitatifs on les traite alors par une ACP à l9aide de R
Dans ce graphique, on cherche un coude et on ne conserve que les valeurs propres avant ce
coude.
24
Les axes factoriels principaux sont alors les vecteurs propres associés.
On constate alors que la cassure (le coude) se commence à partir de la troisième valeur
propre ; on ne retient alors que les deux premiers axes factoriels correspondants.
Le tableau suivant résume le pourcentage de la variance expliquée par chacun des deux axes
ainsi que la variance expliquée par le plan issu de ces deux axes :
Axe 1 Axe 2
Variance 3.240 2.455
% de la variance 40.503 30.687
% cummulatif de la variance variance 40.503 71.190
25
Puisque on n9interprète que les points individus bien représentés, alors on doit se méfier de la
Cette qualité de représentation se calcule en sommant les cos2 de chaque individu pour les
deux axes. Le tableau ci-dessous regroupe les la qualité de représentation de chaque individus
En sommant les cos2 et en adoptant les règles postulées dans le tableau page 17 on conclut
que tous les individus, à l9exception des individus 8, 9, 13 et 15, sont bien représentés dans le
plan principal.
26
Les individus bien Les individus bien Les individus bien
1 2 3 4 5 6 10 7 12 14 1 2 3 4 5 6 7 10
11 12 14
Les individus qui participent le plus à la formation du premier axe sont ceux qui ont une
100 %
contribution supérieure à la moyenne c.-à-d. supérieure à =6.667.
15
1 2 3 5 6 10 7 14 12
Les individus qui contribuent le plus à la formation de l9axe 1 se caractérisent par des résultats
Or les individus qui contribuent à la formation de deuxième axe se caractérisent par des
Ces tableaux d9analyse s9accompagnent par le graphique des individus qui rend les résultats
clairs et visibles :
27
Pour l9axe 1 on constate que les points individus 1, 2, 3, 5 et 10 sont éloignés de l9origine ce
qui justifie leur bonne qualité de représentation, ainsi ils sont très proches de cet axe ce qui
De même pour l9axe 2 les individus 14, 7 et 12 sont très éloignés de l9origine donc ils ont une
bonne qualité de représentation dans cet axe, ils sont ainsi proches de cet axe chose qui
De même que pour les individus on n9interprète que les variables qui sont bien représentées
pour cela on étudie la qualité de représentation de chaque variable ainsi que leur contribution
à la formation des deux axes principaux, on a alors le tableau suivant fournie par L9ACP :
28
variables Axe 1 contribution Cos2 Axe 2 contribution Cos2
math, PC et SVT
100 %
12 .5 )
8
Les variables qui contribuent le plus à Les variables qui contribuent le plus à
29
Le cercle de corrélation résume clairement les résultats décrits par les tableaux
Le cercle des corrélations montre que les deux variables philosophie et ES (éducation
sportive) sont mal représentées dans le plans principales car ils sont éloignées du cercle et que
On cherche à donner un sens aux axes retenus, pour cela on a étudié les contributions des
individus et des variables à la formation de ces axes que l9on résume dans le tableau suivant :
Les individus 1 2 3 5 10 7 12 14
30
Chaque individus de l9ensemble { 1, 2, 3, 5, 10} a soit des résultats meilleures en arabe et
moyennes en math , PC et SVT soit l9inverse, et ils ont en générale des bons résultats en une
discipline et moyenne à l9autre, par contre, les individus 7 12 14 ont des résultats homogènes
dans toutes les matières et la note d9anglais est la plus fortes pour le 7 et le 12 (resp. 16 et
17.5)
De ces constatation on peut dire que l9axe 1 correspond aux étudiants qui sont soit littéraires
soit scientifique et l9axe 2 correspond à ceux qui ont des scores presque identique dans tous
les modules.
Maintenant on va s9intéresser aux ressemblances entre les individus, et pour cela on doit
31
Les deux individus 2 et 5 s9opposent par rapport au deuxième axe ce qui traduit que leurs
Les trois individus 1, 5 et 10 sont proches, ils ont alors une ressemblance réelle de point de
vue des variables, ces trois individus se caractérisent par des bons résultats aux disciplines
littéraires et moyens aux disciplines scientifiques, il en est de même pour le groupe {2, 3, 6}
mais celui-là a par contre des résultats meilleurs en math, PC et SVT et moyens en arabe,
français et anglais.
32
Les trois variables math, PC et SVT sont très corrélées entre elles, la corrélation étant positive
ce qui justifie que les trois variables agissent dans le même sens pour les individus c.-à-d.
qu9une bonne note dans l9un de ces trois modules s9accompagne par des bonnes notes aux
L9examen de la matrice des corrélations ci-dessous nous indique que les deux disciplines
littéraire et scientifique sont corrélées négativement et les modules de même discipline sont
corrélés positivement, ce qui signifie que les deux groupes de modules s9opposent pour les
33
Arabe Français Anglais Philo Math PC SVT ES
Ainsi on a déterminé l9intérêt des étudiants pour chaque discipline, ce qui facilitera leur
orientation soit vers des disciplines littéraires, soit vers des disciplines scientifiques.
Exemple 2 :
34
-l9huile végétal en l : HV
de ces 11 aliments.
On veut réaliser une ACP du tableau ci-contre pour connaitre les structures et les modes de
Les données issues de cet enquête sont représentées dans le tableau ci-dessous :
famille enf slr frn poi lait vnd HV HO frui efs lgm Thé plt
1 4 3000 40 5 15 4 5 1 15 8 30 20 4
2 3 2000 40 1 4 0.5 5 0 6 60 40 50 6
3 1 5000 30 5 30 6 4 2 15 10 20 8 3
4 5 3500 50 4 10 4 7 1 8 10 40 50 2
5 2 2500 40 2 6 1 5 0.5 10 45 30 40 5
6 1 2300 25 1 4 1 5 1 5 15 30 30 4
7 0 2200 15 1 6 0 2 0.5 8 40 30 20 4
8 3 6000 50 4 30 8 7 2 10 20 30 10 3
9 3 3400 40 3 40 4 5 1 15 15 40 15 5
10 3 2700 45 1 6 1 5 0 8 60 50 30 4
11 5 2250 50 0 5 0 9 0.5 4 40 55 50 3
12 2 4500 35 2 10 2 5 1 6 40 30 20 2
13 2 3300 30 3 15 6 4 1 20 20 40 35 4
14 0 1700 10 1 4 0.5 2 0 8 60 30 20 3
15 1 2200 20 0.5 0 1 3 0.5 4 30 35 30 2
16 2 1900 30 1 4 0.5 5 0 4 30 35 40 4
17 2 2300 40 1 6 1 5 1 6 30 40 30 4
18 2 5200 40 2 20 8 6 1 20 20 25 20 2
19 4 4000 50 2 18 6 7 2 15 15 30 20 5
20 2 2500 30 1 5 1 4 0 6 20 40 40 4
35
Analyse et interprétation des résultats :
Ces données sont toutes quantitatives on les traite alors par une ACP.
En utilisant ce graphique, on peut dire que les deux premiers axes restituent une bonne
proportion de la variance totale, en effet ces deux axes expliquent environ 71.26% ; 46.21%
pour l9axe 1 et 25.05% pour le deuxième axe comme l9indique le tableau suivant :
La chute est importante dès la troisième valeur propre (de 25.049% à 9.043%) d9où le choix
36
Le tableau suivant rassemble les qualités de représentation des individus dans les deux axes
retenus :
Individus Qualité dans l9axe 1 Qualité dans l9axe 2 Qualité dans le plan
Sur le premier axe on peut considérer que les individus 3, 8, 16, 18, et 20 sont bien
représentés, les deux individus 2 et 19 ont une qualité acceptable et tous les autres individus
37
De même pour l9axe 2 les individus bien représentés dans cet axe sont 7, 11, et 14, le 4 à une
qualité acceptable et tout le reste est mal représenté dans cet axe.
Mais dans le plan formé de ces deux axes on peut considérer que les individus 1, 2, 3, 4, 7, 8,
10, et 11 ainsi que les individus de 14 à 20 sont bien représentés dans ce plan.
Les individus bien représentés sont déterminés, on étudie maintenant leur participation à la
formation des axes, le tableau ci-contre résume la contribution des individus, nous ne
l9axe 1 est celle des individus 8, 3, 18, 2, 19 et 14 Pour l9axe 1 pour l9axe 2
1 4.081 0.075
Contribution + Contribution -
2 7.402 3.325
3 8 18 19 2 14 3 14.959 9.680
4 1.233 12.529
5 1.260 0.063
De même les individus les plus influents sur la
6 1.041 1.555
formation du deuxième axe sont 11, 14, 7, 4 et 3
7 3.505 13.887
Contribution + Contribution - 8 17.309 0.496
4 11 3 7 14 9 4.371 0.108
10 3.772 3.233
11 3.891 29.223
12 0.095 0.757
13 1.374 0.248
14 6.690 16.741
15 4.121 4.369
16 4.672 0.012
17 1.181 0.297
18 8.700 0.669
19 7.041 2.731
20 3.302 0.000
38
Analyse des variables :
Variables Qualité dans l9axe 1 Qualité dans l9axe 2 Qualité dans le plan
Nombre d9enfants 0.070 0.856 0.926
Le salaire 0.811 0.000 0.811
La farine 0.183 0.738 0.921
Le pisson 0.682 0.002 0.684
Le lait 0.743 0.001 0.744
La viand 0.888 0.000 0.888
L9huile végétal 0.117 0.754 0.871
L9huile d9olive 0.787 0.000 0.787
Les fruits 0.555 0.021 0.576
Les Tufs 0.512 0.001 0.513
Les légumes 0.236 0.496 0.732
Le thé 0.384 0.364 0.748
Le poulet 0.040 0.023 0.063
Conclusion : les variables bien représentées dans le premier axe sont : le salaire, le poisson, le
Les variables bien représentées dans le deuxième axe sont : le nombre d9enfants, la farine,
l9huile végétal et on peut aussi ajouter la variable « légumes » car sa qualité de représentation
Mais sur le plan toutes les variables sont bien représentées à l9exception de la variable poulet
39
Contribution des variables à la formation des axes :
100⁄13≈7.692)
deuxième axe sont : nb enfants, farine, huile végétal, Viand 14.780 0.000
Huile végétal 1.945 23.165
légumes et la variable thé.
Huile d9olive 13.105 0.004
fruits 9.236 0.650
oeufs 8.517 0.026
légumes 3.924 15.238
thé 6.396 11.186
poulet 0.673 0.694
L9axe 1 :on regroupe dans le tableau suivant les contributions des individus :
Contribution + Contribution -
Les individus 3 8 18 19 2 14
L9axe 1 oppose alors les familles dont le salaire est important et dont la consommation de la
viande, d9huile d9olive, du lait, de poisson et des fruits est importante, contre les familles dont
40
le salaire est faible ainsi que la consommation de ces derniers aliments et dont la
l9axe 2 : les individus qui contribuent positivement à la formation de cet axe sont le 11 et le 4
dont le nombre d9enfants est important ainsi que la consommation de la farine, d9huile
d9olive, des légumes et du thé, par contre les individus contribuent négativement à la
formation de cet axe n9ont pas d9enfants et ils ont une consommation faibles de ces aliment.
Ce cercle nous indique que toutes les variables sont bien représentées car elles sont proches
du cercle sauf pour la variable poulet qui est loin du cercle et par suite elle est mal représentée
41
Les variables salaire, viande, fruits, poisson, lait et huile d9olive sont très corrélées entre elles,
la corrélation étant positive ce qui traduit alors qu9une forte valeur de l9une de ces variables
entraine une forte valeur des autres, elles sont aussi corrélées avec le premier axe ce qui
De même les variables nb enfants, farine et huile végétal sont corrélées entre elles et avec le
deuxième axe ce qui signifie leur forte influence sur la formation de cet axe.
De toutes ces constatations on peut conclure que le premier axe principal mesure l9état
Pour cela on doit consulter la représentation des individus dans le plan principal
42
On rappelle que les individus bien représentés dans ce plan sont : 1, 2, 3, 4, 7, 8, 10, et 11
Les deux individus 16 et 20 sont très proches, ces deux familles présentent le même
Il en est de même pour les familles 7 et 14 et pour les deux familles 2 et 10.
Les deux individus 1 et 16 s9opposent par rapport au deuxième axe, ils s9opposeront alors aux
Bien entendu la famille 16 a deux enfants mais avec une consommation importante des
légumes, du thé et des Tufs par contre la famille 1 a 4 enfants mais avec une consommation
faibles de ces aliment et forte dans ce qui concerne le poisson, le lait, la viande et les fruits
cette différence est dû à l9écart entre les salaires des deux (le 1 a un salaire de 3000 dh mais le
La symétrie est aussi claire entre les deux individus 10 et 15 mais cette fois-ci par rapport au
premier axe, ces deux s9opposent alors par rapport aux variables qui contribuent à la
formation de cet axe. En effet la famille 10 consomme les poissons, le lait les fruits et les
Tufs par contre la famille 15 a une consommation faibles de ces aliments, l9écart de salaire
entre les deux familles est de 500 dh, dans ce cas on peut dire que la consommation des deux
Conclusion : en analysant les résultats obtenus par cette ACP et en revenant au tableau des
données brutes on peut conclure que les familles salariées plus de 3000 dh se dirigent vers une
consommation des aliments chères (les poissons, le lait, la viande et les fruits), par contre les
familles salariées moins de 3000 dh se dirigent vers une consommation moins chère (la farine,
43
Cette différence est liées aux salaires et au nombre d9enfants et donc au pouvoir d9achat de
44