Analyse des Données en Agronomie
Analyse des Données en Agronomie
M. Baragatti
2024
2
Table des matières
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Animation 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3
Chapter 0
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.3 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.1 Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.1.3 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Recherches écologiques sur le réseau hydrographique du Doubs. Essai de biotypologie. Thèse d'état,
Besançon. 1257.
Ce sont des données pour 30 stations d'études réparties sur le Doubs : 11 variables quantitatives sont
disponibles, donnant des informations sur le caractère morphologique de la rivière et la qualité de l'eau.
dfs alt slo flo pH har pho nit amm oxy bdo
1 3 934 6.176 84 79 45 1 20 0 122 27
2 22 932 3.434 100 80 40 2 20 10 103 19
3 102 914 3.638 180 83 52 5 22 5 105 35
4 185 854 3.497 253 80 72 10 21 0 110 13
5 215 849 3.178 264 81 84 38 52 20 80 62
7
Chapter 1
Nous disposons également de mesures d'abondance de 27 espèces de poissons dans ces stations. L'abon-
dance de chaque espèce est mesurée sur une échelle de 0 (absence) à 5 (forte abondance), et est donc
levures permettraient d'augmenter la complexité et la qualité du vin. Elles produisent des métabolites
secondaires qui contribuent au goût et à la saveur du vin. Par contre, ces levures non-saccharomyces
doivent être co-fermentées avec la levure S. cerevisiae, cette dernière étant nécessaire pour terminer
Dans le cas du Sauvignon Blanc, l'un des eets les plus intéressants des levures non- Saccharomyces est
la concentration des thiols, car ceux ci jouent un rôle important dans les arômes variétaux (un thiol est
un composé contenant du soufre avec d'autres groupes tels que des alcools, des cétones ou des esters).
Les deux plus importants thiols dans les vins de Sauvignon blanc sont le 4-mercapto-4-methylpentan-
2-one (4MMP) et le 3-acétate mercaptohexyle (A3MH) qui sont responsables d'arômes de buis/genêt
Les souches de levure dièrent dans leur capacité à libérer les thiols volatils à partir des précurseurs
inodores et le choix de la souche peut donc être utilisé par le vigneron pour moduler les concentrations
Dans cet exemple quatre souches de levures non-saccharomyces sont étudiées, et comparées au cas où
seule S. cerevisia est utilisée. Cinq fermentations sont donc étudiées : Saccharomyces cerevisiae pure
(pur Sc), Sc mélangée à Pichia kluyveri (Pk), Candida zemplinina (Cz), Hanseniaspora uvarum (Hu)
Les diérentes fermentations ont été exécutés dans un moût de raisin Sauvignon blanc millésime 2011
pour 25 vins. Pour chaque vin une analyse sensorielle a été eectuée (variables Fruit, Complexity et
Strengh sur une échelle de 0 à 10), ainsi qu'une analyse chimique (mesures des thiols 4MMP, 3MH et
A3MH).
Voici un extrait des données :
1.1 Introduction
1.1.1 Cadre et objectifs
L'ACP est une méthode d'analyse des données, exploratoire, qui est en quelque sorte une extension de
Elle est utilisable lorsque nous disposons d'un tableau de n individus et p variables quantitatives.
Notations :
• On note X le tableau avec n lignes et p colonnes. On peut le voir comme une matrice.
1. Exemple Sauvignon : pouvons nous faire une typologie des vins Sauvignons ? Lesquels se res-
semblent, lesquels dièrent ? Et pourquoi : quelles variables jouent un rôle dans la ressemblance
2. Exemple hydrographie du Doubs : quelles stations sur la rivière se ressemblent, lesquelles dif-
des stations ? Est-ce que nous pouvons sélectionner un petit nombre de variables permettant de
3. Une enquête a été faite pour rechercher les principaux facteurs explicatifs du rendement d'une
culture. L'ACP peut servir de première étape d'investigation pour faire le point des liaisons
linéaires entre facteurs explicatifs, et pour observer la répartition des parcelles (lesquelles se
4. Dans le cadre d'analyses sensorielles, pour faire le lien entre perceptions de consommateurs de
vins et caractéristiques physico-chimiques de ces vins, vous avez mesuré un grand nombre de
variables quantitatives (physico-chimiques). Vous voulez maintenant faire une sélection des plus
pertinentes d'entre elles an d'alléger le nombre de mesures à réaliser pour de futures analyses.
L'ACP aidera à faire des groupes de variables puis le tri à l'intérieur de chaque groupe.
5. Vous voulez caractériser les exploitations porcines de Bretagne. Pour chacune des exploitations,
vous avez un certain nombre de variables quantitatives les caractérisant (nombre de têtes, an-
cienneté, surface, nombre de personnes...). Vous souhaitez eectuer une typologie de ces exploi-
tations, dénir une ou deux exploitations représentatives pour chaque "type" que vous aurez
déni, avant d'aller eectuer des enquêtes sociologiques qualitatives dans ces exploitations repré-
sentatives. L'ACP permettra de dénir les types d'exploitations, puis de savoir quelles sont les
Objectif :
• Du point de vue des variables : lesquelles vont dans le "même" sens, lesquelles vont dans un
sens opposé ? Autrement dit, lesquelles sont liées, corrélées linéairement ? Lesquelles ne le sont
pas ? Comment synthétiser des groupes de variables (obtenir des variables synthétiques) ?
• Du point de vue des individus : quels sont ceux qui se ressemblent ? Ceux qui diérent ? Pouvons
• Lien entre individus et variables : quelles variables font que des individus se ressemblent ou dif-
fèrent ? Pouvons nous faire une typologie des individus : une fois des groupes identiés, quelles
sont les caractéristiques de ces groupes ? Pouvons nous caractériser les liaisons entre variables
Pour répondre à ces questions, l'ACP va permettre de `résumer au mieux notre tableau de données,
en remplaçant les p variables d'origines par de nouvelles variables synthétiques en nombre inférieur, et
en donnant une signication à ces nouvelles variables. On pourra également obtenir une visualisation
Exemple sauvignon :
Nous allons utiliser les variables quantitatives pour eectuer l'ACP, soit les variables correspondant à
l'analyse sensorielle et à l'analyse chimique (variable sur le type de levure non utilisée). A première vue
il n'est pas forcément évident de dégager une structure des données. Mais en ré-organisant les données
une structure apparait.
Strength
Complexity
X4MMP
X3MH
X3MHA
Strength
Complexity
Fruit
X4MMP
X3MHA
X3MH
Les outils classiques de statistique descriptive permettent de faire une ébauche de l'étude des individus
et des variables (voir graphiques ci-dessous par exemple), mais ne permettent pas de traiter des données
en grande dimension (nombreuses variables).
8.0
8.0
7.5
7.5
7.0
7.0
Fruit
Fruit
6.5
6.5
6.0
6.0
5.5
5.5
5.0
5.0
X4MMP X3MH
Fruit
7
Strength
5
3
7.0
Complexity
5.5
4.0
55
X4MMP
45
35
2000
X3MH
1000
600
400
X3MHA
200
5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 5.0 6.0 7.0 1000 1500 2000
3000
dfs
0
800
alt
200
5
slo
3
1
4000
flo
0
84
pH
78
80
har
40
pho
0 200
nit
0 300
100
amm
0
oxy
40 80
150
bdo
50
0 2000 4000 1 2 3 4 5 6 78 82 86 0 200 400 0 50 150 50 100
ressemblances entre les individus et sur les liaisons entre les variables.
• Certaines variables peuvent prendre des importances écrasantes par rapport aux autres variables,
lorsque leurs variances sont très importantes par rapport à celles des autres variables. Si par
exemple une variable a des valeurs allant jusqu'à 1000 tandis que les autres ont des valeurs
n'allant que jusqu'à 10 ou 20, une variation de 10% n'aura pas la même incidence pour chacune
de ces variables.
• Les résultats de l'ACP sont très sensibles au choix des unités de mesures.
Pour éviter ces deux inconvénients, on réduit les données (on utilise les termes (xij − x¯j )/sj ). L'ACP
est alors dite centrée-réduite, ou encore normée. Dans la suite on suppose que le tableau X a déjà été
On s'intéresse au tableau en tant que juxtaposition de lignes. Une ligne représente un individu.
Coordonnées : Chaque individu peut être représenté par un point dans l'espace à p dimensions
p
déni par les variables (R ). Les coordonnées de l'individu i sont xi = (xi1 , . . . , xip ).
1
Masses : On suppose par la suite que tous les individus ont des masses égales, avec mi = n,
i = 1, . . . , n (car contrainte de normalisation). C'est souvent le cas en pratique. La généralisation à
des poids diérents entre les individus se fait facilement d'un point de vue théorique et pratique (c'est
des axes au centre de gravité du nuage des individus. Elle permet donc de ramener le centre de gravité
réduire correspond à donner la même variabilité au nuage dans toutes les directions des vecteurs de
En dimension p ≥ 3, il est un peu plus dicile d'imaginer un espace où chaque variable est un axe et
On s'intéresse au tableau en tant que juxtaposition de colonnes. Une colonne représente une variable.
Transformation des données : réduire revient à situer le nuage sur une sphère
La transformation
à la première bissectrice des axes sur l'hyperplan qui lui est orthogonal (le nuage des variables n'est
Coordonnées : Les coordonnées de la variable j dans l'espace à n dimensions déni par les individus
n
(R ) sont Xj = (x1j , . . . , xnj ).
Masses : On suppose par la suite que toutes les variables ont des masses égales, avec mj = 1,
j = 1, . . . , p.
1 1 1
d2 (j, j ′ ) = (Xj − Xj ′ )′ × × (Xj − Xj ′ ) = (x1j − x1j ′ )2 + . . . + (xnj − xnj ′ )2 .
n n n
L'utilisation de cette distance permet que la projection d'une variable j sur une variable j′ mesure la
corrélation entre ces deux variables (c'est aussi le cosinus de l'angle formé par les vecteurs représentant
Les angles donnent donc une représentation géométrique des corrélations entre variables. Pour bien
visualiser ces angles on représente les variables par des vecteurs et non par des points comme pour les
individus.
ressons à la forme de ces nuages. En eet, la forme d'un nuage caractérise la nature et l'intensité des
relations entre les individus et les variables. Voici quatre exemples pour le nuage des individus.
Indicateur de forme : Un point intervient dans la forme du nuage à travers deux éléments :
2. Sa masse (son poids) : lors d'un sondage par exemple, lorsque chaque individu représente une
sous-population.
On utilise alors comme indicateur de forme l'inertie du nuage par rapport à l'origine ou au centre de
gravité, qui fait intervenir tous les éléments du nuage. Pour le nuage des individus cela donne :
n n
X
2 1X 2
IG = mi d (i, G) = d (i, G),
n
i=1 i=1
n n
X
2 1X 2
I0 = mi d (i, O) = d (i, O).
n
i=1 i=1
Remarque : pour le nuage des individus qui est centré par rapport à l'origine, la notion d'inertie
On souhaite étudier la forme des nuages pour connaître la nature et l'intensité des relations entre les
Mais l'étude d'un nuage en p dimensions pour le nuage des individus, ou en n dimensions pour le nuage
des variables, n'est pas facile ! Il est impossible d'avoir une visualisation dans un tel espace.
L'idée est donc de diminuer le nombre de dimensions, pour pouvoir y voir plus clair, et être
capable de visualiser. On souhaite donc "projeter" nos données sur des espaces à une dimension (des
axes), ou bien à deux dimensions (des plans). C'est le même procédé lorsqu'on fait de la photographie,
on xe ce que nous voyons sur une image à deux dimensions. Tout l'enjeu sera d'avoir le meilleur "angle
de vue" pour expliquer, représenter correctement notre sujet (nos nuages en ACP). Suivant l'angle de
vue, les informations obtenues seront plus ou moins intéressantes, nous permettant plus ou moins de
1.2.1 Animation 3D
Nous voyons que les dimensions choisies pour la projection de nos nuages doivent être pertinentes en
représentant au mieux les nuages. Il faut donc choisir au mieux les dimensions (les axes) sur lesquelles
pour obtenir des axes sur lesquels les données peuvent se visualiser plus facilement.
1.2.2 Principe
Premier axe : L'objectif est de trouver l'axe dans l'espace passant par O sur lequel le nuage se
Comme indicateur de déformation on utilise l'inertie du nuage projeté sur l'axe 1 : I1 , représentant
la variance des points du nuage projetés sur cet axe. On cherche donc l'axe tel que I1 soit maximale
1 Pn 2
(avec I1 = n i=1 d (Hi , O)).
Remarques :
• L'inertie représente la variance du nuage des individus car celui-ci est centré. Pour ce nuage
des individus, maximiser l'inertie s'interprète donc comme maximiser la variance. Les indi-
vidus projetés doivent être le plus dispersés possibles, le nuage projeté doit être d'allongement
maximal.
• L'inertie d'un axe représente la variance des points du nuage projetés sur cet axe.
1 Pn 2 (i, H ), cela rappelle la régression linéaire.
• Maximiser I1 revient à minimiser
n i=1 d i
• Si les points sont alignés, on a I0 = I1 : on ne perd pas d'information, d'inertie.
Deuxième axe : Nous cherchons un second axe passant par O, orthogonal au premier, sur lequel le
nuage se déforme le moins en projection, après le premier. On utilise pour cela I2 l'inertie du nuage
projeté sur l'axe 2 : nous cherchons l'axe orthogonal à l'axe 1 tel que I2 soit maximale après I1 .
Cela revient à trouver l'axe orthogonal à l'axe 1 tel que la variance des données projetées sur cet axe
soit maximale, soit tel que la projection des données soit d'allongement maximal.
Troisième axe et plus : On procède de la même manière pour tous les axes, jusqu'à obtenir les p
axes.
1.2.3 Propriétés
1. L'inertie de l'axe j est généralement notée λj , et elle correspond à la j ème plus grande valeur
1 ′
propre de la matrice V = n X X (matrice des corrélations entre les variables).
2. L'inertie totale du nuage est égale à la somme des interties de tous les axes, et est égale au
Pp
nombre de variables : I0 = i=1 Ij = p.
3. La capacité de l'axe j à représenter les données est le taux d'inertie :
Ij λj
τj = = Pp .
I0 j=1 λj
C'est la part de variance (ou d'inertie) totale prise en compte par l'axe j. Notons que pour tout
j , λj > λj+1 , donc les axes expliquent de moins en moins la variance des données.
4. Le meilleur sous-espace de dimension q (q > p) pour représenter le nuage des individus est obtenu
en sélectionnant les q premiers axes. En particulier, le meilleur plan pour représenter le nuage
5. Soit lji la coordonnée de l'individu i sur l'axe j de vecteur unitaire uj . Lj est le vecteur des
coordonnées de tous les individus sur l'axe j : Lj = (lj1 , . . . , ljn ). C'est une combinaison linéaire
Lj = a1 X1 + a2 X2 + . . . ap Xp ,
lji = a1 Xi1 + a2 Xi2 + . . . ap Xip .
Résumé : On substitue donc au repère d'origine, constitué par les variables d'origine, un nouveau
repère formé par les axes ainsi construits. Ces axes correspondent à de nouvelles variables qui sont des
combinaisons linéaires des variables d'origine, de variances maximales et non corrélées deux à deux.
Ces axes ne véhiculent pas la même information selon leur rang. Leur capacité à résumer le nuage se
détériore au fur et à mesure que l'on observe des axes de rangs élevés.
Exemple Sauvignon :
Dans cet exemple l'inertie totale du nuage vaut 6. Les inerties du nuage projeté sur les six axes sont
données dans le tableau suivant (en brut et en pourcentage), ainsi que les inerties cumulées (en pour-
centage).
library(FactoMineR)
acp <- PCA(sauvignon,[Link]=7)
round(acp$eig,3)
Les trois premiers facteurs ou composantes sont (extrait pour les 10 premiers vins) :
round(acp$ind$coord[1:10,],3)
Voici le nuage des individus projeté sur le plan formé par les deux premiers axes (ce plan explique 93%
de la variabilité des données) :
2
19
17
16
20
1 15
23 25
14 13
18 22
7 5
0
21
12
11
6 8
24
2
−1
10
4
1
−2 9
3
−4 −2 0 2 4
Dim 1 (72.23%)
Exemple Doubs :
L'inertie totale du nuage vaut 11. Les inerties du nuage projeté sur les six premiers axes sont données
dans le tableau suivant (en brut et en pourcentage), ainsi que les inerties cumulées (en pourcentage).
Voici le nuage des individus projeté sur le plan formé par les deux premiers axes (ce plan explique 78%
de la variabilité des données) :
4 25
23
2 1
2 6 5 8
3
10 9 24
4
26
7
0
16 21
17
11 18 20
12 27
22
13 14 19 28
−2
15 29
30
−5 0 5
Dim 1 (57.47%)
1.3.1 Principe
Le principe est exactement le même que celui de l'ajustement du nuage des individus, soit maximiser
1 Pp 2
les inerties projetées (avec Ij = p j=1 d (Hj , O)).
Cependant la signication est diérente, car le nuage des variables n'est pas centré et se situe sur
la sphère unité. Géométriquement, on ne s'intéresse plus aux distances entre les variables, mais aux
angles entre les vecteurs représentants ces variables. Ainsi, quand le nuage est projeté sur un plan par
exemple (les variable sont alors à l'intérieur du cercle unité de ce plan), on s'intéressera aux angles entre
les vecteurs représentants les variables projetées. La déformation minimum s'interprète alors comme
la déformation minimum des angles entre variables, ou encore la déformation minimum de la somme
des corrélations entre les variables. En eet, le cosinus de l'angle entre deux variables est égal à la
Remarque : l'inertie ne représente pas la variance du nuage car celui-ci n'est pas centré. Pour ce
nuage des variables, maximiser l'inertie ne s'interprète donc pas comme maximiser la variance. On
cherchera plutôt à conserver les angles entre variables, à ce que ces angles soient le moins déformés
possible. Les variables projetées doivent être le plus loin possible de l'origine du nuage, mais pas
1.3.2 Propriétés
1. Les quatres premières propriétés énoncées pour le nuage des individus sont valables pour le nuage
des variables.
En particulier, le meilleur plan pour représenter le nuage est celui formé par les deux premiers
axes. Ce plan coupe la sphère unité suivant un cercle des corrélations, à l'intérieur duquel on
coordonnées de toutes les variables sur l'axe j : Cj = (cj1 , . . . , cjp ). C'est une combinaison linéaire
Cj = b1 x1 + b2 x2 + . . . bn xn
cjk = b1 x1j + b2 x2j + . . . bn xnj
Remarque : il n'y a pas de choix à faire entre l'analyse directe et l'analyse duale. Les deux doivent être
Exemple Sauvignon :
Les cinq premières composantes principales sont les suivantes :
acp$var$coord
Le cercle des corrélations pour le plan formé par les deux premiers axes est le suivant :
PCA graph of variables
Dim 2 (21.13%)
1.0
Complexity
0.5
Fruit
X4MMP
0.0
X3MHA
−0.5 X3MH
Strength
−1.0
Exemple Doubs :
Le cercle des corrélations pour le plan formé par les deux premiers axes est le suivant :
PCA graph of variables
Dim 2 (20.29%)
1.0
bdo
amm
0.5 alt
pho
slo
0.0
nit
har dfs
pH
−0.5 oxy
flo
−1.0
retrouvent d'un même côté d'un axe. Ce phénomène apparaît souvent sur le premier axe, et dans ce
cas la part d'inertie conservée par cet axe est très élevée. L'axe correspondant peut alors s'interpréter
comme un gradient, une échelle des variables qui sont toutes corrélées positivement. Ce cas de gure
correspond à la situation dans laquelle certains des individus ont de petites valeurs pour toutes les
variables, et d'autres de grandes valeurs pour toutes les variables, les autres occupant une situation
intermédiaire entre ces deux extrêmes. Il existe donc une structure commune à l'ensemble des variables,
Exemple Sauvignon :
Voici les corrélations entre les variables utilisées pour faire l'ACP :
round(cor(sauvignon[,-7]),3)
tableau : dans un cas on s'intéresse aux lignes, dans l'autre aux colonnes.
1. Les taux d'inertie des axes sont les mêmes pour des axes de même rang dans les deux analyses
(directe et duale) : pour les deux nuages l'inertie du nuage projeté sur l'axe j vaut Ij = λj , et
2. Les composantes principales de l'analyse duale se déduisent des facteurs obtenus dans l'analyse
directe, et vice-versa. En eet, nous avons les formules de transition suivantes, avec lji la position
de l'individu i sur l'axe j dans l'espace des variables Rp , et cjk la position de la variable k sur
l'axe j n
dans l'espace des individus R :
p
1 X
lji = p xik cjk (1.1)
λj k=1
n
1 X
cjk = p xik lji . (1.2)
λj i=1
√
La première équation nous dit qu'au facteur 1/ n près, lji est au barycentre des cjk aectés des
poids xik (la valeur prise par l'individu i pour la variable k après avoir centré-réduit).
Comme nous avons centré les données, si l'individu i a une valeur élevée pour la variable k, on
aura xik > 0. Si l'individu i a une valeur faible pour la variable k, on aura xik < 0. Ainsi :
• Si l'individu i a une valeur élevée pour la variable k, sa coordonnée sur l'axe j (lji ) va se
En termes d'interprétation : Ainsi, un individu se situe du côté des variables pour lesquelles il a
des valeurs élevées, et à l'opposé des variables pour lesquelles il a des valeurs faibles.
1.0
Complexity
2
17 19
16
0.5
15
20 25 Fruit
1
23 22
Dim 2 (21.13%)
Dim 2 (21.13%)
14 13 18 X4MMP
7
5 21
0
12
0.0
11
6 8 2 24
−1
10 X3MHA
−0.5
4 X3MH
Strength
−2
1
9 3
−1.0
−3
25 bdo
4
amm pho
0.5
23 alt slo
Dim 2 (20.29%)
Dim 2 (20.29%)
1
2
2 6
5 8 nit
3 10 9 24
0.0
4 7 26
0
16
11 21 17
12 18 20 27
13 1419 22 pH har dfs
−0.5
28 oxy
−2
15 29 flo
30
−4
−1.0
Ij λj
τj = = Pp .
I0 j=1 λj
L'examen de ces taux d'inertie permet de connaître le pourcentage de variabilité des données expliqué
par chacun des axes, et de comparer les importances relatives des axes.
• Un taux de 10% ne possède pas la même signication selon que le tableau possède 10 (auquel
cas le taux est moyen) ou 100 variables (auquel cas le taux est élevé).
• Des taux très élevés n'impliquent pas pour autant que l'axe présente un quelconque intérêt. Il
se peut que le phénomène mis en évidence soit trivial (eet taille par exemple), et masque un
1. Critère du coude : L'idée est de détecter un point d'inexion dans la courbe de décroissance des
inerties. En eet, la plupart du temps, si l'ACP peut fournir des résultats intéressants, les taux
d'inertie des premiers axes décroissent par sauts au début, puis de manière régulière (bruit).
2. Seuil d'inertie : seuls sont conservés les axes dont l'inertie est supérieure à l'inertie moyenne, qui
est de 1 (car l'inertie totale I0 = p). Attention, ce critère peut être problématique si on est en
présence d'un eet taille, car un seul axe, pas forcément pertinent, risque d'être conservé.
3. Critère d'interprétabilité : on continue à interpréter les axes tant qu'ils sont interprétables...
Exemple Sauvignon :
valeurs propres
4
3
2
1
0
1 2 3 4 5 6
Exemple Doubs :
valeurs propres
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11
Les contributions absolues permettent de déceler quels éléments interviennent le plus dans l'élaboration
d'un axe.
Pour déterminer le rôle pris par un élément e dans l'élaboration d'un axe j, on examine la part de sa
Il est fondamental d'examiner ces contributions absolues, que ce soit dans le nuage des variables ou
Nuage des individus : La part de la contribution de l'individu i à l'inertie de l'axe j vaut CT Rj (i) =
1 2
(l −0)2
n ji
lji Pn
λj = nλj , et on a i=1 CT Rj (i) = 1.
Nuage des variables : La part de la contribution de la variable k à l'inertie de l'axe j vaut CT Rj (k) =
(cjk −0)2 c2jk Pp
λj = λj , et on a k=1 CT Rj (k) = 1.
Exemple Doubs :
Les contributions des 10 premiers individus aux trois premiers axes sont les suivantes :
acpdoubs$ind$contrib[1:10,1:3]
Les contributions des variables aux trois premiers axes sont les suivantes :
acpdoubs$var$contrib[,1:3]
[Link] Interprétation
Une fois les éléments possédant la plus forte contribution sélectionnés, on pourra les scinder en deux
groupes selon le signe de leur coordonnée sur l'axe. L'axe va posséder des caractéristiques propres à
En procédant de même pour l'autre nuage on dégagera progressivement une interprétation de l'axe
correspondant.
Cas de très forte contribution : cela doit attirer l'attention. En eet, l'élément correspondant est soit
une erreur dans les données, soit un élément atypique (par son poids ou sa distance). S'il s'avère que
c'est un élément atypique, il faut se poser la question de son maintien dans l'analyse. En général,
lorsqu'un axe est très fortement inuencé par un élément atypique, il est instable (le résultat de l'ACP
Remarques :
• On analyse les axes les uns après les autres, pour essayer de dégager une interprétation de
• On peut ensuite apparier les axes deux par deux pour examiner les plans factoriels.
Exemple Doubs :
Dans cet exemple on a 30 stations pour 11 variables. Donc, si tous les individus avaient la même
importance dans la création des axes, leurs contributions seraient de 1/30=3.3%. De même, si toutes
les variables avaient la même importance, elles auraient une contribution d'environ 1/11=9%. Ci-
dessus, des tableaux avec les individus et variables ayant des contributions au-dessus des contributions
"moyennes" attendues si tous avaient la même importance. Ci-dessous les tableaux pour l'axe 1.
1 10.2 -
2 6.2 -
Variable Contribution Coord
3 5.3 -
dfs 12.1 +
4 4.5 -
alt 11.1 -
6 3.6 -
slo 9.1 -
7 4.0 -
o 9.6 +
23 9.5 +
pho 10.4 +
24 5.9 +
nit 12.9 +
25 25.4 +
amn 9.3 +
26 4.6 +
28 3.9 +
30 4.0 +
23 9.7 + o 11.4 -
28 4.2 - amn 15 +
30 11.5 -
Les qualités de représentation permettent de déceler sur quel(s) axe(s) un élément est bien représenté.
Le fait de projeter un nuage sur un axe le déforme. Il est intéressant de savoir, pour un élément donné,
Nuage des variables : La qualité de la représentation de la variable k sur l'axe j vaut qltj (k) = cos2 θkj =
c2jk . Elle est égale à la corrélation entre la variable k et l'axe j.
Remarques :
• La qualité de la représentation d'un élément sur le plan formé par les axes j et k est la somme
Exemple Doubs :
Les qualités de représentation des 10 premiers individus sur les trois premiers axes sont :
round(acpdoubs$ind$cos2,3)[1:10,1:3]
Les qualités de représentation des variables sur les trois premiers axes sont les suivantes (revenir au
cercle des corrélations) :
round(acpdoubs$var$cos2,3)[,1:3]
[Link] Interprétation
Les qualités de représentation permettent de mettre en évidence des éléments qui ne contribuent pas
forcément à l'axe, mais qui présentent des caractéristiques propres à l'axe. Des éléments bien représen-
tés sur un axe sont donc assez bien expliqués par cet axe.
Si sur un plan deux éléments sont bien représentés, alors s'ils sont proches sur ce plan cette proximité
Si à l'inverse les deux éléments sont mal représentés, alors s'ils sont proches sur ce plan cette proximité
peut être dûe au caractère déformant de la projection, et les éléments ne se ressemblent pas forcément.
Remarque : concernant les variables, leurs qualités sur un plan peuvent être visualisées dans le cercle
Exemple Doubs :
Nous pouvons compléter les tableaux précédents avec les qualités de représentation. Sur un axe, nous
ferons attention de ne pas trop interpréter la position d'un élément qui serait mal représenté. Idem sur
un plan. Attention, un point peut être mal représenté sur un axe, mais bien représenté sur un plan
contenant cet axe. Ci-dessous les tableaux pour l'axe 1.
Individu Contribution Qualité Coord
1 10.2 0.71 -
2 6.2 0.70 -
Variable Contribution Qualité Coord
3 5.3 0.68 -
dfs 12.1 0.76 +
4 4.5 0.92 -
alt 11.1 0.70 -
6 3.6 0.70 -
slo 9.1 0.58 -
7 4.0 0.83 -
o 9.6 0.60 +
23 9.5 0.67 +
pho 10.4 0.66 +
24 5.9 0.81 +
nit 12.9 0.81 +
25 25.4 0.72 +
amn 9.3 0.59 +
26 4.6 0.84 +
28 3.9 0.59 +
30 4.0 0.44 +
30 11.5 0.44 -
Ce qui nous permet de schématiser les axes, an de dégager une interprétation :
choix a une grande importance et inuence les résultats obtenus et l'interprétation que nous pouvons
en faire. Ce choix doit être fait en fonction de nos objectifs. On peut vouloir des individus représentatifs
d'une population particulière, ou bien représentatifs d'une plus grande population, diversiée. Pour les
variables, celles incluses dans l'analyse seront celles servant à créer les axes, et donc ce sont celles à
partir desquelles nous pourrons visualiser des diérences ou des ressemblances entre nos individus.
Mais nous pouvons aussi avoir des variables ou des individus supplémentaires dans notre ACP. Cela
consiste à inclure des éléments (individus ou variables) dans l'analyse an d'illustrer certains axes
ou certains comportements, mais sans que ces éléments ne participent à l'élaboration des axes (par
Un tel élément est donc projeté sur les axes factoriels pour voir où il se situe et pour participer à
l'interprétation de l'axe, mais il n'intervient pas dans l'élaboration de l'axe (c'est comme s'il avait un
poids nul). La contribution aux axes de ces éléments est donc nulle. On peut également examiner la
variables actives), ou qui n'ont pas le même intérêt que les variables actives. Ce peut être :
• Des variables que nous souhaitons expliquer ou interpréter à l'aide des variables actives.
• Des variables de type diérent (par exemple des variables socio-démographiques alors que les
• Des variables qualitatives, qui ne peuvent pas être utilisées dans l'ACP.
Reprenons les exemples d'utilisation de l'ACP du début du cours, et voyons quelles variables pourraient
être illustratives :
1. Exemple Sauvignon : la variable type de levure utilisé, qui est qualitative. On peut l'utiliser en
supplémentaire pour faire un lien entre nos variables actives et le type de levure.
2. Exemple hydrographie du Doubs : les variables d'abondance des espèces de poissons, que nous
3. Une enquête pour rechercher les principaux facteurs explicatifs du rendement d'une culture : la
variable donnant le rendement joue un rôle particulier, et on veut l'expliquer avec les potentiels
facteurs explicatifs.
4. Dans le cadre d'analyses sensorielles : on a deux types de variables : les variables sensorielles
d'une part (perception du sucré, de l'arôme "banane",. . .), et les variables physico-chimiques
d'autre part. Pour faire le lien entre perception de consommateurs de vins et caractéristiques
physico-chimiques, un de ces deux groupes de variables doit être "actif", et l'autre "illustratif".
On choisit le groupe de variable "actif" en fonction de quelles variables doivent être utilisées pour
nombre d'employés, surface,. . .), et les variables agronomiques elles-mêmes donnant les informa-
tions sur la manière de gérer l'élevage. Si on s'intéresse aux diérentes manières de gérer un
élevage, les variables sur la gestion de l'élevage seront actives, tandis que les variables socio-
Reprenons les exemples d'utilisation de l'ACP du début du cours, et voyons quels types d'individus
1. Exemple Sauvignon : des vins qui ne seraient pas "Sauvignon", mais que nous voudrions comparer
2. Exemple hydrographie du Doubs : des stations d'étude d'une autre rivière que le Doubs, à com-
3. Caractérisation des exploitations porcines de Bretagne : si on a des données sur des exploitations
d'une autre région, ou d'une autre époque (données historiques), celles-ci peuvent être illustratives
pour ne pas inuencer l'analyse actuelle en Bretagne, mais être projetées sur nos plans pour voir
comment elles se situent par rapport aux exploitations porcines actuelles en Bretagne, ou quelle
pour chacune de ces modalités. Pour la première modalité par exemple, on créé un individu qui pos-
sède les valeurs moyennes des individus concernés par cette modalité (pour les variables actives). Il
correspond au centre de gravité de l'ensemble des individus concernés par cette modalité. Les m indi-
vidus supplémentaires sont ensuite projetés sur un plan factoriel. Cette technique permet de pouvoir
représenter plusieurs variables qualitatives par graphique. Cependant, cela ne donne pas d'indication
sur la variabilité des individus possédant une même modalité. Pour remédier à cela, certains logiciels
proposent de construire autour de chaque individu supplémentaire (centre de gravité d'une modalité)
une ellipse de conance, pour traduire la variabilité des individus autour des centres de gravité. Pour
chaque modalité le package FactoMineR considère le vecteur de ses coordonnées moyennes, la matrice
de variance-covariance associée, et les coordonnées sont supposées suivre une loi multinormale. Ainsi,
connaissant la loi de la position d'une modalité, il peut tracer son ellipse de conance.
1. Si l'ellipse d'une modalité englobe l'origine O, cela signie que cette modalité (soit les individus
possédant cette modalité) n'est pas caractérisée par le plan. A l'inverse, si l'ellipse occupe une
position excentrée sur le plan, alors les individus possédant cette modalité sont caractérisés par
le plan.
2. Pour savoir si deux modalités sont diérenciées par le plan, on regarde si leurs ellipses se re-
couvrent. Une absence de recouvrement signie que le plan diérencie les deux modalités. Un
fort recouvrement signie une non-diérenciation de ces modalités sur le plan. Un recouvrement
Remarque : sans utiliser d'individus supplémentaires, une variable qualitative peut tout simplement
être représentée sur les plans factoriels par un code de couleur ou de forme : les individus d'une modalité
donnée seront de même couleur par exemple (il faut un graphique par variable).
Exemple Sauvignon :
Sur la gure suivante nous avons rajouté, sur le nuage des individus projeté dans le plan formé par les
deux premiers axes, la variable sur le type de levure utilisé.
2
17 19
16 Sc/Mp
mixed
20
1 25
15
23 22
14 Sc/Hu
mixed 18 mixed Sc/Pk Cultures
13
mixed Sc/Cz
7
0 5 mixed Sc/Hu
12 21
11 mixed Sc/Mp
6 8 24
2 mixed Sc/Pk
−1 mixed Sc/Cz pure Sc
10 pure Sc
4
1
−2 9
3
−4 −2 0 2 4
Dim 1 (72.23%)
Exemple Doubs :
Sur les gures suivantes nous avons rajouté, sur le nuage des individus projeté dans le plan formé par
les deux premiers axes, les variables sur la mesure d'abondance du vairon et sur la présence ou absence
de l'ablette.
Confidence ellipses around the categories of Phph Confidence ellipses around the categories of Alal
Dim 2 (20.29%)
Dim 2 (20.29%)
25
4 4
25
Phph 23
2 1 23 Phph_0 2 1
2 6 5 8 2 6 5 8 Alal
24 Phph_1 24
3 10 9 3 10 9 Alal_0
Phph_3
0 4 7 16 26 0 4 7 16 26 Alal_1
12 Phph_4 12
11 27 28 11 27 28
13 Phph_5 13 14
−2 14 −2
15 29 15 29
30 30
−5 0 5 −5 0 5
Dim 1 (57.47%) Dim 1 (57.47%)
nombre de médailles par pays à chacune des épreuves d'athlétisme, lors des jeux olympiques de 1992 à
2008. Lors de ces 5 olympiades, 58 pays ont obtenu au moins une médaille lors d'une des 24 épreuves
d'athlétisme : 10000 m, 100 m, 110 m haies, 1500 m, 200 m, 20 km, 3000 m stepple, 400 m, 400 m
haies, 4 x 100 m, 4 x 400 m, 5000 m, 50 km, 800 m, Décathlon, Disque, Hauteur, Javelot, Longueur,
Voici un extrait du jeu de données (les dix pays ayant obtenu le plus de médailles) :
library(FactoMineR)
data(JO)
margeli <- apply(JO,2,sum)
margecol <- c(apply(JO,1,sum),NA)
JO[,c(57,31,48,23,19,11,36,24,28,43)]
usa ken rus gbr eth cub mar ger jam pol
10000m 0 4 0 0 8 0 2 0 0 0
100m 5 0 0 1 0 0 0 0 1 0
110mH 9 0 0 0 0 3 0 1 0 0
1500m 0 5 0 0 0 0 3 0 0 0
200m 8 0 0 1 0 0 0 0 1 0
20km 0 0 3 0 0 0 0 0 0 1
3000mSteeple 0 12 0 0 0 0 1 0 0 0
400m 11 1 0 1 0 0 0 0 1 0
400mH 7 0 0 1 0 0 0 0 2 0
4x100m 4 0 0 1 0 2 0 0 1 0
4x400m 5 0 1 2 0 1 0 0 2 0
5000m 0 5 0 0 4 0 3 1 0 0
50km 0 0 4 0 0 0 0 1 0 3
800m 1 5 1 0 0 0 0 1 0 0
41
Chapter 2
Decathlon 5 0 0 0 0 1 0 1 0 0
Disque 0 0 0 0 0 1 0 3 0 1
Hauteur 3 0 3 2 0 2 0 0 0 1
Javelot 0 0 2 3 0 0 0 0 0 0
Longueur 7 0 0 0 0 2 0 0 1 0
Marathon 1 3 0 0 3 0 1 1 0 0
Marteau 1 0 0 0 0 0 0 0 0 1
Perche 4 0 3 0 0 0 0 1 0 0
Poids 8 0 0 0 0 0 0 0 0 1
Triple saut 3 0 2 3 0 2 0 0 0 0
2.1 Introduction
2.1.1 Cadre et objectifs
Comme l'ACP, l'AFC est une méthode d'analyse des données exploratoire.
Son domaine d'application est diérent de celui de l'ACP qui traite de variables quantitatives continues.
Elle s'applique en eet aux tableaux de contingences croisant deux variables qualitatives. L'idée est
d'analyser ce tableau de contingence en mettant en `correspondance l'ensemble des lignes et celui des
colonnes.
Objectif : Etudier les éventuelles relations entre les deux variables, la liaison entre ces deux variables.
Notamment :
• Existe-t-il une attraction ou au contraire une répulsion entre certaines modalités d'une variable
• Quelle typologie entre modalités de la première variable est-elle induite par les modalités de la
seconde variable ?
• De même, quelle typologie entre modalités de la seconde variable est-elle induite par les moda-
Exemple olympiades : Est ce que certains pays n'obtiennent des médailles que dans certaines
épreuves ? Au contraire, est ce que certains pays obtenant de nombreuses médailles n'en obtiennent
pas dans certaines épreuves ?
Est ce que certaines épreuves se ressemblent car sont gagnées par les mêmes pays ? Est ce que certaines
épreuves s'opposent car sont gagnées par des pays diérents ?
Est ce que certains pays se ressemblent car gagnent les mêmes épreuves ? Est ce que certains pays
s'opposent car gagnent des épreuves diérentes ?
Pouvons nous obtenir une typologie des pays à partir de la répartition des médailles par sport, ou encore
une typologie des sports à partir des pays médaillés ?
Notations :
• On note X le tableau de contingence. On peut le voir comme une matrice. La variable représentée
• ni. est l'eectif dans la modalité i de la variable en lignes (peu importe la modalité de la variable
en colonnes). fi. = ni. /n.. est la fréquence associée.
• n.k est l'eectif dans la modalité k de la variable en colonnes (peu importe la modalité de la
variable en lignes). f.k = n.k /n.. est la fréquence associée.
var2
modalité 1 ... modalité j ... modalité p Total
var1
Ci-dessous sont données les marges lignes et colonnes de notre jeu de données.
alg aus bah bar bdi blr bra brn can chn cub cze den dom ecu eri esp est eth eun
4 6 3 1 1 6 3 1 4 1 14 6 3 1 2 1 8 3 15 7
fin fra gbr ger gre hun ita jam jpn kaz ken kor ksa lat ltu mar mex nam ngr nor
4 3 15 10 1 3 7 9 4 1 35 2 1 3 4 10 4 4 4 3
nzl pan pol por qat rou rsa rus slo sud swe tch tri tur uga ukr usa zam
1 1 8 3 1 1 6 19 1 1 3 2 6 1 1 5 82 1
margecol
Remarque : utiliser l'ACP sur un tableau de contingence ne donne pas de résultat pertinent (on
observe un eet taille sur l'axe 1 qui ne fait que traduire des diérences d'eectifs entre modalités).
C'est pourquoi on ne travaille pas sur les eectifs bruts d'un tel tableau, on transforme ce tableau en
pourcentages à l'intérieur des lignes et des colonnes (il s'agit des distributions conditionnelles).
Les prols lignes sont donnés par les nik /ni. = fik /fi. . Les sommes en ligne sont toutes égales à 1.
Exemple olympiades : un extrait des prols lignes est le suivant (pour les dix premiers sports et les
dix pays les plus médaillés) :
usa ken rus gbr eth cub mar ger jam pol
10000m 0.000 0.267 0.0 0.000 0.533 0.000 0.133 0.000 0.000 0.000
100m 0.333 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
110mH 0.600 0.000 0.0 0.000 0.000 0.200 0.000 0.067 0.000 0.000
1500m 0.000 0.333 0.0 0.000 0.000 0.000 0.200 0.000 0.000 0.000
200m 0.533 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
20km 0.000 0.000 0.2 0.000 0.000 0.000 0.000 0.000 0.000 0.067
3000mSteeple 0.000 0.800 0.0 0.000 0.000 0.000 0.067 0.000 0.000 0.000
400m 0.733 0.067 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
400mH 0.467 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.133 0.000
4x100m 0.267 0.000 0.0 0.067 0.000 0.133 0.000 0.000 0.067 0.000
Un prol ligne donne, pour un sport donné, la répartition des médailles par pays.
Les prols colonnes sont donnés par les nik /n.k = fik /f.k . Les sommes en colonne sont toutes égales à
1.
Exemple olympiades : un extrait des prols colonnes est le suivant (pour les dix premiers sports et
les dix pays les plus médaillés) :
usa ken rus gbr eth cub mar ger jam pol
10000m 0.000 0.114 0.000 0.000 0.533 0.000 0.2 0.0 0.000 0.000
100m 0.061 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
110mH 0.110 0.000 0.000 0.000 0.000 0.214 0.0 0.1 0.000 0.000
1500m 0.000 0.143 0.000 0.000 0.000 0.000 0.3 0.0 0.000 0.000
200m 0.098 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
20km 0.000 0.000 0.158 0.000 0.000 0.000 0.0 0.0 0.000 0.125
3000mSteeple 0.000 0.343 0.000 0.000 0.000 0.000 0.1 0.0 0.000 0.000
400m 0.134 0.029 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
400mH 0.085 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.222 0.000
4x100m 0.049 0.000 0.000 0.067 0.000 0.143 0.0 0.0 0.111 0.000
Un prol colonne donne, pour un pays donné, la répartition des médailles par sport.
L'ensemble des n prols lignes forme un nuage de n points dans l'espace des p colonnes.
n o
fik
Coordonnées Chaque point i a pour coordonnées dans Rp fi. , k = 1, . . . , p .
Masses Le prol ligne i est aecté de la masse fi. : une modalité a une inuence d'autant plus grande
Centre de gravité Le centre de gravité de ce nuage est la moyenne des prols lignes aectés de
leurs masses et correspond au prol moyen, dont la k ème composante vaut f.k (fréquence marginale des
colonnes). Pour la suite de l'analyse, l'origine des axes sera placé sur ce centre de gravité Gl (nuage
centré).
alg aus bah bar bdi blr bra brn can chn cub cze den
0.011 0.017 0.008 0.003 0.003 0.017 0.008 0.003 0.011 0.003 0.039 0.017 0.008
dom ecu eri esp est eth eun fin fra gbr ger gre hun
0.003 0.006 0.003 0.022 0.008 0.042 0.019 0.011 0.008 0.042 0.028 0.003 0.008
ita jam jpn kaz ken kor ksa lat ltu mar mex nam ngr
0.019 0.025 0.011 0.003 0.097 0.006 0.003 0.008 0.011 0.028 0.011 0.011 0.011
nor nzl pan pol por qat rou rsa rus slo sud swe tch
0.008 0.003 0.003 0.022 0.008 0.003 0.003 0.017 0.053 0.003 0.003 0.008 0.006
tri tur uga ukr usa zam
0.017 0.003 0.003 0.014 0.228 0.003
Distance entre deux prols lignes Un de nos objectifs est d'eectuer une typologie des lignes et
des colonnes, soit de savoir quels prols sont similaires entre eux.
Deux prols lignes proches sont éloignés de façon similaire à l'origine (au prol moyen) : ils s'associent
donc de façon privilégiée aux mêmes modalités de la variable colonne. De même, ils auront tendance
Deux prols lignes opposés de part et d'autre de l'origine (du prol moyen) : les modalités avec
lesquelles le premier s'associe souvent sont celles avec lesquelles le deuxième s'associe peu.
Dans le cas de deux prols lignes i et i′ nous pourrions utiliser la distance euclidienne qui est la
suivante : !2
p
X fik fi′ k
− .
fi. fi′ .
k=1
Cependant cette distance favorise les modalités de la variable en colonne qui ont une masse f.k im-
portante. Pour remédier à cela on pondère chaque écart par l'inverse de la masse de la colonne, ce qui
donne la distance du χ2 :
p
!2
2 ′
X 1 fik fi′ k
d (i, i ) = − .
f.k fi. fi′ .
k=1
Pour l'exemple olympiades, comparons le prol ligne du 100 m avec celui du 110 m haies. Dans le cas
de la distance euclidienne, les Etats-unis vont prendre une trop grande importance comparé à Cuba par
exemple :
L'ensemble des p prols colonnes forme un nuage de p points dans l'espace des n lignes.
n o
fik
Coordonnées Chaque point k a pour coordonnées dans Rn f.k , i = 1, . . . , n .
Masses Le prol colonne k est aecté de la masse f.k : une modalité a une inuence d'autant plus
Centre de gravité Le centre de gravité de ce nuage est la moyenne des prols colonnes aectés
de leurs masses et correspond au prol moyen, dont la ième composante vaut fi. (fréquence marginale
des lignes). Pour la suite de l'analyse, l'origine des axes sera placé sur ce centre de gravité Gc (nuage
centré).
Il représente la répartition des sports, tous pays confondus. Ici peu intéressant, car on a toujours 15
médailles par sport (3 médailles par olympiade).
Distance entre deux prols colonnes De la même façon que pour les prols lignes, la distance
n
!2
X 1 fik fik′
d2 (k, k ′ ) = − .
fi. f.k f.k′
i=1
modie pas la distance entre les prols colonnes. On a la propriété symétrique pour les prols colonnes.
Par conséquent :
Cela garantit une certaine invariance des résultats vis-à-vis des classes choisies.
Exemple olympiades : par exemple les prols lignes 200 m et 400 m paraissent assez proches.
1. Son éloignement par rapport au centre de gravité G : d2 (i, Gl ) pour un prol ligne ou d2 (k, Gc )
pour un prol colonne.
2. Sa masse (son poids) : fi. pour le nuage des prols lignes, et f.k pour le nuage des prols colonnes.
On utilise alors comme indicateur de forme l'inertie du nuage, qui fait intervenir tous les éléments du
nuage. Par exemple pour les nuages des prols lignes et colonnes respectivement :
n
X
IG = fi. d2 (i, Gl ),
i=1
Xp
IG = fk. d2 (k, Gc ).
k=1
Comme indicateur de déformation on utilise l'inertie du nuage projeté sur l'axe 1 : I1 . On cherche donc
Pn 2
l'axe tel que I1 soit maximale (avec I1 = i=1 fi. d (Hi , Gl )). La distance utilisée est la distance du
2
χ , mais le principe est le même qu'en ACP.
Deuxième axe et plus : Nous cherchons un second axe passant par Gl , orthogonal au premier, sur
lequel le nuage se déforme le moins en projection, après le premier. On utilise pour cela I2 l'inertie du
nuage projeté sur l'axe 2 : nous cherchons l'axe orthogonal à l'axe 1 tel que I2 soit maximale après I1 .
On procède de la même manière pour tous les axes, jusqu'à obtenir les p axes.
Remarque : le nuage se situant dans un espace à p dimensions, on pourrait s'attendre à avoir p axes
à ajuster. Mais il faut tenir compte du fait que les n points sont situés dans un sous-espace à p−1
Pp fik
dimensions car on a la contrainte k=1 fi. = 1. De plus, il sut d'un espace à n−1 dimensions pour
représentern points. Ainsi, le nombre d'axes à ajuster pour représenter parfaitement le nuage vaut
2.2.2 Propriétés
1. L'axe j de vecteur directeur uj est associé à une inertie λj , qui est l'inertie du nuage projeté
sur cet axe (comme en ACP cette inertie correspond à la j ème plus grande valeur propre d'une
certaine matrice).
Ij λj
τj = = Pp .
I0 j=1 λj
C'est la part d'inertie totale prise en compte par l'axe j. Notons que pour tout j , λj > λj+1 ,
donc les axes expliquent de moins en moins la variance des données.
3. Le meilleur sous-espace de dimension q (q > p) pour représenter le nuage des individus est obtenu
en sélectionnant les q premiers axes. En particulier, le meilleur plan pour représenter le nuage
4. Soit lji la coordonnée du prol ligne i sur l'axe j de vecteur unitaireuj . Lj est le vecteur des
coordonnées de tous les prols lignes sur l'axe j
: Lj = (lj1 , . . . , ljn ). C'est une combinaison
Résumé : On substitue donc au repère d'origine, constitué par les modalités de la variable colonne,
un nouveau repère formé par les axes ainsi construits. Ces axes correspondent à de nouvelles modalités
qui sont des combinaisons linéaires des modalités d'origine, d'inerties maximales et non corrélées deux
à deux. Ces axes ne véhiculent pas la même information selon leur rang. Leur capacité à résumer le
nuage se détériore au fur et à mesure que l'on observe des axes de rangs élevés.
Exemple olympiades :
Dans notre exemple, il y a 23 axes à ajuster. Les inerties du nuage projeté sur les 6 premiers axes sont
les suivantes :
library(FactoMineR)
afc <- CA(JO)
round(afc$eig,3)[1:6,]
Les trois premiers facteurs sont (extrait pour les dix premiers sports) :
round(afc$row$coord,3)[1:10,1:3]
2 Disque
Marteau
50km
1
20km
Perche
Javelot
800m Decathlon
0 Poids
3000mSteeple Marathon Hauteur
Longueur
5000m 1500m
Triple saut
10000m
110mH 4x400m
400m 4x100m
400mH
−1 200m
100m
−2 −1 0 1
Dim 1 (13.85%)
priétés sont exactement les même que pour l'ajustement du nuage des prols lignes.
Notations :
• L'axe j de vecteur directeur vj est associé à une inertie λj , qui est l'inertie du nuage projeté
sur cet axe (comme en ACP cette inertie correspond à la j
ème plus grande valeur propre d'une
certaine matrice).
• Soit cjk la coordonnée du prol colonne k sur l'axe j de vecteur unitaire v j . Cj est le vecteur des
coordonnées de tous les prols colonnes sur l'axe j : Cj = (cj1 , . . . , cjp ). C'est une combinaison
Exemple olympiades :
Dans notre exemple, il y a aussi 23 axes à ajuster pour ce nuage. Les inerties du nuage projeté sur les
6 premiers axes sont les suivantes :
round(afc$eig,3)[1:6,]
Les trois premiers facteurs sont (extrait pour les dix pays les plus médaillés) :
round(afc$col$coord,3)[c(57,31,48,23,19,11,36,24,28,43),1:3]
CA factor map
Dim 2 (10.53%)
3
ltu
hun
slo
tur
2
est
blr
mex
eun
pol
ecu
ita
ger
1 jpn
lat
esp aus
rus
ukr
tch
kaz
fin
nor cze
rsa
sud den
kor
0
alg
mar ken
bdi
eth brn
qat
nzl fra swe
cub
eri can
pan
bra gbr
usa
rou
chn
bah
por ngr
−1 uga
jam
dom
ksa
zam
tri
gre
nam
bar
−2
−2 −1 0 1
Dim 1 (13.85%)
lignes et prols colonnes). Ainsi, pour l'axe j du nuage des prol lignes ou pour l'axe j du nuage
des prols colonnes, nous avons toujours l'inertie du nuage projeté sur cet axe qui vaut Ij = λ j ,
λ
et le taux d'inertie de cet axe qui vaut τj = Pp j .
j=1 λj
3. Les coordonnées des prols colonnes se déduisent des coordonnées précédemment obtenues pour
les prols lignes, et vice-versa, grâce aux formules de transition suivantes (appelées aussi formules
quasi-barycentriques) :
p
1 X fik
lji = p cjk (2.1)
λj k=1 fi.
n
1 X fik
cjk = p lji . (2.2)
λj i=1 f.k
p
De même, la formule (3.2) exprime, au facteur 1/ (λj ) près, que la projection cjk du prol
colonne k sur l'axe j est au barycentre des projections lji des prols lignes aectés des poids
La projection d'un prol sport i sur l'axe j est au quasi-barycentre des projections des prols
pays aectés des poids nik /ni. = nb médailles sport i pays k/nb médailles total sport i.
La projection d'un prol pays k sur l'axe j est au quasi-barycentre des projections des prols
sport aectés des poids nik /n.k = nb médailles sport i pays k/nb médailles total pays k .
Représentation simultanée
Les représentations superposant les graphiques des projections de chacun des nuages sont largement
utilisées en AFC. En eet, bien que les prols lignes et colonnes ne vivent pas dans le même espace,
ils représentent tous deux des objets de même nature, ici des modalités de variables qualitatives. De
plus, les formules quasi-barycentriques permettent d'interpréter les positions relatives des prols lignes
et colonnes :
1. Les éléments de masses élevées attirent le barycentre, donc une ligne i attire d'autant plus une
2. On interprète la position d'une ligne par rapport à l'ensemble des colonnes : pour un axe donné
une ligne i sera du même côté que les colonnes auxquelles elle est le plus souvent associée, et du
3. Les lignes ou colonnes éloignées du centre de gravité de leur nuage doivent retenir l'attention.
1. Les positions relatives de deux prols lignes s'interprètent comme une distance entre ces prols.
2. La position d'un prol ligne (resp. colonne) s'interprète par rapport à celles de l'ensemble des
3. Il faut éviter de commenter de simples proximités entre prols sans utiliser les aides à l'interpré-
Exemple olympiades :
Sur le schéma suivant sont représentées les modalités des deux variables dans le même plan factoriel
1 × 2.
CA factor map
Dim 2 (10.53%)
3
ltu
hun
slo
tur
2 Disque
est
Marteau
blr
mex
eun
pol
ecu
50km
ita 20km
1 ger jpn
lat
esp aus
rus
ukr
Perche
tch
kaz
fin
Javelot
cze
nor Decathlon
rsa
sud den
kor 800m
Poids
Marathon
0
alg Hauteur
3000mSteeple
mar1500m
5000m
bdi
eth
ken
brn
qat
nzl fra swe
cub
10000m Longueur
eri can
pan
Triple saut
bra 110mH
gbr
usa
rou
4x400m
chn
bah
4x100m
por 400m
400mH
ngr
−1 uga
jam
dom
ksa
zam
200m
100m
tri
gre
nam
bar
−2
−2 −1 0 1
Dim 1 (13.85%)
Sur le schéma suivant sont représentées les modalités des deux variables dans le même plan factoriel
3 × 4.
CA factor map
3
Dim 4 (8.16%)
tch nor
fin
Javelot
2 cze
ltu lat
est kaz
Disque Decathlon
1
sud
ger 800mgbr
den
blr rsa swe
alg rou
Hauteur
bdi
cub
5000m Triple
bah saut
10000m eri
eth ken
Poids
0
110mH
400m
400mH
chn
dom
zamuga
ksa usa mar
3000mSteeple
Marathon
kor
200m 4x400m
por1500m
hun 4x100m
gre jam
Longueur
bra ngr brn
nzl
qat rus
100m
namtri pan fra
barukr
pol
Perche
jpn can esp 50km
Marteau eun
−1
slo
tur ita aus
20km
mex
−2
ecu
−3 −2 −1 0 1 2
Dim 3 (9.23%)
L'inertie totale du nuage des prols lignes par rapport à Gl est (résultat identique pour le nuage des
prols colonnes) :
n
X p
X
IG = fi. d2 (i, Gl ) = f.k d2 (k, Gc )
i=1 k=1
p
n X
X (fik − fi. f.k )2
=
fi. f.k
i=1 k=1
n Xp ni. n.k 2
1 X (nik − n.. )
= ni. n.k
n.. n..
i=1 k=1
2
χstat
= .
n..
La valeur de l'inertie est donc un indicateur de la dispersion du nuage autour de son centre de gravité,
soit l'écart entre les données et le modèle d'indépendance entre les deux variables. Ainsi, cette inertie
Si n.. × IG dépasse le seuil χ2(n1 )(p−1);1−α , on pourra rejeter l'hypothèse nulle d'indépendance.
Généralement deux variables sont indépendantes si les prols de leurs modalités sont similaires aux
prols moyens : l'inertie totale est faible et il n'existe pas de direction privilégiée. Géométriquement,
cela signie que tous les points sont concentrés autour du centre de gravité du nuage suivant une forme
sphérique. L'AFC permet en plus de décrire la dépendance entre lignes et colonnes en cas de rejet de
H0 . L'inertie d'un axe mesure notamment la liaison qu'il met en évidence. Par exemple :
• Pour un axe donné, une inertie proche de 1 indique une dichotomie au niveau des données : on
obtient pour chaque variable deux groupes de modalités séparant le nuage de points en deux
sous-nuages.
• Si les inerties de deux axes sont proches de 1 cela indique un nuage de points séparé en trois
sous-nuages.
• Si les inerties de tous les axes sont proches de 1 cela indique que chaque modalité d'une variable
est en correspondance presque exclusive avec une seule modalité de l'autre variable.
Mais des valeurs propres faibles doivent tout de même être interprétées, car les axes associés peuvent
Remarque : contrairement à l'ACP, l'inertie totale des nuages dépend des données elles-mêmes, et non
• l'inertie qu'elle a apporté à l'inertie totale du nuage, soit à un facteur près l'inertie qu'elle a
• sa distance à l'origine, c'est à dire sa distance au prol moyen. Cela permet d'identier des
Exemple olympiades :
Le test du χ2 donne le résultat suivant :
[Link](JO)
data: JO
X-squared = 2122.2, df = 1311, p-value < 2.2e-16
sum(afc$eig[,1])*sum(JO)
[1] 2122.231
afc$row$inertia
afc$row$inertia/afc$call$[Link]
Les inerties et distances des dix pays les plus médaillés sont les suivantes :
afc$col$inertia[c(57,31,48,23,19,11,36,24,28,43)]
(afc$col$inertia/afc$call$[Link])[c(57,31,48,23,19,11,36,24,28,43)]
λj
τj = Pp .
j=1 λj
2. Critère d'interprétabilité : on continue à interpréter les axes tant qu'ils sont interprétables...
Exemple olympiades :
valeurs propres
0.8
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23
Les contributions absolues permettent de déceler quelles modalités interviennent le plus dans l'élabo-
Pour déterminer le rôle pris par une modalité e dans l'élaboration d'un axe j, on examine la part de
Cette part est souvent exprimée en pourcentage. L'interprétation se fait comme pour l'ACP.
Nuage des prols lignes : La part de la contribution de la modalité i à l'inertie de l'axe j vaut
l2
CT Rj (i) = fi. λjij .
Nuage des prols colonnes : La part de la contribution de la modalité k à l'inertie de l'axe j vaut
c2
CT Rj (k) = f.k λjkj .
Exemple olympiades :
Les contributions des prols lignes (sports) aux quatre premiers axes sont les suivantes (ici extrait pour
les dix premiers sports) :
round(afc$row$contrib,3)[1:10,1:4]
Les contributions des prols colonnes (pays) aux quatre premiers axes sont les suivantes (ici extrait
pour les dix pays les plus médaillés) :
round(afc$col$contrib,3)[c(57,31,48,23,19,11,36,24,28,43),1:4]
Les qualités de représentation permettent de déceler sur quel(s) axe(s) une modalité est bien représen-
En AFC la distance utilisée n'est pas la distance euclidienne classique, mais le principe est le même
Nuage des prols lignes : La qualité de la représentation de la modalité i sur l'axe j vaut qltj (i) =
2
lji Pp 2
1 fik
cos2 θij = 2
d (i,G)
, avec d2 (i, G) = k=1 f.k fi. − f.k .
Nuage des prols colonnes : La qualité de la représentation de la modalité k sur l'axe j vaut qltj (k) =
c2jk Pn 2
1 fik
cos2 θkj = 2
d (k,G)
, avec d2 (k, G) = i=1 fi. f.k − fi. .
Une modalité bien représentée sur un axe signie que l'écart de la modalité au prol moyen est bien
représenté sur cet axe. Si une modalité est mal représentée sur un axe cela ne signie pas nécessairement
qu'on ne doive pas l'utiliser pour l'interprétation, mais cela indique que l'écart de cette modalité au
prol moyen ne se voit bien que sur d'autres axes. En pratique, pour interpréter rapidement un axe à
l'aide de quelques modalités seulement, on utilise les qualités pour ne sélectionner que des modalités
Exemple olympiades :
Les qualités de représentation des prols lignes (sports) sur les quatre premiers axes sont les suivantes
(ici extrait pour les dix premiers sports) :
round(afc$row$cos2,3)[1:10,1:4]
Les qualités de représentation des prols colonnes (olympiadess) sur les trois premiers axes sont les
suivantes (ici extrait pour les dix plays les plus médaillés) :
round(afc$col$cos2,3)[c(57,31,48,23,19,11,36,24,28,43),1:4]
Pour une interprétation plus facile, nous pouvons représenter dans des tableaux les éléments ayant les
plus fortes contributions et/ou qualités. Ainsi nous pouvons dégager une interprétation pour chaque
axe, avant de s'intéresser aux plans. Dans cet exemple on a 58 pays pour 24 épreuves. Donc, si tous les
pays avaient la même importance dans la création des axes, leurs contributions seraient de 1/58=1.7%.
De même, si toutes les épreuves avaient la même importance, elles auraient une contribution d'environ
1/24=4.2%. Ci-dessous, des tableaux avec les pays et épreuves ayant des contributions au-dessus des
contributions "moyennes" attendues si tous avaient la même importance. Pour l'axe 1.
Epreuve Contribution Qualité Coord
Pays Contribution Qualité Coord
10000m 23.8 0.53 +
eth 22.1 0.51 -
1500m 11.0 0.27 -
ken 31.4 0.69 -
3000m steeple 13.2 0.40 +
mar 12.2 0.75 -
5000m 17.8 0.64 +
usa 9.1 0.33 +
marathon 6.7 0.24 +
axe oppose les extrêmes entre eux et le second les extrêmes aux moyens.
Cet eet traduit une redondance des deux variables : toute l'information est quasiment donnée par
le premier facteur. L'examen du second facteur permet d'aner l'interprétation. Cet eet apparaît
généralement lorsque les variables sont ordonnées suivant un gradient (variables continues transformées
en variable nominales par exemple). Il met parfois en évidence une structure triviale qui pourra être
intéressante si la forme parabolique n'est pas parfaite : les points de rupture sont alors intéressants à
analyser.
ments, mais sans que ces modalités ne participent à l'élaboration des axes (poids nul). On peut avoir
des lignes ou bien des colonnes supplémentaires, correspondant souvent à de nouveaux tableaux de
contingence (résultats à d'autres questions que les deux déjà étudiées par exemple).
Une telle modalité est projetée sur les axes factoriels pour voir où elle se situe et pour participer à
l'interprétation de l'axe. A l'instar des modalités analysées, les modalités supplémentaires se calculent
Exemple Thé :
Les données viennent du livre de Husson, Lê et Pagès (voir bibliographie). Elles sont issues d'une
enquête sur la perception et la consommation de thé, auprès d'un échantillon de 300 personnes. Dix-
1. variete : Quelle variété de thé consommez vous le plus souvent ?, thé noir, thé vert ou thé
parfumé.
2. comment : Comment consommez vous le thé le plus souvent ?, pur, avec du citron, avec du lait ou
autre.
3. forme : Sous quelle forme consommez vous le thé ?, en sachet, en vrac ou en sachet et en vrac.
5. lieuachat : Où achetez vous le thé ?, au supermarché (GSM), dans les magasins spécialisés ou
les deux.
6. type : Quel type de thé achetez vous ?, bas de gamme, marque de distributeur, marque connue,
7. maison, travail, [Link].t, amis, resto, bar : 6 questions concernant le lieu de dégus-
tation du produit, réponse par oui ou non.
8. [Link], gouter, soiree, [Link], [Link], [Link] : 6 questions concer-
nant le moment de dégustation du produit, réponse par oui ou non.
9. frequence : A quelle fréquence buvez vous du thé ?, plus de 2 fois par jour, 1 fois par jour, 3 à 6
fois par semaine, 1 à 2 fois par semaine.
Douze questions concernant la perception du thé ont également été posées, auquel il fallait répondre
65
Chapter 3
1. sexe : F ou H.
2. CSP : la catégorie socio-professionnelle, agriculteur, étudiant, ouvrier, cadre moyen, cadre supé-
3. age : l'âge.
4. Sport : pratique régulière d'un sport, oui ou non.
thé et à l'aide de variables socio-démographiques, nous allons eectuer l'analyse avec seules les variables
variables peuvent être qualitatives ou quantitatives. L'ACM peut donc s'appliquer à des données d'en-
quête, des sondages d'opinion, ou encore des études typologiques, et est utilisée dans de nombreux
domaines.
Les données peuvent être présentées dans un tableau du type individus × variables (comme en ACP) :
les lignes représentent les individus, et les colonnes les variables.
Rappelons que l'ACP ne permet que de traiter un ensemble d'individus décrits par des variables
quantitatives, et ne permet de détecter que des liaisons linéaires entre variables. Il ne serait pas pertinent
de traiter des variables qualitatives avec l'ACP. En eet, si nous disposons d'une variable CSP,, type
d'engrais ou type d'alimentation, il serait faux de considérer le type 4 comme deux fois plus important
que le type 2.
modalités (les variables quantitatives sont au préalable découpées en classes). Nous supposons que pour
Par conséquent, l'ACM n'utilise pas le tableau individus × variables, mais un tableau individus ×
modalités, appelé tableau disjonctif complet (TDC). Ce tableau possède autant de colonnes qu'il y a
de modalités au total sur toutes les variables. Un individu est codé 1 dans les modalités qu'il possède,
et 0 dans les autres. On dit que l'on eectue un codage disjonctif complet (l'information initiale est
transformée, tout individu possède au plus une modalité par variable, et tout individu possède au
ind Q1 Q2 Q3 ind Q1−1 Q1−2 Q1−3 Q2−1 Q2−2 Q3−1 Q3−2 Q3−3 Q3−4
1 1 0 2 1 1 0 0 1 0 0 1 0 0
2 2 1 4 2 0 1 0 0 1 0 0 0 1
3 2 0 4 3 0 1 0 1 0 0 0 0 1
4 3 0 3 4 0 0 1 1 0 0 0 1 0
5 1 0 1 5 1 0 0 1 0 1 0 0 0
6 3 1 2 =⇒ 6 0 0 1 0 1 0 1 0 0
7 2 1 1 7 0 1 0 0 1 1 0 0 0
8 2 0 2 8 0 1 0 1 0 0 1 0 0
9 1 1 3 9 1 0 0 0 1 0 0 1 0
Exemple Thé Un extrait du tableau disjonctif complet est le suivant (variables variete et comment) :
[Link] [Link] [Link] [Link] [Link] [Link] [Link]
1 1 0 0 0 0 0 1
2 1 0 0 0 0 1 0
3 0 1 0 0 0 0 1
4 0 1 0 0 0 0 1
5 0 1 0 0 0 0 1
6 0 1 0 0 0 0 1
7 0 1 0 0 0 0 1
8 1 0 0 0 0 1 0
9 0 1 0 0 0 1 0
10 1 0 0 0 0 0 1
Remarque : pour pouvoir transformer un tableau de type individus × variables en TDC, il faut que
pour chaque variable, un individu ne réponde qu'à une et une seule modalité. Il n'est donc pas possible
d'avoir des variables pour lesquelles plusieurs réponses soient possibles en même temps. (NB : le TDC
Notations
• On a n Q variables ou questions.
individus, et
Propriétés du TDC
• Il n'est constitué que de 0 et de 1 :
colonnes peuvent être regroupées par paquets (correspondants aux variables) dont la somme est
3.2 Objectifs
La problématique de l'ACM s'apparente à celle de l'ACP (tableau individus × variables vs tableau
individus × modalités), mais peut être vue comme une généralisation de celle de l'AFC (étude de la
Etude des individus Nous pouvons nous demander quels sont les individus qui se ressemblent ?
Pouvons nous dégager une typologie de ces individus ? Comme les individus possèdent certaines moda-
lités, donc appartiennent à certaines classes, pouvons nous dire quelles classes se ressemblent ? Dégager
Nous considérons que deux individus sont proches s'ils possèdent un grand nombre de modalités en
commun.
Etude des modalités Nous pouvons également nous demander quelles sont les modalités qui se
ressemblent, an d'en eectuer une typologie. Si nous considérons une modalité comme une variable
indicatrice dénie sur l'ensemble des individus (soit comme une colonne du TDC), alors nous considère-
rons que deux modalités se ressemblent d'autant plus qu'elles sont présentes ou absentes simultanément
Etude des variables Quelles sont les variables qui se ressemblent ? Pouvons nous dégager une typo-
logie des variables ? Cela revient à considérer les liaisons entre variables, en examinant leurs modalités.
Nous pouvons également chercher à résumer l'ensemble des variables qualitatives (les quantitatives
Résumé Nous allons étudier à la fois les individus, les variables et les modalités. Ces trois types
d'objets doivent être étudiés ensemble, car comme ils proviennent du même tableau de données, il y a
des rapports entre eux qu'il est important de mettre en évidence. En pratique, les interprétations se
font surtout autour de la typologie des modalités. En eet, elle permet d'aborder les associations entre
les diérentes modalités, et donc les liaisons entre les diérentes variables, et elle permet d'étudier les
Coordonnées L'individu i est représenté par les modalités qu'il possède, soit par le prol de la ligne
z f
i du TDC qui ne contient que des 0 et des 1/Q (soit les Qij , analogues aux fiji. dans l'AFC).
Par exemple l'individu 3 a les coordonnées suivantes pour les modalités des variables variete et
comment :
nj
Centre de gravité Le centre de gravité de ce nuage a comme coordonnée
n×Q pour la modalité j
(au coecient Q près, c'est la proportion des individus ayant choisi la modalité j ). C'est un individu
théorique moyen.
Distances entre individus On cherche à savoir quels sont les individus qui se ressemblent. Pour
cela on doit se donner une distance entre individus. Celle-ci doit vérier les contraintes suivantes :
• Deux individus ayant les mêmes modalités doivent être à distance nulle.
• Un individu ayant une modalité rare doit être éloigné de ceux n'ayant pas cette modalité (soit
• Deux individus ayant une même modalité rare doivent être proches.
La distance doit donc se baser sur la comparaison de modalités entre individus, et prendre en compte
la rareté ou pas des modalités. Elle est dénie de la façon suivante entre deux individus i et l :
J
X n × Q zij zlj 2
d2 (i, l) = −
nj Q Q
j=1
J
1 X n
= (zij − zlj )2 .
Q nj
j=1
1. Les termes (zij − zlj )2 valant 0 ou 1, deux individus seront d'autant plus proches qu'ils possèdent
de modalités communes. Plus le nombre de modalités qui dièrent augmente et plus les indi-
vidus sont éloignés. Deux individus distincts mais possédant les mêmes modalités ne sont pas
diérenciés.
2. Plus une modalité est rare et plus elle contribue à éloigner un individu qui la possède des autres
3. Deux individus ayant une même modalité rare ne seront pas éloignés entre eux à cause de cette
modalité.
Coordonnées La modalité j est représentée par le prol de la colonne j du TDC, prol qui ne
zij fij
contient que des 0 et des 1/nj (soit les
nj , analogues aux f.j dans l'AFC).
Par exemple les modalités des variables variete et comment ont les coordonnées suivantes sur les 6
premiers individus :
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 0.0135 0.0000 0 0 0 0.0000 0.0051
[2,] 0.0135 0.0000 0 0 0 0.0159 0.0000
[3,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[4,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[5,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[6,] 0.0000 0.0052 0 0 0 0.0000 0.0051
nj
Masses La modalité j est aectée de la masse
n×Q .
Les variables ayant toutes le même centre de gravité, on en déduit qu'il est confondu avec celui de
1
l'ensemble du nuage des modalités, qui a donc également comme coordonnées
n.
Plus l'eectif d'une modalité est grand et plus elle est proche du barycentre, tandis qu'une modalité
Distances entre modalités On cherche à savoir quelles sont les modalités qui se ressemblent. Pour
cela on doit se donner une distance entre modalités. Celle-ci doit vérier les contraintes suivantes :
• Deux modalités possédées par les mêmes individus doivent être à distance nulle.
• Deux modalités possédées en commun par un grand nombre d'individus doivent être proches.
La distance doit donc se baser sur la comparaison d'individus. Elle est dénie de la façon suivante
n z
X ij zik 2
d2 (j, k) = n −
nj nk
i=1
n
= × nb d'individus ayant une seule des 2 modalités j et k.
nj × nk
Pour notre exemple, voici la matrice des distances entre les 10 premières modalités ( [Link],
[Link], gouter, [Link], [Link], soiree, apres dej, [Link] dej, apres diner et
[Link] diner) :
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 0.00 4.01 1.88 1.98 1.57 2.60 7.08 1.04 13.10 1.08
[2,] 4.01 0.00 1.66 2.62 1.47 3.26 6.53 1.32 15.58 1.07
[3,] 1.88 1.66 0.00 4.07 1.37 2.55 6.09 1.03 15.22 0.76
[4,] 1.98 2.62 4.07 0.00 1.72 3.38 7.76 1.35 13.09 1.48
[5,] 1.57 1.47 1.37 1.72 0.00 4.44 6.89 0.60 13.49 0.62
[6,] 2.60 3.26 2.55 3.38 4.44 0.00 6.69 2.26 15.81 1.94
[7,] 7.08 6.53 6.09 7.76 6.89 6.69 0.00 7.99 21.10 5.74
[8,] 1.04 1.32 1.03 1.35 0.60 2.26 7.99 0.00 13.11 0.27
[9,] 13.10 15.58 15.22 13.09 13.49 15.81 21.10 13.11 0.00 15.36
[10,] 1.08 1.07 0.76 1.48 0.62 1.94 5.74 0.27 15.36 0.00
3.3.3 Inertie
On considère le nuage des modalités dans Rn de centre de gravité G. Chaque point du nuage (chaque
modalité) intervient dans la forme du nuage et donc dans la construction des axes par l'intermédiaire
de son inertie (dépendant de son éloignement par rapport au centre de gravité d2 (j, G) et de sa masse
nj
n×Q ).
n
nj X zij 1 2
Imodj = n −
n×Q nj n
i=1
1 nj
= 1− .
Q n
On en déduit que l'inertie d'une modalité est une fonction décroissante de l'eectif de cette modalité.
Ainsi, une modalité rare aura une inertie et donc une inuence élevée. Une modalité présente dans 1%
de la population aura une inuence presque deux fois plus grande qu'une modalité présente dans 50%
de la population. En pratique il faut donc éviter les modalités à eectifs trop faibles, sinon les premiers
Exemple Thé Les inerties des modalités maison et [Link], d'eectifs 291 et 9 respectivement,
sont :
En sommant les inerties des modalités on obtient que l'inertie totale du nuage par rapport au centre
de gravité vaut :
J
IG = − 1.
Q
[1] 1.578947
L'inertie d'une variable est égale à la somme des inerties de ses modalités, ce qui donne pour une
variable q :
1
Iq = (Jq − 1).
Q
On en déduit que l'inertie d'une variable est une fonction croissante du nombre de ses modalités.
Ainsi, on pourrait penser pour que toutes les variables aient une inuence relativement égale, il faut
équilibrer le nombre des modalités entre les variables. Cependant, même si une variable a de nombreuses
modalités, elle ne va pas être plus inuente qu'une autre dans la construction des axes. En eet, l'inertie
de la variable q est répartie dans un espace à Jq − 1 dimensions, et plus précisemment l'inertie dans
Exemple Thé Les variables type et maison ayant 6 et 2 modalités respectivement ont les inerties
suivantes :
[1] -0.05263158
[1] -0.05263158
cipe est de trouver de nouveaux axes passant par le centre de gravité, orthogonaux entre eux, et sur
lesquels l'inertie projeté des nuages soit maximale (déformation minimale). Ces axes ne véhiculent pas
la même information selon leur rang : leur capacité à résumer le nuage se détériore au fur et à mesure
Exemple Thé :
Les inerties du nuage projeté sur les axes sont les suivantes :
library(FactoMineR)
acm<-MCA(the, [Link]=36, [Link]=c(20:35))
round(acm$eig,3)[1:10,]
Remarque : comme en AFC, les valeurs propres sont inférieures à 1. En sachant que l'inertie totale
du nuage est de J/Q − 1, cela explique pourquoi les taux d'inertie des axes sont souvent faibles en
ACM et conduisent à une estimation pessimiste de la part d'information expliquée. Par exemple, dans
le cas de 10 variables, il n'est pas rare en ACP d'obtenir 50% de l'inertie totale expliquée par le premier
axe si on a un eet taille. Mais en ACM, si on considère qu'il y a 5 modalités par variables, l'inertie
totale du nuage sera de 4 alors que l'inertie de l'axe 1 ne pourra pas dépasser 1. Ainsi cet axe ne pourra
Exemple Thé :
Un extrait des coordonnées des individus, des modalités des variables actives, des modalités des variables
supplémentaires qualitatives et des variables supplémentaires quantitatives sur les trois premiers axes
sont :
acm$ind$coord[1:5,1:3]
acm$var$coord[1:5,1:3]
acm$[Link]$coord[1:5,1:3]
acm$[Link]$coord[,1:3]
On peut représenter le nuage des individus et celui des modalités sur le premier plan factoriel par
exemple :
202190
168
211 208
195 182
227 31
1.0 229
95
74 100 220
212 53
165
199 272 297
248
222 249
299
261
94
16 287
0.5 191 206 277
10
62 66
209 288 171
271
52
159 148
54 15381 203
110
217 224 35 50 278
15 120
25 196 17 240
113 82161 266241 9 269
205 149 79 40 173 59
24 238255
186 163189 180 23 48
207
262 197102 226
167 213 83 112 87
134 198 93 22
6 4 22338 164 29
34 296 243 253
225 268
0.0 291
178
188 231 27537 8 15157 21 235 56 252 295 283
187 5547
200 154 169 140 162
139 204
45 28420
42 20133
280
156
124
158 117
152 292 214
5 260
65 160 18 64 279
172
244
122
44
193 183 146
194
228
2582 123 128 13568 67 265
218119 30 3 233 127
2371 166 63155 144298
111121 150256
276
7 84
192
13 96
24727
58
185 51 32 133264
300 232 116 14
176 71 73
92109 147 138 246 234 251 259
61
85 263
13249 105170 9190 103
70
257126
137115
12
77177 250
19 281
282 60 136
286
39 72 270
267 273
28536 230
184 175
254 1141
216106
157 143 107
174
114 89 78 101
219
76
97 141 118
181 179
131
242 80 236 108
239 99
104
142 43 245129 221
145 2899869215 28
293 210 130 26
125 274
75
−0.5 8688 46
290 294
magasin specialise
vrac
t_haut_de_gamme
1
apres diner
vert
noir
1 e 2/sem citron salon de t
[Link] 3 e 6/sem
[Link] tt moment GMS+[Link].
0 [Link] de t soiree + de 2/jour sachet+vrac
[Link] 1/jour amis gouter bar autre
sucre
t_bas_de_gammeGMS parfume ptt dej t_variable
apres dej
t_MDD travail
sachet lait resto
t_marque_connue
t_inconnu
−1
−1 0 1
Dim 1 (9.39%)
et modalités).
3. Les coordonnées des modalités se déduisent des coordonnées précédemment obtenues pour les
individus, et vice-versa, grâce aux formules de transition suivantes (appelées aussi formules quasi-
barycentriques) :
J
1 X zik
lji = p cjk (3.1)
λj k=1 Q
n
1 X zik
cjk = p lji . (3.2)
λj i=1 nk
p
La formule (3.1) exprime, au facteur 1/ (λj ) près, que la projection lji de l'individu
i sur l'axe
j est au barycentre des projections cjk zik /Q.
des modalités aectées des poids
p
De même, la formule (3.2) exprime, au facteur 1/ (λj ) près, que la projection cjk de la modalité
k sur l'axe j est au barycentre des projections lji des individus aectés des poids zik /nk .
Comme zik vaut 1 si l'individu i possède la modalité k et 0 sinon, les formules deviennent
1 X 1
lji = p cjk (3.3)
λj Q
modas possédées par ind i
1 X 1
cjk = p lji . (3.4)
λj nk
ind possédant moda k
p
La formule (3.3) exprime, au facteur 1/ (λj ) près, que la projection lji de l'individu i sur l'axe
Représentation simultanée
Les représentations superposant les graphiques des projections de chacun des nuages sont largement
utilisées en ACM, grâce aux formules quasi-barycentriques qui permettent d'interpréter les positions
2. On interprète la position d'une modalité par rapport à l'ensemble des individus : pour un axe
donné une modalité j sera du même côté que les individus qui la possèdent, et du côté opposé
3. On interprète la position d'un individu par rapport à l'ensemble des modalités d'une variable :
pour un facteur un individu i sera du même côté que les modalités qu'il possède, et du côté
4. Les individus ou modalités éloignés du centre de gravité de leur nuage doivent retenir l'attention.
Exemple Thé Sur les schémas suivants sont représentés en simultané les modalités et les individus
dans les plans factoriel 1 × 2 et 2 × 3.
MCA factor map
Dim 2 (7.33%)
magasin specialise
2
vrac
t_haut_de_gamme
211208 202
190
168
195 182
227 31
1 95 229
74 100 220
apres diner
vert 212 53
165
199 272 297
248
222249
299
261
94
16206 287
191 277
10
209 288 148 noir 62
52 171271 66
54 153 81 159 203
1 e 2/sem 217 110citron
2243550 278 salon de t
15 120
25196 269 17240
Pas.ptt113dej82 161 40 266
205 [Link]
[Link] 1492379 24 48
[Link]
189180
241
238e96/sem
3255 17359 207
[Link]
[Link]
262 186
163 226 pur
197
[Link] 102 213
[Link]
[Link] 83
dej 112 tt moment 87
4 38134
6 223 16429 198
296
[Link]
34 243 253 + de22
93225 2/jour268 GMS+[Link].
sachet+vrac
0 275 291
maison
178
188
[Link]
47169
154 231
moment
162 37
8 204 20 151 57 280
33 soiree
21 235 56172252 283
295
187
200 55 140
139
[Link] 117
152 de t 45284 [Link]
201 18
amis
160 diner
gouter 122
44 autre
156
124
158
193166183
146
194
228
258
63 2292
123
144 218 214
565
260
119 30 96 327128
233
58
185
64244
279
135
68 12767 265
237 1232
1/jour 111
116 121
155 sucre
14
298
256
15071276
109
92
784
192
13 147247
138 5132133 264
246234 bar 259
61
t_bas_de_gamme 300
285 7085
126
257 176
263
137
230 132
115
12
77
177
175 49 73
105
250
216
143
90
170 91
19 281
282 286
ptt dej39
60 13672 251
t_variable
103 270
267 273
76184
219
97 36 25411
118
141 41104
157 179 parfume
107
106
174
114
131 8980
78 236 108101239 99
181142293
145 43242
245129 210 98215 travail
289 221 apres
28
GMS
sachet
t_marque_connue 125 69
130
lait88 274 26 resto dej
t_MDD
294
86 46 75
290
t_inconnu
−1
−1 0 1
Dim 1 (9.39%)
Dim 3 (5.97%)
[Link]
2
1 e 2/sem
1 197
92 82 94
47
142 90 apres diner
88 73194
276 117
6865
298 [Link] dej
soiree
292
124
158 3 e 6/sem 208
101264 123
133 252
204 255 54 citron
71 169
sucre 95
108
126
114 280 223 189 266 52 209
apres dej 137 146
118 192284 140
13956 48 277
parfume
130 345
amis moment 191
tt262 74
198
resto 106
107
143 150
11251
265
258 59217
203
t_inconnu 125236
294t_variable147
282
174 259 84295
260
bar 149278110
221
129
289 105116 122 4 87 [Link]
23241 261 53 229 vrac
86 12218
155 160 235
33 134
178 243
253
29 pur
180 25 288 212
travail273 237
121 112 16135 62 magasin specialise
GMS 28281
115
72
144 64 21 296
268 269 272 202
t_MDD 7526
sachet 85
61
185
193201 102 205salon de t 222
226 248
0 [Link] 39 de
210131
141
69
179 286
136
175
[Link] 7732diner
91
70 55t8 [Link]
283 213 238
[Link] 287 220
100 190
t_marque_connue 239
215 170
28513827
109 152
58
maison
7675275
214 sachet+vrac
[Link]
40 240
224 271
dej 31
274245
29343 176228
51
gouter 291 83Pas.resto120148
113 66 211
98
10499 111
157
[Link] moment172 207
186
188 GMS+[Link]. 171 299 227168
230
80103
41
254 233
247 244
135
166
279 249165 t_haut_de_gamme
177 30 34
181
145 216
270
250
26760 119
96 18
20 [Link]
57 93 196 81 vert
184
36
89
78 19 154
187
200 167
163 16 297
290 219 76
97
1/jour
1463 42 +
1 37 16424 de 2/jour
17 159
t_bas_de_gamme 256
234
246
132
49
232 162 173
[Link] 182
257 128 50 10 206 199
38 195
242300 12744 151 225
lait 13156
183
autre231 Pas.amis153
dej 2
ptt 263 22 9
15 noir
−1
−1 0 1 2
Dim 2 (7.33%)
Sur les schémas suivants on s'intéresse aux variables forme, lieuachat, type et sucre sur le premier
plan factoriel. Les points représentent les individus. Une couleur représente une modalité de la variable,
et une ellipse résume la dispersion des individus ayant cette modalité.
sucre type
1.0
t_haut_de_gamme
0.5
[Link]
sucre t_variable
t_bas_de_gamme 0.0
t_marque_connue
t_MDD
t_inconnu
Dim 2 (7.33%)
−0.5
forme lieuachat
1.0
magasin specialise
vrac
0.5
sachet+vrac GMS+[Link].
0.0
sachet GMS
−0.5
Dim 1 (9.39%)
celui de l'ensemble du nuage. La projection sur un axe conserve cette propriété. Par conséquent, les
axes opposent entre elles l'ensemble des modalités, et opposent entre elles les modalités d'une même
variable.
dimensions, et plus précisemment l'inertie dans chacune de ces Jq − 1 directions de ce sous-espace vaut
2. Même si un facteur est très lié à une variable car regroupe les individus possédant une même
modalité de cette variable, il n'est pas possible qu'il représente bien toutes les modalités de cette
3. Il n'est pas forcément avantageux d'avoir un très grand nombre de modalités pour une variable,
grâce aux nombreuses modalités ne serait pas forcément valorisé dans l'analyse. Si on augmente
le nombre de modalités, on augmente aussi le nombre de facteurs sur lesquels la variable peut
inuer.
4. Pour un axe donné, l'inuence a priori de chaque variable est la même, mais le nombre d'axes
sur lesquels la variable peut inuer est Jq − 1, donc lié au nombre de ses modalités.
codées) par un petit nombre de variables quantitatives synthétiques. Ces variables synthétiques doivent
être des variables résumant le plus possible les variables initiales, ce que font justement les facteurs de
l'ACM. Les variables synthétiques d'intérêt correspondent donc aux facteurs (le premier étant le plus
Une propriété importante de ces facteurs est la suivante : le carré du rapport de corrélation entre le
Voici une illustration d'un rapport de corrélation faible, et une illustration d'un rapport de corrélation
élevé.
Exemple Thé les carrés des rapports de corrélation entre l'axe 1 et certaines variables sont donnés
ci-dessous.
dimdesc(acm)$`Dim 1`$quali
R2 [Link]
lieuachat 0.40559080 2.829439e-34
[Link].t 0.34446912 3.677556e-29
forme 0.29153735 5.916547e-23
amis 0.20784876 8.368510e-17
frequence 0.22564823 2.416492e-16
resto 0.20061523 3.298534e-16
gouter 0.18116429 1.245763e-14
type 0.20581238 2.562295e-13
bar 0.15340675 1.938374e-12
travail 0.09855475 2.762038e-08
[Link] 0.08771038 1.732924e-07
convivialite 0.06920966 3.851620e-06
variete 0.07882947 5.064022e-06
comment 0.08421171 9.164436e-06
[Link] 0.05989482 1.814389e-05
soiree 0.05713781 2.867602e-05
[Link] 0.04919861 1.069981e-04
[Link] 0.04751770 1.413900e-04
sexe 0.04122124 4.019010e-04
sucre 0.02554675 5.525256e-03
Exemple Thé L'ébouli des valeurs propres (inerties) et les premiers taux d'inertie sont les suivants :
Eigenvalues
0.12
0.08
0.04
0.00
• Les représentations graphiques ne prennent pas en compte les poids. D'où l'importance de
l'examen des contributions et qualités. En particulier, comme les modalités n'ont pas toutes les
mêmes masses, les graphiques ne permettent pas d'en déduire leurs contributions ou qualités.
Concernant les individus, leurs qualités non plus ne se voient pas sur les graphiques, seules leurs
• Ce sont les modalités possédant les plus fortes contributions sur un axe qui vont permettre
Cependant ce n'est pas très pratique au niveau de l'interprétation puisque les modalités d'une
même variable sont dissociées. En général il est pratique d'étudier également les contributions
des variables aux axes. La contribution de la variable q est la somme des contributions des
modalités la composant :
Jq
X
CT Rj (q) = CT Rj (k)
k=1
2
ηj,q
= .
Q × λj
Ainsi, examiner la contribution d'une variable à un axe revient à examiner son rapport de cor-
rélation avec cet axe. C'est une manière d'interpréter le rapport de corrélation.
• Une très forte contribution doit attirer l'attention. En eet, l'élément correspondant est soit une
erreur dans les données, soit un élément atypique (par son poids ou sa distance). S'il s'avère
que c'est un élément atypique, il faut se poser la question de son maintien dans l'analyse. Dans
• Pour les qualités des modalités, il faut garder à l'esprit que les modalités d'une même variable
sont orthogonales et ne peuvent donc pas être bien représentées simultanément sur un facteur.
Exemple Thé
Les contributions des 10 premiers individus aux trois premiers axes sont les suivantes :
acm$ind$contrib[1:10,1:3]
Les contributions des 10 premières modalités aux trois premiers axes sont les suivantes :
acm$var$contrib[1:10,1:3]
Les qualités des 10 premiers individus sur les trois premiers axes sont les suivantes :
acm$ind$cos2[1:10,1:3]
Les qualités des 10 premières modalités sur les trois premiers axes sont les suivantes :
acm$var$cos2[1:10,1:3]
Pour une interprétation plus facile, nous pouvons représenter dans des tableaux les modalités ayant
les plus fortes contributions et/ou qualités. Ainsi nous pouvons dégager une interprétation pour chaque
axe, avant de s'intéresser aux plans. Les individus en tant que tels n'ont pas grand intérêt ici, nous
GMS 4 0.25 -
Des individus supplémentaires sont simplement projetés sur les axes construits, de même que les mo-
Concernant les variables quantitatives, elles sont représentées comme en ACP, sur un cercle des corré-
L'utilisation des ces éléments supplémentaires et leur interprétation se fait comme pour l'ACP.
Exemple Thé Le graphique suivant représente les modalités des variables qualitatives supplémen-
taires. Il faut penser à examiner les qualités de représentation de ces modalités.
60 et +
cadre moyen
0.25
ouvrier
H non actif
ss effet sante
45−59 raffine absorption fer
25−34 35−44
[Link] pr la sante
[Link]−exotisme
[Link] [Link]
cadre sup
0.00 [Link]
−0.25 [Link]
etudiant
15−24
1.0
0.5
age
0.0
−0.5
−1.0
Ci-dessous sont représentées par des couleurs les modalités des variables CSP, relaxant, raffine et
l'âge en classe, ainsi que les ellipses de conance associées.
raffine relaxant
1.0
0.5
raffine [Link]
relaxant
[Link] 0.0
Dim 2 (7.33%)
−0.5
age_Q CSP
1.0
0.5
60 et + cadre moyen
45−59
25−34
35−44 ouvrier
non actifsup
cadre
autre actif
0.0 employe
etudiant
15−24
−0.5
Dim 1 (9.39%)
qui doivent être codées en classes. Mais également pour les variables qualitatives, pour lesquelles des
• Si on ne prend pas assez de classes, on risque de regrouper ensemble des individus assez diérents,
surtout dans le cas de variables quantitatives. On perd dans ce cas beaucoup d'information.
• Si on augmente trop le nombre de classes, on risque d'obtenir des modalités d'eectifs trop
faibles, ce qui n'est pas satisfaisant (l'inertie de ces modalités seront très élevées).
• Même si le nombre d'individus est très important, il ne faut pas trop multiplier le nombre
sance ou expertise du domaine étudié est donc nécessaire. A défaut de connaissance et en dernier
recours, on découpera la variable en classes d'eectifs égaux. Cela peut alors donner des classes non
pertinentes.
raît comme méthode d'analyse naturelle, on peut vouloir transformer ces variables en variables
qualitatives an d'eectuer une ACM. Parce que l'ACM pourra alors mettre en évidence, si
elles existent, des liaisons non linéaires entre les variables. Alors que l'ACP ne peut mettre en
• On pourra plus facilement étudier une variable dont la distribution est irrégulière, avec quelques
valeurs extrêmes par exemple. Ces valeurs inueraient grandement un coecient de corrélation
L'objectif d'une classication est de répartir les éléments d'un ensemble en groupes, soit d'établir une
partition. Chaque groupe doit être le plus homogène possible, et les groupes doivent être les plus
diérents possible entre eux. Il existe deux types d'approches pour eectuer une classication :
Hiérarchique Groupements par agglomération progressive des éléments deux à deux. Plusieurs cri-
tères d'aggrégation peuvent être utilisés. Dans la suite nous développons la méthode de Classi-
4.1 Dénitions
4.1.1 Partition
Soit E un ensemble ni d'objets : E = {e1 , e2 , . . . , en }. Une partie de E est un sous-ensemble
Exemple : Les parties de {a, b, c, d} sont : ∅, {a}, {b}, {c}, {d}, {a, b}, {a, c}, {a, d}, {b, c}, {b, d}, {c, d},
{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, {a, b, c, d}.
Une partition de E est un sous-ensemble de parties non vides de E deux à deux disjointes dont la
En pratique, une partition équivaut à une variable qualitative dénie sur les éléments de l'ensemble.
93
Chapter 4
Exemple
n
: Soit E = {a, b, c, d, e}.
o
H = ∅, {a}, {b}, {c}, {d}, {e}, {a, b}, {c, d}, {a, b, c, d}, {a, b, c, d, e} est une hiérarchie de E . On peut
la représenter sous la forme d'un arbre binaire.
0.8 9
{a,b,c,d,e}
0.7 8
{a,b,c,d}
indice
0.3 7
{c,d}
0.2 6
{a,b}
0 1 2 3 4 5
a b c d e
éléments terminaux
Une hiérarchie indicée ou valuée est telle qu'à toute partie h de la hiérarchie est associée une valeur
numérique v(h) ≥ 0 (application de H ∗
dans R ), avec la propriété suivante :
Exemple : v({a, b}) = 0.2, v({c, d}) = 0.3, v({a, b, c, d}) = 0.7, v({E}) = 0.8. On obtient alors un arbre
valué appelé dendogramme.
4.1.3 Distance
[Link] Dénition
Une distance d dénie sur E est une application de E ×E dans R+ telle que ∀x, y ∈ E × E , ∀z ∈ E :
1. d(x, y) = 0 ⇐⇒ x = y .
2. d(x, y) = d(y, x).
3. d(x, z) ≤ d(x, y) + d(y, z).
4. La distance est ultra-métrique si d(x, z) ≤ max{d(x, y), d(y, z)}.
Le principe d'une CAH est de grouper deux à deux des parties. Les parties les plus proches entre elles
doivent être groupées. Nous avons donc besoin d'une distance entre parties.
Les distances précédemment citées sont des distances entre objets. Il est donc nécessaire de construire
une distance entre classes d'objets. Cette construction n'est pas unique, on va présenter quelques
exemples parmi les plus utilisés. L'espace contenant les objets à classer est muni d'une distance entre
Formule de récurrence : Pour calculer de nouvelles distances à partir de distances entre sous-parties,
D(j ∪ k, q) = min D(j, q), D(k, q)
1 1 1
= D(j, q) + D(k, q) − D(j, q) − D(k, q) . (4.2)
2 2 2
Formule de récurrence :
D(j ∪ k, q) = max D(j, q), D(k, q)
1 1 1
= D(j, q) + D(k, q) + D(j, q) − D(k, q) .
2 2 2
d(x, z) + d(y, z)
D({x, y}, z) = . (4.4)
2
Formule de récurrence :
nj D(j, q) + nk D(k, q)
D(j ∪ k, q) = . (4.5)
nj + nk
Distance de Ward
Soit deux classes j et k, de masses mj et mk , et de barycentres gj et gk .
mj mk 2
DW (j, k) = d (gj , gk ). (4.6)
mj + mk
Formule de récurrence :
1 h i
D(j ∪ k, q) = (mj + mq )DW (j, q) + (mk + mq )DW (k, q) − mq DW (j, k) . (4.7)
mj + mk + mq
Etape 2 On choisit un critère d'agrégation. On construit la matrice de distance entre les n éléments,
Etape 3 On construit une nouvelle matrice des distances entre les n−1 éléments (n −2 distances à
Etape m On calcule les nouvelles distances, on agrège les deux éléments les plus proches.
On a alors une partition Pm à n − m classes. On réitère jusqu'à n'avoir plus qu'un élément re-
Exemple Pour construire l'arbre de la partie 4.1.2 pour l'ensemble E = {a, b, c, d, e}, nous avons
supposé les distances suivantes entre les éléments pris deux à deux :
a b c d e
a 0 0.2 1 0.7 1
c 0 0.3 1.5
d 0 1.3
e 0
a c a c a c a c a c
b b b b b
d d d d d
e e e e e
a b c d e
a 0 0.2 1 0.7 1
c 0 0.3 1.5
d 0 1.3
e 0
Etape 3 On calcule :
{a, b} c d e
{a, b} 0 1 0.7 0.8
c 0 0.3 1.5
d 0 1.3
e 0
Etape 4 On calcule :
{a, b} {c, d} e
{a, b} 0 0.7 0.8
{c, d} 0 1.3
e 0
Etape 5 On calcule :
{a, b, c, d} e
{a, b, c, d} 0 0.8
e 0
Remarque sur cet exemple Si nous eectuons une CAH avec un autre critère d'agrégation, la
hiérarchie obtenue sera diérente. Pour l'exemple précédent mais avec le critère complete linkage, on
obtient :
1.5 9
{a,b,c,d,e}
1 8
{a,b,e}
indice
0.3 7
6 {c,d}
0.2
{a,b}
0 1 2 3 4 5
a b e c d
éléments terminaux
est eectuée après une analyse factorielle (les objets à classer sont repérés par leurs coordonnées sur
4.3.1 Notations
• On considère les n objets à classer comme un nuage de points. Ces objets appartiennent à Rp
qui est muni d'une distance entre objets d.
Pn
• Chaque objet i est assorti d'une masse mi , avec i=1 mi = m.
• Le barycentre du nuage est g. Soit xi le ième objet de coordonnées (xi1 , xi2 , . . . , xip ), on a
n
1 X
g= mi xi .
m
i=1
• S'il existe une partition de l'ensemble des objets en Q classes, la q ème classe Cq a pour masse
P
mq = i∈q mi , et pour barycentre
1 X
gq = m i xi .
mq
i∈Cq
n
X
Ig = mi d2 (xi , g).
i=1
4.3.2 Principe
La relation de Huygens décompose l'inertie totale en inerties intra-classes et inter-classes :
Q
X Q X
X
Ig = mq d2 (gq , g) + mi d2 (xi , gq ).
q=1 q=1 i∈Cq
Les inerties intra et inter-classes sont des indicateurs de la qualité d'une partition.
Bonne partition il y a homogénéité à l'intérieur des classes, et les diérentes classes sont bien dié-
renciées =⇒ inertie intra-classes faible et inertie inter-classes importante.
Mauvaise partition Hétérogénéité à l'intérieur des classes, les diérentes classes sont mal diéren-
ciées =⇒ inertie intra-classes importante et inertie inter-classes faible.
Quand on groupe deux classes, l'inertie intra-classes augmente et l'inertie inter-classes diminue. No-
tamment, à l'étape 1 de la CAH nous avons Iintra = 0 et Iinter = Ig , et à l'étape n−1 nous avons
Iintra = Ig et Iinter = 0.
A chaque étape l'idée va être de faire le groupement de deux classes qui entraine le plus faible gain
mj mk 2
DW (j, k) = d (gj , gk ).
mj + mk
Nous construisons donc une hiérarchie indicée en prenant comme distance entre parties la perte d'inertie
Pour calculer de nouvelles distances à partir de distances entre sous-parties, on utilise la formule (4.7).
a b c d e
a 0 0.004 0.1 0.049 0.1
c 0 0.009 0.225
d 0 0.169
e 0
Etape 3 On calcule :
{a, b} c d e
{a, b} 0 0.139 0.0687 0.525
c 0 0.009 0.225
d 0 0.169
e 0
Etape 4 On calcule :
{a, b} {c, d} e
{a, b} 0 0.1513 0.525
{c, d} 0 0.2597
e 0
Etape 5 On calcule :
{a, b, c, d} e
{a, b, c, d} 0 0.4406
e 0
9
0.4406
{a,b,c,d,e}
indice
8
0.1513
{a,b,c,d}
{a,b} 6 {c,d} 7
0 1 2 3 4 5
a b c d e
éléments terminaux
0.8 9
{a,b,c,d,e}
c1
0.7 8
{a,b,c,d}
c2
indice
0.3 7
{c,d}
c3
0.2 6
{a,b}
0 1 2 3 4 5
a b c d e
éléments terminaux
Nous avons :n o
• P1 = {a, b, c, d}, {e} .
n o
• P2 = {a, b}, {c, d}, {e} .
n o
• P3 = {a, b}, {c}, {, d}, {e} .
1. Après les agrégations correspondant à des indices trop faibles, qui regroupent les éléments les
2. Avant les agrégations correspondant à des indices trop hauts, qui dissocient les groupes bien
distincts de la population.
Saut important : il faut couper les branches de l'arbre lorsqu'elles sont longues (Volle, 1997).
Cela correspond à un saut important d'indice. On peut alors espérer obtenir une partition de bonne
qualité car les individus regroupés auparavant sont proches, et ceux regroupés après la coupure de
l'arbre sont beaucoup plus éloignés. Dans l'exemple précedent cela correspond à P2 . Mais ce n'est pas
Procédure de consolidation par réaectation : la CAH ne fournit pas des partitions optimales.
Mais la partition obtenue après coupure de l'arbre peut être améliorée, avec la méthode des centres
mobiles :
1. Pour la partition obtenue après coupure, calculer les barycentres de chaque classe, et les distances
de chacun des objets à chacun des barycentres. Aecter chacun des objets au barycentre dont il
2. Nous avons de nouvelles classes dont on calcule les barycentres. De nouveau, aecter chacun des
3. Après un certain nombre d'itérations, il n'y a plus de réaectations. Alors arrêter la procédure.
Ou bien l'arrêter lorsque l'inertie cesse de diminuer de façon sensible entre chaque réaectation.
Remarques :
• On n'est pas assuré d'avoir une partition optimale, mais on s'en approche.
ou proportions obtenues sur l'ensemble des éléments à classer (ce qui équivaut à comparer les moyennes
Pour sélectionner les variables quantitatives ou les modalités caractéristiques de chaque classe, on me-
sure l'écart entre les valeurs relatives à la classe et les valeurs globales =⇒ on utilise des statistiques
On peut faire le même raisonnement pour des variables supplémentaires qui n'ont pas servi à la
Soit X̄k la moyenne d'une variable X dans la classe k , X̄ la moyenne globale de X , et s2 (X) la variance
2
empirique globale de X . Soit sk (X) la variance empirique de X̄k (variance d'une moyenne dans le cas
n − nk s2 (X)
s2k (X) = .
n − 1 nk
X̄k − X̄
Tk (X) = .
sk (X)
On veut tester l'hypothèse nulle suivant laquelle la variables X n'est pas caractéristique de la classe
k, soit que la moyenne de X dans cette classe est identique est celle de X pour l'ensemble des objets.
précédent n'est pas licite. Mais on peut utiliser les valeurs test pour obtenir un classement des variables
La démarche est identique à celle des variables quantitatives, mais avec des proportions pour chacune
En général, lorsqu'une CAH avec distance de Ward est eectuée après une ACP, une AFC ou une
ACM, on obtient des classes assez bien diérenciées sur les premiers plans factoriels.
Classication à partir des facteurs On décide de conserver les q premiers axes factoriels. En gé-
néral q ≪ p, donc cela permet d'éliminer les uctuations aléatoires qui constituent en général
l'essentiel de la variance receuillie dans les p−q derniers axes. On obtient en général des classes
Description automatique des classes A l'aide des valeurs test. Pour chaque classe on peut ranger
les variables/modalités par ordre d'intérêt.
Positionnement des classes dans le plan factoriel Il est intéressant pour l'interprétation de pro-
jeter les centres de gravité des classes sur les plans factoriels. Ou bien encore d'éditer des plans
factoriels sur lesquels on visualise les classes auxquelles appartiennent les objets. On peut ainsi
4.6.2 Remarques
1. La coupure d'un arbre en deux classes correspond très souvent au phénomène mis en évidence
2. La présence de classes réduites à un seul élément dans le haut d'un arbre dénote souvent un
obtenus par l'ACP, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir
trois groupes.
3.0
2.0
Hierarchical clustering
1.0
0.0
1
0
10
14
15
11
12
13
17
16
19
22
25
21
24
20
23
18
Nous pouvons également représenter les individus dans le premier plan factoriel ainsi que leurs classes
d'appartenance.
1.0
cluster 1
cluster 2
Complexity
2
cluster 3 17 19
16
0.5
20 25
1
15
Dim 2 (21.13%)
Dim 2 (21.13%)
23 22
14 13 18 X4MMP Fruit
7
5 21
0
12
0.0
11
6 8 24
2
−1
10 X3MHA
X3MH
−0.5
4 Strength
−2
1
9 3
−1.0
−3
Nous pouvons représenter à la fois les individus dans le premier plan factoriel et le dendogramme :
cluster 1
cluster 2
cluster 3
4
3
height
Dim 2 (21.13%)
2
17 19
16 1
20 25
1
15 14 2318 22
13 0
7
12 5 21
11
6 8 2 24 −1
10
4 −2
1
9 3
−3
0
−4 −3 −2 −1 0 1 2 3 4
Dim 1 (72.23%)
reshcpc$[Link]$category
$`1`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=mixed Sc/Hu 100 50 20 0.004743083 2.823983
Cultures=mixed Sc/Cz 100 50 20 0.004743083 2.823983
$`2`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=mixed Sc/Pk 100 41.66667 20 0.01490683 2.434635
Cultures=mixed Sc/Mp 100 41.66667 20 0.01490683 2.434635
Cultures=mixed Sc/Hu 0 0.00000 20 0.02422360 -2.253564
Cultures=mixed Sc/Cz 0 0.00000 20 0.02422360 -2.253564
$`3`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=pure Sc 60 100 20 0.004347826 2.851757
reshcpc$[Link]$quanti
$`1`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
Complexity -3.099285 5.200 5.852 0.7874008 0.8414844 1.939883e-03
Strength -3.766626 3.530 5.192 0.8246818 1.7649748 1.654686e-04
X3MH -3.833526 1006.343 1484.806 226.1468692 499.2411121 1.263196e-04
X3MHA -3.846088 233.750 351.108 51.2764127 122.0543942 1.200184e-04
X4MMP -4.257296 36.690 44.092 1.8912694 6.9546485 2.069140e-05
Fruit -4.262681 5.240 6.284 0.2870540 0.9796652 2.019892e-05
$`2`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
X4MMP 4.286066 50.425000 44.092 3.4149488 6.9546485 1.818649e-05
Fruit 4.280796 7.175000 6.284 0.4639055 0.9796652 1.862257e-05
Complexity 3.577933 6.491667 5.852 0.3661929 0.8414844 3.463220e-04
X3MHA 2.134798 406.466667 351.108 79.8041074 122.0543942 3.277752e-02
X3MH 2.072668 1704.650833 1484.806 321.2052542 499.2411121 3.820321e-02
$`3`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
Strength 2.775652 7.9000 5.192 0.5715476 1.764975 0.005509109
X3MH 2.592713 2200.3067 1484.806 159.6572446 499.241112 0.009522233
X3MHA 2.516132 520.8667 351.108 54.0272359 122.054394 0.011865069
Nous pouvons les décrire à l'aide des individus : individus les plus proches du centre de leur classe :
reshcpc$[Link]$para
Cluster: 1
6 12 7 11 14
0.7280773 0.7892578 0.9414319 0.9677672 1.1233066
---------------------------------------------------------------------------
Cluster: 2
23 20 18 5 22
0.3615827 0.5608205 0.6807076 0.8176794 1.1453556
---------------------------------------------------------------------------
Cluster: 3
3 4 1
0.4258471 0.7710827 0.9971683
Et à l'aide des individus les plus éloignés des centres des autres classes :
reshcpc$[Link]$dist
Cluster: 1
10 15 7 6 12
4.713576 4.647622 4.600164 4.442170 4.252048
---------------------------------------------------------------------------
Cluster: 2
19 25 17 16 20
3.466729 3.216469 3.199773 3.197765 2.992373
---------------------------------------------------------------------------
Cluster: 3
3 1 4
2.867597 2.867553 2.282722
obtenus par l'AFC, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir six
groupes.
0.6
0.4
Arbre avec groupes obtenus
0.2
0.0
Cluster Dendrogram
inertia gain
0.6
0.4
Height
0.2
0.0
Marathon
10000m
5000m
3000mSteeple
1500m
800m
Disque
Marteau
20km
50km
Javelot
100m
200m
4x100m
400m
400mH
4x400m
Longueur
110mH
Perche
Poids
Decathlon
Hauteur
Triple saut
Nous pouvons représenter les lignes dans le premier plan factoriel ainsi que leurs classes d'appartenance.
3
cluster 1 ltu
Disque hun
2
cluster 2 slo
tur
cluster 3 Marteau
est
2
cluster 4 blr
cluster 5 50km mex
eun
pol
ecu
20km
Dim 2 (10.53%)
Dim 2 (10.53%)
cluster 6
1
itajpn
ger lat
1
aus
esp rusukr
Perche tch
kaz
fin
cze
Decathlon rsa nor
800m Javelot sudden
koralg
bdi
marken
brn
qat
nzl fra swe cub
Marathon Hauteur Poids erieth
0
0
3000mSteeple can
Longueur bra pangbr
usa
rou
por chn
5000m 1500m bah
10000m Triple saut 110mH ngr
uga
4x100m 4x400m
jam
dom
zam
ksa
−1
400m 400mH tri
gre
nam
bar
−1
100m 200m
−2
−3 −2 −1 0 1 −4 −3 −2 −1 0 1 2
cah$[Link]$`1`
cah$[Link]$`5`
cah$[Link]$`6`
trois groupes.
0.00000
13.33333
20.00000
13.33333
13.33333
20.00000
118
126
137
11
150
Intern %
258
116
155
121
144
12
115
130
86
125
289
294
174
129
114
143
106
107
218
260
84
105
147
88
65
298
73
22.7777778
1.6666667
4.1666667
0.8333333
0.8333333
1.1111111
149
23
54
209
191
197
94
79
82
89
78
247
19
96
42
57
20
119
30
13
151
242
14
256
132
49
70
85
285
141
176
77
175
111
230
254
290
43
293
104
245
250
216
157
41
177
170
91
210
131
179
291
5
214
7
109
219
76
97
1
300
63
232
257
184
36
181
145
263
38
231
2
156
183
0
2
3
2
2
3
188
187
200
37
162
164
34
167
163
154
166
275
8
152
228
113
83
134
29
180
296
213
226
262
4
237
55
193
6
205
102
186
101
108
252
56
68
133
264
273
67
283
268
87
265
61
259
251
122
295
93
18
128
225
60
246
234
103
172
279
135
244
glob % Intern freq Glob freq
99
267
270
22
44
127
46
75
Hierarchical clustering
26
28
221
72
239
136
64
32
52
277
110
62
269
59
278
35
207
224
240
171
271
287
66
248
297
inertia gain
112
obtenus par l'ACM, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir
Nous reprenons l'exemple du cours sur l'ACM. Nous eectuons une CAH sur les trois premiers axes
Chapter 4
Chapter 4
Nous pouvons représenter les individus dans le premier plan factoriel ainsi que leurs classes d'apparte-
nance.
cluster 3 74
53220 vrac
2
212
165 272 248 297
222 199
249 t_haut_de_gamme
299
261
94
Dim 2 (7.33%)
Dim 2 (7.33%)
191 16 206277 287
0.5
209 10
271 66
62
54 153 81 159 148 52 171
288
203
1
217 15 120 110 2243550278 vert
25 17
205 189 113
149
23
82
79 161
266
40
24241
238
255
196
9 173 59240
269 apres diner
186
262197 163 180226 48 207
102
167 2132983198 243 112 22 268 87
6188
200
187 47
55
38
4223
154
134
34164
296
231275
162
140
139
169 37 291
178
20151
845284
204 5733
93
21235
280
253 252
225 56 283
295 2/sem dej noir citron salon de t
1 [Link]
0.0
193 117
152
156
158
124
183
146
228
2
258 292
123
194 5214
65
260
218
119
201
42
30 12816018 172 122
244
279
64
135
68 44 67
127 265
[Link]
[Link] pur [Link]
[Link] ett 6/sem
momentGMS+[Link].
1166
237 63111144
121
155
14 298
256
150
71 784
192
13
276
109 96327233
247
138 58
185
5132133
264
234 259 [Link]
[Link] [Link]
moment [Link]
[Link] sachet+vrac
116 176 92 147 246 72251 61 [Link] dej soiree
0
300 23285
70
126
257 263
132
115
12
137 4973
105 90
170
91
19 281286
282 39
60 103
136 270 + de 2/jour
97285
219
76 184
3623077
254
118
141
181
177
175
1141250
216
157 143
107
106
174
114
179
131
242
104 8978
80236 101
108
239 267
99
273 [Link]
[Link] tmaison
dediner amis gouter autre
142293
145 245
43 129
210130 98
289
125274
215
69 221
28 26 1/jour ptt sucre
t_bas_de_gamme dejparfume bar
t_variable
29029486
88 46 75 lait travailapres
GMS sachet
t_marque_connue
t_MDD resto dej
−0.5
t_inconnu
−1
Nous pouvons décrire les classes à l'aide des modalités des variables qualitatives. Pour la classe 1 par
exemple :
cahacm$[Link]$category$`1`
Nous pouvons aussi décrire les classes à l'aide de la variable quantitative supplémentaire :
cahacm$[Link]$quanti
$`1`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
age -2.031581 35.28743 37.05333 16.3033 16.84232 0.04219609
$`2`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
age 3.420388 43.58065 37.05333 16.15305 16.84232 0.0006253193
$`3`
NULL
Nous pouvons les décrire à l'aide des individus : individus les plus proches du centre de leur classe :
cahacm$[Link]$para
Cluster: 1
144 121 115 12 155
0.02112347 0.07515210 0.10254135 0.11992165 0.12384264
---------------------------------------------------------------------------
Cluster: 2
299 148 272 16 261
0.1133661 0.2077991 0.2370417 0.2375721 0.2422547
---------------------------------------------------------------------------
Cluster: 3
136 64 39 32 286
0.06785595 0.07672034 0.09771890 0.10504642 0.10783292
Et à l'aide des individus les plus éloignés des centres des autres classes :
cahacm$[Link]$dist
Cluster: 1
197 47 300 76 97
1.315993 1.190993 1.095732 1.093652 1.093652
---------------------------------------------------------------------------
Cluster: 2
208 190 195 202 168
1.333217 1.305219 1.295199 1.289862 1.280549
---------------------------------------------------------------------------
Cluster: 3
273 265 259 267 270
1.343328 1.130294 1.067495 1.048402 1.042351