0% ont trouvé ce document utile (0 vote)
53 vues115 pages

Analyse des Données en Agronomie

Transféré par

pioilfraf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
53 vues115 pages

Analyse des Données en Agronomie

Transféré par

pioilfraf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ingénieur Agronome 1ère annee

Analyse des données

M. Baragatti

2024
2
Table des matières

1 Analyse en composantes principales (ACP) 5

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Cadre et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2 Transformation des données pour l'ACP . . . . . . . . . . . . . . . . . . . . . . 10

1.1.3 Nuages de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.1.4 Forme d'un nuage et inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2 Ajustement du nuage des individus (analyse directe) . . . . . . . . . . . . . . . . . . . 14

1.2.1 Animation 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Ajustement du nuage des variables (analyse duale) . . . . . . . . . . . . . . . . . . . . 20

1.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.3 Eet taille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.4 Relations entre les deux nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.5 Méthodologie de l'interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.5.1 Sélection du nombre d'axes à analyser . . . . . . . . . . . . . . . . . . . . . . . 26

1.5.2 Contribution absolue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

1.5.3 Qualité de représentation (contribution relative) . . . . . . . . . . . . . . . . . 30

1.6 Eléments supplémentaires (illustratifs) . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

1.6.1 Variables supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3
Chapter 0

1.6.2 Individus supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1.6.3 Représentation de variable supplémentaire qualitative . . . . . . . . . . . . . . 35

2 Analyse factorielle des correspondances (AFC) 39

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.1.1 Cadre et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.1.2 Transformation des données pour l'AFC . . . . . . . . . . . . . . . . . . . . . . 42

2.1.3 Nuages des prols . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.1.4 Forme d'un nuage et inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.2 Ajustement du nuage des prols lignes . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3 Ajustement du nuage des prols colonnes . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.4 Relations entre les deux nuages et représentation simultanée . . . . . . . . . . . . . . . 51

2.5 Méthodologie de l'interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.5.1 Lien avec le test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.5.2 Sélection du nombre d'axes à analyser . . . . . . . . . . . . . . . . . . . . . . . 56

2.5.3 Contribution absolue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.5.4 Qualité de représentation (contribution relative) . . . . . . . . . . . . . . . . . 58

2.5.5 Eet Guttman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

2.5.6 Modalités supplémentaires ou illustratives . . . . . . . . . . . . . . . . . . . . . 61

3 Analyse des correspondances multiples (ACM) 63

3.1 Données et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.1.2 Le tableau disjonctif complet (TDC) . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.3 Nuages et inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.3.1 Nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Analyse des Données 4


Chapter 0

3.3.2 Nuage des modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.3.3 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.4 Ajustement du nuage des individus et du nuage des modalités . . . . . . . . . . . . . . 72

3.5 Relations entre les deux nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.6 Lien avec les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

3.6.1 Barycentre du nuage et des modalités . . . . . . . . . . . . . . . . . . . . . . . 80

3.6.2 Sous-espace engendré par les modalités d'une variable . . . . . . . . . . . . . . 81

3.6.3 Synthèse des variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.7 Méthodologie de l'interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.7.1 Sélection du nombre d'axes à analyser . . . . . . . . . . . . . . . . . . . . . . . 82

3.7.2 Contribution absolue et qualité de représentation . . . . . . . . . . . . . . . . . 83

3.8 Elements supplémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.9 Codage des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.9.1 Variable qualitatives et quantitatives : choix du nombre de classes . . . . . . . 90

3.9.2 Variable quantitative : choix des classes . . . . . . . . . . . . . . . . . . . . . . 90

3.9.3 Variable qualitative : choix des classes . . . . . . . . . . . . . . . . . . . . . . . 90

3.9.4 Intérêt de transformer une variable quantitative en qualitative . . . . . . . . . . 90

4 Classication ascendante hiérarchique (CAH) 91

4.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.1.1 Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.1.2 Hiérarchie de parties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.1.3 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.2 Algorithme général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.3 CAH avec critère de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3.3 La stratégie de Ward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.4 Couper l'arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Analyse des Données 5


Chapter 0

4.5 Aides à l'interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.5.1 Valeurs test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.5.2 Excentricité des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.6 Complémentarité entre analyse factorielle et classication . . . . . . . . . . . . . . . . 103

4.6.1 Mise en oeuvre pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.6.2 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4.7 Exemple Sauvignon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4.8 Exemple olympiades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.9 Exemple Thé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Analyse des Données 6


Chapitre 1

Analyse en composantes principales (ACP)

Exemple 1 : hydrographie du Doubs


Cours d'eau de Franche Comté (Massif du Jura).
Données issues de la thèse de Verneaux, J. (1973) `

Recherches écologiques sur le réseau hydrographique du Doubs. Essai de biotypologie. Thèse d'état,
Besançon. 1257.
Ce sont des données pour 30 stations d'études réparties sur le Doubs : 11 variables quantitatives sont

disponibles, donnant des informations sur le caractère morphologique de la rivière et la qualité de l'eau.

Ces variables sont les suivantes :

• dfs : distance à la source (km x 10).


• alt : altitude (m).
• slo : la pente de la rivière, transformée avec ln(x + 1) (par miles x 100).

• o : le débit minimum (m3 /s x 100).


• pH : (PH x 10).
• har : dureté de l'eau (mg/l de calcium).
• pho : phosphates (mg/l x 100).
• nit : nitrates (mg/l x 100).
• amm : azote ammoniacal (mg/l x 100).
• oxy : oxygène dissous (mg/l x 10).
• bdo : demande biologique en oxygène (mg/l x 10).

Voici les premières lignes du tableau :

dfs alt slo flo pH har pho nit amm oxy bdo
1 3 934 6.176 84 79 45 1 20 0 122 27
2 22 932 3.434 100 80 40 2 20 10 103 19
3 102 914 3.638 180 83 52 5 22 5 105 35
4 185 854 3.497 253 80 72 10 21 0 110 13
5 215 849 3.178 264 81 84 38 52 20 80 62

7
Chapter 1

Nous disposons également de mesures d'abondance de 27 espèces de poissons dans ces stations. L'abon-

dance de chaque espèce est mesurée sur une échelle de 0 (absence) à 5 (forte abondance), et est donc

une variable qualitative ordonnée.

Exemple 2 : perception aromatique de vins Sauvignon


Données fournises par Warren Albertin (Bordeaux, INP).

On s'intéresse au rôle de levures non-saccharomyces au cours de la fermentation de vins. En eet, ces

levures permettraient d'augmenter la complexité et la qualité du vin. Elles produisent des métabolites

secondaires qui contribuent au goût et à la saveur du vin. Par contre, ces levures non-saccharomyces

doivent être co-fermentées avec la levure S. cerevisiae, cette dernière étant nécessaire pour terminer

la fermentation (les levures non-saccharomyces sont incapables de consommer tout le glucose et le

fructose dans des conditions anaérobies car sont sensibles à l'éthanol).

Dans le cas du Sauvignon Blanc, l'un des eets les plus intéressants des levures non- Saccharomyces est

la concentration des thiols, car ceux ci jouent un rôle important dans les arômes variétaux (un thiol est

un composé contenant du soufre avec d'autres groupes tels que des alcools, des cétones ou des esters).

Les deux plus importants thiols dans les vins de Sauvignon blanc sont le 4-mercapto-4-methylpentan-

2-one (4MMP) et le 3-acétate mercaptohexyle (A3MH) qui sont responsables d'arômes de buis/genêt

et fruit de la passion/pamplemousse respectivement.

Les souches de levure dièrent dans leur capacité à libérer les thiols volatils à partir des précurseurs

inodores et le choix de la souche peut donc être utilisé par le vigneron pour moduler les concentrations

de thiols volatils dans un Sauvignon blanc.

Dans cet exemple quatre souches de levures non-saccharomyces sont étudiées, et comparées au cas où

seule S. cerevisia est utilisée. Cinq fermentations sont donc étudiées : Saccharomyces cerevisiae pure

(pur Sc), Sc mélangée à Pichia kluyveri (Pk), Candida zemplinina (Cz), Hanseniaspora uvarum (Hu)

et Metschnikowia pulcherrima (Mp).

Les diérentes fermentations ont été exécutés dans un moût de raisin Sauvignon blanc millésime 2011

pour 25 vins. Pour chaque vin une analyse sensorielle a été eectuée (variables Fruit, Complexity et

Strengh sur une échelle de 0 à 10), ainsi qu'une analyse chimique (mesures des thiols 4MMP, 3MH et

A3MH).
Voici un extrait des données :

Fruit Strength Complexity X4MMP X3MH X3MHA Cultures


1 6.5 8.6 5.9 44.5 2403.41 589.6 pure Sc
6 5.2 3.4 4.6 36.0 987.97 223.4 mixed Sc/Cz
11 5.1 4.3 5.8 37.0 1200.91 270.7 mixed Sc/Hu
16 6.8 4.8 6.9 47.2 1350.83 306.5 mixed Sc/Mp
21 7.1 7.3 6.8 49.8 2089.94 473.5 mixed Sc/Pk

Analyse des Données 8


Chapter 1

1.1 Introduction
1.1.1 Cadre et objectifs
L'ACP est une méthode d'analyse des données, exploratoire, qui est en quelque sorte une extension de

la statistique descriptive au cas multidimensionnel.

Elle est utilisable lorsque nous disposons d'un tableau de n individus et p variables quantitatives.

1 ... ... j ... ... p


1
.
.
.
i xij
.
.
.
n

Notations :
• On note X le tableau avec n lignes et p colonnes. On peut le voir comme une matrice.

• xi est le vecteur des données relatives à l'individu i, c'est la ième ligne de X .


• xij est la valeur prise par la variable j sur l'individu i.
• Xj correspond à la variable j , soit à la colonne j de X .

Quelques problèmes pouvant être abordés :

1. Exemple Sauvignon : pouvons nous faire une typologie des vins Sauvignons ? Lesquels se res-

semblent, lesquels dièrent ? Et pourquoi : quelles variables jouent un rôle dans la ressemblance

ou diérenciation des vins ?

2. Exemple hydrographie du Doubs : quelles stations sur la rivière se ressemblent, lesquelles dif-

fèrent ? Et pourquoi : quelles variables jouent un rôle dans la ressemblance ou diérenciation

des stations ? Est-ce que nous pouvons sélectionner un petit nombre de variables permettant de

caractériser nos stations, sans avoir à toutes les mesurer ?

3. Une enquête a été faite pour rechercher les principaux facteurs explicatifs du rendement d'une

culture. L'ACP peut servir de première étape d'investigation pour faire le point des liaisons

linéaires entre facteurs explicatifs, et pour observer la répartition des parcelles (lesquelles se

ressemblent, lesquelles sont très diérentes, et pourquoi).

4. Dans le cadre d'analyses sensorielles, pour faire le lien entre perceptions de consommateurs de

vins et caractéristiques physico-chimiques de ces vins, vous avez mesuré un grand nombre de

variables quantitatives (physico-chimiques). Vous voulez maintenant faire une sélection des plus

pertinentes d'entre elles an d'alléger le nombre de mesures à réaliser pour de futures analyses.

L'ACP aidera à faire des groupes de variables puis le tri à l'intérieur de chaque groupe.

Analyse des Données 9


Chapter 1

5. Vous voulez caractériser les exploitations porcines de Bretagne. Pour chacune des exploitations,

vous avez un certain nombre de variables quantitatives les caractérisant (nombre de têtes, an-

cienneté, surface, nombre de personnes...). Vous souhaitez eectuer une typologie de ces exploi-

tations, dénir une ou deux exploitations représentatives pour chaque "type" que vous aurez

déni, avant d'aller eectuer des enquêtes sociologiques qualitatives dans ces exploitations repré-

sentatives. L'ACP permettra de dénir les types d'exploitations, puis de savoir quelles sont les

exploitations représentatives à l'intérieur de chaque type.

Objectif :
• Du point de vue des variables : lesquelles vont dans le "même" sens, lesquelles vont dans un

sens opposé ? Autrement dit, lesquelles sont liées, corrélées linéairement ? Lesquelles ne le sont

pas ? Comment synthétiser des groupes de variables (obtenir des variables synthétiques) ?

• Du point de vue des individus : quels sont ceux qui se ressemblent ? Ceux qui diérent ? Pouvons

nous faire des groupes d'individus qui se ressembent ?

• Lien entre individus et variables : quelles variables font que des individus se ressemblent ou dif-

fèrent ? Pouvons nous faire une typologie des individus : une fois des groupes identiés, quelles

sont les caractéristiques de ces groupes ? Pouvons nous caractériser les liaisons entre variables

par des individus-types (extrèmes du point de vue de ces liaisons) ?

Pour répondre à ces questions, l'ACP va permettre de `résumer au mieux notre tableau de données,

en remplaçant les p variables d'origines par de nouvelles variables synthétiques en nombre inférieur, et

en donnant une signication à ces nouvelles variables. On pourra également obtenir une visualisation

synthétique des principales liaisons linéaires entre variables.

Exemple sauvignon :
Nous allons utiliser les variables quantitatives pour eectuer l'ACP, soit les variables correspondant à
l'analyse sensorielle et à l'analyse chimique (variable sur le type de levure non utilisée). A première vue
il n'est pas forcément évident de dégager une structure des données. Mais en ré-organisant les données
une structure apparait.

Analyse des Données 10


Chapter 1

Non ordonné Ordonné


15
7
24
5
25
2 2
10 25
6 4
1 21
24
9 3
14 1
21 18
23
17 20
16 22
23 5
4 10
12
19 6
12 13
22 11
11 17
16
20 8
18 19
8 9
7
3 14
13 15
Fruit

Strength

Complexity

X4MMP

X3MH

X3MHA

Strength

Complexity

Fruit

X4MMP

X3MHA

X3MH
Les outils classiques de statistique descriptive permettent de faire une ébauche de l'étude des individus
et des variables (voir graphiques ci-dessous par exemple), mais ne permettent pas de traiter des données
en grande dimension (nombreuses variables).
8.0

8.0
7.5

7.5
7.0

7.0
Fruit

Fruit
6.5

6.5
6.0

6.0
5.5

5.5
5.0

5.0

35 40 45 50 55 1000 1500 2000

X4MMP X3MH

3 4 5 6 7 8 35 40 45 50 55 200 300 400 500 600


5.0 6.0 7.0 8.0

Fruit
7

Strength
5
3

7.0

Complexity
5.5
4.0
55

X4MMP
45
35

2000

X3MH
1000
600
400

X3MHA
200

5.0 5.5 6.0 6.5 7.0 7.5 8.0 4.0 5.0 6.0 7.0 1000 1500 2000

Exemple hydrographie du Doubs :


Nous utilisons les 11 variables quantitatives pour l'ACP. Les variables de mesure d'abondance qui sont
des variables qualitatives ordonnées ne sont pas utilisées pour le moment.
Analyse des Données 11
Chapter 1

200 600 0 3000 6000 40 60 80 110 0 200 500 40 80 120

3000
dfs

0
800

alt
200

5
slo

3
1
4000

flo
0

84
pH

78
80

har
40

pho

0 200
nit
0 300

100
amm

0
oxy
40 80

150
bdo

50
0 2000 4000 1 2 3 4 5 6 78 82 86 0 200 400 0 50 150 50 100

1.1.2 Transformation des données pour l'ACP


En ACP, le tableau des données est toujours centré : on soustrait à chaque valeur de la variable j
la moyenne de cette même variable (on utilise les termes xij − x¯j ). Cela n'a aucune incidence sur les

ressemblances entre les individus et sur les liaisons entre les variables.

Cependant utiliser des données simplement centrées a deux inconvénients :

• Certaines variables peuvent prendre des importances écrasantes par rapport aux autres variables,

lorsque leurs variances sont très importantes par rapport à celles des autres variables. Si par

exemple une variable a des valeurs allant jusqu'à 1000 tandis que les autres ont des valeurs

n'allant que jusqu'à 10 ou 20, une variation de 10% n'aura pas la même incidence pour chacune

de ces variables.

• Les résultats de l'ACP sont très sensibles au choix des unités de mesures.

Pour éviter ces deux inconvénients, on réduit les données (on utilise les termes (xij − x¯j )/sj ). L'ACP
est alors dite centrée-réduite, ou encore normée. Dans la suite on suppose que le tableau X a déjà été

centré-réduit. Voici les premières lignes du tableau de l'exemple sauvignon centré-réduit :

Analyse des Données 12


Chapter 1

Fruit Strength Complexity X4MMP X3MH X3MHA


1 0.220 1.931 0.057 0.059 1.840 1.954
2 0.016 0.911 0.532 0.001 1.067 1.111
3 -0.290 1.534 -0.775 -0.286 1.401 1.346
4 -0.188 1.138 -0.656 -0.056 1.059 0.872
5 0.323 0.628 0.651 0.389 0.554 0.437
6 -1.107 -1.015 -1.488 -1.164 -0.995 -1.046

1.1.3 Nuages de points


[Link] Nuage des individus

On s'intéresse au tableau en tant que juxtaposition de lignes. Une ligne représente un individu.

Coordonnées : Chaque individu peut être représenté par un point dans l'espace à p dimensions
p
déni par les variables (R ). Les coordonnées de l'individu i sont xi = (xi1 , . . . , xip ).

1
Masses : On suppose par la suite que tous les individus ont des masses égales, avec mi = n,
i = 1, . . . , n (car contrainte de normalisation). C'est souvent le cas en pratique. La généralisation à

des poids diérents entre les individus se fait facilement d'un point de vue théorique et pratique (c'est

prévu dans les packages classiques de R).

Distance entre individus : On utilise la distance euclidienne classique :

d2 (i, i′ ) = (xi − xi′ )′ (xi − xi′ ) = (xi1 − xi′ 1 )2 + . . . + (xip − xi′ p )2 .

Transformation des données : La transformation centrer correspond à une translation de l'origine

des axes au centre de gravité du nuage des individus. Elle permet donc de ramener le centre de gravité

du nuage à l'origine. Ce centre de gravité du nuage correspond à un individu moyen. La transformation

réduire correspond à donner la même variabilité au nuage dans toutes les directions des vecteurs de

Analyse des Données 13


Chapter 1

base. Chaque variable a ainsi la même importance.

En dimension p ≥ 3, il est un peu plus dicile d'imaginer un espace où chaque variable est un axe et

les axes sont orthogonaux deux à eux.

[Link] Nuage des variables

On s'intéresse au tableau en tant que juxtaposition de colonnes. Une colonne représente une variable.

Transformation des données : réduire revient à situer le nuage sur une sphère
La transformation

multidimensionnelle de rayon 1. La transformation centrer correspond à une projection parallèlement

à la première bissectrice des axes sur l'hyperplan qui lui est orthogonal (le nuage des variables n'est

pas centré autour de l'origine).

Coordonnées : Les coordonnées de la variable j dans l'espace à n dimensions déni par les individus
n
(R ) sont Xj = (x1j , . . . , xnj ).

Masses : On suppose par la suite que toutes les variables ont des masses égales, avec mj = 1,
j = 1, . . . , p.

Analyse des Données 14


Chapter 1

Distance entre variables : On utilise la distance suivante :

1 1 1
d2 (j, j ′ ) = (Xj − Xj ′ )′ × × (Xj − Xj ′ ) = (x1j − x1j ′ )2 + . . . + (xnj − xnj ′ )2 .
n n n
L'utilisation de cette distance permet que la projection d'une variable j sur une variable j′ mesure la

corrélation entre ces deux variables (c'est aussi le cosinus de l'angle formé par les vecteurs représentant

les deux variables Xj et Xj′ ) :

P roj(Xj ′ ) (Xj ) = cor(Xj , Xj ′ ) = cos(X\


j , Xj ′ ).

Les angles donnent donc une représentation géométrique des corrélations entre variables. Pour bien

visualiser ces angles on représente les variables par des vecteurs et non par des points comme pour les

individus.

1.1.4 Forme d'un nuage et inertie


Maintenant que nous avons déni nos deux nuages d'intérêt : individus et variables, nous nous inté-

ressons à la forme de ces nuages. En eet, la forme d'un nuage caractérise la nature et l'intensité des

relations entre les individus et les variables. Voici quatre exemples pour le nuage des individus.

Indicateur de forme : Un point intervient dans la forme du nuage à travers deux éléments :

1. Son éloignement par rapport à l'origine O ou au centre de gravité G : on utilise le carré de la


2
distance, soit d (i, O) ou d2 (i, G). Dans le cas du nuage des individus c'est simplement la distance

Analyse des Données 15


Chapter 1

euclidienne qui est utilisée :

d2 (i, G) = (xi1 − xG1 )2 + . . . + (xip − xGp )2 ,


d2 (i, O) = x2i1 + . . . + x2ip .

2. Sa masse (son poids) : lors d'un sondage par exemple, lorsque chaque individu représente une

sous-population.

On utilise alors comme indicateur de forme l'inertie du nuage par rapport à l'origine ou au centre de

gravité, qui fait intervenir tous les éléments du nuage. Pour le nuage des individus cela donne :

n n
X
2 1X 2
IG = mi d (i, G) = d (i, G),
n
i=1 i=1
n n
X
2 1X 2
I0 = mi d (i, O) = d (i, O).
n
i=1 i=1

Remarque : pour le nuage des individus qui est centré par rapport à l'origine, la notion d'inertie

correspond à la notion de variance. Elle représente la variabilité de nos données.

1.2 Ajustement du nuage des individus (analyse directe)

On souhaite étudier la forme des nuages pour connaître la nature et l'intensité des relations entre les

individus, entre les variables, et entre les individus et variables.

Mais l'étude d'un nuage en p dimensions pour le nuage des individus, ou en n dimensions pour le nuage
des variables, n'est pas facile ! Il est impossible d'avoir une visualisation dans un tel espace.

L'idée est donc de diminuer le nombre de dimensions, pour pouvoir y voir plus clair, et être
capable de visualiser. On souhaite donc "projeter" nos données sur des espaces à une dimension (des

axes), ou bien à deux dimensions (des plans). C'est le même procédé lorsqu'on fait de la photographie,

on xe ce que nous voyons sur une image à deux dimensions. Tout l'enjeu sera d'avoir le meilleur "angle

de vue" pour expliquer, représenter correctement notre sujet (nos nuages en ACP). Suivant l'angle de

vue, les informations obtenues seront plus ou moins intéressantes, nous permettant plus ou moins de

diérencier nos individus ou variables.

Analyse des Données 16


Chapter 1

1.2.1 Animation 3D

Analyse des Données 17


Chapter 1

Nous voyons que les dimensions choisies pour la projection de nos nuages doivent être pertinentes en

représentant au mieux les nuages. Il faut donc choisir au mieux les dimensions (les axes) sur lesquelles

projeter nos nuages.

Mathématiquement, trouver ces dimensions pertinentes revient à eectuer un changement de base,

pour obtenir des axes sur lesquels les données peuvent se visualiser plus facilement.

1.2.2 Principe
Premier axe : L'objectif est de trouver l'axe dans l'espace passant par O sur lequel le nuage se

déforme le moins possible.

Comme indicateur de déformation on utilise l'inertie du nuage projeté sur l'axe 1 : I1 , représentant
la variance des points du nuage projetés sur cet axe. On cherche donc l'axe tel que I1 soit maximale
1 Pn 2
(avec I1 = n i=1 d (Hi , O)).

Analyse des Données 18


Chapter 1

Remarques :

• L'inertie représente la variance du nuage des individus car celui-ci est centré. Pour ce nuage

des individus, maximiser l'inertie s'interprète donc comme maximiser la variance. Les indi-

vidus projetés doivent être le plus dispersés possibles, le nuage projeté doit être d'allongement

maximal.

• L'inertie d'un axe représente la variance des points du nuage projetés sur cet axe.
1 Pn 2 (i, H ), cela rappelle la régression linéaire.
• Maximiser I1 revient à minimiser
n i=1 d i
• Si les points sont alignés, on a I0 = I1 : on ne perd pas d'information, d'inertie.

Deuxième axe : Nous cherchons un second axe passant par O, orthogonal au premier, sur lequel le

nuage se déforme le moins en projection, après le premier. On utilise pour cela I2 l'inertie du nuage

projeté sur l'axe 2 : nous cherchons l'axe orthogonal à l'axe 1 tel que I2 soit maximale après I1 .
Cela revient à trouver l'axe orthogonal à l'axe 1 tel que la variance des données projetées sur cet axe

soit maximale, soit tel que la projection des données soit d'allongement maximal.

Troisième axe et plus : On procède de la même manière pour tous les axes, jusqu'à obtenir les p
axes.

1.2.3 Propriétés
1. L'inertie de l'axe j est généralement notée λj , et elle correspond à la j ème plus grande valeur
1 ′
propre de la matrice V = n X X (matrice des corrélations entre les variables).

2. L'inertie totale du nuage est égale à la somme des interties de tous les axes, et est égale au
Pp
nombre de variables : I0 = i=1 Ij = p.
3. La capacité de l'axe j à représenter les données est le taux d'inertie :

Ij λj
τj = = Pp .
I0 j=1 λj

C'est la part de variance (ou d'inertie) totale prise en compte par l'axe j. Notons que pour tout

j , λj > λj+1 , donc les axes expliquent de moins en moins la variance des données.

4. Le meilleur sous-espace de dimension q (q > p) pour représenter le nuage des individus est obtenu
en sélectionnant les q premiers axes. En particulier, le meilleur plan pour représenter le nuage

est celui formé par les deux premiers axes.

5. Soit lji la coordonnée de l'individu i sur l'axe j de vecteur unitaire uj . Lj est le vecteur des

coordonnées de tous les individus sur l'axe j : Lj = (lj1 , . . . , ljn ). C'est une combinaison linéaire

des variables d'origine, appelée j


ème facteur ou composante.

Lj = a1 X1 + a2 X2 + . . . ap Xp ,
lji = a1 Xi1 + a2 Xi2 + . . . ap Xip .

Analyse des Données 19


Chapter 1

Résumé : On substitue donc au repère d'origine, constitué par les variables d'origine, un nouveau

repère formé par les axes ainsi construits. Ces axes correspondent à de nouvelles variables qui sont des

combinaisons linéaires des variables d'origine, de variances maximales et non corrélées deux à deux.

Ces axes ne véhiculent pas la même information selon leur rang. Leur capacité à résumer le nuage se

détériore au fur et à mesure que l'on observe des axes de rangs élevés.

Exemple Sauvignon :
Dans cet exemple l'inertie totale du nuage vaut 6. Les inerties du nuage projeté sur les six axes sont
données dans le tableau suivant (en brut et en pourcentage), ainsi que les inerties cumulées (en pour-
centage).

library(FactoMineR)
acp <- PCA(sauvignon,[Link]=7)
round(acp$eig,3)

eigenvalue percentage of variance cumulative percentage of variance


comp 1 4.334 72.227 72.227
comp 2 1.268 21.133 93.360
comp 3 0.385 6.413 99.773
comp 4 0.009 0.144 99.916
comp 5 0.003 0.055 99.972
comp 6 0.002 0.028 100.000

Les trois premiers facteurs ou composantes sont (extrait pour les 10 premiers vins) :

round(acp$ind$coord[1:10,],3)

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5


1 2.636 -1.909 0.610 -0.084 -0.100
2 1.507 -0.776 0.764 -0.154 0.013
3 1.416 -2.202 0.185 0.071 -0.005
4 1.057 -1.580 -0.018 0.163 0.076
5 1.185 0.063 0.375 0.144 0.039
6 -2.698 -0.617 -0.493 -0.007 -0.049
7 -3.031 0.269 -0.439 -0.007 0.034
8 -1.068 -0.609 -0.313 0.120 -0.064
9 -1.937 -2.099 -0.866 -0.074 0.013
10 -2.820 -0.999 -0.778 -0.041 0.002

Voici le nuage des individus projeté sur le plan formé par les deux premiers axes (ce plan explique 93%
de la variabilité des données) :

Analyse des Données 20


Chapter 1

PCA graph of individuals


Dim 2 (21.13%)

2
19
17
16

20
1 15
23 25
14 13
18 22

7 5
0
21
12
11
6 8
24
2
−1
10

4
1
−2 9
3

−4 −2 0 2 4
Dim 1 (72.23%)

Exemple Doubs :
L'inertie totale du nuage vaut 11. Les inerties du nuage projeté sur les six premiers axes sont données
dans le tableau suivant (en brut et en pourcentage), ainsi que les inerties cumulées (en pourcentage).

acpdoubs <- PCA(doubs2,[Link]=12:38)


round(acpdoubs$eig,3)[1:6,]

eigenvalue percentage of variance cumulative percentage of variance


comp 1 6.322 57.469 57.469
comp 2 2.232 20.287 77.757
comp 3 1.004 9.129 86.886
comp 4 0.501 4.552 91.437
comp 5 0.375 3.411 94.848
comp 6 0.248 2.254 97.102

Voici le nuage des individus projeté sur le plan formé par les deux premiers axes (ce plan explique 78%
de la variabilité des données) :

Analyse des Données 21


Chapter 1

Dim 2 (20.29%) PCA graph of individuals

4 25

23

2 1
2 6 5 8
3
10 9 24
4
26
7
0
16 21
17
11 18 20
12 27
22
13 14 19 28
−2
15 29

30

−5 0 5
Dim 1 (57.47%)

1.3 Ajustement du nuage des variables (analyse duale)

1.3.1 Principe

Le principe est exactement le même que celui de l'ajustement du nuage des individus, soit maximiser
1 Pp 2
les inerties projetées (avec Ij = p j=1 d (Hj , O)).
Cependant la signication est diérente, car le nuage des variables n'est pas centré et se situe sur

la sphère unité. Géométriquement, on ne s'intéresse plus aux distances entre les variables, mais aux

angles entre les vecteurs représentants ces variables. Ainsi, quand le nuage est projeté sur un plan par

exemple (les variable sont alors à l'intérieur du cercle unité de ce plan), on s'intéressera aux angles entre

les vecteurs représentants les variables projetées. La déformation minimum s'interprète alors comme

la déformation minimum des angles entre variables, ou encore la déformation minimum de la somme

des corrélations entre les variables. En eet, le cosinus de l'angle entre deux variables est égal à la

Analyse des Données 22


Chapter 1

corrélation entre ces deux variables.

Remarque : l'inertie ne représente pas la variance du nuage car celui-ci n'est pas centré. Pour ce

nuage des variables, maximiser l'inertie ne s'interprète donc pas comme maximiser la variance. On

cherchera plutôt à conserver les angles entre variables, à ce que ces angles soient le moins déformés

possible. Les variables projetées doivent être le plus loin possible de l'origine du nuage, mais pas

nécessairement dispersées (elles peuvent être toutes très proches).

1.3.2 Propriétés
1. Les quatres premières propriétés énoncées pour le nuage des individus sont valables pour le nuage

des variables.

En particulier, le meilleur plan pour représenter le nuage est celui formé par les deux premiers

axes. Ce plan coupe la sphère unité suivant un cercle des corrélations, à l'intérieur duquel on

peut observer les projections des variables sur ce plan.

2. Soit cjk la coordonnée de la variable k j de vecteur unitaire vj . Cj est le vecteur des


sur l'axe

coordonnées de toutes les variables sur l'axe j : Cj = (cj1 , . . . , cjp ). C'est une combinaison linéaire

des individus d'origine.

Cj = b1 x1 + b2 x2 + . . . bn xn
cjk = b1 x1j + b2 x2j + . . . bn xnj

3. La coordonnée cjk représente la corrélation entre la variable k et le j ème facteur Cj :

cjk = cor(Vk , Cj ) = cor(Vk , uj ).

Analyse des Données 23


Chapter 1

Remarque : il n'y a pas de choix à faire entre l'analyse directe et l'analyse duale. Les deux doivent être

faites et sont liées. Elles vont se servir mutuellement d'aides à l'interprétation.

Exemple Sauvignon :
Les cinq premières composantes principales sont les suivantes :

acp$var$coord

Dim.1 Dim.2 Dim.3 Dim.4 Dim.5


Fruit 0.8709587 0.4103240 -0.26715528 -0.0046025608 -0.0408890821
Strength 0.8983509 -0.4274816 0.08032630 0.0575521972 -0.0033462372
Complexity 0.5775242 0.6686021 0.46843999 0.0007974618 0.0005526757
X4MMP 0.8687854 0.4078179 -0.27788192 0.0080759123 0.0401609252
X3MH 0.9136972 -0.3977616 0.07554222 0.0113375004 -0.0006815545
X3MHA 0.9191661 -0.3811642 0.06786766 -0.0712920779 0.0043856332

Le cercle des corrélations pour le plan formé par les deux premiers axes est le suivant :
PCA graph of variables
Dim 2 (21.13%)

1.0

Complexity

0.5
Fruit
X4MMP

0.0

X3MHA
−0.5 X3MH
Strength

−1.0

−1.0 −0.5 0.0 0.5 1.0


Dim 1 (72.23%)

Analyse des Données 24


Chapter 1

Exemple Doubs :
Le cercle des corrélations pour le plan formé par les deux premiers axes est le suivant :
PCA graph of variables

Dim 2 (20.29%)
1.0

bdo
amm
0.5 alt
pho
slo

0.0
nit

har dfs
pH
−0.5 oxy
flo

−1.0

−1.0 −0.5 0.0 0.5 1.0


Dim 1 (57.47%)

1.3.3 Eet taille


Nous avons vu que le nuage des variables n'est pas centré. Il se peut donc que toutes les variables se

retrouvent d'un même côté d'un axe. Ce phénomène apparaît souvent sur le premier axe, et dans ce

cas la part d'inertie conservée par cet axe est très élevée. L'axe correspondant peut alors s'interpréter

comme un gradient, une échelle des variables qui sont toutes corrélées positivement. Ce cas de gure

correspond à la situation dans laquelle certains des individus ont de petites valeurs pour toutes les

variables, et d'autres de grandes valeurs pour toutes les variables, les autres occupant une situation

intermédiaire entre ces deux extrêmes. Il existe donc une structure commune à l'ensemble des variables,

et c'est ce que traduit la première composante principale.

Analyse des Données 25


Chapter 1

Exemple Sauvignon :
Voici les corrélations entre les variables utilisées pour faire l'ACP :

round(cor(sauvignon[,-7]),3)

Fruit Strength Complexity X4MMP X3MH X3MHA


Fruit 1.000 0.585 0.652 0.997 0.612 0.626
Strength 0.585 1.000 0.271 0.584 0.997 0.990
Complexity 0.652 0.271 1.000 0.644 0.297 0.308
X4MMP 0.997 0.584 0.644 1.000 0.611 0.624
X3MH 0.612 0.997 0.297 0.611 1.000 0.995
X3MHA 0.626 0.990 0.308 0.624 0.995 1.000

1.4 Relations entre les deux nuages


L'étude du nuage des variables et celle du nuage des individus sont liées car sont eectuées sur le même

tableau : dans un cas on s'intéresse aux lignes, dans l'autre aux colonnes.

1. Les taux d'inertie des axes sont les mêmes pour des axes de même rang dans les deux analyses

(directe et duale) : pour les deux nuages l'inertie du nuage projeté sur l'axe j vaut Ij = λj , et

l'inertie totale est la même.

2. Les composantes principales de l'analyse duale se déduisent des facteurs obtenus dans l'analyse

directe, et vice-versa. En eet, nous avons les formules de transition suivantes, avec lji la position

de l'individu i sur l'axe j dans l'espace des variables Rp , et cjk la position de la variable k sur

l'axe j n
dans l'espace des individus R :

p
1 X
lji = p xik cjk (1.1)
λj k=1
n
1 X
cjk = p xik lji . (1.2)
λj i=1

La première équation nous dit qu'au facteur 1/ n près, lji est au barycentre des cjk aectés des

poids xik (la valeur prise par l'individu i pour la variable k après avoir centré-réduit).

Comme nous avons centré les données, si l'individu i a une valeur élevée pour la variable k, on

aura xik > 0. Si l'individu i a une valeur faible pour la variable k, on aura xik < 0. Ainsi :

• Si l'individu i a une valeur élevée pour la variable k, sa coordonnée sur l'axe j (lji ) va se

rapprocher de la coordonnée de la variable k sur cet axe (cjk ).


• Si l'individu i a une valeur faible pour la variable k , sa coordonnée sur l'axe j (lji ) va s'éloigner
de la coordonnée de la variable k sur cet axe (cjk ).

Analyse des Données 26


Chapter 1

En termes d'interprétation : Ainsi, un individu se situe du côté des variables pour lesquelles il a

des valeurs élevées, et à l'opposé des variables pour lesquelles il a des valeurs faibles.

PCA graph of individuals PCA graph of variables

1.0
Complexity
2

17 19
16

0.5
15
20 25 Fruit
1

23 22
Dim 2 (21.13%)

Dim 2 (21.13%)
14 13 18 X4MMP
7
5 21
0

12

0.0
11
6 8 2 24
−1

10 X3MHA

−0.5
4 X3MH
Strength
−2

1
9 3

−1.0
−3

−2 0 2 4 −1.0 −0.5 0.0 0.5 1.0

Dim 1 (72.23%) Dim 1 (72.23%)

PCA graph of individuals PCA graph of variables


1.0
6

25 bdo
4

amm pho
0.5

23 alt slo
Dim 2 (20.29%)

Dim 2 (20.29%)

1
2

2 6
5 8 nit
3 10 9 24
0.0

4 7 26
0

16
11 21 17
12 18 20 27
13 1419 22 pH har dfs
−0.5

28 oxy
−2

15 29 flo
30
−4

−1.0

−6 −4 −2 0 2 4 6 8 −1.0 −0.5 0.0 0.5 1.0

Dim 1 (57.47%) Dim 1 (57.47%)

Analyse des Données 27


Chapter 1

1.5 Méthodologie de l'interprétation


1.5.1 Sélection du nombre d'axes à analyser
Nous avons vu que l'inertie de l'axe j est Ij et que la capacité de cet axe à représenter les données est

le taux d'inertie (part de variance totale prise en compte par l'axe j) :

Ij λj
τj = = Pp .
I0 j=1 λj

L'examen de ces taux d'inertie permet de connaître le pourcentage de variabilité des données expliqué

par chacun des axes, et de comparer les importances relatives des axes.

Cependant, le simple examen des taux d'inertie ne sut pas :

• Un taux de 10% ne possède pas la même signication selon que le tableau possède 10 (auquel

cas le taux est moyen) ou 100 variables (auquel cas le taux est élevé).

• Des taux très élevés n'impliquent pas pour autant que l'axe présente un quelconque intérêt. Il

se peut que le phénomène mis en évidence soit trivial (eet taille par exemple), et masque un

élément intéressant qui apparaitra sur les axes suivants.

Il existe diérents critères pour choisir un nombre d'axes à analyser :

1. Critère du coude : L'idée est de détecter un point d'inexion dans la courbe de décroissance des

inerties. En eet, la plupart du temps, si l'ACP peut fournir des résultats intéressants, les taux

d'inertie des premiers axes décroissent par sauts au début, puis de manière régulière (bruit).

On retient les axes avant la décroissance régulière (avant le point d'inexion).

2. Seuil d'inertie : seuls sont conservés les axes dont l'inertie est supérieure à l'inertie moyenne, qui

est de 1 (car l'inertie totale I0 = p). Attention, ce critère peut être problématique si on est en

présence d'un eet taille, car un seul axe, pas forcément pertinent, risque d'être conservé.

3. Critère d'interprétabilité : on continue à interpréter les axes tant qu'ils sont interprétables...

Exemple Sauvignon :

Analyse des Données 28


Chapter 1

valeurs propres

4
3
2
1
0

1 2 3 4 5 6

Exemple Doubs :

valeurs propres
6
5
4
3
2
1
0

1 2 3 4 5 6 7 8 9 10 11

1.5.2 Contribution absolue


[Link] Dénition

Les contributions absolues permettent de déceler quels éléments interviennent le plus dans l'élaboration

d'un axe.

Pour déterminer le rôle pris par un élément e dans l'élaboration d'un axe j, on examine la part de sa

contribution à l'inertie de cet axe :

inertie de la projection de l'élément e sur axe j


CT Rj (e) =
inertie de la projection de l'ensemble du nuage sur axe j
= part d'inertie expliquée par élément e sur axe j.

Analyse des Données 29


Chapter 1

Cette part est souvent exprimée en pourcentage.

Il est fondamental d'examiner ces contributions absolues, que ce soit dans le nuage des variables ou

dans celui des individus.

Nuage des individus : La part de la contribution de l'individu i à l'inertie de l'axe j vaut CT Rj (i) =
1 2
(l −0)2
n ji
lji Pn
λj = nλj , et on a i=1 CT Rj (i) = 1.

Nuage des variables : La part de la contribution de la variable k à l'inertie de l'axe j vaut CT Rj (k) =
(cjk −0)2 c2jk Pp
λj = λj , et on a k=1 CT Rj (k) = 1.

Exemple Doubs :
Les contributions des 10 premiers individus aux trois premiers axes sont les suivantes :

acpdoubs$ind$contrib[1:10,1:3]

Dim.1 Dim.2 Dim.3


1 10.2127388 5.5687713 3.029784066
2 6.1594179 2.9807777 0.072437641
3 5.2643465 1.1621558 9.401296539
4 4.4805950 0.4261577 0.005024775
5 1.1424305 2.6837200 1.905271072
6 3.6283558 2.9133865 0.706847219
7 4.0080036 0.1539643 0.308609339
8 0.6193836 2.4446266 1.460637320
9 0.4197463 1.1700702 0.068866470
10 1.9266722 1.5144755 14.641696034

Les contributions des variables aux trois premiers axes sont les suivantes :

acpdoubs$var$contrib[,1:3]

Dim.1 Dim.2 Dim.3


dfs 12.065581844 7.0393100 2.663181e+00
alt 11.136550129 9.2269413 1.680810e+00
slo 9.141814516 7.7022343 4.519596e+00
flo 9.568954522 11.3711677 3.639753e+00
pH 0.009556482 6.3219591 8.306499e+01
har 8.025902647 7.2099785 1.137946e-01
pho 10.407013850 11.3547435 1.868025e+00

Analyse des Données 30


Chapter 1

nit 12.857308682 0.5100214 1.267986e-02


amm 9.308614099 15.0007381 1.610641e+00
oxy 8.874197060 8.2097099 1.470543e-04
bdo 8.604506169 16.0531962 8.263797e-01

[Link] Interprétation

Une fois les éléments possédant la plus forte contribution sélectionnés, on pourra les scinder en deux

groupes selon le signe de leur coordonnée sur l'axe. L'axe va posséder des caractéristiques propres à

ces deux groupes.

En procédant de même pour l'autre nuage on dégagera progressivement une interprétation de l'axe

correspondant.

Cas de très forte contribution : cela doit attirer l'attention. En eet, l'élément correspondant est soit

une erreur dans les données, soit un élément atypique (par son poids ou sa distance). S'il s'avère que

c'est un élément atypique, il faut se poser la question de son maintien dans l'analyse. En général,

lorsqu'un axe est très fortement inuencé par un élément atypique, il est instable (le résultat de l'ACP

change beaucoup si cet individu est enlevé de l'analyse).

Remarques :

• On analyse les axes les uns après les autres, pour essayer de dégager une interprétation de

chacun de ces axes.

• On peut ensuite apparier les axes deux par deux pour examiner les plans factoriels.

Exemple Doubs :
Dans cet exemple on a 30 stations pour 11 variables. Donc, si tous les individus avaient la même
importance dans la création des axes, leurs contributions seraient de 1/30=3.3%. De même, si toutes
les variables avaient la même importance, elles auraient une contribution d'environ 1/11=9%. Ci-
dessus, des tableaux avec les individus et variables ayant des contributions au-dessus des contributions
"moyennes" attendues si tous avaient la même importance. Ci-dessous les tableaux pour l'axe 1.

Analyse des Données 31


Chapter 1

Individu Contribution Coord

1 10.2 -

2 6.2 -
Variable Contribution Coord
3 5.3 -
dfs 12.1 +
4 4.5 -
alt 11.1 -
6 3.6 -
slo 9.1 -
7 4.0 -
o 9.6 +
23 9.5 +
pho 10.4 +
24 5.9 +
nit 12.9 +
25 25.4 +
amn 9.3 +
26 4.6 +

28 3.9 +

30 4.0 +

Puis les tableaux pour l'axe 2.


Individu Contribution Coord

1 5.6 + Variable Contribution Coord

15 6.2 - alt 9.2 +

23 9.7 + o 11.4 -

25 25.3 + pho 11.4 +

28 4.2 - amn 15 +

29 6.5 - bdo 16.1 +

30 11.5 -

1.5.3 Qualité de représentation (contribution relative)


[Link] Dénition

Les qualités de représentation permettent de déceler sur quel(s) axe(s) un élément est bien représenté.

Le fait de projeter un nuage sur un axe le déforme. Il est intéressant de savoir, pour un élément donné,

s'il est proche ou éloigné de sa projection sur un axe donné.

Pour mesurer la qualité de la représentation, on utilise le cosinus de l'angle θ.

Analyse des Données 32


Chapter 1

• Si cos(θ) proche de 0, l'élément est mal représenté sur l'axe.

• Si cos(θ) proche de 1 ou -1, l'élément est bien représenté sur l'axe.

Nuage des individus : La qualité de la représentation de l'individu i sur l'axe j vaut


2
lji
qltj (i) = cos2 θij = ||xi ||2
.

Nuage des variables : La qualité de la représentation de la variable k sur l'axe j vaut qltj (k) = cos2 θkj =
c2jk . Elle est égale à la corrélation entre la variable k et l'axe j.

Remarques :

• La qualité de la représentation d'un élément sur le plan formé par les axes j et k est la somme

de la qualité de la représentation de l'élément sur l'axe j, et de la qualité de la représentation

de l'élément sur l'axe k (car orthogonalité).

• On peut faire une analogie avec le R2 de la régression linéaire.

Exemple Doubs :
Les qualités de représentation des 10 premiers individus sur les trois premiers axes sont :

round(acpdoubs$ind$cos2,3)[1:10,1:3]

Dim.1 Dim.2 Dim.3


1 0.708 0.136 0.033
2 0.696 0.119 0.001
3 0.679 0.053 0.193
4 0.922 0.031 0.000
5 0.359 0.298 0.095
6 0.698 0.198 0.022
7 0.826 0.011 0.010
8 0.164 0.229 0.062
9 0.181 0.178 0.005
10 0.381 0.106 0.459

Les qualités de représentation des variables sur les trois premiers axes sont les suivantes (revenir au
cercle des corrélations) :

round(acpdoubs$var$cos2,3)[,1:3]

Dim.1 Dim.2 Dim.3


dfs 0.763 0.157 0.027

Analyse des Données 33


Chapter 1

alt 0.704 0.206 0.017


slo 0.578 0.172 0.045
flo 0.605 0.254 0.037
pH 0.001 0.141 0.834
har 0.507 0.161 0.001
pho 0.658 0.253 0.019
nit 0.813 0.011 0.000
amm 0.588 0.335 0.016
oxy 0.561 0.183 0.000
bdo 0.544 0.358 0.008

[Link] Interprétation

Les qualités de représentation permettent de mettre en évidence des éléments qui ne contribuent pas

forcément à l'axe, mais qui présentent des caractéristiques propres à l'axe. Des éléments bien représen-

tés sur un axe sont donc assez bien expliqués par cet axe.

Si sur un plan deux éléments sont bien représentés, alors s'ils sont proches sur ce plan cette proximité

sera réelle, et traduira une ressemblance.

Si à l'inverse les deux éléments sont mal représentés, alors s'ils sont proches sur ce plan cette proximité

peut être dûe au caractère déformant de la projection, et les éléments ne se ressemblent pas forcément.

On ne pourra pas interpréter leur proximité.

Remarque : concernant les variables, leurs qualités sur un plan peuvent être visualisées dans le cercle

des corrélations : une variable bien représentée sera proche du cercle.

Exemple Doubs :
Nous pouvons compléter les tableaux précédents avec les qualités de représentation. Sur un axe, nous
ferons attention de ne pas trop interpréter la position d'un élément qui serait mal représenté. Idem sur

Analyse des Données 34


Chapter 1

un plan. Attention, un point peut être mal représenté sur un axe, mais bien représenté sur un plan
contenant cet axe. Ci-dessous les tableaux pour l'axe 1.
Individu Contribution Qualité Coord

1 10.2 0.71 -

2 6.2 0.70 -
Variable Contribution Qualité Coord
3 5.3 0.68 -
dfs 12.1 0.76 +
4 4.5 0.92 -
alt 11.1 0.70 -
6 3.6 0.70 -
slo 9.1 0.58 -
7 4.0 0.83 -
o 9.6 0.60 +
23 9.5 0.67 +
pho 10.4 0.66 +
24 5.9 0.81 +
nit 12.9 0.81 +
25 25.4 0.72 +
amn 9.3 0.59 +
26 4.6 0.84 +

28 3.9 0.59 +

30 4.0 0.44 +

Puis les tableaux pour l'axe 2.


Individu Contribution Qualité Coord

1 5.6 0.14 + Variable Contribution Qualité Coord

15 6.2 0.31 - alt 9.2 0.21 +

23 9.7 0.24 + o 11.4 0.25 -

25 25.3 0.25 + pho 11.4 0.25 +

28 4.2 0.22 - amn 15 0.33 +

29 6.5 0.28 - bdo 16.1 0.36 +

30 11.5 0.44 -

Ce qui nous permet de schématiser les axes, an de dégager une interprétation :

Analyse des Données 35


Chapter 1

1.6 Eléments supplémentaires (illustratifs)


Le choix des individus et des variables n'est pas neutre dans le résultat d'une ACP. Au contraire, leur

choix a une grande importance et inuence les résultats obtenus et l'interprétation que nous pouvons

en faire. Ce choix doit être fait en fonction de nos objectifs. On peut vouloir des individus représentatifs

d'une population particulière, ou bien représentatifs d'une plus grande population, diversiée. Pour les

variables, celles incluses dans l'analyse seront celles servant à créer les axes, et donc ce sont celles à

partir desquelles nous pourrons visualiser des diérences ou des ressemblances entre nos individus.

Mais nous pouvons aussi avoir des variables ou des individus supplémentaires dans notre ACP. Cela

consiste à inclure des éléments (individus ou variables) dans l'analyse an d'illustrer certains axes

ou certains comportements, mais sans que ces éléments ne participent à l'élaboration des axes (par

opposition aux éléments actifs qui y participent).

Un tel élément est donc projeté sur les axes factoriels pour voir où il se situe et pour participer à

l'interprétation de l'axe, mais il n'intervient pas dans l'élaboration de l'axe (c'est comme s'il avait un

poids nul). La contribution aux axes de ces éléments est donc nulle. On peut également examiner la

qualité de la représentation de ces éléments sur les axes.

1.6.1 Variables supplémentaires


En général ce sont des variables de nature diérente de celles utilisées pour construire les axes (les

variables actives), ou qui n'ont pas le même intérêt que les variables actives. Ce peut être :

• Des variables que nous souhaitons expliquer ou interpréter à l'aide des variables actives.

• Des variables de type diérent (par exemple des variables socio-démographiques alors que les

variables actives sont agronomiques).

• Des variables qualitatives, qui ne peuvent pas être utilisées dans l'ACP.

Reprenons les exemples d'utilisation de l'ACP du début du cours, et voyons quelles variables pourraient

être illustratives :

1. Exemple Sauvignon : la variable type de levure utilisé, qui est qualitative. On peut l'utiliser en

supplémentaire pour faire un lien entre nos variables actives et le type de levure.

2. Exemple hydrographie du Doubs : les variables d'abondance des espèces de poissons, que nous

voulons expliquer par le caractère morphologique de la rivière et la qualité de l'eau.

3. Une enquête pour rechercher les principaux facteurs explicatifs du rendement d'une culture : la

variable donnant le rendement joue un rôle particulier, et on veut l'expliquer avec les potentiels

facteurs explicatifs.

4. Dans le cadre d'analyses sensorielles : on a deux types de variables : les variables sensorielles

d'une part (perception du sucré, de l'arôme "banane",. . .), et les variables physico-chimiques

d'autre part. Pour faire le lien entre perception de consommateurs de vins et caractéristiques

physico-chimiques, un de ces deux groupes de variables doit être "actif", et l'autre "illustratif".

On choisit le groupe de variable "actif" en fonction de quelles variables doivent être utilisées pour

créer les axes et les groupes de vins.

Analyse des Données 36


Chapter 1

5. Caractérisation des exploitations porcines de Bretagne : on a souvent deux types de variables :

les variables donnant les caractéristiques socio-économiques de l'exploitation (âge de l'exploitant,

nombre d'employés, surface,. . .), et les variables agronomiques elles-mêmes donnant les informa-

tions sur la manière de gérer l'élevage. Si on s'intéresse aux diérentes manières de gérer un

élevage, les variables sur la gestion de l'élevage seront actives, tandis que les variables socio-

économiques seront illustratives.

1.6.2 Individus supplémentaires


Les individus supplémentaires ou illustratifs peuvent être :

• Des individus ayant des caractéristiques diérentes du groupe actif.

• Des individus jouant le rôle de témoins extérieurs à l'échantillon.

Reprenons les exemples d'utilisation de l'ACP du début du cours, et voyons quels types d'individus

pourraient être illustratifs :

1. Exemple Sauvignon : des vins qui ne seraient pas "Sauvignon", mais que nous voudrions comparer

aux Sauvignon, une fois l'analyse faite sur les Sauvignon.

2. Exemple hydrographie du Doubs : des stations d'étude d'une autre rivière que le Doubs, à com-

parer avec les stations du Doubs.

3. Caractérisation des exploitations porcines de Bretagne : si on a des données sur des exploitations

d'une autre région, ou d'une autre époque (données historiques), celles-ci peuvent être illustratives

pour ne pas inuencer l'analyse actuelle en Bretagne, mais être projetées sur nos plans pour voir

comment elles se situent par rapport aux exploitations porcines actuelles en Bretagne, ou quelle

a été l'évolution s'il s'agit de données historiques.

1.6.3 Représentation de variable supplémentaire qualitative


Si la variable qualitative qui nous intéresse a m modalités, il faut créer un individu supplémentaire

pour chacune de ces modalités. Pour la première modalité par exemple, on créé un individu qui pos-

sède les valeurs moyennes des individus concernés par cette modalité (pour les variables actives). Il

correspond au centre de gravité de l'ensemble des individus concernés par cette modalité. Les m indi-

vidus supplémentaires sont ensuite projetés sur un plan factoriel. Cette technique permet de pouvoir

représenter plusieurs variables qualitatives par graphique. Cependant, cela ne donne pas d'indication

sur la variabilité des individus possédant une même modalité. Pour remédier à cela, certains logiciels

proposent de construire autour de chaque individu supplémentaire (centre de gravité d'une modalité)

une ellipse de conance, pour traduire la variabilité des individus autour des centres de gravité. Pour

chaque modalité le package FactoMineR considère le vecteur de ses coordonnées moyennes, la matrice

de variance-covariance associée, et les coordonnées sont supposées suivre une loi multinormale. Ainsi,

connaissant la loi de la position d'une modalité, il peut tracer son ellipse de conance.

Ces ellipses de conance peuvent être utilisées de la façon suivante :

1. Si l'ellipse d'une modalité englobe l'origine O, cela signie que cette modalité (soit les individus

possédant cette modalité) n'est pas caractérisée par le plan. A l'inverse, si l'ellipse occupe une

Analyse des Données 37


Chapter 1

position excentrée sur le plan, alors les individus possédant cette modalité sont caractérisés par

le plan.

2. Pour savoir si deux modalités sont diérenciées par le plan, on regarde si leurs ellipses se re-

couvrent. Une absence de recouvrement signie que le plan diérencie les deux modalités. Un

fort recouvrement signie une non-diérenciation de ces modalités sur le plan. Un recouvrement

faible laisse la place au doute. . .

Remarque : sans utiliser d'individus supplémentaires, une variable qualitative peut tout simplement

être représentée sur les plans factoriels par un code de couleur ou de forme : les individus d'une modalité

donnée seront de même couleur par exemple (il faut un graphique par variable).

Exemple Sauvignon :
Sur la gure suivante nous avons rajouté, sur le nuage des individus projeté dans le plan formé par les
deux premiers axes, la variable sur le type de levure utilisé.

Confidence ellipses around the categories of Cultures


Dim 2 (21.13%)

2
17 19
16 Sc/Mp
mixed
20
1 25
15
23 22
14 Sc/Hu
mixed 18 mixed Sc/Pk Cultures
13
mixed Sc/Cz
7
0 5 mixed Sc/Hu
12 21
11 mixed Sc/Mp
6 8 24
2 mixed Sc/Pk
−1 mixed Sc/Cz pure Sc
10 pure Sc
4
1
−2 9
3

−4 −2 0 2 4
Dim 1 (72.23%)

Exemple Doubs :
Sur les gures suivantes nous avons rajouté, sur le nuage des individus projeté dans le plan formé par
les deux premiers axes, les variables sur la mesure d'abondance du vairon et sur la présence ou absence
de l'ablette.

Analyse des Données 38


Chapter 1

Confidence ellipses around the categories of Phph Confidence ellipses around the categories of Alal
Dim 2 (20.29%)
Dim 2 (20.29%)

25
4 4
25
Phph 23
2 1 23 Phph_0 2 1
2 6 5 8 2 6 5 8 Alal
24 Phph_1 24
3 10 9 3 10 9 Alal_0
Phph_3
0 4 7 16 26 0 4 7 16 26 Alal_1
12 Phph_4 12
11 27 28 11 27 28
13 Phph_5 13 14
−2 14 −2
15 29 15 29
30 30
−5 0 5 −5 0 5
Dim 1 (57.47%) Dim 1 (57.47%)

Analyse des Données 39


40
Chapitre 2

Analyse factorielle des correspondances (AFC)

Exemple : athlétisme aux jeux olympiques


Les données viennent du livre de Husson, Lê et Pagès (voir bibliographie). Elles correspondent au

nombre de médailles par pays à chacune des épreuves d'athlétisme, lors des jeux olympiques de 1992 à

2008. Lors de ces 5 olympiades, 58 pays ont obtenu au moins une médaille lors d'une des 24 épreuves

d'athlétisme : 10000 m, 100 m, 110 m haies, 1500 m, 200 m, 20 km, 3000 m stepple, 400 m, 400 m

haies, 4 x 100 m, 4 x 400 m, 5000 m, 50 km, 800 m, Décathlon, Disque, Hauteur, Javelot, Longueur,

Marathon, Marteau, Perche, Poids, Triple saut.

Voici un extrait du jeu de données (les dix pays ayant obtenu le plus de médailles) :

library(FactoMineR)
data(JO)
margeli <- apply(JO,2,sum)
margecol <- c(apply(JO,1,sum),NA)
JO[,c(57,31,48,23,19,11,36,24,28,43)]

usa ken rus gbr eth cub mar ger jam pol
10000m 0 4 0 0 8 0 2 0 0 0
100m 5 0 0 1 0 0 0 0 1 0
110mH 9 0 0 0 0 3 0 1 0 0
1500m 0 5 0 0 0 0 3 0 0 0
200m 8 0 0 1 0 0 0 0 1 0
20km 0 0 3 0 0 0 0 0 0 1
3000mSteeple 0 12 0 0 0 0 1 0 0 0
400m 11 1 0 1 0 0 0 0 1 0
400mH 7 0 0 1 0 0 0 0 2 0
4x100m 4 0 0 1 0 2 0 0 1 0
4x400m 5 0 1 2 0 1 0 0 2 0
5000m 0 5 0 0 4 0 3 1 0 0
50km 0 0 4 0 0 0 0 1 0 3
800m 1 5 1 0 0 0 0 1 0 0

41
Chapter 2

Decathlon 5 0 0 0 0 1 0 1 0 0
Disque 0 0 0 0 0 1 0 3 0 1
Hauteur 3 0 3 2 0 2 0 0 0 1
Javelot 0 0 2 3 0 0 0 0 0 0
Longueur 7 0 0 0 0 2 0 0 1 0
Marathon 1 3 0 0 3 0 1 1 0 0
Marteau 1 0 0 0 0 0 0 0 0 1
Perche 4 0 3 0 0 0 0 1 0 0
Poids 8 0 0 0 0 0 0 0 0 1
Triple saut 3 0 2 3 0 2 0 0 0 0

Les codes pays utilisés sont ceux du CIO :

alg aus bah bar bdi blr bra brn can


Pays Algerie Autriche Bahamas Barbade Burundi Bielorussie Bresil Barhein Canada
chn cub cze den dom ecu eri esp
Pays Chine Cuba Rep Tcheque Danemark Rep Dominicaine Equateur Erythree Espagne
est eth eun fin fra gbr ger gre
Pays Estonie Ethiopie ex-URSS Finlande France Royaume-Uni Allemagne Grece
hun ita jam jpn kaz ken kor ksa
Pays Hongrie Italie Jamaique Japon Kazakhstan Kenya Coree Sud Arabie Saoudite
lat ltu mar mex nam ngr nor nzl
Pays Lettonie Lituanie Maroc Mexique Namibie Niger Norvege Nouvelle Zelande
pan pol por qat rou rsa rus slo sud
Pays Panama Pologne Portugal Qatar Roumanie Afrique Sud Russie Slovénie Soudan
swe tch tri tur uga ukr usa
Pays Suede Tchecoslovaquie Trinite Tobago Turquie Ouganda Ukraine Etats Unis
zam
Pays Zambie

2.1 Introduction
2.1.1 Cadre et objectifs
Comme l'ACP, l'AFC est une méthode d'analyse des données exploratoire.

Son domaine d'application est diérent de celui de l'ACP qui traite de variables quantitatives continues.

Elle s'applique en eet aux tableaux de contingences croisant deux variables qualitatives. L'idée est

d'analyser ce tableau de contingence en mettant en `correspondance l'ensemble des lignes et celui des

colonnes.

Objectif : Etudier les éventuelles relations entre les deux variables, la liaison entre ces deux variables.

Notamment :

Analyse des Données 42


Chapter 2

• Existe-t-il une attraction ou au contraire une répulsion entre certaines modalités d'une variable

ou entre des modalités des deux variables ?

• Quelle typologie entre modalités de la première variable est-elle induite par les modalités de la

seconde variable ?

• De même, quelle typologie entre modalités de la seconde variable est-elle induite par les moda-

lités de la première variable ?

Exemple olympiades : Est ce que certains pays n'obtiennent des médailles que dans certaines
épreuves ? Au contraire, est ce que certains pays obtenant de nombreuses médailles n'en obtiennent
pas dans certaines épreuves ?
Est ce que certaines épreuves se ressemblent car sont gagnées par les mêmes pays ? Est ce que certaines
épreuves s'opposent car sont gagnées par des pays diérents ?
Est ce que certains pays se ressemblent car gagnent les mêmes épreuves ? Est ce que certains pays
s'opposent car gagnent des épreuves diérentes ?
Pouvons nous obtenir une typologie des pays à partir de la répartition des médailles par sport, ou encore
une typologie des sports à partir des pays médaillés ?

Notations :
• On note X le tableau de contingence. On peut le voir comme une matrice. La variable représentée

en lignes a n modalités, et celle représentée en colonnes en a p.


• n.. est l'eectif total.
• nik est l'eectif dans la modalité i de la variable en lignes et dans la modalité k de la variable
en colonnes. fik = nik /n.. est la fréquence associée.

• ni. est l'eectif dans la modalité i de la variable en lignes (peu importe la modalité de la variable
en colonnes). fi. = ni. /n.. est la fréquence associée.

• n.k est l'eectif dans la modalité k de la variable en colonnes (peu importe la modalité de la
variable en lignes). f.k = n.k /n.. est la fréquence associée.

var2
modalité 1 ... modalité j ... modalité p Total
var1

modalité 1 n11 ... n1k ... n1p n1.


. . . . .
. . . . .
. . . . .

modalité i ni1 ... nik ... nip ni.


. . . . .
. . . . .
. . . . .

modalité n nn1 ... nnk ... nnp nn.


Total n.1 ... n.k ... n.p n..

Nous pouvons noter le rôle symétrique des lignes et des colonnes.

Analyse des Données 43


Chapter 2

Ci-dessous sont données les marges lignes et colonnes de notre jeu de données.

margeli <- apply(JO,2,sum)


margecol <- apply(JO,1,sum)
margeli

alg aus bah bar bdi blr bra brn can chn cub cze den dom ecu eri esp est eth eun
4 6 3 1 1 6 3 1 4 1 14 6 3 1 2 1 8 3 15 7
fin fra gbr ger gre hun ita jam jpn kaz ken kor ksa lat ltu mar mex nam ngr nor
4 3 15 10 1 3 7 9 4 1 35 2 1 3 4 10 4 4 4 3
nzl pan pol por qat rou rsa rus slo sud swe tch tri tur uga ukr usa zam
1 1 8 3 1 1 6 19 1 1 3 2 6 1 1 5 82 1

margecol

10000m 100m 110mH 1500m 200m 20km


15 15 15 15 15 15
3000mSteeple 400m 400mH 4x100m 4x400m 5000m
15 15 15 15 15 15
50km 800m Decathlon Disque Hauteur Javelot
15 15 15 15 15 15
Longueur Marathon Marteau Perche Poids Triple saut
15 15 15 15 15 15

Remarque : utiliser l'ACP sur un tableau de contingence ne donne pas de résultat pertinent (on

observe un eet taille sur l'axe 1 qui ne fait que traduire des diérences d'eectifs entre modalités).

C'est pourquoi on ne travaille pas sur les eectifs bruts d'un tel tableau, on transforme ce tableau en

un tableau des prols lignes, et un tableau des prols colonnes.

2.1.2 Transformation des données pour l'AFC


Nous utilisons le tableau des prols lignes et celui des prols colonnes, c'est à dire les répartitions en

pourcentages à l'intérieur des lignes et des colonnes (il s'agit des distributions conditionnelles).

Les prols lignes sont donnés par les nik /ni. = fik /fi. . Les sommes en ligne sont toutes égales à 1.

Exemple olympiades : un extrait des prols lignes est le suivant (pour les dix premiers sports et les
dix pays les plus médaillés) :

proflignes <- [Link]([Link](JO),1)


round(proflignes,3)[1:10,c(57,31,48,23,19,11,36,24,28,43)]

usa ken rus gbr eth cub mar ger jam pol

Analyse des Données 44


Chapter 2

10000m 0.000 0.267 0.0 0.000 0.533 0.000 0.133 0.000 0.000 0.000
100m 0.333 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
110mH 0.600 0.000 0.0 0.000 0.000 0.200 0.000 0.067 0.000 0.000
1500m 0.000 0.333 0.0 0.000 0.000 0.000 0.200 0.000 0.000 0.000
200m 0.533 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
20km 0.000 0.000 0.2 0.000 0.000 0.000 0.000 0.000 0.000 0.067
3000mSteeple 0.000 0.800 0.0 0.000 0.000 0.000 0.067 0.000 0.000 0.000
400m 0.733 0.067 0.0 0.067 0.000 0.000 0.000 0.000 0.067 0.000
400mH 0.467 0.000 0.0 0.067 0.000 0.000 0.000 0.000 0.133 0.000
4x100m 0.267 0.000 0.0 0.067 0.000 0.133 0.000 0.000 0.067 0.000

Un prol ligne donne, pour un sport donné, la répartition des médailles par pays.

Les prols colonnes sont donnés par les nik /n.k = fik /f.k . Les sommes en colonne sont toutes égales à

1.

Exemple olympiades : un extrait des prols colonnes est le suivant (pour les dix premiers sports et
les dix pays les plus médaillés) :

profcols <- [Link]([Link](JO),2)


round(profcols,3)[1:10,c(57,31,48,23,19,11,36,24,28,43)]

usa ken rus gbr eth cub mar ger jam pol
10000m 0.000 0.114 0.000 0.000 0.533 0.000 0.2 0.0 0.000 0.000
100m 0.061 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
110mH 0.110 0.000 0.000 0.000 0.000 0.214 0.0 0.1 0.000 0.000
1500m 0.000 0.143 0.000 0.000 0.000 0.000 0.3 0.0 0.000 0.000
200m 0.098 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
20km 0.000 0.000 0.158 0.000 0.000 0.000 0.0 0.0 0.000 0.125
3000mSteeple 0.000 0.343 0.000 0.000 0.000 0.000 0.1 0.0 0.000 0.000
400m 0.134 0.029 0.000 0.067 0.000 0.000 0.0 0.0 0.111 0.000
400mH 0.085 0.000 0.000 0.067 0.000 0.000 0.0 0.0 0.222 0.000
4x100m 0.049 0.000 0.000 0.067 0.000 0.143 0.0 0.0 0.111 0.000

Un prol colonne donne, pour un pays donné, la répartition des médailles par sport.

Analyse des Données 45


Chapter 2

2.1.3 Nuages des prols


[Link] Nuage des prols lignes

L'ensemble des n prols lignes forme un nuage de n points dans l'espace des p colonnes.

n o
fik
Coordonnées Chaque point i a pour coordonnées dans Rp fi. , k = 1, . . . , p .

Masses Le prol ligne i est aecté de la masse fi. : une modalité a une inuence d'autant plus grande

qu'elle est fréquente.

Centre de gravité Le centre de gravité de ce nuage est la moyenne des prols lignes aectés de

leurs masses et correspond au prol moyen, dont la k ème composante vaut f.k (fréquence marginale des

colonnes). Pour la suite de l'analyse, l'origine des axes sera placé sur ce centre de gravité Gl (nuage

centré).

Pour l'exemple olympiades, le prol ligne moyen est :

moyenproflignes <- [Link]([Link](JO),2)/sum([Link]([Link](JO),2))


round(moyenproflignes,3)

alg aus bah bar bdi blr bra brn can chn cub cze den
0.011 0.017 0.008 0.003 0.003 0.017 0.008 0.003 0.011 0.003 0.039 0.017 0.008
dom ecu eri esp est eth eun fin fra gbr ger gre hun
0.003 0.006 0.003 0.022 0.008 0.042 0.019 0.011 0.008 0.042 0.028 0.003 0.008
ita jam jpn kaz ken kor ksa lat ltu mar mex nam ngr
0.019 0.025 0.011 0.003 0.097 0.006 0.003 0.008 0.011 0.028 0.011 0.011 0.011
nor nzl pan pol por qat rou rsa rus slo sud swe tch
0.008 0.003 0.003 0.022 0.008 0.003 0.003 0.017 0.053 0.003 0.003 0.008 0.006
tri tur uga ukr usa zam
0.017 0.003 0.003 0.014 0.228 0.003

Il représente la répartition des pays médaillés, tous sports confondus.

Distance entre deux prols lignes Un de nos objectifs est d'eectuer une typologie des lignes et

des colonnes, soit de savoir quels prols sont similaires entre eux.

Deux prols lignes proches sont éloignés de façon similaire à l'origine (au prol moyen) : ils s'associent

donc de façon privilégiée aux mêmes modalités de la variable colonne. De même, ils auront tendance

à peu s'associer aux mêmes modalités de la variable colonne.

Deux prols lignes opposés de part et d'autre de l'origine (du prol moyen) : les modalités avec

Analyse des Données 46


Chapter 2

lesquelles le premier s'associe souvent sont celles avec lesquelles le deuxième s'associe peu.

Dans le cas de deux prols lignes i et i′ nous pourrions utiliser la distance euclidienne qui est la

suivante : !2
p
X fik fi′ k
− .
fi. fi′ .
k=1

Cependant cette distance favorise les modalités de la variable en colonne qui ont une masse f.k im-

portante. Pour remédier à cela on pondère chaque écart par l'inverse de la masse de la colonne, ce qui

donne la distance du χ2 :
p
!2
2 ′
X 1 fik fi′ k
d (i, i ) = − .
f.k fi. fi′ .
k=1

Pour l'exemple olympiades, comparons le prol ligne du 100 m avec celui du 110 m haies. Dans le cas
de la distance euclidienne, les Etats-unis vont prendre une trop grande importance comparé à Cuba par
exemple :

(0.33 − 0.6)2 = 0.07 et (0 − 0.2)2 = 0.04.

Ce n'est plus le cas avec la distance du χ2 :


1 1
(0.33 − 0.6)2 = 0.31 et (0 − 0.2)2 = 1.03.
0.228 0.039

[Link] Nuage des prols colonnes

L'ensemble des p prols colonnes forme un nuage de p points dans l'espace des n lignes.

n o
fik
Coordonnées Chaque point k a pour coordonnées dans Rn f.k , i = 1, . . . , n .

Masses Le prol colonne k est aecté de la masse f.k : une modalité a une inuence d'autant plus

grande qu'elle est fréquente.

Centre de gravité Le centre de gravité de ce nuage est la moyenne des prols colonnes aectés

de leurs masses et correspond au prol moyen, dont la ième composante vaut fi. (fréquence marginale

des lignes). Pour la suite de l'analyse, l'origine des axes sera placé sur ce centre de gravité Gc (nuage

centré).

Pour l'exemple olympiades, le prol colonne moyen est :

moyenprofcols <- [Link]([Link](JO),1)/sum([Link]([Link](JO),1))


round(moyenprofcols,3)

Analyse des Données 47


Chapter 2

10000m 100m 110mH 1500m 200m 20km


0.042 0.042 0.042 0.042 0.042 0.042
3000mSteeple 400m 400mH 4x100m 4x400m 5000m
0.042 0.042 0.042 0.042 0.042 0.042
50km 800m Decathlon Disque Hauteur Javelot
0.042 0.042 0.042 0.042 0.042 0.042
Longueur Marathon Marteau Perche Poids Triple saut
0.042 0.042 0.042 0.042 0.042 0.042

Il représente la répartition des sports, tous pays confondus. Ici peu intéressant, car on a toujours 15
médailles par sport (3 médailles par olympiade).

Distance entre deux prols colonnes De la même façon que pour les prols lignes, la distance

entre les prols colonnes est dénie par :

n
!2
X 1 fik fik′
d2 (k, k ′ ) = − .
fi. f.k f.k′
i=1

[Link] Propriété d'équivalence distributionnelle de la distance du χ2

Cette distance du χ2 a la propriété suivante : si on agrège deux prols lignes identiques i1 et i2 on ne

modie pas la distance entre les prols colonnes. On a la propriété symétrique pour les prols colonnes.

Par conséquent :

• On ne gagne rien en subdivisant des classes homogènes.

• On ne perd rien en regroupant des classes aux prols identiques.

Cela garantit une certaine invariance des résultats vis-à-vis des classes choisies.

Exemple olympiades : par exemple les prols lignes 200 m et 400 m paraissent assez proches.

2.1.4 Forme d'un nuage et inertie


Forme et inertie : Un point intervient dans la forme du nuage à travers deux éléments :

1. Son éloignement par rapport au centre de gravité G : d2 (i, Gl ) pour un prol ligne ou d2 (k, Gc )
pour un prol colonne.

2. Sa masse (son poids) : fi. pour le nuage des prols lignes, et f.k pour le nuage des prols colonnes.

On utilise alors comme indicateur de forme l'inertie du nuage, qui fait intervenir tous les éléments du

Analyse des Données 48


Chapter 2

nuage. Par exemple pour les nuages des prols lignes et colonnes respectivement :

n
X
IG = fi. d2 (i, Gl ),
i=1
Xp
IG = fk. d2 (k, Gc ).
k=1

2.2 Ajustement du nuage des prols lignes


2.2.1 Principe
Premier axe : Comme en ACP, l'objectif est de trouver l'axe dans l'espace passant par l'origine Gl
sur lequel le nuage se déforme le moins possible.

Comme indicateur de déformation on utilise l'inertie du nuage projeté sur l'axe 1 : I1 . On cherche donc
Pn 2
l'axe tel que I1 soit maximale (avec I1 = i=1 fi. d (Hi , Gl )). La distance utilisée est la distance du
2
χ , mais le principe est le même qu'en ACP.

Deuxième axe et plus : Nous cherchons un second axe passant par Gl , orthogonal au premier, sur

lequel le nuage se déforme le moins en projection, après le premier. On utilise pour cela I2 l'inertie du

nuage projeté sur l'axe 2 : nous cherchons l'axe orthogonal à l'axe 1 tel que I2 soit maximale après I1 .
On procède de la même manière pour tous les axes, jusqu'à obtenir les p axes.

Remarque : le nuage se situant dans un espace à p dimensions, on pourrait s'attendre à avoir p axes
à ajuster. Mais il faut tenir compte du fait que les n points sont situés dans un sous-espace à p−1
Pp fik
dimensions car on a la contrainte k=1 fi. = 1. De plus, il sut d'un espace à n−1 dimensions pour

représentern points. Ainsi, le nombre d'axes à ajuster pour représenter parfaitement le nuage vaut

min{(p − 1), (n − 1)}.

2.2.2 Propriétés
1. L'axe j de vecteur directeur uj est associé à une inertie λj , qui est l'inertie du nuage projeté
sur cet axe (comme en ACP cette inertie correspond à la j ème plus grande valeur propre d'une
certaine matrice).

2. La capacité de l'axe j à représenter les données est le taux d'inertie :

Ij λj
τj = = Pp .
I0 j=1 λj

C'est la part d'inertie totale prise en compte par l'axe j. Notons que pour tout j , λj > λj+1 ,
donc les axes expliquent de moins en moins la variance des données.

Analyse des Données 49


Chapter 2

3. Le meilleur sous-espace de dimension q (q > p) pour représenter le nuage des individus est obtenu
en sélectionnant les q premiers axes. En particulier, le meilleur plan pour représenter le nuage

est celui formé par les deux premiers axes.

4. Soit lji la coordonnée du prol ligne i sur l'axe j de vecteur unitaireuj . Lj est le vecteur des
coordonnées de tous les prols lignes sur l'axe j
: Lj = (lj1 , . . . , ljn ). C'est une combinaison

linéaire des modalités de la variable colonne, appelée j


ème facteur ou composante.

Résumé : On substitue donc au repère d'origine, constitué par les modalités de la variable colonne,

un nouveau repère formé par les axes ainsi construits. Ces axes correspondent à de nouvelles modalités

qui sont des combinaisons linéaires des modalités d'origine, d'inerties maximales et non corrélées deux

à deux. Ces axes ne véhiculent pas la même information selon leur rang. Leur capacité à résumer le

nuage se détériore au fur et à mesure que l'on observe des axes de rangs élevés.

Exemple olympiades :
Dans notre exemple, il y a 23 axes à ajuster. Les inerties du nuage projeté sur les 6 premiers axes sont
les suivantes :

library(FactoMineR)
afc <- CA(JO)
round(afc$eig,3)[1:6,]

eigenvalue percentage of variance cumulative percentage of variance


dim 1 0.817 13.854 13.854
dim 2 0.621 10.529 24.383
dim 3 0.544 9.232 33.615
dim 4 0.481 8.162 41.778
dim 5 0.396 6.721 48.499
dim 6 0.364 6.174 54.673

Les trois premiers facteurs sont (extrait pour les dix premiers sports) :

round(afc$row$coord,3)[1:10,1:3]

Dim 1 Dim 2 Dim 3


10000m -2.162 -0.330 -0.172
100m 0.678 -1.164 -0.407
110mH 0.593 -0.498 -0.395
1500m -1.469 -0.185 0.373
200m 0.716 -1.084 -0.468

Analyse des Données 50


Chapter 2

20km 0.284 1.037 1.476


3000mSteeple -1.610 -0.147 0.127
400m 0.480 -0.736 -0.312
400mH 0.532 -0.785 -0.406
4x100m 0.550 -0.654 -0.397

Voici la projection des prols lignes dans le premier plan obtenu :


CA factor map
Dim 2 (10.53%)

2 Disque

Marteau

50km
1
20km

Perche
Javelot

800m Decathlon
0 Poids
3000mSteeple Marathon Hauteur
Longueur
5000m 1500m
Triple saut
10000m
110mH 4x400m
400m 4x100m
400mH
−1 200m

100m

−2 −1 0 1
Dim 1 (13.85%)

2.3 Ajustement du nuage des prols colonnes


Comme les lignes et les colonnes jouent des rôles symétriques, le principe, l'interprétation et les pro-

priétés sont exactement les même que pour l'ajustement du nuage des prols lignes.

Notations :

• L'axe j de vecteur directeur vj est associé à une inertie λj , qui est l'inertie du nuage projeté
sur cet axe (comme en ACP cette inertie correspond à la j
ème plus grande valeur propre d'une

certaine matrice).

• Soit cjk la coordonnée du prol colonne k sur l'axe j de vecteur unitaire v j . Cj est le vecteur des

coordonnées de tous les prols colonnes sur l'axe j : Cj = (cj1 , . . . , cjp ). C'est une combinaison

linéaire des modalités de la variable ligne, appelée j


ème facteur ou composante.

Analyse des Données 51


Chapter 2

Exemple olympiades :
Dans notre exemple, il y a aussi 23 axes à ajuster pour ce nuage. Les inerties du nuage projeté sur les
6 premiers axes sont les suivantes :

round(afc$eig,3)[1:6,]

eigenvalue percentage of variance cumulative percentage of variance


dim 1 0.817 13.854 13.854
dim 2 0.621 10.529 24.383
dim 3 0.544 9.232 33.615
dim 4 0.481 8.162 41.778
dim 5 0.396 6.721 48.499
dim 6 0.364 6.174 54.673

Les trois premiers facteurs sont (extrait pour les dix pays les plus médaillés) :

round(afc$col$coord,3)[c(57,31,48,23,19,11,36,24,28,43),1:3]

Dim 1 Dim 2 Dim 3


usa 0.573 -0.556 -0.296
ken -1.624 -0.189 0.065
rus 0.403 0.560 1.161
gbr 0.647 -0.518 0.536
eth -2.080 -0.280 -0.251
cub 0.594 -0.255 -0.209
mar -1.891 -0.241 0.039
ger -0.136 0.917 -0.638
jam 0.655 -0.949 -0.372
pol 0.402 1.328 0.413

Voici la projection des prols colonnes dans le premier plan obtenu :

Analyse des Données 52


Chapter 2

CA factor map

Dim 2 (10.53%)
3

ltu
hun
slo
tur
2
est
blr
mex
eun
pol
ecu

ita
ger
1 jpn
lat
esp aus
rus
ukr
tch
kaz
fin
nor cze
rsa
sud den
kor
0
alg
mar ken
bdi
eth brn
qat
nzl fra swe
cub
eri can
pan
bra gbr
usa
rou
chn
bah
por ngr
−1 uga
jam
dom
ksa
zam

tri
gre
nam
bar

−2
−2 −1 0 1
Dim 1 (13.85%)

2.4 Relations entre les deux nuages et représentation simultanée


1. les taux d'inertie sont les mêmes pour des axes de même rang dans les deux analyses (prols

lignes et prols colonnes). Ainsi, pour l'axe j du nuage des prol lignes ou pour l'axe j du nuage

des prols colonnes, nous avons toujours l'inertie du nuage projeté sur cet axe qui vaut Ij = λ j ,
λ
et le taux d'inertie de cet axe qui vaut τj = Pp j .
j=1 λj

2. Les deux nuages ont donc la même inertie totale.

3. Les coordonnées des prols colonnes se déduisent des coordonnées précédemment obtenues pour

les prols lignes, et vice-versa, grâce aux formules de transition suivantes (appelées aussi formules

quasi-barycentriques) :

p
1 X fik
lji = p cjk (2.1)
λj k=1 fi.
n
1 X fik
cjk = p lji . (2.2)
λj i=1 f.k

Les formules (3.1) et (3.2) sont fondamentales en AFC pour l'interprétation.


p
La formule (3.1) exprime, au facteur 1/ (λj ) près, que la projection lji du prol ligne i sur l'axe
j est au barycentre des projections cjk des prols colonnes aectés des poids fik /fi. (poids de
colonne k dans le prol ligne i).

Analyse des Données 53


Chapter 2

p
De même, la formule (3.2) exprime, au facteur 1/ (λj ) près, que la projection cjk du prol

colonne k sur l'axe j est au barycentre des projections lji des prols lignes aectés des poids

fik /fk. (poids de ligne i dans le prol colonne k ).

La projection d'un prol sport i sur l'axe j est au quasi-barycentre des projections des prols

pays aectés des poids nik /ni. = nb médailles sport i pays k/nb médailles total sport i.

La projection d'un prol pays k sur l'axe j est au quasi-barycentre des projections des prols

sport aectés des poids nik /n.k = nb médailles sport i pays k/nb médailles total pays k .

Représentation simultanée
Les représentations superposant les graphiques des projections de chacun des nuages sont largement

utilisées en AFC. En eet, bien que les prols lignes et colonnes ne vivent pas dans le même espace,

ils représentent tous deux des objets de même nature, ici des modalités de variables qualitatives. De

plus, les formules quasi-barycentriques permettent d'interpréter les positions relatives des prols lignes

et colonnes :

1. Les éléments de masses élevées attirent le barycentre, donc une ligne i attire d'autant plus une

colonne k que la valeur de fik /f.k est élevée, et vice-versa.

2. On interprète la position d'une ligne par rapport à l'ensemble des colonnes : pour un axe donné

une ligne i sera du même côté que les colonnes auxquelles elle est le plus souvent associée, et du

côté opposé aux colonnes auxquelles elle s'associe peu.

3. Les lignes ou colonnes éloignées du centre de gravité de leur nuage doivent retenir l'attention.

Cependant il faut tout de même être très prudent dans l'interprétation :

1. Les positions relatives de deux prols lignes s'interprètent comme une distance entre ces prols.

Idem pour les prols colonnes.

2. La position d'un prol ligne (resp. colonne) s'interprète par rapport à celles de l'ensemble des

prols colonnes (resp. lignes).

3. Il faut éviter de commenter de simples proximités entre prols sans utiliser les aides à l'interpré-

tation (contributions, qualités).

Exemple olympiades :
Sur le schéma suivant sont représentées les modalités des deux variables dans le même plan factoriel
1 × 2.

Analyse des Données 54


Chapter 2

CA factor map

Dim 2 (10.53%)
3

ltu
hun
slo
tur
2 Disque
est
Marteau
blr
mex
eun
pol
ecu
50km
ita 20km
1 ger jpn
lat
esp aus
rus
ukr
Perche
tch
kaz
fin
Javelot
cze
nor Decathlon
rsa
sud den
kor 800m
Poids
Marathon
0
alg Hauteur
3000mSteeple
mar1500m
5000m
bdi
eth
ken
brn
qat
nzl fra swe
cub
10000m Longueur
eri can
pan
Triple saut
bra 110mH
gbr
usa
rou
4x400m
chn
bah
4x100m
por 400m
400mH
ngr
−1 uga
jam
dom
ksa
zam
200m
100m
tri
gre
nam
bar

−2
−2 −1 0 1
Dim 1 (13.85%)

Sur le schéma suivant sont représentées les modalités des deux variables dans le même plan factoriel
3 × 4.

CA factor map
3
Dim 4 (8.16%)

tch nor
fin
Javelot
2 cze
ltu lat
est kaz

Disque Decathlon
1
sud
ger 800mgbr
den
blr rsa swe
alg rou
Hauteur
bdi
cub
5000m Triple
bah saut
10000m eri
eth ken
Poids
0
110mH
400m
400mH
chn
dom
zamuga
ksa usa mar
3000mSteeple
Marathon
kor
200m 4x400m
por1500m
hun 4x100m
gre jam
Longueur
bra ngr brn
nzl
qat rus
100m
namtri pan fra
barukr
pol
Perche
jpn can esp 50km
Marteau eun
−1
slo
tur ita aus

20km
mex
−2
ecu

−3 −2 −1 0 1 2
Dim 3 (9.23%)

Analyse des Données 55


Chapter 2

2.5 Méthodologie de l'interprétation

2.5.1 Lien avec le test du χ2

L'inertie totale du nuage des prols lignes par rapport à Gl est (résultat identique pour le nuage des

prols colonnes) :

n
X p
X
IG = fi. d2 (i, Gl ) = f.k d2 (k, Gc )
i=1 k=1
p
n X
X (fik − fi. f.k )2
=
fi. f.k
i=1 k=1
n Xp ni. n.k 2
1 X (nik − n.. )
= ni. n.k
n.. n..
i=1 k=1
2
χstat
= .
n..

La valeur de l'inertie est donc un indicateur de la dispersion du nuage autour de son centre de gravité,

soit l'écart entre les données et le modèle d'indépendance entre les deux variables. Ainsi, cette inertie

mesure l'intensité de la liaison entre les deux variables.

Si n.. × IG dépasse le seuil χ2(n1 )(p−1);1−α , on pourra rejeter l'hypothèse nulle d'indépendance.

Généralement deux variables sont indépendantes si les prols de leurs modalités sont similaires aux

prols moyens : l'inertie totale est faible et il n'existe pas de direction privilégiée. Géométriquement,

cela signie que tous les points sont concentrés autour du centre de gravité du nuage suivant une forme

sphérique. L'AFC permet en plus de décrire la dépendance entre lignes et colonnes en cas de rejet de

H0 . L'inertie d'un axe mesure notamment la liaison qu'il met en évidence. Par exemple :

• Pour un axe donné, une inertie proche de 1 indique une dichotomie au niveau des données : on

obtient pour chaque variable deux groupes de modalités séparant le nuage de points en deux

sous-nuages.

• Si les inerties de deux axes sont proches de 1 cela indique un nuage de points séparé en trois

sous-nuages.

• Si les inerties de tous les axes sont proches de 1 cela indique que chaque modalité d'une variable

est en correspondance presque exclusive avec une seule modalité de l'autre variable.

Mais des valeurs propres faibles doivent tout de même être interprétées, car les axes associés peuvent

révéler une structure intéressante plus dicilement perceptible.

Remarque : contrairement à l'ACP, l'inertie totale des nuages dépend des données elles-mêmes, et non

pas que du format des données.

Analyse des Données 56


Chapter 2

Identication des modalités responsables de la non-indépendance :


Le package FactoMineR permet de connaitre pour chaque modalité :

• l'inertie qu'elle a apporté à l'inertie totale du nuage, soit à un facteur près l'inertie qu'elle a

apporté à la statistique de test.

• sa distance à l'origine, c'est à dire sa distance au prol moyen. Cela permet d'identier des

modalités proches ou éloignées du prol moyen.

Exemple olympiades :
Le test du χ2 donne le résultat suivant :

[Link](JO)

Pearson's Chi-squared test

data: JO
X-squared = 2122.2, df = 1311, p-value < 2.2e-16

sum(afc$eig[,1])*sum(JO)

[1] 2122.231

Les inerties et distances des diérents sports sont les suivantes :

afc$row$inertia

[1] 0.3665873 0.2627326 0.1570441 0.3381746 0.1999955 0.3307853 0.2710317


[8] 0.1371306 0.2655781 0.2022409 0.1343366 0.2270635 0.2235213 0.2558297
[15] 0.2317538 0.4647619 0.1590548 0.4179240 0.1351813 0.2224797 0.4093844
[22] 0.1122061 0.1315563 0.2387331

afc$row$inertia/afc$call$[Link]

10000m 100m 110mH 1500m 200m 20km


8.798095 6.305583 3.769059 8.116190 4.799892 7.938847
3000mSteeple 400m 400mH 4x100m 4x400m 5000m
6.504762 3.291134 6.373875 4.853782 3.224079 5.449524
50km 800m Decathlon Disque Hauteur Javelot
5.364511 6.139913 5.562091 11.154286 3.817314 10.030175

Analyse des Données 57


Chapter 2

Longueur Marathon Marteau Perche Poids Triple saut


3.244352 5.339512 9.825226 2.692947 3.157352 5.729595

Les inerties et distances des dix pays les plus médaillés sont les suivantes :

afc$col$inertia[c(57,31,48,23,19,11,36,24,28,43)]

[1] 0.22425474 0.36944444 0.13318713 0.09611111 0.35388889 0.09444444


[7] 0.13222222 0.07888889 0.07129630 0.09444444

(afc$col$inertia/afc$call$[Link])[c(57,31,48,23,19,11,36,24,28,43)]

usa ken rus gbr eth cub mar ger


0.984533 3.800000 2.523546 2.306667 8.493333 2.428571 4.760000 2.840000
jam pol
2.851852 4.250000

2.5.2 Sélection du nombre d'axes à analyser


Nous avons vu que l'inertie de l'axe j est λj et que la capacité de cet axe à représenter les données est

le taux d'inertie (part de l'inertie totale prise en compte par l'axe j) :

λj
τj = Pp .
j=1 λj

1. Critère du coude : on retient les axes avant la décroissance régulière.

2. Critère d'interprétabilité : on continue à interpréter les axes tant qu'ils sont interprétables...

Exemple olympiades :

Analyse des Données 58


Chapter 2

valeurs propres

0.8
0.6
0.4
0.2
0.0

1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23

2.5.3 Contribution absolue


[Link] Dénition

Les contributions absolues permettent de déceler quelles modalités interviennent le plus dans l'élabo-

ration d'un axe.

Pour déterminer le rôle pris par une modalité e dans l'élaboration d'un axe j, on examine la part de

sa contribution à l'inertie de cet axe :

inertie de la projection de la modalité e sur axe j


CT Rj (e) = .
inertie de la projection de l'ensemble du nuage sur axe j

Cette part est souvent exprimée en pourcentage. L'interprétation se fait comme pour l'ACP.

Nuage des prols lignes : La part de la contribution de la modalité i à l'inertie de l'axe j vaut
l2
CT Rj (i) = fi. λjij .

Nuage des prols colonnes : La part de la contribution de la modalité k à l'inertie de l'axe j vaut
c2
CT Rj (k) = f.k λjkj .

Exemple olympiades :
Les contributions des prols lignes (sports) aux quatre premiers axes sont les suivantes (ici extrait pour
les dix premiers sports) :

round(afc$row$contrib,3)[1:10,1:4]

Analyse des Données 59


Chapter 2

Dim 1 Dim 2 Dim 3 Dim 4


10000m 23.850 0.730 0.227 0.058
100m 2.347 9.093 1.267 0.960
110mH 1.795 1.665 1.196 0.025
1500m 11.016 0.229 1.067 0.335
200m 2.612 7.889 1.679 0.388
20km 0.411 7.213 16.677 19.876
3000mSteeple 13.230 0.146 0.123 0.072
400m 1.177 3.639 0.746 0.027
400mH 1.444 4.137 1.265 0.041
4x100m 1.542 2.870 1.204 0.600

Les contributions des prols colonnes (pays) aux quatre premiers axes sont les suivantes (ici extrait
pour les dix pays les plus médaillés) :

round(afc$col$contrib,3)[c(57,31,48,23,19,11,36,24,28,43),1:4]

Dim 1 Dim 2 Dim 3 Dim 4


usa 9.149 11.324 3.675 0.328
ken 31.387 0.559 0.075 0.047
rus 1.048 2.667 13.066 0.763
gbr 2.139 1.798 2.198 3.216
eth 22.072 0.527 0.482 0.050
cub 1.683 0.407 0.313 0.262
mar 12.160 0.260 0.008 0.007
ger 0.063 3.766 2.076 1.480
jam 1.313 3.629 0.637 0.312
pol 0.441 6.314 0.695 1.539

2.5.4 Qualité de représentation (contribution relative)


[Link] Dénition

Les qualités de représentation permettent de déceler sur quel(s) axe(s) une modalité est bien représen-

tée, c'est à dire proche de sa projection.

En AFC la distance utilisée n'est pas la distance euclidienne classique, mais le principe est le même

qu'en ACP (utilisation du cosinus de l'angle entre l'axe et l'élément projeté).

Nuage des prols lignes : La qualité de la représentation de la modalité i sur l'axe j vaut qltj (i) =

Analyse des Données 60


Chapter 2

2
lji Pp  2
1 fik
cos2 θij = 2
d (i,G)
, avec d2 (i, G) = k=1 f.k fi. − f.k .

Nuage des prols colonnes : La qualité de la représentation de la modalité k sur l'axe j vaut qltj (k) =
c2jk Pn  2
1 fik
cos2 θkj = 2
d (k,G)
, avec d2 (k, G) = i=1 fi. f.k − fi. .

Une modalité bien représentée sur un axe signie que l'écart de la modalité au prol moyen est bien

représenté sur cet axe. Si une modalité est mal représentée sur un axe cela ne signie pas nécessairement

qu'on ne doive pas l'utiliser pour l'interprétation, mais cela indique que l'écart de cette modalité au

prol moyen ne se voit bien que sur d'autres axes. En pratique, pour interpréter rapidement un axe à

l'aide de quelques modalités seulement, on utilise les qualités pour ne sélectionner que des modalités

bien représentées sur cet axe.

Exemple olympiades :
Les qualités de représentation des prols lignes (sports) sur les quatre premiers axes sont les suivantes
(ici extrait pour les dix premiers sports) :

round(afc$row$cos2,3)[1:10,1:4]

Dim 1 Dim 2 Dim 3 Dim 4


10000m 0.531 0.012 0.003 0.001
100m 0.073 0.215 0.026 0.018
110mH 0.093 0.066 0.041 0.001
1500m 0.266 0.004 0.017 0.005
200m 0.107 0.245 0.046 0.009
20km 0.010 0.135 0.274 0.289
3000mSteeple 0.399 0.003 0.002 0.001
400m 0.070 0.165 0.030 0.001
400mH 0.044 0.097 0.026 0.001
4x100m 0.062 0.088 0.032 0.014

Les qualités de représentation des prols colonnes (olympiadess) sur les trois premiers axes sont les
suivantes (ici extrait pour les dix plays les plus médaillés) :

round(afc$col$cos2,3)[c(57,31,48,23,19,11,36,24,28,43),1:4]

Dim 1 Dim 2 Dim 3 Dim 4


usa 0.333 0.313 0.089 0.007
ken 0.694 0.009 0.001 0.001
rus 0.064 0.124 0.534 0.028

Analyse des Données 61


Chapter 2

gbr 0.182 0.116 0.124 0.161


eth 0.509 0.009 0.007 0.001
cub 0.146 0.027 0.018 0.013
mar 0.751 0.012 0.000 0.000
ger 0.007 0.296 0.143 0.090
jam 0.150 0.316 0.049 0.021
pol 0.038 0.415 0.040 0.078

Pour une interprétation plus facile, nous pouvons représenter dans des tableaux les éléments ayant les
plus fortes contributions et/ou qualités. Ainsi nous pouvons dégager une interprétation pour chaque
axe, avant de s'intéresser aux plans. Dans cet exemple on a 58 pays pour 24 épreuves. Donc, si tous les
pays avaient la même importance dans la création des axes, leurs contributions seraient de 1/58=1.7%.
De même, si toutes les épreuves avaient la même importance, elles auraient une contribution d'environ
1/24=4.2%. Ci-dessous, des tableaux avec les pays et épreuves ayant des contributions au-dessus des
contributions "moyennes" attendues si tous avaient la même importance. Pour l'axe 1.
Epreuve Contribution Qualité Coord
Pays Contribution Qualité Coord
10000m 23.8 0.53 +
eth 22.1 0.51 -
1500m 11.0 0.27 -
ken 31.4 0.69 -
3000m steeple 13.2 0.40 +
mar 12.2 0.75 -
5000m 17.8 0.64 +
usa 9.1 0.33 +
marathon 6.7 0.24 +

Puis pour les tableaux pour l'axe 2 :


Pays Contribution Qualité Coord

blr 7.2 0.47 +

est 4.2 0.26 +

eun 5.6 0.28 +

ger 3.8 0.30 +

hun 6.9 0.42 + Epreuve Contribution Qualité Coord

ita 2.9 0.27 + 100m 9.1 0.21 -

jam 3.6 0.32 - 200m 7.9 0.24 -

ltu 10.9 0.27 + 20km 7.2 0.14 +

mex 3.6 0.18 + 50km 9.7 0.27 +

nam 3.6 0.19 - disque 25.5 0.34 +

pol 6.3 0.42 + marteau 19.6 0.30 +

rus 2.7 0.12 +

slo 2.1 0.20 +

tri 4.8 0.21 -

tur 2.1 0.20 +

usa 11.3 0.31 -

Analyse des Données 62


Chapter 2

2.5.5 Eet Guttman


On observe cet eet quand un nuage a une forme parabolique sur le premier plan factoriel. Le premier

axe oppose les extrêmes entre eux et le second les extrêmes aux moyens.

Cet eet traduit une redondance des deux variables : toute l'information est quasiment donnée par

le premier facteur. L'examen du second facteur permet d'aner l'interprétation. Cet eet apparaît

généralement lorsque les variables sont ordonnées suivant un gradient (variables continues transformées

en variable nominales par exemple). Il met parfois en évidence une structure triviale qui pourra être

intéressante si la forme parabolique n'est pas parfaite : les points de rupture sont alors intéressants à

analyser.

2.5.6 Modalités supplémentaires ou illustratives


Cela consiste à inclure des modalités dans l'analyse an d'illustrer certains axes ou certains comporte-

ments, mais sans que ces modalités ne participent à l'élaboration des axes (poids nul). On peut avoir

des lignes ou bien des colonnes supplémentaires, correspondant souvent à de nouveaux tableaux de

Analyse des Données 63


Chapter 2

contingence (résultats à d'autres questions que les deux déjà étudiées par exemple).

Une telle modalité est projetée sur les axes factoriels pour voir où elle se situe et pour participer à

l'interprétation de l'axe. A l'instar des modalités analysées, les modalités supplémentaires se calculent

et s'interprètent comme des quasi-barycentres.

Analyse des Données 64


Chapitre 3

Analyse des correspondances multiples (ACM)

Exemple Thé :
Les données viennent du livre de Husson, Lê et Pagès (voir bibliographie). Elles sont issues d'une

enquête sur la perception et la consommation de thé, auprès d'un échantillon de 300 personnes. Dix-

neuf questions concernant la consommation de thé ont été posées :

1. variete : Quelle variété de thé consommez vous le plus souvent ?, thé noir, thé vert ou thé

parfumé.

2. comment : Comment consommez vous le thé le plus souvent ?, pur, avec du citron, avec du lait ou
autre.

3. forme : Sous quelle forme consommez vous le thé ?, en sachet, en vrac ou en sachet et en vrac.

4. sucre : Sucrez vous votre thé ?, oui ou non.

5. lieuachat : Où achetez vous le thé ?, au supermarché (GSM), dans les magasins spécialisés ou

les deux.

6. type : Quel type de thé achetez vous ?, bas de gamme, marque de distributeur, marque connue,

haut de gamme, variable ou ne sait pas.

7. maison, travail, [Link].t, amis, resto, bar : 6 questions concernant le lieu de dégus-
tation du produit, réponse par oui ou non.
8. [Link], gouter, soiree, [Link], [Link], [Link] : 6 questions concer-
nant le moment de dégustation du produit, réponse par oui ou non.
9. frequence : A quelle fréquence buvez vous du thé ?, plus de 2 fois par jour, 1 fois par jour, 3 à 6
fois par semaine, 1 à 2 fois par semaine.

Douze questions concernant la perception du thé ont également été posées, auquel il fallait répondre

par oui ou non :

1. [Link] : Associez vous le thé à l'évasion ou l'exotisme ?


2. spiritualite : Associez vous le thé à la spiritualité ?
3. [Link] : Le thé est-il bon pour la santé ?

65
Chapter 3

4. diuretique : Le thé est-il diurétique ?


5. convivialite : Associez vous le thé à la convivialité ?
6. [Link] : Le thé empêche-t-il l'absorption de fer ?
7. feminin : Le thé est-il féminin ?
8. raffine : Le thé est-il rané ?
9. amaigrissant : Le thé est-il amaigrissant ?
10. excitant : Le thé est-il excitant ?
11. relaxant : Le thé est-il relaxant ?
12. [Link] : Le thé est-il sans eet pour la santé ?
Enn, quatre variables de signalétique ont été récupérées :

1. sexe : F ou H.

2. CSP : la catégorie socio-professionnelle, agriculteur, étudiant, ouvrier, cadre moyen, cadre supé-

rieur, employé, autre actif, non actif

3. age : l'âge.
4. Sport : pratique régulière d'un sport, oui ou non.

Dans le but d'analyser la consommation de thé et d'essayer de l'interpréter à l'aide de la perception du

thé et à l'aide de variables socio-démographiques, nous allons eectuer l'analyse avec seules les variables

de consommation actives, les variables de perception et de signalétique étant considérées illustratives.

Voici un extrait des données :

the <- [Link]("exemples/[Link]",header=TRUE,sep=";")


the[1:15,c(8,13:15,26,27,32)]

travail variete comment sucre feminin raffine sexe


1 [Link] noir pur sucre [Link] [Link] H
2 [Link] noir lait [Link] [Link] [Link] F
3 travail parfume pur [Link] [Link] [Link] F
4 [Link] parfume pur sucre [Link] raffine H
5 [Link] parfume pur [Link] [Link] [Link] H
6 [Link] parfume pur [Link] [Link] [Link] H
7 [Link] parfume pur [Link] [Link] [Link] H
8 [Link] noir lait [Link] feminin raffine F
9 [Link] parfume lait [Link] [Link] raffine H
10 [Link] noir pur [Link] [Link] [Link] H
11 [Link] parfume pur [Link] [Link] [Link] H
12 [Link] parfume pur sucre [Link] [Link] H
13 [Link] parfume lait [Link] [Link] raffine H

Analyse des Données 66


Chapter 3

14 [Link] noir lait sucre [Link] [Link] H


15 [Link] noir lait [Link] feminin raffine H

3.1 Données et notations


3.1.1 Les données
L'ACM permet d'étudier un ensemble de n individus décrits par Q variables (ou questions). Ces

variables peuvent être qualitatives ou quantitatives. L'ACM peut donc s'appliquer à des données d'en-

quête, des sondages d'opinion, ou encore des études typologiques, et est utilisée dans de nombreux

domaines.

Les données peuvent être présentées dans un tableau du type individus × variables (comme en ACP) :
les lignes représentent les individus, et les colonnes les variables.

X1 ... ... Xj ... ... XQ


1
.
.
.
i xij
.
.
.
n

Rappelons que l'ACP ne permet que de traiter un ensemble d'individus décrits par des variables

quantitatives, et ne permet de détecter que des liaisons linéaires entre variables. Il ne serait pas pertinent

de traiter des variables qualitatives avec l'ACP. En eet, si nous disposons d'une variable CSP,, type

d'engrais ou type d'alimentation, il serait faux de considérer le type 4 comme deux fois plus important

que le type 2.

3.1.2 Le tableau disjonctif complet (TDC)


Le tableau des données brutes n'est pas traité tel quel : les variables vont être traitées à travers leurs

modalités (les variables quantitatives sont au préalable découpées en classes). Nous supposons que pour

une variable donnée, un individu possède une et une seule modalité.

Par conséquent, l'ACM n'utilise pas le tableau individus × variables, mais un tableau individus ×
modalités, appelé tableau disjonctif complet (TDC). Ce tableau possède autant de colonnes qu'il y a

de modalités au total sur toutes les variables. Un individu est codé 1 dans les modalités qu'il possède,

et 0 dans les autres. On dit que l'on eectue un codage disjonctif complet (l'information initiale est

transformée, tout individu possède au plus une modalité par variable, et tout individu possède au

moins une modalité par variable).

Analyse des Données 67


Chapter 3

Voici un exemple simple :

ind Q1 Q2 Q3 ind Q1−1 Q1−2 Q1−3 Q2−1 Q2−2 Q3−1 Q3−2 Q3−3 Q3−4
1 1 0 2 1 1 0 0 1 0 0 1 0 0
2 2 1 4 2 0 1 0 0 1 0 0 0 1
3 2 0 4 3 0 1 0 1 0 0 0 0 1
4 3 0 3 4 0 0 1 1 0 0 0 1 0
5 1 0 1 5 1 0 0 1 0 1 0 0 0
6 3 1 2 =⇒ 6 0 0 1 0 1 0 1 0 0
7 2 1 1 7 0 1 0 0 1 1 0 0 0
8 2 0 2 8 0 1 0 1 0 0 1 0 0
9 1 1 3 9 1 0 0 0 1 0 0 1 0

Exemple Thé Un extrait du tableau disjonctif complet est le suivant (variables variete et comment) :
[Link] [Link] [Link] [Link] [Link] [Link] [Link]
1 1 0 0 0 0 0 1
2 1 0 0 0 0 1 0
3 0 1 0 0 0 0 1
4 0 1 0 0 0 0 1
5 0 1 0 0 0 0 1
6 0 1 0 0 0 0 1
7 0 1 0 0 0 0 1
8 1 0 0 0 0 1 0
9 0 1 0 0 0 1 0
10 1 0 0 0 0 0 1

Remarque : pour pouvoir transformer un tableau de type individus × variables en TDC, il faut que

pour chaque variable, un individu ne réponde qu'à une et une seule modalité. Il n'est donc pas possible

d'avoir des variables pour lesquelles plusieurs réponses soient possibles en même temps. (NB : le TDC

est fait automatiquement par R).

Analyse des Données 68


Chapter 3

Notations
• On a n Q variables ou questions.
individus, et

• La variable q possède Jq modalités.

• Le nombre total de modalités est J .

• Le TDC possède n lignes et J colonnes, et est noté Z.


• Le nombre total d'individus possédant une modalité j est noté nj .

Propriétés du TDC
• Il n'est constitué que de 0 et de 1 :

• La somme des éléments d'une même ligne est constante et vaut Q.


• La somme de tous les éléments du tableau vaut nQ.
• La somme des éléments d'une même colonne n'est pas constante (notée n1 , . . .ou nJ ). Mais les

colonnes peuvent être regroupées par paquets (correspondants aux variables) dont la somme est

une colonne composée de 1.

3.2 Objectifs
La problématique de l'ACM s'apparente à celle de l'ACP (tableau individus × variables vs tableau

individus × modalités), mais peut être vue comme une généralisation de celle de l'AFC (étude de la

liaison entre plusieurs variables qualitatives).

Etude des individus Nous pouvons nous demander quels sont les individus qui se ressemblent ?

Pouvons nous dégager une typologie de ces individus ? Comme les individus possèdent certaines moda-

lités, donc appartiennent à certaines classes, pouvons nous dire quelles classes se ressemblent ? Dégager

une typologie de ces classes ?

Nous considérons que deux individus sont proches s'ils possèdent un grand nombre de modalités en

commun.

Etude des modalités Nous pouvons également nous demander quelles sont les modalités qui se

ressemblent, an d'en eectuer une typologie. Si nous considérons une modalité comme une variable

indicatrice dénie sur l'ensemble des individus (soit comme une colonne du TDC), alors nous considère-

rons que deux modalités se ressemblent d'autant plus qu'elles sont présentes ou absentes simultanément

chez un grand nombre d'individus.

Etude des variables Quelles sont les variables qui se ressemblent ? Pouvons nous dégager une typo-

logie des variables ? Cela revient à considérer les liaisons entre variables, en examinant leurs modalités.

Nous pouvons également chercher à résumer l'ensemble des variables qualitatives (les quantitatives

ayant été codées) par un petit nombre de variables quantitatives synthétiques.

Analyse des Données 69


Chapter 3

Résumé Nous allons étudier à la fois les individus, les variables et les modalités. Ces trois types

d'objets doivent être étudiés ensemble, car comme ils proviennent du même tableau de données, il y a

des rapports entre eux qu'il est important de mettre en évidence. En pratique, les interprétations se

font surtout autour de la typologie des modalités. En eet, elle permet d'aborder les associations entre

les diérentes modalités, et donc les liaisons entre les diérentes variables, et elle permet d'étudier les

individus en examinant le comportement moyen de classes d'individus.

3.3 Nuages et inertie


3.3.1 Nuage des individus
L'ensemble des n individus forme un nuage de n points dans l'espace des J modalités.

Coordonnées L'individu i est représenté par les modalités qu'il possède, soit par le prol de la ligne
z f
i du TDC qui ne contient que des 0 et des 1/Q (soit les Qij , analogues aux fiji. dans l'AFC).
Par exemple l'individu 3 a les coordonnées suivantes pour les modalités des variables variete et
comment :

[Link] [Link] [Link] [Link] [Link] [Link] [Link]


3 0 0.05263158 0 0 0 0 0.05263158

Masses L'individu i est aecté de la masse n−1 .

nj
Centre de gravité Le centre de gravité de ce nuage a comme coordonnée
n×Q pour la modalité j
(au coecient Q près, c'est la proportion des individus ayant choisi la modalité j ). C'est un individu

théorique moyen.

Distances entre individus On cherche à savoir quels sont les individus qui se ressemblent. Pour

cela on doit se donner une distance entre individus. Celle-ci doit vérier les contraintes suivantes :

• Deux individus ayant les mêmes modalités doivent être à distance nulle.

• Deux individus ayant de nombreuses modalités en commun doivent être proches.

• Un individu ayant une modalité rare doit être éloigné de ceux n'ayant pas cette modalité (soit

de la majorité des individus).

• Deux individus ayant une même modalité rare doivent être proches.

Analyse des Données 70


Chapter 3

La distance doit donc se baser sur la comparaison de modalités entre individus, et prendre en compte

la rareté ou pas des modalités. Elle est dénie de la façon suivante entre deux individus i et l :

J
X n × Q  zij zlj 2
d2 (i, l) = −
nj Q Q
j=1
J
1 X n
= (zij − zlj )2 .
Q nj
j=1

1. Les termes (zij − zlj )2 valant 0 ou 1, deux individus seront d'autant plus proches qu'ils possèdent

de modalités communes. Plus le nombre de modalités qui dièrent augmente et plus les indi-

vidus sont éloignés. Deux individus distincts mais possédant les mêmes modalités ne sont pas

diérenciés.

2. Plus une modalité est rare et plus elle contribue à éloigner un individu qui la possède des autres

individus ne la possédant pas.

3. Deux individus ayant une même modalité rare ne seront pas éloignés entre eux à cause de cette

modalité.

3.3.2 Nuage des modalités


L'ensemble des J modalités forme un nuage de J points dans l'espace des n individus.

Coordonnées La modalité j est représentée par le prol de la colonne j du TDC, prol qui ne
zij fij
contient que des 0 et des 1/nj (soit les
nj , analogues aux f.j dans l'AFC).

Par exemple les modalités des variables variete et comment ont les coordonnées suivantes sur les 6
premiers individus :
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 0.0135 0.0000 0 0 0 0.0000 0.0051
[2,] 0.0135 0.0000 0 0 0 0.0159 0.0000
[3,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[4,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[5,] 0.0000 0.0052 0 0 0 0.0000 0.0051
[6,] 0.0000 0.0052 0 0 0 0.0000 0.0051

nj
Masses La modalité j est aectée de la masse
n×Q .

Dans notre exemple, un extrait des masses des modalités est :


[Link] moment tt moment maison [Link] [Link] travail
0.034561404 0.018070175 0.051052632 0.001578947 0.037368421 0.015263158
[Link] de t salon de t amis [Link]
0.042456140 0.010175439 0.034385965 0.018245614

Analyse des Données 71


Chapter 3

Centre de gravité Rn formé par les Jq modalités de la


Le centre de gravité du sous-nuage de
1
variable q a comme coordonnée
n sur chacun des individus. Cela correspond à une modalité que tous
les individus auraient choisis.

Les variables ayant toutes le même centre de gravité, on en déduit qu'il est confondu avec celui de
1
l'ensemble du nuage des modalités, qui a donc également comme coordonnées
n.
Plus l'eectif d'une modalité est grand et plus elle est proche du barycentre, tandis qu'une modalité

rare sera toujours éloignée de ce barycentre.

Distances entre modalités On cherche à savoir quelles sont les modalités qui se ressemblent. Pour

cela on doit se donner une distance entre modalités. Celle-ci doit vérier les contraintes suivantes :

• Deux modalités possédées par les mêmes individus doivent être à distance nulle.

• Deux modalités possédées en commun par un grand nombre d'individus doivent être proches.

• Une modalité rare doit être éloigné des autres.

La distance doit donc se baser sur la comparaison d'individus. Elle est dénie de la façon suivante

entre deux modalités j et k :

n z
X ij zik 2
d2 (j, k) = n −
nj nk
i=1
n
= × nb d'individus ayant une seule des 2 modalités j et k.
nj × nk

(en développant et en utilisant le fait que


2 = z ).
zij ij
Les contraintes précedentes sont ainsi bien vériées, et nous voyons de plus que deux modalités d'une

même variable sont obligatoirement éloignées l'une de l'autre.

Pour notre exemple, voici la matrice des distances entre les 10 premières modalités ( [Link],
[Link], gouter, [Link], [Link], soiree, apres dej, [Link] dej, apres diner et
[Link] diner) :

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 0.00 4.01 1.88 1.98 1.57 2.60 7.08 1.04 13.10 1.08
[2,] 4.01 0.00 1.66 2.62 1.47 3.26 6.53 1.32 15.58 1.07
[3,] 1.88 1.66 0.00 4.07 1.37 2.55 6.09 1.03 15.22 0.76
[4,] 1.98 2.62 4.07 0.00 1.72 3.38 7.76 1.35 13.09 1.48
[5,] 1.57 1.47 1.37 1.72 0.00 4.44 6.89 0.60 13.49 0.62
[6,] 2.60 3.26 2.55 3.38 4.44 0.00 6.69 2.26 15.81 1.94
[7,] 7.08 6.53 6.09 7.76 6.89 6.69 0.00 7.99 21.10 5.74
[8,] 1.04 1.32 1.03 1.35 0.60 2.26 7.99 0.00 13.11 0.27
[9,] 13.10 15.58 15.22 13.09 13.49 15.81 21.10 13.11 0.00 15.36
[10,] 1.08 1.07 0.76 1.48 0.62 1.94 5.74 0.27 15.36 0.00

Analyse des Données 72


Chapter 3

3.3.3 Inertie
On considère le nuage des modalités dans Rn de centre de gravité G. Chaque point du nuage (chaque

modalité) intervient dans la forme du nuage et donc dans la construction des axes par l'intermédiaire

de son inertie (dépendant de son éloignement par rapport au centre de gravité d2 (j, G) et de sa masse
nj
n×Q ).

[Link] Inertie d'une modalité

Pour la modalité j, l'inertie ou contribution de la modalité à la variance totale du nuage vaut :

n
nj X  zij 1 2
Imodj = n −
n×Q nj n
i=1
1 nj 
= 1− .
Q n

On en déduit que l'inertie d'une modalité est une fonction décroissante de l'eectif de cette modalité.

Ainsi, une modalité rare aura une inertie et donc une inuence élevée. Une modalité présente dans 1%

de la population aura une inuence presque deux fois plus grande qu'une modalité présente dans 50%

de la population. En pratique il faut donc éviter les modalités à eectifs trop faibles, sinon les premiers

facteurs seront presque exclusivement déterminés par ces modalités.

Exemple Thé Les inerties des modalités maison et [Link], d'eectifs 291 et 9 respectivement,
sont :

[1] 0.001578947 0.051052632

[Link] Inertie totale

En sommant les inerties des modalités on obtient que l'inertie totale du nuage par rapport au centre

de gravité vaut :

J
IG = − 1.
Q

Exemple Thé L'inertie totale du nuage vaut :

Analyse des Données 73


Chapter 3

[1] 1.578947

[Link] Inertie d'une variable

L'inertie d'une variable est égale à la somme des inerties de ses modalités, ce qui donne pour une

variable q :

1
Iq = (Jq − 1).
Q

On en déduit que l'inertie d'une variable est une fonction croissante du nombre de ses modalités.

Ainsi, on pourrait penser pour que toutes les variables aient une inuence relativement égale, il faut

équilibrer le nombre des modalités entre les variables. Cependant, même si une variable a de nombreuses

modalités, elle ne va pas être plus inuente qu'une autre dans la construction des axes. En eet, l'inertie

de la variable q est répartie dans un espace à Jq − 1 dimensions, et plus précisemment l'inertie dans

chacune de ces Jq − 1 directions de ce sous-espace vaut 1/Q.

Exemple Thé Les variables type et maison ayant 6 et 2 modalités respectivement ont les inerties
suivantes :

[1] -0.05263158
[1] -0.05263158

3.4 Ajustement du nuage des individus et du nuage des modalités


Formellement, l'ACM correspond à une AFC appliquée au TDC. Comme en ACP et en AFC, le prin-

cipe est de trouver de nouveaux axes passant par le centre de gravité, orthogonaux entre eux, et sur

lesquels l'inertie projeté des nuages soit maximale (déformation minimale). Ces axes ne véhiculent pas

la même information selon leur rang : leur capacité à résumer le nuage se détériore au fur et à mesure

que l'on observe des axes de rangs élevés.

Notations ajustement nuage des individus :

• u1 , u2 , . . . , uJ sont les vecteurs directeurs des axes factoriels.


• lji est la coordonnée de l'individu i sur l'axe j , et Lj = (lj1 , . . . , ljn ).

Notations ajustement nuage des modalités :

• v1 , v2 , . . . , vn sont les vecteurs directeurs des axes factoriels.


• cjk est la coordonnée de la modalité k sur l'axe j , et Cj = (cj1 , . . . , cjJ ).

Analyse des Données 74


Chapter 3

Exemple Thé :
Les inerties du nuage projeté sur les axes sont les suivantes :

library(FactoMineR)
acm<-MCA(the, [Link]=36, [Link]=c(20:35))
round(acm$eig,3)[1:10,]

eigenvalue percentage of variance cumulative percentage of variance


dim 1 0.148 9.392 9.392
dim 2 0.116 7.335 16.727
dim 3 0.094 5.972 22.699
dim 4 0.078 4.957 27.655
dim 5 0.073 4.635 32.291
dim 6 0.072 4.534 36.824
dim 7 0.067 4.233 41.057
dim 8 0.065 4.106 45.163
dim 9 0.060 3.829 48.992
dim 10 0.059 3.719 52.711

Remarque : comme en AFC, les valeurs propres sont inférieures à 1. En sachant que l'inertie totale
du nuage est de J/Q − 1, cela explique pourquoi les taux d'inertie des axes sont souvent faibles en

ACM et conduisent à une estimation pessimiste de la part d'information expliquée. Par exemple, dans

le cas de 10 variables, il n'est pas rare en ACP d'obtenir 50% de l'inertie totale expliquée par le premier

axe si on a un eet taille. Mais en ACM, si on considère qu'il y a 5 modalités par variables, l'inertie

totale du nuage sera de 4 alors que l'inertie de l'axe 1 ne pourra pas dépasser 1. Ainsi cet axe ne pourra

expliquer au plus que 25% de l'inertie totale, contrairement à 50% en ACP.

Exemple Thé :
Un extrait des coordonnées des individus, des modalités des variables actives, des modalités des variables
supplémentaires qualitatives et des variables supplémentaires quantitatives sur les trois premiers axes
sont :

acm$ind$coord[1:5,1:3]

Dim 1 Dim 2 Dim 3


1 -0.57337702 -0.182154197 -0.3477177
2 -0.38089984 -0.127343836 -0.6037067
3 0.09543429 -0.143244619 0.3032159
4 -0.63433518 0.009307837 0.1405374
5 -0.13844314 -0.100422274 -0.1049410

Analyse des Données 75


Chapter 3

acm$var$coord[1:5,1:3]

Dim 1 Dim 2 Dim 3


[Link] dej -0.2131059 0.203633756 0.5731562
ptt dej 0.2308647 -0.220603235 -0.6209192
gouter 0.3747387 -0.090298706 -0.1223285
[Link] -0.4834416 0.116492223 0.1578130
[Link] -0.1728412 0.007058143 -0.2668969

acm$[Link]$coord[1:5,1:3]

Dim 1 Dim 2 Dim 3


evasion-exotisme 0.008865321 -0.088741108 0.004169216
[Link]-exotisme -0.007967567 0.079754667 -0.003747017
[Link] -0.044719959 0.005415982 -0.071311074
spiritualite 0.098003313 -0.011869067 0.156277460
bon pr la sante 0.003236312 -0.015969154 -0.103380886

acm$[Link]$coord[,1:3]

Dim 1 Dim 2 Dim 3


0.0596157 0.1827943 -0.2937382

On peut représenter le nuage des individus et celui des modalités sur le premier plan factoriel par
exemple :

Analyse des Données 76


Chapter 3

MCA factor map


Dim 2 (7.33%)

202190
168
211 208
195 182
227 31
1.0 229
95
74 100 220
212 53
165
199 272 297
248
222 249
299
261
94
16 287
0.5 191 206 277
10
62 66
209 288 171
271
52
159 148
54 15381 203
110
217 224 35 50 278
15 120
25 196 17 240
113 82161 266241 9 269
205 149 79 40 173 59
24 238255
186 163189 180 23 48
207
262 197102 226
167 213 83 112 87
134 198 93 22
6 4 22338 164 29
34 296 243 253
225 268
0.0 291
178
188 231 27537 8 15157 21 235 56 252 295 283
187 5547
200 154 169 140 162
139 204
45 28420
42 20133
280
156
124
158 117
152 292 214
5 260
65 160 18 64 279
172
244
122
44
193 183 146
194
228
2582 123 128 13568 67 265
218119 30 3 233 127
2371 166 63155 144298
111121 150256
276
7 84
192
13 96
24727
58
185 51 32 133264
300 232 116 14
176 71 73
92109 147 138 246 234 251 259
61
85 263
13249 105170 9190 103
70
257126
137115
12
77177 250
19 281
282 60 136
286
39 72 270
267 273
28536 230
184 175
254 1141
216106
157 143 107
174
114 89 78 101
219
76
97 141 118
181 179
131
242 80 236 108
239 99
104
142 43 245129 221
145 2899869215 28
293 210 130 26
125 274
75
−0.5 8688 46
290 294

−1.0 −0.5 0.0 0.5 1.0 1.5


Dim 1 (9.39%)

Analyse des Données 77


Chapter 3

MCA factor map


Dim 2 (7.33%)

magasin specialise

vrac

t_haut_de_gamme

1
apres diner

vert

noir
1 e 2/sem citron salon de t
[Link] 3 e 6/sem
[Link] tt moment GMS+[Link].
0 [Link] de t soiree + de 2/jour sachet+vrac
[Link] 1/jour amis gouter bar autre
sucre
t_bas_de_gammeGMS parfume ptt dej t_variable
apres dej
t_MDD travail
sachet lait resto
t_marque_connue
t_inconnu

−1

−1 0 1
Dim 1 (9.39%)

Analyse des Données 78


Chapter 3

3.5 Relations entre les deux nuages


1. les taux d'inertie sont les mêmes pour des axes de même rang dans les deux analyses (individus

et modalités).

2. Les deux nuages ont donc la même inertie totale.

3. Les coordonnées des modalités se déduisent des coordonnées précédemment obtenues pour les

individus, et vice-versa, grâce aux formules de transition suivantes (appelées aussi formules quasi-

barycentriques) :

J
1 X zik
lji = p cjk (3.1)
λj k=1 Q
n
1 X zik
cjk = p lji . (3.2)
λj i=1 nk
p
La formule (3.1) exprime, au facteur 1/ (λj ) près, que la projection lji de l'individu
i sur l'axe
j est au barycentre des projections cjk zik /Q.
des modalités aectées des poids
p
De même, la formule (3.2) exprime, au facteur 1/ (λj ) près, que la projection cjk de la modalité
k sur l'axe j est au barycentre des projections lji des individus aectés des poids zik /nk .

Comme zik vaut 1 si l'individu i possède la modalité k et 0 sinon, les formules deviennent

1 X 1
lji = p cjk (3.3)
λj Q
modas possédées par ind i
1 X 1
cjk = p lji . (3.4)
λj nk
ind possédant moda k

p
La formule (3.3) exprime, au facteur 1/ (λj ) près, que la projection lji de l'individu i sur l'axe

j est au barycentre des modalités qu'il possède.


p
De même, la formule (3.4) exprime, au facteur 1/ (λj ) près, que la projection cjk de la modalité

k sur l'axe j est au barycentre des individus qui la possède.

Analyse des Données 79


Chapter 3

Représentation simultanée
Les représentations superposant les graphiques des projections de chacun des nuages sont largement

utilisées en ACM, grâce aux formules quasi-barycentriques qui permettent d'interpréter les positions

relatives des individus et des modalités :

1. Les éléments de masses élevées attirent le barycentre.

2. On interprète la position d'une modalité par rapport à l'ensemble des individus : pour un axe

donné une modalité j sera du même côté que les individus qui la possèdent, et du côté opposé

aux individus qui ne la possède pas.

3. On interprète la position d'un individu par rapport à l'ensemble des modalités d'une variable :

pour un facteur un individu i sera du même côté que les modalités qu'il possède, et du côté

opposé aux modalités qu'il ne possède pas.

4. Les individus ou modalités éloignés du centre de gravité de leur nuage doivent retenir l'attention.

5. Comme en AFC, il faut toujours être prudent dans l'interprétation.

Exemple Thé Sur les schémas suivants sont représentés en simultané les modalités et les individus
dans les plans factoriel 1 × 2 et 2 × 3.
MCA factor map
Dim 2 (7.33%)

magasin specialise

2
vrac

t_haut_de_gamme

211208 202
190
168
195 182
227 31
1 95 229
74 100 220
apres diner
vert 212 53
165
199 272 297
248
222249
299
261
94
16206 287
191 277
10
209 288 148 noir 62
52 171271 66
54 153 81 159 203
1 e 2/sem 217 110citron
2243550 278 salon de t
15 120
25196 269 17240
Pas.ptt113dej82 161 40 266
205 [Link]
[Link] 1492379 24 48
[Link]
189180
241
238e96/sem
3255 17359 207
[Link]
[Link]
262 186
163 226 pur
197
[Link] 102 213
[Link]
[Link] 83
dej 112 tt moment 87
4 38134
6 223 16429 198
296
[Link]
34 243 253 + de22
93225 2/jour268 GMS+[Link].
sachet+vrac
0 275 291
maison
178
188
[Link]
47169
154 231
moment
162 37
8 204 20 151 57 280
33 soiree
21 235 56172252 283
295
187
200 55 140
139
[Link] 117
152 de t 45284 [Link]
201 18
amis
160 diner
gouter 122
44 autre
156
124
158
193166183
146
194
228
258
63 2292
123
144 218 214
565
260
119 30 96 327128
233
58
185
64244
279
135
68 12767 265
237 1232
1/jour 111
116 121
155 sucre
14
298
256
15071276
109
92
784
192
13 147247
138 5132133 264
246234 bar 259
61
t_bas_de_gamme 300
285 7085
126
257 176
263
137
230 132
115
12
77
177
175 49 73
105
250
216
143
90
170 91
19 281
282 286
ptt dej39
60 13672 251
t_variable
103 270
267 273
76184
219
97 36 25411
118
141 41104
157 179 parfume
107
106
174
114
131 8980
78 236 108101239 99
181142293
145 43242
245129 210 98215 travail
289 221 apres
28
GMS
sachet
t_marque_connue 125 69
130
lait88 274 26 resto dej
t_MDD
294
86 46 75
290

t_inconnu

−1

−1 0 1
Dim 1 (9.39%)

Analyse des Données 80


Chapter 3

MCA factor map

Dim 3 (5.97%)
[Link]
2

1 e 2/sem

1 197
92 82 94
47
142 90 apres diner
88 73194
276 117
6865
298 [Link] dej
soiree
292
124
158 3 e 6/sem 208
101264 123
133 252
204 255 54 citron
71 169
sucre 95
108
126
114 280 223 189 266 52 209
apres dej 137 146
118 192284 140
13956 48 277
parfume
130 345
amis moment 191
tt262 74
198
resto 106
107
143 150
11251
265
258 59217
203
t_inconnu 125236
294t_variable147
282
174 259 84295
260
bar 149278110
221
129
289 105116 122 4 87 [Link]
23241 261 53 229 vrac
86 12218
155 160 235
33 134
178 243
253
29 pur
180 25 288 212
travail273 237
121 112 16135 62 magasin specialise
GMS 28281
115
72
144 64 21 296
268 269 272 202
t_MDD 7526
sachet 85
61
185
193201 102 205salon de t 222
226 248
0 [Link] 39 de
210131
141
69
179 286
136
175
[Link] 7732diner
91
70 55t8 [Link]
283 213 238
[Link] 287 220
100 190
t_marque_connue 239
215 170
28513827
109 152
58
maison
7675275
214 sachet+vrac
[Link]
40 240
224 271
dej 31
274245
29343 176228
51
gouter 291 83Pas.resto120148
113 66 211
98
10499 111
157
[Link] moment172 207
186
188 GMS+[Link]. 171 299 227168
230
80103
41
254 233
247 244
135
166
279 249165 t_haut_de_gamme
177 30 34
181
145 216
270
250
26760 119
96 18
20 [Link]
57 93 196 81 vert
184
36
89
78 19 154
187
200 167
163 16 297
290 219 76
97
1/jour
1463 42 +
1 37 16424 de 2/jour
17 159
t_bas_de_gamme 256
234
246
132
49
232 162 173
[Link] 182
257 128 50 10 206 199
38 195
242300 12744 151 225
lait 13156
183
autre231 Pas.amis153
dej 2
ptt 263 22 9
15 noir

−1

−1 0 1 2
Dim 2 (7.33%)

Sur les schémas suivants on s'intéresse aux variables forme, lieuachat, type et sucre sur le premier
plan factoriel. Les points représentent les individus. Une couleur représente une modalité de la variable,
et une ellipse résume la dispersion des individus ayant cette modalité.

Analyse des Données 81


Chapter 3

−0.5 0.0 0.5 1.0

sucre type

1.0

t_haut_de_gamme
0.5

[Link]
sucre t_variable
t_bas_de_gamme 0.0
t_marque_connue
t_MDD
t_inconnu
Dim 2 (7.33%)

−0.5

forme lieuachat

1.0
magasin specialise
vrac

0.5

sachet+vrac GMS+[Link].
0.0
sachet GMS

−0.5

−0.5 0.0 0.5 1.0

Dim 1 (9.39%)

3.6 Lien avec les variables

3.6.1 Barycentre du nuage et des modalités


Nous avons souligné dans la partie 3.3.2 que le barycentre des modalités d'une variable se confond avec

celui de l'ensemble du nuage. La projection sur un axe conserve cette propriété. Par conséquent, les

axes opposent entre elles l'ensemble des modalités, et opposent entre elles les modalités d'une même

variable.

Analyse des Données 82


Chapter 3

3.6.2 Sous-espace engendré par les modalités d'une variable


q est répartie dans un espace à Jq − 1
Nous avons vu dans la partie [Link] que l'inertie de la variable

dimensions, et plus précisemment l'inertie dans chacune de ces Jq − 1 directions de ce sous-espace vaut

1/Q. Nous pouvons en déduire les remarques suivantes :

1. Pour représenter parfaitement les Jq modalités de la variable q , Jq − 1 facteurs sont nécessaires.

2. Même si un facteur est très lié à une variable car regroupe les individus possédant une même

modalité de cette variable, il n'est pas possible qu'il représente bien toutes les modalités de cette

variable (sauf si la variable n'a que deux modalités).

3. Il n'est pas forcément avantageux d'avoir un très grand nombre de modalités pour une variable,

même si on dispose de beaucoup d'individus. En eet, le gain de nesse dont on disposerait

grâce aux nombreuses modalités ne serait pas forcément valorisé dans l'analyse. Si on augmente

le nombre de modalités, on augmente aussi le nombre de facteurs sur lesquels la variable peut

inuer.

4. Pour un axe donné, l'inuence a priori de chaque variable est la même, mais le nombre d'axes

sur lesquels la variable peut inuer est Jq − 1, donc lié au nombre de ses modalités.

3.6.3 Synthèse des variables qualitatives


Un de nos objectifs est de résumer l'ensemble des variables qualitatives (les quantitatives ayant été

codées) par un petit nombre de variables quantitatives synthétiques. Ces variables synthétiques doivent

être des variables résumant le plus possible les variables initiales, ce que font justement les facteurs de

l'ACM. Les variables synthétiques d'intérêt correspondent donc aux facteurs (le premier étant le plus

intéressant, puis le second . . .).

Une propriété importante de ces facteurs est la suivante : le carré du rapport de corrélation entre le

facteur j et une variable q vaut :

2 inertie inter-classes (de variable q)


ηj,q =
inertie totale
Jq
X
= Q inertie de modalité k sur axe j
k=1
Jq
X nk
= Q c2 .
nQ jk
k=1

Voici une illustration d'un rapport de corrélation faible, et une illustration d'un rapport de corrélation

Analyse des Données 83


Chapter 3

élevé.

Exemple Thé les carrés des rapports de corrélation entre l'axe 1 et certaines variables sont donnés

ci-dessous.

dimdesc(acm)$`Dim 1`$quali

R2 [Link]
lieuachat 0.40559080 2.829439e-34
[Link].t 0.34446912 3.677556e-29
forme 0.29153735 5.916547e-23
amis 0.20784876 8.368510e-17
frequence 0.22564823 2.416492e-16
resto 0.20061523 3.298534e-16
gouter 0.18116429 1.245763e-14
type 0.20581238 2.562295e-13
bar 0.15340675 1.938374e-12
travail 0.09855475 2.762038e-08
[Link] 0.08771038 1.732924e-07
convivialite 0.06920966 3.851620e-06
variete 0.07882947 5.064022e-06
comment 0.08421171 9.164436e-06
[Link] 0.05989482 1.814389e-05
soiree 0.05713781 2.867602e-05
[Link] 0.04919861 1.069981e-04
[Link] 0.04751770 1.413900e-04
sexe 0.04122124 4.019010e-04
sucre 0.02554675 5.525256e-03

3.7 Méthodologie de l'interprétation


3.7.1 Sélection du nombre d'axes à analyser
La sélection se fait comme en ACP ou en AFC.

Analyse des Données 84


Chapter 3

Exemple Thé L'ébouli des valeurs propres (inerties) et les premiers taux d'inertie sont les suivants :

Eigenvalues

0.12
0.08
0.04
0.00

dim 1 dim 5 dim 9 dim 13 dim 17 dim 21 dim 25 dim 29

Figure 3.1  Ebouli des valeurs propres

3.7.2 Contribution absolue et qualité de représentation


Le principe de calcul est exactement le même que pour l'ACP et l'AFC. Cependant quelques remarques

spéciques à l'ACM peuvent être faites :

• Les représentations graphiques ne prennent pas en compte les poids. D'où l'importance de

l'examen des contributions et qualités. En particulier, comme les modalités n'ont pas toutes les

mêmes masses, les graphiques ne permettent pas d'en déduire leurs contributions ou qualités.

Concernant les individus, leurs qualités non plus ne se voient pas sur les graphiques, seules leurs

contributions peuvent être visualisées.

• Ce sont les modalités possédant les plus fortes contributions sur un axe qui vont permettre

d'interpréter cet axe.

Cependant ce n'est pas très pratique au niveau de l'interprétation puisque les modalités d'une

même variable sont dissociées. En général il est pratique d'étudier également les contributions

des variables aux axes. La contribution de la variable q est la somme des contributions des

modalités la composant :

Jq
X
CT Rj (q) = CT Rj (k)
k=1
2
ηj,q
= .
Q × λj

Analyse des Données 85


Chapter 3

Ainsi, examiner la contribution d'une variable à un axe revient à examiner son rapport de cor-

rélation avec cet axe. C'est une manière d'interpréter le rapport de corrélation.

• Une très forte contribution doit attirer l'attention. En eet, l'élément correspondant est soit une

erreur dans les données, soit un élément atypique (par son poids ou sa distance). S'il s'avère

que c'est un élément atypique, il faut se poser la question de son maintien dans l'analyse. Dans

le cadre d'une ACM on pense particulièrement aux modalités rares.

• Pour les qualités des modalités, il faut garder à l'esprit que les modalités d'une même variable

sont orthogonales et ne peuvent donc pas être bien représentées simultanément sur un facteur.

Exemple Thé
Les contributions des 10 premiers individus aux trois premiers axes sont les suivantes :

acm$ind$contrib[1:10,1:3]

Dim 1 Dim 2 Dim 3


1 0.73900922 0.0954970536 0.427407855
2 0.32613009 0.0466731873 1.288371371
3 0.02047284 0.0590565731 0.325007288
4 0.90449650 0.0002493499 0.069818870
5 0.04308362 0.0290249652 0.038929535
6 1.21239248 0.0009839359 0.002576126
7 0.01595649 0.0719433275 0.023208984
8 0.15412377 0.0013846282 0.003606553
9 0.08785151 0.0919822884 1.244463495
10 0.26526445 0.5461565027 0.752182881

Les contributions des 10 premières modalités aux trois premiers axes sont les suivantes :

acm$var$contrib[1:10,1:3]

Dim 1 Dim 2 Dim 3


[Link] dej 0.8381679 0.979900879 9.5346766
ptt dej 0.9080153 1.061559286 10.3292330
gouter 2.8077575 0.208741000 0.4705189
[Link] 3.6222215 0.269291825 0.6070053
[Link] 0.6962682 0.001486638 2.6108910
soiree 1.3316974 0.002843375 4.9936459
apres dej 2.6564806 0.823608025 1.0374760

Analyse des Données 86


Chapter 3

[Link] dej 0.4565826 0.141557629 0.1783162


apres diner 1.5684666 2.174495772 1.5863858
[Link] diner 0.1180566 0.163671725 0.1194054

Les qualités des 10 premiers individus sur les trois premiers axes sont les suivantes :

acm$ind$cos2[1:10,1:3]

Dim 1 Dim 2 Dim 3


1 0.160166648 1.616478e-02 0.0589040301
2 0.139445892 1.558619e-02 0.3502968267
3 0.005711028 1.286655e-02 0.0576513552
4 0.280776895 6.045348e-05 0.0137818516
5 0.022718930 1.195378e-02 0.0130537473
6 0.264781734 1.678299e-04 0.0003577603
7 0.007559278 2.661896e-02 0.0069916428
8 0.053958436 3.786000e-04 0.0008029015
9 0.032783848 2.680851e-02 0.2953066046
10 0.080757391 1.298608e-01 0.1456152808

Les qualités des 10 premières modalités sur les trois premiers axes sont les suivantes :

acm$var$cos2[1:10,1:3]

Dim 1 Dim 2 Dim 3


[Link] dej 0.04919861 4.492227e-02 0.35588367
ptt dej 0.04919861 4.492227e-02 0.35588367
gouter 0.18116429 1.051910e-02 0.01930502
[Link] 0.18116429 1.051910e-02 0.01930502
[Link] 0.05713781 9.528179e-05 0.13624360
soiree 0.05713781 9.528179e-05 0.13624360
apres dej 0.08771038 2.123844e-02 0.02178225
[Link] dej 0.08771038 2.123844e-02 0.02178225
apres diner 0.04751770 5.145130e-02 0.03056111
[Link] diner 0.04751770 5.145130e-02 0.03056111

Pour une interprétation plus facile, nous pouvons représenter dans des tableaux les modalités ayant
les plus fortes contributions et/ou qualités. Ainsi nous pouvons dégager une interprétation pour chaque
axe, avant de s'intéresser aux plans. Les individus en tant que tels n'ont pas grand intérêt ici, nous

Analyse des Données 87


Chapter 3

nous restreignons donc aux modalités.


Dans cet exemple on a 49 modalités. Donc, si toutes les modalités avaient la même importance dans la
création des axes, leurs contributions seraient de 1/49=2%. Ci-dessous, des tableaux avec les modalités
ayant des contributions au-dessus des contributions "moyennes" attendues si toutes avaient la même
importance, pour les axes 1 et 2.

Modalité Contribution Qualité Coord

gouter 2.8 0.18 +

[Link] 3.6 0.18 -

travail 2.5 0.10 +

[Link] 2.7 0.09 +

[Link] 2.4 0.34 -

[Link] 9.9 0.34 +

amis 2.6 0.21 +

[Link] 4.8 0.21 -

resto 5.2 0.20 +

bar 4.3 0.15 +

vert 2.4 0.08 -

sachet 4.1 0.27 -

sachet+vrac 6.1 0.25 +

GMS 4.1 0.32 -

GMS+[Link]é 10.3 0.39 +

t_marque_connue 2.5 0.1 -

t_variable 2.9 0.13 +

1/jour 2.6 0.11 -

+2/jour 3.9 0.19 +

Modalité Contribution Qualité Coord

[Link] 2.2 0.05 +

resto 2.1 0.06 -

parfumé 2.2 0.14 -

vert 3.3 0.08 +

sachet 4.2 0.21 -

vrac 19.2 0.48 +

GMS 4 0.25 -

mag_spé 23.5 0.58 +

t_haut_gamme 19.8 0.53 +

t_marque_connue 2.4 0.08 -

Analyse des Données 88


Chapter 3

3.8 Elements supplémentaires


Comme pour l'ACP, on peut avoir des individus supplémentaires, ainsi que des variables supplémen-

taires qualitatives ou quantitatives.

Des individus supplémentaires sont simplement projetés sur les axes construits, de même que les mo-

dalités des variables qualitatives (elles s'interprètent comme des quasi-barycentres).

Concernant les variables quantitatives, elles sont représentées comme en ACP, sur un cercle des corré-

lations (grâce aux coecients de corrélation entre la variable et les facteurs).

L'utilisation des ces éléments supplémentaires et leur interprétation se fait comme pour l'ACP.

Exemple Thé Le graphique suivant représente les modalités des variables qualitatives supplémen-
taires. Il faut penser à examiner les qualités de représentation de ces modalités.

MCA factor map


0.50
Dim 2 (7.33%)

60 et +

cadre moyen

0.25
ouvrier

H non actif
ss effet sante
45−59 raffine absorption fer
25−34 35−44
[Link] pr la sante
[Link]−exotisme
[Link] [Link]
cadre sup
0.00 [Link]

excitant [Link] effet sante


evasion−exotisme F
employe
amaigrissant

−0.25 [Link]

etudiant
15−24

−0.50 −0.25 0.00 0.25 0.50


Dim 1 (9.39%)

Ci-dessous la variable supplémentaire quantitative age est représentée.

Analyse des Données 89


Chapter 3

Supplementary quantitative variables


Dim 2 (7.33%)

1.0

0.5

age

0.0

−0.5

−1.0

−1.0 −0.5 0.0 0.5 1.0


Dim 1 (9.39%)

Analyse des Données 90


Chapter 3

Ci-dessous sont représentées par des couleurs les modalités des variables CSP, relaxant, raffine et
l'âge en classe, ainsi que les ellipses de conance associées.

−0.5 0.0 0.5 1.0

raffine relaxant

1.0

0.5

raffine [Link]
relaxant
[Link] 0.0
Dim 2 (7.33%)

−0.5

age_Q CSP

1.0

0.5

60 et + cadre moyen
45−59
25−34
35−44 ouvrier
non actifsup
cadre
autre actif
0.0 employe
etudiant
15−24

−0.5

−0.5 0.0 0.5 1.0

Dim 1 (9.39%)

3.9 Codage des variables


C'est une phase préliminaire fondamentale. Tout d'abord en ce qui concerne les variables quantitatives,

qui doivent être codées en classes. Mais également pour les variables qualitatives, pour lesquelles des

regroupements doivent parfois être eectués.

Analyse des Données 91


Chapter 3

3.9.1 Variable qualitatives et quantitatives : choix du nombre de classes


Le nombre de classes d'une variable ne doit être ni trop grand, ni trop faible (en pratique entre 3 et 5,

2 si la variable s'y prête) :

• Si on ne prend pas assez de classes, on risque de regrouper ensemble des individus assez diérents,

surtout dans le cas de variables quantitatives. On perd dans ce cas beaucoup d'information.

• Si on augmente trop le nombre de classes, on risque d'obtenir des modalités d'eectifs trop

faibles, ce qui n'est pas satisfaisant (l'inertie de ces modalités seront très élevées).

• Même si le nombre d'individus est très important, il ne faut pas trop multiplier le nombre

de classes. En eet, si on augmente le nombre de modalités, on augmente aussi le nombre de

facteurs sur lesquels la variable peut inuer.

3.9.2 Variable quantitative : choix des classes


Il faut au maximum essayer d'avoir des bornes pertinentes pour dénir les classes. Une bonne connais-

sance ou expertise du domaine étudié est donc nécessaire. A défaut de connaissance et en dernier

recours, on découpera la variable en classes d'eectifs égaux. Cela peut alors donner des classes non

pertinentes.

3.9.3 Variable qualitative : choix des classes


On dispose déjà de classes. Cependant des regroupements doivent être eectués si les classes initiales

ont des eectifs trop faibles ou déséquilibrés.

3.9.4 Intérêt de transformer une variable quantitative en qualitative


• Pour certains jeux de données constitués de variables quantitatives et pour lesquels l'ACP appa-

raît comme méthode d'analyse naturelle, on peut vouloir transformer ces variables en variables

qualitatives an d'eectuer une ACM. Parce que l'ACM pourra alors mettre en évidence, si

elles existent, des liaisons non linéaires entre les variables. Alors que l'ACP ne peut mettre en

évidence que des liaisons linéaires.

• On pourra plus facilement étudier une variable dont la distribution est irrégulière, avec quelques

valeurs extrêmes par exemple. Ces valeurs inueraient grandement un coecient de corrélation

linéaire, tandis qu'un codage en classes les neutralise.

• Lorsqu'on dispose à la fois de données quantitatives et qualitatives, coder les quantitatives en

classes permet d'homogénéiser nos données et justement d'appliquer une ACM. . .

Analyse des Données 92


Chapitre 4

Classification ascendante hiérarchique (CAH)

L'objectif d'une classication est de répartir les éléments d'un ensemble en groupes, soit d'établir une

partition. Chaque groupe doit être le plus homogène possible, et les groupes doivent être les plus

diérents possible entre eux. Il existe deux types d'approches pour eectuer une classication :

Non hiérarchique, partitionnement Groupements par recherche directe d'une partition.

Hiérarchique Groupements par agglomération progressive des éléments deux à deux. Plusieurs cri-
tères d'aggrégation peuvent être utilisés. Dans la suite nous développons la méthode de Classi-

cation Ascendante Hiérarchique.

4.1 Dénitions
4.1.1 Partition
Soit E un ensemble ni d'objets : E = {e1 , e2 , . . . , en }. Une partie de E est un sous-ensemble

{a1 , a2 , . . . , ap } ⊆ E . L'ensemble des parties de E est noté P (E) et contient 2n parties.

Exemple : Les parties de {a, b, c, d} sont : ∅, {a}, {b}, {c}, {d}, {a, b}, {a, c}, {a, d}, {b, c}, {b, d}, {c, d},
{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, {a, b, c, d}.

Une partition de E est un sous-ensemble de parties non vides de E deux à deux disjointes dont la

réunion fait l'ensemble :


(
i ̸= j ⇒ Ei ∩ Ej = ∅
{E1 , E2 , . . . , EK } partition de E ⇐⇒
E1 ∪ E2 . . . ∪ EK = E.

En pratique, une partition équivaut à une variable qualitative dénie sur les éléments de l'ensemble.

93
Chapter 4

Exemple : {a, e, f, g}, {b}, {c, d}


n o
partition de {a, b, c, d, e, f, g}.

4.1.2 Hiérarchie de parties


Une hiérarchie de parties de E est un ensemble de parties ayant quatre propriétés :

1. La partie vide en fait partie.

2. Les parties réduites à un seul élément en font partie.

3. L'ensemble E en fait partie.

4. Si E1 et E2 en font partie, alors E1 ∩ E2 ∈ {∅, E1 , E2 }. C'est à dire :

 Soit E1 et E2 sont disjoints : E1 ∩ E2 = ∅.


 Soit E1 contient E2 : E2 ⊆ E1 .
 Soit E2 contient E1 : E1 ⊆ E2 .

Exemple
n
: Soit E = {a, b, c, d, e}.
o
H = ∅, {a}, {b}, {c}, {d}, {e}, {a, b}, {c, d}, {a, b, c, d}, {a, b, c, d, e} est une hiérarchie de E . On peut
la représenter sous la forme d'un arbre binaire.

0.8 9
{a,b,c,d,e}
0.7 8
{a,b,c,d}
indice

0.3 7
{c,d}
0.2 6
{a,b}

0 1 2 3 4 5

a b c d e

éléments terminaux

Une hiérarchie indicée ou valuée est telle qu'à toute partie h de la hiérarchie est associée une valeur
numérique v(h) ≥ 0 (application de H ∗
dans R ), avec la propriété suivante :

∀h1 , h2 ∈ H, h1 ⊂ h2 ⇒ v(h1 ) < v(h2 ).

Analyse des Données 94


Chapter 4

v(h) est l'indice, ou niveau d'aggrégation, ou diamètre de h.

Exemple : v({a, b}) = 0.2, v({c, d}) = 0.3, v({a, b, c, d}) = 0.7, v({E}) = 0.8. On obtient alors un arbre
valué appelé dendogramme.

4.1.3 Distance
[Link] Dénition

Une distance d dénie sur E est une application de E ×E dans R+ telle que ∀x, y ∈ E × E , ∀z ∈ E :

1. d(x, y) = 0 ⇐⇒ x = y .
2. d(x, y) = d(y, x).
3. d(x, z) ≤ d(x, y) + d(y, z).
4. La distance est ultra-métrique si d(x, z) ≤ max{d(x, y), d(y, z)}.

Il existe une multitude de distances entre objets :


Pp
• Euclidienne : d2 (x, y) = i=1 (xi − yi )2 .
• Du χ2 , entre deux prols, voir l'AFC.

• Distances écologiques, morphométriques, génétiques.

[Link] Distance entre groupes, parties (critère d'agrégation)

Le principe d'une CAH est de grouper deux à deux des parties. Les parties les plus proches entre elles

doivent être groupées. Nous avons donc besoin d'une distance entre parties.

Les distances précédemment citées sont des distances entre objets. Il est donc nécessaire de construire

une distance entre classes d'objets. Cette construction n'est pas unique, on va présenter quelques

exemples parmi les plus utilisés. L'espace contenant les objets à classer est muni d'une distance entre

objets notée d, et nous noterons D la distance entre parties, classes d'objets.

Distance single linkage (saut minimal)


Soit x, y, z trois objets, x et y étant regroupés en une classe {x, y}.
 
D({x, y}, z) = min d(x, z), d(y, z) . (4.1)

Formule de récurrence : Pour calculer de nouvelles distances à partir de distances entre sous-parties,

avec j et k les sous-parties à grouper et q un élément quelconque :

 
D(j ∪ k, q) = min D(j, q), D(k, q)
1 1 1
= D(j, q) + D(k, q) − D(j, q) − D(k, q) . (4.2)
2 2 2

Analyse des Données 95


Chapter 4

Distance complete linkage (saut maximal, diamètre)


 
D({x, y}, z) = max d(x, z), d(y, z) . (4.3)

Formule de récurrence :

 
D(j ∪ k, q) = max D(j, q), D(k, q)
1 1 1
= D(j, q) + D(k, q) + D(j, q) − D(k, q) .
2 2 2

Distance average linkage (group average)

d(x, z) + d(y, z)
D({x, y}, z) = . (4.4)
2

Formule de récurrence :
nj D(j, q) + nk D(k, q)
D(j ∪ k, q) = . (4.5)
nj + nk

Distance de Ward
Soit deux classes j et k, de masses mj et mk , et de barycentres gj et gk .
mj mk 2
DW (j, k) = d (gj , gk ). (4.6)
mj + mk

Formule de récurrence :

1 h i
D(j ∪ k, q) = (mj + mq )DW (j, q) + (mk + mq )DW (k, q) − mq DW (j, k) . (4.7)
mj + mk + mq

4.2 Algorithme général


Etape 1 On a n objets (éléments) à classer. On a une partition P0 à n classes.

Etape 2 On choisit un critère d'agrégation. On construit la matrice de distance entre les n éléments,

et on cherche les deux plus proches. On les agrège en un nouvel élément.

On a alors une partition P1 à n−1 classes.

Etape 3 On construit une nouvelle matrice des distances entre les n−1 éléments (n −2 distances à

calculer). On agrège les deux éléments les plus proches.

On a alors une partition P2 à n−2 classes.

Etape m On calcule les nouvelles distances, on agrège les deux éléments les plus proches.
On a alors une partition Pm à n − m classes. On réitère jusqu'à n'avoir plus qu'un élément re-

groupant tous les objets. Il y a n − 1 étapes en tout.

Analyse des Données 96


Chapter 4

Exemple Pour construire l'arbre de la partie 4.1.2 pour l'ensemble E = {a, b, c, d, e}, nous avons

supposé les distances suivantes entre les éléments pris deux à deux :
a b c d e
a 0 0.2 1 0.7 1

b 0 1.05 0.75 0.8

c 0 0.3 1.5

d 0 1.3

e 0

La procédure correspondant à l'arbre est la suivante :

a c a c a c a c a c
b b b b b
d d d d d
e e e e e

Eectuons les calculs avec le critère d'aggrégation single linkage.

Etape 1 On considère E = {a, b, c, d, e}.

Etape 2 On a la matrice des distances suivante :

a b c d e
a 0 0.2 1 0.7 1

b 0 1.05 0.75 0.8

c 0 0.3 1.5

d 0 1.3

e 0

Analyse des Données 97


Chapter 4

Etape 3 On calcule :

{a, b} c d e
{a, b} 0 1 0.7 0.8

c 0 0.3 1.5

d 0 1.3

e 0

Etape 4 On calcule :

{a, b} {c, d} e
{a, b} 0 0.7 0.8

{c, d} 0 1.3

e 0

Etape 5 On calcule :

{a, b, c, d} e
{a, b, c, d} 0 0.8

e 0

Remarque sur cet exemple Si nous eectuons une CAH avec un autre critère d'agrégation, la

hiérarchie obtenue sera diérente. Pour l'exemple précédent mais avec le critère complete linkage, on

obtient :

Analyse des Données 98


Chapter 4

1.5 9
{a,b,c,d,e}

1 8
{a,b,e}
indice

0.3 7
6 {c,d}
0.2
{a,b}

0 1 2 3 4 5

a b e c d

éléments terminaux

4.3 CAH avec critère de Ward


C'est une stratégie d'agrégation fondée sur l'inertie (ou variance), qui est naturelle lorsque l'agrégation

est eectuée après une analyse factorielle (les objets à classer sont repérés par leurs coordonnées sur

les premiers axes factoriels).

4.3.1 Notations
• On considère les n objets à classer comme un nuage de points. Ces objets appartiennent à Rp
qui est muni d'une distance entre objets d.
Pn
• Chaque objet i est assorti d'une masse mi , avec i=1 mi = m.

• Le barycentre du nuage est g. Soit xi le ième objet de coordonnées (xi1 , xi2 , . . . , xip ), on a

n
1 X
g= mi xi .
m
i=1

• S'il existe une partition de l'ensemble des objets en Q classes, la q ème classe Cq a pour masse
P
mq = i∈q mi , et pour barycentre

1 X
gq = m i xi .
mq
i∈Cq

Analyse des Données 99


Chapter 4

• L'inertie totale du nuage par rapport à g est

n
X
Ig = mi d2 (xi , g).
i=1

4.3.2 Principe
La relation de Huygens décompose l'inertie totale en inerties intra-classes et inter-classes :

Q
X Q X
X
Ig = mq d2 (gq , g) + mi d2 (xi , gq ).
q=1 q=1 i∈Cq

Les inerties intra et inter-classes sont des indicateurs de la qualité d'une partition.

Bonne partition il y a homogénéité à l'intérieur des classes, et les diérentes classes sont bien dié-
renciées =⇒ inertie intra-classes faible et inertie inter-classes importante.

Mauvaise partition Hétérogénéité à l'intérieur des classes, les diérentes classes sont mal diéren-
ciées =⇒ inertie intra-classes importante et inertie inter-classes faible.

Quand on groupe deux classes, l'inertie intra-classes augmente et l'inertie inter-classes diminue. No-

Analyse des Données 100


Chapter 4

tamment, à l'étape 1 de la CAH nous avons Iintra = 0 et Iinter = Ig , et à l'étape n−1 nous avons

Iintra = Ig et Iinter = 0.
A chaque étape l'idée va être de faire le groupement de deux classes qui entraine le plus faible gain

d'inertie intra-classes (et donc la plus faible perte d'inertie inter-classes).

4.3.3 La stratégie de Ward


Considérons la partition Pq+1 obtenue en fusionnant les éléments j et k de la partition Pq précédente.

La perte d'inertie inter-classes dûe à la fusion de j et k vaut :

mj mk 2
DW (j, k) = d (gj , gk ).
mj + mk

Nous construisons donc une hiérarchie indicée en prenant comme distance entre parties la perte d'inertie

inter-classes, voir la formule (4.6).

Pour calculer de nouvelles distances à partir de distances entre sous-parties, on utilise la formule (4.7).

Exemple Nous reprenons l'exemple précédent, avec ma = mb = mc = md = me = 1/5.

Etape 1 On considère E = {a, b, c, d, e}.

Etape 2 On a la matrice des distances suivante :

a b c d e
a 0 0.004 0.1 0.049 0.1

b 0 0.11 0.056 0.69

c 0 0.009 0.225

d 0 0.169

e 0

Etape 3 On calcule :

{a, b} c d e
{a, b} 0 0.139 0.0687 0.525

c 0 0.009 0.225

d 0 0.169

e 0

Analyse des Données 101


Chapter 4

Etape 4 On calcule :

{a, b} {c, d} e
{a, b} 0 0.1513 0.525

{c, d} 0 0.2597

e 0

Etape 5 On calcule :

{a, b, c, d} e
{a, b, c, d} 0 0.4406

e 0

9
0.4406
{a,b,c,d,e}
indice

8
0.1513
{a,b,c,d}

{a,b} 6 {c,d} 7
0 1 2 3 4 5
a b c d e

éléments terminaux

Etape Classe Réunion indice d'agrégation


2 6 {a}, {b} 0.004
3 7 {c}, {d} 0.009
4 8 {a, b}, {c, d} 0.1513
5 9 {a, b, c, d}, {e} 0.4406

Analyse des Données 102


Chapter 4

4.4 Couper l'arbre


Pour obtenir une partition il sut de couper l'arbre par une droite. Le problème qui se pose est celui

du choix du niveau de coupure.

0.8 9
{a,b,c,d,e}
c1
0.7 8
{a,b,c,d}

c2
indice

0.3 7
{c,d}
c3
0.2 6
{a,b}

0 1 2 3 4 5

a b c d e

éléments terminaux

Nous avons :n o
• P1 = {a, b, c, d}, {e} .
n o
• P2 = {a, b}, {c, d}, {e} .
n o
• P3 = {a, b}, {c}, {, d}, {e} .

De manière générale la coupure doit être faite :

1. Après les agrégations correspondant à des indices trop faibles, qui regroupent les éléments les

plus proches les uns des autres.

2. Avant les agrégations correspondant à des indices trop hauts, qui dissocient les groupes bien

distincts de la population.

Saut important : il faut couper les branches de l'arbre lorsqu'elles sont longues (Volle, 1997).

Cela correspond à un saut important d'indice. On peut alors espérer obtenir une partition de bonne

qualité car les individus regroupés auparavant sont proches, et ceux regroupés après la coupure de

l'arbre sont beaucoup plus éloignés. Dans l'exemple précedent cela correspond à P2 . Mais ce n'est pas

toujours aussi clair en pratique !

Analyse des Données 103


Chapter 4

Procédure de consolidation par réaectation : la CAH ne fournit pas des partitions optimales.

Mais la partition obtenue après coupure de l'arbre peut être améliorée, avec la méthode des centres

mobiles :

1. Pour la partition obtenue après coupure, calculer les barycentres de chaque classe, et les distances

de chacun des objets à chacun des barycentres. Aecter chacun des objets au barycentre dont il

est le plus proche.

2. Nous avons de nouvelles classes dont on calcule les barycentres. De nouveau, aecter chacun des

objets au barycentre dont il est le plus proche.

3. Après un certain nombre d'itérations, il n'y a plus de réaectations. Alors arrêter la procédure.

Ou bien l'arrêter lorsque l'inertie cesse de diminuer de façon sensible entre chaque réaectation.

Remarques :
• On n'est pas assuré d'avoir une partition optimale, mais on s'en approche.

• Les diérentes partitions ne sont plus emboitées.

4.5 Aides à l'interprétation


4.5.1 Valeurs test
Le principe est de comparer des moyennes ou pourcentages à l'intérieur des classes avec les moyennes

ou proportions obtenues sur l'ensemble des éléments à classer (ce qui équivaut à comparer les moyennes

dans et hors d'une classe).

Pour sélectionner les variables quantitatives ou les modalités caractéristiques de chaque classe, on me-

sure l'écart entre les valeurs relatives à la classe et les valeurs globales =⇒ on utilise des statistiques

ou valeurs tests mesurant ces écarts.

On peut faire le même raisonnement pour des variables supplémentaires qui n'ont pas servi à la

construction des classes.

[Link] Valeurs test pour variables quantitatives

Soit X̄k la moyenne d'une variable X dans la classe k , X̄ la moyenne globale de X , et s2 (X) la variance
2
empirique globale de X . Soit sk (X) la variance empirique de X̄k (variance d'une moyenne dans le cas

d'un tirage sans remise de nk objets parmi n) :

n − nk s2 (X)
s2k (X) = .
n − 1 nk

La valeur test de la classe k pour X est dénie par :

X̄k − X̄
Tk (X) = .
sk (X)

Interprétation pour des variables supplémentaires :

Analyse des Données 104


Chapter 4

On veut tester l'hypothèse nulle suivant laquelle la variables X n'est pas caractéristique de la classe

k, soit que la moyenne de X dans cette classe est identique est celle de X pour l'ensemble des objets.

Sous cette hypothèse nous avons Tk (X) ∼ N (0, 1).


Plus la valeur test a une valeur absolue élevée, et plus on est amené à rejeter l'hypothèse nulle, donc

on admet que la variable X est caractéristique de la classe.

Interprétation pour des variables actives :


On ne peut plus stipuler l'indépendance entre les classes et une variable active, donc le raisonnement

précédent n'est pas licite. Mais on peut utiliser les valeurs test pour obtenir un classement des variables

en vue de caractériser chaque classe.

[Link] Valeurs test pour variables qualitatives

La démarche est identique à celle des variables quantitatives, mais avec des proportions pour chacune

des modalités, et non plus des moyennes.


nkj nj
Une modalité j sera considérée comme caractéristique d'une classe k si
nk ≫ n.

4.5.2 Excentricité des classes


Il faut observer l'éloignement d'une classe par rapport au barycentre du nuage. Si une classe est très

éloignée du barycentre, il faut identier les variables responsables de cet éloignement.

4.6 Complémentarité entre analyse factorielle et classication


Les techniques de classication peuvent compléter et nuancer les résultats des analyses factorielles,

pour la compréhension de la structure des données et l'interprétation. C'est particulièrement utile

pour des données de grandes tailles.

En général, lorsqu'une CAH avec distance de Ward est eectuée après une ACP, une AFC ou une

ACM, on obtient des classes assez bien diérenciées sur les premiers plans factoriels.

4.6.1 Mise en oeuvre pratique


Analyse factorielle Etape préalable à la classication, car permet de décrire et de ltrer. En eet,
on va ensuite travailler sur moins d'axes factoriels qu'on n'avait de variables au départ.

Classication à partir des facteurs On décide de conserver les q premiers axes factoriels. En gé-

néral q ≪ p, donc cela permet d'éliminer les uctuations aléatoires qui constituent en général

l'essentiel de la variance receuillie dans les p−q derniers axes. On obtient en général des classes

plus homogènes. Mais attention, il faut retenir assez d'axes !

Description automatique des classes A l'aide des valeurs test. Pour chaque classe on peut ranger
les variables/modalités par ordre d'intérêt.

Analyse des Données 105


Chapter 4

Positionnement des classes dans le plan factoriel Il est intéressant pour l'interprétation de pro-
jeter les centres de gravité des classes sur les plans factoriels. Ou bien encore d'éditer des plans

factoriels sur lesquels on visualise les classes auxquelles appartiennent les objets. On peut ainsi

apprécier la dispersion et l'homogénéité des classes dans ces plans.

4.6.2 Remarques
1. La coupure d'un arbre en deux classes correspond très souvent au phénomène mis en évidence

sur le premier axe factoriel.

2. La présence de classes réduites à un seul élément dans le haut d'un arbre dénote souvent un

élément particulier probablement déjà mis en évidence par l'analyse factorielle.

4.7 Exemple Sauvignon


Nous reprenons l'exemple du cours sur l'ACP. Nous eectuons une CAH sur les trois premiers axes

obtenus par l'ACP, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir

trois groupes.

3.0
2.0
Hierarchical clustering

1.0
0.0

Dendogramme avec groupes obtenus


inertia gain
3
2
Height

1
0

10

14

15

11

12

13

17

16

19

22

25

21

24

20

23

18

Nous pouvons également représenter les individus dans le premier plan factoriel ainsi que leurs classes

d'appartenance.

Analyse des Données 106


Chapter 4

Individus dans le premier plan factoriel PCA graph of variables

1.0
cluster 1
cluster 2
Complexity
2

cluster 3 17 19
16

0.5
20 25
1

15
Dim 2 (21.13%)

Dim 2 (21.13%)
23 22
14 13 18 X4MMP Fruit
7
5 21
0

12

0.0
11
6 8 24
2
−1

10 X3MHA
X3MH

−0.5
4 Strength
−2

1
9 3

−1.0
−3

−2 0 2 4 −1.0 −0.5 0.0 0.5 1.0

Dim 1 (72.23%) Dim 1 (72.23%)

Nous pouvons représenter à la fois les individus dans le premier plan factoriel et le dendogramme :

Individus dans le premier plan factoriel et dendogramme

cluster 1
cluster 2
cluster 3
4
3
height

Dim 2 (21.13%)

2
17 19
16 1
20 25
1

15 14 2318 22
13 0
7
12 5 21
11
6 8 2 24 −1
10
4 −2
1
9 3
−3
0

−4 −3 −2 −1 0 1 2 3 4

Dim 1 (72.23%)

Nous pouvons décrire les classes à l'aide de la variable supplémentaires qualitative :

Analyse des Données 107


Chapter 4

reshcpc$[Link]$category

$`1`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=mixed Sc/Hu 100 50 20 0.004743083 2.823983
Cultures=mixed Sc/Cz 100 50 20 0.004743083 2.823983

$`2`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=mixed Sc/Pk 100 41.66667 20 0.01490683 2.434635
Cultures=mixed Sc/Mp 100 41.66667 20 0.01490683 2.434635
Cultures=mixed Sc/Hu 0 0.00000 20 0.02422360 -2.253564
Cultures=mixed Sc/Cz 0 0.00000 20 0.02422360 -2.253564

$`3`
Cla/Mod Mod/Cla Global [Link] [Link]
Cultures=pure Sc 60 100 20 0.004347826 2.851757

Nous pouvons décrire les classes à l'aide des variables quantitatives :

reshcpc$[Link]$quanti

$`1`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
Complexity -3.099285 5.200 5.852 0.7874008 0.8414844 1.939883e-03
Strength -3.766626 3.530 5.192 0.8246818 1.7649748 1.654686e-04
X3MH -3.833526 1006.343 1484.806 226.1468692 499.2411121 1.263196e-04
X3MHA -3.846088 233.750 351.108 51.2764127 122.0543942 1.200184e-04
X4MMP -4.257296 36.690 44.092 1.8912694 6.9546485 2.069140e-05
Fruit -4.262681 5.240 6.284 0.2870540 0.9796652 2.019892e-05

$`2`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
X4MMP 4.286066 50.425000 44.092 3.4149488 6.9546485 1.818649e-05
Fruit 4.280796 7.175000 6.284 0.4639055 0.9796652 1.862257e-05
Complexity 3.577933 6.491667 5.852 0.3661929 0.8414844 3.463220e-04
X3MHA 2.134798 406.466667 351.108 79.8041074 122.0543942 3.277752e-02
X3MH 2.072668 1704.650833 1484.806 321.2052542 499.2411121 3.820321e-02

$`3`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
Strength 2.775652 7.9000 5.192 0.5715476 1.764975 0.005509109
X3MH 2.592713 2200.3067 1484.806 159.6572446 499.241112 0.009522233
X3MHA 2.516132 520.8667 351.108 54.0272359 122.054394 0.011865069

Analyse des Données 108


Chapter 4

Nous pouvons les décrire à l'aide des individus : individus les plus proches du centre de leur classe :

reshcpc$[Link]$para

Cluster: 1
6 12 7 11 14
0.7280773 0.7892578 0.9414319 0.9677672 1.1233066
---------------------------------------------------------------------------
Cluster: 2
23 20 18 5 22
0.3615827 0.5608205 0.6807076 0.8176794 1.1453556
---------------------------------------------------------------------------
Cluster: 3
3 4 1
0.4258471 0.7710827 0.9971683

Et à l'aide des individus les plus éloignés des centres des autres classes :

reshcpc$[Link]$dist

Cluster: 1
10 15 7 6 12
4.713576 4.647622 4.600164 4.442170 4.252048
---------------------------------------------------------------------------
Cluster: 2
19 25 17 16 20
3.466729 3.216469 3.199773 3.197765 2.992373
---------------------------------------------------------------------------
Cluster: 3
3 1 4
2.867597 2.867553 2.282722

4.8 Exemple olympiades


Nous reprenons l'exemple du cours sur l'AFC. Nous eectuons une CAH sur les cinq premiers axes

obtenus par l'AFC, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir six

groupes.

Analyse des Données 109


Chapter 4

0.6
0.4
Arbre avec groupes obtenus

0.2
0.0
Cluster Dendrogram
inertia gain
0.6
0.4
Height

0.2
0.0

Marathon
10000m
5000m
3000mSteeple
1500m
800m
Disque
Marteau
20km
50km
Javelot
100m
200m
4x100m
400m
400mH
4x400m
Longueur
110mH
Perche
Poids
Decathlon
Hauteur
Triple saut

Nous pouvons représenter les lignes dans le premier plan factoriel ainsi que leurs classes d'appartenance.

Analyse des Données 110


Chapter 4

Lignes (sports), le premier plan factoriel CA factor map

3
cluster 1 ltu
Disque hun
2

cluster 2 slo
tur
cluster 3 Marteau
est

2
cluster 4 blr
cluster 5 50km mex
eun
pol
ecu
20km
Dim 2 (10.53%)

Dim 2 (10.53%)
cluster 6
1

itajpn
ger lat

1
aus
esp rusukr
Perche tch
kaz
fin
cze
Decathlon rsa nor
800m Javelot sudden
koralg
bdi
marken
brn
qat
nzl fra swe cub
Marathon Hauteur Poids erieth
0

0
3000mSteeple can
Longueur bra pangbr
usa
rou
por chn
5000m 1500m bah
10000m Triple saut 110mH ngr
uga
4x100m 4x400m
jam
dom
zam
ksa

−1
400m 400mH tri
gre
nam
bar
−1

100m 200m

−2
−3 −2 −1 0 1 −4 −3 −2 −1 0 1 2

Dim 1 (13.85%) Dim 1 (13.85%)

Voici les descriptions des groupes 1, 5 et 6 :

cah$[Link]$`1`

Intern % glob % Intern freq Glob freq [Link] [Link]


ken 37.777778 9.722222 34 35 7.419848e-22 9.607685
eth 16.666667 4.166667 15 15 7.281511e-10 6.159847
mar 11.111111 2.777778 10 10 1.288201e-06 4.841566
cub 0.000000 3.888889 0 14 3.267311e-02 -2.136077
gbr 0.000000 4.166667 0 15 2.417433e-02 -2.254347
usa 2.222222 22.777778 2 82 2.080276e-09 -5.991411

cah$[Link]$`5`

Intern % glob % Intern freq Glob freq [Link] [Link]


usa 40.5128205 22.777778 79 82 3.303998e-21 9.452637
cub 6.6666667 3.888889 13 14 4.105993e-03 2.869902
jam 4.6153846 2.500000 9 9 7.362511e-03 2.679987
tri 3.0769231 1.666667 6 6 4.873997e-02 1.970859
mar 0.0000000 2.777778 0 10 7.027979e-04 -3.388485
eth 0.0000000 4.166667 0 15 1.154294e-05 -4.386047
ken 0.5128205 9.722222 1 35 1.663557e-11 -6.732864

cah$[Link]$`6`

Analyse des Données 111


usa
cze
gbr
lat
nor
fin
Height

0.00 0.02 0.04 0.06 0.08 0.10

trois groupes.
0.00000
13.33333
20.00000
13.33333
13.33333
20.00000
118
126
137
11
150
Intern %
258
116
155
121
144
12
115
130
86
125
289
294
174
129
114
143
106
107
218
260
84
105
147
88
65
298
73

Analyse des Données


276
92

4.9 Exemple Thé


90
255
266
48
204
198
45
284
280
192
3
223
189
169
124
158
146
139
140
47
117
194
142
71
123
292
217

22.7777778
1.6666667
4.1666667
0.8333333
0.8333333
1.1111111

149
23
54
209
191
197
94
79
82
89
78
247
19
96
42
57
20
119
30
13
151
242
14
256
132
49
70
85
285
141
176
77
175
111
230
254
290
43
293
104
245
250
216
157
41
177
170
91
210
131
179
291
5
214
7
109
219
76
97
1
300
63
232
257
184
36
181
145
263
38
231
2
156
183
0
2
3
2
2
3

188
187
200
37
162
164
34
167
163
154
166
275
8
152
228
113
83
134
29
180
296
213
226
262
4
237
55
193
6
205
102
186
101
108
252
56
68
133
264
273
67
283
268
87
265
61
259
251
122
295
93
18
128
225
60
246
234
103
172
279
135
244
glob % Intern freq Glob freq

99
267
270
22
44
127
46
75

Hierarchical clustering
26
28
221
72
239
136
64
32

Dendogramme avec groupes obtenus


286
39
178
21
201
33
243
112
160
235
253
282
236
281
185
80
98
274
69
215
138
27
233
58
51
195
182
227
211
31
212
222
199
165
249
208
74
95
168
202
190
272
261
53
229
100
220
17
50
10
196
173
299
16
206
15
9
159
24
153
81
288
203
148
120
241
25
161
40
238
[Link]

52
277
110
62
269
59
278
35
207
224
240
171
271
287
66
248
297

0.00 0.04 0.08


82 0.0378973375 -2.075963
6 0.0442017606 2.012172
15 0.0394940859 2.059002
3 0.0095132870 2.593036
3 0.0095132870 2.593036
4 0.0004601333 3.502951
[Link]

inertia gain

112
obtenus par l'ACM, avec le critère de Ward. Nous avons choisi de couper l'arbre de manière à avoir
Nous reprenons l'exemple du cours sur l'ACM. Nous eectuons une CAH sur les trois premiers axes
Chapter 4
Chapter 4

Nous pouvons représenter les individus dans le premier plan factoriel ainsi que leurs classes d'apparte-

nance.

Individus dans le premier plan factoriel MCA factor map

cluster 1 211208 202


168 190
cluster 2 195227 182 31
magasin specialise
95 100229
1.0

cluster 3 74
53220 vrac

2
212
165 272 248 297
222 199
249 t_haut_de_gamme
299
261
94
Dim 2 (7.33%)

Dim 2 (7.33%)
191 16 206277 287
0.5

209 10
271 66
62
54 153 81 159 148 52 171
288
203

1
217 15 120 110 2243550278 vert
25 17
205 189 113
149
23
82
79 161
266
40
24241
238
255
196
9 173 59240
269 apres diner
186
262197 163 180226 48 207
102
167 2132983198 243 112 22 268 87
6188
200
187 47
55
38
4223
154
134
34164
296
231275
162
140
139
169 37 291
178
20151
845284
204 5733
93
21235
280
253 252
225 56 283
295 2/sem dej noir citron salon de t
1 [Link]
0.0

193 117
152
156
158
124
183
146
228
2
258 292
123
194 5214
65
260
218
119
201
42
30 12816018 172 122
244
279
64
135
68 44 67
127 265
[Link]
[Link] pur [Link]
[Link] ett 6/sem
momentGMS+[Link].
1166
237 63111144
121
155
14 298
256
150
71 784
192
13
276
109 96327233
247
138 58
185
5132133
264
234 259 [Link]
[Link] [Link]
moment [Link]
[Link] sachet+vrac
116 176 92 147 246 72251 61 [Link] dej soiree

0
300 23285
70
126
257 263
132
115
12
137 4973
105 90
170
91
19 281286
282 39
60 103
136 270 + de 2/jour
97285
219
76 184
3623077
254
118
141
181
177
175
1141250
216
157 143
107
106
174
114
179
131
242
104 8978
80236 101
108
239 267
99
273 [Link]
[Link] tmaison
dediner amis gouter autre
142293
145 245
43 129
210130 98
289
125274
215
69 221
28 26 1/jour ptt sucre
t_bas_de_gamme dejparfume bar
t_variable
29029486
88 46 75 lait travailapres
GMS sachet
t_marque_connue
t_MDD resto dej
−0.5

t_inconnu
−1

−1.0 −0.5 0.0 0.5 1.0 1.5 −2 −1 0 1 2

Dim 1 (9.39%) Dim 1 (9.39%)

Nous pouvons décrire les classes à l'aide des modalités des variables qualitatives. Pour la classe 1 par

exemple :

cahacm$[Link]$category$`1`

Cla/Mod Mod/Cla Global [Link] [Link]


lieuachat=GMS 80.72917 92.8143713 64.00000 1.163440e-33 12.092052
forme=sachet 80.58824 82.0359281 56.66667 3.666018e-24 10.140133
[Link].t=[Link] de t 66.11570 95.8083832 80.66667 2.663416e-14 7.613708
type=t_marque_connue 81.05263 46.1077844 31.66667 7.247174e-10 6.160596
bar=[Link] 62.86920 89.2215569 79.00000 1.257681e-06 4.846327
amis=[Link] 72.11538 44.9101796 34.66667 2.666585e-05 4.200218
frequence=1 e 2/sem 81.81818 21.5568862 14.66667 1.079098e-04 3.872082
frequence=1/jour 71.57895 40.7185629 31.66667 1.473598e-04 3.795477
gouter=[Link] 67.93893 53.2934132 43.66667 1.666612e-04 3.764832
type=t_MDD 90.47619 11.3772455 7.00000 5.246035e-04 3.467869
resto=[Link] 61.53846 81.4371257 73.66667 6.936051e-04 3.392095
sucre=sucre 65.51724 56.8862275 48.33333 9.298384e-04 3.310938
[Link]=[Link] moment 61.92893 73.0538922 65.66667 2.738393e-03 2.995674
maison=[Link] 100.00000 5.3892216 3.00000 4.652874e-03 2.830132
[Link]=[Link] dej 63.46154 59.2814371 52.00000 4.887493e-03 2.814357
type=t_inconnu 91.66667 6.5868263 4.00000 9.029580e-03 2.610932

Analyse des Données 113


Chapter 4

age_Q=15-24 66.30435 36.5269461 30.66667 1.378999e-02 2.462688


[Link]=[Link] dej 58.59375 89.8203593 85.33333 1.532223e-02 2.424672
convivialite=[Link] 68.96552 23.9520958 19.33333 2.327923e-02 2.268821
travail=[Link] 59.62441 76.0479042 71.00000 3.247531e-02 2.138511
variete=parfume 60.10363 69.4610778 64.33333 3.931076e-02 2.060919
comment=pur 60.00000 70.0598802 65.00000 4.114206e-02 2.042095
excitant=excitant 62.93103 43.7125749 38.66667 4.528452e-02 2.002002
excitant=[Link] 51.08696 56.2874251 61.33333 4.528452e-02 -2.002002
travail=travail 45.97701 23.9520958 29.00000 3.247531e-02 -2.138511
convivialite=convivialite 52.47934 76.0479042 80.66667 2.327923e-02 -2.268821
[Link]=apres dej 38.63636 10.1796407 14.66667 1.532223e-02 -2.424672
CSP=cadre moyen 37.50000 8.9820359 13.33333 1.448431e-02 -2.445023
comment=autre 11.11111 0.5988024 3.00000 7.941808e-03 -2.654534
[Link]=ptt dej 47.22222 40.7185629 48.00000 4.887493e-03 -2.814357
maison=maison 54.29553 94.6107784 97.00000 4.652874e-03 -2.830132
variete=noir 40.54054 17.9640719 24.66667 2.821368e-03 -2.986559
[Link]=tt moment 43.68932 26.9461078 34.33333 2.738393e-03 -2.995674
comment=citron 30.30303 5.9880240 11.00000 2.185666e-03 -3.063770
sucre=[Link] 46.45161 43.1137725 51.66667 9.298384e-04 -3.310938
resto=resto 39.24051 18.5628743 26.33333 6.936051e-04 -3.392095
type=t_variable 42.85714 28.7425150 37.33333 6.172226e-04 -3.423931
gouter=gouter 46.15385 46.7065868 56.33333 1.666612e-04 -3.764832
amis=amis 46.93878 55.0898204 65.33333 2.666585e-05 -4.200218
bar=bar 28.57143 10.7784431 21.00000 1.257681e-06 -4.846327
lieuachat=magasin specialise 10.00000 1.7964072 10.00000 5.999151e-08 -5.418826
forme=vrac 11.11111 2.3952096 12.00000 4.795476e-09 -5.854118
frequence=+ de 2/jour 35.43307 26.9461078 42.33333 1.463011e-09 -6.048389
forme=sachet+vrac 27.65957 15.5688623 31.33333 4.005187e-11 -6.603886
type=t_haut_de_gamme 11.32075 3.5928144 17.66667 2.177680e-13 -7.337409
[Link].t=salon de t 12.06897 4.1916168 19.33333 2.663416e-14 -7.613708
lieuachat=GMS+[Link]. 11.53846 5.3892216 26.00000 7.036722e-21 -9.373198

Nous pouvons aussi décrire les classes à l'aide de la variable quantitative supplémentaire :

cahacm$[Link]$quanti

$`1`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
age -2.031581 35.28743 37.05333 16.3033 16.84232 0.04219609

Analyse des Données 114


Chapter 4

$`2`
[Link] Mean in category Overall mean sd in category Overall sd [Link]
age 3.420388 43.58065 37.05333 16.15305 16.84232 0.0006253193

$`3`
NULL

Nous pouvons les décrire à l'aide des individus : individus les plus proches du centre de leur classe :

cahacm$[Link]$para

Cluster: 1
144 121 115 12 155
0.02112347 0.07515210 0.10254135 0.11992165 0.12384264
---------------------------------------------------------------------------
Cluster: 2
299 148 272 16 261
0.1133661 0.2077991 0.2370417 0.2375721 0.2422547
---------------------------------------------------------------------------
Cluster: 3
136 64 39 32 286
0.06785595 0.07672034 0.09771890 0.10504642 0.10783292

Et à l'aide des individus les plus éloignés des centres des autres classes :

cahacm$[Link]$dist

Cluster: 1
197 47 300 76 97
1.315993 1.190993 1.095732 1.093652 1.093652
---------------------------------------------------------------------------
Cluster: 2
208 190 195 202 168
1.333217 1.305219 1.295199 1.289862 1.280549
---------------------------------------------------------------------------
Cluster: 3
273 265 259 267 270
1.343328 1.130294 1.067495 1.048402 1.042351

Analyse des Données 115

Vous aimerez peut-être aussi