Retour au menu
ANALYSE FACTORIELLE DES CORRESPONDANCES
par M. ROUX
Université de Paris - France
lère partie
QUELQUES FORMULES MATHEMATIQUES COMMENTEES EN GUISE DE
PREAMBULE.
Avant d’exposer nos formules précisons nos notations. Nous appelerons
k(i,j) les nombres portés à l’intersection de la ligne i et de la colonnej du tableau
à analyser; par un abus d’écriture dont les mathématiques sont coutumiers,
nous nous servirons de la même lettre k pour désigner les sommes des lignes
et les sommes des colonnes de ce tableau.
k(i) = zj k(i, j) k(j) = 2; R(i, j) .
La lettre k employée sans parenthèses désignera la somme de tous les termes
du tableau :
Mais c’est en réalité le tableau des fréquences associées au tableau précédent
qui va être l’objet de notre attention:
f(k j) = k(Cj)/k
f(i) = k(j)/k= Xi f(4A
f(i) = k(j)/k= iri f(k 9)-
Lesf(i> etfU> sont les fréquences marginales. L’analyse factorielle a pour
but l’étude des n individus donnés, par rapport aux p variables de
des profils
références, c’est à dire des ensembles de mombres:
l’indice n pouvant varier de 1 à n. On remarque, en passant que chacun des
nombres figurant dans la liste ci-dessus est identique.
(Equivalence distributionnelle).
Retour au menu
126 M. ROUX
Compte tenu de ces notations et remarques, l’analyse factorielle des corre-
spondances consiste à fabriquer des fonctions F(tJ et G(j), appelées facteurs
définies, le premier ensemble (observations) pour les F,& et sur le second (varia-
bles) pour les G,, et satisfaisanf à l’équation suivante :
(1) f(i >: f(i) f(j) [l + 2 42 Fk(i) G(AI .
Cette formule peut être considérée indifféramment comme une décomposition
du tableau initial, qui est une fonction de deux variables, à l’aide de fonction
qui, elles, ne dépendant que d’une seule variable, ou bien comme une formule
de reconstitution des données à partir des résultats qui sont les facteurs.
En outre ces facteurs doivent satisfaire aux contraintes suivantes:
où 6,,. est le symbole de Kronecker égal à 0 si & # 12 ou à 1 si k: = k’.
Dans ce dernier cas ces formules s’écrivent encore:
(2’)
Ces nombres 3Lglqui représentent donc les variantes, au sens large, des facteurs,
sont ce que l’on appelle en mécanique les moments d’inertie du nuage 1 des n
points ayant pour coordonnées les PI profils définis ci-dessus et pour masses
les f(i). De plus, les formules étant parfaitement symétriques entre i et j, ces
n’ombres K sont aussi les moments d’inertie du nuage J des p profils des varia-
bles ayant pour masse les f(j).
Cette terminologie se justifie à condition de préciser que la distance entre
deux points x et_y de 1 n’est pas donnée par la formule usuelle.
4x, Y>= CI (xj -.sY
mais par la formule du x2 :
Ce qui implique que le produit scalaire soit défini par:
Retour au menu
ANALYSE FACTORIELLE DES CORRESPONDANCES 127
quelles sont les coordonnées yj du centre du gravité G du nuage 1 des obser-
vations?
~j = CI f(j) V’& s’Yf(41 = 2: f(k A =f(j> .
(Par la normalisation initiale, masse totale du nuage est égale à 1). Divisons
les deux termes de la formule (1) par f(a) :
Le profil de i s’obtient par adjonction aux coordonnées du centre de gravité
d’une somme de termes que l’on peut interpréter comme une somme vectorielle :
les k(i) étant les coordonnées de i dans le système d’axes constitué par ces
42(j) = kff (A G(j).
Faisons le produit scalaire de deux de ces axes:
d2?, &Z = Ci dE( j) &(j)/ f (j) = 2: (k’k’)-*
Or cette somme vaut 6,,, d’apres la contrainte (3) à laquelle sont assujeties les
fonctions G, .
Or l’unique système d’axes ayant cette propriété est celui des axes princi-
paux d’inertie du nuage 1, ce que nous voulions démontrer, Pratiquement
ces axes s’obtiennent par la recherche des vecteurs propres et des valeurs pro-
pres de la matrice S dont les termes sont donnés par la formule:
Une fois ces calculs faits, on pourra représenter graphiquement les positions
de chacun des individus dans le système des deux premiers facteurs extraits
par ordre d’importance décroissante, importance indiquée par les coefkients 1,
Âz, où Âk: est la valeur propre associée au k-èmes facteurs ; puis on s’interessera
aux axes nn. 1 et 3 etc.
Complétons ce bref exposé par la description de quelques propriétés supple-
mentaires. Il existe une formule canonique de passage entre l’ensemble 1 des
observations et l’ensemble J des variables :
En termes géométriques celà pourra s’appeler principe barycentrique :
Sur l’axe factoriel k, le point i d’abscisse F,(i) est l’homothétique dans le
Retour au menu
128 M. ROUX
rapport BS du barycentre des points j, d’abscisse G,(j) affectés des masses
Autre possibilité de cette méthode: pour chaque point i on peut calculer sa
contribution à la part d’inertie exprimée par un axe k ; c’est la quantité f(i) Fi(i)
intervenant dans (2’).
Nous avons enfin une troisième facilité à notre disposition. Supponsons
qu’après une première série d’observations déjà analysées se présentent quelques
observations supplémentaires. On peut supposer que l’adjonction de ces
nouveaux points ne perturbe pas radicalement la disposition des axes principaux
d’inertie et calculer leur position dans ce système d’axe par la formule:
De même s’il s’agissait d’une variable supplémentaire:
G&(t) = k-* iF,(d)f(i, t)/f(t) .
Ce calcul peut également être utile dans le cas de données douteuses ou pour
des observations d’un poids f() I excessif. Abordons, pour conclure cette pre-
mière partie, les problèmes qui se posent le plus souvent dans la pratique:
1) Quel est ke nombre d’axes à extraire?
Dans la plupart des cas on n’en extrait qu’un nombre restreint, variant entre
5 et 10, et fonction de la puissance de l’ordinateur dont on dissipe, et il est bien
rare que l’on réussisse à les inter-prêter tous.
Il existe cependant des épreuves de validité basées sur des simulations ob-
tenues par tirages au hasard de tableaux « analogues » au tableau initial.
2) Les problèmes de stabilité: à partir de quelle table d’échantillons obtient-on
des axes stables?
Ceci peut encore se traiter expérimentalement en réduisant l’échantillon dont
on dispose de lO%, puis de 2% etc. et en calculant les corrélations entre ces
nouveaux facteurs et ceux qui sont issus de l’échantillon initial. Si on enregistre
des bonnes corrélations c’est que le nombre d’observations faites est insuffisant,
dans ce cas contraire les conclusions risquent d’être fausses ou même impossibles
à tirer.
3) Les probhnes des données initiales sont tellement importants qu’ils nkessite-
raient de longs developpements.
Donnons-en seulement les deux grands principes :
a) Homogénéité : nous entendons par là que deux nombres figurant dans
le tableau initial doivent être, autant que possible, des grandeurs comparables.
Retour au menu
ANALYSE FACTORIELLE DES CORRESPONDANCES 129
En particulier les tableaux où figurent des variables mesurées par des unités
différentes, par exemple des longueurs et des poids doivent faire l’objet d’un
traitement préalable.
Dont le plus simple consiste à faire des classes de valeurs. A plus forte raison
si l’un a des mélanges de variables qualitatives et quantitatives.
Ces dernières doivent impérativement être découpées en classes dont chacune
d’elles sera considérée comme une variable qualitative.
b) Exhaustivité: nous ne voulons pas dire qu’il faille faire toutes les obser-
vations possibles dans un domaine, mais que l’échantillon retenu soit bien
représentatif de toutes ces variations, réellement existantes dans le domaine
considéré. Ceci implique que ce domaine soit clairement délimité, par des fron-
tières aussi naturelles que possible.
Zème partie
UNE EXPERIENCE D’ANALYSE FACTORIELLE EN PHYTOTECOLOGIE.
Il s’agit de l’approfondissement d’une étude faite par un de nos collègues
F. ROMANE du centre d’études phytosociologiques et écologiques (C.E.P.E.) de
Montpellier (France), étude portant sur 443 relevés appartenant à un transect
allant de Montpellier au Vignan suit une direction Nord-Nord-Est à Sud Ouest.
Outre un répertoire de 500 espèces végétales ce travail comporte l’enregistre-
ment de 26 variables écologiques telles que l’altitude, l’exposition, la géomor-
phologie, la nature du sol, la nature de la roche mère, le degré de recouvrement,
la distance à la mer, etc.
Le découpage nécessaire de ces 26 variables écologiques en classe a donné 257
variables logiques que nous appelleront modalités. On voit que ces données
sont d’une taille respectable.
Pour des raisons d’encombrement ROMANE avait préféré faire une sélection
raisonnable de 120 espèces parmi les 500 répertoriées. Début de son travail
n’était pas la découverte des relatives entre écologie et floristique, mais la com-
paraison de diverses méthodes d’analyse multidimensionnelle notamment l’analyse
en composant-es principales et l’analyse des correspondances, et il concluait en
faveur de cette dernière, aussi bien en ce qui concerne le tableau des données
floristiques que celui des données écologiques. Ce dernier est constitué de la
façon suivante: chaque ligne représente une espèce et chaque colonne une des
257 modalités décrivant le milieu. A l’intersection de la ligne i et de la colonnej de
ce tableau figure le nombre de relevés contenant l’espèce i et présentant la moda-
litéj on constatera en passant qu’on a bien l’homogéneïté souhaitée dans notre
premitre partie. Le but de notre travail est double; tout d’abord vérifier que
9
Retour au menu
130 M. ROUX
la sélection opérée sur les espècesn’a pas trop entaché le résultat, ensuite com-
parer les résultats fournis par l’analyse de ce tableau à ceux que l’on obtient
avec le tableau floristique, où chaque case (i, j) contient un 1 ou un 0 suivant
que l’espèce a figure ou non dans le relevé j.
Cette comparaison doit interesser les spécialistes puisque la théorie défendue
par M. GUINACHER, chef de file, de la phytosociologie moderne, est que la
floristique permet une description du milieu ou moins précise, mais souvent
meilleure que celle qui est fournie, par des variables écologiques. Nous résu-
merons nos résultats à l’aide des corrélations entre les cinq premiers facteurs
issus des différentes analyses.
1) Comparaison des analyses écologiques sur 120 espèceset sur 500 espkes.
(Les corrélations on été calculées à partir des résultats sur les relevés). E, dé-
signe le K-ème axe de l’analyse sur 500 espècestandis que Fk est le K-ème axe
de l’analyse sur 120 espèces.
FI 0.993 -0.045 -0.094 0.001 -0.008
Fa -0.030 0.960 -0.080 0.039 0.306
FS 0.029 0.009 0.824 -0.403 -0.059
F4 0.054 0.039 0.230 0.669 0.330
Ci 0.091 0.141 0.173 0.077 0.704
On constate d’excellentes corrélations entre les facteurs homologues.
2) Comparaison des analyses écologiques et floristiques.
(Les corrélations ont été calculées à partir des résultats sur les espèces).
Ek désigne le k-eme axe de l’analyse écologique tandis que Fk est le K-kme axe
de l’analyse floristique.
4 0.908 0.141 0.046 0.141
FS 0.007 0.567 0.212 0.387 0.188
F8 0.094 0.138 0.877 0.118 0.009
F& 0.074 0.211 0.123 0.746 0.085
FS 0.040 0.014 0.006 0.291 0.519
On observe, encore, de meilleurs corrélations entre facteurs homologues
qu’entre facteurs des rangs différents, cependant deux des premières sur cinq
sont anormalement basses: celle entre E, et FS, ce qui se conçoit si l’on admet
Retour au menu
ANALYSE FACTORIELLE DES CORRESPONDANCES 131
que la dégradation de ces coefficients soit assez rapide quand on passe du 1-er
au Sème facteur, et celle entre E, et F,, ce qui est plus grave.
Respectant notre plan de travail notre conclusion à cette deuxième partie
se fera en deux temps; en ce qui concerne la réduction du nombre des espèces
on peut s’estimer très satisfait de la sélection opérée. Celle-ci procure donc
un grand avantage a la fois sur la taille de l’ordinateur a employer et sur le temps
de calcul ; elle ne pert pratiquement pas d’informaton si l’on prend la précau-
tion de mettre les espèces en éléments supplémentaires.
En ce qui concerne la comparaison des deux types d’analyses Ccologiques
et floristiques, nous dirons que l’hypothèse de parfaite intégration des variables
du milieu par les espèces végétales est assez bien vérifiée ; néamoins il reste à
expliquer quelques divergences entre les deux séries de facteurs, et celà ne peut
se faire que par l’interprétation des axes. L’avantage sera donné à la methode
la plus précise quant aux variations decrites, et connues par ailleurs. Nous ne
pouvons donner ici ces interprétations car elles ne sont pas terminees : ce travail
est en effet considerable vu la taille du problème.
On remarquera enfin que, la, encore, les résultats propres à l’une des analyses
peuvent aussi être fournis par l’autre, à l’aide des éléments supplémentaires:
dans l’analyse écologique les relevés peuvent être considérés comme des variables
supplémentaires ayant pour valeur 0 ou 1 selon les espèces, dans l’analyse flori-
stique les modalités des variables écologiques peuvent être mises en variables
supplémentaires également.
BIBLIOGRAPHIE
BENZECRI J. P. et COLL., L’anal_ysea’eJdonnées,2 vol., p. 620; Dunod, Paris, 1973.
GUNACHET M., La p&osociologie, p. 228, Masson, Paris, 1973.