0% ont trouvé ce document utile (0 vote)
61 vues7 pages

Analyse Factorielle des Correspondances

Ce document décrit une analyse factorielle des correspondances réalisée sur des données de phytosociologie. L'analyse porte sur 443 relevés décrits par 500 espèces végétales et 26 variables écologiques découpées en 257 modalités. Le but est d'étudier la répartition des relevés en fonction des variables écologiques.

Transféré par

hamadimahmoud865
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
61 vues7 pages

Analyse Factorielle des Correspondances

Ce document décrit une analyse factorielle des correspondances réalisée sur des données de phytosociologie. L'analyse porte sur 443 relevés décrits par 500 espèces végétales et 26 variables écologiques découpées en 257 modalités. Le but est d'étudier la répartition des relevés en fonction des variables écologiques.

Transféré par

hamadimahmoud865
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Retour au menu

ANALYSE FACTORIELLE DES CORRESPONDANCES

par M. ROUX
Université de Paris - France

lère partie

QUELQUES FORMULES MATHEMATIQUES COMMENTEES EN GUISE DE


PREAMBULE.

Avant d’exposer nos formules précisons nos notations. Nous appelerons


k(i,j) les nombres portés à l’intersection de la ligne i et de la colonnej du tableau
à analyser; par un abus d’écriture dont les mathématiques sont coutumiers,
nous nous servirons de la même lettre k pour désigner les sommes des lignes
et les sommes des colonnes de ce tableau.

k(i) = zj k(i, j) k(j) = 2; R(i, j) .

La lettre k employée sans parenthèses désignera la somme de tous les termes


du tableau :

Mais c’est en réalité le tableau des fréquences associées au tableau précédent


qui va être l’objet de notre attention:

f(k j) = k(Cj)/k
f(i) = k(j)/k= Xi f(4A
f(i) = k(j)/k= iri f(k 9)-
Lesf(i> etfU> sont les fréquences marginales. L’analyse factorielle a pour
but l’étude des n individus donnés, par rapport aux p variables de
des profils
références, c’est à dire des ensembles de mombres:

l’indice n pouvant varier de 1 à n. On remarque, en passant que chacun des


nombres figurant dans la liste ci-dessus est identique.
(Equivalence distributionnelle).
Retour au menu

126 M. ROUX

Compte tenu de ces notations et remarques, l’analyse factorielle des corre-


spondances consiste à fabriquer des fonctions F(tJ et G(j), appelées facteurs
définies, le premier ensemble (observations) pour les F,& et sur le second (varia-
bles) pour les G,, et satisfaisanf à l’équation suivante :

(1) f(i >: f(i) f(j) [l + 2 42 Fk(i) G(AI .


Cette formule peut être considérée indifféramment comme une décomposition
du tableau initial, qui est une fonction de deux variables, à l’aide de fonction
qui, elles, ne dépendant que d’une seule variable, ou bien comme une formule
de reconstitution des données à partir des résultats qui sont les facteurs.
En outre ces facteurs doivent satisfaire aux contraintes suivantes:

où 6,,. est le symbole de Kronecker égal à 0 si & # 12 ou à 1 si k: = k’.


Dans ce dernier cas ces formules s’écrivent encore:

(2’)

Ces nombres 3Lglqui représentent donc les variantes, au sens large, des facteurs,
sont ce que l’on appelle en mécanique les moments d’inertie du nuage 1 des n
points ayant pour coordonnées les PI profils définis ci-dessus et pour masses
les f(i). De plus, les formules étant parfaitement symétriques entre i et j, ces
n’ombres K sont aussi les moments d’inertie du nuage J des p profils des varia-
bles ayant pour masse les f(j).
Cette terminologie se justifie à condition de préciser que la distance entre
deux points x et_y de 1 n’est pas donnée par la formule usuelle.

4x, Y>= CI (xj -.sY


mais par la formule du x2 :

Ce qui implique que le produit scalaire soit défini par:


Retour au menu
ANALYSE FACTORIELLE DES CORRESPONDANCES 127

quelles sont les coordonnées yj du centre du gravité G du nuage 1 des obser-


vations?

~j = CI f(j) V’& s’Yf(41 = 2: f(k A =f(j> .

(Par la normalisation initiale, masse totale du nuage est égale à 1). Divisons
les deux termes de la formule (1) par f(a) :

Le profil de i s’obtient par adjonction aux coordonnées du centre de gravité


d’une somme de termes que l’on peut interpréter comme une somme vectorielle :
les k(i) étant les coordonnées de i dans le système d’axes constitué par ces
42(j) = kff (A G(j).
Faisons le produit scalaire de deux de ces axes:

d2?, &Z = Ci dE( j) &(j)/ f (j) = 2: (k’k’)-*

Or cette somme vaut 6,,, d’apres la contrainte (3) à laquelle sont assujeties les
fonctions G, .
Or l’unique système d’axes ayant cette propriété est celui des axes princi-
paux d’inertie du nuage 1, ce que nous voulions démontrer, Pratiquement
ces axes s’obtiennent par la recherche des vecteurs propres et des valeurs pro-
pres de la matrice S dont les termes sont donnés par la formule:

Une fois ces calculs faits, on pourra représenter graphiquement les positions
de chacun des individus dans le système des deux premiers facteurs extraits
par ordre d’importance décroissante, importance indiquée par les coefkients 1,
Âz, où Âk: est la valeur propre associée au k-èmes facteurs ; puis on s’interessera
aux axes nn. 1 et 3 etc.
Complétons ce bref exposé par la description de quelques propriétés supple-
mentaires. Il existe une formule canonique de passage entre l’ensemble 1 des
observations et l’ensemble J des variables :

En termes géométriques celà pourra s’appeler principe barycentrique :


Sur l’axe factoriel k, le point i d’abscisse F,(i) est l’homothétique dans le
Retour au menu

128 M. ROUX

rapport BS du barycentre des points j, d’abscisse G,(j) affectés des masses

Autre possibilité de cette méthode: pour chaque point i on peut calculer sa


contribution à la part d’inertie exprimée par un axe k ; c’est la quantité f(i) Fi(i)
intervenant dans (2’).
Nous avons enfin une troisième facilité à notre disposition. Supponsons
qu’après une première série d’observations déjà analysées se présentent quelques
observations supplémentaires. On peut supposer que l’adjonction de ces
nouveaux points ne perturbe pas radicalement la disposition des axes principaux
d’inertie et calculer leur position dans ce système d’axe par la formule:

De même s’il s’agissait d’une variable supplémentaire:

G&(t) = k-* iF,(d)f(i, t)/f(t) .

Ce calcul peut également être utile dans le cas de données douteuses ou pour
des observations d’un poids f() I excessif. Abordons, pour conclure cette pre-
mière partie, les problèmes qui se posent le plus souvent dans la pratique:

1) Quel est ke nombre d’axes à extraire?


Dans la plupart des cas on n’en extrait qu’un nombre restreint, variant entre
5 et 10, et fonction de la puissance de l’ordinateur dont on dissipe, et il est bien
rare que l’on réussisse à les inter-prêter tous.
Il existe cependant des épreuves de validité basées sur des simulations ob-
tenues par tirages au hasard de tableaux « analogues » au tableau initial.

2) Les problèmes de stabilité: à partir de quelle table d’échantillons obtient-on


des axes stables?
Ceci peut encore se traiter expérimentalement en réduisant l’échantillon dont
on dispose de lO%, puis de 2% etc. et en calculant les corrélations entre ces
nouveaux facteurs et ceux qui sont issus de l’échantillon initial. Si on enregistre
des bonnes corrélations c’est que le nombre d’observations faites est insuffisant,
dans ce cas contraire les conclusions risquent d’être fausses ou même impossibles
à tirer.

3) Les probhnes des données initiales sont tellement importants qu’ils nkessite-
raient de longs developpements.
Donnons-en seulement les deux grands principes :
a) Homogénéité : nous entendons par là que deux nombres figurant dans
le tableau initial doivent être, autant que possible, des grandeurs comparables.
Retour au menu

ANALYSE FACTORIELLE DES CORRESPONDANCES 129

En particulier les tableaux où figurent des variables mesurées par des unités
différentes, par exemple des longueurs et des poids doivent faire l’objet d’un
traitement préalable.
Dont le plus simple consiste à faire des classes de valeurs. A plus forte raison
si l’un a des mélanges de variables qualitatives et quantitatives.
Ces dernières doivent impérativement être découpées en classes dont chacune
d’elles sera considérée comme une variable qualitative.
b) Exhaustivité: nous ne voulons pas dire qu’il faille faire toutes les obser-
vations possibles dans un domaine, mais que l’échantillon retenu soit bien
représentatif de toutes ces variations, réellement existantes dans le domaine
considéré. Ceci implique que ce domaine soit clairement délimité, par des fron-
tières aussi naturelles que possible.

Zème partie
UNE EXPERIENCE D’ANALYSE FACTORIELLE EN PHYTOTECOLOGIE.

Il s’agit de l’approfondissement d’une étude faite par un de nos collègues


F. ROMANE du centre d’études phytosociologiques et écologiques (C.E.P.E.) de
Montpellier (France), étude portant sur 443 relevés appartenant à un transect
allant de Montpellier au Vignan suit une direction Nord-Nord-Est à Sud Ouest.
Outre un répertoire de 500 espèces végétales ce travail comporte l’enregistre-
ment de 26 variables écologiques telles que l’altitude, l’exposition, la géomor-
phologie, la nature du sol, la nature de la roche mère, le degré de recouvrement,
la distance à la mer, etc.
Le découpage nécessaire de ces 26 variables écologiques en classe a donné 257
variables logiques que nous appelleront modalités. On voit que ces données
sont d’une taille respectable.
Pour des raisons d’encombrement ROMANE avait préféré faire une sélection
raisonnable de 120 espèces parmi les 500 répertoriées. Début de son travail
n’était pas la découverte des relatives entre écologie et floristique, mais la com-
paraison de diverses méthodes d’analyse multidimensionnelle notamment l’analyse
en composant-es principales et l’analyse des correspondances, et il concluait en
faveur de cette dernière, aussi bien en ce qui concerne le tableau des données
floristiques que celui des données écologiques. Ce dernier est constitué de la
façon suivante: chaque ligne représente une espèce et chaque colonne une des
257 modalités décrivant le milieu. A l’intersection de la ligne i et de la colonnej de
ce tableau figure le nombre de relevés contenant l’espèce i et présentant la moda-
litéj on constatera en passant qu’on a bien l’homogéneïté souhaitée dans notre
premitre partie. Le but de notre travail est double; tout d’abord vérifier que

9
Retour au menu

130 M. ROUX

la sélection opérée sur les espècesn’a pas trop entaché le résultat, ensuite com-
parer les résultats fournis par l’analyse de ce tableau à ceux que l’on obtient
avec le tableau floristique, où chaque case (i, j) contient un 1 ou un 0 suivant
que l’espèce a figure ou non dans le relevé j.
Cette comparaison doit interesser les spécialistes puisque la théorie défendue
par M. GUINACHER, chef de file, de la phytosociologie moderne, est que la
floristique permet une description du milieu ou moins précise, mais souvent
meilleure que celle qui est fournie, par des variables écologiques. Nous résu-
merons nos résultats à l’aide des corrélations entre les cinq premiers facteurs
issus des différentes analyses.
1) Comparaison des analyses écologiques sur 120 espèceset sur 500 espkes.

(Les corrélations on été calculées à partir des résultats sur les relevés). E, dé-
signe le K-ème axe de l’analyse sur 500 espècestandis que Fk est le K-ème axe
de l’analyse sur 120 espèces.

FI 0.993 -0.045 -0.094 0.001 -0.008


Fa -0.030 0.960 -0.080 0.039 0.306
FS 0.029 0.009 0.824 -0.403 -0.059
F4 0.054 0.039 0.230 0.669 0.330
Ci 0.091 0.141 0.173 0.077 0.704

On constate d’excellentes corrélations entre les facteurs homologues.

2) Comparaison des analyses écologiques et floristiques.

(Les corrélations ont été calculées à partir des résultats sur les espèces).
Ek désigne le k-eme axe de l’analyse écologique tandis que Fk est le K-kme axe
de l’analyse floristique.

4 0.908 0.141 0.046 0.141


FS 0.007 0.567 0.212 0.387 0.188
F8 0.094 0.138 0.877 0.118 0.009
F& 0.074 0.211 0.123 0.746 0.085
FS 0.040 0.014 0.006 0.291 0.519

On observe, encore, de meilleurs corrélations entre facteurs homologues


qu’entre facteurs des rangs différents, cependant deux des premières sur cinq
sont anormalement basses: celle entre E, et FS, ce qui se conçoit si l’on admet
Retour au menu

ANALYSE FACTORIELLE DES CORRESPONDANCES 131

que la dégradation de ces coefficients soit assez rapide quand on passe du 1-er
au Sème facteur, et celle entre E, et F,, ce qui est plus grave.
Respectant notre plan de travail notre conclusion à cette deuxième partie
se fera en deux temps; en ce qui concerne la réduction du nombre des espèces
on peut s’estimer très satisfait de la sélection opérée. Celle-ci procure donc
un grand avantage a la fois sur la taille de l’ordinateur a employer et sur le temps
de calcul ; elle ne pert pratiquement pas d’informaton si l’on prend la précau-
tion de mettre les espèces en éléments supplémentaires.
En ce qui concerne la comparaison des deux types d’analyses Ccologiques
et floristiques, nous dirons que l’hypothèse de parfaite intégration des variables
du milieu par les espèces végétales est assez bien vérifiée ; néamoins il reste à
expliquer quelques divergences entre les deux séries de facteurs, et celà ne peut
se faire que par l’interprétation des axes. L’avantage sera donné à la methode
la plus précise quant aux variations decrites, et connues par ailleurs. Nous ne
pouvons donner ici ces interprétations car elles ne sont pas terminees : ce travail
est en effet considerable vu la taille du problème.
On remarquera enfin que, la, encore, les résultats propres à l’une des analyses
peuvent aussi être fournis par l’autre, à l’aide des éléments supplémentaires:
dans l’analyse écologique les relevés peuvent être considérés comme des variables
supplémentaires ayant pour valeur 0 ou 1 selon les espèces, dans l’analyse flori-
stique les modalités des variables écologiques peuvent être mises en variables
supplémentaires également.

BIBLIOGRAPHIE

BENZECRI J. P. et COLL., L’anal_ysea’eJdonnées,2 vol., p. 620; Dunod, Paris, 1973.


GUNACHET M., La p&osociologie, p. 228, Masson, Paris, 1973.

Vous aimerez peut-être aussi