Séance 2: Analyse Factorielle des
Correspondances
Révisions
Sébastien Gadat
Laboratoire de Statistique et Probabilités
UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Deuxième partie II
Analyse Factorielle des Correspondances
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Données Qualitatives
Notations
On suppose donnés 2 variables X et Y qualitatives.
On suppose donnés n individus décrits par ces chacune de ces 2
variables.
Recherche de la dépendance entre les différentes modalités de
X et Y.
X possède m1 modalités, Y en possède m2 .
♣ Comment résumer les données ?
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Tableau de contingence, nuage associés
La table de contingence associée à ces observations, de dimension
m1 × m2 , est souvent notée T ou N ; son élément générique est n`h ,
effectif conjoint. Elle se présente sous la forme suivante :
y1 ··· yh ··· ym2 sommes
x1 n11 ··· n1h ··· n1c n1+
.. .. .. .. ..
. . . . .
x` n`1 ··· n`h ··· n`c n`+
.. .. .. .. ..
. . . . .
xm1 nr1 ··· nrh ··· nrc nm1 +
sommes n+1 ··· n+h ··· n+m2 n
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Effectifs Marginaux
On note par D1 et D2 les matrices diagonales des effectifs marginaux
des variables X et Y :
n1+ . . . 0 ... 0 n+1 . . . 0 ... 0
.. .. .. .. .. ..
.
. ... ... .
.
. ... ... .
D1 = 0 . . . ni+
. ..
D =
. .
0 2
0 . . . n+j
. 0
. .. .. .. . .. .. ..
.. ... . . . .. ... . . .
0 ... 0 . . . nm1 + 0 ... 0 . . . n+m2
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Profils Lignes
ni,j
Tableau des profils lignes d’éléments ni+ donné par :
On considère les profils lignes comme m1 points dans Rm2 .
Chacun de ces points est affecté d’un poids proportionnel à sa
fréquence marginale :
Centre de gravité du nuage de points :
gl =
Les m1 profils lignes appartiennent à un sous-espace W2 de
dimension m2 − 1 défini par :
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Profils Colonnes
ni,j
Tableau des profils colonnes d’éléments n+j donné par :
On considère les profils lignes comme m2 points dans Rm1 .
Chacun de ces points est affecté d’un poids proportionnel à sa
fréquence marginale :
Centre de gravité du nuage de points :
gc =
Les m2 profils colonnes appartiennent à un sous-espace W1 de
dimension m1 − 1 défini par :
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Métrique du χ2 , Indépendance
♣ Dans le cas de l’indépendance statistique, on a la relation :
Pour calculer la distance entre deux profils lignes i et i0 , on utilise
la formule :
dχ2 2 (i, i0 ) =
Il s’agit de la distance basée sur la métrique Ml donnée par
Ml =
Cette métrique revient là-encore à donner autant d’importance à
chacune des variables.
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Métrique du χ2 , Indépendance
Pour calculer la distance entre deux profils colonnes j et j0 , on
utilise la formule :
dχ2 2 (j, j0 ) =
Il s’agit de la distance basée sur la métrique Mc donnée par
Mc =
La quantité ϕ2 mesure l’écart à l’indépendance :
ϕ2 = · · · = · · · = . . .
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Propriétés de la distance du χ2
Proposition : Étant données deux colonnes de N, j et j0 ayant le
même profil, si l’on regroupe ces 2 colonnes en une seule d’effectif
nij + nij0 pour chacune des lignes i, alors les distances entre profils
lignes est inchangée.
Preuve : . . .
♣ Cette propriété est-elle vraie pour la métrique euclidienne ?
Proposition : ϕ2 correspond à la fois à l’inertie des profils lignes par
rapport à gl , mais également à l’inertie des profils colonnes par
rapport à gc .
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Analyse en composantes principales des deux nuages
de profils
ACP profils lignes ACP profils colonnes
Données X = D−11 N Données X = D−12 N
0
−1 −1
Métrique M = nD2 Métrique M = nD1
Poids D = Dn1 Poids D = Dn2
Nous verrons que ces deux ACP amènent à des résultats
parfaitement duaux l’un de l’autre.
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
ACP non centrées et facteur trivial
Remarques et propriétés
0gl est orthogonal à W1 pour la métrique du χ2 .
♣ kgl kχ2 =
Proposition : g (gl ou gc ) est vecteur propre associé à la valeur
propre 1.
Il est donc à chaque fois inutile de préciser ce résultat dans les
AFC.
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
ACP non centrées et facteur trivial
On peut montrer que les facteurs principaux sont :
ACP profils lignes ACP profils colonnes
Facteurs Principaux Facteurs Principaux
VP de D−1 0 −1
2 N D1 N VP de D−1 −1 0
1 ND2 N
Composantes principales Composantes principales
VP de D−1 −1 0
1 ND2 N VP de D−1 0 −1
2 N D1 N
Normalisés par Normalisés par
D1 D2
a0 a=λ b0 b=λ
n n
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
ACP non centrées et facteur trivial
Les 2 analyses conduisent aux mêmes valeurs propres.
Les facteurs principaux de l’une sont les composantes
principales de l’autre.
Les coordonnées des points-lignes et points-colonnes
s’obtiennent en cherchant les vecteurs propres des produits des
deux tableaux de profils
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Contributions
Cercle de corrélation : aucun intérêt dans le contexte de
variables qualitatives
On utilise les contributions des profils lignes ou profils colonnes :
m1
X
λ= ni+ a2i
i=1
ni+ 2 n+j 2
n ai n bj
CTR(i) = CTR(j) =
λ λ
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Contributions
Formules de transition :
1 1
b = √ D−1 0
2 N a a = √ D−1
1 Nb
λ λ
Autrement dit :
1 m 2 m
1 X nij 1 X nij
bj = √ ai ai = √ aj
n
λ i=1 j+ n
λ i=1 +i
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Reconstitution des données
Si m1 < m2 , en éliminant la valeur propre 1, on a :
1 −1
mX
2
ϕ = λk
k=1
Les pourcentages de variance sont égaux à :
%Vark =
La formule de reconstitution est :
nij =
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Données AGR concernent les exploitations agricoles
de la région Midi-Pyrénées.
Elles proviennent des ”Tableaux Economiques de Midi-Pyrénées”,
publiés par la Direction Régionale de Toulouse de l’INSEE, en 1996
(données relatives à l’année 1993 ; chiffres arrondis à la dizaine
près).
Les 73 000 exploitations ont été ventilées dans une table de
contingence selon le département (en lignes, 8 modalités) et la SAU
(Surface Agricole Utilisée, en colonnes, 6 classes).
Départements : ARIE = Ariège ; AVER = Aveyron ; H.G. =
Haute-Garonne ; GERS = Gers ; LOT = Lot ; H.P. = Hautes-Pyrénées ;
TARN = Tarn ; T.G. = Tarn-et-Garonne.
SAU : inf05 = moins de 5 hectares ; s0510 = entre 5 et 10 hectares... ;
sup50 = plus de 50 hectares.
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Représentations graphiques
0.4
0.3
SINF1
h.g.
S1_5
0.2 arie
A
x
e 0.1 S_100
2
S50_99
gers
0.0
h.p.
S20_50 t.g.
S10_20
lot
tarn
-0.1
aver
S5_10
-0.2
-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
Axe 1
F IG .: Biplot isométrique des données AGR.
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques
Interprétation
♣ Quelles sont les variables qui sont croisées entre elles ?
♣ Que met en évidence le premier axe ?
♣ Que met en évidence le second axe ?
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances