0% ont trouvé ce document utile (0 vote)
54 vues20 pages

Analyse Factorielle des Correspondances

Transféré par

Yassine Najmi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
54 vues20 pages

Analyse Factorielle des Correspondances

Transféré par

Yassine Najmi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Séance 2: Analyse Factorielle des

Correspondances
Révisions

Sébastien Gadat

Laboratoire de Statistique et Probabilités


UMR 5583 CNRS-UPS

www.lsp.ups-tlse.fr/gadat

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Deuxième partie II

Analyse Factorielle des Correspondances

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Données Qualitatives

Notations
On suppose donnés 2 variables X et Y qualitatives.
On suppose donnés n individus décrits par ces chacune de ces 2
variables.
Recherche de la dépendance entre les différentes modalités de
X et Y.
X possède m1 modalités, Y en possède m2 .
♣ Comment résumer les données ?

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Tableau de contingence, nuage associés

La table de contingence associée à ces observations, de dimension


m1 × m2 , est souvent notée T ou N ; son élément générique est n`h ,
effectif conjoint. Elle se présente sous la forme suivante :
y1 ··· yh ··· ym2 sommes
x1 n11 ··· n1h ··· n1c n1+
.. .. .. .. ..
. . . . .
x` n`1 ··· n`h ··· n`c n`+
.. .. .. .. ..
. . . . .
xm1 nr1 ··· nrh ··· nrc nm1 +
sommes n+1 ··· n+h ··· n+m2 n

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Effectifs Marginaux

On note par D1 et D2 les matrices diagonales des effectifs marginaux


des variables X et Y :
   
n1+ . . . 0 ... 0 n+1 . . . 0 ... 0
 .. .. ..   .. .. .. 
 .
 . ... ... . 
 .
 . ... ... . 

D1 =  0 . . . ni+
 . .. 
D =
 . . 
 0   2
 0 . . . n+j
 . 0  
 . .. .. ..   . .. .. .. 
 .. ... . . .   .. ... . . . 
0 ... 0 . . . nm1 + 0 ... 0 . . . n+m2

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Profils Lignes

ni,j
Tableau des profils lignes d’éléments ni+ donné par :
On considère les profils lignes comme m1 points dans Rm2 .
Chacun de ces points est affecté d’un poids proportionnel à sa
fréquence marginale :
Centre de gravité du nuage de points :

gl =

Les m1 profils lignes appartiennent à un sous-espace W2 de


dimension m2 − 1 défini par :

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Profils Colonnes

ni,j
Tableau des profils colonnes d’éléments n+j donné par :
On considère les profils lignes comme m2 points dans Rm1 .
Chacun de ces points est affecté d’un poids proportionnel à sa
fréquence marginale :
Centre de gravité du nuage de points :

gc =

Les m2 profils colonnes appartiennent à un sous-espace W1 de


dimension m1 − 1 défini par :

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Métrique du χ2 , Indépendance

♣ Dans le cas de l’indépendance statistique, on a la relation :


Pour calculer la distance entre deux profils lignes i et i0 , on utilise
la formule :

dχ2 2 (i, i0 ) =

Il s’agit de la distance basée sur la métrique Ml donnée par

Ml =

Cette métrique revient là-encore à donner autant d’importance à


chacune des variables.

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Métrique du χ2 , Indépendance
Pour calculer la distance entre deux profils colonnes j et j0 , on
utilise la formule :

dχ2 2 (j, j0 ) =

Il s’agit de la distance basée sur la métrique Mc donnée par

Mc =

La quantité ϕ2 mesure l’écart à l’indépendance :

ϕ2 = · · · = · · · = . . .

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Propriétés de la distance du χ2

Proposition : Étant données deux colonnes de N, j et j0 ayant le


même profil, si l’on regroupe ces 2 colonnes en une seule d’effectif
nij + nij0 pour chacune des lignes i, alors les distances entre profils
lignes est inchangée.
Preuve : . . .
♣ Cette propriété est-elle vraie pour la métrique euclidienne ?
Proposition : ϕ2 correspond à la fois à l’inertie des profils lignes par
rapport à gl , mais également à l’inertie des profils colonnes par
rapport à gc .

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Analyse en composantes principales des deux nuages


de profils

ACP profils lignes ACP profils colonnes


Données X = D−11 N Données X = D−12 N
0
−1 −1
Métrique M = nD2 Métrique M = nD1
Poids D = Dn1 Poids D = Dn2
Nous verrons que ces deux ACP amènent à des résultats
parfaitement duaux l’un de l’autre.

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

ACP non centrées et facteur trivial

Remarques et propriétés
0gl est orthogonal à W1 pour la métrique du χ2 .
♣ kgl kχ2 =
Proposition : g (gl ou gc ) est vecteur propre associé à la valeur
propre 1.
Il est donc à chaque fois inutile de préciser ce résultat dans les
AFC.

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

ACP non centrées et facteur trivial


On peut montrer que les facteurs principaux sont :
ACP profils lignes ACP profils colonnes
Facteurs Principaux Facteurs Principaux

VP de D−1 0 −1
2 N D1 N VP de D−1 −1 0
1 ND2 N

Composantes principales Composantes principales

VP de D−1 −1 0
1 ND2 N VP de D−1 0 −1
2 N D1 N

Normalisés par Normalisés par


D1 D2
a0 a=λ b0 b=λ
n n
Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances
Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

ACP non centrées et facteur trivial

Les 2 analyses conduisent aux mêmes valeurs propres.


Les facteurs principaux de l’une sont les composantes
principales de l’autre.
Les coordonnées des points-lignes et points-colonnes
s’obtiennent en cherchant les vecteurs propres des produits des
deux tableaux de profils

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Contributions

Cercle de corrélation : aucun intérêt dans le contexte de


variables qualitatives
On utilise les contributions des profils lignes ou profils colonnes :
m1
X
λ= ni+ a2i
i=1

ni+ 2 n+j 2
n ai n bj
CTR(i) = CTR(j) =
λ λ

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Contributions

Formules de transition :
1 1
b = √ D−1 0
2 N a a = √ D−1
1 Nb
λ λ
Autrement dit :
1 m 2 m
1 X nij 1 X nij
bj = √ ai ai = √ aj
n
λ i=1 j+ n
λ i=1 +i

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Reconstitution des données

Si m1 < m2 , en éliminant la valeur propre 1, on a :


1 −1
mX
2
ϕ = λk
k=1

Les pourcentages de variance sont égaux à :

%Vark =

La formule de reconstitution est :

nij =

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Données AGR concernent les exploitations agricoles


de la région Midi-Pyrénées.

Elles proviennent des ”Tableaux Economiques de Midi-Pyrénées”,


publiés par la Direction Régionale de Toulouse de l’INSEE, en 1996
(données relatives à l’année 1993 ; chiffres arrondis à la dizaine
près).
Les 73 000 exploitations ont été ventilées dans une table de
contingence selon le département (en lignes, 8 modalités) et la SAU
(Surface Agricole Utilisée, en colonnes, 6 classes).
Départements : ARIE = Ariège ; AVER = Aveyron ; H.G. =
Haute-Garonne ; GERS = Gers ; LOT = Lot ; H.P. = Hautes-Pyrénées ;
TARN = Tarn ; T.G. = Tarn-et-Garonne.
SAU : inf05 = moins de 5 hectares ; s0510 = entre 5 et 10 hectares... ;
sup50 = plus de 50 hectares.

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Représentations graphiques
0.4

0.3
SINF1

h.g.
S1_5

0.2 arie

A
x
e 0.1 S_100
2
S50_99

gers

0.0
h.p.

S20_50 t.g.
S10_20
lot
tarn
-0.1

aver
S5_10

-0.2
-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
Axe 1

F IG .: Biplot isométrique des données AGR.

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances


Tableau de contingence, nuage associé
Métrique du χ2 , Indépendance
ACP des nuages de profils
Représentations graphiques

Interprétation

♣ Quelles sont les variables qui sont croisées entre elles ?


♣ Que met en évidence le premier axe ?
♣ Que met en évidence le second axe ?

Sébastien Gadat Séance 2: Analyse Factorielle des Correspondances

Vous aimerez peut-être aussi