Année Universitaire 2021-2022
Analyse de données
Analyse de données
Analyse Factorielle des
Correspondances (AFC)
Analyse Factorielle des Correspondances (AFC)
L'analyse factorielle des correspondances (AFC) est une méthode exploratoire d'analyse
des tableaux de contingences, c'est-à-dire aux tableaux de comptages obtenus par le
croisement de deux variables nominales.
Le tableau de contingence suivant indique la répartition, en fonction de la marque et la
finition de fabrication, des 1000 ordinateurs :
Variable en ligne : Marque de l’ordinateur Tableau de contingence en Effectif
Finition
- HP : Hawlett-Packard Marque
TB B M Total
- ACER HP 798 6 66 870
ACER 7 5 5 17
- ASS : Assemblé ASS 56 7 50 113
Total 861 18 121 1000
Variable en colonne : Finition de fabrication
- TB : Très Bien
- B : Bien
- M : Moyenne
Analyse Factorielle des Correspondances (AFC)
Tableau de contingence en fréquences Tableau de profils‐lignes
Finition Finition
Marque Marque
TB B M Total TB B M Total
HP HP 91,7 0,7 7,6 100
0,798 0,006 0,066 0,87
ACER 41,2 29,4 29,4 100
ACER 0,007 0,005 0,005 0,017 ASS 49,6 6,2 44,2 100
ASS 0,056 0,007 0,05 0,113 Profil-moyen
86,1 1,8 12,1 100
Total
0,861 0,018 0,121 1
Tableau de contingence en pourcentages Tableau de profils‐colonnes
Finition Finition
Marque Marque TB B M Profil-
TB B M Total
moyen
HP 79,8% 0,6% 6,6% 87,0% HP 92,7 33,3 54,5 87,0
ACER 0,7% 0,5% 0,5% 1,7% ACER 0,8 27,8 4,1 1,7
ASS 5,6% 0,7% 5,0% 11,3% ASS 6,5 38,9 41,3 11,3
Total Total 100 100 100 100
86,1% 1,8% 12,1% 100,0%
Hypothèse d’indépendance :
Construisons le tableau de fréquences théoriques ( fi. * f.j ) sous
l’hypothèse d’indépendance.
Tableau de fréquences empiriques Tableau de fréquences théoriques
TB B M Total TB B M Total
HP 0,798 0,006 0,066 0,87 HP 0,749 0,016 0,105 0,870
ACER 0,007 0,005 0,005 0,017 ACER 0,015 0,000 0,002 0,017
ASS 0,056 0,007 0,05 0,113 ASS 0,097 0,002 0,014 0,113
TOTAL 0,861 0,018 0,121 1 TOTAL 0,861 0,018 0,121 1
Naturellement, même sous l’hypothèse d’indépendance, une telle
relation n’est qu’approximativement vraie. Le classique test deux χ2
pour les tables de contingence permet précisément d’apprécier
l’écart entre les lois empiriques fij et fi. * f.j
Hypothèse d’indépendance :
Le test de χ2 est définit par :
H0 : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes
La statistique du test est définie par :
f f i. f. j
2
d 2 2
n p
d2= N . ij
i 1 j 1 f i. f . j
En outre, le d2 suit une loi du khi-2 de paramètre ( s’appelle le
nombre de degrés de liberté) avec :
= (nombre de modalités de la première variable -1) x (nombre de
modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque d’erreur α
si d2 est supérieur à la valeur critique dans la table de χ2 à (n-1)*(p-1)
degré de liberté .
AN : d2 = 230.17 χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49
d2 >> χ2 4 on accepte H1 Les deux variables sont dépendantes
Hypothèse d’indépendance :
χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49
95%
5%
14
Distances entre profils. Métrique du χ2
Pour remédier à cela, on pondère chaque écart par l’inverse de la
masse de la colonne et l’on calcule une nouvelle distance appelée la
distance du χ2 :
2 2
1 f ij f i ' j 1
flij fli ' j
p p
d 2 (i, i ' )
j 1 f . j f i. f i '. j 1 f . j
On définit de la même manière la distance entre les profils-colonnes
par :
2
1 f ij f ij ' 2
fcij fcij '
1
n n
d 2 ( j, j ' )
i 1 f i. f . j f . j ' i 1 f i .
AFC : Association entre les modalités
Construction des nuages
Contrairement à l’analyse en composantes principales, le tableau de données (tableau de
contingence) subit deux transformations, l’une en profils-lignes, l’autre en profils-colonnes, à
partir desquelles vont être construits les nuages de points dans IRn et IRp.
Représentation Simultanée
Construction des nuages
Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
Représentation Simultanée
Représentation Simultanée
La représentation simultanée des différentes modalités de deux variables
qualitatives est la suivante :
Exemple pratique de AFC sous Python
Exemple pratique de AFC sous R
# tableau de contingence entre deux variables qualitatives
data=[Link]("[Link]", header=T, sep="\t")
TC=table(data$Marque,data$Finition)
addmargins(TC)
TCp=[Link](TC)
addmargins (TCp)
# tableau de profils‐lignes entre deux variables qualitatives
PL=[Link](TCp,1)
addmargins(PL,2)
# tableau de profils‐colonnes entre deux variables qualitatives
PC=[Link](TCp,2)
addmargins(PC,1)
# test de khi deux entre deux variables qualitatives et Analyse d’association
[Link](TC)
[Link](TC)$expected # tableau de contingence théorique
[Link](TC)$observed # tableau de contingence empirique
etude=CA(TC, ncp=2)