Année Universitaire 2021-2022
Data Science
Chapitre 2 : Analyse Factorielle
des Correspondances (AFC)
Zouaoui Slim
zou_slim@[Link]
Sommaire
Analyse en composantes principales
Analyse factorielle de correspondance
Méthodes de classification
modélisation linéaire simple et multiple [Link]
Analyse discriminante
Arbre de Décision
réseaux de neurones
[Link]
Deep Learning
AFC
Deux variables qualitatives :
L'analyse factorielle des correspondances (AFC) est une méthode exploratoire
d'analyse des tableaux de contingences, c'est-à-dire aux tableaux de comptages
obtenus par le croisement de deux variables qualitatives.
Le tableau de contingence suivant indique la répartition, en fonction de la
Catégorie et les classes d'âge de 1000 employés dans une entreprise
Variable en ligne : Age
- < 30 ans
- [ 30 ; 45[
- [ 45 ; 60 [
Variable en colonne : Catégorie
- Ouvriers
- Techniciens
- Cadres
Analyse Statistique : Tableau de Contingence
Tableau de contingence en Effectif
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 300 50 100 450
[ 30 ; 45 [ 250 80 20 350
[45 ; 60 [ 50 120 30 200
Total 600 250 150 1000
Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Analyse Statistique : Tableau de Contingence
Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,20
Total 0,60 0,25 0,15 1,00
Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Á l’intersection d’une ligne et d’une colonne, nous avons le nombre kij
d’employés ayant simultanément la classe d'âge i et la catégorie j. Le total
marginal ki. est le nombre des employés ayant la classe d'âge i, alors que le total
marginal k.j est le nombre des ordinateurs ayant la finition de fabrication j.
Qui, en termes de fréquences relatives, donnent lieu aux relations :
On se propose d’étudier les éventuelles relations existant entre ces deux
variables nominales. Donc on pose la question :
Y-a-t-il indépendance entre la classe d'âge et la catégorie de des
employés ? Sinon, quels types d’associations existent entres ces deux variables
qualitatives.
Analyse Statistique : Profils lignes et colonnes
Tableau de Profils lignes
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 66,7 11,1 22,2 100
[ 30 ; 45 [ 71,4 22,9 5,7 100
[45 ; 60 [ 25,0 60,0 15,0 100
Total 60,0 25,0 15,0 100
Tableau de Profils colonnes
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 50,0 20,0 66,7 45,0
[ 30 ; 45 [ 41,7 32,0 13,3 35,0
[45 ; 60 [ 8,3 48,0 20,0 20,0
Total 100 100 100 100
Analyse Bidimensionnelle entre deux variables
qualitatives
Hypothèse d’indépendance :
Tableau de fréquences théoriques Tableau de fréquences empiriques
Ouvriers techniciens Cadre Total Ouvriers techniciens Cadre Total
< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2
Total 0,60 0,25 0,15 1 Total 0,60 0,25 0,15 1
Naturellement, même sous l’hypothèse d’indépendance, une telle relation n’est
qu’approximativement vraie. Le classique test deux χ2 pour les tables de
contingence permet précisément d’apprécier l’écart entre les lois empiriques fij et
fi. * f.j
Analyse Bidimensionnelle entre deux variables
qualitatives
Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,2
Total 0,60 0,25 0,15 1
Tableau de fréquences théoriques
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,27 0,11 0,07 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2
Total 0,6 0,25 0,15 1
Hypothèse d’indépendance :
Le test de χ2 est définit par :
H0 : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes
La statistique du test est définie par :
d2=
n
N .
p f ij f i. f. j
2
d 2 2
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre
s’appelle le nombre de degrés de liberté avec :
= (nombre de modalités de la première variable -1) x
(nombre de modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque
d’erreur α si d2 est supérieur à la valeur critique dans la table de
χ2 à (n-1)*(p-1) degré de liberté .
= [Link](0,05;4)
AN : d2 = 214.5 χ2 (n-1)(p-1) =
χ2 (3-1)*(3-1) = χ2 4 = 9.49
d2 >> χ2 4 on accepte H1 Les deux variables sont
dépendantes
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:
Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des coordonnées
d'un point dans un espace à q dimensions. On obtient ainsi le nuage des individus-lignes. On
définit de même le nuage des individus-colonnes à partir du tableau des fréquences colonnes.
On s'intéresse alors aux directions de "plus grande dispersion" de chacun de ces nuages de
points. Mais, pour mesurer la "distance" entre deux individus. La distance euclidienne usuelle
entre deux profils-lignes traduit bien la ressemblance ou la différence entre les deux marques
des ordinateurs sans tenir compte des effectifs totaux de ces modalités :
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:
Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
finition TB (Très Bien).
Pour remédier à cela, on pondère chaque écart par l’inverse de la masse de la colonne et l’on
calcule une nouvelle distance appelée la distance du χ2 :
On définit de la même manière la distance entre les profils-colonnes par :
AFC : Association entre les modalités
Construction des nuages
Pour l’analyse d’un tableau de contingence, nous raisonnerons en termes de profils, ce
qui permet de rendre comparables les modalités d’une même variable.
Nuage des n lignes
L’ensemble des profils-lignes forme un nuage de n points dans l’espace des p colonnes et
représente ici le nuage des 4 modalités de couleurs des yeux. Chaque point i a pour
coordonnées dans IRp {fij /fi. ; j = 1…..p}
Nuage des p colonnes
De la même façon, l’ensemble des p profils colonnes constitue un nuage de p points dans
l’espace de n lignes et représente ici le nuage de 4 modalités de couleur des cheveux. Les
coordonnées dans IRn du point j sont données par : {fij /f.j; j = 1…..n}
AFC : Association entre les modalités
Construction des nuages
Contrairement à l’analyse en composantes principales, le tableau de données (tableau de
contingence) subit deux transformations, l’une en profils-lignes, l’autre en profils-colonnes, à
partir desquelles vont être construits les nuages de points dans IRn et IRp.
AFC : Association entre les modalités
Construction des nuages
Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :
- Les deux modalités Cadre et < 30
ans s’approchent,
- La catégorie la plus proche de la
classe d'âge [45,60[ est
« techniciens »
-