Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
SID34 - Apprentissage statistique non supervisé
Chapitre II : Analyse factorielle des correspondances
Abou DIENG, PhD
Statistitien - Economiste / Data Scientist
[Link]@[Link]
Ecole Supérieure Polytechnique (ESP) - Nouakchott
Statistique et ingénierie de données - S3
7 novembre 2022
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 1 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Outline
Introduction du chapitre
Concepts et notation
Fréquences et fréquences relatives
Poids des lignes et colonnes
Profils lignes et profils colonnes
Distances entre les profils
Independance
L’AFC, quelles sont les étapes ?
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 2 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Introduction
• Au chapitre précédent nous avons vu que l’analyse en
composante principale (ACP) pouvait permettre de visualiser,
de découvrir une structure ou réduire la dimension
d’ensembles de plusieurs variables quantitatives.
• Dans ce chapitre, nous verrons comment il est aussi possible
de le faire lorsque les variables sont catégorielles.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 3 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Introduction
Definition
• L’analyse factorielle des correspondances a pour but l’étude de
la relation de dépendance qui existe entre deux variables
qualitatives. La correspondance ou dépendance est illustrée
par des représentations graphiques.
• L’AFC permet de répondre à deux questions :
• Y-a-t-il un lien entre les deux caractères étudiés ?
• Si oui, comment se comporte un facteur par rapport à l’autre
facteur ?
• Entre autre l’AFC permet explorer un tableau de contingence
volumineux !!
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 4 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Introduction
• L’AFC permet de résumer et de visualiser l’information
contenue dans le tableau de contingence formé par les deux
variables catégorielles. Le tableau de contingence contient les
fréquencesformées par les deux variables.
• Ces fréquences constituent les éléments d’une matrice, de
dimensions n lignes et p colonnes, n et p représentant les
nombres de modalités relatives aux deux critères pris en
considération.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 5 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Introduction
• Les lignes et les colonnes sont de même nature, elles jouent
un rôle symétrique contrairement à la matrice des données
pour une analyse en composantes principales, où les lignes
correspondent aux individus et les colonnes aux variables.
• Le principe de l’AFC est identique à celui de l’ACP, à savoir
identifier un petit nombre de dimensions pour simplifier et
interpréter un ensemble de données relativement important
tout en minimisant au maximum la perte d’information.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 6 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Exemple
L’analyse factorielle des correspondances sera illustrée à partir de
l’exemple suivant :
Exemple
On s’intéresse à la relation entre la situation de l’activité principale
des chefs de ménages et leur situation matrimoniale de 13661
ménages. Les données sont résumées dans le tableau suivant. Les
données sont issues de l’enquête de la demogrpahie en 2013
(ONS).
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 7 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Exemple
Il serait intéressant de voir si des relations existent entre les
modalités des deux variables, aussi de faire une représentation
visuelle des données qui fait ressortir les associations les plus fortes.
Table – 1 : Tableau de frequence des situations d’activité et maritale
Jamais marié Monog Polygame Divorcé Veuf Total
Actif 207 7363 344 623 616 9153
Chômeur 16 332 8 48 23 427
Inactif 74 2310 116 438 1143 4081
Total 297 10005 468 1109 1782 13661
Source : ONS, 2013
Interpretation ?
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 8 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Exemple : Interpretation
• Les resultats montrent que les chefs de ménages monogames
ont tendance à être plus souvent en situation active et que les
chefs de ménages veuf(ve) sont plus susceptibles être inactifs.
• Nous sommes en mesure de le constaterd’une part parce que
l’idée est assez intuitive et d’autre part parce que le tableau
est de très petite dimension.
• Decrire le lien entre deux variables qualitatives est beaucoup
plus difficile lorsque le nombre de modalités est plus grand.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 9 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
• Dans l’analyse des correspondances, nous exploiterons la
notion de distance entre les lignes et de distance entre les
colonnes pour illustrer l’ensemble des modalités sur un même
graphique afin de visualiser des relations entre des modalités.
• On cherchera à représenter visuellement les modalités des
deux variables dans le même plan de façon à ce que deux
modalités liées positivement (deux modalités pour lesquelles
l’effectif est plus grand) soient près l’une de l’autre.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 10 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Concepts et notation
Fréquences et fréquences relatives
L’analyse factorelle en correspondances se fait lorsque l’on a deux
variables catégorielles X (avec n modalités) et Y (avec p
modalités).
• Soit K = kij le tableau de fréquence où kij est le nombre
d’individus appartenant à la catégorie i de X et à la catégorie j
de Y.
• Comme les fréquences sont proportionnelles à la taille de
l’échantillon, il est souvent plus pertinent de travailler avec le
tableau de fréquences relatives,
• Il s’agit du tableau : F = (fij )
dans lequel
kij
fij =
k..
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 11 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Fréquences et fréquences relatives
Table – 2 : Tableau des fréquences relatives
Jamais marié Monogame Polygame Divorcé(e) Veuf(ve)
Actif 0.015153 0.538980 0.025181 0.045604 0.045092
Chômeur 0.001171 0.024303 0.000586 0.003514 0.001684
Inactif 0.005417 0.169095 0.008491 0.032062 0.083669
Source : Nos calculs issus des données ONS, 2013
Interpretation ?
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 12 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Poids des lignes et colonnes
• Contrairement à l’ACP, les lignes et les colonnes sont
affectées de masses différentes
• Une modalité a d’autant plus de poids qu’elle a été observée
un grand nombre de fois
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 13 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Profils lignes et profils colonnes
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 14 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Distances entre les profils
• Quelle mesure de distance utiliser pour évaluer l’écart entre
profils ?
• On peut mesurer la distance entre deux profils en utilisant la
distance de khi2 :
p
1 nij nlj
d2 (i, l) = ∑ m·j ( ni· − nl· )2
j=1
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 15 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Independance
• Dans le cas d’un tableau de fréquences croisant deux variables, sous
l’hypothèse d’indépendance les fréquences relatives devraient être
telles qu’on ne s’éloigne pas trop de la relation. ∀i, j fij = fi. f.j
• Cette hypothèse est souvent testée à l’aide d’un test du χ2 . En
effet, on sait que sous l’hypothèse d’indépendance,
n p
(nij − tij )2
D2 = ∑∑ tij
i=1 j=1
= χ2(n−1)(p−1)
• Ce test nous permet de supposer qu’il y a un lien entre les deux
variables, mais il ne nous permet pas d’expliquer ou de décrire
davantage ce lien.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 16 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Analyse du nuage points – profils
Nuage de ponts profils lignes
De la même manière que l’ACP s’intéresse aux points individus et
aux points variables, l’AFC s’intéresse aux points profils colonnes
pour en proposer des projections orthogonales sur les plans
factoriels.
• Chaque ligne est associée aux profils lignes i (f1/i ...fj/i ...fp/i ) ,
ce point est affecté du poids fi.
• Le centre de gravité du nuage est représenté par le point
profils-lignes moyen GL
• Le centre de gravité est représenté par le point moyen GL
(f.1 ...f.j ...f.p
Remarque
la distance entre deux points profils-ligne est d’autant plus faible
qu’ils correspondent à des profils-lignes voisins.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 17 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Analyse du nuage points – profils
Nuage de ponts profils lignes
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 18 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Analyse du nuage points – profils
Nuage de ponts profils colonnes
On procède par une démarche analogue a celle utilisé pour les
profils-lignes.
Exemple :
Question : Calculer l’inertie totale du nuage des points
profils-lignes. et progils-colonnes
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 19 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Valeurs propres / Variances
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 20 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Analyse du nuage points – profils
Représentation graphique et interprétation
• Une représentation graphique des points profils-lignes (graphe
direct)
• Une représentation graphique des points profils-colonnes (plan
factoriel dual)
• Une superposition de deux graphes précédents (graphe du bi
plot)
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 21 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Une représentation graphique des points profils-lignes
(graphe direct)
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 22 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Une représentation graphique des points profils-colonnes
(plan factoriel dual)
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 23 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Une superposition de deux graphs précédents (graphe du bi
plot)
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 24 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Contributions des lignes et des colonnes au dimension
La contributions des lignes et des colonnes au dimension n’est rien
d’autre l’inertie relative. Sachant que :
I = (Gl − p)2 fi.
La contribution de la ie point-ligne sur l’axe j est :
(Gl − p)2 fi.
λj
Similairement, l’inertie absolue du ke point-colonne sur l’axe j est
(Gl − p)2 f.k
λj
Avec λj est égale à l’inertie totale.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 25 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Contributions des lignes et des colonnes au dimension
• Les lignes/colonnes qui contribuent le plus à Dim.1 et Dim.2
sont les plus importantes pour expliquer la variabilité dans le
jeu de données.
• Les lignes / colonnes qui ne contribuent pas beaucoup à
aucune dimension ou qui contribuent aux dernières dimensions
sont moins importantes.
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 26 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Contributions des lignes et des colonnes au dimension
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 27 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Contributions des lignes et des colonnes au dimension
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 28 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Contributions des lignes et des colonnes au dimension
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 29 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Qualité de la représentation des lignes et des colonnes
• La qualité de la représentation d’une modalité est liée à la
distance entre les coordonnées de cette modalité et les axes
du graphique.
• On la mesure par le cosinus de l’angle entre le point et l’axe
en question.
• Le cos2 mesure le degré d’association entre les lignes /
colonnes et un axe particulier.
• Les valeurs de cos2 sont comprises entre 0 et 1. La somme des
cos2 pour les lignes sur toutes les dimensions de l’AFC est
égale à 1
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 30 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
Qualité de la représentation des lignes et des colonnes
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 31 / 32
Introduction du chapitre
Concepts et notation Ecole Supérieure Polytechnique
L’AFC, quelles sont les étapes ?
L’AFC, quelles sont les étapes ?
1 Analyse du tableau des correspondances.
2 Choix du nombre de dimensions.
3 Interprétation des dimensions.
• Les contributions des lignes et des colonnes au dimension
• Qualité de la représentation des lignes et des colonnes
• Représentation graphique
Abou DIENG (ESP-SID) 7 novembre 2022 Econométrie I 32 / 32