Analyse de données – Partie III : AFC
Analyse Factorielle des Correspondances (AFC)
Angelina Roche
Executive Master Statistique et Big Data
Analyse de données – Partie III : AFC
Plan du cours
Profils lignes, profils colonnes et modèle d’indépendance
Axes principaux
Aides à l’interprétation
Pour aller plus loin : ACM
Analyse de données – Partie III : AFC
Exemple : attitude à l’égard du travail féminin en 1970
Réponse à deux questionnaires 1 :
I Parmi les trois modèles suivants, quel est celui qui se rapproche
le plus de l’image idéale que vous vous faites d’une famille.
Une famille où les deux conjoints ont un métier qui les
absorbent autant l’un que l’autre et où les tâches ménagères et
les soins aux enfants sont partagés entre les deux.
Une famille où la femme a une profession moins absorbante
que celle de l’homme et où elle assure une plus grande part des
tâches ménagères et des soins aux enfants.
Une famille où l’homme seul exerce une profession et où la
femme reste au foyer.
1. Source : Tabard, N. (1974). Besoins et aspirations des familles et des
jeunes. CREDOC. Paris.
Analyse de données – Partie III : AFC
Exemple : attitude à l’égard du travail féminin en 1970
I En distinguant la période où les enfants sont petits et celle où
tous les enfants vont à l’école, quel est selon vous le type
d’activité qui convient le mieux à une mère de famille :
au foyer,
travail extérieur à mi-temps,
travail extérieur à plein temps.
Analyse de données – Partie III : AFC
Exemple : attitude à l’égard du travail féminin en 1970
Figure: Tableau croisé des réponses aux questions reproduit dans Husson,
Lê, Pages, Analyse de données avec R.
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Plan
Profils lignes, profils colonnes et modèle d’indépendance
Axes principaux
Aides à l’interprétation
Pour aller plus loin : ACM
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Notations et tableau de contingence
I On dispose pour n individus de leurs valeurs pour deux
variables qualitatives V1 et V2 .
I V1 présente I modalités (= valeurs possibles) et V2 en possède
J.
I xij : nombre d’individus possédant la modalité i de V1 et j de
V2 .
I Tableau croisé (= tableau de contingence) : (xij )1≤i≤I ,1≤j≤J .
I Marges :
J
X I
X I X
X J
xi• = xij , x•j = xij et n = x•• = xij .
j=1 i=1 i=1 j=1
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Tableau de probabilités et probabilités marginales
I Tableau dont les termes sont :
xij
fij = .
n
I Probabilités marginales :
J
X I
X I X
X J
fi• = fij , f•j = fij et 1 = f•• = fij .
j=1 i=1 i=1 j=1
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Effectifs théoriques
I Si les variables V1 et V2 sont indépendantes alors, pour tous i
et j :
P (V1 = i et V2 = j) = P (V1 = i) × P (V2 = j) .
I Dans ce cas : on s’attend à ce que, pour tous i et j :
fij ≈ fi• f•j ou de même xij (= nfij ) ≈ nfi• f•j
I L’écart entre le tableau croisé (xij )1≤i≤I ,1≤j≤J et le tableau dit
des effectifs théoriques (nfi• f•j )1≤i≤I ,1≤j≤J mesure l’écart à
l’indépendance.
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Effectifs théorique – données sur travail des femmes
I Effectifs observés :
[Link] trav..à.[Link] trav..[Link]
2 conj. tr. également 13.00 142.00 106.00
trav. mari + absorbant 30.00 408.00 117.00
seul le mari trav. 241.00 573.00 94.00
I Effectifs théoriques d’indépendance :
rester au foyer trav. à mi-temps trav. plein temps
2 conj. tr. également 43.00 170.00 48.00
trav. mari + absorbant 91.40 361.50 102.10
seul le mari trav. 149.60 591.50 167.00
Analyse de données – Partie III : AFC
Profils lignes, profils colonnes et modèle d’indépendance
Test du χ2
I
I X
J
X (effectifs observés − effectifs théoriques)2
χ2obs =
effectifs théoriques
i=1 j=1
I X
J
X (xij − nfi• f•j )2
= .
nfi• f•j
i=1 j=1
I Sous l’hypothèse d’indépendance, la statistique χ2obs suit une
loi dite du χ2 à (I − 1) × (J − 1) degrés de liberté.
p-valeur = PV1 ⊥V2 χ2 ≥ χ2obs .
I
I On considère que les variables V1 et V2 sont dépendantes si
p-valeur ≤ 5%.
Analyse de données – Partie III : AFC
Axes principaux
Plan
Profils lignes, profils colonnes et modèle d’indépendance
Axes principaux
Aides à l’interprétation
Pour aller plus loin : ACM
Analyse de données – Partie III : AFC
Axes principaux
Nuages des profils lignes et colonnes
I Nuage des profils lignes
NI := {(fi1 /fi• , ..., fiJ /fi• ), i = 1, ..., I } ⊂ RJ .
On attribue à chaque ligne le poids pi = fi• , point moyen :
GI = (f•1 , ...., f•J ).
I Nuage des profils colonnes
NJ := {(f1j /f•j , ..., fIj /f•j ), j = 1, ..., J} ⊂ RI .
On attribue à chaque colonne le poids pj = f•j , point moyen :
GJ = (f1• , ...., fI • ).
Analyse de données – Partie III : AFC
Axes principaux
Axes principaux
I On procède ensuite exactement comme pour l’ACP pour la
recherche des axes principaux (maximisation de l’inertie
projetée).
I Le nombre d’axes maximum pour représenter parfaitement un
tableau croisé de taille I × J est min{I − 1, J − 1} car :
I la somme des coordonnées d’un profil est égale à 1 : NI
appartient donc à un sous-espace de dimension J − 1 de RJ ,
I NI contient I points : il est donc possible de le représenter
parfaitement avec I − 1 dimensions.
Analyse de données – Partie III : AFC
Axes principaux
Projection des nuages des profils lignes et colonnes
CA factor map
2 conj. tr. également
0.2
0.1
Dim 2 (13.71%)
seul le mari trav.
0.0
-0.1
-0.2
trav. mari + absorbant
-0.6 -0.4 -0.2 0.0 0.2 0.4
Dim 1 (86.29%)
CA factor map
0.3
0.2
trav..[Link] [Link]
Dim 2 (13.71%)
0.1
0.0
-0.1
trav..à.[Link]
-0.2
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
Dim 1 (86.29%)
Analyse de données – Partie III : AFC
Axes principaux
Représentation superposée des lignes et des colonnes
I Dualité des représentations de NI et NJ : il s’agit du même
tableau de données vu de 2 points de vue différents.
,→ même inertie totale χ2 /n,
,→ inertie projetée sur le k-ème axe factoriel de NI = inertie
projetée sur le k-ème axe factoriel de NJ = λk (propriété
admise),
,→ relations (admises) entre les coordonnées sik (resp. tjk ) des
projections des profils lignes (resp. colonnes) sur les axes
factoriels (propriété barycentrique) :
J I
1 X fij k 1 X fij k
sik = √ tj et tjk = √ s .
λk j=1 fi• λk i=1 f•j i
Analyse de données – Partie III : AFC
Axes principaux
Représentation superposée des lignes et des colonnes
CA factor map
0.4
2 conj. tr. également
0.2
trav..[Link] [Link]
Dim 2 (13.71%)
seul le mari trav.
0.0
trav..à.[Link]
trav. mari + absorbant
-0.2
-0.4
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
Dim 1 (86.29%)
Analyse de données – Partie III : AFC
Aides à l’interprétation
Plan
Profils lignes, profils colonnes et modèle d’indépendance
Axes principaux
Aides à l’interprétation
Pour aller plus loin : ACM
Analyse de données – Partie III : AFC
Aides à l’interprétation
Inertie projetée (valeurs propres)
I Particularité de l’AFC : pour tout k, λk ≤ 1.
I λ1 = 1 → liaison très forte entre les variables.
I Données sur le travail féminin :
eigenvalue percentage of variance cumulative percentage of variance
dim 1 0.12 86.29 86.29
dim 2 0.02 13.71 100.00
Analyse de données – Partie III : AFC
Aides à l’interprétation
Contribution et qualité de représentation
I Sélectionner les points les plus contributifs ou les mieux
représentés peut aider à interpréter un axe.
I Lorsqu’on s’intéresse à une modalité en particulier, on peut
regarder l’axe dans lequel elle s’interprète le mieux.
Coordonnées Contribution Qualité
Dim 1 Dim 2 Dim 1 Dim 2 Dim 1 Dim 2
2 conj. tr. également -0.56 0.23 40.43 44.43 0.85 0.15
trav. mari + absorbant -0.24 -0.17 16.37 51.44 0.67 0.33
seul le mari trav. 0.31 0.04 43.20 4.13 0.99 0.01
Coordonnées Contribution Qualité
Dim 1 Dim 2 Dim 1 Dim 2 Dim 1 Dim 2
[Link] 0.62 0.18 53.91 29.61 0.92 0.08
trav..à.[Link] -0.00 -0.10 0.01 34.85 0.00 1.00
trav..[Link] -0.54 0.19 46.08 35.53 0.89 0.11
Analyse de données – Partie III : AFC
Aides à l’interprétation
Éléments supplémentaires
I Possibilité d’ajouter dans la représentation des profils, des
informations d’un autre tableau croisant les modalités d’une
nouvelle variable qualitative V3 avec V1 ou V2 .
I Pour cela, on calcule les profils lignes ou colonnes du tableau
qui est ensuite ajouté à le représentation des nuages des profils
lignes ou colonnes.
Analyse de données – Partie III : AFC
Aides à l’interprétation
Exemple – données sur le travail féminin
Analyse de données – Partie III : AFC
Aides à l’interprétation
Exemple – données sur le travail féminin
CA factor map
0.4
2 conj. tr. également
trav..[Link] [Link]
0.2
[Link]é[Link]
Dim 2 (13.71%)
seul le mari trav.
[Link]é[Link]è[Link]
0.0
[Link]é[Link].à.[Link]
[Link]é[Link]ô[Link]
trav..à.[Link]
trav. mari + absorbant
-0.2
-0.4
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6
Dim 1 (86.29%)
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Plan
Profils lignes, profils colonnes et modèle d’indépendance
Axes principaux
Aides à l’interprétation
Pour aller plus loin : ACM
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Analyse des correspondances multiples
I S’applique à des tableaux croisant n individus en ligne et p
variables qualitatives en colonnes.
I On note xij la modalité de l’individu i pour la variable j ayant
Kj modalités.
I À partir de la donnée de (xij )1≤i≤n,1≤j≤p , on construit le
tableau disjonctif complet (TDC) :
T = (tik )1≤i≤n,1≤k≤K1 +...+KJ , où
k 1 si l’individu i possède la modalité k
ti =
0 sinon.
I L’ACM consiste à faire une AFC sur le TDC.
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Attitude à l’égard des OGM (I)
I Les données :
I Enquête (questionnaire) menée en 2008 sur 135 personnes
I Sujet : prise de position sur les OGM
I 2 groupes de questions :
I Lien aux OGM des personnes interrogées : 16 questions
(variables actives)
I Variables de signalétique : 5 questions (variables
supplémentaires)
I Objectifs :
I Typologie des individus selon leur rapport aux OGM
I Voir le lien avec les variables de signalétique
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Attitude à l’égard des OGM (II) : le questionnaire
Questions sur les OGM :
I Vous sentez-vous concerné.e par la polémique sur les OGM ?
beaucoup, moyennement, un peu, pas du tout
I Quelle est votre position quant à la culture d’OGM en France ?
favorable, plutôt défavorable, pas favorable du tout
I Quelle est votre position quant à l’incorporation de matière
première OGM dans les produits alimentaires destinés à
l’alimentation humaine ?
favorable, plutôt défavorable, pas favorable du tout
I Quelle est votre position quant à l’incorporation de matière
première OGM dans les produits alimentaires destinés à
l’alimentation animales ?
très favorable, favorable, plutôt défavorable, pas favorable du
tout
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Attitude à l’égard des OGM (III) : le questionnaire
I Avez-vous déjà participé à une manifestation contre les OGM ?
oui,non
I Faites-vous vous même la démarche de vous informer sur le
sujet ? oui, non
I Pensez-vous que l’utilisation d’OGM puisse permettre la
réduction d’usage des fongicides ? oui, non
I Pensez-vous que l’utilisation d’OGM puisse permettre la
réduction des problèmes de famine dans le monde ? oui, non
I Pensez-vous que l’utilisation d’OGM puisse permettre
l’amélioration des conditions de vie des agriculteurs ? oui, non
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Attitude à l’égard des OGM (IV) : le questionnaire
I Pensez-vous que l’utilisation d’OGM puisse permettre de
futurs progrès scientifiques ? oui, non
I Pensez-vous que les OGM représentent un éventuel danger
pour notre santé ? oui, non
I Pensez-vous que les OGM représentent une menace pour
l’environnement ? oui, non
I Pensez-vous que les OGM représentent un risque économique
pour les agriculteurs ? oui, non
I Pensez-vous que les OGM représentent un procédé scientifique
inutile ? oui, non
I Pensez-vous que nos grand-parents avaient une alimentation
plus saine ? oui, non
Analyse de données – Partie III : AFC
Pour aller plus loin : ACM
Attitude à l’égard des OGM (IV) : le questionnaire
Questions de signalétique :
I Sexe : masculin, féminin
I Catégorie socio-professionnelle :
agriculteur, étudiant, ouvrier, carde, fonction publique, libéral,
technicien, commerçant, autre actif, non actif, retraité
I Age : -25 ans, 25-40 ans, 40-60 ans, +60 ans
I Exercez-vous des études, un métier en rapport avec
l’agriculture ou la pharmaceutique ? oui, non
I A quel parti politique vous identifiez-vous le plus ? extrême
gauche, verts, PS, centre, UMP, FN