0% ont trouvé ce document utile (0 vote)
73 vues40 pages

Cours Afc

L'analyse factorielle des correspondances (AFC) est une méthode développée par J.P. Benzecri dans les années 1960 pour analyser les relations entre deux variables qualitatives à partir d'un tableau de contingence. L'AFC vise à réduire les données initiales et à représenter graphiquement les correspondances entre les modalités des variables. Elle permet d'identifier des typologies et de tester l'indépendance entre les variables à l'aide du test du chi-deux.

Transféré par

Abdellah Benhenya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
73 vues40 pages

Cours Afc

L'analyse factorielle des correspondances (AFC) est une méthode développée par J.P. Benzecri dans les années 1960 pour analyser les relations entre deux variables qualitatives à partir d'un tableau de contingence. L'AFC vise à réduire les données initiales et à représenter graphiquement les correspondances entre les modalités des variables. Elle permet d'identifier des typologies et de tester l'indépendance entre les variables à l'aide du test du chi-deux.

Transféré par

Abdellah Benhenya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Analyse factorielle des

Chapitre 3 correspondances

1
Introduction

1. Introduction à  L’AFC fait partie de la famille des analyses factorielles . C’est une
l’analyse de
données technique utilisée par l’équipe de recherche du professeur J.P
Benzecri au début des années 1960.
2 . Analyse en
composante
 C’est une méthode qui permet d’analyser les correspondances des
principale modalités de deux variables qualitatives.

3 . Analyse  L’objectif de l’AFC, comme l’ ACP, est de réduire des données


factorielle des initiales.
correspondances
 L’ AFC S’ applique de préférence à des variables qualitatives
( dichotomiques, nominales ou ordinales). Ceci implique qu’elle
représente une technique d’analyse privilégiée de données issues
d’enquêtes ou de questionnaires.

2
Introduction

1. Introduction à
l’analyse de
données
 L’AFC s’appuie sur un tableau de donnés croisé à p lignes et q colonnes
( tableau de contingence ).
2 . Analyse en
composante
 Avant de préciser les principales étapes de l’AFC, il nous parait utile de
principale clarifier la notion du tableau de contingence( ou tableau croisé )

3 . Analyse
factorielle des
correspondances

3
Introduction

1. Introduction à
l’analyse de
données • À partir de ce tableau , on peut calculer le total des lignes et le total des
colonnes ainsi que la somme totale qui représente la taille de la
population ou de l’échantillon (n).
2 . Analyse en
composante
principale Concernant le total des lignes et des colonnes

3 . Analyse
factorielle des J
correspondances ni .  nik
I J
k 1
n  ni.  n. j
n. j  nkj i 1 j 1
k 1

4
Données: Tableau de contingence

1. Introduction à
l’analyse de
données
: Population décrite par deux caractères qualitatifs X et Y

2 . Analyse en
Tableau de contingence
composante
principale

3 . Analyse
factorielle des
correspondances

: individus tels que X prend la modalité et Y prend la modalité

5
Données: Tableau de contingence

1. Introduction à
l’analyse de n individus et 2 variables qualitatives
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

Distribution des n individus dans les I × J cases du tableau

6
Objectifs

1. Introduction à
l’analyse de
données

1) Trouver les correspondances entre les modalités X et


2 . Analyse en Y
composante
principale -Influence d’un caractère sur l’autre
-Mesurer l’influence
3 . Analyse
factorielle des -Chercher les correspondances entre les modalités des deux
correspondances caractères
2) Traduire ces informations sous formes de graphes

7
1. Introduction à Croisement de variables nominales : exemple
l’analyse de
données • Quelle est la C.S.P. du chef de famille ?
# Agriculteur # Patr indust commerce
2 . Analyse en
composante # Profession libérale/cadre
principale
#Cadre moyen #Employé #Ouvrier #Personnel de service
3 . Analyse #Autre
factorielle des • Quel est votre mode d'hébergement ?
correspondances
#Hôtel #Camping # Location / gîte #Famille / amis
Tableau des correspondances
1. Introduction à
l’analyse de Quelle est la C.S.P. Quel est votre mode d'hébergement ?
données
du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
Agriculteur 1 2 2 6 11
2 . Analyse en Patr indust commerce
composante
17 4 10 13 44
principale Profession libérale/ 23 6 26 24 79
Cadre moyen 12 17 25 32 86
Nomb
3 . Analyse Employ 10 32 29 35 106
factorielle des
d’ouvri
Ouvrier 7 20 8 9 44
correspondances
Personnel de service 0 8 2 12 22
Autre 31 22 25 34 112
Marge active 101 111 127 165 504

choix nombre d’ouvrier qui font le choix


location/gîte location/gîte 9

9
Du tableau de contingences au tableau de probabilités

1. Introduction à Modalité de Marge colonne


l’analyse de
V2 Probabilité marginale
données

2 . Analyse en
composante
principale
𝐽
Modalité de
3 . Analyse V1 𝑓 𝑖 . =∑ 𝑓 𝑖 𝑗
factorielle des 𝑥 𝑖𝑗
𝑗=1
correspondances 𝑓 𝑖𝑗 =
𝑛
ni. ni1  ni 2  ......  niJ
J
ni .  nik
Marge ligne 𝐼 k 1
Probabilité marginale
𝑓 . 𝑗 =∑ 𝑓 𝑖 𝑗 n. j  nkj
𝑖=1
k 1
10
Profiles lignes et colonnes

1. Introduction à
l’analyse de
données le tableau des profils lignes c’est le tableau des fréquences conditionnelles

Et le tableau des profils colonnes est


2 . Analyse en
composante
principale Profil ligne i = distribution conditionnelle de V2 sachant que l'on possède la
modalité i de V1
3 . Analyse
factorielle des L’AFC compare les profils lignes au profil moyen
correspondances
Profil ligne moyen=distribution marginale de V2 dans le tableau des profiles
lignes

11
Profiles lignes et colonnes
18,2% des agriculteurs
1. Introduction à choisissent le camping
l’analyse de
Profils lignes
données
Quelle est la C.S.P. Quel est votre mode d'hébergement ?
du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
2 . Analyse en
Agriculteur ,091 ,182 ,182 ,545 1,000 Choix des
composante agriculteu
principale Patr indust commerce ,386 ,091 ,227 ,295 1,000
Profession libérale/ ,291 ,076 ,329 ,304 1,000
3 . Analyse Cadre moyen ,140 ,198 ,291 ,372 1,000
factorielle des Employ ,094 ,302 ,274 ,330 1,000
correspondances Ouvrier ,159 ,455 ,182 ,205 1,000
Personnel de service ,000 ,364 ,091 ,545 1,000
Autre ,277 ,196 ,223 ,304 1,000
Masse ,200 ,220 ,252 ,327

Ce tableau permet de comparer les CSP


Le choix hôtel
Profiles lignes et colonnes
Profils colonnes

Quelle est la C.S.P. Quel est votre mode d'hébergement ?


1. Introduction à
l’analyse de du chef de famille ? Hôtel Camping Location / gîte Famille / amis Masse
données
Agriculteur ,010 ,018 ,016 ,036 ,022
Patr indust commerce ,168 ,036 ,079 ,079 ,087 Ce tableau
2 . Analyse en
composante Profession libérale/ ,228 ,054 ,205 ,145 ,157 permet de
principale
Cadre moyen ,119 ,153 ,197 ,194 ,171 comparer
Employ ,099 ,288 ,228 ,212 ,210 les
3 . Analyse
factorielle des Ouvrier ,069 ,180 ,063 ,055 ,087 modes
correspondances
Personnel de service ,000 ,072 ,016 ,073 ,044 d’héberge
Autre ,307 ,198 ,197 ,206 ,222 ment
Marge active 1,000 1,000 1,000 1,000

22,8% de ceux qui choisissent


l’hôtel sont de profession 13
libérale
13
Les profils lignes
• Métrique sur les profils lignes:
1. Introduction à
l’analyse de
Soient i et i’ deux profils lignes:
données
2
J
1  f ij fi' j 
d (i , i ' )  
 f  
f i '. 
2 . Analyse en
composante j 1 f. j  i. 
principale

nij J

i .  f ij
Où f ij  fet
3 . Analyse n
factorielle des j1
correspondances
2
J
1  f ij 
d (i , GI )  
  f. j 

j 1 f. j  f i. 
C’est le pourcentage que constitue les
Y tels
individus Y j que parmi lesX  X i
individus tels que

14
Exemple
500 entreprises décrits par :
1. Introduction à Région R1: Nord Secteur d’activité A1: Primaire
l’analyse de
données R2: Sud A2 : Secondaire
R3:Est A3 : Tertiaire
2 . Analyse en R4: Ouest
composante
principale

3 . Analyse
factorielle des
correspondances

15
1. Introduction à
l’analyse de
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

Tableau des profils lignes

2 2 2
25  1 2  25  1 6  5  1 3 
d ( R2 , R3 )            
8  2 11  7  4 11  2  4 11 
Profiles colonnes

1. Introduction à
l’analyse de Métrique sur les profils colonnes:
données
Soient j et j’ deux profils colonnes:
2
2 . Analyse en I
1  f f ij ' 
composante d ( j , j ' )   ij  
principale i 1 f i. 
 f. j f. j ' 

(j; )=
3 . Analyse
factorielle des nij J

correspondances
Où f ij  et f i .  f ij
n j1

(j; )=

2
I
1  f 
d ( j , G J )   ij  f i . 
i 1 f i. 
 f. j


17
Principe de l AFC

1. Introduction à
l’analyse de
données • Principe de l’AFC:

2 . Analyse en
composante Une AFC consiste à effectuer deux ACP:
principale
1. ACP sur le tableau des profils lignes:  Individu : Modalité de X

Variable : Modalité de Y
3 . Analyse
factorielle des 2. ACP sur le tableau des profils colonnes:  Individu : Modalité de Y
correspondances 
Variable : Modalité de X
3. On aura une projection plane des profils lignes.
4. On aura une projection plane des profils colonnes
5. Une superposition des deux projections
6. Dégager les correspondances entre modalités des deux caractères.

18
Objectif
1. Introduction à
l’analyse de
données
Bien que le tableau étudié soit de nature très différente de celui étudié en ACP, les
objectifs de l’AFC peuvent s’exprimer de manière analogue à ceux de l’ACP : on
2 . Analyse en cherche à obtenir une typologie des lignes, une typologie des colonnes et à relier
composante
principale ces deux typologies entre elles ; mais la notion de ressemblance entre deux lignes,
ou entre deux colonnes, est différente de celle de l’ACP.
3 . Analyse Deux lignes sont considérées comme proches si elles s’associent de la même
factorielle des façon à l’ensemble des colonnes, c’est-à-dire si elles s’associent trop (ou trop
correspondances
peu) aux mêmes colonnes ; les termes « trop » et « trop peu » sont pris en
référence à la situation d’indépendance. Symétriquement, deux colonnes sont
proches si elles s’associent de la même façon à l’ensemble des lignes.

19
Test d’indépendance de Khi deux

1. Introduction à
l’analyse de
données
Khi deux théorique
2 . Analyse en La décision se prends en utilisant un  2 test d’hypothèse avec un seuil de
composante
principale
signification de 1% , de 5% ou de 10 % On cherche la valeur critique de khi-
deux avec un degré de liberté de (I-1)(J-1)
3 . Analyse
factorielle des
correspondances

20
Test de Khi deux d’indépendance
Consiste à comparer le ꭓ2 lu sur la table et le ꭓ2 calculé (), à partir de la formule
1. Introduction à
l’analyse de suivante :
données n n
nij  i . . j
Avec représente l’effectif observé et représente l’effectif théorique n
2 . Analyse en Intensité de la liaison: = écart entre probabilités théoriques et observées
composante
principale
 Principe du test de khi-deux :
- On propose un seuil de signification de 1%, , de 5% ou de 10 % .
3 . Analyse - Deux hypothèse seront testés :
factorielle des
correspondances H0= les deux variables sont indépendantes
H1=les deux variables sont dépendantes
Nous rejetons l’hypothèse nulle (on conclut que la relation existe) si
>>

Remarque. Il convient de noter qu’on peut aussi calculer le khi- deux tout en se
basant sur les fréquences.

21
RAMCHOUN Hassan cours ADD 2021/2022
Test de Khi deux d’indépendance

1. Introduction à
l’analyse de
données  Ce test est significatif si la valeur du khi-deux est assez élevée avec une
probabilité inférieure au seuil de signification
2 . Analyse en
composante  On peut vérifier la significativité de ce test tout en comparant le khi-deux lu sur la
principale
table est le khi-deux calculé. Si ce dernier est supérieur au premier, le test précité
est significatif (on rejette H0)
3 . Analyse
factorielle des
correspondances  Si ce test n’est pas significatif , l’application de l’AFC n’ a aucun sens .
Ecart à l’indépendance et inertie

1. Introduction à Plus les données s’écartent de l’indépendance et plus les profils s’écartent de l’origine
l’analyse de Inertie (
données

 Etudier l’inertie de NI revient à étudier l’écart à l’indépendance


2 . Analyse en
composante
principale De même pour Inertie ( on a
Inertie (
Remarque:
3 . Analyse
factorielle des La quantité , notée , mesure l’intensité de la liaison entre deux variables
correspondances qualitatives (cette liaison est d’autant plus intense que les modalités de l’une
s’associent exclusivement aux modalités de l’autre) et non sa significativité (elle ne
dépend pas de l’effectif total) ;
l’indicateur , lui, mesure la significativité (une liaison forte peut ne pas être
significative si elle est observée sur très peu d’individus; une liaison faible peut être
significative si elle est observée sur beaucoup d’individus).
Détermination des axes factoriels

1. Introduction à
l’analyse de
La détermination des composantes principales de l’ACP se fonde sur la
données détermination des vecteurs et des valeurs propres de la matrices de corrélation .

2 . Analyse en Pour le cas de l’AFC, la détermination des axes factoriels est conditionnée par la
composante détermination des valeurs et des vecteurs propres de la matrice des distances des
principale
profils–lignes et de la matrice des distances des profils-colonnes. Les deux matrices
ont les mêmes valeurs propres non nulles.
3 . Analyse
factorielle des
correspondances
Tableau des profils lignes
1. Introduction à
l’analyse de
données b1 bj bp masse
2 . Analyse en
composante
a1
 
principale
 f ij 
3 . Analyse
ai

i
fj   fi.
factorielle des
correspondances  fi. 
an  
G=( f. j )= fJ
i
f J ( f1i ,..., f pi ) point modalité a i
25
Premier axe principal D1
1. Introduction à
l’analyse de
données • La droite D1 passe par le centre de gravité fJ
du nuage N(I) et est engendrée par le
2 . Analyse en
composante
principale
vecteur u1 vecteur propre normé associée à
la plus grande valeur propre l1.
3 . Analyse
factorielle des • La droite D1 maximise l’inertie des points du
correspondances
nuage projetés sur D1 qui vaut l1
Première composante
1. Introduction à
l’analyse de principale F1
données
• F1 est une nouvelle variable définie pour
2 . Analyse en
composante
chaque individu par la longueur
principale
algébrique de la projection de l’individu
3 . Analyse sur D1..
factorielle des
correspondances • F1 est une variable centrée de variance l1
Qualité globale de la
1. Introduction à première composante
principale.
l’analyse de
données

2 . Analyse en
• Part d’inertie expliquée :
composante
principale
Inertie expliquée par D1/Inertie totale
3 . Analyse
factorielle des
correspondances
Contribution des modalités ai à
1. Introduction à
l’analyse de
données
la composante
f F i 
2
2 . Analyse en
composante CTR1 i   i. 1
principale
1
3 . Analyse
factorielle des
correspondances Un profil ligne est d’autant plus important dans
la construction de l’axe que sa contribution est
élevée.
L’interprétation de l’axe s’appuie en priorité sur
les modalités à fortes contributions
Qualité de représentation des individus
1. Introduction à
sur le premier axe principal
l’analyse de
données

2 . Analyse en
• Est mesurée par le cosinus carré de l’angle
composante
principale
formé par l’individu et le premier axe
principal qui vaut :
3 . Analyse
factorielle des
correspondances 2
2 F (i )
cos  2 i
1
1
d ( fJ , fJ )
Étude des autres
dimensions
1. Introduction à
l’analyse de
données On cherche le deuxième axe principal
2 . Analyse en
D2 orthogonal à D1 passant au milieu
composante
principale du nuage N(I),puis D3 orthogonal à D1
3 . Analyse et D2 vérifiant le même critère, etc. …
factorielle des
correspondances Le nombre d’axes que l’on peut
construire est au plus égal à
r=inf(n-1, p-1)
Axes principaux
1. Introduction à
l’analyse de Les axes principaux D1,..., Dr passent par le centre de
données
gravité fJ et sont portés par les vecteurs propres u1,…,ur
2 . Analyse en associé aux valeurs propres l1,..., lr rangées par ordre
composante
principale décroissant
3 . Analyse
factorielle des Les composantes principales
correspondances
Les composantes F1,…,Fr sont les coordonnées
i
f
des projections des profils lignes J sur les axes
D1,..., Dr
Propriétés
1. Introduction à
l’analyse de • Les composantes principales sont
centrées et non corrélées entres elles
données

2 . Analyse en
composante
principale
• L’inertie expliquée par chaque axe
principale = variance de la
3 . Analyse
factorielle des
composante associée
correspondances
• Les composantes sont classées par
ordre décroissant des variances
Distance entre profils lignes exprimée en
fonction des composantes
1. Introduction à
l’analyse de
données
r
2 . Analyse en
composante
d ( f , f )  ( Fh (i )  Fh (l ))
2
J
i
J
l 2
principale
h 1
3 . Analyse
factorielle des
r nombre de composante s
correspondances
La distance du khi2 entre profiles correspond à la
distance euclidienne de ces mêmes profils
exprimée en fonction des composantes
Exemple (suite)
1. Introduction à
l’analyse de
Résumé
données

Valeur singulière de 90,8%


2 . Analyse en Proportion d'inertie confiance de la
composante dépenda
Corrélatio
principale nce est
Valeur Pris en n
restituée
Dimension singulière Inertie Khi-deux Sig. compte Cumulé Ecart-type 2 par le
3 . Analyse 1 ,311 ,097 ,707 ,707 ,039 ,005
factorielle des plan
correspondances 2 ,166 ,027 ,201 ,908 ,044 principal
3 ,112 ,013 ,092 1,000
Total ,137 68,884 ,000a 1,000 1,000
a. 21 degrés de liberté

Décomposition Signification du test 0,097/0,137


de l’inertie 0,137x504 du Khi-deux
Caractéristiques des points lignes a
Cos²
Score dans la première
1. Introduction
à l’analyse de
dimension Contribution composante
données De point à inertie de
Quelle est la C.S.P. dimension De dimension à inertie de point
2 . Analyse en du chef de famille ? Masse 1 2 Inertie 1 2 1 2 Total Cos²
composante Agriculteur ,022 -,323 ,915 ,005 ,007 ,110 ,140 ,601 ,741 deuxième
principale
Patr indust commerce ,087 ,854 -,257 ,022 ,205 ,035 ,892 ,043 ,935 composan
Profession libérale/ ,157 ,689 ,190 ,025 ,239 ,034 ,917 ,037 ,954 te
3 . Analyse Cadre moyen ,171 -,101 ,398 ,006 ,006 ,163 ,097 ,798 ,896
factorielle des Contribution
c o r r e s p o n d a n c Employ ,210 -,498 ,092 ,019 ,168 ,011 ,872 ,016 ,888
à la
es Ouvrier ,087 -,733 -,968 ,028 ,151 ,494 ,516 ,481 ,997
construction
Personnel de service ,044 -1,112 ,539 ,024 ,174 ,077 ,709 ,089 ,798 de F2
Autre ,222 ,266 -,240 ,008 ,050 ,077 ,598 ,260 ,858
Total actif 1,000 ,137 1,000 1,000 Contribution
a. Normalisation principale symétrique à la
construction
F1(i) F2(i) de F1
Décomposition de l’inertie
Axes principaux
Les axes principaux F1,..., Fr passent par le centre de
1. Introduction à
l’analyse de gravité fI et sont portés par les vecteurs propres v1,…,vr
données
associé aux valeurs propres l1,..., lr rangées par ordre
2 . Analyse en décroissant
composante

Les composantes principales


principale

3 . Analyse
factorielle des Les composantes G1,…,Gr sont les
correspondances
coordonnées des projections des profils
j
f
colonnes I sur les axes F1,..., Fr
Propriétés
1. Introduction à
l’analyse de
données • Les composantes principales sont
2 . Analyse en
centrées et non corrélées entres elles
composante
principale • L’inertie expliquée par chaque axe
3 . Analyse principale = variance de la
factorielle des
correspondances composante associée
• Les composantes sont classées par
ordre décroissant des variances
1. Introduction à Distance entre profils colonnes exprimée
l’analyse de
données
en fonction des composantes
r
d ( f I , f )  (Gh ( j )  Gh ( k ))
2 . Analyse en
composante 2 j k 2
principale I
h 1
3 . Analyse
factorielle des
correspondances
r nombre de composante s

La distance du khi2 entre profiles correspond à


la distance euclidienne de ces mêmes profils
exprimée en fonction des composantes
Caractéristiques des points colonnes a
1. Introduction à
l’analyse de Score dans la
données
dimension Contribution
De point à inertie de
2 . Analyse en
composante Quel est votre mode dimension De dimension à inertie de point
principale d'hébergement ? Masse 1 2 Inertie 1 2 1 2 Total
Hôtel ,200 ,859 -,456 ,054 ,475 ,251 ,854 ,128 ,983
3 . Analyse Camping ,220 -,825 -,473 ,055 ,482 ,297 ,851 ,149 1,000
factorielle des Location / gîte ,252 ,187 ,195 ,013 ,028 ,058 ,217 ,126 ,342
correspondances
Famille / amis ,327 -,115 ,447 ,016 ,014 ,394 ,086 ,699 ,785
Total actif 1,000 ,137 1,000 1,000
a. Normalisation principale symétrique

Vous aimerez peut-être aussi