Cours Afc
Cours Afc
Chapitre 3 correspondances
1
Introduction
1. Introduction à L’AFC fait partie de la famille des analyses factorielles . C’est une
l’analyse de
données technique utilisée par l’équipe de recherche du professeur J.P
Benzecri au début des années 1960.
2 . Analyse en
composante
C’est une méthode qui permet d’analyser les correspondances des
principale modalités de deux variables qualitatives.
2
Introduction
1. Introduction à
l’analyse de
données
L’AFC s’appuie sur un tableau de donnés croisé à p lignes et q colonnes
( tableau de contingence ).
2 . Analyse en
composante
Avant de préciser les principales étapes de l’AFC, il nous parait utile de
principale clarifier la notion du tableau de contingence( ou tableau croisé )
3 . Analyse
factorielle des
correspondances
3
Introduction
1. Introduction à
l’analyse de
données • À partir de ce tableau , on peut calculer le total des lignes et le total des
colonnes ainsi que la somme totale qui représente la taille de la
population ou de l’échantillon (n).
2 . Analyse en
composante
principale Concernant le total des lignes et des colonnes
3 . Analyse
factorielle des J
correspondances ni . nik
I J
k 1
n ni. n. j
n. j nkj i 1 j 1
k 1
4
Données: Tableau de contingence
1. Introduction à
l’analyse de
données
: Population décrite par deux caractères qualitatifs X et Y
2 . Analyse en
Tableau de contingence
composante
principale
3 . Analyse
factorielle des
correspondances
5
Données: Tableau de contingence
1. Introduction à
l’analyse de n individus et 2 variables qualitatives
données
2 . Analyse en
composante
principale
3 . Analyse
factorielle des
correspondances
6
Objectifs
1. Introduction à
l’analyse de
données
7
1. Introduction à Croisement de variables nominales : exemple
l’analyse de
données • Quelle est la C.S.P. du chef de famille ?
# Agriculteur # Patr indust commerce
2 . Analyse en
composante # Profession libérale/cadre
principale
#Cadre moyen #Employé #Ouvrier #Personnel de service
3 . Analyse #Autre
factorielle des • Quel est votre mode d'hébergement ?
correspondances
#Hôtel #Camping # Location / gîte #Famille / amis
Tableau des correspondances
1. Introduction à
l’analyse de Quelle est la C.S.P. Quel est votre mode d'hébergement ?
données
du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
Agriculteur 1 2 2 6 11
2 . Analyse en Patr indust commerce
composante
17 4 10 13 44
principale Profession libérale/ 23 6 26 24 79
Cadre moyen 12 17 25 32 86
Nomb
3 . Analyse Employ 10 32 29 35 106
factorielle des
d’ouvri
Ouvrier 7 20 8 9 44
correspondances
Personnel de service 0 8 2 12 22
Autre 31 22 25 34 112
Marge active 101 111 127 165 504
9
Du tableau de contingences au tableau de probabilités
2 . Analyse en
composante
principale
𝐽
Modalité de
3 . Analyse V1 𝑓 𝑖 . =∑ 𝑓 𝑖 𝑗
factorielle des 𝑥 𝑖𝑗
𝑗=1
correspondances 𝑓 𝑖𝑗 =
𝑛
ni. ni1 ni 2 ...... niJ
J
ni . nik
Marge ligne 𝐼 k 1
Probabilité marginale
𝑓 . 𝑗 =∑ 𝑓 𝑖 𝑗 n. j nkj
𝑖=1
k 1
10
Profiles lignes et colonnes
1. Introduction à
l’analyse de
données le tableau des profils lignes c’est le tableau des fréquences conditionnelles
11
Profiles lignes et colonnes
18,2% des agriculteurs
1. Introduction à choisissent le camping
l’analyse de
Profils lignes
données
Quelle est la C.S.P. Quel est votre mode d'hébergement ?
du chef de famille ? Hôtel Camping Location / gîte Famille / amis Marge active
2 . Analyse en
Agriculteur ,091 ,182 ,182 ,545 1,000 Choix des
composante agriculteu
principale Patr indust commerce ,386 ,091 ,227 ,295 1,000
Profession libérale/ ,291 ,076 ,329 ,304 1,000
3 . Analyse Cadre moyen ,140 ,198 ,291 ,372 1,000
factorielle des Employ ,094 ,302 ,274 ,330 1,000
correspondances Ouvrier ,159 ,455 ,182 ,205 1,000
Personnel de service ,000 ,364 ,091 ,545 1,000
Autre ,277 ,196 ,223 ,304 1,000
Masse ,200 ,220 ,252 ,327
nij J
i . f ij
Où f ij fet
3 . Analyse n
factorielle des j1
correspondances
2
J
1 f ij
d (i , GI )
f. j
j 1 f. j f i.
C’est le pourcentage que constitue les
Y tels
individus Y j que parmi lesX X i
individus tels que
14
Exemple
500 entreprises décrits par :
1. Introduction à Région R1: Nord Secteur d’activité A1: Primaire
l’analyse de
données R2: Sud A2 : Secondaire
R3:Est A3 : Tertiaire
2 . Analyse en R4: Ouest
composante
principale
3 . Analyse
factorielle des
correspondances
15
1. Introduction à
l’analyse de
données
2 . Analyse en
composante
principale
3 . Analyse
factorielle des
correspondances
2 2 2
25 1 2 25 1 6 5 1 3
d ( R2 , R3 )
8 2 11 7 4 11 2 4 11
Profiles colonnes
1. Introduction à
l’analyse de Métrique sur les profils colonnes:
données
Soient j et j’ deux profils colonnes:
2
2 . Analyse en I
1 f f ij '
composante d ( j , j ' ) ij
principale i 1 f i.
f. j f. j '
(j; )=
3 . Analyse
factorielle des nij J
correspondances
Où f ij et f i . f ij
n j1
(j; )=
2
I
1 f
d ( j , G J ) ij f i .
i 1 f i.
f. j
17
Principe de l AFC
1. Introduction à
l’analyse de
données • Principe de l’AFC:
2 . Analyse en
composante Une AFC consiste à effectuer deux ACP:
principale
1. ACP sur le tableau des profils lignes: Individu : Modalité de X
Variable : Modalité de Y
3 . Analyse
factorielle des 2. ACP sur le tableau des profils colonnes: Individu : Modalité de Y
correspondances
Variable : Modalité de X
3. On aura une projection plane des profils lignes.
4. On aura une projection plane des profils colonnes
5. Une superposition des deux projections
6. Dégager les correspondances entre modalités des deux caractères.
18
Objectif
1. Introduction à
l’analyse de
données
Bien que le tableau étudié soit de nature très différente de celui étudié en ACP, les
objectifs de l’AFC peuvent s’exprimer de manière analogue à ceux de l’ACP : on
2 . Analyse en cherche à obtenir une typologie des lignes, une typologie des colonnes et à relier
composante
principale ces deux typologies entre elles ; mais la notion de ressemblance entre deux lignes,
ou entre deux colonnes, est différente de celle de l’ACP.
3 . Analyse Deux lignes sont considérées comme proches si elles s’associent de la même
factorielle des façon à l’ensemble des colonnes, c’est-à-dire si elles s’associent trop (ou trop
correspondances
peu) aux mêmes colonnes ; les termes « trop » et « trop peu » sont pris en
référence à la situation d’indépendance. Symétriquement, deux colonnes sont
proches si elles s’associent de la même façon à l’ensemble des lignes.
19
Test d’indépendance de Khi deux
1. Introduction à
l’analyse de
données
Khi deux théorique
2 . Analyse en La décision se prends en utilisant un 2 test d’hypothèse avec un seuil de
composante
principale
signification de 1% , de 5% ou de 10 % On cherche la valeur critique de khi-
deux avec un degré de liberté de (I-1)(J-1)
3 . Analyse
factorielle des
correspondances
20
Test de Khi deux d’indépendance
Consiste à comparer le ꭓ2 lu sur la table et le ꭓ2 calculé (), à partir de la formule
1. Introduction à
l’analyse de suivante :
données n n
nij i . . j
Avec représente l’effectif observé et représente l’effectif théorique n
2 . Analyse en Intensité de la liaison: = écart entre probabilités théoriques et observées
composante
principale
Principe du test de khi-deux :
- On propose un seuil de signification de 1%, , de 5% ou de 10 % .
3 . Analyse - Deux hypothèse seront testés :
factorielle des
correspondances H0= les deux variables sont indépendantes
H1=les deux variables sont dépendantes
Nous rejetons l’hypothèse nulle (on conclut que la relation existe) si
>>
Remarque. Il convient de noter qu’on peut aussi calculer le khi- deux tout en se
basant sur les fréquences.
21
RAMCHOUN Hassan cours ADD 2021/2022
Test de Khi deux d’indépendance
1. Introduction à
l’analyse de
données Ce test est significatif si la valeur du khi-deux est assez élevée avec une
probabilité inférieure au seuil de signification
2 . Analyse en
composante On peut vérifier la significativité de ce test tout en comparant le khi-deux lu sur la
principale
table est le khi-deux calculé. Si ce dernier est supérieur au premier, le test précité
est significatif (on rejette H0)
3 . Analyse
factorielle des
correspondances Si ce test n’est pas significatif , l’application de l’AFC n’ a aucun sens .
Ecart à l’indépendance et inertie
1. Introduction à Plus les données s’écartent de l’indépendance et plus les profils s’écartent de l’origine
l’analyse de Inertie (
données
1. Introduction à
l’analyse de
La détermination des composantes principales de l’ACP se fonde sur la
données détermination des vecteurs et des valeurs propres de la matrices de corrélation .
2 . Analyse en Pour le cas de l’AFC, la détermination des axes factoriels est conditionnée par la
composante détermination des valeurs et des vecteurs propres de la matrice des distances des
principale
profils–lignes et de la matrice des distances des profils-colonnes. Les deux matrices
ont les mêmes valeurs propres non nulles.
3 . Analyse
factorielle des
correspondances
Tableau des profils lignes
1. Introduction à
l’analyse de
données b1 bj bp masse
2 . Analyse en
composante
a1
principale
f ij
3 . Analyse
ai
i
fj fi.
factorielle des
correspondances fi.
an
G=( f. j )= fJ
i
f J ( f1i ,..., f pi ) point modalité a i
25
Premier axe principal D1
1. Introduction à
l’analyse de
données • La droite D1 passe par le centre de gravité fJ
du nuage N(I) et est engendrée par le
2 . Analyse en
composante
principale
vecteur u1 vecteur propre normé associée à
la plus grande valeur propre l1.
3 . Analyse
factorielle des • La droite D1 maximise l’inertie des points du
correspondances
nuage projetés sur D1 qui vaut l1
Première composante
1. Introduction à
l’analyse de principale F1
données
• F1 est une nouvelle variable définie pour
2 . Analyse en
composante
chaque individu par la longueur
principale
algébrique de la projection de l’individu
3 . Analyse sur D1..
factorielle des
correspondances • F1 est une variable centrée de variance l1
Qualité globale de la
1. Introduction à première composante
principale.
l’analyse de
données
2 . Analyse en
• Part d’inertie expliquée :
composante
principale
Inertie expliquée par D1/Inertie totale
3 . Analyse
factorielle des
correspondances
Contribution des modalités ai à
1. Introduction à
l’analyse de
données
la composante
f F i
2
2 . Analyse en
composante CTR1 i i. 1
principale
1
3 . Analyse
factorielle des
correspondances Un profil ligne est d’autant plus important dans
la construction de l’axe que sa contribution est
élevée.
L’interprétation de l’axe s’appuie en priorité sur
les modalités à fortes contributions
Qualité de représentation des individus
1. Introduction à
sur le premier axe principal
l’analyse de
données
2 . Analyse en
• Est mesurée par le cosinus carré de l’angle
composante
principale
formé par l’individu et le premier axe
principal qui vaut :
3 . Analyse
factorielle des
correspondances 2
2 F (i )
cos 2 i
1
1
d ( fJ , fJ )
Étude des autres
dimensions
1. Introduction à
l’analyse de
données On cherche le deuxième axe principal
2 . Analyse en
D2 orthogonal à D1 passant au milieu
composante
principale du nuage N(I),puis D3 orthogonal à D1
3 . Analyse et D2 vérifiant le même critère, etc. …
factorielle des
correspondances Le nombre d’axes que l’on peut
construire est au plus égal à
r=inf(n-1, p-1)
Axes principaux
1. Introduction à
l’analyse de Les axes principaux D1,..., Dr passent par le centre de
données
gravité fJ et sont portés par les vecteurs propres u1,…,ur
2 . Analyse en associé aux valeurs propres l1,..., lr rangées par ordre
composante
principale décroissant
3 . Analyse
factorielle des Les composantes principales
correspondances
Les composantes F1,…,Fr sont les coordonnées
i
f
des projections des profils lignes J sur les axes
D1,..., Dr
Propriétés
1. Introduction à
l’analyse de • Les composantes principales sont
centrées et non corrélées entres elles
données
2 . Analyse en
composante
principale
• L’inertie expliquée par chaque axe
principale = variance de la
3 . Analyse
factorielle des
composante associée
correspondances
• Les composantes sont classées par
ordre décroissant des variances
Distance entre profils lignes exprimée en
fonction des composantes
1. Introduction à
l’analyse de
données
r
2 . Analyse en
composante
d ( f , f ) ( Fh (i ) Fh (l ))
2
J
i
J
l 2
principale
h 1
3 . Analyse
factorielle des
r nombre de composante s
correspondances
La distance du khi2 entre profiles correspond à la
distance euclidienne de ces mêmes profils
exprimée en fonction des composantes
Exemple (suite)
1. Introduction à
l’analyse de
Résumé
données
3 . Analyse
factorielle des Les composantes G1,…,Gr sont les
correspondances
coordonnées des projections des profils
j
f
colonnes I sur les axes F1,..., Fr
Propriétés
1. Introduction à
l’analyse de
données • Les composantes principales sont
2 . Analyse en
centrées et non corrélées entres elles
composante
principale • L’inertie expliquée par chaque axe
3 . Analyse principale = variance de la
factorielle des
correspondances composante associée
• Les composantes sont classées par
ordre décroissant des variances
1. Introduction à Distance entre profils colonnes exprimée
l’analyse de
données
en fonction des composantes
r
d ( f I , f ) (Gh ( j ) Gh ( k ))
2 . Analyse en
composante 2 j k 2
principale I
h 1
3 . Analyse
factorielle des
correspondances
r nombre de composante s