Chapitre 5
Chapitre 5
INTRODUCTION
Chapitre 5: Analyse factorielle des correspondances et analyse factorielle des correspondances multiples
1 Introduction
L’analyse factorielle des correspondances vise à rassembler en un nombre réduit de dimensions la plus grande partie
de l’information initiale en s’attachant aux correspondances entre les variables, c’est-à-dire aux valeurs relatives. Cette
réduction est d’autant plus utile que le nombre de dimensions initial est élevé. La notion de “ réduction ” est commune
à toutes les techniques factorielles -c’est-à-dire où l’on extrait des facteurs - l’AFC offre la particularité (contrairement
aux ACP) de fournir un espace de représentation commun aux variables et aux individus.
Définition 2.1.1
Un tableau de contingence est un tableau croisant deux variables qualitatives, une representé par des lignes et
l’autre par des colonnes, avec des effectifs ou fréquences.
Soient deux variables qualitatives X et Y avec k et p modalités respectivement. Les deux variables sont observées sur
un échantillon de n individus. Le tableau de contingence (tableau croisé) prend la forme suivante:
Tels que :
• nij : Effectif commun à la ligne i et la colonne j (la répartition des effectifs communs est appelée distribution
conjointe)
k
X
• ni. = nij : Effectif marginal de la iième ligne (ditribtion marginale -ligne)
i=1
1
X/Y y1 y2 ............ yj ...... yp Total
x1 n11 n12 ...... n1j ...... n1p n1.
x2 n21 n22 ......... n2j ...... n2p n2.
. . . .. ...
xi ni1 ...... nij . . . .. nip ni.
...... ......
xk nk1 nkj nkp nk.
Total n.1 n·2 ...... n.j ...... n.p n
k
X
• n.j = nij : Effectif marginal de la jième colonne (distribution marginale-colonne)
i=1
k
X p
X
• n= ni. = n.j : Effectif total
i=1 j=1
Exemple 2.1
··· ···
··· ···
Définition 2.2.1
Est une tableau où chaque cellule est transformée en proportion de l’ensemble des observations. En d’autre
nij
terme, l’effectif nij va devenir tel que n est l’effectif total. Le tableau 2 donne un aperçu des fréquences
n
relatives. On notera sa matrice par F = (fij ).
Exemple 2.2.1
2
2.2.2. Profils-lignes
On entend par profil ligne, les fréquences empiriques des modalités de la variable Y , il s’obtient en divisant l’effectif de
chaque modalité par le total de la ligne correspondante. Le profil-ligne de la ième ligne se calcule selon la formule
nij
P Li = : profil de la iième ligne
ni
... ...
. . .. ......
Table 3: Profils-lignes
... ...
··· ···
Exemple 2.2.2.
3
2.2.3. Profils-Colonnes
On entend par profil-colonne, les fréquences empiriques des modalités de la variable X , il s’obtient en divisant l’effectif
de chaque modalité par le total de colonne correspondant. Le profil colonne de la j ième colonne se calcule par la formule
nij
P Cj =
n.j
4
X/Y y1 y2 ··· yj ··· yp Profils moyens
Table 5: Profils-Colonnes
... ....
··· ···
5
Exemple 2.2.3:
Exemple 2.2.4.
2.2.4. Formulation matricielle des tableaux des profils-lignes & tableau des profils-colonnes, des fréquences
relatives, de fréquence théoriques et matrice des écarts réduits
Soit le tableau de contingence de k lignes et p colonnes représenté par la matrice X d’ordre k × p
n11 n12 · · · n1j n1p
n21 n22 · · · n2j n2p
.. .. .. .. ..
X= . . . . .
..
ni1 ni2 · · · nij .
nk1 nk2 · · · nkj nkp
On définit une matrice diagonale des totaux marginaux des lignes Dtl , et une matrice diagonale des totaux marginaux
des colonnes Dtc
n1. 0 0 0 n.1 0 0 0
0 n2. · · · 0 0 n.2 · · · 0
Dtl = . et Dtc = .
. .
. .
. .
. . .. .. ..
. . . . . . . .
0 0 · · · nk. 0 0 · · · n.p
La formulation matricielle du tableau de profils-lignes s’écrit:
n11 n12 n1j n1p
···
n1. n1. n1. n1.
n n22 n2j n2p
1
21
···
n11 n12 ··· n1j n1p
0 0 0 n2. n2. n2. n2.
n1. n21 n22 ··· n2j n2p
1
0 ··· 0
.. .. .. .. .. ..
. . ··· ··· . . . ··· ··· .
−1 n2.
Xpl = Dpl X = = n i1 ni2 nij nip
.. .. .. .. ni1 ni2 ··· nij nip
···
. . . .
.. .. .. .. .. n i. ni. ni. ni.
.. 1 . . . . .
0 0 .
nk1 nk2 · · · nkj nkp .. .. .. .. ..
nk.
. . . . .
nk1 nk2 nkj nkp
···
nk. nk. nk. nk.
La formulation matricielle du tableau de profils-colonnes s’écrit :
6
n11 n12 n1j n1p
n.1 n.1 n.1 n.1
1
n11 n12 n1j n1p n21 n22 n2j n2p
0 0 ···
n.1 n21 n22 ··· n2j n2p n.2 n.2 n.2 n.2
1 ..
. .. ..
. .. ..
.. ..
0 . 0
−1
n.2 . ··· ··· .
. ··· ··· .
Xpc = Dpc X = = n nij nip
. .. ..
.. i1 ni2
..
ni1 ni2 ··· nij nip ···
. . .
n.i n.i n.i n.i
. .. .. .. ..
1 ..
.. . . . .
0 0 . .
n.p nk1 nk2 ··· nkj nkp . .. .. .. ..
. . . . .
nk1 nk2 nkj nkp
···
n.p n.p n.p n.p
Exemple 2.2.4.
p
k X
X (fij − fijth )2
Puis on calcule la statistique χ2 pour toutes les variables selon la formule χ2 = qui
i=1 j=1
fijth
représente la somme des carrées des éléments de la matrice des écarts réduits Z.
• Hypothèse d’indépendance :
Le test de χ2 est définit par:
H0 : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes
7
La statistique du test est définie par :
2
p
k X
X fij − fijth
d2 = χ2 =
i=1 j=1
fijth
En outre, le d2 suit une loi du χ2 de paramètre v d2 → χ2 (v) où v = (k − 1)(p − 1), avec k le nombre de
modalités de la variable X et p le nombre de modalités de la variable Y.
On rejettera l’hypothèse d’indépendance à un risque d’erreur α si d2 est supérieur à la valeur critique dans la table
de χ2v,α .
Exemple 2.2.6.
• Si les deux variables X et Y sont dépendantes, alors nous ferons appel à la méthode ACP pour étudier cette
dépendance. De ce fait, les modalités de la variable X sont considérées comme des individus. Chaque individu
ni.
est affecté d’un poids fi. = pour faire apparaitre son importance dans l’échantillon. En outre, l’application
n
de l’ACP nécessite la définition d’une métrique qui permet de mesurer la distance entre deux profils-lignes.
L’analyse va se porter sur le tableau des profils-lignes en considérant les modalités de la variables X étant des
ni.
individus, ce qui donne un nuage des profils-lignes de p points, chaque individu est affecté d’un poids fi = .
n
Les étapes à suivre sont les suivantes:
L’analyse va se porter sur le tableau des profils-colonnes en considérant les modalités de la variables Y étant
des individus, ce qui donne un nuage des profils-colonnes de p points, chaque individu est affecté d’un poids
n.j
fj = . Les étapes à suivre sont les suivantes:
n
• Étape 1: Calculer les fréquences relatives;
8
• Étape 2: Calculer les fréquences théoriques;
• Étape 3: Calculer la matrice des écarts réduit Z;
• Étape 4: Calculer la distance de χ2 et vérifier si les variables sont dépendantes;
f·1 0 · · · 0
0 f·2 · · · 0
−1
• Étape 5: Calculer la matrice à diagonaliser C = Z t Dpl Z où Dpc = .
.. .. ..
..
. . .
0 0 ··· f·p
• Étape 6: Diagonaliser la matrice C, afin de trouver ses valeurs propres λk et ses vecteurs propres →
−
vk , k =
1, ..., p
−→ −→
• Étape 7: Projection des modalités de X sur les axes factoriels retenus CPk = Z Wk , où Wk est le vecteur
propre unitaire à la valeur propre λk .
Remarque:
1. L’application de l’ACP sur le tableau des profils-lignes (respectivement, profils colonnes) se fait en considérant
les modalités de la variable X ( respectivement de Y ) étant des individus, ce qui donne un nuage des profils-lignes
(respectivement de profils colonnes) de p (respectivement k) points.
2. Dans l’ACP de la méthode AFC, nous retenons généralement les axes qui expliquent une part importante de
l’inertie de 80 % et plus. Comme il s’agit des valeurs d’inertie cumulées, nous pouvons calculer le pourcentage
d’inertie expliqué par chaque axe.
Exemple 1
Soit le tableau de contingence
nij
1. Le tableau des fréquences relative est obtenu par la formule fij =
n
X/Y Produit A Produit B ProduitC Produit D Total
Groupe 1 0.05 0.08 0.03 0.1 0.25
Groupe 2 0.1 0.03 0.08 0.05 0.25
Groupe 3 0.15 0.13 0.1 0.13 0.5
Total 0.30 0.23 0.2 0.28 1
2. Le tableau des fréquence théorique est obtenu par la formule fijth = fi· × f·j
fij − fijth
3. La matrice des écarts réduit est obtenue avec la formule zij = q
fijth
−0.11 0.08 −0.09 0.11
Z = 0.07 −0.12 0.13 −0.08
0 0.03 0 −0.03
9
4. Distance entre profils ou test d’indépendance
−0.89
On pose →
−
v1 = 1
0
→
− −0.66
∥→
− p
v1 ∥ = (−0.89)2 + (1)2 + (0)2 = 1.34 =⇒ → = v1 = 0.75
−
w
∥→
−
1
v1 ∥
0
10
La composante principale est alors
−0.11 0.07 0 0.13
−0.66
0.08 −0.12 0.03 −0.14
CP1 = Z t .−
→=
w 1
. 0.75 =
−0.09 0.13 0 0.16
0
0.11 −0.08 −0.03 −0.13
6. Application de l’ACP sur les profils colonnes
0.25 0 0
−1
C =Z t Dpl Z, où Dpl = 0 0.25 0
0 0 0.5
−0.11 0.07 0
0.08 −0.12 0.03 4 0 0 −0.11 0.08 −0.09 0.11
= . 0 4 0 . 0.07 −0.12 0.13 −0.08
−0.09 0.13 0
0 0 2 0 0.03 0 −0.03
0.11 −0.08 −0.03
−0.44 0.28 0
0.32 −0.48 0.06 −0.11 0.08 −0.09 0.11
= . 0.07 −0.12 0.13 −0.08
−0.36 0.52 0
0 0.03 0 −0.03
0.44 −0.32 −0.06
0.07 −0.07 0.08 −0.07
−0.07 0.09 −0.09 0.07
= 0.08 −0.09
0.1 −0.08
−0.07 0.07 −0.08 0.08
PC (λ) = −λ(λ − 0.02)(λ − 0.32) = 0 =⇒ SP (C) = {0.32; 0.02; 0}
On a
λ1 0.32
I1 = = = 0.94 qui signifie 94% de la variance, alors on retient que l’axe factoriel de
It 0.32 + 0.02 + 0
λ1 = 0.32
Espace propre associé à λ1 = 0.32
−0.25 −0.07 0.08 −0.07
−0.07 −0.23 −0.09 0.07
E(0.32) = ker(C − 0.32I3 ) = ker
0.08 −0.09 −0.22 −0.08
−0.07 0.07 −0.08 −0.24
−0.25x − 0.07y + 0.08z − 0.07t = 0......(1)
−0.07x − 0.23y − 0.09z + 0.07t = 0......(2)
⇐⇒
0.08x − 0.09y − 0.22z − 0.08t = 0.......(3)
−0.07x + 0.07y − 0.08z − 0.24t = 0......(4)
(
−0.23y − 0.09z + 0.14t = 0......(4)
En remplaçant dans (2) et (3), on trouve
−0.09y − 0.22z − 0.16t = 0.......(5)
De (4), on trouve y = −0.39z + 0.61t
En remplacant dans (5), on obtient − 0.18z − 0.21t = 0 =⇒ z = −1.17t =⇒ y = 1.07t
Alors * +
E(0.32) = − 0.97; 1.07; −1.17; 1
−0.97
1.07
On pose →
−
v2 =
−1.17
1
11
−0.46
→
−
∥→
− p
v2 ∥ = (−0.97)2 + (1.07)2 + (−1.17)2 + 1 = 2.11 =⇒ → = v2 =
−
w 0.51
2 →
−
∥ v2 ∥ −0.55
0.47
La composante principale est alors
−0.46
−0.11 0.08 −0.09 0.11 0.19
→ = 0.07 −0.12 0.13 −0.08 . 0.51
CP2 = Z.−
w
= −0.2
2 −0.55
0 0.03 0 −0.03 0
0.47
Exemple 2
Soit le tableau de contingence résumant les boissons préférées de 500 personnes de différents catégories d’age.
nij
1. Le tableau des fréquences relative est obtenu par la formule fij =
n
2. Le tableau des fréquence théorique est obtenu par la formule fijth = fi· × f·j
fij − fijth
3. La matrice des écarts réduit est obtenue par la formule zij = q
fijth
−0.06 −0.36 0.57
Z = −0.16 0.32 −0.34
0.29 −0.11 −0.04
On a le degré de la liberté est donnée par v = (3 − 1)(3 − 1) = 4 et soit le risque d’erreur α = 0.05
3 X
3 3 X
3
X (fij − fijth )2 X
χ2 = ≃ (zij )2 = 0.7995
i=1 j=1
fijth i=1 j=1
12
Comme χ2 < χ24;0.05 , alors on accepte l’hypothèse H1 , les deux variables boisson préférée et catégorie d’age
sont dépendantes.
5. Application de l’ACP sur les profils lignes
0.12 0 0
−1 t
L =Z Dpc Z , où Dpc = 0 0.6 0
0 0 0.28
−0.06 −0.36 0.57 8.33 0 0 −0.06 −0.16 0.29
= −0.16 0.32 −0.34 . 0 1.67 0 . −0.36 0.32 −0.11
0.29 −0.11 −0.04 0 0 3.57 0.57 −0.34 −0.04
−0.5 −0.6 2.03 −0.06 −0.16 0.29
= −1.33 0.53 −1.21 . −0.36 0.32 −0.11
2.42 −0.18 −0.14 0.57 −0.34 −0.04
1.4 −0.8 −0.16
= −0.8 0.79 −0.4
−0.16 −0.4 0.73
PL (λ) = −λ(λ − 1.96)(λ − 0.96) = 0 =⇒ SP (L) = {1.96; 0.96; 0}
On a
λ1 1.96
I1 = = = 0.67
It 1.96 + 0.96 + 0
λ2 0.96
I2 = = = 0.33
It 1.96 + 0.96 + 0
L’inertie cumulée est donnée par I = I1 + I2 = 1 qui signifie 100% de la variance, alors on retient les deux
axes factoriels de λ1 et λ2
Espace propre associé à λ1 = 1.96
−0.56 −0.8 −0.16
E(1.96) = ker(L − 1.95I3 ) = ker −0.8 −1.17 −0.4
−0.16 −0.4 −1.23
−0.56x + 0.8y − 0.16z......(1)
⇐⇒ −0.8x − 1.17y − 0.4z.......(2)
−0.16x − 0.4y − 1.23z......(3)
0.44x + 0.8y − 0.16z.......(1)
⇐⇒ −0.8x − 0.17y − 0.4z.......(2)
−0.16x − 0.4y − 0.23z......(3)
13
Alors * +
n o
E(0.96) = 1.11z; −0.41z; z , y ∈ R = 1.11; −0.41; 1
−1.42 1.11
On pose →
−
v1 = 1 et →
−
v2 = −0.41
−0.14 1
→
− −0.82
∥→
− p
v1 ∥ = (−1.42)2 + (1)2 + (−0.14)2 = 1.73 =⇒ −→ = v1 = 0.57
w
∥→
−
1
v1 ∥
−0.09
→
− 1.72
∥→
− p
v2 ∥ = (1.11)2 + (−0.41)2 + (1)2 = 1.55 =⇒ −→ = v2 = −0.26
w
∥→
−
2
v2 ∥
0.65
Les composantes principales sont alors
−0.06 −0.16 0.29 −0.82 −0.07
CP1 = Z t .−
w→ = −0.36 0.32 −0.11 . 0.57 = 0.49
1
0.57 −0.34 −0.04 −0.09 −0.66
−0.06 −0.16 0.29 1.72 0.13
CP2 = Z t .−
→ = −0.36 0.32 −0.11 . −0.26 = −0.61
w 2
0.57 −0.34 −0.04 0.65 1.04
On a
λ1 2.47 λ2 0.48
I1 = = = 0.84 et I2 = = = 0.16
It 2.47 + 0.48 + 0 It 2.47 + 0.48 + 0
L’inertie cumulée est I = I1 + I2 = 1qui signifie 100% de la variance, alors on retient les deux axes factoriels de
λ1 = 2.47 et λ2 = 0.48
14
Espace propre associé à λ1 = 2.47
−2.05 −0.13 −0.1
E(2.47) = ker(C − 2.47I3 ) = ker −0.13 −1.64 −1.12
−0.1 −1.12 −0.77
−2.05x − 0.13y − 0.1z = 0..........(1)
⇐⇒ −0.13x − 1.64y − 1.12z = 0........(2)
−0.1x − 1.12y − 0.77z = 0.........(3)
Alors * +
n o
E(2.47) = 0; −0.67z; z , z ∈ R = 0; −0.67; 1
−0.06x − 0.13y − 0.1z = 0......(1)
⇐⇒ −0.13x + 0.35y − 1.12z = 0......(2)
−0.1x − 1.12y + 1.22z = 0.......(3)
Alors * +
n o
E(0.48) = − 3.33y; y; 0.67y , y ∈ R = − 3.33; 1; 0.67
0 −3.33
On pose →
−
v1 = −0.67 et →
−
v2 = 1
1 0.67
→
− 0
∥→
− p
v1 ∥ = (0)2 + (0.67)2 + (1)2 = 1.2 =⇒ − → = v1 = −0.56
w
∥→
−
1
v1 ∥
0.83
→
− −0.94
∥→
−
v2 ∥ = (−3.33)2 + (1)2 + (0.67)2 = 3.54 =⇒ −
p → = v2 = 0.28
w
∥→
−
2
v2 ∥
0.19
Les composantes principales sont
−0.06 −0.36 0.57 0 0.33
CP1 =Z.−
→ = −0.16 0.32 −0.34 . −0.56 =
w 1 −0.27
0.29 −0.11 −0.04 0.83 0.16
−0.06 −0.36 0.57 −0.94 0.06
CP2 =Z.−
→ = −0.16 0.32 −0.34 . 0.28 =
w 2 0.18
0.29 −0.11 −0.04 0.19 −0.31
15