Chapitre 3
Chapitre 3
IMSP, Bénin
Sophie Dabo-Niang
[email protected]
Analyse de données Multivariées IMSP, Bénin
Présentation du cours
Tableau individus variables : Chaque individu est représenté par les numéros
des modalités qu’il possède pour chacune des p variables.
Création d’un tableau de contingence : tableau disjonctif complet
Définition 1
On remplace la j-ième colonne par mj colonnes d’indicatrices : 0 partout et 1 à la
valeur correspondant à xij avec χj = (x1j , ..., xmj j ).
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Exemple 1
On considère trois variables avec respectivement 3, 2 et 2 modalités, mesurées sur 4
individus. On va avoir l’equivalence entre les deux séries de tableaux :
1 2 1 1 0 0 0 1 1 0
3
1
2
0 0 1
1 0
0 1
2 1 1 0 1 0 1 0 1 0
3 1 2 0 0 1 1 0 0 1
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Définition 2
A toute variable χj on associe le tableau Xj à n lignes et mj colonnes.
Le tableau de contingence des variables χj et χk est donné par
Nj,k = Xj> Xk .
Définition 3
La matrice des effectifs marginaux de la variable χj est
Dj = Xj> Xj .
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Exemple 2
! !
0 1 2 3 0
N2,1 = D2 =
1 0 0 0 1
Définition 5 (Lignes)
La somme des éléments de chaque ligne de X est égale à p. Le tableau des profils
lignes est donc p1 X.
Définition 6 (Colonnes)
La somme de chaque colonne est égale à l’effectif de la modalité correspondante. Le
tableau des profils colonnes est donc XD−1 ou
D1 0
D=
..
.
0 Dp
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Exemple 3
Retour à l’exemple
1 0 0 0 1 1 0
0 0 1 1 0 0 1
0 1 0 1 0 1 0
0 0 1 1 0 0 1
( 1 1 2 | 3 1 | 2 2 ).
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Cas p = 2.
L’AFCM du tableau disjonctif
X = (X1 |X2 )
qui possède n lignes et m1 + m2 colonnes est équivalente à l’AFC du tableau de
contingence N = N1,2 = X1> X2
L’AFC de X équivaut à
faire l’ACP des profils-lignes p1 X et celle des profils colonnes est XD−1 (en
mettant les catégories en ligne ; c-à-dire D−1 X> comme en AFC de N)
!
−1 D1−1 0
D =
0 D2−1
Soit le vecteur bk des coordonnées principales des profils colonnes, il est vecteur
propre de
1 1
(XD−1 )> X = D−1 X > X
2 2
où
! !
> X1> X1 X1> X2 D1 N
X X= =
X2> X1 X2> X2 N > D2
Les equations des m1 + m2 coordonnées des profils colonnes sont
! ! ! !
1 D1−1 0 D1 N b1 b1
=µ
2 0 D2−1 N > D2 b2 b2
avec b1 les m1 premières composantes et b2 les m2 suivantes
! ! !
Im1 D1−1 N b1 b1
−1 > = 2µ
D2 N Im2 b2 b2
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Cas p > 2.
On fait une AFC sur le tableau disjonctif joint
Définition 7
La tableau de Burt est B = X> X, c’est le tableau de contingence des variables
χ1 , · · · , χp .
Exemple 4
Exemple de tableau de Burt sur la matrice précédente
1 0 0 0 1 1 0
0 1 0 1 0 1 0
0 0 2 2 0 0 2
0 1 2 3 0 1 2
1 0 0 0 1 1 0
1 1 0 1 1 2 0
0 0 2 2 0 0 2
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
1
bk = √ D−1 X> ak .
µk
Les seuls termes non nuls de X > ak sont les coordonnées des individus ayant une
modalité donnée.
√
A un facteur 1/ µk près, la coordonnée d’une catégorie est égale à la moyenne
simple des coordonnées des nj individus de cette catégorie.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Représentation
Représentation commune
Les points représentatifs des catégories sont donc les barycentres des groupes
d’individus. On peut donc représenter les individus et catégories dans un même plan
factoriel. Les proximités sont donc interprétées en terme de proximités entre points
moyens de groupes d’individus.
Valeurs propres
La valeur 1 est associée à la composante (1, · · · , 1) dans l’espace des individus. Les
autres vecteurs propres lui sont orthogonaux et de moyenne nulle. Donc pour chaque
variable les coordonnées de ses catégories (pondérées par les effectifs) sont de
moyenne nulle.
Contribution à l’inertie
Soit x j = (xij ) le vecteur colonne de X correspondant à une catégorie j. On rappelle
que l’inertie totale vaut
p
X nj 2 1X
d (j, g) = mi − 1.
j∈catégories
n p i=1
En pratique
Lorsque p = 2 les coordonnées des modalités sont les mêmes pour les deux analyses.
Axes à conserver : pour l’AFC on garde ceux qui résument une part importante de
l’inertie et pour l’AFCM les λ > 1/p
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Des variables quantitatives peuvent être étudiées dans une AFCM en les
transformant en variables nominales (qualitatives). Il faudrait un nombre de
modalités proche de celui des variables qualitatives initiales pour une répartition
équilibré de l’effectif entre les différentes modalités
On peut également faire une AFCM sur les variables qualitatives et ACP des
composantes de l’AFCM avec les variables quantitatives initiales
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM
Données mixtes
Considérons un tableau de données X concernant les observations de p1 variables
quantitatives et p2 variables qualitatives sur n individus de poids pi , i = 1, ..., n. Ce
tableau est dit tableau de données mixtes. Plusieurs méthodes d’analyses factorielles
de ce type de tableau de données sont proposés.
En général, on découpe les variables quantitatives en classes via leur intervalle de
variation pour les transformer en variables qualitatives puis on effectue une analyse
des correspondances multiples. Cependant, cette transformation peut s’avérer non
adéquate si :
le nombre de variables p2 est très petit comparé à p1
n est faible
le nombre d’individus est grand (plus d’une centaine environ), l’ACM est peu
stable
D’autres alternatives comme l’AFDM (Analyse factorielle de données mixtes)
transforment les variables qualitatives en quantitatives.
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes
AFDM
Supposons que X contienne n individus xi et p1 variables quantitatives ξ1 , ..., ξp1 ,
centrées et réduites, p2 variables qualitatives χ1 , · · · , χp2 , de nombres de modalités
m1 , ..., mp2 .
On remplace la partie qualitative du tableau par un tableau disjonctif complet ;
c-a-d, on remplace la j-ième variable qualitative par mj colonnes d’indicatrices :
0 partout et 1 à la valeur correspondant à la k-ième modalité. Le nouveau
tableau obtenu est noté X̃ .
Soit p = p1 + pj=1
P 2
mj le nombre de variables quantitatives et indicatrices. La
matrice X̃ est alors composée d’individus
xi = (xi1 , ..., xip1 , xi11 , ..., xim1 1 , xi12 , ..., xim2 2 , ..., xi1p2 , ..., ximp2 p2 )>
On représente
les individus par leur projection sur ses axes factoriels
les variables quantitatives par leur coefficient de corrélation avec les facteurs
une modalité d’une variable qualitative par le centre de gravité des individus
possédant la modalité en question. Il est également possible de représenter sur
un axe une variable indicatrice (une modalité dans le tableau disjonctif) par son
coefficient de corrélation avec le facteur concerné.
Des formules de transition comme en ACM permettent de passer d’un nuage de
points (individus ou variables) à un autre.