0% ont trouvé ce document utile (0 vote)
66 vues39 pages

Chapitre 3

Les afcm

Transféré par

zehesimon.imspuac
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
66 vues39 pages

Chapitre 3

Les afcm

Transféré par

zehesimon.imspuac
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse de données Multivariées IMSP, Bénin

Analyse de données Multivariées

IMSP, Bénin

Sophie Dabo-Niang

[email protected]
Analyse de données Multivariées IMSP, Bénin

Présentation du cours

Ce cours d’analyse de données


vise à donner aux étudiants les bases théoriques et pratiques de l’analyse des données.
Analyse de données Multivariées IMSP, Bénin

Le contenu du cours est :


Introduction à l’analyse de données
L’analyse en composantes principales : ACP
L’analyse factorielle des correspondances simples : AFC
L’analyse factorielle des correspondances multiples : AFCM
L’analyse factorielle discriminante : AFD
La classification
Chapitre III : Analyse factorielle des correspondances multiples

Chapitre III : Analyse factorielle des


correspondances multiples (AFCM)
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Analyse factorielle des correspondances multiples : ACM


Le but de l’ACM est d’étendre une étude AFC au cas de plus de deux variables
qualitatives : χ1 , · · · , χp lorsque p ≥ 2.
On a plus de tableau de contingence lorsque p > 2. On va chercher une autre façon
de représenter les tableaux de contingence.

Tableau individus variables : Chaque individu est représenté par les numéros
des modalités qu’il possède pour chacune des p variables.
Création d’un tableau de contingence : tableau disjonctif complet
Définition 1
On remplace la j-ième colonne par mj colonnes d’indicatrices : 0 partout et 1 à la
valeur correspondant à xij avec χj = (x1j , ..., xmj j ).
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Exemple 1
On considère trois variables avec respectivement 3, 2 et 2 modalités, mesurées sur 4
individus. On va avoir l’equivalence entre les deux séries de tableaux :
           
1 2 1 1 0 0 0 1 1 0

 3 


 1 


 2 


 0 0 1 


 1 0 


 0 1 

2 1 1 0 1 0 1 0 1 0
           
           
3 1 2 0 0 1 1 0 0 1
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Tableau disjonctif et tableaux de contingence

Définition 2
A toute variable χj on associe le tableau Xj à n lignes et mj colonnes.
Le tableau de contingence des variables χj et χk est donné par

Nj,k = Xj> Xk .

Définition 3
La matrice des effectifs marginaux de la variable χj est

Dj = Xj> Xj .
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Exemple 2
! !
0 1 2 3 0
N2,1 = D2 =
1 0 0 0 1

Définition 4 (Tableau disjonctif joint)


On considère la matrice X = (X1 |X2 | · · · |Xp ), qui possède n lignes et m1 + · · · + mp
colonnes.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Définition 5 (Lignes)
La somme des éléments de chaque ligne de X est égale à p. Le tableau des profils
lignes est donc p1 X.

Définition 6 (Colonnes)
La somme de chaque colonne est égale à l’effectif de la modalité correspondante. Le
tableau des profils colonnes est donc XD−1 ou

D1 0
 

D=
 .. 
. 
0 Dp
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Exemple 3
Retour à l’exemple
 
1 0 0 0 1 1 0

 0 0 1 1 0 0 1 

0 1 0 1 0 1 0
 
 
0 0 1 1 0 0 1

Chaque somme de lignes vaut 3. Les sommes des colonnes valent

( 1 1 2 | 3 1 | 2 2 ).
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Cas p = 2.
L’AFCM du tableau disjonctif
X = (X1 |X2 )
qui possède n lignes et m1 + m2 colonnes est équivalente à l’AFC du tableau de
contingence N = N1,2 = X1> X2

L’AFC de X équivaut à
faire l’ACP des profils-lignes p1 X et celle des profils colonnes est XD−1 (en
mettant les catégories en ligne ; c-à-dire D−1 X> comme en AFC de N)
!
−1 D1−1 0
D =
0 D2−1

ou à chercher les vecteurs propres et valeurs propres du produit des deux


tableaux de profils de N
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Soit le vecteur bk des coordonnées principales des profils colonnes, il est vecteur
propre de
1 1
(XD−1 )> X = D−1 X > X
2 2

! !
> X1> X1 X1> X2 D1 N
X X= =
X2> X1 X2> X2 N > D2
Les equations des m1 + m2 coordonnées des profils colonnes sont
! ! ! !
1 D1−1 0 D1 N b1 b1

2 0 D2−1 N > D2 b2 b2
avec b1 les m1 premières composantes et b2 les m2 suivantes
! ! !
Im1 D1−1 N b1 b1
−1 > = 2µ
D2 N Im2 b2 b2
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

On obtient les équations suivantes


(
b1 + D1−1 Nb2 = 2µb1
b2 + D2−1 N > b1 = 2µb2
ou
(
D1−1 Nb2 = (2µ − 1)b1
D2−1 N > b1 = (2µ − 1)b2
Si on compare avec les formules de transition de l’AFC de N
D1−1 ND2−1 N > b1 = (2µ − 1)2 b1
D2−1 N > D1−1 Nb2 = (2µ − 1)2 b2
avec λ = (2µ − 1)2 .
Les equations des m1 + m2 coordonnées des profils colonnes sont donc identiques (à
une constante près) aux coordonnées des lignes et des colonnes de N dans la
représentation simultanée de l’AFC de N
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Le nombre de valeurs propres des 2 AFC


Dans le cas où n > m1 + m2 l’AFC de X donne plus de facteurs que l’AFC
classique de N. En effet, comme les colonnes de X sont linéairement
dépendantes (la somme des colonnes de X1 est égale à la somme des colonnes de
X2 ), il peut exister une valeur propre nulle.
On a priori m1 + m2 − 1 valeurs propres non nulles et m1 + m2 − 2 valeurs
propres non nulles ou égales à 1.
En notant que λ = (2µ − 1)√ 2 , à chaque λ de l’AFC de N on fait correspondre

deux valeurs propres µ = 1+2 λ et µ = 1−2 λ de l’AFC de X avec des vecteurs
propres associés respectifs
! !
b1 b1
b2 −b2
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Le nombre de valeurs propres des 2 AFC


Si m1 < m2 , il y a 2(m1 − 1) valeurs propres µ. Il y a au plus m2 − m1 vecteurs
propres du type
!
0
b2

associés à la valeur propre µ = 1/2.


Donc si m1 < m2 on ne garde donc que les m1 − 1 valeurs propres µ > 1/2 car
ils ont une signification. Notons qu’il y en a en général min(m1 − 1, m2 − 1)
valeurs propres µ > 1/2.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Le nombre de valeurs propres des 2 AFC


Notons que
!
Im1 D1−1 N
Trace = m2 + m1
D2−1 N > Im2

l’inertie totale vaut m2 +m


2
1
− 1. Même si l’AFC de N donne des axes identiques à
celui de X , les parts d’ inerties associées sont très différentes et doivent être
interprétées avec précaution.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Cas p > 2.
On fait une AFC sur le tableau disjonctif joint

X = (X1 |X2 | · · · |Xp )

qui possède n lignes et m1 + m2 + · · · + mp colonnes.

Définition 7
La tableau de Burt est B = X> X, c’est le tableau de contingence des variables
χ1 , · · · , χp .

X1> X1 X1> X2 · · · X1> Xp


   
D1 N1,2 · · · N1,p

 X2> X1 X2> X2  
  N2,1 D2 

B= .. .. .. = .. .. .. 

 . . .
 
  . . .


Xp> X1 ··· Xp> Xp Np,1 · · · Dp
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Exemple 4
Exemple de tableau de Burt sur la matrice précédente
 
1 0 0 0 1 1 0
0 1 0 1 0 1 0
 
 
0 0 2 2 0 0 2
 
 
 

 0 1 2 3 0 1 2 


 1 0 0 0 1 1 0 

1 1 0 1 1 2 0
 
 
0 0 2 2 0 0 2
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Coordonnées des catégories


La matrice des profils-lignes est p1 X et celle des profils colonnes est XD−1 . Soit
bk = (bk,1 , · · · , bk,p )> le vecteur des coordonnées factorielles (de l’AFC sur X) des
catégories (profils colonnes) à m1 + · · · + mp composantes sur l’axe k, bk est vecteur
propre de
1 1 1
(XD−1 )> X = D−1 X> X = D−1 B
p p p
Comme pour le cas p = 2 l’equation des coordonnées des catégories est
1 −1
D Bbk = µk bk
p
avec la convention de normalisation
1 >
b Dbk = µk .
np k
car la somme des éléments de X est np
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Coordonnées des individus


Soit ak le vecteur des coordonnées des n individus (profils lignes) sur l’axe factoriel
associé à la valeur propre µk , il est à n composantes. On a d’après les formules de
transition (voir AFC)
1 1
ak = √ Xbk .
µk p
La variance de ak est donc
1 > 1 1 1 >
Var (ak ) = ak ak = bk> X> Xbk = bk> (pµk Dbk ) = b Dbk = µk .
n µk np 2 µk np 2 np k
Les seuls termes non nuls dans le calcul de Xbk sont les coordonnées de la catégorie

de chaque variable possédée par l’individu. A un facteur 1/ µk près, la coordonnée
d’un individu est égale à la moyenne simple des coordonnées des catégories auquel il
appartient.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

On a aussi (formule de transition)

1
bk = √ D−1 X> ak .
µk

Les seuls termes non nuls de X > ak sont les coordonnées des individus ayant une
modalité donnée.


A un facteur 1/ µk près, la coordonnée d’une catégorie est égale à la moyenne
simple des coordonnées des nj individus de cette catégorie.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Représentation
Représentation commune
Les points représentatifs des catégories sont donc les barycentres des groupes
d’individus. On peut donc représenter les individus et catégories dans un même plan
factoriel. Les proximités sont donc interprétées en terme de proximités entre points
moyens de groupes d’individus.

Pour que les catégories se trouvent visuellement au barycentre (conserver la propriété


barycentrique) des individus qui les représentent on peut remplacer bk par

αk = D−1 X> ak = µk bk .
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Variables et axes factoriels


Si nj est l’effectif de la catégorie j et bk,j sa coordonnée sur l’axe factoriel k, alors
1 X
nj (bk,j )2 = µk .
np j∈catégories

La contribution de la catégorie j à l’axe factoriel k est


nj
(bk,j )2 .
µk np
La contribution totale de la variable χi à l’axe factoriel k est
1 X
nj (bk,j )2 .
µk np j modalités de χi
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Individus et axes factoriels


La normalisation de ak est ni=1 (ak,i )2 = nµk , ou ak,i est la coordonnée de l’individu
P

i sur l’axe factoriel k associé à la valeur propre µk .

La contribution d’un individu est


(ak,i )2
.
nµk
Cette contribution est comparée à 1/n comme en ACP/AFC.

La qualité de représentation de l’individu i par les l premiers axes :


Pl
(ak,i )2
Pqk=1 2
,
k=1 (ak,i )

q, le nombre de valeurs propres non égales à 0 ou 1.


Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Valeurs propres
La valeur 1 est associée à la composante (1, · · · , 1) dans l’espace des individus. Les
autres vecteurs propres lui sont orthogonaux et de moyenne nulle. Donc pour chaque
variable les coordonnées de ses catégories (pondérées par les effectifs) sont de
moyenne nulle.

Si n > pi=1 mi , le rang de X est pi=1 mi − p + 1 et le nombre de valeurs propres


P P

non égales à 0 ou 1 est q = pi=1 mi − p.


P

La somme des valeurs propres non égales à 0 ou 1 est donc


q p
1 −1 1X q
X  
µk = Trace D B −1= mi − 1 = .
k=1
p p i=1 p

La moyenne des q valeurs propres vaut 1/p.


Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Contribution à l’inertie
Soit x j = (xij ) le vecteur colonne de X correspondant à une catégorie j. On rappelle
que l’inertie totale vaut
p
X nj 2 1X
d (j, g) = mi − 1.
j∈catégories
n p i=1

La distance du profil colonne j au centre de gravité des profils colonne


g = (1, · · · , 1)> /n est
p !2 p !
2
X np xij 1 X xij 1 xij
d (j, g) = − =n + −2
i=1
p nj n i=1
nj2 n2 nnj
n
= − 1.
nj
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

La contribution d’une catégorie à l’inertie est


nj 2 1 nj
 
d (j, g) = 1− .
np p n
C’est une fonction décroissante de l’effectif. Il faut donc éviter les catégories
d’effectifs trop faible qui se retrouvent sur le premier axe.

La contribution de la variable χi est


1 nj mi − 1
X  
1− = .
j modaliés de χi
p n p

C’est une fonction croissante du nombre de modalités. Il faut éviter si possible un


trop grand nombre de modalités pour les variables.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

En pratique

Choix des axes.


On va garder les axes tels que µk > 1/p car la moyenne des valeurs propres est
1/p.
Les axes que l’on peut interpréter en regardant les contributions des variables.
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Points communs entre AFC et ACM


Description des liaisons entre des variables qualitatives.

Lorsque p = 2 les coordonnées des modalités sont les mêmes pour les deux analyses.

Toutes les modalités peuvent être représentés sur un même plan.

Contribution d’une modalité à un axe


(coordonnée)2
poids ×
valeur propre

Qualité de representation dune modalité par un sous-espace


sur l’axe)2
P
2 axes du sous-espace (coordonnées
cos = P 2
tous les axes (coordonnées sur l’axe)
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Differences en AFC et AFCM


Pas d’individus en AFC et des individus en AFCM.

Tableau de contingence et profils en AFC. Tableau disjonctif et tableau de Burt en


AFCM

Poids d’une modalité


ni• n•j
n (profil-ligne) et n (profil-colonne) pour l’AFC
nj
np en AFCM
Pp
Le nombre de valeur propres est au plus min(p − 1, q − 1) en AFC et i=1 mi − p si
n > pi=1 mi en AFCM.
P

Axes à conserver : pour l’AFC on garde ceux qui résument une part importante de
l’inertie et pour l’AFCM les λ > 1/p
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

AFCM du tableau de Burt


Si on fait l’AFC du tableau B on retrouve à une constante multiplicative près, les
mêmes coordonnées factorielles des catégories (profils colonnes)
Comme le tableau de Burt est symétrique, les totaux en ligne et en colonne sont
égaux.
Le tableau des profils-lignes de B est (pD)−1 B et celui des profils colonnes
B(pD)−1 . L’AFC de B équivaut dont à diagonaliser :
2
1 −1

D B
p
ce qui donne les mêmes vecteurs propres que p1 D−1 B avec des valeurs propres µ2
On perd la notion d’individus
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Variables quantitatives dans une AFCM

Des variables quantitatives peuvent être étudiées dans une AFCM en les
transformant en variables nominales (qualitatives). Il faudrait un nombre de
modalités proche de celui des variables qualitatives initiales pour une répartition
équilibré de l’effectif entre les différentes modalités
On peut également faire une AFCM sur les variables qualitatives et ACP des
composantes de l’AFCM avec les variables quantitatives initiales
Chapitre III : Analyse factorielle des correspondances multiples
AFCM ou ACM

Analyse factorielle de données mixtes


Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

Données mixtes
Considérons un tableau de données X concernant les observations de p1 variables
quantitatives et p2 variables qualitatives sur n individus de poids pi , i = 1, ..., n. Ce
tableau est dit tableau de données mixtes. Plusieurs méthodes d’analyses factorielles
de ce type de tableau de données sont proposés.
En général, on découpe les variables quantitatives en classes via leur intervalle de
variation pour les transformer en variables qualitatives puis on effectue une analyse
des correspondances multiples. Cependant, cette transformation peut s’avérer non
adéquate si :
le nombre de variables p2 est très petit comparé à p1
n est faible
le nombre d’individus est grand (plus d’une centaine environ), l’ACM est peu
stable
D’autres alternatives comme l’AFDM (Analyse factorielle de données mixtes)
transforment les variables qualitatives en quantitatives.
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

AFDM
Supposons que X contienne n individus xi et p1 variables quantitatives ξ1 , ..., ξp1 ,
centrées et réduites, p2 variables qualitatives χ1 , · · · , χp2 , de nombres de modalités
m1 , ..., mp2 .
On remplace la partie qualitative du tableau par un tableau disjonctif complet ;
c-a-d, on remplace la j-ième variable qualitative par mj colonnes d’indicatrices :
0 partout et 1 à la valeur correspondant à la k-ième modalité. Le nouveau
tableau obtenu est noté X̃ .
Soit p = p1 + pj=1
P 2
mj le nombre de variables quantitatives et indicatrices. La
matrice X̃ est alors composée d’individus

xi = (xi1 , ..., xip1 , xi11 , ..., xim1 1 , xi12 , ..., xim2 2 , ..., xi1p2 , ..., ximp2 p2 )>

où les xikj , j = 1, ..., p2 , k = 1, ..., mj correspondent aux indicatrices des variables


qualitatives.
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

Les nuages de points


Chaque individu xi est décrit par p variables quantitatives et indicatrices,
formant un vecteur de dimension p, appelé vecteur individu appartenant à un
espace vectoriel F (muni d’une structure euclidienne) nommé espace des
individus (avec la métrique usuelle euclidienne M = Id ). Le centre de gravité du
nuage est l’origine. La distance entre deux individus est alors
p1 mj
p2 X
2
X
2
X 1
d (xi , xl ) = (xij − xlj ) + (xikj − xlkj )2
j=1
q
j=1 k=1 kj

avec qkj la proportion d’individus ayant pris la k-ième modalité de la j-ième


variable qualitative.
L’ensemble des variables forme un vecteur de dimension n, appartenant à un
espace vectoriel E nommé espace des variables muni de la métrique diagonale D
des poids des individus, supposons par simplicité que pi = 1/n.
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

Les nuages de points


Notons qu’en ACM, la j-ième variable qualitative est représentée par le nuage de
ses mj indicatrices centrées. Ce nuage engendre le sous-espace Ej de dimension
mj − 1. Ainsi, pour avoir la propriété importante de l’ ACM qui dit que l’inertie
projetée de ce nuage sur une variable centrée z est égale au carré de sa
corrélation avec la j-ième variable qualitative, on divise les indicatrices de X̃ par

qkj
La distance d’un individu par rapport au centre de gravité g (permettant de
calculer l’inertie du nuage) est alors
p1 mj
p2 X
X X 1 √ √
d 2 (xi , g) = (xij )2 + (xikj / qkj − 1/ qkj )2
j=1
q
j=1 k=1 kj
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

Les axes factoriels

On cherche comme toute analyse factorielle la direction qui rend maximum


l’inertie projetée du nuage des individus.
Les variables quantitatives contribuent ainsi à l’inertie de manière équivalente à
l’ACP de ces seules variables, alors que celles qualitatives contribuent au
coefficient 1/p2 près comme en ACM des variables qualitatives. Ainsi dans le
sous-espace des individus engendré par les mj modalités de la j-ième variable
qualitative, la projection du nuage a une inertie de mj − 1
Chapitre III : Analyse factorielle des correspondances multiples
Analyse factorielle de données mixtes

Représentation des individus et variables

On représente
les individus par leur projection sur ses axes factoriels
les variables quantitatives par leur coefficient de corrélation avec les facteurs
une modalité d’une variable qualitative par le centre de gravité des individus
possédant la modalité en question. Il est également possible de représenter sur
un axe une variable indicatrice (une modalité dans le tableau disjonctif) par son
coefficient de corrélation avec le facteur concerné.
Des formules de transition comme en ACM permettent de passer d’un nuage de
points (individus ou variables) à un autre.

Vous aimerez peut-être aussi