Analyse de données Multivariées IMSP, Bénin
Analyse de données Multivariées
IMSP, Bénin
Sophie Dabo-Niang
[email protected]
Analyse de données Multivariées IMSP, Bénin
Présentation du cours
Ce cours d’analyse de données
vise à donner aux étudiants les bases théoriques et pratiques de l’analyse des données.
Analyse de données Multivariées IMSP, Bénin
Le contenu du cours est :
Introduction à l’analyse de données
L’analyse en composantes principales : ACP
L’analyse factorielle des correspondances simples : AFC
L’analyse factorielle des correspondances multiples : AFCM
L’analyse factorielle discriminante : AFD
La classification
Chapitre II : Analyse factorielle des correspondances simples
Chapitre II : Analyse factorielle des
correspondances simples (AFC)
Chapitre II : Analyse factorielle des correspondances simples
AFC
Analyse factorielle des correspondances : AFC
L’AFC est aussi une technique d’analyse factorielle destinée à mettre en évidence
et décrire des associations entre deux variables qualitatives.
On considère dans cette section deux variables qualitatives observées
simultanément sur n individus de poids identiques 1/n.
En pratique, on travaille avec une table de contingence qui est un tableau croisé
contenant les effectifs des occurrences simultannées de deux modalités.
L’AFC peut être appliquée aux tableaux de mesures homogènes (même système
d’unités), aux tableaux de notes, de rangs, de préférences, aux tableaux à valeurs
binaires (0 ou 1), ou aux tableaux de questionnaires d’enquêtes.
Chapitre II : Analyse factorielle des correspondances simples
AFC
AFC : les données
Échantillon de n individus pour lesquels on mesure simultanément X et Y ). Les
données peuvent se présenter sous la forme
y1 y2 ... yj ... yq
x1 N11 N12 ... N1j ... N1q N1.
x2 N21 N22 ... N2j ... N2q N2.
.. .. .. .. .. ..
. . . ... . ... . .
xi Ni1 Ni2 ... Nij ... Niq Ni.
.. .. .. .. .. ..
. . . ... . ... . .
xp Np1 Np2 ... Npj ... Npq Nq.
N.1 N.2 ... N.j ... N.q n
où Nkl = nombre d’individus de l’échantillon pour lesquels on observe simultanément
xk et yl
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 1 (profil marginal des lignes et colonnes)
Ni·
On définit alors le profil marginal des lignes n .
N·j
Le profil marginal des colonnes n .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Marges et Profils
On va définir deux tableaux selon la variable que l’on "privilégie" lors de l’étude :
1 Le tableau des profils-lignes Nij /Ni· . Ce tableau représente des valeurs empiriques
des modalités yi sachant que l’on a observé les modalités xi .
La somme de chaque ligne est égale à 1.
2 Le tableau des profils-colonnes Nij /N·j . Ce tableau représente des valeurs
empiriques des modalités xi sachant que l’on a observé les modalités yi .
La somme de chaque colonne est égale à 1.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Propriétés des profils
Définition 2 (Moyenne)
La moyenne des profils-lignes munis des poids correspondant aux profils marginaux
des lignes est le profil marginal des colonnes
p
X Ni· Nij N·j
× = .
i=1
n Ni· n
De même pour les profils-colonnes
q
X N·j Nij Ni·
× = .
J=1
n N·j n
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 1 (Indépendance empirique)
Lorsque tous les profils-lignes sont identiques, il y a indépendance entre X et Y . En
effet la connaissance de X ne change pas la répartition des Y dans le sens où
N1j N2j Npj N1j + · · · + Npj N·j
= = ··· = = =
N1· N2· Np· N1· + · · · + Np· n
Chapitre II : Analyse factorielle des correspondances simples
AFC
Mesure de l’écart à l’indépendance
Définition 3 (χ2 )
On appelle χ2 (khi 2) la valeur
2
N N
p X
X q Nij − i·n ·j Xp X
q
Nij2
2
χ = Ni· N·j
=n − 1
i=1 j=1 i=1 j=1
Ni· N·j
n
On observe que si χ2 = 0 alors les variables sont indépendantes.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Mesure de l’écart à l’indépendance
Proposition 2 (Majoration du χ2 )
Noter que Nij ≤ Ni· de sorte que
p X
q p X
q q Pp q
X Nij2 X Nij X
i=1 Nij
X N·j
≤ = = =q
i=1 j=1
Ni· N·j i=1 j=1
N·j j=1
N·j j=1
N·j
Dès lors on obtient χ2 ≤ n(q − 1) En répétant l’opération avec Nij ≤ N·j on obtient
que
χ2
ϕ2 = ≤ min(q − 1, p − 1).
n
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 3 (dépendance fonctionnelle)
Si on a ϕ2 = p − 1, alors pour chaque i, soit Nij = Ni· soit Nij = 0. Or on a
Pq
j=1 Nij = Ni· , donc il existe un unique élément non nul par ligne. Y est donc
fonctionnellement liée à X .
Proposition 4 (Dépendance inverse)
Si p = q alors le tableau peut être représenté par une matrice diagonale.
Laquelle ?
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 4 (Contribution au χ2 )
C’est le terme 2
Ni· N·j
Nij − n
Ni· N·j
n
qui permet de mesurer les associations significatives entre les deux variables.
Chapitre II : Analyse factorielle des correspondances simples
AFC
χ2 significatif
Si χ2 = 0 les variables sont indépendantes et si p = q et χ2 = n(p − 1) les variables
sont fonctionnellement liées. Mais à partir de quelle valeur allons-nous considérer que
les variables sont indépendantes ?
Définition 5 (Loi du χ2 )
On considère que X et Y sont issus de deux variables aléatoires indépendantes. Alors
la variable χ2 suit une loi
χ2(p−1)(q−1)
à (p − 1)(q − 1) degrés de liberté.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 6
Une variable aléatoire Z suit une loi du χ2 à p degrés de liberté si Z a la même loi
que la variable pi=1 Ni2 ou les Ni , i = 1, · · · , p sont p variables gaussiennes centrées
P
réduites indépendantes.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Test du χ2
Proposition 5
On peut donc se fixer un niveau de confiance α = 0.01 ou 0.05 puis on calcule le
quantile q1−α tel que
P χ2(p−1)(q−1) > q1−α = α.
Si la valeur observée est telle que χ2 > q1−α lors on peut rejeter l’hypothèse
d’indépendance au niveau 1 − α.
Proposition 6 (p grand)
Si p, le nombre de degré de liberté, est grand (p >30), on considérera plutôt le fait
que q p
2χ2p − 2p − 1
suit une loi gaussienne centrée réduite.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Analyse des profils
On considère que le test du χ2 a rejeté l’hypothèse d’indépendance pour un niveau
donné (sinon aucun intérêt à l’analyse factorielle des correspondances).
On part du tableau de contingence noté N ayant p lignes et q colonnes.
On définit deux matrices
N1· · · · 0 N·1 · · · 0
.. .. .. , .. .. .. ,
D1 = . . . D2 = . . .
0 · · · Np· 0 · · · N·q
contenant les effectifs marginaux.
Proposition 7 (Profils matriciels)
Le tableau des profils-lignes (Nij /Ni· ) est D1−1 N tandis que le tableau des
profils-colonnes (Nij /N·j ) est donnée par D2−1 N > .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 7 (Nuage de points des profils-lignes)
Les profils-lignes forment un nuage de p points de Rq . Chaque point i admet un
poids égal à sa fréquence marginal Ni· /n.
La matrice des poids des profils-lignes est donc (1/n)D1
Définition 8 (barycentre des profils-lignes)
Par définition, le point moyen des profils-lignes est
>
1 −1 > N·1 N·q
gl = (D N ) D1 1p = ,··· , .
n 1 n n
Les résultats sont symétriques pour les profils-colonnes :
Les lignes du tableau D2−1 N > (les colonnes du tableau des profils-colonnes
N D2−1 ) composent un nuage de q points de Rp , munis d’une matrice de poids
(1/n)D2 .
Chapitre II : Analyse factorielle des correspondances simples
AFC
ACP sur un tableau de contingence : AFC
Le cas d’indépendance entre les variables correspond au cas
Nij N·j Nij Ni·
= , et = .
Ni· n N·j n
Les deux nuages de profils sont alors confondus avec leur centre de gravité (gl et gc ).
Ce cas correspond à un χ2 = 0.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 8 (Représentation des nuages)
Considérons les profils-lignes. Toutes les lignes du tableau des profils-lignes somment
à 1. En effet,
q q
X Nij 1 X Ni·
= Nij = =1
N
j=1 i·
Ni· j=1 Ni·
Les p profils-lignes ainsi que gl sont donc dans un espace L1 de Rq , un hyper-plan de
dimension q − 1 tel que tous les éléments vérifient
q
X
xj = 1, et xj ≥ 0.
j=1
Chapitre II : Analyse factorielle des correspondances simples
AFC
Nouvelle métrique : métrique du χ2
L’AFC consiste à étudier la forme de ces nuages avec la notion de χ2 (mesure
d’indépendance).
Définition 9 (Distance en profils-lignes)
La distance entre deux profils-lignes i et i 0 est
q 2
n Nij Ni 0 ,j
dχ22 (i, i 0 )
X
= − .
j=1
N·j Ni· Ni 0 ·
On utilise donc la métrique nD2−1 .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 9 (Inertie = ϕ2 )
L’inertie du nuage des profils-lignes par rapport à leur centre gl est donnée par
p
X Ni· 2
Igl = dχ2 (i, gl )
i=1
n
p Xq 2
Ni· Nij N·j
X
= −
i=1 j=1
N·j Ni· n
p X q 2
1 Ni· N·j
X
= Nij − = ϕ2
i=1 j=1
Ni· N·j n
Les deux nuages ont alors la même inertie totale ϕ2 = Igl = Igc la quantité mesurant
l’écart à l’indépendance.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 10
Lorsqu’on considère les profils-lignes, la pondération n/N·j permet de donner des
importances comparables aux différentes modalités.
L’avantage d’utiliser la métrique du χ2 vient de l’équivalence distributionnelle, si deux
colonnes j et j 0 de N ont le même profil, en les regroupant la distance entre les
profils-lignes reste identique
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 11
Si deux colonnes j et j 0 de N ont le même profil, on va regrouper ces colonnes en une
seule d’effectif Nij + Nij 0 .
De cette façon, lorsque Nij /N·j = Nij 0 /N·j 0 on a
2 2
n Nij N·j n Nij 0 N·j 0
− + −
N·j Ni· n N·j 0 Ni· n
2
n Nij + Nij 0 N·j + N·j 0
= −
N·j + N·j 0 Ni· n
De ce fait la distance entre les profils-lignes reste identique.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Considérons gl le centre des profils-lignes. On rappelle que gl est le profil marginal
colonne
N·1 N·q >
,··· , .
n n
Proposition 12
Le vecteur gl est orthogonal au sens de la métrique du χ2 aux vecteurs de L1 ⊂ Rq
Pn
tels que x = (x1 , · · · , xq )> , j=1 xj = 1.
Preuve 1
En effet, considérons un vecteur x quelconque de L1 . On a alors x = x − gl + gl et la
partie n’appartenant pas à L1 est x − gl . Le produit scalaire associé à la métrique du
χ2 est donc
(x − gl )> nD2−1 gl = (x − gl )> 1q = 0.
car nD2−1 gl = 1q . De la même manière, on a kgl kχ2 = 1.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Distance entre les profils-colonnes
Pour les profils colonnes on a
Définition 10
La distance entre deux profils colonnes j et j 0 est définie de façon similaire
p !2
n Nij Ni,j 0
dχ22 (j, j 0 )
X
= − .
i=1
Ni· N·j N·j 0
On utilise alors la métrique particulière nD1−1 . Les mêmes propriétés (celles des profils
lignes) restent valables pour les profils-colonnes.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Récapitulatif AFC
Définition 11 (Profils-lignes)
Tableau de données : X = D1−1 N
Métrique : M = nD2−1
Poids profils : D = n1 D1
Définition 12 (Profils-colonnes (lecture en ligne))
Tableau de données : X = D2−1 N >
Métrique : M = nD1−1
Poids profils : D = n1 D2
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 13
Centre du nuage : g = X > DI
Matrice de variance/covariance
S = X > DX − gg > = (X − Ig > )> D(X − Ig > ).
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 13 (g est un facteur principal)
Le vecteur g est un vecteur propre de la matrice SM (des "correlations" dans l’ACP)
associé à la valeur propre 0. En effet, puisque g est χ2 -orthogonal aux vecteurs du
nuage,
SMg = (X − Ig > )> D(X − Ig > )Mg = 0.
De plus X > DXMg = SMg + gg > Mg = 0 + gkgk2χ2 = g.
Preuve 2
A faire en exercice
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 14
Les autres vecteurs propres (différents de g) de SM sont les mêmes que ceux de
X > DXM car pour tout vecteur u orthogonal à g,
X > DXMu = SMu + gg > Mu = SMu + g < g, u >χ2 = SMu.
Proposition 15 (centrage)
On n’a pas à centrer les tableaux des profils car on considère les matrices
X > DXM
en éliminant la valeur propre 1 associée à l’axe principal g.
Chapitre II : Analyse factorielle des correspondances simples
AFC
ACP des profils-lignes
Définition 14 (Facteurs principaux)
Ceux sont les vecteurs propres de
> D
1
MX > DX = nD2−1 D1−1 N D1−1 N =
n
D2−1 N > D1−1 N .
Le facteur principal d’ordre k vérifie donc
D2−1 N > D1−1 N uk = λk uk .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 15 (Composantes principales)
La composante principale associée au facteur uk est ak = Xuk = D1−1 N uk . C’est
aussi le vecteur propre de la matrice
D1−1 N D2−1 N >
car
D1−1 N D2−1 N > ak = D1−1 N D2−1 N > D1−1 N uk = λk D1−1 N uk = λk ak .
Pour les profils-colonnes, on remplace D1 par D2 et inversement et on transpose N .
Chapitre II : Analyse factorielle des correspondances simples
AFC
1 AFC = 2 ACP
Proposition 16 (Facteurs principaux)
Les facteurs principaux dans l’ACP des profils-lignes sont les vecteurs propres de
D2−1 N > D1−1 N
Les facteurs principaux dans l’ACP des profils-colonnes sont les vecteurs propres
de
D1−1 N D2−1 N >
Chapitre II : Analyse factorielle des correspondances simples
AFC
Proposition 17 (Composantes principales)
Les composantes principales dans l’ACP des profils-lignes sont les vecteurs
propres de
D1−1 N D2−1 N > ,
normalisés par ak> Dn1 ak = λk .
Les composantes principales dans l’ACP des profils-colonnes sont les vecteurs
propres de
D2−1 N > D1−1 N
normalisés par bk> Dn2 bk = λk .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Interprétation de l’AFC
Définition 16 (Coordonnées des Profils)
On cherche ici les vecteurs propres des produits des deux tableaux des profils.
On n’a pas de cercle des corrélations car les variables sont qualitatives.
Pas d’effet taille. En effet cela voudrait dire que la première (ou une autre)
composante principale est une combinaison linéaire des "variables" (modalités) dont
tous les termes seraient de mêmes signes.
On constate que les composantes des profils sont les facteurs des autres. Or les
composantes sont centrées, donc les facteurs aussi et on a
p
X q
X
Ni· ak,i = N·j bk,j = 0.
i=1 j=1
On a donc que les signes des coordonnées des ak et bk ne sont pas toujours les
mêmes.
Chapitre II : Analyse factorielle des correspondances simples
AFC
Contributions à l’inertie
Définition 17 (Contribution des profils-lignes)
On a λk = pi=1 Nni· (ak,i )2 , où ak,i est la coordonnée de la projection du profil-ligne i
P
sur la k-ième composante principale. La contribution du profil-ligne i est donc
Ni· (ak,i )2
.
n λk
On pourra toujours comparer les influences de certaines modalités (mais pas les
enlever).
Chapitre II : Analyse factorielle des correspondances simples
AFC
Définition 18 (Contribution des profils-colonnes)
N
On a λk = qj=1 n·j (bk,j )2 , où bk,j est la coordonnée de la projection du profil-colonne
P
j sur la k-ième composante principale. La contribution du profil-colonne j est donc
N·j (bk,j )2
.
n λk
Chapitre II : Analyse factorielle des correspondances simples
AFC
Qualité de représentation
Définition 19 (profils-lignes)
La qualité (cos2 ) de représentation s’écrit
(ak,i )2
Pq 2
j=1 (aj,i )
Définition 20 (profils-colonnes)
La qualité (cos2 ) de représentation s’écrit
(bk,i )2
Pp 2
j=1 (bj,i )
Chapitre II : Analyse factorielle des correspondances simples
AFC
Formules de transition
On a constaté les liens entre composantes de profils et facteurs des autres. Si p < q,
on va diagonaliser la matrice D1−1 N D2−1 N > (la plus petite).
Définition 21 (Transition)
On a les formules suivantes
p
1 1 X Nij
bk = √ D2−1 N > ak soit bk,j = √ ak,i ,
λk λk i=1 N·j
q
1 1 X Nij
ak = √ D1−1 N bk soit ak,i = √ bk,j ,
λk λk j=1 Ni·
On sait que ak est le facteur principal associé à bk . bk = αD2−1 N > ak . On trouve α
en écrivant bk> Dn2 bk = λk .
Chapitre II : Analyse factorielle des correspondances simples
AFC
Inertie et valeurs propres
On considère l’inertie totale comme étant la valeur ϕ2 , c’est aussi la somme des
valeurs propres. On sait que le nombre de valeurs propres est au plus
min(p − 1, q − 1).
On choisit le nombre d’axes en fonction de ce que l’on peut interpréter.