Analyse de données
Chapitre 4-
Analyse Factorielle des Correspondances - AFC -
2020-2021
Introduction générale
L’AFC s'applique à des tableaux de contingence croisant deux variables
qualitatives avec de nombreuses modalités chacune.
Les données sont donc les effectifs des individus croisant deux modalités
données. Pour de tels tableaux nous disposons du test d'indépendance du 2 .
L’AFC consiste à :
- déterminer des éléments structurant les données (axes de projection)
- réduire les dimensions de l’espace de représentation des données
(sélection des p premiers axes)
Remarque :
L'AFC n'a d'intérêt que si il y a dépendance entre les deux variables,
en cas contraire elle n'apporte pas d'information.
Introduction générale
L’AFC s’applique sur quels types de données ?
- tableaux de contingence
- tableaux de variables continues (valeurs 0)
- tableaux logiques (présence-absence)
-autres …
Elle existe 2 méthodes :
AFC : Analyse factorielle des correspondances simples pour un
ensemble homogène de valeurs assimilable à un tableau de
contingence entre 2 variables.
AFCM : Analyse factorielle des correspondances multiples pour
un tableau de modalités de q (q>2) variables qualitatives ou
un ensemble non homogène de données.
Introduction générale
L'objectif est de faire une synthèse de l'ensemble du tableau
afin de répondre aux questions :
● Pour une variable donnée, certaines modalités sont-elles proches ou éloignées.
■ La proximité de deux modalités se mesure en comparant leur
distribution par rapport à l'autre variable.
Par exemple, yeux bleus et verts sont proches si les deux groupes
ont les mêmes distribution de couleurs de cheveux.
● Entre les deux variables, certaines modalités « s'attirent-elles » davantage ou
au contraire « se repoussent ».
■ On compare la fréquence observée par rapport à la fréquence
attendue sous l'hypothèse d'indépendance, si la fréquence
observée est plus forte il y a une plus forte association entre
les deux et inversement.
Par exemple, les yeux bleus et les cheveux blond « s'attirent »,
au contraire des yeux noirs et des cheveux blond.
Introduction générale
Différence avec l’ACP:
l’ACP se fait dans un cadre différent; les variables sont quantitatives et donc :
— il est possible de faire des opérations mathématiques sur les valeurs
des variables ;
— par contre, il n’est en général pas possible de compter les individus qui
ont une caractéristique donnée (exp: taille=1,83m)
1 Analyse conjointe de 2variables qualitatives
1 Analyse conjointe de 2variables qualitatives
On considère deux variables qualitatives X et Y de modalités respectives x1 … xr
(r modalités) et y1 … yc (c modalités).
Exemple:
X=Couleur des Yeux Y=Couleur des Cheveux
1 Noisette Roux
2 Marron Chatain
3 Marron Noir
4 Bleu Blond
… … …
5385 Marron Chatain
5386 Marron Brun
5387 Noisette Chatain
1 Analyse conjointe de 2variables qualitatives
Si on s’intéresse à un traitement uni-variable: Tableau des fréquences et
diagramme en bâtons
X=Couleur des Yeux Nbre Freq Couleur des Yeux
2000
Marron 718 0,13
1500
Noisette 1580 0,29 1000
500
Vert 1774 0,33
0
Bleu 1315 0,24
Total 5387 1,00
Y= Couleur des
Cheuveux Nbre Freq
Couleur des Cheveux
Noir 1455 0,27 2500
2000
Brun 286 0,05
1500
Chatain 2137 0,40 1000
500
Roux 1391 0,26 0
Blond 118 0,02
Total 5387 1,00
1 Analyse conjointe de 2variables qualitatives
Nous nous intéressons à l’existence de lien entre les variables X et Y
ainsi qu’aux éventuelles relations entre leurs modalités, cette analyse
s’effectue à partir des données représentées par le tableau de
contingence des fréquences.
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
K=Tableau de contingence Observé
Y Marginale de
y1 …. yj …. yc X (Total)
X1 n11 …. n1j …. n1c n1o
…. …. …. …. …. …. ….
X
xi ni1 …. nij …. nic nio
…. …. …. …. …. …. ….
xr nr1 …. nrj …. nrc nro
Marginale
de Y(Total)
no1 …. noj …. noc n
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
F=Tableau de contingence fréquentiel Observé=K/n
Y gr=
y1 …. yj …. yc Marg X
X1 f11 …. f1J …. f1c f1o
…. …. …. …. …. …. ….
X
Xi fi1 …. fij …. fic fio
…. …. …. …. …. …. ….
xr fr1 …. frj …. frc fro
gc’=Marg Y fo1 …. foj …. foc 1
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
Exemple :
L’échantillon de 5387 enfants est réparti selon la couleur des cheveux
(blond, roux, châtain clair, châtain foncé, brun), et la couleur des yeux
(bleu, clair, marron, noir). Les résultats de l’observation sont regroupés
dans le tableau de contingence suivant :
K=Tableau de contingence Observé
Couleur des Cheveux
K Noir Brun Chatain Roux Blond MargX
Couleur des Yeux
Marron 326 38 241 110 3 718
Noisette 688 116 584 188 4 1580
Vert 343 84 909 412 26 1774
Bleu 98 48 403 681 85 1315
MargY 1455 286 2137 1391 118 5387
1 Analyse conjointe de 2variables qualitatives
Tableau de contingence
Exemple :
F=Tableau de fréquences Observé
Couleur des Cheveux
gr=
F Noir Brun Chatain Roux Blond MargX
Couleur des Yeux
Marron 0,061 0,007 0,045 0,020 0,001 0,133
Noisette 0,128 0,022 0,108 0,035 0,001 0,293
Vert 0,064 0,016 0,169 0,076 0,005 0,329
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
gc’=
MargY 0,270 0,053 0,397 0,258 0,022 1,000
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:
A=Profil des lignes X (répartition de Y pour X fixé); A(r,c)
Y
Total
y1 …. yj …. yc
X1 f1/1=f11/f1o …. fj/1=f1j/f1o …. fc/1=f1c/f1o 1
…. …. …. …. …. …. ….
X
Xi f1/i=fi1/fio …. fj/i=fij/fio …. fc/i=fic/fio 1
…. …. …. …. …. …. ….
xr f1/r=fr1/fro …. fj/r=frj/fro …. fc/r=frc/fro 1
fj/i=nij/nio=fij/fio
1 Analyse conjointe de 2variables qualitatives
Profils-lignes
Répartition de Y pour une valeur donnée de X fixée:
Exemple:
Profil (fj/2; j=1..c) la ligne X=x2=noisette est:
Couleur des Cheveux
Profil de
Ligne
Noir Brun Chatain Roux Blond Marge Ligne
Noisette
0,435 0,073 0,370 0,119 0,003 1,000
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:
B=Profil des colonnes Y (répartition de X pour Y fixé); B(r,c)
Y
y1 …. yj …. yc
X1 f1/1=f11/fo1 …. f1/j=f1j/foj …. f1/c=f1c/foc
…. …. …. …. …. ….
X
Xi fi/1=fi1/fo1 …. fi/j=fij/foj …. fi/c=fic/foc
…. …. …. …. …. ….
xr fr/1=fr1/fo1 …. fr/j=frj/foj …. fr/c=frc/foc
…. ….
Total 1 1 1
fi/j=nij/noj=fij/foj
1 Analyse conjointe de 2variables qualitatives
Profils-colonnes
Répartition de X pour une valeur donnée de Y fixée:
Exemple:
Profil (fi/3; i=1..r) de de la colonne Y=y3=CC=Chatain est:
Profil de
Colonne Chatain
Marron 0,11
Noisette 0,27
Vert 0,43
Bleu 0,19
Marge
Colonne 1,00
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
Ecriture Matricielle
• Dr= matrice diagonale d’ordre r
• Dr= diag(f1o,…, fio ,…, fro)
= fréquences marginales de X
• A= matrice (r,c) des Profils lignes: 1
Couleur des Cheveux
A D .F r
F Noir Brun Chatain Roux Blond MargX
Dr Marron Noisett Vert Bleu
Marron 0,061 0,007 0,045 0,020 0,001 0,133
Couleur des Yeux
Marron 0,133 0 0 0
Noisette 0,128 0,022 0,108 0,035 0,001 0,293
Noisette 0 0,293 0 0
Vert 0,064 0,016 0,169 0,076 0,005 0,329
Vert 0 0 0,329 0
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
Bleu 0 0 0 0,244
MargY
0,270 0,053 0,397 0,258 0,022 1,000
1 Analyse conjointe de 2variables qualitatives
Matrice des Profils-lignes
A(r,c) = Tableau des Profils Lignes = Dr-1.F
A=Dr-1.F
Profil Lignes
Noir Brun Chatain Roux Blond
Marron
0,454 0,053 0,336 0,153 0,004
Noisette
0,435 0,073 0,370 0,119 0,003
Vert
0,193 0,047 0,512 0,232 0,015
Bleu
0,075 0,037 0,306 0,518 0,065
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
• Si X et Y sont indépendants, alors:
1. Le profil de Y = yj ne varie pas quand xi varie:
nij nij '
i 1..r , j , j ' 1..c : fi / j fi / j '
noj noj '
2. Le profil de X = xi ne varie pas quand yj varie:
i / nij i .noj
nij ni ' j
i, i ' 1..r , j 1..c : f j / i f j / i'
nio ni 'o
j / nij j .nio
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
3. Donc, si X et Y indépendants, on devrait avoir:
/ i 1..r , j 1..c :
nij .nio .noj
Comme r c
n n
i 1
io n
j 1
oj
On obtient:
nio .noj
X et Y indépendants i 1..r, j 1..c : n ij
n
Ou encore:
X et Y indépendants i 1..r, j 1..c : fij fio . foj
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Alors pour décider entre les 2 situations suivantes, on utilise la
statistique :
2
nio .noj
n
c ij
2
D2 n
r
n r c f
nio .noj
i 1 j 1 f f
ij
1
i 1 j 1 io oj
n
Si X et Y sont indépendantes, et si
nio .noj
i, j : 5
n
alors on montre que la distribution de probabilité de D2 est
approximativement une 2 à (r-1)(c-1) degrés de libertés
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Alors, si on décide de rejeter l’hypothèse que X et Y sont
indépendantes, le risque encouru de s’être trompé (càd qu’en
fait X et Y sont indépendantes et que la valeur D2 est due aux
fluctuations de l’échantillonnage) est:
p.valeur P 2
( r 1)( c 1) D2
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Si on peut se permettre un risque de se tromper
α p-valeur ,
on rejettera alors l’hypothèse « X et Y indépendants ».
Remarque:
Même si on ne rejette pas l’hypothèse « X et Y indépendants »,
ce qui suit peut être appliqué, et devrait expliciter le risque
couru.
1 Analyse conjointe de 2variables qualitatives
Test de l’indépendance
Exemple
F Noir Brun Chatain Roux Blond gr
Marron 0,061 0,007 0,045 0,020 0,001 0,133
• r= 4; c= 5 ; Noisette 0,128 0,022 0,108 0,035 0,001 0,293
• ddl= (r-1)(c-1)=12 Vert 0,064 0,016 0,169 0,076 0,005 0,329
Bleu 0,018 0,009 0,075 0,126 0,016 0,244
gc’ 0,270 0,053 0,397 0,258 0,022 1,000
• D2= nx0.230 Fth=
=1240 ; gr.gc' Noir Brun Chatain Roux Blond
gr
• pv= 0,0000
Marron
0,036 0,007 0,053 0,034 0,003 0,133
Noisette
• Rejet de Vert
0,079 0,016 0,116 0,076 0,006 0,293
0,089 0,017 0,131 0,085 0,007 0,329
l'Hypothèse de Bleu
0,066 0,013 0,097 0,063 0,005 0,244
l'indépendance
gc’ 0,270 0,053 0,397 0,258 0,022 1,000
1 Analyse conjointe de 2variables qualitatives
On fait le même travail pour les profils-colonnes
2 Analyse Factorielle des correspondances AFC