0% ont trouvé ce document utile (0 vote)
197 vues16 pages

Chapitre2 AFC

Transféré par

Ra Nim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
197 vues16 pages

Chapitre2 AFC

Transféré par

Ra Nim
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Année Universitaire 2021-2022

Data Science
Chapitre 2 : Analyse Factorielle
des Correspondances (AFC)

Zouaoui Slim
zou_slim@[Link]
Sommaire
Analyse en composantes principales

Analyse factorielle de correspondance


Méthodes de classification

modélisation linéaire simple et multiple [Link]

Analyse discriminante

Arbre de Décision

réseaux de neurones
[Link]
Deep Learning
AFC
Deux variables qualitatives :
L'analyse factorielle des correspondances (AFC) est une méthode exploratoire
d'analyse des tableaux de contingences, c'est-à-dire aux tableaux de comptages
obtenus par le croisement de deux variables qualitatives.

Le tableau de contingence suivant indique la répartition, en fonction de la


Catégorie et les classes d'âge de 1000 employés dans une entreprise

Variable en ligne : Age


- < 30 ans
- [ 30 ; 45[
- [ 45 ; 60 [
Variable en colonne : Catégorie
- Ouvriers
- Techniciens
- Cadres
Analyse Statistique : Tableau de Contingence

Tableau de contingence en Effectif
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 300 50 100 450
[ 30 ; 45 [ 250 80 20 350
[45 ; 60 [ 50 120 30 200
Total 600 250 150 1000

Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Analyse Statistique : Tableau de Contingence

Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,20
Total 0,60 0,25 0,15 1,00

Tableau de contingence en pourcentages
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Á l’intersection d’une ligne et d’une colonne, nous avons le nombre kij
d’employés ayant simultanément la classe d'âge i et la catégorie j. Le total
marginal ki. est le nombre des employés ayant la classe d'âge i, alors que le total
marginal k.j est le nombre des ordinateurs ayant la finition de fabrication j.

Qui, en termes de fréquences relatives, donnent lieu aux relations :

On se propose d’étudier les éventuelles relations existant entre ces deux


variables nominales. Donc on pose la question :

Y-a-t-il indépendance entre la classe d'âge et la catégorie de des


employés ? Sinon, quels types d’associations existent entres ces deux variables
qualitatives.
Analyse Statistique : Profils lignes et colonnes

Tableau de Profils lignes
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 66,7 11,1 22,2 100
[ 30 ; 45 [ 71,4 22,9 5,7 100
[45 ; 60 [ 25,0 60,0 15,0 100
Total 60,0 25,0 15,0 100

Tableau de Profils colonnes
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 50,0 20,0 66,7 45,0
[ 30 ; 45 [ 41,7 32,0 13,3 35,0
[45 ; 60 [ 8,3 48,0 20,0 20,0
Total 100 100 100 100
Analyse Bidimensionnelle entre deux variables
qualitatives
Hypothèse d’indépendance :

Tableau de fréquences théoriques Tableau de fréquences empiriques

Ouvriers techniciens Cadre Total Ouvriers techniciens Cadre Total

< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35

[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2

Total 0,60 0,25 0,15 1 Total 0,60 0,25 0,15 1

Naturellement, même sous l’hypothèse d’indépendance, une telle relation n’est


qu’approximativement vraie. Le classique test deux χ2 pour les tables de
contingence permet précisément d’apprécier l’écart entre les lois empiriques fij et
fi. * f.j
Analyse Bidimensionnelle entre deux variables
qualitatives
Tableau de contingence en fréquence
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,2
Total 0,60 0,25 0,15 1

Tableau de fréquences théoriques
Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,27 0,11 0,07 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2
Total 0,6 0,25 0,15 1
Hypothèse d’indépendance :
Le test de χ2 est définit par :

H0 : Les deux variables sont indépendantes

H1 : Les deux variables sont dépendantes

La statistique du test est définie par :

d2=
n
N .
p f ij  f i. f. j 
2

d 2   2  
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre 
 s’appelle le nombre de degrés de liberté avec :
 = (nombre de modalités de la première variable -1) x
(nombre de modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque
d’erreur α si d2 est supérieur à la valeur critique dans la table de
χ2 à (n-1)*(p-1) degré de liberté .
= [Link](0,05;4)
AN : d2 = 214.5 χ2 (n-1)(p-1) =
χ2 (3-1)*(3-1) = χ2 4 = 9.49
d2 >> χ2 4  on accepte H1  Les deux variables sont
dépendantes
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des coordonnées
d'un point dans un espace à q dimensions. On obtient ainsi le nuage des individus-lignes. On
définit de même le nuage des individus-colonnes à partir du tableau des fréquences colonnes.

On s'intéresse alors aux directions de "plus grande dispersion" de chacun de ces nuages de
points. Mais, pour mesurer la "distance" entre deux individus. La distance euclidienne usuelle
entre deux profils-lignes traduit bien la ressemblance ou la différence entre les deux marques
des ordinateurs sans tenir compte des effectifs totaux de ces modalités :
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
finition TB (Très Bien).
Pour remédier à cela, on pondère chaque écart par l’inverse de la masse de la colonne et l’on
calcule une nouvelle distance appelée la distance du χ2 :

On définit de la même manière la distance entre les profils-colonnes par :


AFC : Association entre les modalités
Construction des nuages

Pour l’analyse d’un tableau de contingence, nous raisonnerons en termes de profils, ce


qui permet de rendre comparables les modalités d’une même variable.

Nuage des n lignes


L’ensemble des profils-lignes forme un nuage de n points dans l’espace des p colonnes et
représente ici le nuage des 4 modalités de couleurs des yeux. Chaque point i a pour
coordonnées dans IRp {fij /fi. ; j = 1…..p}

Nuage des p colonnes


De la même façon, l’ensemble des p profils colonnes constitue un nuage de p points dans
l’espace de n lignes et représente ici le nuage de 4 modalités de couleur des cheveux. Les
coordonnées dans IRn du point j sont données par : {fij /f.j; j = 1…..n}
AFC : Association entre les modalités
Construction des nuages

Contrairement à l’analyse en composantes principales, le tableau de données (tableau de


contingence) subit deux transformations, l’une en profils-lignes, l’autre en profils-colonnes, à
partir desquelles vont être construits les nuages de points dans IRn et IRp.
AFC : Association entre les modalités
Construction des nuages

Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :

- Les deux modalités Cadre et < 30


ans s’approchent,
- La catégorie la plus proche de la
classe d'âge [45,60[ est
« techniciens »
-

Vous aimerez peut-être aussi