0% ont trouvé ce document utile (0 vote)
525 vues21 pages

Analyse de Données: Année Universitaire 2021-2022

Transféré par

Mouna Redissi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
525 vues21 pages

Analyse de Données: Année Universitaire 2021-2022

Transféré par

Mouna Redissi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Année Universitaire 2021-2022

Analyse de données
Analyse de données
Analyse Factorielle des
Correspondances (AFC)
Analyse Factorielle des Correspondances (AFC)

L'analyse factorielle des correspondances (AFC) est une méthode exploratoire d'analyse
des tableaux de contingences, c'est-à-dire aux tableaux de comptages obtenus par le
croisement de deux variables nominales.

Le tableau de contingence suivant indique la répartition, en fonction de la marque et la


finition de fabrication, des 1000 ordinateurs :

Variable en ligne : Marque de l’ordinateur Tableau de contingence en Effectif


Finition
- HP : Hawlett-Packard Marque
TB B M Total
- ACER HP 798 6 66 870
ACER 7 5 5 17
- ASS : Assemblé ASS 56 7 50 113
Total 861 18 121 1000

Variable en colonne : Finition de fabrication


- TB : Très Bien
- B : Bien
- M : Moyenne
Analyse Factorielle des Correspondances (AFC)

Tableau de contingence en fréquences Tableau de profils‐lignes
Finition Finition
Marque Marque
TB B M Total TB B M Total
HP HP 91,7 0,7 7,6 100
0,798 0,006 0,066 0,87
ACER 41,2 29,4 29,4 100
ACER 0,007 0,005 0,005 0,017 ASS 49,6 6,2 44,2 100
ASS 0,056 0,007 0,05 0,113 Profil-moyen
86,1 1,8 12,1 100
Total
0,861 0,018 0,121 1

Tableau de contingence en pourcentages Tableau de profils‐colonnes
Finition Finition
Marque Marque TB B M Profil-
TB B M Total
moyen
HP 79,8% 0,6% 6,6% 87,0% HP 92,7 33,3 54,5 87,0
ACER 0,7% 0,5% 0,5% 1,7% ACER 0,8 27,8 4,1 1,7
ASS 5,6% 0,7% 5,0% 11,3% ASS 6,5 38,9 41,3 11,3
Total Total 100 100 100 100
86,1% 1,8% 12,1% 100,0%
Hypothèse d’indépendance :
Construisons le tableau de fréquences théoriques ( fi. * f.j ) sous
l’hypothèse d’indépendance.

Tableau de fréquences empiriques Tableau de fréquences théoriques


TB B M Total TB B M Total

HP 0,798 0,006 0,066 0,87 HP 0,749 0,016 0,105 0,870

ACER 0,007 0,005 0,005 0,017 ACER 0,015 0,000 0,002 0,017

ASS 0,056 0,007 0,05 0,113 ASS 0,097 0,002 0,014 0,113

TOTAL 0,861 0,018 0,121 1 TOTAL 0,861 0,018 0,121 1

Naturellement, même sous l’hypothèse d’indépendance, une telle


relation n’est qu’approximativement vraie. Le classique test deux χ2
pour les tables de contingence permet précisément d’apprécier
l’écart entre les lois empiriques fij et fi. * f.j
Hypothèse d’indépendance :
Le test de χ2 est définit par :

H0 : Les deux variables sont indépendantes

H1 : Les deux variables sont dépendantes

La statistique du test est définie par :


f  f i. f. j 
2

d 2   2  
n p
d2= N . ij

i 1 j 1 f i. f . j
En outre, le d2 suit une loi du khi-2 de paramètre ( s’appelle le
nombre de degrés de liberté) avec :

 = (nombre de modalités de la première variable -1) x (nombre de


modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque d’erreur α
si d2 est supérieur à la valeur critique dans la table de χ2 à (n-1)*(p-1)
degré de liberté .

AN : d2 = 230.17 χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49


d2 >> χ2 4  on accepte H1  Les deux variables sont dépendantes
Hypothèse d’indépendance :

χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49

95%

5%

14
Distances entre profils. Métrique du χ2
Pour remédier à cela, on pondère chaque écart par l’inverse de la
masse de la colonne et l’on calcule une nouvelle distance appelée la
distance du χ2 :
  2 2
1  f ij f i ' j  1
 flij  fli ' j 
p p
d 2 (i, i ' )       
j 1 f . j  f i. f i '.  j 1 f . j

On définit de la même manière la distance entre les profils-colonnes


par :
  2
1  f ij f ij '  2
    fcij  fcij ' 
1
n n
d 2 ( j, j ' )   
i 1 f i.  f . j f . j '  i 1 f i .
AFC : Association entre les modalités
Construction des nuages

Contrairement à l’analyse en composantes principales, le tableau de données (tableau de


contingence) subit deux transformations, l’une en profils-lignes, l’autre en profils-colonnes, à
partir desquelles vont être construits les nuages de points dans IRn et IRp.
Représentation Simultanée
Construction des nuages
Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
Représentation Simultanée
Représentation Simultanée
La représentation simultanée des différentes modalités de deux variables
qualitatives est la suivante :
Exemple pratique de AFC sous Python
Exemple pratique de AFC sous R
# tableau de contingence entre deux variables qualitatives
data=[Link]("[Link]", header=T, sep="\t")
TC=table(data$Marque,data$Finition)
addmargins(TC)
TCp=[Link](TC)
addmargins (TCp)
# tableau de profils‐lignes entre deux variables qualitatives
PL=[Link](TCp,1)
addmargins(PL,2)
# tableau de profils‐colonnes entre deux variables qualitatives
PC=[Link](TCp,2)
addmargins(PC,1)
# test de khi deux entre deux variables qualitatives et Analyse d’association
[Link](TC)
[Link](TC)$expected # tableau de contingence théorique
[Link](TC)$observed # tableau de contingence empirique
etude=CA(TC, ncp=2)

Vous aimerez peut-être aussi