0% ont trouvé ce document utile (0 vote)
100 vues8 pages

Cours AFC Ch7 Final

L'Analyse Factorielle des Correspondances (AFC) est une méthode statistique utilisée pour simplifier l'analyse de données qualitatives en représentant des relations entre variables sous forme de graphiques. Elle permet d'identifier des correspondances et des similarités entre des catégories, facilitant ainsi l'interprétation des résultats. L'AFC est particulièrement utile pour traiter des tableaux de contingence et explorer des données complexes, comme les préférences cinématographiques ou les comportements liés au sommeil.

Transféré par

hajar khindouf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
100 vues8 pages

Cours AFC Ch7 Final

L'Analyse Factorielle des Correspondances (AFC) est une méthode statistique utilisée pour simplifier l'analyse de données qualitatives en représentant des relations entre variables sous forme de graphiques. Elle permet d'identifier des correspondances et des similarités entre des catégories, facilitant ainsi l'interprétation des résultats. L'AFC est particulièrement utile pour traiter des tableaux de contingence et explorer des données complexes, comme les préférences cinématographiques ou les comportements liés au sommeil.

Transféré par

hajar khindouf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

10/01/2025

Statistiques et
Analyse de données Chapitre VII :
L’Analyse Factorielle des Correspondances
Prof. BARAKA Achraf Chakir
[email protected]

1 2

Introduction Objectif de l’analyse factorielle


• L'Analyse Factorielle traite des tableaux de nombres.
C’est une approche qui vise à réduire un grand nombre
• Elle remplace un tableau de nombres difficiles à analyser par d’informations sur un sujet donné à un petit nombre
une série de tableaux plus simples qui sont une bonne d’éléments plus facilement interprétables.
approximation de celui-ci.
• Ces tableaux sont "simples", car ils sont exprimables sous
forme de graphiques ACP

AFC ACM
3

Objectif de l’analyse factorielle Que fait l ’AFC ?


• S’applique à des données quantitatives. • Met en évidence les correspondances entre des ensembles
ACP • Teste la dimensionnalité des échelles de
mesure.
de variables qualitatives.
• Permet de concevoir des facteurs qui résument
l’information contenue dans un tableau pour expliquer les
• S’applique à deux variables qualitatives.
AFC • Décrire les individus sur deux
dimensions.
comportements observés.
• Propose un mode de représentation graphique: c’est la carte
factorielle.
• S’applique à plusieurs variables

ACM qualitative et/ou quantitatives.


• Identifier les similarités des individus
sur 2 ou 3 dimensions.

1
10/01/2025

AFC AFC
• Pourquoi "des correspondances" ? • L’AFC a pour objet le traitement de l’information contenue
dans un tableau appelé de contingence ou de
Variables numériques => Corrélation dépendance, relatif a deux ensembles de nature
Variables nominales => Correspondance quelconque, en relation par moyen d’un processus naturel
ou expérimental plus ou moins bien connu.
• Les données sont ici pondérées.
• Pourquoi "factorielle" ?
• Les fréquences de répétitions s’interprète facilement en
Il s'agit de décomposer le tableau original en une somme de termes de probabilités.
tableaux/matrices qui sont chacun le produit de facteurs simples.
Autrement dit, on les "met en facteurs"
8 9

Aspects théoriques de l'AFC Données à manipuler


• La première étape consiste à établir les profils lignes et les profils
colonnes. Ces profils se calculent (à partir des données brutes)
en divisant chaque terme par le total de cette ligne ou de cette
colonne.
• La deuxième étape consiste à mesurer les
ressemblances/dissemblances entre les profils par la distance du
khi-carré :

• La formule de distance du khi-carré servira donc à mesurer les


systèmes d’opposition des éléments étudiés.
10 11

Tableau de Contingence La valeur P


• La p-valeur est la probabilité d'obtenir les résultats observés
d'un test, en supposant que l'hypothèse nulle est correcte.
• La valeur-p est utilisée pour quantifier la significativité
statistique d'un résultat. L'idée est de déterminer si l'hypothèse
nulle est ou n'est pas vérifiée car dans le cas où elle le serait, le
résultat observé serait fortement improbable.
• Les seuils suivants sont généralement pris pour référence :

12 14

2
10/01/2025

V de Cramer
V de Cramer

Nous renseigne sur la force de la relation


entre les deux variables.

15 16

V de Cramer
Nuage de points

• Le tableau de dépendance peut


être ainsi représenté dans un
espace approprié par un nuage de
points affectés de probabilités.

17 18

Tableau de lecture des résultats de l'AFC Tableau de lecture des résultats de l'AFC
• Comme l’indique cette table, quand A et B sont dans le même • Quand A et B sont dans des quadrants opposés, cela montre que
quadrant, il y a attraction ; cela indique que les effectifs qui les catégories de l’une ou l’autre des variables se repoussent.
correspondent aux deux catégories sont plus nombreux que si les
effectifs étaient distribués de façon proportionnelle.

19 20

3
10/01/2025

Tableau de lecture des résultats de l'AFC Tableau de lecture des résultats de l'AFC
• Quand A et B sont dans des quadrants • Enfin, une concentration au centre de la carte représente la moyenne des
adjacents, l’interprétation des résultats est plus difficile. catégories de chacune des variables impliquées, cela suggère que les
modalités de ces variables sont en moyenne similaires. En d'autres termes,
les catégories des variables se regroupent au centre de la carte, ce qui
indique une certaine homogénéité ou similitude entre les groupes.
• L'origine de la carte (point (0,0)) correspond au point neutre. Cela
représente l'indépendance complète entre les deux caractères analysés. Si
les points de données se trouvent proches de l'origine, cela suggère une
absence de relation entre les deux variables catégorielles, ce qui signifie
qu'elles sont indépendantes l'une de l'autre.
• Autrement dit si les points sont concentrés au centre, cela implique
généralement une faible association/relation entre les variables.
21 22

Inconvénients et avantages de l’AFC Récapitulatif - AFC


• L’Analyse Factorielle des Correspondances s’applique à deux
• Les inconvénients de l’AFC sont les défauts de toute analyse variables qualitatives (nominales).
factorielle: déformation inévitable du nuage durant la • Elle permet de positionner sur un mapping les modalités de
réponses des deux questions.
projection et la signification ou interprétation des axes. • L’analyse des correspondances Multiples (ACM) généralise l’AFC
à un nombre quelconque de variables et permet donc de
représenter sur le même mapping les modalités de réponses de
• L’avantage essentiel réside dans l’étude des caractères plus de deux variables.

qualitatifs. • Comme pour l’ACP, le but de ces analyses est de dégager des
dimensions cachées contenues dans les réponses aux variables
sélectionnées, pour faciliter l’interprétation de tableaux pas
toujours lisibles au départ.

23 24

Récapitulatif - AFC
• Le tableau de départ de l’AFC simple est un tableau croisé
(tableau de contingence) présentant la ventilation d’une
population sur les modalités de réponses de deux questions
qualitatives (ex : diplôme et profession).
• Comme en ACP, les deux premiers axes fournissent une partie
généralement importante de l’information contenue dans le
tableau initial (l’axe horizontal étant, par convention, le plus
Exemple d’Application
significatif).
• La proximité des points renseigne, a priori, sur leurs associations.
La disposition des modalités de chaque variable les unes par
rapport aux autres aide à donner un sens à chaque axe (Ce qui
n’est pas toujours évident, à la seule observation du graphique).

25 26

4
10/01/2025

Exemple d’Application Exemple d’Application


• Ces données fictives peuvent être
• Comment examiner les préférences présentées sous forme d'un tableau à
cinématographiques de différentes catégories deux colonnes avec une question par
d'âge de cinéphiles ? colonne dans ce cas les questions sont
• Un sondage de deux questions a été menée à des variables qualitatives.
la sortie d'un cinéma.
Quel est votre catégorie d'âge ?
Et quel est votre genre cinématographique
préféré ?

27 28

Exemple d’Application Exemple d’Application


• Notre objectif est d'étudier le lien entre les catégories des
deux variables en question.
• Pour l'interprétation nous
• Ces catégories sont nombreuses nous souhaitons donc avoir
une approche exploratoire. nous concentrons sur la
• L'outil utilisé sera l'analyse factorielle des correspondances. sortie graphique symétrique.
• A la manière de l'ACP, l'AFC concentre l'information initiale
ou inertie sur un nombre réduit de dimensions ou axes.

29 30

Exemple d’Application Exemple d’Application

• L'axe horizontal est la • Et l'axe vertical est la dimension F2.

dimension F1. • Pour interpréter une AFC, il faut


garder en tête l'idée que nous
comparons des proportions
relatives de catégorie.

31 32

5
10/01/2025

Exemple d’Application Exemple d’Application

• Chez les "18 ans – 24" ans les films • Les classiques sont plus

d'horreur et de sport sont préférés populaires ici chez les

en comparaison avec les films de personnes plus âgées.

suspense et les classiques.

33 34

Exemple d’Application
• L‘Analyse Factorielle des Correspondances nous a permis
d'explorer un tableau de contingence volumineux.
• L‘AFC souvent utilisée en écologie pour comparer les
abondance relative d'espèces sur les différents sites, elle est
aussi utilisée en text mining pour examiner les proportions Exemple d’Application (2)
relatives de mots dans différents textes….

35 36

Exemple d’Application (2) Exemple d’Application (2)


Variable Signification
• Le sommeil est nécessaire à la survie et ID l’identifiant
Le Genre :
au bon état de santé, la durée du • Le tableau montre qu’il n'y a pas
sex Le genre du personnel
sommeil et la sensation de repos des valeurs manquantes.
age L’âge du personnel
ressentie au réveil peuvent être
influencées par de nombreux facteurs. marital Situation familial • 55.4 % du personnel qui ont
edlevel Niveau d’éducation rempli des questionnaires sont
• Alors, l’objectif est de comprendre Smoke Le personnel qui fume des femmes.
l'influence de l’ensemble des alcool Le personnel qui consomme • Le graphe affirme les données de
problèmes de sommeil sur les tableau, il est bien apparu que le
l’alcool
différents comportements des gens via genre féminin qui domine cette
hourwnit Nombre d’heurs
une BD de 271 enregistrements. population.
satsleep La satisfaction du personnel
qualslp La qualité de sommeil 37 38

6
10/01/2025

Exemple d’Application 2: Exemple d’Application 2:

Le Niveau d’éducation : La qualitéde sommeil :


• Le tableau relève qu’il y a 2 • Le tableau nous relève qu’il y a
valeurs manquantes. trois valeurs manquantes.
• on remarque aussi que ( 49.1 %) • Le pourcentage de personnes qui
du personnel de l'université ont
eu leur master tandis que ( 1,1%) ont une mauvaise qualité de
ont le niveau primaire. sommeil est de 41,4%, contre
58,6% qui ont une meilleure
• D'après le graphique, on qualité.
remarque que la majorité presque
du personnel de l'université ont
eu leur master.
39 40

Exemple d’Application 2: Exemple d’Application 2:

Problèmes avec le sommeil : Satisfaction du sommeil :


• 43,49 % du personnel ont mal à • D'après le tableau, on remarque
dormir comparé à 56,51 % qui ne que le pourcentage de ceux qui
l'ont pas. ont le degré de satisfaction
inférieur à (5) est de 51,1 %.
• D'après le graphique, on
remarque que le personnel qui est
satisfait de leur sommeil est rare.

41 42

Exemple d’Application 2: Exemple d’Application 2:


Tableau croisé de la qualité de sommeil * niveau d’éducation :
• D’après les résultats concernant la table croisé la variable « Quality of sleep » est Tests du khi-carré:
placée en colonne qu’il s’agit de la variable explicative ou indépendante, celle • Pour dire qu'il y a une relation entre
qui une influence sur la variable à expliquer « Highest éducation level achived ».
ces deux variables, il faut que la
• On distingue que les « postgraduate degree »se divise en deux grandes signification (la valeur p) soit
catégories, une ayant une bonne qualité de sommeil, et d’autre une mauvaise inférieure à 0,05. Dans notre cas il est
qualité de sommeil. très élevé donc la relation entre les
deux variables est nulle.

43 44

7
10/01/2025

Exemple d’Application 2: Exemple d’Application 2:

Mesures symétriques : Table des correspondances :


• Le V de Cramer nous renseigne sur la • Au niveau de ce tableau de
force de la relation entre les deux correspondance, les « postgraduate
variables. La valeur de V est degree » sont dans la majorité de
généralement comprise entre 0 (pas de mauvaise qualité, et de bonne qualité.
relation) et 1 (relation complète) et
pour une valeur supérieure à 0.7 (une • 32 très bonne qualité
forte relation). Étant donné que le V • 40 bonne qualité
de Cramer est de seulement 0,589 la
relation est faible.
45 46

Exemple d’Application 2: Exemple d’Application 2:

• Au niveau de la carte factorielle, on


peut lire sur les deux dimensions
dégagées : la distribution et la position
des objets dans l'espace factoriel.
• On a deux variables : « postgraduate
degree » en rouge et « Highest
éducation level achived » en bleu.
• On voit maintenant clairement les
groupes qui se dégagent.

47 48

Exemple d’Application 2: Exemple d’Application 2:


• On voit que les « postgraduate Conclusion :
degree » et « secondary school », pour
les « very good», « poor»,« excellent ». • À partir de ces interprétations et ces résultats de la base de
données, nous pouvons conclure que la performance du
• On a pour les « secondary school », sommeil ne dépend pas de niveau d’éducation.
« ungraduate degree », et « trade L'amélioration de la qualité du sommeil ne dépend pas de
training/post » pour « fair » et l'ajustement du niveau d’éducation.
« good ».
• Pour « primary school » il reste
insignifiant à cause du nombre faible
des observations.
49 50

Vous aimerez peut-être aussi