0% ont trouvé ce document utile (0 vote)
66 vues94 pages

Analyse Factorielle

Ce document présente un cours sur l'analyse des données sous SPSS, abordant des concepts fondamentaux tels que l'analyse bivariée, l'analyse en composantes principales, et la classification hiérarchique ascendante. Il explique également les différences entre la statistique descriptive et mathématique, ainsi que les types de variables et d'analyses de données. Enfin, des applications pratiques sous SPSS sont fournies pour illustrer les méthodes statistiques discutées.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
66 vues94 pages

Analyse Factorielle

Ce document présente un cours sur l'analyse des données sous SPSS, abordant des concepts fondamentaux tels que l'analyse bivariée, l'analyse en composantes principales, et la classification hiérarchique ascendante. Il explique également les différences entre la statistique descriptive et mathématique, ainsi que les types de variables et d'analyses de données. Enfin, des applications pratiques sous SPSS sont fournies pour illustrer les méthodes statistiques discutées.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

COURS D’ANALYSE DES DONNÉES II SOUS SPSS

Harouna Noël BADO


Data Scientist/Ingénieur de Recherche

Université de Technologie et de Management(UTM)/


RT & EII L3/S3

Janvier 2025
PLAN

➢GENERALITES
➢RAPPELS : ANALYSE BIVARIEE
➢ANALYSE EN COMPOSANTE PRINCIPALE (ACP)
➢ANALYSE FACTORIELLE DES CORRESPONDANCES (AFC)
➢ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)
➢ANALYSE FACTORIELLE SUR DONNEES MIXTE (AFDM)
➢CLASSIFICATION HIERARCHIQUE ASCENDANTE (CAH)
GENERALITES
QU’EST-CE QUE L’ANALYSE DE DONNEES

L’analyse des données peut se définir comme l’ensemble des


méthodes permettant une étude approfondie d’informations
quantitatives.
Pour certains, le rôle principal de l’analyse des données est « de
mettre en relief les structures pertinentes de grands ensembles de
données ».
L’analyse de données est assimilée aujourd’hui à l’application des
méthodes statistiques sur les données par l’utilisation des outils
numériques notamment les logiciels informatiques.
QU’EST-CE QUE LA STATISTIQUE?
LA STATISTIQUE EST LA SCIENCE QUI A POUR OBJET DE
RECUEILLIR, ORGANISER, CLASSER, PRÉSENTER ET
INTERPRÉTER LES DONNÉES, EN UN MOT, DE VALORISER
LES DONNÉES.

LA STATISTIQUE (SCIENCE) EST À DISTINGUER D’UNE


STATISTIQUE (GÉNÉRALEMENT EMPLOYÉE AU PLURIEL)
QUI DÉSIGNE UN CHIFFRE OU UNE COLLECTION DE
CHIFFRES SE RAPPORTANT À UN SUJET QUELCONQUE ET
ÉLABORÉS GRÂCE À DES OUTILS ET DES MÉTHODES
STATISTIQUES.
STATISTIQUE DESCRIPTIVE VS STATISTIQUE MATHÉMATIQUE
La statistique descriptive
La statistique descriptive est un ensemble de méthodes permettant
de décrire, présenter, résumer des données souvent très
nombreuses. Ces méthodes peuvent être numériques (tris,
élaboration de tableaux, calcul de moyennes…) et/ou mener à
des représentations graphiques.
 Description graphique
 Caractérisation d’une variable
 Caractérisation de deux variables
 Caractérisation de plusieurs variables
 Analyse factorielle
 Discrimination et classification
STATISTIQUE DESCRIPTIVE VS STATISTIQUE MATHÉMATIQUE
Statistique Mathématique
L'inférence statistique consiste à induire les caractéristiques inconnues d'une
population à partir d'un échantillon issu de cette population. Les caractéristiques de
l'échantillon, une fois connues, reflètent avec une certaine marge d'erreur possible
celles de la population:
• Strictement, l'inférence s'applique à l'ensemble des membres (pris comme un tout) de
la population représentée par l'échantillon, et non pas à tel ou tel membre particulier
de cette population
• L'inférence statistique est donc un ensemble de méthodes permettant de tirer des
conclusions fiables à partir de données d'échantillons statistiques
• L'interprétation de données statistiques est, pour une large part, le point clé de
l'inférence statistique
ANALYSE DESCRIPTIVE VS
ANALYSE EXPLICATIVE
ANALYSE DESCRIPTIVE : ÉTUDE DE L’INFORMATION DE BASE
CONTENU DANS UNE DONNÉE STATISTIQUE, DES ASSOCIATIONS, DES
RESSEMBLANCES (DISSEMBLANCES) .

ANALYSE EXPLICATIVE : ÉTUDE DE L’EFFET D’UNE OU DE PLUSIEURS VARIABLES


SUR UNE RÉALITÉ DONNÉE (PRÉDICTION, P.E.). EXISTENCE D’UN MODÈLE THÉORIQUE
SOUS-JACENT (VARIABLES EXPLICATIVES ET VARIABLE EXPLIQUÉE)
VOCABULAIRE STATISTIQUE
Population et individus
▪L’ensemble sur lequel porte une étude statistique est appelé « population
».
▪Chaque élément de cet ensemble est appelé « individu » ou « unité
statistique».
▪On emploiera les termes population et individu aussi bien lorsqu’il s’agit
d’un ensemble d’êtres humains (ex: les salariés d’une entreprise) ou d’objets
inanimés (ex: les arbres d’une forêt).
▪La population étudiée doit être définie de façon précise pour que tous les
intervenants qui concourent à l’observation, le traitement, l’analyse ou
l’utilisation de l’information statistique en aient la même compréhension.
VOCABULAIRE STATISTIQUE
Echantillon
Un échantillon est une fraction de la population soumise à l’étude.
En termes mathématiques, la population constitue l’ensemble, et
l’échantillon un sous-ensemble.
VOCABULAIRE STATISTIQUE
Caractère/Variable
Le caractère désigne l’aspect particulier et commun à tous les individus,
qui retient l’attention, et que l’on se propose d’examiner. Exemples :
 l’âge des étudiants d’une université
 la prétention salariale des étudiants de maîtrise à l’issue de leur formation
 L’ancienneté des travailleurs d’une société.

Modalités d’une variable/caractère.


On appelle modalités d’une variable, l’ensemble des valeurs prises par
cette variable ou ce caractère.
Exemple :
 Couleur des yeux : Noir, Bleu, Marron ou Vert
 Sexe: Masculin, Féminin
VOCABULAIRE STATISTIQUE
QU’EST-CE QUE UNE VARIABLE?

LA VARIABLE EST, D’ABORD, UN INDICATEUR D’UN


PHÉNOMÈNE QUELCONQUE.

PAR EXEMPLE, LA CHALEUR OU LA FUMÉE DÉGAGÉE


SONT DES INDICATEURS DE FEU ET L’ARGENT EST UN
DES INDICATEURS DE LA RICHESSE.

ENSUITE, CET INDICATEUR PEUT CHANGER DE


VALEUR, D’OÙ SON NOM DE VARIABLE. ENFIN, LES
DIVERSES VALEURS QU’IL PREND SONT MESURABLES
ET QUANTIFIABLES.
NATURE D’UNE VARIABLE
➢LA NATURE D'UNE VARIABLE DÉTERMINE LE TYPE D'OUTIL STATISTIQUE QU'ON
POURRA UTILISER SUR LA VARIABLE. LA VARIABLE STATISTIQUE PEUT ÊTRE QUALITATIVE
OU QUANTITATIVE. POUR DÉTERMINER SON TYPE, IL FAUT SE DEMANDER CE QU'ON
PEUT FAIRE AVEC SES OBSERVATIONS :

Variable quantitative : mesurable ou repérable


 Exemples : âge, poids, ancienneté, température, taille, nombre d’enfants en charge.
Variable Quantitative discrète : variable dont les modalités sont des valeurs isolées (par
exemple des valeurs entières).
 Exemple : nombre d’enfants à charge, taille des entreprises (en nombre d’employés),
nombre de pièces des logements des ménages.
Variable Quantitative continue : Peut prendre toute valeur dans un intervalle donné. En
général ses modalités sont des nombres pouvant être à virgule.
 Exemple : âge, poids (en kilogramme), taille (en mètre), PIB par tête des pays, salaire des
employés.
En pratique, on considère qu’une variable quantitative est continue lorsqu’elle prend un très
grand nombre de valeurs possibles.
 Exemple : le revenu, le salaire des employés d’une entreprise.
NATURE D’UNE VARIABLE
VARIABLE QUALITATIVE : LES MODALITÉS SONT NON MESURABLES. ELLES SONT GÉNÉRALEMENT REPRÉSENTÉES PAR DES NOMS QUI TRADUISENT
DES ÉTATS.
– EXEMPLE :
• COULEURS DES YEUX :BLEU/NOIR/VERT/MARRON
• SITUATION MATRIMONIALE : MARIÉ/NON MARIÉ/CÉLIBATAIRE/DIVORCÉ/VEUF
REMARQUE: LES MODALITÉS PEUVENT ÊTRE REPRÉSENTÉES PAR DES CHIFFRES QUI REPRÉSENTENT DES CODES (CODAGE) ET NON UNE MESURE.

VARIABLE QUALITATIVE NOMINALE : LES MODALITÉS NE PRÉSENTENT AUCUN ORDRE, AUCUNE HIÉRARCHIE ENTRE ELLES..
– EXEMPLE : SITUATION MATRIMONIALE, COULEURS DES YEUX
VARIABLE QUALITATIVE ORDINALE : LES MODALITÉS RESPECTENT UN CERTAIN ORDRE
– EXEMPLE: NIVEAU DE SATISFACTION: INSATISFAIT < MOYENNEMENT SATISFAIT < SATISFAIT < TRÈS SATISFAIT
NATURE D’UNE VARIABLE
TYPE D’ANALYSE DE DONNEES

Analyse de
données

Descriptive Exploratoire Explicative/P


rédictive

Décrire le Décrire le
phénomène phénomène Estimer un
avec une ou avec modèle pour
deux plusieurs expliquer ou
variables variables prédire le
simultanémen simultanémen phenomen
t t
RAPPELS : ANALYSE BIVARIEE
Tableau de contingence
Tableau présentant la combinaison des catégories de deux ou de
plus de deux variables .
✓Dimension d’un tableau de contingence
La dimension d’un tableau de contingence est donnée par le
nombre de variables qui la composent, indépendamment du
nombre de catégories de ces variables.

✓Lignes et colonnes d’un tableau. Le tableau carré


Le tableau carré est un tableau de contingence où le nombre de
lignes est égale au nombre de colonnes. Autrement dit, les
variables composant le tableau ont le même nombre de
catégories.
Étude des fréquences
✓Fréquences conjointes

Dans un tableau de contingence, on désigne par


fréquences conjointes (ou partielles) ou encore
fréquences d’association le nombre d’observations qui
se retrouvent à la fois dans deux catégories des
variables du tableau.
Applications sous SPSS
Etape 1: on fait analyse puis statistique descriptive puis tableau
croisé
Applications sous SPSS
Etape 2: on introduit les deux variables en ligne et en colonne
puis on clique Ok et on obtient les résultats
clic
Analyse tabulaire
Ce tableau présente les fréquences conjointes,
absolues et relatives, pour les variables «comportement
électoral » en 1985 et en 1991 pour une population de
québécois francophone
Vote exprimé Vote exprimé en 1991 Total
en 1985 Parti québécois Parti libéral Autres
Parti québécois 325 18 11 354
(45,8%) (2,5%) (1,5%) (49,9%)
Parti libéral 91 198 11 300
(12,8%) (27,9%) (1,5%) (42,2%)
Autres 42 10 4 56
(5,9%) (1 ,4%) (0,6%) (7,9%)
Total 458 226 26 710
(64,5%) (31 ,8%) (3,7%) (100,0%)
Fréquences marginales
On appelle « marginales » ou « fréquences
marginales » les fréquences ni. et n.j , fi. et f.j .
Ce sont des fréquences absolues et relatives
correspondant aux catégories de chacune des
variables qui entrent dans la constitution du
tableau.
Analyse tabulaire

Vote exprimé Vote exprimé en 1991 Total


en 1985 Parti québécois Parti libéral Autres
Parti québécois 325 18 11 354
(45,8%) (2,5%) (1,5%) (49,9%)
Parti libéral 91 198 11 300
(12,8%) (27,9%) (1,5%) (42,2%)
Autres 42 10 4 56
(5,9%) (1 ,4%) (0,6%) (7,9%)
Total 458 226 26 710
(64,5%) (31 ,8%) (3,7%) (100,0%)
Analyse tabulaire

A la marge inférieure, nous avons celle de la variable


« vote exprimé en 1981 ». .

Vote exprimé en Fréquences Fréquences relatives


1981 Absolues (%)
Parti québécois 458 64,5

Parti libéral 226 31,8

Autres 26 3,7
Fréquences conditionnelles
C’est la distribution obtenue pour une variable lorsque se réalise une
condition définie par la catégorie d’une autre variable, ou par la
combinaison des catégories d’autres variables. Les fréquences
marginales absolues ou relatives sont des fréquences non
conditionnelles.

Conditions déterminées par les catégories de la variable qui forment


les colonnes (Y)

Ici, le problème posé revient à calculer la probabilité que la


variable X prenne les valeurs 1, 2, 3, …, i, pour une valeur
quelconque de Y qui est considérée comme une condition donnée.
Applications sous SPSS
Etape 1: on fait données ou data puis select cases ou
sélectionner des observations
Applications sous SPSS
Etape 2: on fait « if condition is satisfied » puis if on pose la
condition et ensuite on clique sur continue et la sélection est
effectuée Clic
Applications sous SPSS
Etape 3: on fait statistiques descriptives puis fréquences
Analyse tabulaire
Etape 4: on fait entrer la variable puis on clique sur OK puis on
obtient les résultats clic
Analyse tabulaire
La probabilité conditionnelle peut se calculer par la formule
suivante: p (Xi/Yj)= nij/n.j

•Conditions déterminées par les catégories de la variable qui


forment les lignes (X)

Le problème revient ici à calculer la probabilité que Y prenne


une valeur quelconque, étant donné une valeur de X .

La probabilité conditionnelle peut se calculer par la formule


suivante: p (Yj/Xi)= nij/ni.
Analyse tabulaire
✓Relations indépendantes: fréquences marginales et
fréquences conditionnelles

Si deux variables sont indépendantes, les fréquences


conditionnelles sont égales aux fréquences marginales, qui
sont, comme on le sait, des fréquences non conditionnelles.

En d’autres termes, si on retient comme condition une des


valeurs (ou une des catégories) de l’une des deux variables, la
distribution de fréquences de l’autre variable n’en sera pas
affectée. Nous avons donc la relation suivante: p (Xi/Yj)=p(Xi).
ANALYSE DE LA RELATION ENTRE DEUX
VARIBALES
ETUDE DE LIEN
DEUX VARIABLES TEST DE CORRELATION
QUANTITATIVES LINEAIRE

DEUX VARIABLES TEST D’INDEPENDANCE


QUALITATIVES (KHI-DEUX, V DE CRAMER,
D DE SOMER

UNE VARIABLE TEST DE COMPARAISON


QUANTITATIVE ET UNE DES MOYENNES (T TEST,
VARIABLE QUALITATIVE ANOVA)

DEUX VARIABLES
QUALITATIVES ET UNE ANOVA DEUX FACTEURS
VARIABLES QUANTITATIVES
ANALYSE EN COMPOSANTE
PRINCIPALE
DONNÉES ET OBJECTIFS
L’Analyse en Composantes Principales (ACP) s’applique à des tableaux croisant des
individus et des variables quantitatives, appelés de façon concise tableaux
Individus×Variables quantitatives.
Selon un usage bien établi, les lignes du tableau représentent les individus et les
colonnes représentent les variables. A l’intersection de la ligne i et de la colonne k se
trouve la valeur de la variable k pour l’individu i. La figure 1.1 illustre ces notions et
complète les notations.
DONNÉES ET OBJECTIFS

À propos de deux individus, on essaie d’évaluer leur ressemblance : deux individus se


ressemblent d’autant plus qu’ils possèdent des valeurs proches pour l’ensemble des
variables. En ACP, la distance d(i,l) entre deux individus i et l est définie par :

À propos de deux variables, on essaie d’évaluer leur liaison. En ACP, la liaison entre deux
variables est mesurée par le coefficient de corrélation linéaire (dans de rares situations, on
utilise la covariance), noté usuellement r. Soit :
DONNÉES ET OBJECTIFS

L’ objectif général de l’ACP est une étude exploratoire. Les deux voies principales de
cette exploration sont :
Un bilan des ressemblances entre individus. On cherche alors à répondre à des
questions du type suivant : quels sont les individus qui se ressemblent ? Quels sont
ceux qui diffèrent ? Plus généralement, on souhaite décrire la variabilité des
individus. Pour cela, on cherche à mettre en évidence des groupes homogènes
d’individus dans le cadre d’une typologie des individus. Selon un autre point de vue,
on cherche les principales dimensions de variabilité des individus.
Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont
corrélées positivement entre elles ? Quelles sont celles qui s’opposent (corrélées
négativement) ? Existe-t-il des groupes de variables corrélées entre elles ? Peut-on
mettre en évidence une typologie des variables ?
DONNÉES ET OBJECTIFS

Un autre aspect de l’étude des liaisons entre variables consiste à


résumer l’ensemble des variables par un petit nombre de variables
synthétiques appelées ici composantes principales. Ce point de vue
est très lié au précédent : une composante principale peut être
considérée comme le représentant (la synthèse) d’un groupe de
variables liées entre elles.
Objectifs de l’Analyse en Composantes Principales (ACP)

➢ Bilan des ressemblances entre individus: quels sont les individus qui se
ressemblent? Quels sont ceux qui diffèrent? Existent-ils des groupes homogènes
d’individus? Peut-on mettre en évidence une typologie des individus?

➢ Bilan des liaisons entre variables : quelles variables sont corrélées


positivement entre elles? Quelles sont celles qui s’opposent (corrélées
négativement)? Existent des groupes de variables corrélées entre elles? Peut-on
mettre en évidence une typologie des variables?

➢ Autre objectif: réduction de l’ensemble des variables en un nombre réduit de


variables synthétiques appelées composantes
Exigences et conditions d’application de l’Analyse en Composantes
Principales (ACP)

➢Les variables doivent être quantitatives,


➢Elles doivent être fortement corrélées entre
elles
➢Autre exigence : les facteurs ou composantes
doivent être orthogonales (c’est-à-dire
indépendantes les unes des autres)
Deux statistiques à examiner lorsqu’on
applique une ACP

➢ Le test de sphéricité de Bartlett : si celui-ci est significatif, on rejette


l’hypothèse d’absence de corrélation entre les variables et donc on peut
procéder à une ACP.

➢ La mesure de Kaiser-Meyer-Olkin (KMO) : permet de vérifier


l’hypothèse d’orthogonalité des composantes. Plus la valeur du KMO est
proche de 1, plus les composantes sont orthogonales

➢ La valeur de 0,70 (70 %) pour la mesure de KMO est le seuil


généralement considéré comme celui au-delà duquel on peut procéder à
une ACP.
INTERPRÉTATION DE L’ACP
INTERPRÉTATION DE L’ACP

- Qualité de représentation d’un nuage par un axe : La définition précédente se


généralise à l’ensemble d’un nuage par le rapport

Cet indicateur, appelé pourcentage d’inertie associé à un axe, mesure en outre «


l’importance » relative d’un axe factoriel dans la variabilité des données.
Comme dans le cas d’un seul élément, ces pourcentages peuvent être cumulés sur
plusieurs axes ; on parle alors du pourcentage d’inertie extrait par un plan ou par les S
premiers facteurs.
INTERPRÉTATION DE L’ACP

- Contribution d’un élément à l’inertie d’un axe : Un axe factoriel rend maximum (sous
contrainte d’orthogonalité avec les axes précédents) l’inertie projetée d’un nuage. Cette
inertie projetée du nuage peut être décomposée point par point.
APPLICATION SOUS SPSS
Etape 1: Choix de la méthode
APPLICATION SOUS SPSS
Etape 1: Choix de la méthode
APPLICATION SOUS SPSS
Etape 2: Choix des variables
APPLICATION SOUS SPSS
Etape 3: Choix des statistiques
APPLICATION SOUS SPSS
Etape 4: Extraction des facteurs
APPLICATION SOUS SPSS
Etape 5: Choix de type de rotation (la rotation varimax)
APPLICATION SOUS SPSS
Etape 6: Création de variables
Synthèse des étapes de construction d’un indicateur synthétique

1. Examen et choix des variables (« frequencies »)


2. Choix de la méthode d’agrégation (ici l’ ACP)
3. Transformation des variables pour les rendre quantitatives (« recode »)

4. Mise en oeuvre de l’ACP (« factor…/extraction PC »)

5. Notre indicateur synthétique = Première Composante (« compute »)


6. Produire les quintiles et alors constituer nos cinq classes (« frequencies », « compute »
et « if »)
7. Evaluation interne du proxy (« crosstabs »)

8. Fusion : « match file… »


VARIABLES QUALITATIVES ILLUSTRATIVES EN ACP

On est souvent conduit à vouloir relier les résultats d’une ACP à des variables
qualitatives définis sur les individus.
Exemple : On étudie les notes obtenues à différentes épreuves par un ensemble
d’élèves. L’ACP de ce tableau met en évidence les principales dimensions de
variabilité des élèves, par exemple une opposition entre les élèves plutôt meilleurs
dans les matières scientifiques et ceux plutôt meilleurs dans les matières littéraires.
On dispose par ailleurs d’informations sur ces élèves sous forme de variables
qualitatives, par exemple leur genre (fille/garçon), la catégorie socio-professionnelle
des parents, etc. Il est utile de relier ces variables qualitatives aux axes factoriels,
avec en perspective des questions du type : observe-t-on, sur ces données, l’idée
souvent émise selon laquelle les filles obtiennent des résultats plutôt meilleurs dans les
matières littéraires et les garçons des résultats plutôt meilleurs dans les matières
scientifiques ?
VARIABLES QUALITATIVES ILLUSTRATIVES EN ACP

Pour cela, on dispose de deux outils graphiques simples et efficaces :


✓Identification, sur les plans factoriels, des individus par leur modalité à l’aide d’un
code, de couleur ou de forme (dans l’exemple on pourra identifier les filles par un
point rose et les garçons par un point bleu !) ; cela permet d’étudier finement la
relation entre une variable qualitative et le plan factoriel mais nécessite un
graphique par variable ;
✓Représentation, sur les plans factoriels, des centres de gravité des ensembles
d’individus possédant une même modalité (dans l’exemple, le centre de gravité des
filles et celui des garçons) ; à la différence de la technique précédente, un seul
graphique permet d’examiner plusieurs variables qualitatives simultanément, mais, en
revanche, ne donne pas d’informations quant à la variabilité des individus présentant
une même modalité
INTERPRÉTATION D’UNE ACP

Deux phases principales:


❑Un bilan sur les inerties associées aux différents facteurs, qui ne
se préoccupe pas de la signification des facteurs, mais se fonde
seulement sur des indices numériques.
❑L’interprétation proprement dite des facteurs, difficilement
formalisable, qui donne une large place aux connaissances sur le
problème étudié extérieures au tableau de données.
VALEURS PROPRES

Rappelons que la première valeur propre est toujours comprise entre 1 et le nombre de variables
K . Elle vaut 1 lorsque les variables sont toutes non corrélées deux à deux.
Elle est égale à K lorsqu’il existe une liaison linéaire parfaite entre toutes les variables.
Dans le cas limite d’une première valeur propre proche de 1, on est conduit à deux attitudes
différentes selon l’objectif de l’analyse :
– considérer l’ensemble des dimensions si l’on cherche un résumé des données ;
– ne considérer aucune dimension si l’on s’intéresse aux liaisons entre variables.
Plus la valeur propre est grande, plus elle résume de variables et plus le facteur risque d’être
intéressant en terme de synthèse.
Le diagramme des valeurs propres, appelé souvent abusivement histogramme, est utilisé surtout
pour étudier l’allure de la décroissance de ces valeurs.
POURCENTAGES D’INERTIE EXTRAITS PAR LES
FACTEURS
Le pourcentage d’inertie extrait par un facteur est le rapport entre
l’inertie associée au facteur (i.e. la valeur propre) et l’inertie totale
du nuage étudié ; il mesure l’importance relative du facteur dans
le tableau. Il est souvent utilisé sous la forme cumulée qui indique
le pourcentage d’inertie extrait par les S premiers facteurs.
Il ne faut pas oublier de juger ces pourcentages en fonction de la
taille du tableau : 10 % est une valeur faible si le tableau
comporte 10 variables (elle est égale à la moyenne et correspond
à la valeur propre 1) ; c’est une valeur forte dans le cas de 100
variables.
QUEL NOMBRE DE FACTEURS RETENIR ?

À propos des valeurs propres et des pourcentages d’inertie, on a évoqué à


plusieurs reprises les pronostics que suggèrent ces indicateurs quant à l’intérêt
des facteurs.
Poursuivant cette démarche, certains ont demandé à ces indicateurs plus que
des pronostics, à savoir une règle de décision quant au nombre de facteurs à
retenir dans l’interprétation. Pour cela, on se réfère à une situation de
parfaite indépendance des variables qui se traduit par une isotropie des
nuages étudiés ; on examine ensuite si l’importance absolue (jugée à partir
des valeurs propres) ou relative (jugée à partir des pourcentages d’inertie)
des facteurs effectivement obtenus peut être considérée comme grande en
regard de la situation de référence.
INTERPRÉTATION DES FACTEURS

Les facteurs sont appréhendés dans l’ordre décroissant de leurs valeurs propres.
Ils peuvent être étudiés séparément ou deux par deux à l’aide des plans
factoriels. Il faut constamment garder à l’esprit que le facteur d’ordre s (s > 1)
traduit les tendances « résiduelles » non prises en compte par les facteurs
précédents.
L’ordre proposé pour dépouiller les résultats correspond à une phase de
découverte.
L’approfondissement d’une interprétation donne toujours lieu à des va-et-vient
entre les différents résultats, trop liés aux données et à l’analyste pour être
formalisés. En particulier, du fait de la dualité, on est souvent conduit à consulter
alternativement les résultats concernant les individus et les variables.
CONTRIBUTIONS DES INDIVIDUS

L’intérêt d’un facteur dépend en grande partie du nombre d’individus qu’il concerne.
On réalise une première approche de ce nombre en consultant la liste des
contributions des individus aux facteurs pour repérer si un seul individu ou un très
petit nombre d’individus ont une contribution très supérieure à la moyenne. On peut
calculer aussi le nombre minimum d’individus totalisant, à eux tous, un pourcentage
d’inertie projetée fixé à l’avance (par exemple 50 %). Cet indicateur évalue le
degré de généralité d’un facteur au sens du nombre d’individus participant à ce
facteur.
Le premier stade de l’interprétation d’un facteur qui apparemment ne concerne que
très peu d’individus est en général simple : on identifie rapidement ces individus et
leur particularisme. La signification de ce particularisme est plus ou moins immédiate ;
elle peut remettre en cause le champ de l’analyse, à savoir l’ensemble des individus
étudiés.
ANALYSE FACTORIELLE DES
CORRESPONDANCES
DONNÉES, NOTATIONS, HYPOTHÈSE
D’INDÉPENDANCE
❑À l’origine, l’Analyse Factorielle des Correspondances (AFC) a été conçue pour
étudier des tableaux appelés couramment tableaux de contingence (ou tableaux
croisés).
❑Il s’agit de tableaux d’effectifs obtenus en croisant les modalités de deux variables
qualitatives définies sur une même population de n individus.
❑ Un tableau de contingence exprime la liaison entre deux variables qualitatives.
❑Classiquement, pour une mesure de probabilité, on dit qu’il y a indépendance entre
les deux variables lorsque, pour tout i et pour tout j, on a l’égalité :
DONNÉES, NOTATIONS, HYPOTHÈSE
D’INDÉPENDANCE
❑Il y a liaison entre les deux variables dès que certaines cases du tableau fi j
diffèrent du produit fi. f. j. Si fij est supérieur à ce produit, les modalités i et j
s’associent plus qu’elles ne le font dans l’hypothèse d’indépendance : on dit que i et j
s’attirent.
❑Au contraire, si fij est inférieur au produit des marges, i et j s’associent moins que
dans l’hypothèse d’indépendance : on dit qu’il y a répulsion entre ces deux
modalités.
❑L’indépendance s’exprime aussi en considérant le tableau comme un ensemble de
lignes. En effet, l’égalité ci-dessus est équivalente à l’égalité
OBJECTIFS

❑Bien que le tableau étudié soit de nature très différente de celui étudié en ACP, les objectifs
de l’AFC peuvent s’exprimer de manière analogue à ceux de l’ACP : on cherche à obtenir une
typologie des lignes, une typologie des colonnes et à relier ces deux typologies entre elles ;
mais la notion de ressemblance entre deux lignes, ou entre deux colonnes, est différente de
celle de l’ACP.
❑Dans un tableau de contingence, la ressemblance, entre deux lignes d’une part et entre deux
colonnes d’autre part, s’exprime de manière totalement symétrique. Deux lignes sont
considérées comme proches si elles s’associent de la même façon à l’ensemble des colonnes,
c’est-à-dire si elles s’associent trop (ou trop peu) aux mêmes colonnes ; les termes « trop » et «
trop peu » sont pris en référence à la situation d’indépendance. Symétriquement, deux colonnes
sont proches si elles s’associent de la même façon à l’ensemble des lignes
OBJECTIFS

❑Schématiquement, l’étude de l’ensemble des lignes revient à mettre en


évidence une typologie dans laquelle on cherche les lignes dont la répartition
s’écarte le plus de celle de l’ensemble de la population, celles qui se
ressemblent entre elles (dans le sens précisé ci-dessus) et celles qui s’opposent.
Pour mettre en relation la typologie des lignes avec l’ensemble des colonnes, on
caractérise chaque groupe de lignes par les colonnes auxquelles ce groupe
s’associe trop ou trop peu.
❑L’étude de l’ensemble des colonnes est absolument analogue.
❑Cette approche, grâce à la notion de ressemblance utilisée, permet d’étudier
la liaison entre les deux variables, c’est-à-dire l’écart du tableau à l’hypothèse
d’indépendance. L’analyse de cette liaison est l’objectif fondamental de l’AFC
TRANSFORMATIONS DES DONNÉES EN PROFILS
En AFC, le tableau brut n’est pas analysé directement. Dans l’étude des lignes, le
tableau des données est transformé en divisant chaque terme fi j de la ligne i par la
marge [Link] cette ligne i. La nouvelle ligne est appelée profil-ligne
Cette transformation découle de l’objectif qui vise à étudier la liaison entre les deux
variables au travers de l’écart entre les pourcentages en lignes. Elle se justifie aussi
de façon directe puisque la comparaison de deux lignes du tableau brut risque
d’être influencée principalement par leurs effectifs marginaux.
RESSEMBLANCE ENTRE PROFILS : DISTANCE DU
KHI2
En AFC, la ressemblance entre deux lignes ou entre deux colonnes est définie par une
distance entre leurs profils connue sous le nom de distance du Khi2. Elle est définie de
façon symétrique pour les lignes et pour les colonnes. Soit :
STATISTIQUE DU KHI2 ET INERTIE DES DEUX
NUAGES NI ET NJ
Lorsque l’on étudie un tableau de contingence, c’est-à-dire une population de
n individus au travers de deux variables qualitatives, il est classique de
mesurer la significativité de la liaison entre ces deux variables à l’aide de la
statistique x2. Appliquée à un tableau d’effectifs, cette statistique mesure
l’écart entre les effectifs observés et les effectifs théoriques que l’on
obtiendrait en moyenne si les deux variables étaient indépendantes. Elle
s’écrit :
DUALITÉ ENTRE LES FACTEURS SUR I ET LES
FACTEURS SUR J
De même qu’en ACP, on appelle facteur l’ensemble des
coordonnées des projections des points d’un nuage sur l’un
de ses axes factoriels ; les facteurs sur les lignes sont les
projections de NI et les facteurs sur les colonnes les
projections de NJ . Le rang d’un facteur est le rang de
l’axe factoriel correspondant. Outre leur inertie totale
identique, les nuages NI et NJ possèdent une propriété
remarquable : leur ajustement conduit à deux suites de
facteurs « duaux ».
AIDES À L’INTERPRÉTATION ET ÉLÉMENTS
SUPPLÉMENTAIRES

Les indices d’aide à l’interprétation (qualité de représentation d’un élément par un axe ou un
plan et contribution d’un élément à l’inertie d’un axe) définis en ACP sont valables pour un nuage
quelconque. Ils s’appliquent donc en AFC.
Notons que, si en ACP les poids de tous les éléments sont en général égaux, ce n’est pas le cas en
AFC ; or ces poids interviennent dans la contribution d’un point à l’inertie d’un axe.
En AFC, comme en ACP, on utilise presque systématiquement la technique des éléments
supplémentaires, qui consiste à projeter sur les axes factoriels des profils de lignes ou de colonnes
qui n’interviennent pas dans le calcul de ces axes. Une ligne supplémentaire est reliée aux
colonnes actives par la formule barycentrique.
De même, une colonne supplémentaire est reliée aux lignes actives par la formule barycentrique.
Ces éléments servent très souvent, eux aussi, d’aides à l’interprétation ; dans les tableaux de
grande dimension, par exemple, il est très pratique de connaître la position et la qualité de
représentation du barycentre de plusieurs lignes ou de plusieurs colonnes.
CONCLUSION

Dans ce chapitre, l’AFC est introduite comme une méthode particulièrement bien adaptée à l’étude
d’un tableau de contingence. D’un point de vue historique, elle a d’ailleurs été imaginée pour traiter
ce type de tableau. Toutefois, les remarquables propriétés de cette méthode ont très tôt incité à
l’appliquer à d’autres tableaux : aujourd’hui, la pratique courante de l’AFC dépasse largement le
cadre des tableaux de contingence.
Dès l’instant que l’on étudie un tableau qui n’est pas un tableau de contingence, l’objectif de l’AFC
ne peut plus être formulé en terme de liaison entre deux variables qualitatives. En revanche, il existe
des tableaux dont l’étude nécessite une typologie des lignes d’une part et des colonnes d’autre part,
à travers leur profil.
Pour établir l’intérêt de l’AFC dans la réalisation de telles typologies, il convient de s’assurer que les
différentes notions mises en jeu par cette méthode (transformation en profils, distance du x2 , poids
des éléments) sont en accord avec le point de vue que l’on veut avoir sur les données étudiées. Les
formules barycentriques, qui relient les projections des lignes et des colonnes et qui permettent à
elles seules de caractériser les facteurs, peuvent aussi justifier l’application de l’AFC.
ANALYSE DES CORRESPONDANCES
MULTIPLES
Introduction

L'analyse factorielle des correspondances (AFC), vue dans la


séance précédente, s'applique à des situations où les individus
statistiques sont décrits par deux variables qualitatives (nominales
ou ordinales).
Mais il est fréquent que l'on dispose d'individus décrits par plusieurs
(deux ou plus) variables qualitatives. C'est notamment le cas
lorsque nos données sont les résultats d'une enquête basée sur des
questions fermées à choix multiples. Une extension de l'AFC à ces
situations a donc été proposée.
Elle est appelée Analyse des Correspondances Multiples ou ACM
Intérêt de l’analyse des correspondances

❑L’Analyse des Correspondances Multiples (ACM) permet d’étudier une


population de I individus décrits par J variables qualitatives.
❑Une variable qualitative est une application de l’ensemble I des
individus dans un ensemble fini sur lequel on ne considère aucune
structure : par exemple un ensemble de trois couleurs (bleu, blanc,
rouge). Les éléments de cet ensemble sont appelés modalités de la
variable et l’on dit par exemple qu’un individu bleu possède la
modalité bleu.
❑L’application la plus courante de l’ACM est le traitement de l’ensemble
des réponses à une enquête. Chaque question constitue une variable
dont les modalités sont les réponses proposées (parmi lesquelles chaque
enquêté doit faire un choix unique).
Objectifs

L'ACM vise à mettre en évidence :


❑les relations entre les modalités des différentes variables ; éventuellement, les relations entre
individus statistiques ; les relations entre les variables, telles qu'elles apparaissent à partir des
relations entre modalités.
❑La représentation dans un repère orthonormé des différentes catégories des variables permet
d’examiner ces différentes oppositions. Le plan étant subdivisé en 4 régions, les interprétations se
font entre les catégories des différentes régions d’une part et d’autre part , ces interprétations
peuvent se faire à partir du centre du repère
OBJECTIFS : ÉTUDE DES INDIVIDUS

❑De façon analogue à l’ACP, l’un des objectifs de l’ACM est de réaliser une typologie des individus.
Cette typologie doit s’appuyer sur une notion de ressemblance telle que deux individus sont
d’autant plus proches qu’ils possèdent un grand nombre de modalités en commun.
❑En outre, dans la plupart des applications de l’ACM, les individus sont très nombreux et ne sont
connus que par leurs caractéristiques présentes dans le tableau de données. Par exemple, dans une
enquête d’opinion, on ne dispose pour chaque individu d’aucune autre connaissance que ses
réponses au questionnaire. En ce cas, les individus sont étudiés au travers des classes définies par les
variables. Ainsi, dans les enquêtes d’opinion, on s’intéresse, par exemple, aux femmes, aux jeunes,
aux retraités, etc. Une analyse des individus au travers de ces classes doit être telle que deux
classes se ressemblent d’autant plus que leurs profils de répartition sur l’ensemble des modalités sont
proches
ÉTUDE DES VARIABLES

Procédant encore de façon analogue à l’ACP, on peut adopter deux points de vue dans l’étude des
variables.
Le premier est celui du bilan des liaisons entre les variables. L’étude de la liaison entre deux variables
qualitatives nécessite de considérer le tableau de contingence croisant leurs modalités. Un bilan un tant
soit peu détaillé de ces liaisons implique donc de se situer au niveau des modalités plus qu’à celui des
variables.
Le second consiste à résumer l’ensemble des variables (qualitatives) par un petit nombre de variables
numériques. Par exemple, on peut chercher à résumer un ensemble de variables socio-professionnelles
par un indicateur de « statut social ». L’intérêt de ces variables synthétiques provient de ce qu’elles
sont liées à l’ensemble des variables étudiées. Ainsi, une variable ne pourra être considérée comme un
indicateur de « statut social » que si elle est liée à la fois à la catégorie socio-professionnelle, au type
de diplôme, etc
ETUDES DES MODALITÉS

Etudier l’ensemble des modalités revient à dresser un bilan de leurs ressemblances. Or une modalité peut être
considérée selon deux points de vue :
1. en tant que variable indicatrice définie sur l’ensemble des individus, soit une colonne du TDC
2. en tant que classe d’individus dont on connaît la répartition sur l’ensemble des modalités, soit une ligne ou
une colonne du tableau de Burt
La notion de ressemblance entre modalités diffère selon le point de vue adopté. Dans le premier cas, la
ressemblance entre deux modalités doit reposer sur leur association mutuelle : deux modalités se ressemblent
d’autant plus qu’elles sont présentes ou absentes simultanément chez un grand nombre d’individus. Les autres
modalités n’interviennent pas.
Dans le second cas, la ressemblance entre deux modalités est analogue à celle que l’on utilise dans les
tableaux de fréquence. Une ligne du tableau de Burt caractérise l’association de la modalité avec les
modalités de toutes les variables : deux modalités se ressemblent d’autant plus qu’elles s’associent beaucoup ou
peu aux mêmes modalités.
Structures des données
Pour réaliser une ACM, les données peuvent être disposées de plusieurs manières par
lesquelles on a:
1. Le codage condensé
Ces données peuvent être rassemblées dans un tableau de type Individus X Variables
comme dans le cas de l’ACP. Les lignes représentent les individus, les colonnes
représentent les variables: à l’intersection de la ligne i (individu i) et de la
colonne j (variable xj ) se trouve la valeur xij ) de l’individu i pour la variable de
rang j. Les valeurs xij sont des codifications qui ne possèdent pas de propriété
numérique et il n’est donc pas possible d’appliquer une ACP à ces données.
Structures des données
2. Le tableau disjonctif complet (TDC)
Dans ce tableau, les lignes représentent les individus et les colonnes les modalités des variables: à
l’intersection de la ligne i et de la colonne k, on trouve xik qui vaut 1 ou 0 selon que l’individu i possède la
modalité k ou non. Les colonnes de ce tableau sont des variables numériques appelées indicatrices ou
variables dichotomiques.
3. Le tableau Burt
Le tableau de Burt comporte une ligne et une colonne pour chaque modalité des variables étudiées. Chaque
cellule du tableau indique le nombre d'individus statistiques qui possèdent en même temps la modalité ligne
et la modalité colonne correspondantes. Il ne contient que des 0 sauf sur la diagonale qui contient les
effectifs totaux des modalités.
Exemple
Il s'agit d'une partie des données issues de l'enquête "Les étudiants et la ville" effectuée en 2001 par des
étudiants de
Structures des données
Question N° Réponses possibles Poids (%) Abréviation
Habitez-vous (variable 1 seul 48,30% Seul
"mode d'occupation") 2 colocataires 13,84% Coloc
3 en couple 13,05% Couple
4 avec les parents 23,50% Parents
5 non réponse 1,31% NR1
Quel type d'habitation 6 cité universitaire 10,70% Cité
occupez-vous ? (variable 7 studio 28,20% Studio
"type d'habitation") 8 appartement 30,29% Appart
9 chambre chez un particulier 5,22% Chambre
10 autre 19,84% Autre
11 non réponse 5,74% NR2
Si vous vivez en dehors du 12 moins de 1 an 20,89% < 1 an
foyer familial, depuis 13 1 à 3 ans 24,80% 1-3 ans
combien de temps ? 14 plus de 3 ans 28,72% > 3 ans
(variable "ancienneté") 15 non applicable 24,80% NA
16 non réponse 0,78% NR3
A quelle distance 17 moins de 1 km 26,89% < 1 km
approximative de la Fac 18 1 à 5 km 49,87% 1 à 5 km
vivez-vous ? (variable 19 plus de 5 km 20,89% > 5 km
"éloignement") 20 non réponse 2,35% NR4
Quelle est la superficie de 21 moins de 10 m2 9,14% < 10 m2
votre logement ? (variable 22 10 à 20 m2 17,75% 10 à 20 m2
"superficie") 23 20 à 30 m2 24,80% 20 à 30 m2
24 plus de 30 m2 39,16% > 30 m2
25 non réponse 9,14% NR5
Codage condensé

Individu Mode d'occupation Type d'habitation Ancienneté Eloignement Superficie

1 1 6 12 17 21
2 2 8 13 18 23
... ...

Tableau disjonctif complet


Mode d'occupation Type habitation Ancienneté Eloignement Superficie

Seul Coloc Couple Parents Cité Studio Appart Chambr Autre NR2 <= 1 an 1-3 ans > 3 ans NA et - de 1à5 + 5 km - de 10 10 à 20 20 à 30 + de 30 NR5
et NR1 e NR3 1km km et NR4 m2 m2 m2 m2

i1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0

i2 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0

i3 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0

i4 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1

i5 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0

... ... ...


Tableau de Burt

Seu Col Co Par Cit Stu Ap Cha Aut NR <= 1-3 >3 NA - de 1à +5 - de 10 20 + NR
l oc upl ents é dio part mbr re 2 1 ans ans & 1k 5 km 10 à à de 5
e & e an NR m km & 2 20 30 30
m 2 2 2
NR NR m m m
Seul 185 0 0 0 34 90 40 13 3 5 61 60 59 5 70 101 14 32 61 71 21 0
Colo 0 53 0 0 5 6 32 2 3 5 13 18 21 1 13 33 7 1 4 8 40 0
Coup 0 0 50 0 2 10 34 0 3 1 5 14 28 3 15 23 12 2 2 14 32 0
Par / NR 0 0 0 95 0 2 10 5 67 11 1 3 2 89 5 34 56 0 1 2 57 35
Cité 34 5 2 0 41 0 0 0 0 0 17 13 9 2 15 23 3 27 9 1 4 0
Stud 90 6 10 2 0 108 0 0 0 0 29 33 45 1 41 61 6 1 33 57 17 0
App 40 32 34 10 0 0 116 0 0 0 23 35 47 11 37 62 17 1 10 29 74 2
Cha 13 2 0 5 0 0 0 20 0 0 6 6 3 5 6 10 4 4 7 5 4 0
Autr 3 3 3 67 0 0 0 0 76 0 2 4 4 66 2 29 45 0 1 1 50 24
NR2 5 5 1 11 0 0 0 0 0 22 3 4 2 13 2 6 14 2 8 2 1 9
- de1 61 13 5 1 17 29 23 6 2 3 80 0 0 0 30 44 6 14 26 24 16 0
1-3 60 18 14 3 13 33 35 6 4 4 0 95 0 0 25 60 10 11 22 28 32 2
+de3 59 21 28 2 9 45 47 3 4 2 0 0 110 0 43 53 14 10 14 41 45 0
NA / NR 5 1 3 89 2 1 11 5 66 13 0 0 0 98 5 34 59 0 6 2 57 33
- 1k 70 13 15 5 15 41 37 6 2 2 30 25 43 5 103 0 0 12 26 38 26 1
1à5 101 33 23 34 23 61 62 10 29 6 44 60 53 34 0 191 0 20 35 47 82 7
+ 5k/NR 14 7 12 56 3 6 17 4 45 14 6 10 14 59 0 0 89 3 7 10 42 27
- 10 32 1 2 0 27 1 1 4 0 2 14 11 10 0 12 20 3 35 0 0 0 0
10-20 61 4 2 1 9 33 10 7 1 8 26 22 14 6 26 35 7 0 68 0 0 0
20-30 71 8 14 2 1 57 29 5 1 2 24 28 41 2 38 47 10 0 0 95 0 0
30+ 21 40 32 57 4 17 74 4 50 1 16 32 45 57 26 82 42 0 0 0 150 0
NR5 0 0 0 35 0 0 2 0 24 9 0 2 0 33 1 7 27 0 0 0 0 35
Méthodologie de l’ACM

L'ACM peut être considérée comme une variante de l'AFC. Comme l'indiquent Rouanet et Le Roux :
Effectuer l'analyse des correspondances multiples, c'est effectuer l'analyse factorielle des
correspondances du tableau disjonctif complet.
Comme en AFC, on peut calculer des fréquences, des fréquences lignes, des fréquences colonnes et des
profils lignes et profils colonnes moyens.
L'élément le plus facile à interpréter est le profil colonne moyen : ce sont les fréquences des différents
patrons de réponses dans la population étudiée.
Le profil ligne moyen est obtenu en calculant, pour chaque modalité, le quotient de sa fréquence par le
nombre Q de questions. En notant respectivement nk et fk l'effectif et la fréquence de la modalité k, on a
:
nk Nombre d' individus ayant choisi la modalité k
fk = =
N Nombre total d' individus

et le k-ième élément du profil-ligne moyen est :

fk nk Nombre d' individus ayant choisi la modalité k


f•k = = =
Q QN Nombre de questions Nombre total d' individus
Méthodologie de l’ACM
Ainsi, dans notre exemple, la fréquence de la modalité "Seul" de la variable "Mode d'occupation" est
0,483, alors que le nombre de questions est Q=5. La première valeur du profil ligne moyen est donc :
0.483/5=0.0966
Distances entre modalités
On peut montrer que la distance entre les modalités k et k' est donnée par :

1 1 f n + n − 2nkk'
d2Φ2 (Mk , Mk' ) = + − 2 kk' = k k'
fk fk' fk fk' nknk' /n

où fkk'est la fréquence de la combinaison de modalités k et k', ou encore

Effectif de k + Effectif de k' − 2  Effectif de la combinaison k & k'


d2Φ2 (Mk , Mk' ) =
Effectif de k  Effectif de k' / Effectif total

Par exemple, sachant que l'effectif de la modalité "Seul" est 185, celui de la modalité "Cité" est 41,
celui de la combinaison "Seul et en cité" est 34 et l'effectif total est de 383, on obtient : (185+41-
2*34)/(185*41/383)=7,978
INERTIE DU NUAGE DE POINTS. CONTRIBUTIONS

Pour le tableau disjonctif complet, ou le tableau disjonctif des patrons, considérés comme des tableaux
de contingence, le coefficient Phi-2 vaut :
K − Q Nombre de modalités − Nombre de questions
Φ2 = =
Q Nombre de questions

où K désigne le nombre de modalités et Q le nombre de questions. Cette quantité représente aussi


l'inertie du nuage des individus ou du nuage des modalités.
22 − 5
Dans notre exemple, on a : K=22, Q=5, et donc Φ2 = = 3,4
5
1− fk 1− fréquence de k
La contribution absolue d'une modalité à l'inertie du nuage de points est : Cta(Mk ) = =
Q Nombre de questions

1− 0,483
Cta(Seul) = = 0,1034
Par exemple, pour la modalité "Seul": 5

Sa contribution relative est obtenue en divisant par l'inertie totale du nuage (3,4 dans notre exemple)
L'inertie totale peut être exprimée comme la somme des inerties de chacune des variables. Mais l'inertie
de la variable Xq est donnée par 0,1034
Ctr(Seul) = = 0,0304
3,4
INERTIE DU NUAGE DE POINTS. CONTRIBUTIONS

où Kq est le nombre de modalités de la variable Xq. Par exemple, pour la


première variable :
Kq − 1
I(X q ) =
Q
Autrement dit, l'influence d'une variable dépend seulement du nombre de ses
modalités. Pour éviter que certaines variables prennent une importance
excessive, ou au contraire soient peu présentes dans l'analyse, il faut donc
éviter des différences trop marquées entre les nombres de modalités des
variables à analyser.
4 −1
I(X 1 ) = = 0,6
5
INTERPRÉTATION DES RÉSULTATS DE L’ACM

L'interprétation des résultats d'une ACM est souvent assez délicate, en raison de la faible décroissance des
valeurs propres, et du grand nombre de modalités, ce qui rend les graphiques assez peu lisibles.
Selon Benzécri, interpréter un axe consiste à trouver ce qui est similaire d'une part entre tous les éléments
figurant à la droite de l'origine et d'autre part, entre tout ce qui se trouve à la gauche de l'origine, puis
d'exprimer avec concision et précision le contraste entre les deux extrêmes.
L'interprétation des proximités entre les modalités devra aussi tenir compte de la remarque suivante :
- Si deux modalités d'une même variable sont proches, cela signifie que les individus qui possèdent l'une
des modalités et ceux qui possèdent l'autre sont globalement similaires du point de vue des autres variables
;
- Si deux modalités de deux variables différentes sont proches, cela peut signifier que ce sont globalement
les mêmes individus qui possèdent l'une et l'autre.
Application de l’ACM avec SPSS
Cette section présente les différentes étapes à suivre pour réaliser
une analyse des correspondances multiples avec SPSS.
Etape 1: lorsque votre base de donnée est active, déroulez au
niveau de la barre des menus, l’onglet Analyse ou analyze selon la
version du logiciel dont vous disposez. A cette étape, vous avez
plusieurs descriptions et vous devez dérouler réduction des données
ou factorisation. A ce niveau, vous devez choisir optimal scaling ou
codage optimal. Cette étape est illustrée par la figure ci-après.
Application de l’ACM avec SPSS

un clic

Après le clic sur l’option indiquée, on obtient la fenêtre suivante


Application de l’ACM avec SPSS
Etape 2: Dans la petite fenêtre, nous devons choisir le niveau de mesure des
variables (ici nominale ou ordinale): l’option qui sied est la première. Après la
précision du niveau de mesure, on doit préciser le nombre de groupes de
variables (ici, un seul groupe).

Niveau de mesure des Méthodes d’analyse Nombre de groupes de


variables variables
VI. Application de l’ACM avec SPSS

Dès que le niveau de mesure des variables est précisé, la méthode d’analyse qui convient
s’affiche. On peut alors cliquer sur « définir » pour passer à l’étape suivante:
Etape 3: A cette étape, il est question de choisir les variables qui doivent entrer dans l’analyse.
Procédez alors au choix des variables comme indiqué dans la fenêtre suivante.

Variables pour l’ACM Options d’analyse

Vous aimerez peut-être aussi