Stat II – TP7
TP 7 : Analyse de classification (clustering)
1 In t ro d u c t io n
Objectifs :
• Comprendre l’intérêt et le principe des méthodes de classification automatique (ou
« clustering »).
• Réaliser et interpréter les résultats d’un clustering.
• Utiliser les résultats d’un clustering dans d’autres analyses.
Préparation :
Nous travaillons avec un extrait des données issues de l’enquête « VLV » (ces données sont
confidentielles et chaque étudiant·e s’engage à ne pas les diffuser). A chaque TP, nous
sélectionnons un petit nombre de variables, pour ne pas être encombré de la masse des
données vues au TP1. Rendez-vous sur l’espace du cours sur Moodle et téléchargez, puis
ouvrez la base de données BD_Stat2_2024_TP7.sav.
2 C lu st e rin g (m é t h od e d e s c e nt re s m o b ile s/ k-m e a n s)
Dans ce TP, nous nous intéressons aux services rendus par autrui aux répondant·es à
l’enquête VLV. Nous sommes renseigné·es sur ce point grâce à la question qf_aq7, issue du
questionnaire « face-à-face » (figure 1 – nous avons ajouté l’encodage de la variable au-
dessus des modalités) :
[0] [1] [2] [3]
Figure 1
Exercice 1 : Expliquez avec vos propres mots quelle est l’idée d’une analyse de
classification telle que nous allons la réaliser.
Regrouper les questions
2024 – Cloé Vianin et Mathis Schnell
1
Stat II – TP7
Dans SPSS, allez dans Analyse | Classifier | Cluster de nuées dynamiques. Dans la boîte
de dialogue, glissez-déposez les variables qui commencent par qf_aq7 dans Variable(s).
Sous Nombre de clusters, entrez 3, 1 puis cliquez sur Sauvegarder et sélectionnez
Cluster(s) d’affectation. Cliquez sur Poursuivre, avant de continuer par Options.
Sélectionnez Tableau ANOVA et désélectionnez Centres de cluster initiaux. Laissez-le
reste par défaut, et vous pouvez enfin lancer l’analyse avec Poursuivre et OK/Coller. Jetez
un œil à la base de données (onglet « Vue de données »). Vous remarquerez que SPSS a
créé une nouvelle variable, qui correspond au regroupement effectué : QCL_1. Vous voyez
ainsi dans quel groupe chaque individu a été placé.
Pour avoir le tableau des moyennes de chaque groupe sur chaque variable initiale, il faut
maintenant aller dans Analyse | Comparer les moyennes et les proportions | Moyennes.
Glissez-déposez les variables qui commencent par qf_aq7 dans la case Liste variables
dépendantes, et la variable contenant la typologie qui nous intéresse (QCL _1) dans la
case Liste Variables indépendantes. Cliquez ensuite sur Options. Pour plus de lisibilité
dans l’Output qui sera produit, enlevez Ecart type et Nombre d’observations (basculez les
deux lignes de Statistiques de cellules vers Statistiques) (figure 2). Plus bas,
cochez Tableau ANOVA et eta. Cliquez sur Poursuivre, et enfin sur OK/Coller.
Figure 2
1
Si vous avez le temps, n’hésitez pas à faire plusieurs essais, puis observez celui qui donne les meilleurs résultats !
2024 – Cloé Vianin et Mathis Schnell
2
Stat II – TP7
Exercice 2 : Remplissez le tableau ci-dessous avec les valeurs correspondantes des
« + » et des « - », en cohérence avec l’Output.
Apporter ou Faire les Faire des Vous apporter Vous emmener
préparer des courses pour réparations, une présence, en promenade,
repas chez vous bricoler, une compagnie, au spectacle, au
vous jardiner chez un soutien moral café, au
vous restaurant
Groupe/cluster 1
Groupe/cluster 2
Groupe/cluster 3
Moyenne/total
Exercice 3 : Interprétez les résultats.
a) Quelles sont les variables les plus discriminantes – autrement dit, quelles variables
ont le plus servi à distinguer les groupes les uns des autres ? Justifiez. 4 et 5 (voir dans ANOVA, F)
b) Appuyez-vous sur le tableau rempli ainsi que sur votre réponse au point a) pour
Groupe1: Pas besoin d'aide, Groupe2: Besoin d'aide, Groupe 3: Soutien morale
donner des noms aux groupes.
I. Justifiez vos choix pour les groupes 2 et 3.
c) D’après vos réponses, de quel type d’aide a besoin le groupe le plus nombreux ?
Aucune aide (groupe 1)
d) Nous avons choisi une solution à 3 groupes. A-t-on des éléments qui permettent
d’affirmer que c’était une bonne solution ?
3 Ut ilisa t io n d e s g ro u p e s d a n s d ’a u t re s a n a lyse s
Comme on l’a vu avec l’ACP, il est possible d’exploiter dans d’autres analyses les variables
issues de notre classification. En l’occurrence, l’extrait de la base de données que nous
avons à disposition contient l’indication de l’âge, du sexe et du canton. On pourrait alors se
demander si ces variables influencent le fait de se retrouver plutôt dans l’un ou l’autre de
ces groupes.
Nous vous proposons ci-dessous deux analyses. La première est un test d’indépendance
entre le sexe et chacun des trois groupes (pour la procédure SPSS, voir le TP2). La seconde
est une régression logistique avec les trois variables susmentionnées (age_entretien, sexe
et canton) sur l’appartenance au troisième groupe (la procédure SPSS, voir le TP5).
2024 – Cloé Vianin et Mathis Schnell
3
Stat II – TP7
Test d’indépendance
Tableau 1
Tableau croisé groupe selon le sexe * Nombre d'observations de cluster
Nombre d'observations de cluster
1 2 3 Total
groupe selon le sexe Femme Effectif 315 56 150 521
% dans groupe selon le sexe 60,5% 10,7% 28,8% 100,0%
Résidus ajustés -4,3 1,5 3,7
Homme Effectif 412 46 109 567
% dans groupe selon le sexe 72,7% 8,1% 19,2% 100,0%
Résidus ajustés 4,3 -1,5 -3,7
Total Effectif 727 102 259 1088
% dans groupe selon le sexe 66,8% 9,4% 23,8% 100,0%
Tableau 2
Tests du khi-carré
Signification asymptotique
Valeur df (bilatérale)
Khi-deux de Pearson 18,501a 2 <,001
Rapport de vraisemblance 18,535 2 <,001
Association linéaire par linéaire 17,824 1 <,001
N d'observations valides 1088
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum est de 48,84.
Tableau 3
Mesures symétriques
Signification
Valeur approximative
Nominal par Nominal Phi ,130 <,001
V de Cramer ,130 <,001
N d'observations valides 1088
Régression logistique
Tableau 4
Codages des variables catégorielles
Codage de
paramètre
Fréquence (1)
groupe selon canton Geneve 542 ,000
Valais 546 1,000
groupe selon le sexe Femme 521 ,000
Homme 567 1,000
Tableau 5
Tests composites des coefficients du modèle
Khi-carré ddl Sig.
Pas 1 Pas 21,051 3 <,001
Bloc 21,051 3 <,001
Modèle 21,051 3 <,001
2024 – Cloé Vianin et Mathis Schnell
4
Stat II – TP7
Tableau 6
Récapitulatif des modèles
Log de vraisemblance R-deux de Cox et R-deux de
Pas -2 Snell Nagelkerke
1 1173,189a ,019 ,029
a. L'estimation s'est arrêtée à l'itération numéro 4, car le nombre de
modifications des estimations du paramètre est inférieur à ,001.
Tableau 7
Variables de l'équation
B E.S Wald ddl Sig. Exp(B)
Pas 1a age au moment de l entretien -,023 ,009 6,753 1 ,009 ,977
groupe selon le sexe(1) -,525 ,144 13,228 1 <,001 ,591
groupe selon canton(1) -,104 ,144 ,525 1 ,469 ,901
Constante ,950 ,703 1,824 1 ,177 2,586
a. Introduction des variables au pas 1 : age au moment de l entretien, groupe selon le sexe, groupe selon canton.
Exercice 4 : Commentez les résultats en vous référant aux noms que vous avez
Tableau variable donnés aux groupes (exercice 3b).
de l'equation a) Interprétez le chiffre « 60,5% » du tableau croisé, en le comparant à un autre
Comment chaque
variable affect
pourcentage pertinent. Les femmes sont sous-representées dans les cluster "pas besoin d'aide" (-4.3)
cluster 3 b) Basez-vous sur les sur- et sous-représentations statistiquement significatives pour
tirer une conclusion sur ce que montre globalement le test d’indépendance.
c) Entraînez-vous à interpréter les rapports de cote de la régression logistique.
ex ligne 1, pour chaque unité d'age, les chances d'etre au groupe 3 se multiplient par 0.977
d) Expliquez avec vos propres mots ce que cette régression logistique montre (pour
rappel, l’analyse porte sur l’appartenance au groupe 3).
Comme pour ACP, n’oubliez pas que l’analyse exploratoire a simplifié l’information
initiale, ce qui invite à demeurer prudent·e quant à ces conclusions !
4 L’a lt e rn a t ive : méthode agglomérative
L’alternative : Clustering via la méthode agglomérative : procédure SPSS
Nous voulons comparer nos résultats avec une méthode de classification ascendante
hiérarchique (méthode dite « agglomérative »). Dans SPSS, allez dans Analyse | Classifier
| Cluster hiérarchique. Dans la boîte de dialogue, glissez-déposez les variables qui
commencent par qf_aq7 dans la case Variable(s). Allez ensuite dans les menus à droite :
• Sous Méthode, choisissez Méthode d’agrégation Méthode de Ward 2 ;
• Sous Sauvegarder, cochez Une solution, puis Nombre de clusters 3.3
Même si pour le premier et 2émme groupe, le ward method est pareil, il ne l'est
pas pour cluster 3 (presque la moitié ds un autre groupe
2
Si nos variables n’étaient pas mesurées dans les mêmes unités, cette boîte de dialogue aurait été l’occasion de les
standardiser, ce qui n’est pas nécessaire ici.
3
Le clustering fait partie des méthodes « exploratoires » ; aussi, n’hésitez pas à tester plusieurs solutions (en cochant
« Plusieurs solutions ») si vous ne « savez » pas (de par vos sources théoriques) combien de groupes vous aimeriez distinguer.
Groupe 1=1
2024 – Cloé Vianin et Mathis Schnell Groupe 2=3
Groupe 3=2 (mais 45 personnes ds le groupe 3 5
Stat II – TP7
De retour dans la boîte de dialogue principale, désélectionnez Statistiques et Tracés avant
de cliquer sur OK/Coller.
Vous voyez que d’une part, l’Output ne vous donne que l’indication du nombre de
personnes dans chaque groupe, et d’autre part, SPSS a à nouveau créé une variable,
CLU3_1.
Comparez, à l’aide d’un tableau croisé la correspondance entre la nouvelle variable
qu’SPSS a créée (CLU3_1) et la variable issue du clustering travaillé précédemment (QCL_1).
Vous remarquerez peut-être que certains groupes correspondent assez bien, et d’autres
beaucoup moins – ce qui incite une fois de plus à la prudence lors de l’interprétation.
Exercice 5 : Commentez les résultats en vous référant aux noms que vous avez donnés
aux groupes (exercice 3b).
Explication des symboles
Astuce pour les TP ou élément auquel il s’agit de faire attention.
Question qui se prête particulièrement à la discussion.
Exercice supplémentaire à faire en cas d’avance rapide.
2024 – Cloé Vianin et Mathis Schnell
6