Cours Spss
Cours Spss
1 L’intervalle de confiance
La précision statistique d’un test (proportion ou moyenne) s’exprime en calculant l’intervalle
de confiance, qui indique la marge d’erreur lorsqu’on généralise une estimation obtenue sur
un échantillon à l’ensemble de la population représentée. La longueur de l’intervalle
diminue lorsque la taille de l’échantillon augmente
Exemple : Une enseigne de grands magasins souhaite ouvrir un nouveau point de vente,
mais elle ne le fera que si le potentiel de marché est suffisant. Une enquête a donc été
réalisée sur 400 répondants, en face-à-face. Parmi les questions posées, les enquêteurs ont
relevé l’intérêt des répondants pour l’ouverture du nouveau point de vente, ainsi que le
montant qu’ils seraient prêts à dépenser.
Résultats
Valeur du test = 0
1
Décrire les données
2 Description d’une variable
On appelle « variable » l’ensemble des valeurs observées sur les différents individus pour
une caractéristique donnée (Tenenhaus, 1996). Une variable est qualitative dès lors qu’elle a
pour valeur des modalités ; elle peut être nominale (lorsque l’ensemble des modalités ne
possède pas de structure particulière) ou ordinale (lorsque l’ensemble des modalités est
ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses
modalités peuvent être mesurées (par exemple l’âge, la valeur d’une action, etc.).
Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On peut par
exemple, dans un premier temps, générer un rapport sur les observations pour s’assurer
qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes (Analyse > Rapport >
Récapitulatif des observations…) ou plus simplement pour prendre connaissance des
variables dans un tableau synthétique, ce qui s’avère souvent utile en début d’analyse
(utilitaires > variables…).
Laissez cocher puis cliquez sur OK, vous obtenez deux tableaux
2
Observation Calculer Récapitulera
Observations
N % N % N %
Quel montant moyen dépensez-vous par mois 100 100,0% 0 ,0% 100 100,0%
dans ce type de point de vente?
Seriez-vous prêt à faire vos achats dans ce 100 100,0% 0 ,0% 100 100,0%
(nouveau) point de vente?
Fréquentez-vous ce point de vente au moins 100 100,0% 0 ,0% 100 100,0%
toutes les deux semaines?
3
Cliquez sur poursuivre puis sur OK
* ces valeurs ne veulent rien dire car les variables sont qualitatives
Vous obtenez
Statistiques
Quel est votre statut marital?
N Valide 400
Manquante 0
4
Quel est votre statut marital?
Pourcentage Pourcentage
Effectifs Pourcentage valide cumulé
Remarque : Les fractiles : Sont les valeurs d’une variable quantitative qui divisent les
données triées en classes par centième. Les quartiles (25e, 50e et 75e centiles) divisent les
observations en quatre classes de taille égale.
Statistiques cochez Points de césure pour et saisissez 4 Quel montant moyen dépensez-vous
classes égales par mois dans ce type de point de
vente?
N Valide 400
Manquante 0
Centiles 25 91.2500
5
50 172.0000
75 204.0000
95 285.9000
Vous pouvez également spécifier des centiles particuliers (par exemple le 95e centile),
autrement dit les valeurs au-dessus de 95 % des observations, en cochant Centrile et
spécifier 95 cliquez sur Ajouter puis sur Poursuivre puis sur OK.
Statistiques
Quel montant moyen dépensez-vous par mois dans ce type de point de vente?
N Valide 400
Manquante 0
Centiles 95 285.9000
6
gauche. Cette asymétrie s’explique par le fait que les écarts sont plus importants dans une
direction que dans l’autre.
7
Cliquez sur Poursuive puis sur OK
Statistiques
Quel montant moyen dépensez-vous par mois dans ce type de point de vente?
N Valide 400
Manquante 0
Moyenne 153.5100
Erreur std. de la moyenne 4.55739
Médiane 172.0000
Mode 0.00
Ecart-type 91.14782
Variance 8307,925
Asymétrie -,067
Erreur std. d'asymétrie ,122
Aplatissement -,085
Erreur std. d'aplatissement ,243
Intervalle 444.00
Minimum 0.00
Maximum 444.00
Somme 61,404.00
8
Le montant moyen dépensé dans le point de vente est de 153,51 €, avec un écart type de
91,15 €. Pour 59 répondants, le montant est nul, c’est-à-dire qu’il s’agit de non-clients du
magasin. En termes de dispersion, la variance est élevée (8 307,9) en raison de valeurs
extrêmes importantes, ce qui est confirmé par l’écart type. On constate que l’asymétrie
pour la variable montant est légèrement négative (–0,67).
9
L’intérêt de cette représentation est qu’elle permet de visualiser de manière compacte la
dispersion des données. Elle montre des valeurs extrêmes qui apparaissent isolées du
graphique. On peut donc observer que le montant dépensé varie entre 444 € (observation
n° 43) et 0 € (moustache inférieure), avec une médiane qui partage la boîte centrale et qui
est de 172 €.
Il est possible d’aller plus loin dans la description des variables en sélectionnant les
observations sur lesquelles on souhaite faire porter l’analyse. On peut notamment chercher
à savoir si les hommes dépensent en moyenne plus ou moins que l’ensemble de la
population.
Pour ce faire, il faudra filtrer les observations en fonction du sexe des répondants. Dans le
menu Données, appelez la boîte de dialogue Sélectionner les observations puis, dans la
partie Sélectionner, cliquez sur Selon une condition logique. Pour ne sélectionner que les
hommes, vous devez faire glisser la variable sexe en précisant la condition : « sexe = 1 » (1
étant l’étiquette retenue pour les hommes). Vous obtenez la boîte de dialogue suivante.
10
Faites passez la variable Sexe dans la zone des fonctions suivie de = 1 puis cliquez sur
Poursuivre puis sur OK (remarquer l’apparition de sexe = 1 à côté du bouton Si)
Si on lance l’analyse des effectifs avec Moyenne et Ecart-type cochés nous obtenons le
tableau suivant :
Statistiques
Quel montant moyen dépensez-
vous par mois dans ce type de point
de vente?
N Valide 204
Manquante 0
Moyenne 155.8922
11
Ecart-type 95.30929
Dans la fenêtre de résultats, on obtient un montant moyen dépensé par les hommes de
155,89 €, avec un écart type de 95,31 €, montants légèrement supérieurs à la dépense
moyenne de l’échantillon. On remarque également que les hommes représentent un peu
plus de la moitié des répondants (204 observations)
4 Analyses bivariées
L’examen de variables uniques permet une première lecture intéressante des résultats mais
elle ne présente pas de véritable intérêt en termes d’analyse. Les descriptions faites sur les
variables soulèvent toute une série de questions sur leurs relations, qui devront être mises
en lumière en les rapprochant deux à deux dans des analyses bivariées. Les tris croisés, par
exemple, permettent d’examiner les relations entre deux ou plusieurs variables. Ces
relations peuvent être symétriques – l’analyse cherche à mesurer la liaison entre les deux
variables et à en tester la signification –, ou dissymétriques – l’analyse cherche à expliquer
les variations d’une variable dépendante par les variations d’une variable indépendante
(Evrard et al., 2003). Ce dernier cas constituant le plus souvent une occurrence particulière
des méthodes multivariées explicatives (corrélations, ANOVA, etc.).
Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de
fréquences de deux ou plusieurs variables. Ce premier outil d’analyse des relations entre
deux variables, ou relations bivariées, permet de répondre à des questions qui se posent dès
l’origine de l’étude (par exemple : « Les hommes dépensent-ils plus que les femmes sur le
point de vente ? » ; « Le sexe et les revenus ont-ils une influence sur le montant moyen
dépensé ? ») ou de mettre en lumière des relations dont on soupçonne l’existence à l’issue
des traitements réalisés variable par variable. Le principe du tableau croisé est de proposer
une ventilation des fréquences de réponse par variable et par modalité.
Il existe deux approches pour générer un tableau croisé dans SPSS. Vous pouvez créer un
tableau croisé depuis le menu Analyse > Statistiques descriptives > Tableaux croisés… ou
bien depuis le menu Analyse > Tableaux > Tabuler… Nous allons utiliser la dernière
méthode
En ligne glissez la variable Montant et en colonne la variable sexe puis cliquez sur OK
12
Vous obtenez le tableau suivant :
Homme Femme
Moyenne Moyenne
Quel montant moyen dépensez-vous par mois dans ce type de point de vente? 155.89 151.03
Poursuivons l’exploration en introduisant une troisième variable : les revenus. L’introduction
d’une troisième variable est pertinente si elle permet d’affiner l’association entre les deux
variables. Rappelez la boîte de dialogue Tableaux personnalisés et faites glisser la variable
revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement
difficile à lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de
résultats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet d’inverser
lignes et colonnes. Ne pas oublier de corriger la mesure de la variable revenu, elle est
qualitative ordinale et cliquez sur Compacte
13
On obtient :
Les tris croisés ne nous permettent pas de déduire quoi que ce soit quant au type de
relation existant entre les variables. Avant de conclure à une éventuelle relation entre le
montant moyen dépensé et les revenus ou le sexe, nous devons donc mesurer la force
d’association entre ces variables et mettre en œuvre le test approprié.
Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut (Analyse >
Statistiques descriptives > Tableaux croisés…) et peut être sélectionné dans le menu
Statistiques
14
Cliquez sur Statistiques … et cochez Khi-Deux puis sur Poursuivre et sur OK
15
Tableau croisé Quel est votre statut marital? * Possédez-vous une carte de fidélité de l'enseigne?
Effectif
Possédez-vous une carte de
fidélité de l'enseigne?
Non Oui Total
Quel est votre statut Célibataire 78 15 93
marital? En couple 214 49 263
Autre (divorcé(e), veuf(ve) 29 15 44
Total 321 79 400
Tests du Khi-deux
Signification
asymptotique
Valeur ddl (bilatérale)
Khi-deux de Pearson 6,687 a
2 ,035
Rapport de vraisemblance 5,977 2 ,050
Association linéaire par 4,499 1 ,034
linéaire
Nombre d'observations 400
valides
a. 0 cellules (,0%) ont un effectif théorique inférieur à 5. L'effectif
théorique minimum est de 8,69.
NB : l’hypothèse est bilatérale et le test est toujours unilatéral donc on ne divise pas par deux
0,035
Commentaire : Nous avons obtenu un seuil de signification statistique de 0,035 qui est
inférieur à 0,05. Ce résultat nous permet de rejeter Ho (« il n’existe pas de lien entre les
variables ») et de conclure qu’il existe bien une relation entre le statut marital et la
possession d’une carte de fidélité dans la population observée
16
Exemple : on peut poser l’hypothèse nulle Ho qu’il n’existe pas de différence de ventes
entre les points de vente situés en centre-ville et ceux de la périphérie urbaine, et
l’hypothèse alternative H1 qu’elles sont différentes en centre-ville et en périphérie urbaine.
Les tests statistiques étant conçus pour la réfutation d’hypothèses et non pour leur
confirmation, l’hypothèse alternative est celle qui sera acceptée si l’hypothèse nulle est
rejetée. Accepter une hypothèse revient donc à dire que l’hypothèse est non rejetée plutôt
qu’acceptée, c’est-à-dire que les données recueillies au cours d’une expérience particulière
sont compatibles avec l’hypothèse alternative proposée.
17
5.3 TESTS PARAMÉTRIQUES
Les deux principaux tests paramétriques sont le test t et le test Z, qui ont pour objet de
tester des différences de moyenne. Ces tests sont souvent mis en œuvre en sciences
sociales, car ils permettent, par exemple, de comparer la moyenne d’une variable
dépendante métrique en fonction des modalités d’une variable nominale. On formule alors
une hypothèse nulle qui sera vérifiée par le test t ou le test Z. Pour plus de simplicité, ces
deux tests sont présentés ici pour des échantillons uniques.
Test t : Il est directement lié à la statistique t de Student, qui suppose que la variable adopte
une distribution normale, que la moyenne soit connue et que la variance, lorsqu’elle est
inconnue, soit estimée sur l’échantillon
Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante : menu
Analyse > Comparer les moyennes > Test T pour échantillon unique…, procédure que
nous avons utilisée pour estimer l’intervalle de confiance. Pour comparer les moyennes de
deux échantillons indépendants (comparaison de deux groupes (Homme ; Femme), on
utilisera une analyse de variance (ANOVA) à 1 facteur. Pour comparer les moyennes de deux
échantillons appariés (comparaison de relevés de prix à deux périodes distinctes par
exemple), on suivra une extension du test t pour échantillons appariés qui est disponible
dans la même boîte de dialogue.
Le K-S pour un échantillon s’obtient dans SPSS à partir du menu Analyse > Tests non
paramétriques > K-S à 1 échantillon…
Test de Wilcoxon : Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux
échantillons appariés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types
de réponses : avant/après l’exposition à un message publicitaire, attitude par rapport à une
marque A et une marque B, etc. La statistique z du test de Wilcoxon s’obtient en calculant la
différence entre les scores des deux observations par paires d’observations, puis en
calculant le rang de toutes les différences, et enfin la somme des rangs positifs et des rangs
négatifs. On rejette l’hypothèse nulle (absence de différence entre les deux groupes) s’il y a
une différence entre la somme des rangs positifs et la somme des rangs négatifs. Le sens de
la statistique indique le sens de la différence de la paire examinée.
Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons liés…, puis
sélectionnez le test que vous souhaitez mettre en oeuvre (Wilcoxon, Signe, McNemar).
Test du signe : Le test du signe est relativement proche du test de Wicoxon, mais il est plus
limité et par suite moins puissant. Il ne s’attache en effet qu’à une comparaison des signes
des différences, sans procéder à un classement comme le fait le test de Wilcoxon.
Test de McNemar : Le test de McNemar peut également être mis en œuvre dans le cas
d’échantillons appariés, pour comparer les valeurs de deux variables dichotomiques (à deux
dimensions).
6 Résumé
Première étape de l’analyse à proprement parler, la description des données permet de
représenter les valeurs observées sur les différents individus de l’échantillon. L’analyse
univariée, qui examine une seule variable à la fois, repose sur la description (fréquences,
tendance centrale, dispersion, distribution) et la visualisation graphique des variables, ainsi
19
que sur l’inférence, c’est-à-dire la comparaison à des valeurs déterminées. L’analyse
bivariée permet d’aller plus loin par l’étude des relations entre deux variables, grâce aux
tris croisés et aux principaux tests d’analyse bivariée : tests d’association (khi-deux) et tests
de comparaison (test t, test K-S, test U de Mann-Whitney, etc.).
20