0% ont trouvé ce document utile (0 vote)
124 vues20 pages

Cours Spss

Transféré par

Hamid SAMAKI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
124 vues20 pages

Cours Spss

Transféré par

Hamid SAMAKI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Analyser pour décider

1 L’intervalle de confiance
La précision statistique d’un test (proportion ou moyenne) s’exprime en calculant l’intervalle
de confiance, qui indique la marge d’erreur lorsqu’on généralise une estimation obtenue sur
un échantillon à l’ensemble de la population représentée. La longueur de l’intervalle
diminue lorsque la taille de l’échantillon augmente

Exemple : Une enseigne de grands magasins souhaite ouvrir un nouveau point de vente,
mais elle ne le fera que si le potentiel de marché est suffisant. Une enquête a donc été
réalisée sur 400 répondants, en face-à-face. Parmi les questions posées, les enquêteurs ont
relevé l’intérêt des répondants pour l’ouverture du nouveau point de vente, ainsi que le
montant qu’ils seraient prêts à dépenser.

Ouvrez le fichier exemple « [Link] » disponible comme tous les fichiers


d’exercices sur le site de l’ouvrage 1. Allez dans le menu Analyse > Comparer les moyennes
> Test T pour échantillon unique…

Résultats

Statistiques sur échantillon unique

N Moyenne Ecart-type Erreur standard moyenne

Quel montant moyen dépensez- 400 153.5100 91.14782 4.55739


vous par mois dans ce type de
point de vente?

Test sur échantillon unique

Valeur du test = 0

Intervalle de confiance 95%

Sig. Différence de la différence

t ddl (bilatérale) moyenne Inférieure Supérieure

Quel montant moyen 33,684 399 ,000 153.51000 144.5505 162.4695


dépensez-vous par mois
dans ce type de point de
vente?

1
Décrire les données
2 Description d’une variable
On appelle « variable » l’ensemble des valeurs observées sur les différents individus pour
une caractéristique donnée (Tenenhaus, 1996). Une variable est qualitative dès lors qu’elle a
pour valeur des modalités ; elle peut être nominale (lorsque l’ensemble des modalités ne
possède pas de structure particulière) ou ordinale (lorsque l’ensemble des modalités est
ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses
modalités peuvent être mesurées (par exemple l’âge, la valeur d’une action, etc.).

2.1 DÉCRIRE UNE VARIABLE QUALITATIVE


La description d’une variable qualitative consiste à présenter les effectifs, c’est-à-dire le
nombre d’individus de l’échantillon pour chaque modalité de la variable, et les fréquences,
c’est-à-dire le nombre de réponses associées aux modalités de la variable étudiée.

Il existe plusieurs possibilités dans SPSS pour décrire les données collectées. On peut par
exemple, dans un premier temps, générer un rapport sur les observations pour s’assurer
qu’elles ne comportent pas d’erreurs de saisie, de valeurs aberrantes (Analyse > Rapport >
Récapitulatif des observations…) ou plus simplement pour prendre connaissance des
variables dans un tableau synthétique, ce qui s’avère souvent utile en début d’analyse
(utilitaires > variables…).

Choisir les variables à d’écrire

Laissez cocher puis cliquez sur OK, vous obtenez deux tableaux

2
Observation Calculer Récapitulera

Observations

Inclus Exclu(s) Total

N % N % N %

Quel montant moyen dépensez-vous par mois 100 100,0% 0 ,0% 100 100,0%
dans ce type de point de vente?
Seriez-vous prêt à faire vos achats dans ce 100 100,0% 0 ,0% 100 100,0%
(nouveau) point de vente?
Fréquentez-vous ce point de vente au moins 100 100,0% 0 ,0% 100 100,0%
toutes les deux semaines?

a. Limité aux 100 premières observations

Nous avons supprimé les lignes (7-95)


Récapitulatif des observationsa

Quel montant moyen Seriez-vous prêt à Fréquentez-vous ce


dépensez-vous par faire vos achats point de vente au moins
mois dans ce type de dans ce (nouveau) toutes les deux
point de vente? point de vente? semaines?

1 182.00 Indifférent Oui


2 0.00 Absolument pas Oui
3 216.00 Indifférent Oui
4 225.00 Indifférent Oui
5 160.00 Indifférent Oui
6 160.00 Indifférent Oui
96 0.00 Absolument pas Oui
97 177.00 Absolument pas Oui
98 47.00 Probablement oui Oui
99 197.00 Probablement pas Oui
100 175.00 Indifférent Oui
Total N 100 100 100

Moyenne 150.5400 3,16 1,00

Ecart-type 88.23974 1,178 ,000

Erreur standard de la 8.82397 ,118 ,000


moyenne

a. Limité aux 100 premières observations

Si vous voulez obtenir uniquement un tableau contenant le Total ; moyenne ; Ecart-type ;


Erreur … uniquement. Décocher afficher les observations et cliquez sur Statistique de la
fenêtre Rapport récapitulatif et choisissez par exemple Moyenne Ecart-Type …

3
Cliquez sur poursuivre puis sur OK

Récapitulatif des observations

Quel montant moyen dépensez- Seriez-vous prêt à faire Fréquentez-vous ce point


vous par mois dans ce type de vos achats dans ce de vente au moins toutes
point de vente? (nouveau) point de vente? les deux semaines?

N 400 400 400


Moyenne 153.5100 3,13* 1,00*
Ecart-type 91.14782 1,306* ,000*
Erreur standard de la 4.55739 ,065* ,000*
moyenne

* ces valeurs ne veulent rien dire car les variables sont qualitatives

La procédure Fréquence permet d’obtenir les affichages statistiques et graphiques qui


servent à décrire des variables quantitatives et qualitatives. Pour obtenir un tableau
d’effectifs et de fréquences pour une ou plusieurs variables dans SPSS, ouvrez le fichier de
données « [Link] », sélectionnez dans le menu Analyse > Statistiques
descriptives > Effectifs… Au niveau de la fenêtre Effectifs cliquez sur Diagramme puis
sélectionnez Diagramme en secteurs puis sur poursuivre et sur OK

Vous obtenez
Statistiques
Quel est votre statut marital?

N Valide 400

Manquante 0
4
Quel est votre statut marital?

Pourcentage Pourcentage
Effectifs Pourcentage valide cumulé

Valide Célibataire 93 23,3 23,3 23,3

En couple 263 65,8 65,8 89,0

Autre (divorcé(e), veuf(ve) 44 11,0 11,0 100,0

Total 400 100,0 100,0

3 DÉCRIRE UNE VARIABLE QUANTITATIVE


3.1 Mesures de la tendance centrale
Les mesures de la tendance centrale ont pour objet de résumer la série d’observations par
une valeur considérée comme représentative. La plus fréquemment employée est la
moyenne. La moyenne révèle la tendance centrale en ce sens que les réponses se trouvent
réparties de part et d’autre de la moyenne. Si certaines valeurs sont très éloignées les unes
des autres, elles peuvent avoir une influence importante sur la moyenne. Dans ce cas, il vaut
mieux utiliser la médiane, qui n’est pas sensible aux valeurs aberrantes ou extrêmes
(outliers). La médiane représente la valeur au-dessus et au-dessous de laquelle se situent la
moitié des observations, c’est-à-dire le 50 e centile. Le mode représente la valeur présentant
la plus grande fréquence d’occurrence. Si plusieurs valeurs à la fois présentent la plus
grande fréquence d’occurrence, chacune d’entre elles est un mode.

Remarque : Les fractiles : Sont les valeurs d’une variable quantitative qui divisent les
données triées en classes par centième. Les quartiles (25e, 50e et 75e centiles) divisent les
observations en quatre classes de taille égale.

Analyse > Statistiques descriptives > Effectifs ; Cliquez


sur Statistiques et au niveau de la fenêtre Effectifs : Statistiques

Statistiques cochez Points de césure pour et saisissez 4 Quel montant moyen dépensez-vous
classes égales par mois dans ce type de point de
vente?

N Valide 400

Manquante 0
Centiles 25 91.2500
5
50 172.0000

75 204.0000

95 285.9000
Vous pouvez également spécifier des centiles particuliers (par exemple le 95e centile),
autrement dit les valeurs au-dessus de 95 % des observations, en cochant Centrile et
spécifier 95 cliquez sur Ajouter puis sur Poursuivre puis sur OK.

Statistiques
Quel montant moyen dépensez-vous par mois dans ce type de point de vente?

N Valide 400

Manquante 0
Centiles 95 285.9000

3.2 Mesures de la dispersion


Les mesures de la dispersion reposent sur les indicateurs suivants : l’étendue, la variance,
l’écart type et le coefficient de variation. L’étendue (ou intervalle) est la différence entre la
plus grande et la plus petite des valeurs observées. La variance est la mesure de la
dispersion autour de la moyenne. Lorsque les données se concentrent autour de la
moyenne, la variance est faible. Si les données sont dispersées autour de la moyenne, la
variance est élevée. Il s’agit d’une mesure plus fine de la dispersion, au sens où toutes les
données sont prises en compte. En revanche, elle est sensible aux valeurs extrêmes. L’écart
type est la mesure de la dispersion autour de la moyenne, exprimée dans la même unité
que la variable

3.3 Mesures de la distribution


On mesure la symétrie et la forme de la distribution par l’asymétrie et l’aplatissement.

Le coefficient de symétrie (skewness) mesure l’asymétrie d’une distribution. Une


distribution normale est symétrique, c’est-à-dire que les valeurs sont les mêmes de part et
d’autre du centre de la distribution, et possède une valeur de skewness de 0. Une
distribution avec un skewness positif significatif est une distribution asymétrique à droite et
une distribution avec un skewness négatif significatif est une distribution asymétrique à

6
gauche. Cette asymétrie s’explique par le fait que les écarts sont plus importants dans une
direction que dans l’autre.

Le coefficient d’aplatissement (kurtosis) permet de mesurer le relief ou la platitude d’une


courbe issue d’une distribution de fréquences. En d’autres termes, le coefficient
d’aplatissement permet de mesurer le degré de concentration des observations dans les
queues de la courbe. Le coefficient de kurtosis est de 0 pour une distribution normale
(gaussienne). Un kurtosis négatif indique donc que les queues comptent un plus grand
nombre d’observations que dans une distribution gaussienne. Les coefficients de kurtosis et
de skewness peuvent être utilisés pour s’assurer que les variables suivent une distribution
normale, condition nécessaire pour de nombreux tests statistiques. On estime que le
coefficient de symétrie ou skewness doit être inférieur à 1 et le coefficient d’aplatissement
ou kurtosis doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale.

Application : rappelez la boîte de dialogue de la procédure précédente (Effectifs) en


cliquant sur l’icône dans la barre d’outils. Procédez aux mêmes opérations mais cette fois
pour la variable montant. Dans la boîte de dialogue Effectifs que vous venez de rappeler,
cliquez sur l’onglet Statistiques et cochez les statistiques de mesure de la tendance
centrale, de dispersion et de distribution, puis sélectionnez un graphique (un histogramme
avec courbe gaussienne par exemple) pour représenter la distribution.

Cliquez sur Poursuivre

7
Cliquez sur Poursuive puis sur OK

Statistiques
Quel montant moyen dépensez-vous par mois dans ce type de point de vente?

N Valide 400

Manquante 0
Moyenne 153.5100
Erreur std. de la moyenne 4.55739
Médiane 172.0000
Mode 0.00
Ecart-type 91.14782
Variance 8307,925
Asymétrie -,067
Erreur std. d'asymétrie ,122
Aplatissement -,085
Erreur std. d'aplatissement ,243
Intervalle 444.00
Minimum 0.00
Maximum 444.00
Somme 61,404.00

Pour avoir ce tableau plusieurs lignes ont été supprimées


Quel montant moyen dépensez-vous par mois dans ce type de point de vente?

Effectifs Pourcentage Pourcentage valide Pourcentage cumulé

Valide 0.00 59 14,8 14,8 14,8

Total 400 100,0 100,0

8
Le montant moyen dépensé dans le point de vente est de 153,51 €, avec un écart type de
91,15 €. Pour 59 répondants, le montant est nul, c’est-à-dire qu’il s’agit de non-clients du
magasin. En termes de dispersion, la variance est élevée (8 307,9) en raison de valeurs
extrêmes importantes, ce qui est confirmé par l’écart type. On constate que l’asymétrie
pour la variable montant est légèrement négative (–0,67).

3.4 Création d’une boite à moustache


Graphe > Générateur de diagrammes sélectionnez boîtes à moustache dans Galerie >
Choisir parmi faites glisser boite à moustache : simple en haut déplacer votre variable vers
l’axe des Y puis cliquez sur OK

9
L’intérêt de cette représentation est qu’elle permet de visualiser de manière compacte la
dispersion des données. Elle montre des valeurs extrêmes qui apparaissent isolées du
graphique. On peut donc observer que le montant dépensé varie entre 444 € (observation
n° 43) et 0 € (moustache inférieure), avec une médiane qui partage la boîte centrale et qui
est de 172 €.

Il est possible d’aller plus loin dans la description des variables en sélectionnant les
observations sur lesquelles on souhaite faire porter l’analyse. On peut notamment chercher
à savoir si les hommes dépensent en moyenne plus ou moins que l’ensemble de la
population.

Pour ce faire, il faudra filtrer les observations en fonction du sexe des répondants. Dans le
menu Données, appelez la boîte de dialogue Sélectionner les observations puis, dans la
partie Sélectionner, cliquez sur Selon une condition logique. Pour ne sélectionner que les
hommes, vous devez faire glisser la variable sexe en précisant la condition : « sexe = 1 » (1
étant l’étiquette retenue pour les hommes). Vous obtenez la boîte de dialogue suivante.

Cochez Selon une condition logique puis sur Si

10
Faites passez la variable Sexe dans la zone des fonctions suivie de = 1 puis cliquez sur
Poursuivre puis sur OK (remarquer l’apparition de sexe = 1 à côté du bouton Si)

Les observations concernant les femmes sont supprimées

Si on lance l’analyse des effectifs avec Moyenne et Ecart-type cochés nous obtenons le
tableau suivant :
Statistiques
Quel montant moyen dépensez-
vous par mois dans ce type de point
de vente?

N Valide 204

Manquante 0
Moyenne 155.8922
11
Ecart-type 95.30929
Dans la fenêtre de résultats, on obtient un montant moyen dépensé par les hommes de
155,89 €, avec un écart type de 95,31 €, montants légèrement supérieurs à la dépense
moyenne de l’échantillon. On remarque également que les hommes représentent un peu
plus de la moitié des répondants (204 observations)

Pour afficher toutes les observations

Données > Sélectionner des observations et cocher Toutes les observations

4 Analyses bivariées
L’examen de variables uniques permet une première lecture intéressante des résultats mais
elle ne présente pas de véritable intérêt en termes d’analyse. Les descriptions faites sur les
variables soulèvent toute une série de questions sur leurs relations, qui devront être mises
en lumière en les rapprochant deux à deux dans des analyses bivariées. Les tris croisés, par
exemple, permettent d’examiner les relations entre deux ou plusieurs variables. Ces
relations peuvent être symétriques – l’analyse cherche à mesurer la liaison entre les deux
variables et à en tester la signification –, ou dissymétriques – l’analyse cherche à expliquer
les variations d’une variable dépendante par les variations d’une variable indépendante
(Evrard et al., 2003). Ce dernier cas constituant le plus souvent une occurrence particulière
des méthodes multivariées explicatives (corrélations, ANOVA, etc.).

4.1 TRIS CROISÉS


Les tableaux croisés à deux ou plusieurs modalités sont en général complétés par des
mesures d’association qui permettent de démontrer la signification statistique d’une
association observée entre les variables.

Les tris croisés ont pour objet de rassembler dans un tableau unique les distributions de
fréquences de deux ou plusieurs variables. Ce premier outil d’analyse des relations entre
deux variables, ou relations bivariées, permet de répondre à des questions qui se posent dès
l’origine de l’étude (par exemple : « Les hommes dépensent-ils plus que les femmes sur le
point de vente ? » ; « Le sexe et les revenus ont-ils une influence sur le montant moyen
dépensé ? ») ou de mettre en lumière des relations dont on soupçonne l’existence à l’issue
des traitements réalisés variable par variable. Le principe du tableau croisé est de proposer
une ventilation des fréquences de réponse par variable et par modalité.

Il existe deux approches pour générer un tableau croisé dans SPSS. Vous pouvez créer un
tableau croisé depuis le menu Analyse > Statistiques descriptives > Tableaux croisés… ou
bien depuis le menu Analyse > Tableaux > Tabuler… Nous allons utiliser la dernière
méthode

En ligne glissez la variable Montant et en colonne la variable sexe puis cliquez sur OK

12
Vous obtenez le tableau suivant :

Quel est votre sexe?

Homme Femme

Moyenne Moyenne

Quel montant moyen dépensez-vous par mois dans ce type de point de vente? 155.89 151.03
Poursuivons l’exploration en introduisant une troisième variable : les revenus. L’introduction
d’une troisième variable est pertinente si elle permet d’affiner l’association entre les deux
variables. Rappelez la boîte de dialogue Tableaux personnalisés et faites glisser la variable
revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement
difficile à lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de
résultats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet d’inverser
lignes et colonnes. Ne pas oublier de corriger la mesure de la variable revenu, elle est
qualitative ordinale et cliquez sur Compacte

13
On obtient :

Les tris croisés ne nous permettent pas de déduire quoi que ce soit quant au type de
relation existant entre les variables. Avant de conclure à une éventuelle relation entre le
montant moyen dépensé et les revenus ou le sexe, nous devons donc mesurer la force
d’association entre ces variables et mettre en œuvre le test approprié.

4.2 TESTS D’ASSOCIATION DE DEUX VARIABLES


Pour mesurer véritablement la relation entre les variables, il est nécessaire de mettre en
place des tests de signification statistique de l’association.

Test du khi-deux : il consiste à tester la signification statistique d’une association de deux


variables qualitatives (nominales ou ordinales).

Le test du khi-deux s’obtient par la procédure des tableaux croisés vue plus haut (Analyse >
Statistiques descriptives > Tableaux croisés…) et peut être sélectionné dans le menu
Statistiques
14
Cliquez sur Statistiques … et cochez Khi-Deux puis sur Poursuivre et sur OK

Nous obtenons les tableaux suivant :

15
Tableau croisé Quel est votre statut marital? * Possédez-vous une carte de fidélité de l'enseigne?
Effectif
Possédez-vous une carte de
fidélité de l'enseigne?
Non Oui Total
Quel est votre statut Célibataire 78 15 93
marital? En couple 214 49 263
Autre (divorcé(e), veuf(ve) 29 15 44
Total 321 79 400

Tests du Khi-deux
Signification
asymptotique
Valeur ddl (bilatérale)
Khi-deux de Pearson 6,687 a
2 ,035
Rapport de vraisemblance 5,977 2 ,050
Association linéaire par 4,499 1 ,034
linéaire
Nombre d'observations 400
valides
a. 0 cellules (,0%) ont un effectif théorique inférieur à 5. L'effectif
théorique minimum est de 8,69.

NB : l’hypothèse est bilatérale et le test est toujours unilatéral donc on ne divise pas par deux
0,035
Commentaire : Nous avons obtenu un seuil de signification statistique de 0,035 qui est
inférieur à 0,05. Ce résultat nous permet de rejeter Ho (« il n’existe pas de lien entre les
variables ») et de conclure qu’il existe bien une relation entre le statut marital et la
possession d’une carte de fidélité dans la population observée

5 Théorie des tests statistiques


Les tests statistiques reposent sur le principe d’inférence, c’est-à-dire le fait de procéder à
des généralisations sur les comportements d’une population. Ils sont fondés sur des
mesures effectuées sur des variables ou sur des facteurs à partir d’observations réalisées sur
un échantillon de cette population. L’objectif de la statistique dans la logique inférentielle
est donc de tester des hypothèses formulées essentiellement sur la base d’une théorie
préexistante ou de résultats antérieurs.

5.1 L’HYPOTHÈSE STATISTIQUE


Une hypothèse statistique est un énoncé quantitatif concernant les caractéristiques d’une
population ou, plus précisément, une affirmation portant sur une ou plusieurs variables. Elle
se présente traditionnellement sous la double forme d’une première hypothèse, appelée
hypothèse nulle, et d’une seconde hypothèse, appelée hypothèse alternative. Son objectif
est de réfuter l’hypothèse nulle, laquelle concerne le plus souvent un statu quo ou une
absence de différence, au profit de l’hypothèse alternative.

16
Exemple : on peut poser l’hypothèse nulle Ho qu’il n’existe pas de différence de ventes
entre les points de vente situés en centre-ville et ceux de la périphérie urbaine, et
l’hypothèse alternative H1 qu’elles sont différentes en centre-ville et en périphérie urbaine.

Les tests statistiques étant conçus pour la réfutation d’hypothèses et non pour leur
confirmation, l’hypothèse alternative est celle qui sera acceptée si l’hypothèse nulle est
rejetée. Accepter une hypothèse revient donc à dire que l’hypothèse est non rejetée plutôt
qu’acceptée, c’est-à-dire que les données recueillies au cours d’une expérience particulière
sont compatibles avec l’hypothèse alternative proposée.

L’objectif de l’analyse de données est donc de prendre une décision : en l’occurrence,


rejeter ou non l’hypothèse nulle Ho. Les tests étant fondés sur des informations
incomplètes issues d’observations portant sur un échantillon de la population, il est
nécessaire de définir le seuil de signification du test, seuil formulé en pourcentage de
chances de rejeter l’hypothèse nulle alors qu’en réalité celle-ci était vraie. Le seuil de
signification est habituellement noté et exprimé en pourcentage. Le choix du seuil est lié
au niveau de risque accepté (15 %). Son complément (1 – α), appelé seuil de confiance,
correspond au pourcentage de cas où on acceptera l’hypothèse nulle à juste titre.

5.2 LES TESTS D’HYPOTHÈSES


Les tests d’hypothèses, ou tests d’inférence, ont pour objectif de mesurer l’effet d’une
variable indépendante sur une variable dépendante, en fonction du nombre d’échantillons
et en fonction de la nature des variables étudiées. On nomme tests paramétriques les
approches reposant sur des données métriques (et par suite sur des paramètres connus tels
que la moyenne ou l’écart type, par exemple), et tests non paramétriques les approches
reposant sur des données non métriques (et qui, par suite, peuvent s’affranchir de
conditions de distribution particulières). Les tests non paramétriques étant peu sensibles à
la taille de l’échantillon et aux données aberrantes, ils sont utilisés en sciences sociales où
les échantillons peuvent parfois être de petite taille (moins de 30 individus). Le nombre
d’échantillons joue également un rôle important dans le choix du test approprié. En effet,
deux situations doivent être distinguées : lorsque l’on étudie deux populations distinctes sur
une même variable, on parle de mesures indépendantes (comparer deux groupe : homme
et femme) ; et lorsque les mêmes individus sont mesurés sur une même variable dans deux
situations distinctes, on parle de mesures appariées (comparer les niveaux de prix à deux
périodes distinctes). Ces éléments affectent de manière importante les statistiques de tests.

17
5.3 TESTS PARAMÉTRIQUES
Les deux principaux tests paramétriques sont le test t et le test Z, qui ont pour objet de
tester des différences de moyenne. Ces tests sont souvent mis en œuvre en sciences
sociales, car ils permettent, par exemple, de comparer la moyenne d’une variable
dépendante métrique en fonction des modalités d’une variable nominale. On formule alors
une hypothèse nulle qui sera vérifiée par le test t ou le test Z. Pour plus de simplicité, ces
deux tests sont présentés ici pour des échantillons uniques.

Test t : Il est directement lié à la statistique t de Student, qui suppose que la variable adopte
une distribution normale, que la moyenne soit connue et que la variance, lorsqu’elle est
inconnue, soit estimée sur l’échantillon

Dans SPSS, ce test paramétrique peut être estimé avec la procédure suivante : menu
Analyse > Comparer les moyennes > Test T pour échantillon unique…, procédure que
nous avons utilisée pour estimer l’intervalle de confiance. Pour comparer les moyennes de
deux échantillons indépendants (comparaison de deux groupes (Homme ; Femme), on
utilisera une analyse de variance (ANOVA) à 1 facteur. Pour comparer les moyennes de deux
échantillons appariés (comparaison de relevés de prix à deux périodes distinctes par
exemple), on suivra une extension du test t pour échantillons appariés qui est disponible
dans la même boîte de dialogue.

5.4 TESTS NON PARAMÉTRIQUES


Les tests non paramétriques sont souvent mis en œuvre dans la pratique en sciences
sociales : ils s’appliquent aux variables qualitatives et s’avèrent relativement performants
sur de petits échantillons, même s’ils sont moins puissants que les tests paramétriques.
Voici les principaux tests non paramétriques présentés ici : un test d’ajustement (le test de
Kolmogorov- Smirov), des tests de comparaison d’échantillons indépendants (le test U de
Mann- Whitney et le test de la médiane), ainsi que des tests de comparaison d’échantillons
appariés (le test de Wilcoxon, le test du signe et le test de McNemar).
18
Test de Kolmogorov-Smirov (K-S) : C’est un test dit d’ajustement, car il permet d’établir
si une population donnée suit une distribution particulière (normale, uniforme ou poisson
par exemple), condition exigée par de nombreux tests.

Le K-S pour un échantillon s’obtient dans SPSS à partir du menu Analyse > Tests non
paramétriques > K-S à 1 échantillon…

Test U de Mann-Whitney : Il permet de vérifier que deux échantillons (ou groupes)


proviennent bien de la même population. On peut l’utiliser, par exemple, pour comparer les
réponses dans un département par rapport aux réponses nationales. La statistique du test U
réunit les deux échantillons et ordonne les observations par ordre croissant de taille. Le test
calcule le nombre de fois où un résultat du groupe 1 précède un résultat du groupe 2, ainsi
que le nombre de fois où un résultat du groupe 2 précède un résultat du groupe 1. U est
d’autant plus petit que les groupes sont différents. Pour calculer le U de Mann-Whitney dans
SPSS, il faut d’abord définir la variable qui servira à scinder les données en deux échantillons
: Analyse > Test non paramétrique > 2 échantillons indépendants…, puis sélectionner
une variable de regroupement (Facteur) et cliquer sur Définir les niveaux. Pour définir les
groupes, vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe 2.
Sélectionnez ensuite le test U de Mann-Whitney dans la boîte de dialogue.

Test de la médiane : Ce test, moins puissant que le U de Mann-Whitney, permet de


déterminer si deux groupes sont issus de populations ayant la même médiane, en estimant
la position de chaque observation par rapport à la médiane globale des deux échantillons.
Pour calculer le test de la médiane dans SPSS, vous devez suivre la procédure suivante :
Analyse > Test non paramétrique > K échantillons indépendants…, puis sélectionner le
test de la médiane dans le menu du type de test envisagé.

Test de Wilcoxon : Le test de Wilcoxon est utilisé dans le cas de la comparaison de deux
échantillons appariés, c’est-à-dire lorsque l’on souhaite, par exemple, comparer deux types
de réponses : avant/après l’exposition à un message publicitaire, attitude par rapport à une
marque A et une marque B, etc. La statistique z du test de Wilcoxon s’obtient en calculant la
différence entre les scores des deux observations par paires d’observations, puis en
calculant le rang de toutes les différences, et enfin la somme des rangs positifs et des rangs
négatifs. On rejette l’hypothèse nulle (absence de différence entre les deux groupes) s’il y a
une différence entre la somme des rangs positifs et la somme des rangs négatifs. Le sens de
la statistique indique le sens de la différence de la paire examinée.

Dans SPSS, ouvrez le menu Analyse > Test non paramétrique > 2 échantillons liés…, puis
sélectionnez le test que vous souhaitez mettre en oeuvre (Wilcoxon, Signe, McNemar).

Test du signe : Le test du signe est relativement proche du test de Wicoxon, mais il est plus
limité et par suite moins puissant. Il ne s’attache en effet qu’à une comparaison des signes
des différences, sans procéder à un classement comme le fait le test de Wilcoxon.

Test de McNemar : Le test de McNemar peut également être mis en œuvre dans le cas
d’échantillons appariés, pour comparer les valeurs de deux variables dichotomiques (à deux
dimensions).

6 Résumé
Première étape de l’analyse à proprement parler, la description des données permet de
représenter les valeurs observées sur les différents individus de l’échantillon. L’analyse
univariée, qui examine une seule variable à la fois, repose sur la description (fréquences,
tendance centrale, dispersion, distribution) et la visualisation graphique des variables, ainsi
19
que sur l’inférence, c’est-à-dire la comparaison à des valeurs déterminées. L’analyse
bivariée permet d’aller plus loin par l’étude des relations entre deux variables, grâce aux
tris croisés et aux principaux tests d’analyse bivariée : tests d’association (khi-deux) et tests
de comparaison (test t, test K-S, test U de Mann-Whitney, etc.).

20

Vous aimerez peut-être aussi