25/11/2022
ANALYSE DE DONNÉES AVEC SPSS
Dr. Chirine AOUICHAOUI
Plan
1-Statistiques descriptives
2-Les statistiques descriptives : la moyenne, l’écart type, le
minimum et le maximum.
3-Test de normalité: Kolmogorov-Smirnov
4-Comparaisons des moyennes
Le T de Student : Cas de deux échantillons indépendants
Le T de Student : Cas de deux échantillons appariés
ANOVA: Comparaison de K échantillons indépendants
ANOVA : Comparaison de K échantillons appariés
5-Représentations graphiques
6-Comparaisons des fréquences
Test de khi-deux pour groupes indépendants
1
25/11/2022
7-Les tests non paramétriques
Test pour échantillons indépendants: Test U de Mann
Whitney
Test de Wilcoxon
Test pour plusieurs échantillons indépendants: H de
Kruskal-Wallis
Test pour plusieurs échantillons liés : Friedman
8-La corrélation r de pearson et rho de spearman
9-Régression linéaire simple et multiple.
L’apprenant devra:
1) Formuler un énoncé théorique et pertinent.
2) Construire une banque de données utilisable SPSS.
3) Choisir la méthode statistique appropriée au test de
leur hypothèses et justifier ce choix.
4) Faire l’analyse des données à l’aide du logiciel SPSS
5) Présenter et interpréter les résultats de leur analyse
d’un point de vue statistique.
6) Interpréter les résultats en fonction de leur
pertinence pour l’étude du sujet choisi.
2
25/11/2022
1-Statistiques descriptives
Les données statistiques telles qu’elles se présentent au
fur et à mesure de leur enregistrement ne forment
souvent qu’une masse de données inutilisables
immédiatement.
La synthèse statistique permet de les organiser et de les
présenter sous une forme condensée afin de mieux étudier
leur distribution
La synthèse d’une distribution statistique peut s’opérer de
3 façons:
-Une synthèse par l’image en construisant des graphiques
-Une synthèse par des tableaux
-Une synthèse numérique en calculant des paramètres ou
des statistiques.
3
25/11/2022
Population /
Unités statistiques
• Une population est l’ensemble des
individus ou unités statistiques .
• Chaque observation porte sur
une unité statistique.
DIFFERENTS TYPES DE VARIABLES
Variable (1)
• Une variable est une caractéristique dont
on peut observer des valeurs différentes
au sein d’un groupe de sujets.
4
25/11/2022
Variable (2)
Les variables peuvent être
différenciées en deux groupes :
Variables qualitatives Variables quantitatives
que l’on observe que l’on mesure.
Variables qualitatives (1)
• Caractère dont les modalités n’ont pas de
valeur numérique.
• Leurs valeurs sont des qualités réparties en
classes.
• On dénombre des effectifs appartenant à
chaque classe.
5
25/11/2022
Variables qualitatives (2)
Variables qualitatives Variables qualitatives
ordinales : nominales :
• classes ordonnées selon une • classes ne pouvant pas être
échelle de valeurs hiérarchisées.
• nommées mais pas ordonnées.
Variable classes Variable classes
Niveau primaire Groupe A
d’étude secondaire sanguin B
supérieur O
AB
Variables binaires
Type particulier de variables qualitatives nominales qui
ne peuvent prendre que
deux valeurs.
Exemple:
Variable classes
État de santé malade ,sain
Survie Vivant, décédé .
Sexe Féminin, masculin
Tabagisme Fumeur, non fumeur
6
25/11/2022
Variables quantitatives (1)
• Ces variables sont caractérisées par des
valeurs numériques
• Un caractère est dit quantitatif lorsqu’il est
mesurable
Variables quantitatives (2)
Variables quantitatives Variables quantitatives
discrètes (discontinues): continues :
Sont le résultat d’un Peuvent prendre n’importe
dénombrement. quelle valeur numérique dans
l’intervalle des observations.
Exemple : Exemple : la glycémie,
-nombre d’enfants par famille, le poids,
-nombre de blessés dans un match la taille.
7
25/11/2022
8
25/11/2022
• L’analyse statistique est une
étape cruciale de la recherche
scientifique
• Elle est de plus en plus
informatisée étant donnée
l’abondance des données et la
complexité des approches du
traitement de l’information
• Plusieurs logiciels d’analyse
statistique sont actuellement
utilisés dans le domaine des
sciences tels que : STATISTICA
et SPSS… Avant l’arrivée des logiciels stat
9
25/11/2022
Qu’ est ce que SPSS ?
SPSS est un logiciel spécialement conçu
pour les analyses statistiques en
sciences sociales
« Statistical Package for Social
Sciences »
SPSS est un logiciel (plutôt progiciel) statistique des
plus puissant et le plus largement répondus dans le
monde.
Il couvre une gamme générale de procédures
statistiques qui vous permettent de résumer les données.
Un objectif important de ce cours est de permettre aux
étudiants de se familiariser avec l’utilisation du logiciel
SPSS.
Son apprentissage permettra donc aux étudiants
d’acquérir une compétence qu’ils pourront mettre à profit
dans leurs travaux de recherche.
10
25/11/2022
les fenêtres de l’ SPSS:
Trois sortes de fenêtres dans SPSS
1. l’Éditeur de données : c’est dans cette fenêtre que toutes
les opérations de SPSS se font : saisie, gestion,
traitement, analyse et représentation des données ;
2. la fenêtre de l’éditeur de syntaxe qui recueillera vos
instructions d’analyse.
3. Viewer SPSS : c’est la fenêtre dans laquelle sont envoyés
les résultats des analyses faites sur SPSS
11
25/11/2022
Affichage des variables :
Chaque ligne représente une variable
Les colonnes décrivent les caractéristiques des variables
12
25/11/2022
2-Statistiques descriptives:
la moyenne, l’écart type, le minimum
et le maximum.
13
25/11/2022
14
25/11/2022
3-Test de normalité Kolmogorov-
Smirnov
La distribution normale ou de Gauss est une curve qui
représente une distribution de probabilités. Elle présente
les caractéristiques suivantes:
La distribution est symétrique
La moyenne, le mode et la médiane sont identiques
Elle est appelée normale parce qu’elle représente la plupart
des variables (par exemple, la taille, le poids des hommes
d’une population).
15
25/11/2022
4-Comparaisons des moyennes
Le T de Student : Cas de deux échantillons
indépendants
Ce test paramétrique repose sur des
comparaisons de moyennes.
Conditions d’utilisation du test : le test de
Student est utilisé pour comparer deux
échantillons indépendants.
Le test de Student concerne des données
quantitatives.
16
25/11/2022
Comparaisons des moyennes
Le T de Student : Cas de deux échantillons appariés
Le but de ce test est de vérifier l'effet de la variable
indépendante (une intervention) sur la variable dépendante (les
sujets, ces derniers ayant été pairés d'une façon ou d'une autre).
On mesure donc la variable dépendante avant et après l'intervention.
Le test-t pour échantillons appariés peut aussi être utilisé pour des
sujets qui ont été exposés à deux conditions expérimentales.
Le test t pour échantillons appariés compare les sujets avec eux-
mêmes. Ceci permet de détecter les différences si elles existent bel
et bien.
Ce test permet de comparer deux mesures d'une variable
quantitative effectuées sur les mêmes sujets (mesures définies par
les modalités de la variable qualitative). En fait ce test traite les
deux échantillons appariés comme un seul sur lequel on aurait mesuré
la différence entre les deux mesures.
17
25/11/2022
SPSS fournit la probabilité bilatérale, c'est-à-dire que le
sens de la différence n'a pas d'importance (le taux
d‘hormone peut être plus élevé ou moins élevé après la
course, l'important est que la différence entre le taux
avant et après soit significative).
Dans l'exemple, il existe une différence significative entre
le taux d‘hormone avant et après une course (p <0.05).
Les coureurs ont un taux significativement plus élevé après
la course.
18
25/11/2022
19
25/11/2022
Comparaisons des moyennes
ANOVA: Comparaison de K échantillons
indépendants
Une analyse sur trois échantillons indépendants
ou plus nécessite une ANOVA (ANalysis Of
VAriance).
L'ANOVA (analyse de variance) est une
généralisation de la comparaison de moyennes à
K sous populations.
Les échantillons sont indépendants.
20
25/11/2022
Comparaisons des moyennes
ANOVA: Comparaison de K échantillons appariés
L'ANOVA (analyse de variance) est une
généralisation de la comparaison de moyennes à
K sous populations.
Ces tests permettent la comparaison de plus
de deux populations apparentées.
21
25/11/2022
5-Représentations graphiques
La représentation graphique dépend de la
nature de la variable étudiée.
La forme de présentation la plus visuelle
concernant la distribution d’une population
en fonction d’une variable donnée est
le graphique.
Les graphiques permettent de donner une
synthèse visuelle de la distribution d’une
variable
Les graphiques permettent de mieux
percevoir une relation entre des variables.
Les représentations peuvent être
spécifiques à un type de variable ou de
caractère.
22
25/11/2022
Variables qualitatives
Les graphiques relatifs aux variables
qualitatives sont assez particuliers, à cause de la
nature (non numérique) de ces variables.
Par définition, les observations d'une variable
qualitative ne sont pas des valeurs numériques,
mais des caractéristiques, appelées modalités.
Pour un caractère qualitatif, on utilise
principalement 2 types de représentations
graphiques :
Le diagramme en colonnes, en tuyaux d’orgue ou en
barres
Le diagramme en secteurs
23
25/11/2022
Le principe général de ces trois graphiques est le
même :
Les différentes modalités de la variable
qualitative sont représentées par des parties du
graphique dont la surface est proportionnelle a
l'effectif (ou la fréquence, ou le pourcentage)
correspondant.
Exemple:
Le tableau ci-dessous donne la répartition de la
population active occupée (ayant effectivement
un emploi) selon la CSP (catégorie
socioprofessionnelle), en France, en mars 1988
(Tableaux de l' Economie Française, INSEE,
1989, p. 59).
24
25/11/2022
Le diagramme en colonnes
La représentation par tuyaux d'orgue ou en barres
•Nous portons en abscisses les modalités, de façon
arbitraire.
•Nous portons en ordonnées des rectangles dont la
longueur est proportionnelle aux effectifs, ou aux
fréquences, de chaque modalité.
25
25/11/2022
Figure. Diagramme en tuyaux d’orgue : proportion (en pourcentage) de
bacheliers et non-bacheliers dans une génération en France
métropolitaine et DOM, 2005.
La représentation par secteurs
Les diagrammes circulaires ou camembert
consistent à partager un disque en tranches, ou
secteurs, correspondant aux modalités
observées et dont la surface est proportionnelle
à l'effectif, ou à la fréquence, de la modalité.
26
25/11/2022
Variables quantitatives
La variable statistique est la mesure
du caractère. Celle-ci peut être
discrète ou continue.
Variable quantitative discrète
En général, on appelle variable quantitative
discrète une variable quantitative ne prenant que
des valeurs entières.
Citons, par exemple:
Le nombre d'enfants dans une population de
familles.
Le nombre d'années d‘études après le bac dans
une population d‘étudiants. . .
27
25/11/2022
Il existe 2 types de représentation graphique
d'une distribution statistique à caractère
quantitatif discret :
Le diagramme différentiel: diagramme en
bâtons, des effectifs ou des fréquences.
La différence avec le cas qualitatif consiste en ce
que les abscisses sont les valeurs de la variable
statistique
Le diagramme intégral: courbe en escaliers ou
diagramme cumulatif des effectifs cumulés ou
des fréquences cumulées.
Il correspond à une représentation des effectifs
cumulés, ou des fréquences cumulées.
28
25/11/2022
Exemple 1. Tableau statistique avec valeurs observées, effectifs,
effectifs cumulés, fréquences et fréquences cumulées.
29
25/11/2022
Figure 1. Diagramme en bâtons
La Figure 1 donne le diagramme en bâtons des
données de l'Exemple 1. Ce diagramme comporte
donc un axe horizontal (l'abscisse), sur lequel
figurent les observations de la variable considérée
(ici les âges), et un axe vertical (l'ordonnée), sur
lequel figurent les effectifs.
Nous appelons polygone statistique, ou diagramme
polygonal, la ligne obtenue en joignant les sommets
des bâtons.
30
25/11/2022
Figure 2. Courbe
cumulative
Variable quantitative continue
Une variable quantitative est dite continue lorsque les
observations qui lui sont associées ne sont pas des valeurs
précises, mais des intervalles. Cela signifie que, dans ce cas,
l'ensemble des valeurs possibles de la variable étudiée a été
divise en X intervalles contigus appelés classes.
Il existe 2 types de représentation graphique d'une
distribution statistique à caractère quantitatif continu :
L'histogramme
La courbe cumulative
31
25/11/2022
—Diagramme différentiel : histogramme des densités.
Nous portons en abscisse les classes représentant les
modalités et en ordonnées des rectangles dont la longueur
est proportionnelle à la densité d'effectif ou à la densité
de fréquence.
L'aire d'un rectangle de cet histogramme est alors
proportionnelle à l'effectif ou à la fréquence de la classe.
—Diagramme intégral : courbe cumulative des effectifs
ou des fréquences.
La courbe cumulative des fréquences doit représenter la
fonction de répartition de la variable statistique.
L'histogramme
On peut dire que l'histogramme est un graphique qui
juxtapose divers rectangles, un pour chaque classe.
Un axe horizontal sert à représenter les bornes
des classes de la variable considérée. Chaque classe
est alors représentée par un rectangle dont la base
est délimitée par les bornes correspondantes et
dont la hauteur est ce que l'on appelle la densité
d'effectif (ou de fréquence, ou de pourcentage).
32
25/11/2022
On utilise l'histogramme pour les variables classées.
C'est un ensemble de rectangles. Chaque rectangle est
associé à une classe et il a une surface proportionnelle à
l'effectif (ou fréquence) de cette classe.
Amplitudes égaux : Si les classes ont la même amplitude,
on reporte en ordonnée l'effectif (ou fréquence) des
classes.
33
25/11/2022
La courbe cumulative
Chaque classe considérée doit d'abord être
représentée par un point unique dont l'abscisse
est la borne supérieure de la classe et l'ordonnée
est l'effectif (ou la fréquence, ou le pourcentage)
cumulé de cette classe.
La courbe cumulative est la courbe joignant les
points en question. Elle représente donc l‘évolution
des effectifs (ou fréquences, ou pourcentages)
cumulés, comme le faisait le diagramme cumulatif
dans le cas discret.
34
25/11/2022
Diagramme en moustaches (box plot):
35
25/11/2022
Procédures pour éditer un graphique:
Sélectionner le diagramme en cliquant 2 fois
dessus:
La fenêtre Editeur de diagramme SPSS devrait
présenter le graphique, lequel peut alors être
modifié à votre guise.
Ajouter un titre, une légende, ou ajustez
n’importe quel élément du graphique (son
orientation, la taille des caractères, ….)
Les graphiques ont l’avantage d’être amusants à faire, par
contre, ils prennent beaucoup de place et présentent des
informations relativement limitées, n’en abusez donc pas.
Une représentation graphique appelle un commentaire de la
part du chercheur qui présente ses données.
Utilisation de façon adapté, dans la mesure du possible,
des tableaux et des graphiques synthétisant les données
(éviter les redondances entre les résultats présentés
dans les graphiques et les tableaux)
36
25/11/2022
6-Comparaisons des fréquences
Test de khi-deux pour groupes indépendants
L’analyse porte sur une relation bi variée comprenant
deux variables qualitatives (nominales et/ou ordinales).
Cette analyse s’effectue à l’aide de fréquence conjointe
(tableau de contingence ou tableau croisé).
X² est un calcul statistique qui permet de trancher la
question de savoir si la relation entre les deux variables
est significative ou non.
Plus précisément c’est une procédure qui permet de
trancher la proposition suivante (hypothèse nulle) : il n’y a
pas de relation entre les deux variables.
37
25/11/2022
Khi-deux ou khi carré: permet de déterminer s’il existe une relation
statistiquement significative entre les variables.
7-Les tests non paramétriques
Test pour échantillons indépendants : Test U de Mann-
Whitney
38
25/11/2022
Les tests non paramétriques
Le test de Wilcoxon: Test pour échantillons liés
(ou appariés)
Le test de Wilcoxon est surtout utilisé dans le cas de la
comparaison de deux échantillons appariés, c’est-à-dire
lorsque l’on souhaite, par exemple, comparer deux types de
réponses : avant/après un programme de préparation
physique, attitude par rapport à une marque A et une
marque B, etc.
Dans SPSS, ouvrez le menu Analyse > Tests non
paramétriques > Echantillons liés. L’organisation de la
fenêtre est identique à celle rencontrée dans les tests
précédents.
Dans l’onglet Champs, il faut sélectionner les deux variables
liées (métriques) et, dans Paramètres, le test souhaité, ici
Wilcoxon, puis Exécuter.
39
25/11/2022
Test pour plusieurs échantillons
indépendants : H de Kruskal-Wallis
40
25/11/2022
Test pour plusieurs échantillons liés : Friedman
Un échantillon de n individus, k mesures répétées
41
25/11/2022
8-La corrélation r de pearson.
La corrélation rho de Spearman.
42
25/11/2022
43
25/11/2022
9-Régression linéaire
Elle estime les coefficients de l'équation
linéaire, impliquant une ou plusieurs
variables indépendantes, qui estiment le
mieux la valeur de la variable dépendante.
Par exemple, vous pouvez prédire la
performance (la variable dépendante) à
partir de variables indépendantes telles que
l'âge, le poids et le pourcentage de la masse
grasse.
Régression linéaire multiple
44
25/11/2022
45
25/11/2022
(SPSS) Statistical Package for the Social
Science
Il s’acquiert plutôt par la pratique
Votre rythme d’apprentissage du logiciel
SPSS sera accéléré si vous l’utilisez
fréquemment
46
25/11/2022
Merci de votre attention
47