PETIT GUIDE DE SURVIE AUX STATISTIQUES
INTRODUCTION : QU’EST-CE QU’UNE ANNOVA ?
= Analyse de la variance
Faire une ANOVA revient à déterminer les facteurs qualitatifs qui permettent
d’expliquer les variations d’une donnée quantitative.
Autrement dit, cala revient à étudier l’effet d’une ou plusieurs variables
qualitatives (par exemple l’âge et le sexe) sur une variable quantitative
(par exemple le temps de réaction).
Beaucoup utilisé en psychologie.
GÉNÉRALITÉS
Test statistique = donne un cadre de décision entre différentes hypothèses et sur des
données
VI = ce qu’on fait varier (Age, Sexe, lieu de résidence etc.) et VD = ce que l’on
mesure (TR, nb de bonnes réponses etc.)
But = essayer de donner du sens à des données liées à la recherche en psychologie
En psychologie un résultat n’est pas faux ou vrai il faudra dire avec prudence «
les données et l’analyse statistique nous permettent de considérer que… »
Il y a des précautions à prendre, car on peut faire dire n’importe quoi aux
chiffres
LES TYPES DE VARIABLES
Variables qualitatives nominales : les modalités ne peuvent pas être mesurées numériquement
(ex : F et H, droitiers, gauchers) → Tests de comptage (combien d’hommes dans mon échantillon) càd
test de fréquence.
Variables qualitatives ordinales : relation d’ordre, par exemple les échelles de Likert. Test de
fréquence aussi.
Variables quantitatives discrètes : 1,2,3… Possibilité de calculer des moyennes, des variances
+ indicateurs de dispersion et de position.
Variables quantitatives continues : infinité de valeurs (exemple : taille en cm : 172,33 cm, TR etc.).
Possibilité de calculer des moyennes, des variances + indicateurs de dispersion et de position.
LES TYPES DE VARIABLES (SUITE)
Une variable qualitative nominale (ordinale ou nominale) = tableau de fréquence
Une variable quantitative (discrète ou continue) = indicateurs de positions et de
dispersions
2 variables qualitatives = tableau de contingence et Chi-2
2 variables quantitatives = corrélation
1 variable qualitative et une variable quantitative :
2 mesures sur le même individu = apparié
1 mesure sur 2 échantillons = indépendant
MÉTHODE (1)
Quel test statistique faut-il effectuer lorsque l’on a une ou deux variables, lorsqu’elles
sont qualitatives ou quantitatives… Lorsque les conditions d’applications du test sont
respectées et quand elles ne le sont pas…?
Avant tout, prendre le temps de noter à côté toutes les variables qui sont
impliquées dans l’étude.
Ensuite, il faut fonctionner de manière méthodique et rigoureuse et suivre un
arbre de décisions
MÉTHODE (2)
1) Combien de variables ?
II) Quels types de variables ?
III) Mesure répétées (échantillon apparié) ou indépendantes ?
IV) Quelle est la VI et la VD ?
MÉTHODE (3)
Il faut voir ça comme un outil te permettant de choisir le bon test statistique en
fonction de plusieurs critères
On peut faire un parallèle avec les pathologies par exemple, il faut connaître les
symptômes pour pouvoir faire un diagnostic et choisir le bon traitement. En fonction
de plusieurs critères, tout comme en statistiques, on va pouvoir prendre des
décisions.
Les types de variables, les types d’échantillon (apparié ou indépendant), la taille de
l’échantillon etc. sont des sortes d’indices qui vont permettre cette prise de décision.
ARBRE DE DÉCISION
Nombre de variables
2 variables (une VI et
une VD)
Echantillon
Echantillon apparié
indépendant
Variable nominale à 2 Variable nominale à + Variable nominale à 2 Variable nominale à +
modalités de 2 modalités modalités de 2 modalités
Effectif < 30 et
Effectif > 30 et
Effectif > 30 et données non-
Effecif > 30 ANOVA à un facteur Effectif > 30 données non- Pas au programme
variances différentes gaussiennes ou non
gaussiennes
homoscédasticité
- Plan équilibré
Conditions
Welch (adaptation du -Egalité des variances
Test de Student Mann-Wintney d'application non- Student apparié Wilcoxon
Student) (Levene)
respectées
-Résidus gaussiens
Anova non-
Anova paramétrique paramétrique :
Kruskal Wallis
2 VARIABLES NOMINALES = TEST DE CHI-2
Pas plus de 20% de cellules avec moins de 5 unités (sinon on ne peut pas considérer que le test est
valable)
H0 : Les 2 variables sont indépendantes
H1 : Les 2 variables sont liées
P-value <0,01 : on refuse H0
P-value >0,05 : on ne refuse pas H0
V-Cramer : force du lien.V<0,30 = faible effet,V<0,30<0,50 moyen,V>50 fort
S’il n’y a pas d’effet : oméga de Cramer
Le pourcentage de lignes et de colonnes ou comparaison « predicted » et « réel » caractérisent le lien
SI 2 VARIABLES QUANTITATIVES : TEST SUR LA CORRÉLATION NULLE
Vérification que les données ne sont pas trop non-gaussiennes ou que l’effectif n’est pas trop
faible
H0 : Les 2 variables sont indépendantes
H1 : Les 2 variables sont liées
P-value <0,01 : on refuse H0
P-value >0,05 on ne refuse pas H0
Effet faible : p<0,30, effet moyen 0,30<p<0,50 et effet fort p>0,50
On caractérise le lien par le signe de corrélation
SI ON A UNE VARIABLE QUANTITATIVE ET UNE VARIABLE
NOMINALE À 2 MODALITÉS
Population Population
indépendante appariée
Test de Mann- Test de
Test du Student Student apparié
Wintney (non- Wilcoxon (non
(paramétrique) (paramétrique)
paramétrique) paramétrique)
TEST DE STUDENT (PARAMÉTRIQUE)
On peut appliquer ce test lorsque les conditions d’application sont réunies. Ce sont les tests de normalité (Shapiro-wilk)
et d’égalité des variances/ test d’homoscédasticité (Levene) qu’il faut utiliser. Si les conditions ne sont pas réunies il
faudra passer en test non-paramétrique (Mann-Wintey = version non-paramétrique du Student)
Test de normalité : Shapiro-Wilk ; H0 : les données sont gaussiennes pour chaque condition
Test d’homoscédasticité : Levene ; H0 : toutes les variances sont égales
La population doit être de 30 minimum
On peut éventuellement faire passer un Welch si les variances sont très différentes
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les deux modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille de l’effet : D de Cohen : d<0,20 : effet négligeable, 0,20<d<0,50 : effet faible, 0,50<d<0,80 : effet moyen, d>0,80 :
effet fort
On caractérise le lien par les données descriptives ou plot
TEST DE MANN-WINTNEY (NON-PARAMÉTRIQUE)
Les données doivent être au moins ordinales
L’échantillon est de moins de 30 personnes
Les données ne sont pas gaussiennes
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les deux modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille de l’effet : Rank biserial correlation : p<0,30 : effet faible, 0,30<p<0,50 : effet moyen, p>0,50 : effet fort
On caractérise le lien par les données descriptives ou plot
STUDENT APPARIÉ (PARAMÉTRIQUE)
Test de normalité : Shapiro-Wilk ; H0 : les données sont gaussiennes pour chaque condition)
Test d’homoscédasticité : Levene ; H0 : toutes les variances sont égales)
La population doit être de 30 minimum
On peut éventuellement faire passer un Welch si les variances sont très différentes
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les deux modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille de l’effet : D de Cohen : d<0,20 : effet négligeable, 0,20<d<0,50 : effet faible, 0,50<d<0,80 : effet moyen,
d>0,80 : effet fort
On caractérise le lien par les données descriptives ou plot
TEST DE WILCOXON (NON PARAMÉTRIQUE)
Les données doivent être au moins ordinales
L’échantillon est de moins de 30 personnes
Les données ne sont pas gaussiennes
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les deux modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille de l’effet : Rank biserial correlation : p<0,30 : effet faible, 0,30<p<0,50 : effet moyen, p>0,50 : effet fort
On caractérise le lien par les données descriptives ou plot
SI ON A UNE VARIABLE QUANTITATIVE ET UNE VARIABLE
NOMINALE À + DE 2 MODALITÉS
Population
indépendante
ANOVA non-
ANOVA
paramétrique
paramétrique
(Kruskal Wallis)
ANOVA PARAMÉTRIQUE
On vérifie que le plan soit équilibré (autant de participants dans chaque condition expérimentale)
Test d’homoscédasticité : Levene ; H0 : toutes les variances sont égales
Les résidus doivent être gaussiens, on le vérifie graphiquement, les points doivent être alignées sur la droit
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les deux modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille d’effet (eta2 (n2)) : n² < 0,06 : faible, 0,06<n²<0,14 : moyen, n²>0,14 : fort
On caractérise le lien par les tests post-hoc pour les effets fixes (effets simples)
On caractérise le lien d’interaction par « Marginal means »
ANOVA NON-PARAMÉTRIQUE (KRUSKAL WALLIS)
Le plan doit être équilibré et les données ordinales
On pose les hypothèses :
H0 : la variable quantitative a la même moyenne sur les modalités de la variable nominale.
H1 : la moyenne de la variable quantitative dépend de la modalité de la variable nominale : il y a un lien entre les deux.
P-value <0,01 : on refuse H0
P-value >0,05 : on refuse H1
Taille d’effet (eta2 (n2KW*)) : n² < 0,06 : faible, 0,06<n²<0,14 : moyen, n²>0,14 : fort
On caractérise le lien par les tests post-hoc (test de Dunn)
Il n’y a pas d’interaction possible ici
*KW pour Kruskal Wallis