Effet Test Retest
Effet Test Retest
net/publication/308366195
CITATIONS READS
0 943
3 authors:
Sophie Geistlich
University of Geneva
4 PUBLICATIONS 9 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Thierry Lecerf on 18 September 2018.
ScienceDirect
Pratiques psychologiques 23 (2017) 345–358
Examen psychologique
WISC-IV : valeurs seuils pour des changements
significatifs des scores de différence test–retest
WISC-IV: Cutoff values for meaningful test–retest difference scores
T. Lecerf a,∗,b , S. Kieng a,b , S. Geistlich a,b
a Faculté de psychologie et des sciences de l’éducation, université de Genève,
40, boulevard du Pont d’Arve, 1205 Genève, Suisse
b Formation universitaire à distance, Sierre, Suisse
Résumé
L’un des objectifs assignés à l’administration des échelles d’intelligence (WAIS, WISC) consiste en
l’évaluation des changements du fonctionnement cognitif au fil du temps. Pour cela, on administre la même
échelle à 2 reprises après un intervalle de temps variant de quelques jours à plusieurs années. La différence
entre les scores observés lors du test et du retest renseigne sur le changement. Afin de déterminer si le score
de différence test–retest représente un changement cliniquement significatif, des valeurs seuils contrôlant
pour l’effet de pratique, l’erreur de mesure et la régression à la moyenne sont développées pour le WISC-IV.
Pour le QIT, une diminution d’au moins 11 points suggère un déclin, tandis qu’une augmentation d’au moins
17 points traduit une progression.
© 2016 Société Française de Psychologie. Publié par Elsevier Masson SAS. Tous droits réservés.
Abstract
A major use of intelligence scales (WAIS, WISC) is to measure changes in functioning over time. To
deal with this goal, the test–retest procedure can be used: the same test is administered twice on two
separate occasions (from few weeks to several years). The difference between the test score and the retest
score reflects the magnitude of change. To determine whether the test–retest difference score represents
a clinically meaningful change, cutoff values with correction for practice effect, measurement error and
∗ Auteur correspondant.
Adresse e-mail : [email protected] (T. Lecerf).
http://dx.doi.org/10.1016/j.prps.2016.07.003
1269-1763/© 2016 Société Française de Psychologie. Publié par Elsevier Masson SAS. Tous droits réservés.
346 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358
regression toward the mean are provided for the WISC-IV. For the FSIQ, a decrease of at least 11 points
suggests a decline, while an increase of at least 17 points reflects an improvement.
© 2016 Société Française de Psychologie. Published by Elsevier Masson SAS. All rights reserved.
1. Introduction
conséquence, les tests comportent des biais qui rendent l’interprétation des scores de différences
test–retest délicate.
À ce stade, il est important de rappeler que l’évaluation des changements nécessite de distinguer
la significativité statistique vs la pertinence clinique d’un score de différence test–retest (Brooks,
Sherman, Iverson, Slick, & Strauss, 2011 ; Jacobson & Truax, 1991). Pour déterminer si une
différence est significative sur le plan statistique, on utilise régulièrement en psychologie, et
de façon tout à fait arbitraire, le seuil de 5 % (p < .05 ; pour une discussion Cohen, 1994 ;
Reuchlin, 1992). Or, les études conduites sur les tests d’intelligence montrent que des différences
significatives sur le plan statistique ne signifient pas qu’elles le sont sur le plan « clinique ».
En effet, on considère que les différences présentent un intérêt clinique si elles sont rares, peu
fréquentes dans la population. Pour certains auteurs, cette rareté correspond à une différence
observée pour moins de 5 % de la population (≤ 5 %, Chelune, 2003), pour d’autres auteurs à
moins de 10 % de la population (≤ 10 %, Kaufman & Kaufman, 2008), ou encore pour d’autres
auteurs à moins de 15 % de la population (≤ 15 %, Sattler, 2008). Dans cet article, nous utiliserons
le seuil de 10 %1 .
À ces biais systématiques s’ajoutent les erreurs de mesure, qui sont à l’origine des imprécisions
dans les scores des tests. Rappelons que selon la théorie classique des tests, le score observé à
un test (X) comprend le score vrai et l’erreur de mesure. Le score vrai (T) traduit le niveau de
l’individu sur la propriété mentale évaluée, tandis que l’erreur de mesure (E) traduit des fluctua-
tions aléatoires. C’est ce que résume l’équation : X = T + E. Par complémentarité, l’estimation de
l’erreur de mesure renseigne sur la fidélité des scores du test. Au niveau individuel, l’utilisation
des données de fidélité (et donc de l’erreur de mesure) se traduit par la détermination d’un inter-
valle de confiance, calculé à partir de l’erreur type de mesure (standard error of measurement
[SEm])3 .
SEm = σ (1 − rxx )
Dans cette formule, σ correspond à l’écart-type et rxx correspond au coefficient de fidélité
(pour une description, voir le manuel d’interprétation du WISC-IV ; Wechsler, 2005, p. 31). Pour
le WISC-IV (Tableau 4.2, p. 32), les erreurs types de mesure varient de 3,63 (QIT) à 6,01 (IVT).
On peut en conclure que la fidélité du QIT est plus élevée que celle de l’IVT. Concrètement, cela
signifie que si un enfant obtient un QIT de 110, dans 90 évaluations sur 100, le score vrai du QIT
devrait se situer à l’intérieur de l’intervalle de confiance 3,63 × 1,6454 , soit ± 5,97 points autour
du score de 110 [104–116]. Compte tenu des erreurs de mesure qui surviennent dans les scores
des tests, elles doivent être prises en compte dans l’évaluation de la signification clinique des
changements de performances entre le test et le retest.
Une troisième source d’erreur influençant l’interprétation des scores de différences test–retest
est la régression à la moyenne. Ce phénomène, observé initialement par Galton, traduit le fait
que les scores ont tendance à régresser vers la moyenne plutôt qu’à s’en éloigner. En d’autres
termes, la probabilité est plus grande que le score vrai d’un individu se rapproche de la moyenne
plutôt qu’il ne s’en éloigne. Dans une procédure test–retest, cela a une conséquence importante :
relativement au score de la 1re passation (test), le score de la 2e passation (retest) a une plus grande
probabilité de se rapprocher de la moyenne que de s’en éloigner. Le score au retest devrait donc
être plus proche de la moyenne que le score au test. On peut illustrer ce phénomène en prenant
l’exemple d’une petite fille qui a obtenu à l’âge de 8 ans et 8 mois un QIT de 119, et un QIT de
109 à l’âge de 11 ans et 2 mois. En conséquence, si l’évaluation de la signification clinique des
changements de performances test–retest doit tenir compte des effets de pratique et des erreurs
de mesure, elle doit également intégrer la régression à la moyenne.
Nous venons de décrire trois facteurs à prendre en considération pour l’évaluation de la
signification clinique des changements de performances test–retest :
Mais, l’interprétation des changements test–retest est d’autant plus complexe que ces facteurs
interagissent. Par exemple, les scores des tests les moins fidèles ont tendance à présenter une
plus grande régression à la moyenne lors du retest. De même, de faibles scores lors du test sont
3 Dans certains tests comme la WAIS-IV et le WISC-IV, l’intervalle de confiance est calculé à partir de l’erreur type
susceptibles d’une plus grande progression lors du retest compte tenu de l’addition (multiplica-
tion ?) des effets de pratique et de la régression à la moyenne. À l’inverse, les changements sont
moins importants pour les scores élevés, compte tenu de l’effet de « recul » lié à la régression à
la moyenne.
Différentes procédures statistiques ont été proposées pour évaluer la significativité des chan-
gements de performances test–retest, et tenir compte des biais et des erreurs (Basso, Carona,
Lowery, & Axelrod, 2002 ; Brooks, Strauss, Sherman, Iverson, & Slick, 2009 ; Estevis et al.,
2012). Dans cet article, nous nous sommes basés sur la méthode initialement proposée par Jacob-
son et al. (Jacobson, Follette, & Revenstrof, 1984 ; Jacobson & Truax, 1991), qui aboutit au calcul
d’un indice de changement (Reliable Change Index [RCI]). Cette méthode permet d’obtenir des
valeurs seuils (RCI) qui déterminent l’amplitude des changements test–retest nécessaires pour
correspondre à des différences significatives sur le plan clinique (≤ 10 %). Le RCI a l’avantage
d’être calculé à partir de statistiques descriptives simples : moyennes lors du test et du retest,
écart-types lors du test et du retest, et corrélation test–retest (coefficient de fidélité). Pour chaque
individu, on calcule le score de différence entre le test et le retest. Si la différence test–retest est
supérieure au RCI (valeur seuil), on considérera qu’il s’agit d’une différence significative sur le
plan clinique, puisqu’elle s’observe rarement dans la population.
Dans cette formule, (Sem)2 correspond à l’erreur type de mesure élevée au carré (pour une
description, voir le manuel d’interprétation du WISC-IV ; Wechsler, 2005, p. 36). La valeur
SEmDiff est ensuite multipliée par 1,645 ou par 1,96 pour obtenir une valeur seuil à 90 % ou à
95 %. La valeur SEmDiff est de 0 pour un test dont la fidélité et la stabilité est parfaite. Lorsque
la fidélité diminue, SEmDiff augmente. Jacobson et Truax (1991) ont développé cette méthode
pour évaluer les éventuels bénéfices d’une psychothérapie, et faisaient l’hypothèse de l’absence
d’effets de pratique. Ils supposaient également que les erreurs de mesures étaient les mêmes lors
du test et du retest. Or, ces deux hypothèses ne sont pas défendables dans le domaine cognitif.
Pour tenir compte du fait que les erreurs de mesures ne sont pas les mêmes lors du test et du retest,
Chelune, Naugle, Lüders, Sedlak, et Awad (1993) ont modifié la formule de Jacobson et al., et
ont proposé le calcul suivant :
SEmDiff = SEm2t + SEm2r
Dans cette formule, SEm2t correspond à l’erreur type de mesure de la première passation élevée
au carré (test), et SEm2r correspond à l’erreur type de mesure de la deuxième passation élevée au
carré (retest). Ainsi, Chelune et al. tiennent compte du fait que les erreurs type de mesures ne sont
pas les mêmes lors du test et du retest (et donc que la fidélité n’est pas la même). Par exemple,
350 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358
Tableau 1
Effets de pratique et valeurs seuils pour des différences test–retest significatives sur le plan clinique à partir de l’étude à
court terme et pour les 2 méthodes.
ICV IRP IMT IVT QIT
pour le WISC-IV, l’erreur type de mesure du QIT lors du test est de 4,29 points (SEmt ), alors que
l’erreur type de mesure pour le retest est de 4,11 points (SEmr )5 . Cela donne pour SEmDiff une
valeur de 5,94 points (Tableau 1 : SEmDiff – QIT). Cette valeur SEmDiff est ensuite multipliée
par 1,645 pour obtenir une valeur seuil à 90 %, soit 9,77 points (1,645 × 5,94 ; Tableau 1 :
SEmDiff – 90 % – QIT). Une différence entre le score au test et le score au retest supérieure ou
égale à 9,77 points sera considérée comme significative sur le plan clinique. Pour résumer, cette
première étape prend en considération les erreurs de mesures, et surtout la différence des erreurs
de mesure entre le test et le retest.
Dans une deuxième étape, Chelune et al. (1993) intègrent les effets de pratique. Pour cela, les
gains associés aux effets de pratique sont soustraits ou ajoutés à la valeur SEmDiff . Par exemple,
le manuel d’interprétation du WISC-IV rapporte un effet de pratique de 8,3 points pour le QIT
(101,5 lors du test et 109,8 lors du retest). Chelune et al. ajustent la valeur SEmDiff obtenue à l’étape
précédente (SEmDiff – 90 % – QIT = 9,77 points) en contrôlant pour les effets de pratique (8,3).
Cela donne une valeur seuil de 1,47 pour un déclin significatif à 90 % (SEmDiff – Déclin 90 % :
9,77–8,3 = 1,47 points), et une valeur seuil de +18,07 points pour une progression significative
sur le plan clinique (SEmDiff – Progression 90 % : 9,77 + 8,3 = 18,07 points ; Tableau 1). Dit
autrement, une chute de plus de 1 point entre le retest et le test (soit ≥ 2 points) représente
une diminution significative sur le plan clinique, puisqu’il s’agit d’une différence rare dans la
population (< 10 %), lorsque l’on tient compte des effets de pratique. À l’inverse, un gain de plus
de 18 points entre le retest et le test représente une progression significative sur le plan clinique,
compte tenu des effets de pratique. En résumé, cette procédure SEmDiff corrige la distribution des
scores de changements observés en tenant compte dans un premier temps des erreurs de mesure et
dans un deuxième temps, des effets de pratique (SEmDiff – Déclin 90 % et SEmDiff – Progression
90 %).
5 Le manuel d’interprétation ne rapportant pas les coefficients de fidélité spécifiques pour le test et le retest, nous avons
utilisé la corrélation test–retest comme indicateur de la fidélité. La différence dans les valeurs (4,29 vs 4,11) provient
uniquement des écart-types qui diffèrent entre le test et le retest.
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 351
au retest (Chelune, 2003). Pour calculer les valeurs seuils (RCI), on utilise l’erreur type de la
prédiction (standard error of prediction [SEP]), calculée de la manière suivante (Charter, 1996) :
SEP = σr 1 − rtr2
Dans cette formule, r correspond à l’écart-type observé lors du retest, et rtr2 correspond à la
corrélation test–retest élevée au carré. Cette valeur SEP est multipliée par 1,645 pour obtenir un
seuil à 90 % ou par 1,96 pour obtenir une valeur seuil à 95 %. Pour le QIT du WISC-IV, l’écart-type
lors du retest est de 13,7 points (Wechsler, 2005, Tableau 4.3, p. 34) et la corrélation test–retest
est de 0,91. L’application de la formule conduit à une valeur SEP de 5,68 points (Tableau 1 :
SEP – QIT). Si on multiplie cette valeur de 5,68 points par 1,645 (90 %), on obtient une valeur
RCI de 9,34 points (Tableau 1 : SEP – 90 % – QIT). Pour le QIT, une différence égale ou supérieure
à 9,34 points est donc significative sur le plan clinique, puisqu’il s’agit d’une différence rare dans
la population (< 10 %).
Comme dans la méthode précédente, cette valeur (SEP – 90 % = 9,34) est ensuite corrigée
pour les effets de pratique (8,3 points). Un déclin significatif est alors observé si la différence est
supérieure ou égale à 1,04 point (Tableau 1 : SEP – Déclin 90 % – QIT = 9,34 − 8,30), tandis qu’une
augmentation significative est observée lorsque le gain est de plus de 17,64 points (Tableau 1 :
SEP – Progression 90 % – QIT = 9,34 + 8,30). Comme dans la méthode SEmDiff , on intègre ici à
la fois les erreurs de mesure (rtr ) et les effets de pratiques.
Calcul des scores vrais des indices du test et du retest. Avec la méthode SEP, et lorsque l’on
dispose des résultats individuels, l’étape suivante intègre la régression à la moyenne en calculant
pour chaque enfant et pour chaque indice, le score vrai de la manière suivante (Charter, 1996) :
Score vrai = M + r (X − M)
Dans cette formule, M correspond à la moyenne du groupe lors du test (ou du retest), r cor-
respond à la corrélation test–retest et X correspond au score observé au test (ou au retest) pour
un individu donné (pour une description, voir le manuel d’interprétation du WISC-IV ; Wechsler,
2005, p. 32). Prenons l’exemple d’un petit garçon de 8 ans et 5 mois qui a obtenu un QIT de 134 lors
de la première passation (QIT1 ). La moyenne du QIT pour le groupe est de 100,812 et la corré-
lation test–retest est de 0,798. L’application de la formule donne un score vrai de 127,296 pour
ce petit garçon (100,812 + 0,798[134 − 100,812]). En d’autres termes, compte tenu de la régres-
sion à la moyenne, le QIT « vrai » de ce petit garçon serait de 127,296 et non de 134, soit
près de 7 points de moins. Pour chaque enfant et pour chaque indice de la première passa-
tion (test), les scores vrais ont été calculés. Cette procédure permet d’intégrer la régression à la
moyenne.
Prédiction des scores vrais des indices du retest à partir des scores vrais des indices du test.
L’étape suivante consiste à prédire les scores vrais des indices de la deuxième passation (retest),
à partir des scores vrais de la première passation (test). Par exemple, la régression qui permet de
prédire le score vrai du QIT du retest (QIT2 ) à partir du score vrai du QIT du test (QIT1 ) est la
suivante : QIT2 prédit = 0,732 (score vrai QIT1 ) + 29,551. Si nous reprenons l’exemple du petit
garçon, le score vrai du QIT prédit pour la deuxième passation (QIT2 ) est de 122,73, alors que
son score vrai était de 127,296 pour la première passation ([0,732*127,296] + 29,551).
Calcul de la différence entre les scores vrais prédits au retest et les scores observés au retest.
Enfin, la dernière étape consiste à calculer la différence entre les scores vrais au retest, prédits à
partir des scores vrais de la première passation (test), et les scores observés lors du retest (score
352 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358
vrai prédit retest–score retest observé). Il s’agit ici d’évaluer la différence entre les scores prédits
et les scores observés. Si la différence entre le score vrai prédit et le score observé au retest est
supérieure ou égale à 1,04 points (SEP – Déclin 90 % – QIT = 9,34 − 8,30), on considèrera qu’il
s’agit d’un déclin significatif. À l’inverse, si la différence entre le score vrai prédit et le score
observé est supérieure ou égale à 17,64 points (SEP – Progression 90 % – QIT = 9,34 + 8,30), on
considèrera qu’il s’agit d’une progression significative sur le plan clinique.
Dans un premier temps, nous avons calculé les RCI (i.e., valeurs seuils) pour les différents
indices du WISC-IV à partir de l’étude test–retest rapportée dans le manuel d’interprétation du
WISC-IV, 2005, p. 34). Il s’agit d’une étude à court terme (intervalle test–retest = 1 mois). Ces
RCI sont calculées à partir de la méthode SEmDiff (standard error of the difference) et de la
méthode SEP (standard error of prediction). Ces valeurs intègrent les effets d’apprentissage et
les erreurs de mesure, et permettent de déterminer si les différences de performances entre le test
et le retest sont significatives sur le plan clinique ou non.
Avec la méthode SEmDiff , on constate que les déclins doivent varier de 1,47 points (soit 2 points
pour le QIT) à 12,92 points (soit 13 points pour l’IMT) pour être significatifs sur le plan clinique.
Les progressions doivent varier de 14,04 points (soit 15 points pour l’ICV) à 26,12 points (soit
27 points pour l’IVT) pour être significatives. Dit autrement, il faut observer une augmentation
du QIT de plus de 18 points pour traduire une « vraie » progression, mais il suffit d’une chute de
2 points pour traduire un déclin.
Avec la méthode SEP, les déclins doivent varier de 1,04 point (soit 2 points pour le QIT) à
13,08 points (soit 14 points pour l’IMT). Quant aux progressions, les valeurs seuils varient de
13,19 points (soit 14 points pour l’ICV) à 26,22 points (soit 27 points pour l’IVT). On constate
globalement que les valeurs estimées à partir des 2 méthodes sont très proches. Compte tenu
des effets de pratique et des erreurs de mesure, ces résultats indiquent pour le QIT qu’une
chute de 2 points entre le test et le retest correspond à une différence significative sur le plan
clinique !
Comme indiqué précédemment, les valeurs seuils rapportées dans le Tableau 1 sont basées sur
les données du manuel du WISC-IV (Wechsler, 2005). Il s’agit d’une étude test–retest avec un
intervalle test–retest court, puisqu’il est en moyenne de 1 mois. Pourtant, en pratique lorsque les
échelles de Wechsler sont employées pour évaluer les changements du fonctionnement cognitif au
travers du temps, les intervalles test–retest sont supérieurs à une année. Par conséquent, les valeurs
seuils rapportées dans le Tableau 1 sont peu utiles sur le plan clinique puisqu’elles sont basées sur
des effets de pratique incorrects (Chelune et al., 1993 ; Estevis et al., 2012). En effet, les gains liés
aux effets de pratique diminuent lorsque les intervalles de temps augmentent (Estevis et al., 2012 ;
Salthouse, 2014a). En d’autres termes, avec un intervalle test–retest supérieur à une année, les
effets de pratique devraient être inférieurs à ceux obtenus avec un intervalle test–retest de 1 mois
(Watkins & Smith, 2013). Afin d’obtenir des informations plus utiles à « long terme », nous avons
estimé de nouvelles valeurs seuils à partir des données de l’étude de Kieng et al. (2015). Dans
cette recherche, les auteurs ont administré le WISC-IV à 2 reprises à 277 enfants de 7 à 12 ans6 .
6 Cette recherche a été soutenue par le Fond National suisse de la recherche scientifique dans le cadre d’un subside
alloué à T. Lecerf, N. Favez et J. Rossier (requête no 100014-135406 : Long-term stability of the WISC-IV : Standard and
CHC composite scores).
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 353
Tableau 2
Effets de pratique et valeurs seuils pour des différences test–retest significatives sur le plan clinique à partir de l’étude à
long terme de Kieng et al. (2015) et pour les 2 méthodes.
ICV IRP IMT IVT QIT IAG ICC
Tableau 3
Pourcentage d’enfants stables et nombre d’enfants instables sur le plan intra-individuel selon les méthodes (données de
l’étude de Kieng et al., 2015 ; n = 277).
ICV IRP IMT IVT QIT IAG ICC
% enfants stables
± 2 SEma 69,0 69,70 63,90 59,60 58,80 73,60 57,00
Méthode standard 90,97 90,25 89,89 87,73 86,64 87,00 87,00
SEmDiff 92,06 90,61 90,61 90,61 92,06 89,53 91,70
SEP 90,61 89,53 90,25 83,39 87,00 90,61 87,00
Déclin : nombre d’enfants
Méthode standard 14 10 11 5 8 14 4
SEmDiff 11 12 11 16 11 14 12
SEP 24 17 17 39 29 17 31
Progression : nombre d’enfants
Méthode standard 11 17 17 29 29 19 32
SEmDiff 11 14 15 10 11 15 11
SEP 14 12 10 7 7 9 6
a Pourcentages rapportés par Kieng et al. (2015).
stables variait de 58,80 % pour le QIT à 73,60 % pour l’IAG7 (Tableau 3). Ces résultats sont
similaires à ceux de Lander (2010) et indiquent que les pourcentages d’enfants présentant des
performances stables ne sont pas très satisfaisants (stabilité intra-individuelle).
Comme l’ont fait Kieng et al. (2015), nous avons recensé le nombre d’enfants qui présentent
des changements test–retest significatif sur le plan clinique (stabilité intra-individuelle). Toutefois,
dans cette étude le recensement est effectué selon trois méthodes :
• la méthode standard de l’erreur type de la différence sans contrôle des effets de pratique
(Tableau 2 : SEmDiff – 90 %) ;
• selon la méthode de l’erreur type de la différence avec contrôle des effets de pratique
(SEmDiff – Déclin 90 %/SEmDiff – Progression 90 %) ;
• et enfin, selon la méthode SEP avec contrôle des effets de pratique (SEP – Déclin
90 %/SEP – Progression 90 %).
Rappelons que la méthode SEP tient compte de la régression à la moyenne, en prédisant les
scores vrais du retest à partir des scores vrais du test. Le Tableau 3 rapporte les pourcentages
d’enfants stables et le nombre enfants qui ont décliné ou progressé pour les différents indices.
Ayant opté pour le seuil de 10 %, cela signifie que théoriquement 90 % des enfants devraient
présenter des performances stables, soit environ 249 enfants sur un total de 277. Parmi les 10 %
restants, 5 % des enfants devraient théoriquement décliner (soit 14 enfants) et 5 % devraient
progresser (soit 14 enfants).
À partir de la méthode standard sans contrôle des effets de pratique (Tableau 3 : méthode
standard), les pourcentages d’enfants stables varient de 86,64 % (QIT) à 90,97 % (ICV). Si ces
pourcentages sont relativement proches des attentes théoriques (90 %), on observe d’importantes
différences pour les pourcentages d’enfants qui déclinent et/ou qui progressent. Pour le QIT par
7 Comme Lander (2010), et Watkins et Smith (2013), Kieng et al. ont utilisé comme critère de stabilité un intervalle
de ± 2 erreurs type de mesure (± 2 SEm). On peut consulter Jacobson et Truax (1991) pour une critique de cette procédure.
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 355
exemple, 8 enfants auraient décliné (soit 2,89 % au lieu de 5 %), tandis que 29 enfants auraient
progressé (soit 10,47 %). Ne pas tenir compte des effets de pratique conduit pour le QIT à
une sous-estimation du nombre d’enfants déclinant et à une surestimation du nombre d’enfants
progressant.
À partir de la méthode standard de l’erreur type de la différence avec contrôle des effets de
pratique et des erreurs de mesure (SEmDiff 90 %), on constate pour l’ICV que 11 enfants présentent
un déclin supérieur ou égal à 17 points (sur un total de 277 enfants), tandis que 11 enfants
présentent un gain supérieur ou égal à 16 points (Tableau 3 : SEmDiff – Progression 90 % – ICV).
Cela signifie que pour l’ICV 92,06 % des enfants présentent des performances test–retest stables
(SEmDiff – ICV). Pour l’IRP, 12 enfants présentent un déclin supérieur ou égal à 16 points, et
14 enfants présentent un gain supérieur ou égal à 19 points ; cela signifie que 90,61 % des enfants
présentent des performances stables pour l’IRP. Pour l’IMT, 90,61 % des enfants présentent des
performances stables (11 enfants présentent un déclin et 15 enfants présentent un gain significatif).
Pour l’IVT, 16 enfants présentent un déclin supérieur ou égal à 15 points et 10 enfants présentent
un gain supérieur ou égal à 26 points ; 90,61 % des enfants présentent donc des IVT stables.
En ce qui concerne le QIT, 92,06 % des enfants présentent des performances stables (11 enfants
avec un déclin et 11 enfants avec une progression). Nous avons également évalué la stabilité des
changements test–retest pour l’IAG et l’ICC. Pour l’IAG, on constate que 89,53 % des enfants
présentent des performances stables (14 enfants avec un déclin et 15 enfants avec un gain), tandis
que pour l’ICC 91,70 % des enfants présentent des performances stables (12 enfants avec un
déclin et 11 enfants avec un gain). Globalement, l’utilisation de ces valeurs seuils conduit à des
pourcentages très proches des attentes théoriques (i.e., 90 %). Plus important, les pourcentages
d’enfants qui déclinent et qui progressent sont plus proches des attentes théoriques (respectivement
14 et 14 enfants) qu’avec la méthode standard sans contrôle des effets de pratique (Tableau 3 :
méthode Standard). Les pourcentages obtenus à partir de la méthode SEmDiff avec contrôle des
effets d’apprentissage sont donc plus adéquats que ceux obtenus avec la méthode standard sans
contrôle des effets de pratique. Il est donc essentiel de tenir compte des effets de pratique.
Enfin, avec la méthode SEP, les pourcentages d’enfants stables varient de 83,39 % (IVT) à
90,61 % (IAG et ICV). Globalement, les pourcentages d’enfants stables appréciés à partir de la
méthode SEP sont légèrement moins bons que ceux obtenus à partir de la méthode SEmDiff , et les
pourcentages d’enfants déclinant et progressant sont un peu plus éloignés des attentes théoriques
(5 % soit 14 enfants ; Tableau 3). Pour le QIT par exemple, 29 enfants auraient décliné (10,47 %),
tandis que 7 enfants seulement auraient progressé (2,53 %). On surestime ici le nombre d’enfants
qui auraient décliné, alors que l’on sous-estime le nombre d’enfants qui auraient progressé. Les
pourcentages observés à partir de la méthode SEP sont donc globalement un peu moins proches
des attentes théoriques que ceux obtenus à partir de la méthode SEmDiff (i.e., 90 % et 5 % et 5 %).
3. Discussion
L’un des objectifs assignés à l’administration des échelles d’intelligence (WAIS-IV, WISC-
IV, etc.) consiste en l’évaluation des changements du fonctionnement cognitif au fil du temps.
Il s’agit pour le praticien d’estimer si l’individu a progressé ou s’il a régressé. Pour cela, on
peut notamment employer la procédure test–retest. La différence entre les performances lors du
test et du retest est alors considérée comme un indicateur du changement. Pourtant, déterminer
s’il y a un réel changement dans le niveau des performances entre le test et le retest, et donc
dans le fonctionnement de l’individu, ne peut pas se faire « simplement » à partir du score de
différence test–retest. On peut citer dans ce sens, Lineweaver et Chelune (2003, p. 332) : « . . .one
356 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358
cannot interpret scores from a repeat evaluation in the same manner and with the same meaning
as those from an initial evaluation. The systematic bias inherent in retest scores, as well as
measurement error, can dramatically alter the magnitude of the scores themselves, rendering the
at best questionable and at worst misleading ». C’est la raison pour laquelle il est indispensable
de disposer de valeurs seuils intégrant les erreurs de mesure et les effets de pratique. Les valeurs
seuils rapportées dans cet article devraient donc aider les praticiens à déterminer si les scores de
changement sont cliniquement significatifs ou non (Estevis et al., 2012).
Les valeurs seuils estimées à partir des données de l’étude de Kieng et al. (2015), indiquent que
la méthode SEmDiff est celle qui conduit aux pourcentages les plus adéquats (Tableaux 2 et 3).
Pour le QIT, on peut faire l’hypothèse d’un déclin significatif sur le plan clinique si la différence
est égale ou supérieure à 12 points (Tableau 2). À l’inverse, on peut faire l’hypothèse d’une
progression si la différence est supérieure ou égale à 17 points (Tableau 2). On constate alors
que 92,06 % des enfants présentent des performances test–retest stables (Tableau 3), tandis que
3,98 % des enfants progressent (11 enfants) et 3,98 % déclinent (11 enfants).
Rappelons que les 3 études, qui ont évalué la stabilité à long terme du WISC-IV, ont abouti à
la conclusion que la stabilité du QIT n’était pas satisfaisante (Lander, 2010 ; Watkins & Smith,
2013 ; Kieng et al., 2015). Par exemple, Kieng et al. ont conclu que 58,80 % des enfants seulement
présentaient des performances de QIT stables entre le test et le retest (Tableau 3 : ± 2 SEm).
La divergence entre les pourcentages rapportés dans la présente étude et ceux indiqués dans la
recherche de Kieng et al. (ou de Lander, et de Watkins et Smith) provient tout d’abord de la méthode
utilisée pour définir des performances stables. Kieng et al. ont défini, comme Lander (2010), ou
Canivez et Watkins (2001), un intervalle de ±2 erreurs types de mesures (±2 SEm). Dans notre
étude, les valeurs seuils sont basées sur la méthode SEmDiff qui intègre les effets de pratique
et les erreurs de mesures. En outre, Lander (2010), Canivez et Watkins (2001), ou Kieng et al.
(2015) ont fixé des valeurs seuils a priori (± 2 SEm) et ont ensuite apprécié le nombre d’enfants
qui présentaient des performances stables. Or, si l’on définit un changement significatif sur le
plan clinique, soit un changement qui s’observe pour moins de 10 % de la population, les valeurs
seuils doivent être estimées empiriquement à partir des données observées et ne peuvent donc
pas être définies a priori. Pour résumer, l’interprétation des changements test–retest nécessite des
procédures psychométriques plus complexes que de simples différences ou un simple intervalle
de ± 2 SEm ; c’est la raison pour laquelle nous avons développé ces valeurs seuils.
4. Conclusion
Compte tenu des biais qui surviennent dans les tests psychologiques et notamment dans les
échelles d’intelligence, la simple différence entre les scores observés lors du test et du retest ne
peut pas renseigner sur un éventuel changement du fonctionnement cognitif. La présente étude
montre qu’il est indispensable de corriger les scores de différence test–retest pour les effets de
pratique, l’erreur de mesure et la régression à la moyenne. La comparaison entre les 2 méthodes
utilisées pour calculer les valeurs seuils montre que la méthode SEmDiff est plus adéquate. Cette
étude présente néanmoins quelques limitations : l’échantillon ne comporte que 277 enfants, qui
sont originaires de Suisse-Romande. En outre, il s’agit d’enfants non consultants. Il faudrait
donc conduire des études test–retest sur d’autres échantillons culturels/cliniques. Cela permettrait
d’évaluer la généralisabilité des valeurs seuils proposées ici. Une autre limitation est liée au fait
que ces méthodes postulent que les effets de pratique sont les mêmes pour tous les enfants ; or,
quelques études ont montré que cela n’était pas le cas. Les enfants avec de meilleures compétences
intellectuelles ont tendance à présenter des effets de pratique plus importants lors du retest. Malgré
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 357
ces limites, les valeurs seuils devraient aider les praticiens à identifier si les changements observés
sont significatifs sur le plan clinique ou non (i.e., < 10 % de la population).
Références
AERA, APA, & NCME. (2014). The Standards for educational and psychological testing. Washington: American
Educational Research Association.
Basso, M. R., Carona, F. D., Lowery, N., & Axelrod, B. N. (2002). Practice effects on the WAIS-III across 3- and 6-month
intervals. The Clinical Neuropsychologist, 16, 57–63. http://dx.doi.org/10.1076/clin.16.1.57.8329
Brooks, B. L., Sherman, E. M. S., Iverson, G. L., Slick, D. J., & Strauss, E. (2011). Psychometric foundations for the
interpretation of neuropsycholigical test results. In M. R. Schoenberg, & J. G. Scott (Eds.), The little black book of
neuropsychology: A syndrom-based approach (pp. 893–922). Springer Science + Business Media.
Brooks, B. L., Strauss, E., Sherman, E. M. S., Iverson, G. L., & Slick, D. J. (2009). Developments in neuropsycho-
logical assessment: Refining psychometric and clinical interpretive methods. Canadian Psychology, 50, 196–209.
http://dx.doi.org/10.1037/a0016066
Canivez, G. L., & Watkins, M. W. (2001). Long-term stability of the Wechsler Intelligence Scale for Children – Third
Edition among students with disabilities. School Psychology Review, 30, 438–453.
Charter, R. A. (1996). Revisiting the standard errors of measurement, etimate, and prediction and their application to test
scores. Perceptual and Motor Skills, 82, 1139–1144.
Chelune, G. J. (2003). Assessing reliable neuropsychological change. In R. D. Franklin (Ed.), Predicion in forensic and
neuropsychology: Sound statistical practices (pp. 65–88). Mahwah, NJ: Erlbaum.
Chelune, G. J., Naugle, R. I., Lüders, H., Sedlak, J., & Awad, I. A. (1993). Individual change after epilepsy surgery:
Practice effects and base-rate information. Neuropsychology, 7, 41–52 [doi:0894-4105/93/S3.00].
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003.
Cronbach, L. J., & Furby, L. (1970). How we should measure “change” – or should we? Psychological Bulletin, 74, 68–80.
Estevis, E., Basso, M. R., & Combs, D. (2012). Effects of practice on the Wechsler Adult Intelligence Scale-IV across 3- and
6-month intervals. The Clinical Neuropsychologist, 26, 239–254. http://dx.doi.org/10.1080/13854046.2012.659219
Jacobson, N. S., Follette, W. C., & Revenstrof, D. (1984). Psychotherapy outcome research: Methods for reporting
variability and evaluating clinical significance. Behavior Therapy, 15, 336–352.
Jacobson, N. S., & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in
psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12–19.
Kaufman, A. S., & Kaufman, N. L. (2008). KABC-II batterie pour l’examen psychologique de l’enfant (2e éd.). Paris:
ECPA.
Kieng, S., Rossier, J., Favez, N., Geistlich, S., & Lecerf, T. (2015). Stabilité à long terme des scores du WISC-IV : Forces
et faiblesses personnelles. Pratiques psychologiques, 21, 137–154. http://dx.doi.org/10.1016/j.prps.2015.03.002
Lander, J. (2010). Long-term stability of scores on the Wechsler Intelligence Scale for Children — Fourth Edition in
children with learning disabilities. Dissertation Abstracts International: Section A. Humanities and Social Sciences.
Lineweaver, T. T., & Chelune, G. J. (2003). Use of the WAIS-III and WMS-III in the context of serial assessment.
Interpreting reliable and meaningful change. In D. S. Tulsky, D. H. Saklofske, G. J. Chelune, R. J. Ivnik, A. Prifitera,
& R. K. Heaton (Eds.), Clinical interpretation of the WAIS-III and WMS-III (pp. 303–337). New York: Academic
Press.
Reuchlin, M. (1992). Introduction à la recherche en psychologie. Nathan.
Salthouse, T. (2014a). Frequent assessments may obscure cognitive decline. Psychological Assessment, 26, 1063–1069.
http://dx.doi.org/10.1037/pas0000007
Salthouse, T. (2014b). Why are there different age relations in cross-sectional and longitudinal compari-
sons of cognitive functioning? Current Directions in Psychological Science, 23, 252–256. http://dx.doi.
org/10.1177/0963721414535212
Sattler, J. M. (2008). Assessment of children. Cognitive foundations (5th ed.). San Diego: Jerome M. Sattler, Publisher,
Inc.
358 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358
Sherman, E. M. S., Brooks, B. L., Iverson, G. L., Slick, D. J., & Strauss, E. (2011). Reliability and validity in neu-
ropsychology. In M. R. Schoenberg, & J. G. Scott (Eds.), The little black book of neuropsychology. New York:
Springer.
Watkins, M. J., & Smith, L. G. (2013). Long-term stability of the Wechsler Intelligence Scale for children — Fourth
Edition. Psychological Assessment, 25, 477–483. http://dx.doi.org/10.1037/a0031653
Watson, D. G. (2015). Intelligence testing. In E. A. Polloway (Ed.), The death penalty and intellectual disability (pp.
113–140). Washington, DC: American Association on Intellectual and Developmental Disabilities.
Wechsler, D. (2005). Manuel de l’échelle d’intelligence de Wechsler pour enfants (4e éd.). Paris: Éditions du centre de
psychologie appliquée.
Wechsler, D. (2011). WAIS-IV nouvelle version de l’échelle d’intelligence de Wechlser pour adultes (4e éd.). Paris: Les
éditions du centre de psychologie appliquée.