0% ont trouvé ce document utile (0 vote)

473 vues15 pages

Effet Test Retest

Ce document présente des valeurs seuils pour déterminer si les différences de scores entre un test et un retest du WISC-IV représentent des changements cliniquement significatifs, en tenant compte des effets de pratique, des erreurs de mesure et de la régression à la moyenne. Pour le QIT, une diminution d'au moins 11 points suggère un déclin, tandis qu'une augmentation d'au moins 17 points traduit une progression.

Transféré par

marion.leveque

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

473 vues15 pages

Effet Test Retest

Transféré par

marion.leveque

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/308366195

WISC-IV : valeurs seuils pour des changements signiﬁcatifs des scores de

différence test–retest

Article in Pratiques Psychologiques · September 2016

DOI: 10.1016/j.prps.2016.07.003

CITATIONS READS

0 943

3 authors:

Thierry Lecerf Sotta Kieng

University of Geneva University of Geneva
61 PUBLICATIONS 732 CITATIONS 8 PUBLICATIONS 22 CITATIONS

SEE PROFILE SEE PROFILE

Sophie Geistlich
University of Geneva
4 PUBLICATIONS 9 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

WAIS-III factorial structure View project

visuospatial working memory View project

All content following this page was uploaded by Thierry Lecerf on 18 September 2018.

The user has requested enhancement of the downloaded file.

Disponible en ligne sur www.sciencedirect.com

ScienceDirect
Pratiques psychologiques 23 (2017) 345–358

Examen psychologique
WISC-IV : valeurs seuils pour des changements
significatifs des scores de différence test–retest
WISC-IV: Cutoff values for meaningful test–retest difference scores
T. Lecerf a,∗,b , S. Kieng a,b , S. Geistlich a,b
a Faculté de psychologie et des sciences de l’éducation, université de Genève,
40, boulevard du Pont d’Arve, 1205 Genève, Suisse
b Formation universitaire à distance, Sierre, Suisse

Reçu le 25 avril 2016 ; accepté le 22 juillet 2016

Résumé
L’un des objectifs assignés à l’administration des échelles d’intelligence (WAIS, WISC) consiste en
l’évaluation des changements du fonctionnement cognitif au fil du temps. Pour cela, on administre la même
échelle à 2 reprises après un intervalle de temps variant de quelques jours à plusieurs années. La différence
entre les scores observés lors du test et du retest renseigne sur le changement. Afin de déterminer si le score
de différence test–retest représente un changement cliniquement significatif, des valeurs seuils contrôlant
pour l’effet de pratique, l’erreur de mesure et la régression à la moyenne sont développées pour le WISC-IV.
Pour le QIT, une diminution d’au moins 11 points suggère un déclin, tandis qu’une augmentation d’au moins
17 points traduit une progression.
© 2016 Société Française de Psychologie. Publié par Elsevier Masson SAS. Tous droits réservés.

Mots clés : WISC-IV ; Test–Retest ; Changements individuels ; Seuils ; Stabilité ; Interprétation

Abstract
A major use of intelligence scales (WAIS, WISC) is to measure changes in functioning over time. To
deal with this goal, the test–retest procedure can be used: the same test is administered twice on two
separate occasions (from few weeks to several years). The difference between the test score and the retest
score reflects the magnitude of change. To determine whether the test–retest difference score represents
a clinically meaningful change, cutoff values with correction for practice effect, measurement error and

∗ Auteur correspondant.
Adresse e-mail : [email protected] (T. Lecerf).

http://dx.doi.org/10.1016/j.prps.2016.07.003
1269-1763/© 2016 Société Française de Psychologie. Publié par Elsevier Masson SAS. Tous droits réservés.
346 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

regression toward the mean are provided for the WISC-IV. For the FSIQ, a decrease of at least 11 points
suggests a decline, while an increase of at least 17 points reflects an improvement.
© 2016 Société Française de Psychologie. Published by Elsevier Masson SAS. All rights reserved.

Keywords: WISC-IV; Test–Retest; Individual changes; Cutoff; Stability; Interpretation

1. Introduction

Le premier objectif assigné à l’administration des échelles d’intelligence de Wechsler (WAIS-

IV, WISC-IV, ou WPPSI-IV) est de dresser un état des lieux du fonctionnement cognitif d’un
individu à partir des performances observées. L’évaluation de l’efficience cognitive représente
alors la première étape du bilan psychologique. Un deuxième objectif peut être assigné à
l’administration des échelles d’intelligence et consiste en l’évaluation des changements du fonc-
tionnement cognitif au fil du temps. Pour cela, le praticien administre le même test à plusieurs
reprises (au moins 2 passations : procédure test–retest). L’objectif est alors de déterminer si
l’individu a progressé ou s’il a régressé, à la suite d’une prise en charge ou d’un événement
par exemple (accident, remédiation, etc.). Or, déterminer s’il y a un réel changement dans le
niveau des performances entre le test et le retest, et donc dans le fonctionnement cognitif,
impliquent de tenir compte de différents phénomènes psychométriques, comme les effets de
pratique (practice effects), les erreurs de mesure (i.e., la fidélité des scores), et la régression à la
moyenne.
Dans cet article, nous proposons, pour le WISC-IV, les valeurs seuils permettant d’évaluer
pour les différents indices, s’il s’agit de réelles différences de performances individuelles ou
s’il s’agit de différences liées au hasard. Ces valeurs seuils sont estimées, d’une part, à partir
de l’étude rapportée dans le manuel technique du WISC-IV (Wechsler, 2005) et, d’autre part, à
partir de l’étude de Kieng, Rossier, Favez, Geistlich, et Lecerf (2015). L’intérêt des valeurs seuils
rapportées ici est qu’elles tiennent compte des effets de pratique, des erreurs de mesure et de
la régression à la moyenne. Ces données devraient donc permettre aux praticiens d’évaluer plus
précisément la signification clinique des changements observés.

1.1. L’estimation des changements individuels dans le fonctionnement cognitif

La question de l’estimation des changements du fonctionnement cognitif au cours du temps

occupe les praticiens et les psychométriciens depuis de très nombreuses années, puisqu’en 1970
Cronbach et Furby (1970) écrivaient déjà : « A persistent puzzle in psychometrics has been the
measurement of change ». À l’heure actuelle, plusieurs méthodes – paradigmes – sont disponibles
pour évaluer le changement du fonctionnement cognitif d’un individu au cours du temps.
La procédure test–retest est probablement la plus connue et la plus souvent employée. Il s’agit
d’administrer le même test à 2 reprises après un intervalle de temps variant de quelques jours (court
terme) à plusieurs années (long terme) entre les 2 passations (i.e., test et retest). La différence entre
les performances lors du test et du retest est alors considérée comme un indicateur de changement
du niveau cognitif de l’individu. Toutefois, l’utilisation des scores de différences entre le retest et
le test suppose une fidélité/précision parfaite des scores des tests psychologiques, ce qui n’est pas
le cas. Aucun score ne présente une fidélité/précision parfaite (AERA, APA, & NCME, 2014). En
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 347

conséquence, les tests comportent des biais qui rendent l’interprétation des scores de différences
test–retest délicate.
À ce stade, il est important de rappeler que l’évaluation des changements nécessite de distinguer
la significativité statistique vs la pertinence clinique d’un score de différence test–retest (Brooks,
Sherman, Iverson, Slick, & Strauss, 2011 ; Jacobson & Truax, 1991). Pour déterminer si une
différence est significative sur le plan statistique, on utilise régulièrement en psychologie, et
de façon tout à fait arbitraire, le seuil de 5 % (p < .05 ; pour une discussion Cohen, 1994 ;
Reuchlin, 1992). Or, les études conduites sur les tests d’intelligence montrent que des différences
significatives sur le plan statistique ne signifient pas qu’elles le sont sur le plan « clinique ».
En effet, on considère que les différences présentent un intérêt clinique si elles sont rares, peu
fréquentes dans la population. Pour certains auteurs, cette rareté correspond à une différence
observée pour moins de 5 % de la population (≤ 5 %, Chelune, 2003), pour d’autres auteurs à
moins de 10 % de la population (≤ 10 %, Kaufman & Kaufman, 2008), ou encore pour d’autres
auteurs à moins de 15 % de la population (≤ 15 %, Sattler, 2008). Dans cet article, nous utiliserons
le seuil de 10 %1 .

1.2. Biais et erreurs dans la procédure test–retest

Si les psychologues disposaient d’instruments pour lesquels la fidélité/précision était parfaite,

la performance observée lors du test devrait être exactement la même que celle obtenue lors du
retest2 . Mais cela n’est pas le cas. Les tests comportent des biais et des erreurs.
Les biais représentent des changements systématiques dans les performances. Dans le cas de
la procédure test–retest, le biais le plus commun est lié à « l’effet de pratique » (practice effects),
qui reflète les changements associés à l’administration répétée de tests. De nombreuses études ont
montré que les performances lors d’une deuxième passation sont supérieures à celles de la première
passation (Estevis, Basso, & Combs, 2012 ; Salthouse, 2014b ; Sherman, Brooks, Iverson, Slick,
& Strauss, 2011). C’est la raison pour laquelle il a été recommandé de ne pas ré-administrer le
WISC-IV ou la WAIS-IV durant la même année, car cela conduirait à une surestimation du niveau
cognitif de l’individu (Watson, 2015). En ce qui concerne la WAIS-IV et le WISC-IV, les manuels
d’interprétation rapportent les données obtenues à partir d’une étude test–retest à court terme.
Pour la WAIS-IV (Wechsler, 2011, Tableau 4.4, p. 38), 78 adultes ont été testés à 2 reprises après
un intervalle de temps variant de 7 à 174 jours (moyenne = 30 jours). Pour le WISC-IV (Wechsler,
2005, Tableau 4.3, p. 34), 93 enfants ont passé le test à 2 reprises, avec un intervalle de temps
variant de 16 à 50 jours (moyenne = 27 jours). Les coefficients de fidélité sont satisfaisants pour
les indices des 2 échelles (i.e., stabilité différentielle). En effet, pour la WAIS-IV, les coefficients
corrigés varient de .83 (IRP) à .92 (QIT), tandis qu’ils varient de .78 (IMT) à .91 (QIT) pour le
WISC-IV. Toutefois, pour les 2 batteries, des effets de pratique sont observés. Pour la WAIS-IV,
les gains varient de 1,2 points (IMT) à 4,8 points (IVT), tandis que pour le WISC-IV les gains
varient de 2,1 points (ICV) à 12 points (IVT). En moyenne, le gain est de 3,16 points pour la
WAIS-IV et de 6,84 points pour le WISC-IV. Les gains sont plus importants chez les enfants et
les adolescents que chez les adultes. En conséquence, l’évaluation de la signification clinique des
changements de performances test–retest doit tenir compte des effets de pratique.

1 On définit ainsi un intervalle de confiance incluant 90 % de la population (Z

.95 = 1,645) ; 5 % de la population se situe
de chaque côté de cet intervalle.
2 Sous la condition qu’aucun événement « perturbateur » ne soit intervenu.
348 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

À ces biais systématiques s’ajoutent les erreurs de mesure, qui sont à l’origine des imprécisions
dans les scores des tests. Rappelons que selon la théorie classique des tests, le score observé à
un test (X) comprend le score vrai et l’erreur de mesure. Le score vrai (T) traduit le niveau de
l’individu sur la propriété mentale évaluée, tandis que l’erreur de mesure (E) traduit des fluctua-
tions aléatoires. C’est ce que résume l’équation : X = T + E. Par complémentarité, l’estimation de
l’erreur de mesure renseigne sur la fidélité des scores du test. Au niveau individuel, l’utilisation
des données de fidélité (et donc de l’erreur de mesure) se traduit par la détermination d’un inter-
valle de confiance, calculé à partir de l’erreur type de mesure (standard error of measurement
[SEm])3 .

SEm = σ (1 − rxx )
Dans cette formule, σ correspond à l’écart-type et rxx correspond au coefficient de fidélité
(pour une description, voir le manuel d’interprétation du WISC-IV ; Wechsler, 2005, p. 31). Pour
le WISC-IV (Tableau 4.2, p. 32), les erreurs types de mesure varient de 3,63 (QIT) à 6,01 (IVT).
On peut en conclure que la fidélité du QIT est plus élevée que celle de l’IVT. Concrètement, cela
signifie que si un enfant obtient un QIT de 110, dans 90 évaluations sur 100, le score vrai du QIT
devrait se situer à l’intérieur de l’intervalle de confiance 3,63 × 1,6454 , soit ± 5,97 points autour
du score de 110 [104–116]. Compte tenu des erreurs de mesure qui surviennent dans les scores
des tests, elles doivent être prises en compte dans l’évaluation de la signification clinique des
changements de performances entre le test et le retest.
Une troisième source d’erreur influençant l’interprétation des scores de différences test–retest
est la régression à la moyenne. Ce phénomène, observé initialement par Galton, traduit le fait
que les scores ont tendance à régresser vers la moyenne plutôt qu’à s’en éloigner. En d’autres
termes, la probabilité est plus grande que le score vrai d’un individu se rapproche de la moyenne
plutôt qu’il ne s’en éloigne. Dans une procédure test–retest, cela a une conséquence importante :
relativement au score de la 1re passation (test), le score de la 2e passation (retest) a une plus grande
probabilité de se rapprocher de la moyenne que de s’en éloigner. Le score au retest devrait donc
être plus proche de la moyenne que le score au test. On peut illustrer ce phénomène en prenant
l’exemple d’une petite fille qui a obtenu à l’âge de 8 ans et 8 mois un QIT de 119, et un QIT de
109 à l’âge de 11 ans et 2 mois. En conséquence, si l’évaluation de la signification clinique des
changements de performances test–retest doit tenir compte des effets de pratique et des erreurs
de mesure, elle doit également intégrer la régression à la moyenne.
Nous venons de décrire trois facteurs à prendre en considération pour l’évaluation de la
signification clinique des changements de performances test–retest :

• les gains liés à l’effet de pratique ;

• les erreurs de mesures et ;
• la régression à la moyenne.

Mais, l’interprétation des changements test–retest est d’autant plus complexe que ces facteurs
interagissent. Par exemple, les scores des tests les moins fidèles ont tendance à présenter une
plus grande régression à la moyenne lors du retest. De même, de faibles scores lors du test sont

3 Dans certains tests comme la WAIS-IV et le WISC-IV, l’intervalle de confiance est calculé à partir de l’erreur type

d’estimation (standard error of estimate) qui tient compte de la régression à la moyenne.

4 Note Z correspondant à 90 %. Pour un intervalle à 95 %, on multipliera par 1,96.
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 349

susceptibles d’une plus grande progression lors du retest compte tenu de l’addition (multiplica-
tion ?) des effets de pratique et de la régression à la moyenne. À l’inverse, les changements sont
moins importants pour les scores élevés, compte tenu de l’effet de « recul » lié à la régression à
la moyenne.

1.3. Pour un indice de changement utile sur le plan clinique

Différentes procédures statistiques ont été proposées pour évaluer la significativité des chan-
gements de performances test–retest, et tenir compte des biais et des erreurs (Basso, Carona,
Lowery, & Axelrod, 2002 ; Brooks, Strauss, Sherman, Iverson, & Slick, 2009 ; Estevis et al.,
2012). Dans cet article, nous nous sommes basés sur la méthode initialement proposée par Jacob-
son et al. (Jacobson, Follette, & Revenstrof, 1984 ; Jacobson & Truax, 1991), qui aboutit au calcul
d’un indice de changement (Reliable Change Index [RCI]). Cette méthode permet d’obtenir des
valeurs seuils (RCI) qui déterminent l’amplitude des changements test–retest nécessaires pour
correspondre à des différences significatives sur le plan clinique (≤ 10 %). Le RCI a l’avantage
d’être calculé à partir de statistiques descriptives simples : moyennes lors du test et du retest,
écart-types lors du test et du retest, et corrélation test–retest (coefficient de fidélité). Pour chaque
individu, on calcule le score de différence entre le test et le retest. Si la différence test–retest est
supérieure au RCI (valeur seuil), on considérera qu’il s’agit d’une différence significative sur le
plan clinique, puisqu’elle s’observe rarement dans la population.

1.3.1. Calcul du RCI basé sur l’erreur type de la différence

La première méthode de calcul du RCI se base sur l’erreur type de mesure de la différence
(standard error of the difference, SEmDiff ) et décrit la distribution des scores de différences
test–retest attendue en l’absence de changement (Jacobson et al., 1984). SEmDiff est calculée de
la manière suivante :

SEmDiff = 2(Sem)2

Dans cette formule, (Sem)2 correspond à l’erreur type de mesure élevée au carré (pour une
description, voir le manuel d’interprétation du WISC-IV ; Wechsler, 2005, p. 36). La valeur
SEmDiff est ensuite multipliée par 1,645 ou par 1,96 pour obtenir une valeur seuil à 90 % ou à
95 %. La valeur SEmDiff est de 0 pour un test dont la fidélité et la stabilité est parfaite. Lorsque
la fidélité diminue, SEmDiff augmente. Jacobson et Truax (1991) ont développé cette méthode
pour évaluer les éventuels bénéfices d’une psychothérapie, et faisaient l’hypothèse de l’absence
d’effets de pratique. Ils supposaient également que les erreurs de mesures étaient les mêmes lors
du test et du retest. Or, ces deux hypothèses ne sont pas défendables dans le domaine cognitif.
Pour tenir compte du fait que les erreurs de mesures ne sont pas les mêmes lors du test et du retest,
Chelune, Naugle, Lüders, Sedlak, et Awad (1993) ont modifié la formule de Jacobson et al., et
ont proposé le calcul suivant :

SEmDiff = SEm2t + SEm2r

Dans cette formule, SEm2t correspond à l’erreur type de mesure de la première passation élevée
au carré (test), et SEm2r correspond à l’erreur type de mesure de la deuxième passation élevée au
carré (retest). Ainsi, Chelune et al. tiennent compte du fait que les erreurs type de mesures ne sont
pas les mêmes lors du test et du retest (et donc que la fidélité n’est pas la même). Par exemple,
350 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

Tableau 1
Effets de pratique et valeurs seuils pour des différences test–retest significatives sur le plan clinique à partir de l’étude à
court terme et pour les 2 méthodes.
ICV IRP IMT IVT QIT

Effet de pratique 2,1 8,2 3,6 12,0 8,3

SEmDiff 7,26 8,14 10,04 8,58 5,94
SEmDiff – 90 % 11,94 13,39 16,52 14,12 9,77
SEmDiff – Déclin 90 % 9,84 5,19 12,92 2,12 1,47
SEmDiff – Progression 90 % 14,04 21,59 20,12 26,12 18,07
SEP 6,74 7,53 10,14 8,65 5,68
SEP – 90 % 11,09 12,39 16,68 14,22 9,34
SEP – Déclin 90 % 8,99 4,19 13,08 2,22 1,04
SEP – Progression 90 % 13,19 20,59 20,28 26,22 17,64

pour le WISC-IV, l’erreur type de mesure du QIT lors du test est de 4,29 points (SEmt ), alors que
l’erreur type de mesure pour le retest est de 4,11 points (SEmr )5 . Cela donne pour SEmDiff une
valeur de 5,94 points (Tableau 1 : SEmDiff – QIT). Cette valeur SEmDiff est ensuite multipliée
par 1,645 pour obtenir une valeur seuil à 90 %, soit 9,77 points (1,645 × 5,94 ; Tableau 1 :
SEmDiff – 90 % – QIT). Une différence entre le score au test et le score au retest supérieure ou
égale à 9,77 points sera considérée comme significative sur le plan clinique. Pour résumer, cette
première étape prend en considération les erreurs de mesures, et surtout la différence des erreurs
de mesure entre le test et le retest.
Dans une deuxième étape, Chelune et al. (1993) intègrent les effets de pratique. Pour cela, les
gains associés aux effets de pratique sont soustraits ou ajoutés à la valeur SEmDiff . Par exemple,
le manuel d’interprétation du WISC-IV rapporte un effet de pratique de 8,3 points pour le QIT
(101,5 lors du test et 109,8 lors du retest). Chelune et al. ajustent la valeur SEmDiff obtenue à l’étape
précédente (SEmDiff – 90 % – QIT = 9,77 points) en contrôlant pour les effets de pratique (8,3).
Cela donne une valeur seuil de 1,47 pour un déclin significatif à 90 % (SEmDiff – Déclin 90 % :
9,77–8,3 = 1,47 points), et une valeur seuil de +18,07 points pour une progression significative
sur le plan clinique (SEmDiff – Progression 90 % : 9,77 + 8,3 = 18,07 points ; Tableau 1). Dit
autrement, une chute de plus de 1 point entre le retest et le test (soit ≥ 2 points) représente
une diminution significative sur le plan clinique, puisqu’il s’agit d’une différence rare dans la
population (< 10 %), lorsque l’on tient compte des effets de pratique. À l’inverse, un gain de plus
de 18 points entre le retest et le test représente une progression significative sur le plan clinique,
compte tenu des effets de pratique. En résumé, cette procédure SEmDiff corrige la distribution des
scores de changements observés en tenant compte dans un premier temps des erreurs de mesure et
dans un deuxième temps, des effets de pratique (SEmDiff – Déclin 90 % et SEmDiff – Progression
90 %).

1.3.2. Calcul du RCI basé sur l’erreur type de la prédiction

Une deuxième méthode, basée sur la régression linéaire, a été proposée pour calculer les RCI.
Cette méthode repose sur l’hypothèse selon laquelle les scores au test corrèlent avec les scores

5 Le manuel d’interprétation ne rapportant pas les coefficients de fidélité spécifiques pour le test et le retest, nous avons

utilisé la corrélation test–retest comme indicateur de la fidélité. La différence dans les valeurs (4,29 vs 4,11) provient
uniquement des écart-types qui diffèrent entre le test et le retest.
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 351

au retest (Chelune, 2003). Pour calculer les valeurs seuils (RCI), on utilise l’erreur type de la
prédiction (standard error of prediction [SEP]), calculée de la manière suivante (Charter, 1996) :

SEP = σr 1 − rtr2

Dans cette formule, ␴r correspond à l’écart-type observé lors du retest, et rtr2 correspond à la
corrélation test–retest élevée au carré. Cette valeur SEP est multipliée par 1,645 pour obtenir un
seuil à 90 % ou par 1,96 pour obtenir une valeur seuil à 95 %. Pour le QIT du WISC-IV, l’écart-type
lors du retest est de 13,7 points (Wechsler, 2005, Tableau 4.3, p. 34) et la corrélation test–retest
est de 0,91. L’application de la formule conduit à une valeur SEP de 5,68 points (Tableau 1 :
SEP – QIT). Si on multiplie cette valeur de 5,68 points par 1,645 (90 %), on obtient une valeur
RCI de 9,34 points (Tableau 1 : SEP – 90 % – QIT). Pour le QIT, une différence égale ou supérieure
à 9,34 points est donc significative sur le plan clinique, puisqu’il s’agit d’une différence rare dans
la population (< 10 %).
Comme dans la méthode précédente, cette valeur (SEP – 90 % = 9,34) est ensuite corrigée
pour les effets de pratique (8,3 points). Un déclin significatif est alors observé si la différence est
supérieure ou égale à 1,04 point (Tableau 1 : SEP – Déclin 90 % – QIT = 9,34 − 8,30), tandis qu’une
augmentation significative est observée lorsque le gain est de plus de 17,64 points (Tableau 1 :
SEP – Progression 90 % – QIT = 9,34 + 8,30). Comme dans la méthode SEmDiff , on intègre ici à
la fois les erreurs de mesure (rtr ) et les effets de pratiques.
Calcul des scores vrais des indices du test et du retest. Avec la méthode SEP, et lorsque l’on
dispose des résultats individuels, l’étape suivante intègre la régression à la moyenne en calculant
pour chaque enfant et pour chaque indice, le score vrai de la manière suivante (Charter, 1996) :
Score vrai = M + r (X − M)
Dans cette formule, M correspond à la moyenne du groupe lors du test (ou du retest), r cor-
respond à la corrélation test–retest et X correspond au score observé au test (ou au retest) pour
un individu donné (pour une description, voir le manuel d’interprétation du WISC-IV ; Wechsler,
2005, p. 32). Prenons l’exemple d’un petit garçon de 8 ans et 5 mois qui a obtenu un QIT de 134 lors
de la première passation (QIT1 ). La moyenne du QIT pour le groupe est de 100,812 et la corré-
lation test–retest est de 0,798. L’application de la formule donne un score vrai de 127,296 pour
ce petit garçon (100,812 + 0,798[134 − 100,812]). En d’autres termes, compte tenu de la régres-
sion à la moyenne, le QIT « vrai » de ce petit garçon serait de 127,296 et non de 134, soit
près de 7 points de moins. Pour chaque enfant et pour chaque indice de la première passa-
tion (test), les scores vrais ont été calculés. Cette procédure permet d’intégrer la régression à la
moyenne.
Prédiction des scores vrais des indices du retest à partir des scores vrais des indices du test.
L’étape suivante consiste à prédire les scores vrais des indices de la deuxième passation (retest),
à partir des scores vrais de la première passation (test). Par exemple, la régression qui permet de
prédire le score vrai du QIT du retest (QIT2 ) à partir du score vrai du QIT du test (QIT1 ) est la
suivante : QIT2 prédit = 0,732 (score vrai QIT1 ) + 29,551. Si nous reprenons l’exemple du petit
garçon, le score vrai du QIT prédit pour la deuxième passation (QIT2 ) est de 122,73, alors que
son score vrai était de 127,296 pour la première passation ([0,732*127,296] + 29,551).
Calcul de la différence entre les scores vrais prédits au retest et les scores observés au retest.
Enfin, la dernière étape consiste à calculer la différence entre les scores vrais au retest, prédits à
partir des scores vrais de la première passation (test), et les scores observés lors du retest (score
352 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

vrai prédit retest–score retest observé). Il s’agit ici d’évaluer la différence entre les scores prédits
et les scores observés. Si la différence entre le score vrai prédit et le score observé au retest est
supérieure ou égale à 1,04 points (SEP – Déclin 90 % – QIT = 9,34 − 8,30), on considèrera qu’il
s’agit d’un déclin significatif. À l’inverse, si la différence entre le score vrai prédit et le score
observé est supérieure ou égale à 17,64 points (SEP – Progression 90 % – QIT = 9,34 + 8,30), on
considèrera qu’il s’agit d’une progression significative sur le plan clinique.

2. Valeurs seuils pour le WISC-IV

Dans un premier temps, nous avons calculé les RCI (i.e., valeurs seuils) pour les différents
indices du WISC-IV à partir de l’étude test–retest rapportée dans le manuel d’interprétation du
WISC-IV, 2005, p. 34). Il s’agit d’une étude à court terme (intervalle test–retest = 1 mois). Ces
RCI sont calculées à partir de la méthode SEmDiff (standard error of the difference) et de la
méthode SEP (standard error of prediction). Ces valeurs intègrent les effets d’apprentissage et
les erreurs de mesure, et permettent de déterminer si les différences de performances entre le test
et le retest sont significatives sur le plan clinique ou non.
Avec la méthode SEmDiff , on constate que les déclins doivent varier de 1,47 points (soit 2 points
pour le QIT) à 12,92 points (soit 13 points pour l’IMT) pour être significatifs sur le plan clinique.
Les progressions doivent varier de 14,04 points (soit 15 points pour l’ICV) à 26,12 points (soit
27 points pour l’IVT) pour être significatives. Dit autrement, il faut observer une augmentation
du QIT de plus de 18 points pour traduire une « vraie » progression, mais il suffit d’une chute de
2 points pour traduire un déclin.
Avec la méthode SEP, les déclins doivent varier de 1,04 point (soit 2 points pour le QIT) à
13,08 points (soit 14 points pour l’IMT). Quant aux progressions, les valeurs seuils varient de
13,19 points (soit 14 points pour l’ICV) à 26,22 points (soit 27 points pour l’IVT). On constate
globalement que les valeurs estimées à partir des 2 méthodes sont très proches. Compte tenu
des effets de pratique et des erreurs de mesure, ces résultats indiquent pour le QIT qu’une
chute de 2 points entre le test et le retest correspond à une différence significative sur le plan
clinique !
Comme indiqué précédemment, les valeurs seuils rapportées dans le Tableau 1 sont basées sur
les données du manuel du WISC-IV (Wechsler, 2005). Il s’agit d’une étude test–retest avec un
intervalle test–retest court, puisqu’il est en moyenne de 1 mois. Pourtant, en pratique lorsque les
échelles de Wechsler sont employées pour évaluer les changements du fonctionnement cognitif au
travers du temps, les intervalles test–retest sont supérieurs à une année. Par conséquent, les valeurs
seuils rapportées dans le Tableau 1 sont peu utiles sur le plan clinique puisqu’elles sont basées sur
des effets de pratique incorrects (Chelune et al., 1993 ; Estevis et al., 2012). En effet, les gains liés
aux effets de pratique diminuent lorsque les intervalles de temps augmentent (Estevis et al., 2012 ;
Salthouse, 2014a). En d’autres termes, avec un intervalle test–retest supérieur à une année, les
effets de pratique devraient être inférieurs à ceux obtenus avec un intervalle test–retest de 1 mois
(Watkins & Smith, 2013). Afin d’obtenir des informations plus utiles à « long terme », nous avons
estimé de nouvelles valeurs seuils à partir des données de l’étude de Kieng et al. (2015). Dans
cette recherche, les auteurs ont administré le WISC-IV à 2 reprises à 277 enfants de 7 à 12 ans6 .

6 Cette recherche a été soutenue par le Fond National suisse de la recherche scientifique dans le cadre d’un subside

alloué à T. Lecerf, N. Favez et J. Rossier (requête no 100014-135406 : Long-term stability of the WISC-IV : Standard and
CHC composite scores).
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 353

Tableau 2
Effets de pratique et valeurs seuils pour des différences test–retest significatives sur le plan clinique à partir de l’étude à
long terme de Kieng et al. (2015) et pour les 2 méthodes.
ICV IRP IMT IVT QIT IAG ICC

Effets de pratique −0,23 1,26 2,02 5,79 2,53 0,51 4,87

SEmDiff 9,64 10,44 12,49 12,17 8,50 8,51 11,36
SEmDiff – 90 % 15,85 17,17 20,55 20,01 13,98 14,00 18,69
SEmDiff – Déclin 90 % 16,09 15,92 18,53 14,23 11,45 13,50 13,81
SEmDiff – Progression 90 % 15,62 18,43 22,57 25,80 16,51 14,52 23,56
SEPDiff 9,12 9,37 11,31 11,00 7,70 7,76 10,29
SEP – 90 % 15,00 15,41 18,61 18,11 12,67 12,77 16,92
SEP – Déclin 90 % 15,24 14,15 16,59 12,32 10,14 12,26 12,05
SEP – Progression 90 % 14,77 16,66 20,63 23,89 15,20 13,28 21,80
Valeurs seuils SEmDiff
Déclin 90 % ≥ 17 ≥ 16 ≥ 19 ≥ 15 ≥ 12 ≥ 14 ≥ 14
Progression 90 % ≥ 16 ≥ 19 ≥ 23 ≥ 26 ≥ 17 ≥ 15 ≥ 24

L’intervalle test–retest variait de 1 an à 3 ans et 3 mois (moyenne de l’intervalle test–retest = 1 an

et 9 mois ; écart-type = 6 mois ; médian = 1,67). Kieng et al. rapportent des coefficients de fidélité
test–retest qui varient de 0,614 (IMT) à 0,799 (ICV). Pour rappel, les coefficients de fidélité dans
l’étude à court terme sont plus élevés, puisqu’ils varient de 0,78 (IMT) à 0,91 (QIT ; Wechsler,
2005). Dans l’étude de Kieng et al., en ce qui concerne les effets de pratique, ils varient de
–0,23 point pour l’ICV à 5,79 points pour l’IVT. Pour l’ICV, il n’y a donc pas de gain, puisque la
performance est légèrement inférieure lors de la 2e passation. Pour comparaison, les gains dans
l’étude à court terme varient de 2,1 points pour l’ICV à 12 points pour l’IVT (Wechsler, 2005,
p. 34). Pour le QIT, le gain est de 8,3 points à court terme. Cela signifie qu’en moyenne les enfants
progressent de 8 points entre la première et la deuxième passation, lorsque l’intervalle test–retest
est d’environ 1 mois. En revanche, lorsque l’intervalle test–retest est d’environ 1 an et 9 mois, les
gains sont de 2,53 points. Conformément aux travaux d’Estevis et al. (2012), les gains liés aux
effets de pratique diminuent lorsque les intervalles de temps augmentent.
Le Tableau 2 rapporte les valeurs seuils obtenues à partir des méthodes SEmDiff et SEP. Pour
l’ICV, on constate à partir de la méthode SEmDiff que le déclin est significatif sur le plan cli-
nique si la différence est supérieure ou égale à 17 points (SEmDiff – Déclin 90 % = 16,09). À
l’inverse, la progression est cliniquement significative si le gain est supérieur ou égal à 16 points
(SEmDiff – Progression 90 % = 15,62). Pour les autres indices, les déclins doivent être supérieurs
ou égaux à 12 points pour le QIT (11,45), et à 19 points pour l’IMT (18,53). Les gains sont signi-
ficatifs si les différences sont supérieures ou égales à 15 points pour l’IAG (14,52), et à 26 points
pour l’IVT (25,80). Sur la base de cette méthode, nous proposons des valeurs seuils pour des
déclins ou des progressions significatives sur le plan clinique (cf. Tableau 3).
Les valeurs seuils obtenues à partir de la méthode SEP sont légèrement inférieures à celles
estimées à partir de la méthode SEmDiff . Pour le QIT par exemple, compte tenu des erreurs de
mesure et des effets de pratique, le déclin est significatif si la différence est supérieure ou égale à
11 points (SEP – Déclin 90 % = 10,14), alors que la progression est significative si la différence
est supérieure ou égale à 16 points (SEP – Progression 90 % = 15,20).
Dans une dernière analyse, l’utilité de ces valeurs seuils a été appréciée en évaluant la stabilité
intra-individuelle. Pour cela, les données de Kieng et al. (2015) ont une nouvelle fois été utilisées.
Rappelons que ces auteurs ont observé que le pourcentage d’enfants présentant des performances
354 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

Tableau 3
Pourcentage d’enfants stables et nombre d’enfants instables sur le plan intra-individuel selon les méthodes (données de
l’étude de Kieng et al., 2015 ; n = 277).
ICV IRP IMT IVT QIT IAG ICC

% enfants stables
± 2 SEma 69,0 69,70 63,90 59,60 58,80 73,60 57,00
Méthode standard 90,97 90,25 89,89 87,73 86,64 87,00 87,00
SEmDiff 92,06 90,61 90,61 90,61 92,06 89,53 91,70
SEP 90,61 89,53 90,25 83,39 87,00 90,61 87,00
Déclin : nombre d’enfants
Méthode standard 14 10 11 5 8 14 4
SEmDiff 11 12 11 16 11 14 12
SEP 24 17 17 39 29 17 31
Progression : nombre d’enfants
Méthode standard 11 17 17 29 29 19 32
SEmDiff 11 14 15 10 11 15 11
SEP 14 12 10 7 7 9 6
a Pourcentages rapportés par Kieng et al. (2015).

stables variait de 58,80 % pour le QIT à 73,60 % pour l’IAG7 (Tableau 3). Ces résultats sont
similaires à ceux de Lander (2010) et indiquent que les pourcentages d’enfants présentant des
performances stables ne sont pas très satisfaisants (stabilité intra-individuelle).
Comme l’ont fait Kieng et al. (2015), nous avons recensé le nombre d’enfants qui présentent
des changements test–retest significatif sur le plan clinique (stabilité intra-individuelle). Toutefois,
dans cette étude le recensement est effectué selon trois méthodes :

• la méthode standard de l’erreur type de la différence sans contrôle des effets de pratique
(Tableau 2 : SEmDiff – 90 %) ;
• selon la méthode de l’erreur type de la différence avec contrôle des effets de pratique
(SEmDiff – Déclin 90 %/SEmDiff – Progression 90 %) ;
• et enfin, selon la méthode SEP avec contrôle des effets de pratique (SEP – Déclin
90 %/SEP – Progression 90 %).

Rappelons que la méthode SEP tient compte de la régression à la moyenne, en prédisant les
scores vrais du retest à partir des scores vrais du test. Le Tableau 3 rapporte les pourcentages
d’enfants stables et le nombre enfants qui ont décliné ou progressé pour les différents indices.
Ayant opté pour le seuil de 10 %, cela signifie que théoriquement 90 % des enfants devraient
présenter des performances stables, soit environ 249 enfants sur un total de 277. Parmi les 10 %
restants, 5 % des enfants devraient théoriquement décliner (soit 14 enfants) et 5 % devraient
progresser (soit 14 enfants).
À partir de la méthode standard sans contrôle des effets de pratique (Tableau 3 : méthode
standard), les pourcentages d’enfants stables varient de 86,64 % (QIT) à 90,97 % (ICV). Si ces
pourcentages sont relativement proches des attentes théoriques (90 %), on observe d’importantes
différences pour les pourcentages d’enfants qui déclinent et/ou qui progressent. Pour le QIT par

7 Comme Lander (2010), et Watkins et Smith (2013), Kieng et al. ont utilisé comme critère de stabilité un intervalle

de ± 2 erreurs type de mesure (± 2 SEm). On peut consulter Jacobson et Truax (1991) pour une critique de cette procédure.
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 355

exemple, 8 enfants auraient décliné (soit 2,89 % au lieu de 5 %), tandis que 29 enfants auraient
progressé (soit 10,47 %). Ne pas tenir compte des effets de pratique conduit pour le QIT à
une sous-estimation du nombre d’enfants déclinant et à une surestimation du nombre d’enfants
progressant.
À partir de la méthode standard de l’erreur type de la différence avec contrôle des effets de
pratique et des erreurs de mesure (SEmDiff 90 %), on constate pour l’ICV que 11 enfants présentent
un déclin supérieur ou égal à 17 points (sur un total de 277 enfants), tandis que 11 enfants
présentent un gain supérieur ou égal à 16 points (Tableau 3 : SEmDiff – Progression 90 % – ICV).
Cela signifie que pour l’ICV 92,06 % des enfants présentent des performances test–retest stables
(SEmDiff – ICV). Pour l’IRP, 12 enfants présentent un déclin supérieur ou égal à 16 points, et
14 enfants présentent un gain supérieur ou égal à 19 points ; cela signifie que 90,61 % des enfants
présentent des performances stables pour l’IRP. Pour l’IMT, 90,61 % des enfants présentent des
performances stables (11 enfants présentent un déclin et 15 enfants présentent un gain significatif).
Pour l’IVT, 16 enfants présentent un déclin supérieur ou égal à 15 points et 10 enfants présentent
un gain supérieur ou égal à 26 points ; 90,61 % des enfants présentent donc des IVT stables.
En ce qui concerne le QIT, 92,06 % des enfants présentent des performances stables (11 enfants
avec un déclin et 11 enfants avec une progression). Nous avons également évalué la stabilité des
changements test–retest pour l’IAG et l’ICC. Pour l’IAG, on constate que 89,53 % des enfants
présentent des performances stables (14 enfants avec un déclin et 15 enfants avec un gain), tandis
que pour l’ICC 91,70 % des enfants présentent des performances stables (12 enfants avec un
déclin et 11 enfants avec un gain). Globalement, l’utilisation de ces valeurs seuils conduit à des
pourcentages très proches des attentes théoriques (i.e., 90 %). Plus important, les pourcentages
d’enfants qui déclinent et qui progressent sont plus proches des attentes théoriques (respectivement
14 et 14 enfants) qu’avec la méthode standard sans contrôle des effets de pratique (Tableau 3 :
méthode Standard). Les pourcentages obtenus à partir de la méthode SEmDiff avec contrôle des
effets d’apprentissage sont donc plus adéquats que ceux obtenus avec la méthode standard sans
contrôle des effets de pratique. Il est donc essentiel de tenir compte des effets de pratique.
Enfin, avec la méthode SEP, les pourcentages d’enfants stables varient de 83,39 % (IVT) à
90,61 % (IAG et ICV). Globalement, les pourcentages d’enfants stables appréciés à partir de la
méthode SEP sont légèrement moins bons que ceux obtenus à partir de la méthode SEmDiff , et les
pourcentages d’enfants déclinant et progressant sont un peu plus éloignés des attentes théoriques
(5 % soit 14 enfants ; Tableau 3). Pour le QIT par exemple, 29 enfants auraient décliné (10,47 %),
tandis que 7 enfants seulement auraient progressé (2,53 %). On surestime ici le nombre d’enfants
qui auraient décliné, alors que l’on sous-estime le nombre d’enfants qui auraient progressé. Les
pourcentages observés à partir de la méthode SEP sont donc globalement un peu moins proches
des attentes théoriques que ceux obtenus à partir de la méthode SEmDiff (i.e., 90 % et 5 % et 5 %).

3. Discussion

L’un des objectifs assignés à l’administration des échelles d’intelligence (WAIS-IV, WISC-
IV, etc.) consiste en l’évaluation des changements du fonctionnement cognitif au fil du temps.
Il s’agit pour le praticien d’estimer si l’individu a progressé ou s’il a régressé. Pour cela, on
peut notamment employer la procédure test–retest. La différence entre les performances lors du
test et du retest est alors considérée comme un indicateur du changement. Pourtant, déterminer
s’il y a un réel changement dans le niveau des performances entre le test et le retest, et donc
dans le fonctionnement de l’individu, ne peut pas se faire « simplement » à partir du score de
différence test–retest. On peut citer dans ce sens, Lineweaver et Chelune (2003, p. 332) : « . . .one
356 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

cannot interpret scores from a repeat evaluation in the same manner and with the same meaning
as those from an initial evaluation. The systematic bias inherent in retest scores, as well as
measurement error, can dramatically alter the magnitude of the scores themselves, rendering the
at best questionable and at worst misleading ». C’est la raison pour laquelle il est indispensable
de disposer de valeurs seuils intégrant les erreurs de mesure et les effets de pratique. Les valeurs
seuils rapportées dans cet article devraient donc aider les praticiens à déterminer si les scores de
changement sont cliniquement significatifs ou non (Estevis et al., 2012).
Les valeurs seuils estimées à partir des données de l’étude de Kieng et al. (2015), indiquent que
la méthode SEmDiff est celle qui conduit aux pourcentages les plus adéquats (Tableaux 2 et 3).
Pour le QIT, on peut faire l’hypothèse d’un déclin significatif sur le plan clinique si la différence
est égale ou supérieure à 12 points (Tableau 2). À l’inverse, on peut faire l’hypothèse d’une
progression si la différence est supérieure ou égale à 17 points (Tableau 2). On constate alors
que 92,06 % des enfants présentent des performances test–retest stables (Tableau 3), tandis que
3,98 % des enfants progressent (11 enfants) et 3,98 % déclinent (11 enfants).
Rappelons que les 3 études, qui ont évalué la stabilité à long terme du WISC-IV, ont abouti à
la conclusion que la stabilité du QIT n’était pas satisfaisante (Lander, 2010 ; Watkins & Smith,
2013 ; Kieng et al., 2015). Par exemple, Kieng et al. ont conclu que 58,80 % des enfants seulement
présentaient des performances de QIT stables entre le test et le retest (Tableau 3 : ± 2 SEm).
La divergence entre les pourcentages rapportés dans la présente étude et ceux indiqués dans la
recherche de Kieng et al. (ou de Lander, et de Watkins et Smith) provient tout d’abord de la méthode
utilisée pour définir des performances stables. Kieng et al. ont défini, comme Lander (2010), ou
Canivez et Watkins (2001), un intervalle de ±2 erreurs types de mesures (±2 SEm). Dans notre
étude, les valeurs seuils sont basées sur la méthode SEmDiff qui intègre les effets de pratique
et les erreurs de mesures. En outre, Lander (2010), Canivez et Watkins (2001), ou Kieng et al.
(2015) ont fixé des valeurs seuils a priori (± 2 SEm) et ont ensuite apprécié le nombre d’enfants
qui présentaient des performances stables. Or, si l’on définit un changement significatif sur le
plan clinique, soit un changement qui s’observe pour moins de 10 % de la population, les valeurs
seuils doivent être estimées empiriquement à partir des données observées et ne peuvent donc
pas être définies a priori. Pour résumer, l’interprétation des changements test–retest nécessite des
procédures psychométriques plus complexes que de simples différences ou un simple intervalle
de ± 2 SEm ; c’est la raison pour laquelle nous avons développé ces valeurs seuils.

4. Conclusion

Compte tenu des biais qui surviennent dans les tests psychologiques et notamment dans les
échelles d’intelligence, la simple différence entre les scores observés lors du test et du retest ne
peut pas renseigner sur un éventuel changement du fonctionnement cognitif. La présente étude
montre qu’il est indispensable de corriger les scores de différence test–retest pour les effets de
pratique, l’erreur de mesure et la régression à la moyenne. La comparaison entre les 2 méthodes
utilisées pour calculer les valeurs seuils montre que la méthode SEmDiff est plus adéquate. Cette
étude présente néanmoins quelques limitations : l’échantillon ne comporte que 277 enfants, qui
sont originaires de Suisse-Romande. En outre, il s’agit d’enfants non consultants. Il faudrait
donc conduire des études test–retest sur d’autres échantillons culturels/cliniques. Cela permettrait
d’évaluer la généralisabilité des valeurs seuils proposées ici. Une autre limitation est liée au fait
que ces méthodes postulent que les effets de pratique sont les mêmes pour tous les enfants ; or,
quelques études ont montré que cela n’était pas le cas. Les enfants avec de meilleures compétences
intellectuelles ont tendance à présenter des effets de pratique plus importants lors du retest. Malgré
T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358 357

ces limites, les valeurs seuils devraient aider les praticiens à identifier si les changements observés
sont significatifs sur le plan clinique ou non (i.e., < 10 % de la population).

Déclaration de liens d’intérêts

Les auteurs déclarent ne pas avoir de liens d’intérêts.

Références

AERA, APA, & NCME. (2014). The Standards for educational and psychological testing. Washington: American
Educational Research Association.
Basso, M. R., Carona, F. D., Lowery, N., & Axelrod, B. N. (2002). Practice effects on the WAIS-III across 3- and 6-month
intervals. The Clinical Neuropsychologist, 16, 57–63. http://dx.doi.org/10.1076/clin.16.1.57.8329
Brooks, B. L., Sherman, E. M. S., Iverson, G. L., Slick, D. J., & Strauss, E. (2011). Psychometric foundations for the
interpretation of neuropsycholigical test results. In M. R. Schoenberg, & J. G. Scott (Eds.), The little black book of
neuropsychology: A syndrom-based approach (pp. 893–922). Springer Science + Business Media.
Brooks, B. L., Strauss, E., Sherman, E. M. S., Iverson, G. L., & Slick, D. J. (2009). Developments in neuropsycho-
logical assessment: Refining psychometric and clinical interpretive methods. Canadian Psychology, 50, 196–209.
http://dx.doi.org/10.1037/a0016066
Canivez, G. L., & Watkins, M. W. (2001). Long-term stability of the Wechsler Intelligence Scale for Children – Third
Edition among students with disabilities. School Psychology Review, 30, 438–453.
Charter, R. A. (1996). Revisiting the standard errors of measurement, etimate, and prediction and their application to test
scores. Perceptual and Motor Skills, 82, 1139–1144.
Chelune, G. J. (2003). Assessing reliable neuropsychological change. In R. D. Franklin (Ed.), Predicion in forensic and
neuropsychology: Sound statistical practices (pp. 65–88). Mahwah, NJ: Erlbaum.
Chelune, G. J., Naugle, R. I., Lüders, H., Sedlak, J., & Awad, I. A. (1993). Individual change after epilepsy surgery:
Practice effects and base-rate information. Neuropsychology, 7, 41–52 [doi:0894-4105/93/S3.00].
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003.
Cronbach, L. J., & Furby, L. (1970). How we should measure “change” – or should we? Psychological Bulletin, 74, 68–80.
Estevis, E., Basso, M. R., & Combs, D. (2012). Effects of practice on the Wechsler Adult Intelligence Scale-IV across 3- and
6-month intervals. The Clinical Neuropsychologist, 26, 239–254. http://dx.doi.org/10.1080/13854046.2012.659219
Jacobson, N. S., Follette, W. C., & Revenstrof, D. (1984). Psychotherapy outcome research: Methods for reporting
variability and evaluating clinical significance. Behavior Therapy, 15, 336–352.
Jacobson, N. S., & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in
psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12–19.
Kaufman, A. S., & Kaufman, N. L. (2008). KABC-II batterie pour l’examen psychologique de l’enfant (2e éd.). Paris:
ECPA.
Kieng, S., Rossier, J., Favez, N., Geistlich, S., & Lecerf, T. (2015). Stabilité à long terme des scores du WISC-IV : Forces
et faiblesses personnelles. Pratiques psychologiques, 21, 137–154. http://dx.doi.org/10.1016/j.prps.2015.03.002
Lander, J. (2010). Long-term stability of scores on the Wechsler Intelligence Scale for Children — Fourth Edition in
children with learning disabilities. Dissertation Abstracts International: Section A. Humanities and Social Sciences.
Lineweaver, T. T., & Chelune, G. J. (2003). Use of the WAIS-III and WMS-III in the context of serial assessment.
Interpreting reliable and meaningful change. In D. S. Tulsky, D. H. Saklofske, G. J. Chelune, R. J. Ivnik, A. Prifitera,
& R. K. Heaton (Eds.), Clinical interpretation of the WAIS-III and WMS-III (pp. 303–337). New York: Academic
Press.
Reuchlin, M. (1992). Introduction à la recherche en psychologie. Nathan.
Salthouse, T. (2014a). Frequent assessments may obscure cognitive decline. Psychological Assessment, 26, 1063–1069.
http://dx.doi.org/10.1037/pas0000007
Salthouse, T. (2014b). Why are there different age relations in cross-sectional and longitudinal compari-
sons of cognitive functioning? Current Directions in Psychological Science, 23, 252–256. http://dx.doi.
org/10.1177/0963721414535212
Sattler, J. M. (2008). Assessment of children. Cognitive foundations (5th ed.). San Diego: Jerome M. Sattler, Publisher,
Inc.
358 T. Lecerf et al. / Pratiques psychologiques 23 (2017) 345–358

Sherman, E. M. S., Brooks, B. L., Iverson, G. L., Slick, D. J., & Strauss, E. (2011). Reliability and validity in neu-
ropsychology. In M. R. Schoenberg, & J. G. Scott (Eds.), The little black book of neuropsychology. New York:
Springer.
Watkins, M. J., & Smith, L. G. (2013). Long-term stability of the Wechsler Intelligence Scale for children — Fourth
Edition. Psychological Assessment, 25, 477–483. http://dx.doi.org/10.1037/a0031653
Watson, D. G. (2015). Intelligence testing. In E. A. Polloway (Ed.), The death penalty and intellectual disability (pp.
113–140). Washington, DC: American Association on Intellectual and Developmental Disabilities.
Wechsler, D. (2005). Manuel de l’échelle d’intelligence de Wechsler pour enfants (4e éd.). Paris: Éditions du centre de
psychologie appliquée.
Wechsler, D. (2011). WAIS-IV nouvelle version de l’échelle d’intelligence de Wechlser pour adultes (4e éd.). Paris: Les
éditions du centre de psychologie appliquée.

View publication stats

Vous aimerez peut-être aussi

Fiche - WISC & WAIS (BEA1)
Pas encore d'évaluation
Fiche - WISC & WAIS (BEA1)
5 pages
Correction Wais Iv
Pas encore d'évaluation
Correction Wais Iv
33 pages
Rapport Psychologique Du Wais IV
Pas encore d'évaluation
Rapport Psychologique Du Wais IV
4 pages
Fiche technique des échelles Wechsler
Pas encore d'évaluation
Fiche technique des échelles Wechsler
7 pages
5-Wais Iv
Pas encore d'évaluation
5-Wais Iv
19 pages
Examen D Aptitude Psychologique - Exercices
Pas encore d'évaluation
Examen D Aptitude Psychologique - Exercices
9 pages
Manuel WAIS IV Complet
Pas encore d'évaluation
Manuel WAIS IV Complet
39 pages
Évaluation Attentionnelle Adulte/Adolescent
Pas encore d'évaluation
Évaluation Attentionnelle Adulte/Adolescent
5 pages
WAIS-IV - Cap 1 Et 2 Résumé
Pas encore d'évaluation
WAIS-IV - Cap 1 Et 2 Résumé
13 pages
Cuadernillo Respuesta - Busquedas de Simbolos Del Wais-Iv-Ok
Pas encore d'évaluation
Cuadernillo Respuesta - Busquedas de Simbolos Del Wais-Iv-Ok
8 pages
Analyse Et Interprétation wisc-IV
Pas encore d'évaluation
Analyse Et Interprétation wisc-IV
33 pages
Wais-Iv - Rapport Des Scores 1
Pas encore d'évaluation
Wais-Iv - Rapport Des Scores 1
6 pages
Questionnaire WAIS IV
Pas encore d'évaluation
Questionnaire WAIS IV
17 pages
WISC-V Français - Rapport Des Scores - 28412261 - 20240308080930425
Pas encore d'évaluation
WISC-V Français - Rapport Des Scores - 28412261 - 20240308080930425
10 pages
Wisc 5
0% (1)
Wisc 5
1 page
Wais-IV, Wppsi-IV Et WNV (Échelle Non Verbale)
Pas encore d'évaluation
Wais-IV, Wppsi-IV Et WNV (Échelle Non Verbale)
3 pages
Évaluation Visuo-Motrice Simplifiée
0% (1)
Évaluation Visuo-Motrice Simplifiée
3 pages
Mémoire et Représentations en Psychologie
Pas encore d'évaluation
Mémoire et Représentations en Psychologie
9 pages
WISC-V Français - Ylan
Pas encore d'évaluation
WISC-V Français - Ylan
10 pages
Compte-Rendu Jules K
Pas encore d'évaluation
Compte-Rendu Jules K
4 pages
CR WAIS Converti
Pas encore d'évaluation
CR WAIS Converti
2 pages
Test de Bells
Pas encore d'évaluation
Test de Bells
4 pages
Magazine N°2 - DEFINITIF
Pas encore d'évaluation
Magazine N°2 - DEFINITIF
78 pages
Psychomtrietd 3
Pas encore d'évaluation
Psychomtrietd 3
0 page
Remédiation Cognitive : Transfert Quotidien et Autonomie
100% (1)
Remédiation Cognitive : Transfert Quotidien et Autonomie
18 pages
Wa0009.
Pas encore d'évaluation
Wa0009.
21 pages
2023-24 - Bilan Neuropsy Chez Lenfant
Pas encore d'évaluation
2023-24 - Bilan Neuropsy Chez Lenfant
19 pages
Cas Clinique WISC-V
Pas encore d'évaluation
Cas Clinique WISC-V
2 pages
Règles D'interprétation Du Wisc-IV Et V
100% (1)
Règles D'interprétation Du Wisc-IV Et V
3 pages
Les Épreuves: Hapitre
Pas encore d'évaluation
Les Épreuves: Hapitre
22 pages
MANUEL Du Test Des Matrices Progressives de Raven
Pas encore d'évaluation
MANUEL Du Test Des Matrices Progressives de Raven
6 pages
Composition Des Échelles Différentielles D'efficiences Intellectuelles
Pas encore d'évaluation
Composition Des Échelles Différentielles D'efficiences Intellectuelles
6 pages
Questionnaire Sur Les Habiletés Exécutives1
Pas encore d'évaluation
Questionnaire Sur Les Habiletés Exécutives1
5 pages
TREF
Pas encore d'évaluation
TREF
2 pages
WAIS-IV : Évaluation cognitive avancée
Pas encore d'évaluation
WAIS-IV : Évaluation cognitive avancée
4 pages
Wisc V Interpretationserge X
100% (1)
Wisc V Interpretationserge X
3 pages
Rapport de Stage 2022 DUBOE Hermione 000463306-1
Pas encore d'évaluation
Rapport de Stage 2022 DUBOE Hermione 000463306-1
6 pages
Consignes Et Protocoles Lexis
Pas encore d'évaluation
Consignes Et Protocoles Lexis
7 pages
INESSS FicheOutil Echelle MMSE
100% (1)
INESSS FicheOutil Echelle MMSE
5 pages
Pep 3 Manuel D'application
Pas encore d'évaluation
Pep 3 Manuel D'application
87 pages
HaylingTest Qubec Manueldadministrationetnormes
100% (1)
HaylingTest Qubec Manueldadministrationetnormes
12 pages
K Abc
100% (1)
K Abc
3 pages
15 Mots Rey
Pas encore d'évaluation
15 Mots Rey
13 pages
Parentalité et Santé Mentale
Pas encore d'évaluation
Parentalité et Santé Mentale
257 pages
Attention
Pas encore d'évaluation
Attention
3 pages
Utilisation Croisee Wisc V Celf 5
Pas encore d'évaluation
Utilisation Croisee Wisc V Celf 5
9 pages
Rapport Psychologique-Wppsi Iv
Pas encore d'évaluation
Rapport Psychologique-Wppsi Iv
6 pages
Évaluation des Comportements Enfantins
Pas encore d'évaluation
Évaluation des Comportements Enfantins
1 page
MPDF
Pas encore d'évaluation
MPDF
13 pages
Le Bilan Neuropsychologique 1
Pas encore d'évaluation
Le Bilan Neuropsychologique 1
2 pages
Trousse de Secours À La Rédaction - WISC-V Josée Douaire, Ph.D. Psychologue
Pas encore d'évaluation
Trousse de Secours À La Rédaction - WISC-V Josée Douaire, Ph.D. Psychologue
25 pages
Scores Composites CHC Pour La WAIS IV No
Pas encore d'évaluation
Scores Composites CHC Pour La WAIS IV No
12 pages
SEBAN Emie - Bilan Psychométrique
Pas encore d'évaluation
SEBAN Emie - Bilan Psychométrique
7 pages
Orthomalin - Epreuves Du Tedi-Math - 2023-02-28
0% (3)
Orthomalin - Epreuves Du Tedi-Math - 2023-02-28
3 pages
Cerad Démences
Pas encore d'évaluation
Cerad Démences
30 pages
WPPSI-IV : Changements et Échelles Clés
100% (1)
WPPSI-IV : Changements et Échelles Clés
20 pages
Les Différents Tests Psychologiques Et Neuropsychologiques Utilisées en IME
Pas encore d'évaluation
Les Différents Tests Psychologiques Et Neuropsychologiques Utilisées en IME
2 pages
Tsa - Quotient Empathie Eq
Pas encore d'évaluation
Tsa - Quotient Empathie Eq
4 pages
Appariement D'image Prot Bilan
Pas encore d'évaluation
Appariement D'image Prot Bilan
3 pages
AdaptationTransculturelle Gana 2021
Pas encore d'évaluation
AdaptationTransculturelle Gana 2021
19 pages
Poly WISC-IV Sans Protocole Novembre 2014
Pas encore d'évaluation
Poly WISC-IV Sans Protocole Novembre 2014
38 pages
Remédiation Neuropsychologique : Théorie et Pratique
100% (2)
Remédiation Neuropsychologique : Théorie et Pratique
40 pages
Cognition Sociale - PECS-B
Pas encore d'évaluation
Cognition Sociale - PECS-B
12 pages
Evaluation Psychologique TSA
Pas encore d'évaluation
Evaluation Psychologique TSA
4 pages
1 CAP Histoire de L'informatique
Pas encore d'évaluation
1 CAP Histoire de L'informatique
5 pages
Projet Des Ponts Speciaux (Pont Biais)
Pas encore d'évaluation
Projet Des Ponts Speciaux (Pont Biais)
53 pages
Programmation Paramétrée en Génie Mécanique
Pas encore d'évaluation
Programmation Paramétrée en Génie Mécanique
15 pages
Hydractive
Pas encore d'évaluation
Hydractive
14 pages
TP2 Onduleur Monophasé
Pas encore d'évaluation
TP2 Onduleur Monophasé
7 pages
Profil Topographique Puy de Dôme-Pariou
Pas encore d'évaluation
Profil Topographique Puy de Dôme-Pariou
19 pages
Manipulation Des Bases de Données Avec PDO
Pas encore d'évaluation
Manipulation Des Bases de Données Avec PDO
3 pages
TP Fraisage MOCN: Usinage Prismatique
Pas encore d'évaluation
TP Fraisage MOCN: Usinage Prismatique
7 pages
Bilan 1 - Algorithmes
Pas encore d'évaluation
Bilan 1 - Algorithmes
2 pages
Part 3 Cours Web Intelligence - NY 2024 2025
Pas encore d'évaluation
Part 3 Cours Web Intelligence - NY 2024 2025
61 pages
TD1 - La Voix Sur IP: Exercice 1: Les Protocoles RTP Et RTCP
100% (2)
TD1 - La Voix Sur IP: Exercice 1: Les Protocoles RTP Et RTCP
3 pages
Supervision Industrielle et SCADA
Pas encore d'évaluation
Supervision Industrielle et SCADA
15 pages
BOUSEBA GPC Compte Rendu
Pas encore d'évaluation
BOUSEBA GPC Compte Rendu
6 pages
Tds Thermo - Majji
Pas encore d'évaluation
Tds Thermo - Majji
12 pages
Nam 1844 1 3 442 1
Pas encore d'évaluation
Nam 1844 1 3 442 1
15 pages
La Chimie Quantitative - Theorie - 2OS PDF
Pas encore d'évaluation
La Chimie Quantitative - Theorie - 2OS PDF
23 pages
Régulation Électromécanique: Références et Applications
Pas encore d'évaluation
Régulation Électromécanique: Références et Applications
1 page
Introduction à la Mécanique Classique
Pas encore d'évaluation
Introduction à la Mécanique Classique
36 pages
Corrigé BTS 2001 : Électricité et Moteurs
Pas encore d'évaluation
Corrigé BTS 2001 : Électricité et Moteurs
3 pages
TP 2 IPSA Loi de Biot Et Savart Helmoltz 2010-2011
Pas encore d'évaluation
TP 2 IPSA Loi de Biot Et Savart Helmoltz 2010-2011
7 pages
Progression Maths ACCES P1 CP
Pas encore d'évaluation
Progression Maths ACCES P1 CP
7 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
59 pages
Calcul de L'inverse D'une Matrice 3x3 PDF
Pas encore d'évaluation
Calcul de L'inverse D'une Matrice 3x3 PDF
3 pages
Asservissement
100% (1)
Asservissement
9 pages
Le Diagnostic Histologique de La Maladie Cœliaque Et de Ses Complications
Pas encore d'évaluation
Le Diagnostic Histologique de La Maladie Cœliaque Et de Ses Complications
5 pages
Introduction À La Physique Quantique - Chapitre 3 - Modèle de Drude Des Électrons Libres (Métaux)
100% (1)
Introduction À La Physique Quantique - Chapitre 3 - Modèle de Drude Des Électrons Libres (Métaux)
6 pages
Outils Statistiques Iso 13485
Pas encore d'évaluation
Outils Statistiques Iso 13485
15 pages
Évaluation de Maths 2nde STT Février 2023
Pas encore d'évaluation
Évaluation de Maths 2nde STT Février 2023
2 pages
TP1 Can Oc2
Pas encore d'évaluation
TP1 Can Oc2
9 pages
Introduction à l'Algorithmique
Pas encore d'évaluation
Introduction à l'Algorithmique
144 pages